Blog

self-llm – 专为中国开发者推出的开源大模型教程
self-llm是什么

self-llm （开源大模型食用指南）是Datawhale专为国内初学者打造的开源大模型教程，基于Linux平台，提供从环境配置到模型部署、微调的全流程指导，涵盖LLaMA、ChatGLM等主流模型。项目能简化开源大模型的使用流程，帮助学生和研究者快速上手。教程提供多种模型的详细教程、微调方法（如LoRA、ptuning）及应用案例，适合不同层次的学习者。项目鼓励社区参与，共同完善内容，推动开源大模型的普及和应用。

self-llm的主要功能
- 环境配置指导：提供基于Linux平台的开源大模型环境配置指南，帮助用户搭建适合不同模型运行的基础环境。
- 模型部署教程：涵盖国内外主流开源大模型（如LLaMA、ChatGLM、InternLM等）的本地部署方法，包括命令行调用、在线Demo部署等。
- 微调方法指导：提供全量微调、LoRA微调、ptuning等高效微调方法的详细教程，帮助用户根据需求对模型进行定制化优化。
- 应用开发指导：结合LangChain等框架，指导用户如何将开源大模型集成到实际应用中，打造领域特色的私域模型。
- 社区共创与支持：鼓励用户提交问题（issue）或贡献代码（PR），共同完善教程内容，形成开源社区的协作与支持体系。
self-llm支持的模型
- GLM-4.1-Thinking
  - GLM-4.1V-Thinking vLLM 部署调用
  - GLM-4.1V-Thinking Gradio 部署
  - GLM-4.1V-Thinking LoRA 微调及 SwanLab 可视化记录
  - GLM-4.1V-Thinking Docker 镜像
- GLM-4.5-Air
  - GLM-4.5-Air vLLM 部署调用
  - GLM-4.5-Air EvalScope 智商情商评测
  - GLM-4.5-Air LoRA 微调
  - GLM-4.5-Air Ucloud Docker 镜像
- ERNIE-4.5
  - ERNIE-4.5-0.3B-PT LoRA 微调及 SwanLab 可视化记录
  - ERNIE-4.5-0.3B-PT LoRA Docker 镜像
- Hunyuan-A13B-Instruct
  - Hunyuan-A13B-Instruct 模型架构解析
  - Hunyuan-A13B-Instruct SGLang 部署调用
  - Hunyuan-A13B-Instruct LoRA SwanLab 可视化微调
  - Hunyuan-A13B-Instruct LoRA Docker 镜像
- Qwen3
  - Qwen3 模型结构解析
  - Qwen3-8B vllm 部署调用
  - Qwen3-8B Windows LMStudio 部署调用
  - Qwen3-8B Evalscope 智商情商评测
  - Qwen3-8B LoRA 微调及 SwanLab 可视化记录
  - Qwen3-30B-A3B 微调及 SwanLab 可视化记录
  - Qwen3 Think 解密
  - Qwen3-8B Docker 镜像
  - Qwen3-0.6B 的小模型用途
  - Qwen3-1.7B 医学推理式对话微调及 SwanLab 可视化记录
  - Qwen3-8B GRPO 微调及 SwanLab 可视化
- Kimi-VL-A3B
  - Kimi-VL-A3B 技术报告解读
  - Kimi-VL-A3B-Thinking WebDemo 部署（网页对话助手）
- Llama4
  - Llama4 对话助手
  - SpatialLM
  - SpatialLM 3D点云理解与目标检测模型部署
  - Hunyuan3D-2
  - Hunyuan3D-2 系列模型部署
  - Hunyuan3D-2 系列模型代码调用
  - Hunyuan3D-2 系列模型 Gradio 部署
  - Hunyuan3D-2 系列模型 API Server
  - Hunyuan3D-2 Docker 镜像
- Gemma3
  - Gemma-3-4b-it FastApi 部署调用
  - Gemma-3-4b-it ollama + open-webui 部署
  - Gemma-3-4b-it Evalscope 智商情商评测
  - Gemma-3-4b-it LoRA 微调
  - Gemma-3-4b-it Docker 镜像
  - Gemma-3-4b-it GRPO 微调及 SwanLab 可视化
- DeepSeek-R1-Distill
  - DeepSeek-R1-Distill-Qwen-7B FastApi 部署调用
  - DeepSeek-R1-Distill-Qwen-7B Langchain 接入
  - DeepSeek-R1-Distill-Qwen-7B WebDemo 部署
  - DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用
  - DeepSeek-R1-0528-Qwen3-8B-GRPO 及 SwanLab 可视化
- MiniCPM-o-2_6
  - MiniCPM-o-2.6 FastApi 部署调用
  - MiniCPM-o-2.6 WebDemo 部署
  - MiniCPM-o-2.6 多模态语音能力
  - MiniCPM-o-2.6 可视化 LaTeX_OCR LoRA 微调
- InternLM3
  - InternLM3-8b-instruct FastApi 部署调用
  - InternLM3-8b-instruct Langchain 接入
  - InternLM3-8b-instruct WebDemo 部署
  - InternLM3-8b-instruct LoRA 微调
  - InternLM3-8b-instruct o1-like 推理链实现
- phi4
  - phi4 FastApi 部署调用
  - phi4 Langchain 接入
  - phi4 WebDemo 部署
  - phi4 LoRA 微调
  - phi4 LoRA 微调 NER任务 SwanLab 可视化记录版
  - phi4 GRPO 微调及 SwanLab 可视化
- Qwen2.5-Coder
  - Qwen2.5-Coder-7B-Instruct FastApi 部署调用
  - Qwen2.5-Coder-7B-Instruct Langchain 接入
  - Qwen2.5-Coder-7B-Instruct WebDemo 部署
  - Qwen2.5-Coder-7B-Instruct vLLM 部署
  - Qwen2.5-Coder-7B-Instruct LoRA 微调
  - Qwen2.5-Coder-7B-Instruct LoRA 微调 SwanLab 可视化记录版
- Qwen2-vl
  - Qwen2-vl-2B FastApi 部署调用
  - Qwen2-vl-2B WebDemo 部署
  - Qwen2-vl-2B vLLM 部署
  - Qwen2-vl-2B LoRA 微调
  - Qwen2-vl-2B LoRA 微调 SwanLab 可视化记录版
  - Qwen2-vl-2B LoRA 微调案例 – LaTeXOCR
- Qwen2.5
  - Qwen2.5-7B-Instruct FastApi 部署调用
  - Qwen2.5-7B-Instruct Langchain 接入
  - Qwen2.5-7B-Instruct vLLM 部署调用
  - Qwen2.5-7B-Instruct WebDemo 部署
  - Qwen2.5-7B-Instruct LoRA 微调
  - Qwen2.5-7B-Instruct o1-like 推理链实现
  - Qwen2.5-7B-Instruct LoRA 微调 SwanLab 可视化记录版
- Apple OpenELM
  - OpenELM-3B-Instruct FastApi 部署调用
  - OpenELM-3B-Instruct LoRA 微调
- Llama3_1-8B-Instruct
  - Llama3_1-8B-Instruct FastApi 部署调用
  - Llama3_1-8B-Instruct Langchain 接入
  - Llama3_1-8B-Instruct WebDemo 部署
  - Llama3_1-8B-Instruct LoRA 微调
  - 动手转换 GGUF 模型并使用 Ollama 本地部署
- Gemma-2-9b-it
  - Gemma-2-9b-it FastApi 部署调用
  - Gemma-2-9b-it Langchain 接入
  - Gemma-2-9b-it WebDemo 部署
  - Gemma-2-9b-it Peft LoRA 微调
- Yuan2.0
  - Yuan2.0-2B FastApi 部署调用
  - Yuan2.0-2B Langchain 接入
  - Yuan2.0-2B WebDemo 部署
  - Yuan2.0-2B vLLM 部署调用
  - Yuan2.0-2B LoRA 微调
- Yuan2.0-M32
  - Yuan2.0-M32 FastApi 部署调用
  - Yuan2.0-M32 Langchain 接入
  - Yuan2.0-M32 WebDemo 部署
- DeepSeek-Coder-V2
  - DeepSeek-Coder-V2-Lite-Instruct FastApi 部署调用
  - DeepSeek-Coder-V2-L
self-llm的项目地址
- GitHub仓库：https://github.com/datawhalechina/self-llm
self-llm的应用场景
- 教育与学习：为初学者提供从环境配置到模型微调的全流程指导，助力学生和开发者快速掌握开源大模型的使用方法。
- 企业应用开发：帮助企业根据自身业务需求对开源大模型进行定制化微调，开发智能客服、知识管理等专属应用。
- 个人项目开发：支持个人开发者利用开源大模型开发智能写作助手、个人智能助手等项目，提升个人生产力。
- 研究与创新：为研究人员提供实验平台，支持对开源大模型的架构优化、训练方法改进等研究工作。
August 8, 2025
NeuralAgent – 开源的桌面AI助手，自然语言执行复杂任务
NeuralAgent是什么

NeuralAgent 是开源的桌面 AI 个人助手，通过自然语言指令自动化执行多种复杂任务，如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化，在 Windows 平台上支持后台浏览器控制，实现高效任务处理。NeuralAgent 集成 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini 等多种主流语言模型，基于模块化设计（如规划器、分类器等），支持多模态（文本+视觉）交互。NeuralAgent 基于 FastAPI 后端、Electron 桌面应用和 React 前端构建，为用户提供高度可配置的智能分析与执行能力，助力实现真正的生产力提升。

NeuralAgent的主要功能
- 桌面自动化：通过模拟键盘输入、鼠标点击、表单填写、邮件发送和网页导航等操作，实现任务的自动执行。
- 后台任务执行：在 Windows 平台上支持后台浏览器控制，无需人工干预即可完成任务。
- 多模态交互：支持文本和视觉输入，能处理图像和文字信息。
- 多语言模型支持：集成多种主流语言模型，如 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini。
- 模块化设计：包含多种功能模块，如规划器、分类器、建议器等，支持根据任务需求灵活配置。
- 跨平台运行：支持 Windows、macOS 和 Linux，但部分功能（如后台自动化）目前仅限 Windows。
NeuralAgent的技术原理
- FastAPI 后端：用 FastAPI 构建高性能后端服务，负责处理 API 请求和任务调度。集成 PostgreSQL 数据库，用在存储任务数据和用户信息。
- Electron 桌面应用：用 Electron 构建跨平台桌面应用，提供用户界面。内嵌 React 前端框架，实现流畅的用户体验。
- Python 自动化脚本：基于 Python 的 pyautogui 库实现桌面自动化操作，如鼠标点击和键盘输入。在 Windows 平台上通过 WSL（Windows Subsystem for Linux）实现后台浏览器控制。
- 模块化代理系统：基于模块化设计，将不同任务分配给专门的代理模块（如规划器、分类器等）。每个模块根据任务需求调用不同的语言模型，实现智能分析和执行。
NeuralAgent的项目地址
- 项目官网：https://www.getneuralagent.com/
- GitHub仓库：https://github.com/withneural/neuralagent
NeuralAgent的应用场景
- 办公自动化：自动填写和发送邮件、编辑文档、生成报告，显著提升工作效率，减少重复性劳动，让办公更加高效便捷。
- 网页自动化：快速抓取网页数据、自动提交表单、批量处理网页任务，助力用户高效收集信息和完成在线操作。
- 个人生产力提升：智能规划日常任务、整理信息、生成笔记，帮助用户高效管理时间和工作，提升个人生产力。
- 创意工作辅助：生成创意文案、辅助设计草图、提供代码片段，激发创作灵感，加速创意工作流程，助力创意实现。
- 企业级应用：自动分析数据、跟踪项目进度、生成项目报告，助力企业高效运营与管理，提升团队协作效率。
August 8, 2025
GitMCP – 开源MCP服务器，可将GitHub仓库转为实时文档中心
GitMCP是什么

GitMCP 是开源的远程 Model Context Protocol (MCP) 服务器，能将 GitHub 仓库（包括代码库和 GitHub 页面）转变为实时文档中心，让 AI 工具（如 Cursor）直接访问最新文档和代码，消除代码幻觉提高代码准确性。GitMCP支持特定仓库和通用服务器两种模式，用户能根据需求选择。GitMCP 无需安装，零配置，支持嵌入式聊天，完全免费、保护隐私。GitMCP能通过智能搜索和文档访问，确保 AI 助手提供准确、可靠的代码示例和 API 用法。

GitMCP的主要功能
- 最新文档和代码访问：提供GitHub项目最新文档和代码，确保AI助手获取准确信息。
- 消除代码幻觉：通过实时数据减少AI生成错误代码的概率，提升代码正确性。
- 零配置使用：无需安装或注册，直接在IDE中添加GitMCP URL即可使用。
- 嵌入式聊天：支持通过浏览器直接与仓库文档聊天，快速获取信息。
- 隐私保护：开源免费，不收集个人信息，用户能自行托管增强隐私。
- 灵活访问方式：支持特定仓库和通用服务器两种模式，满足不同使用需求。
GitMCP的技术原理
- 基于Model Context Protocol (MCP)：GitMCP的核心是Model Context Protocol (MCP)，一个标准化的协议，支持AI助手从外部源请求额外的上下文信息。基于MCP，GitMCP能与各种AI助手（如Cursor、Claude、VSCode等）无缝集成。
- 用户指定GitHub项目：用户用提供特定的GitMCP URL（例如gitmcp.io/{owner}/{repo}或{owner}.gitmcp.io/{repo}）指定需要访问的GitHub项目。这种URL格式让GitMCP能精准定位到目标仓库，确保AI助手访问到正确的项目文档和代码。GitMCP提供通用的动态端点gitmcp.io/docs，支持AI助手根据上下文动态选择仓库。
- AI助手发起请求：当用户向AI助手提出问题（例如“如何使用某个库的特定功能”）时，AI助手通过MCP协议向GitMCP发送请求。请求的内容包括获取文档、搜索代码示例或查询特定功能的实现细节。
- GitMCP执行请求：GitMCP接收到AI助手的请求后，根据请求类型执行相应的操作。
- 返回数据给AI助手：GitMCP将从GitHub仓库中检索到的文档、代码或其他信息返回给AI助手。数据会用结构化的形式返回，让AI助手能够速解析并利用信息。AI助手根据数据生成更准确、更可靠的回答，减少因信息过时或不准确导致的代码幻觉（hallucinations）。
GitMCP的项目地址
- 项目官网：https://gitmcp.io/
- GitHub仓库：https://github.com/idosal/git-mcp
GitMCP的应用场景
- 跨项目协作：团队成员在不同GitHub项目中协作时，快速获取各项目最新文档和代码，提升协作效率。
- 学习新技术：开发者学习新库或框架时，快速找到GitHub项目的关键文档和示例代码，加速学习过程。
- 开源项目贡献：开发者参与开源项目时，快速了解项目结构和代码规范，降低贡献门槛。
- 远程开发支持：远程团队成员在不同地区访问GitHub项目，确保信息同步，减少因网络或时差导致的沟通成本。
- 项目迁移与重构：在迁移或重构GitHub项目时，帮助开发者快速找到关键代码片段和文档，减少工作量。
August 8, 2025
LandPPT – 开源AI PPT生成工具，简化三步工作流
LandPPT是什么

LandPPT 是AI演示文稿生成平台，能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型，兼容 PDF、Word、Markdown 等文件格式，支持智能解析内容，生成结构清晰的大纲和精美的 PPT 页面。平台提供丰富的模板系统和自定义功能，用户基于现代化的 Web 界面进行可视化编辑、实时预览和多格式导出。LandPPT 基于三步工作流（需求确认、大纲生成、PPT 生成）简化创作过程，让演示文稿制作更高效、更智能。

LandPPT的主要功能
- 多AI提供商支持：集成多种主流AI模型，如OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列，及本地部署的Ollama模型，用户能根据需求灵活选择。
- 强大的文件处理能力：支持PDF、Word、Markdown、TXT等多种文件格式，支持智能解析内容，基于联网进行深度研究，为PPT生成提供更丰富的素材。
- 丰富的模板系统：提供全局主模板和多样化的页面布局选择，AI能生成创意页面布局，支持用户导入和创建个性化模板，满足不同用户的审美和需求。
- 完整的项目管理：基于三阶段工作流（需求确认、大纲生成、PPT生成），配备可视化大纲编辑器和实时预览功能，帮助用户高效管理演示文稿的创作过程。
- 现代化Web界面：用户界面友好，支持AI聊天编辑功能，用户在侧边栏用自然语言与AI交互，实时修改PPT内容；提供PDF、HTML、PPTX等多种格式的导出功能，方便用户在不同场景下使用演示文稿。
如何使用LandPPT
- 本地安装：
  - 克隆项目：
git clone https://github.com/sligter/LandPPT.git cd LandPPT
- - 安装依赖：
    
    安装 uv（推荐）：
# Windows powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" # macOS/Linux curl -LsSf https://astral.sh/uv/install.sh | sh
- - 同步环境：
uv sync uv pip install apryse-sdk --extra-index-url=https://pypi.apryse.com
- - 配置环境变量：
    
    复制 .env.example 文件并重命名为 .env：
cp .env.example .env
- - 编辑 .env 文件，配置 AI 提供商的 API 密钥（如 OpenAI、Anthropic 等）。
  - 启动服务：
uv run python run.py
- - 访问 Web 界面：打开浏览器，访问 http://localhost:8000。初始账号为 admin，密码为 admin123。
- Docker 部署：
  - 拉取镜像：
docker pull bradleylzh/landppt:latest
- - 创建并配置 .env 文件：将 .env.example 文件的内容复制到本地的 .env 文件中，根据需要配置 API 密钥。
  - 运行容器：
docker run -d \ --name landppt \ -p 8000:8000 \ -v $(pwd)/.env:/app/.env \ -v landppt_data:/app/data \ -v landppt_reports:/app/research_reports \ -v landppt_cache:/app/temp \ bradleylzh/landppt:latest
- - 查看日志：
docker logs -f landppt
- 访问 Web 界面：打开浏览器，访问 http://localhost:8000。初始账号为 admin，密码为 admin123。
LandPPT的项目地址
- GitHub仓库：https://github.com/sligter/LandPPT
LandPPT的应用场景
- 企业汇报：快速将项目报告、数据分析等文档内容转化为专业 PPT，节省制作时间，提升汇报效率。
- 学术演讲：将学术论文、研究资料转化为清晰的演示文稿，帮助学者专注于内容讲解，提升演讲效果。
- 教育培训：教师将教学大纲、教案快速生成互动性强的课件，提升教学吸引力和学生参与度。
- 市场营销：为产品推广、品牌宣传等活动快速生成创意十足、视觉精美的演示文稿，吸引目标受众。
- 个人分享：帮助个人快速整理演讲思路，生成个性化的 PPT，适用技术分享、创意展示等场景。
August 8, 2025
WeKnora – 腾讯开源的文档理解与语义检索框架
WeKnora是什么

WeKnora 是腾讯开源的基于大语言模型（LLM）的文档理解与语义检索框架。框架基于模块化设计，支持多模态文档解析（如 PDF、Word、图片等），通过 RAG（检索增强生成）机制实现精准问答。WeKnora 提供强大的多模态认知引擎、灵活的检索策略、私有化部署和开箱即用的 Web UI 界面，适用于企业知识管理、科研文献分析、法律合规审查等场景，支持本地化部署和微信生态集成，助力高效的知识管理和智能问答。

WeKnora的主要功能
- 多模态文档解析：支持多种格式文档（如PDF、Word、图片等）的精准解析，提取文本、表格及图像语义，构建统一的结构化知识中枢。
- 智能语义检索：基于语义向量索引和多种检索策略（如关键词、向量检索、知识图谱检索），实现高效、精准的内容召回。
- 大语言模型集成：支持集成主流大语言模型（如Qwen、DeepSeek等），提供上下文感知和多轮对话功能，生成高质量的智能问答。
- 知识图谱构建：将文档内容转化为知识图谱，展示段落之间的语义关联，提升检索结果的相关性和广度。
- 灵活部署与适配：支持本地化部署、Docker镜像和私有云部署，适配多种生产环境，内置监控日志体系，便于运维管理。
- 用户友好的交互体验：提供直观的Web UI界面，支持拖拽上传文档和知识库管理，零代码部署，快速集成到微信生态。
WeKnora的技术原理
- 模块化架构：基于模块化设计，构建一条完整的文档理解与检索流水线，包括文档解析、向量化处理、检索引擎和大模型推理等核心模块。每个模块均能灵活配置与扩展，支持自由组合检索策略和大语言模型。
- 多模态预处理：用OCR技术和跨模态建模技术，精准解析文档中的图文混排内容。将非结构化内容转换为结构化数据，构建统一的语义视图。
- 语义向量索引：将文档内容向量化处理，构建高效的语义索引。支持多种向量数据库（如PostgreSQL的pgvector、Elasticsearch等），实现快速的语义检索。
- RAG机制：基于Retrieval-Augmented Generation（RAG）机制，将检索到的上下文相关片段与大语言模型结合。实现更高质量的语义回答，支持复杂的语义建模和多轮对话。
WeKnora的项目地址
- 项目官网：https://weknora.weixin.qq.com/
- GitHub仓库：https://github.com/Tencent/WeKnora
WeKnora的应用场景
- 企业知识管理：帮助员工快速检索内部文档、规章制度和操作手册，提升知识查找效率，降低培训成本。
- 科研文献分析：加速论文、研究报告和学术资料的检索与分析，助力科研人员高效开展研究工作。
- 产品技术支持：提供产品手册问答和技术文档检索服务，帮助用户快速解决技术问题，提升客户服务质量。
- 法律合规审查：支持合同条款检索、法规政策查询和案例分析，提高法律合规效率，降低法律风险。
- 医疗知识辅助：辅助医学文献检索、诊疗指南查询和病例分析，提升医疗决策的科学性和准确性。
August 8, 2025
实测GPT-5，算错数学题，真升级了吗？
预告了几十波，OpenAI 今天终于上线了 GPT-5。

上线没多久，就刷新了 lmarena.ai 竞技榜分数，直冲第一：
- 在文本、Web 开发和视觉竞技场中稳居第一；
- 在硬提示、编程、数学、创造力、长查询等方面同样荣登榜首。
但是尴尬的是，发布会上GPT-5 生成的图表似乎翻车了。52.8 比 69.1 大？30.8 和 69.1 一样高？

这就是 Sam Altman 口中 OpenAI 有史以来最聪明的模型吗？

第一时间实测了一波，除了编程，都挺拉的…我只想说：还我4o。

01. 一手实测

case 1 经典易错题

先问一个经典的数学问题：

提示词：9.9和9.11谁大

GPT-5 回答：9.11 比 9.9 大，因为在数字比较时先比整数部分（相同都是 9），再比小数部分，11 > 9。

如果你是问日期，那就是 9 月 11 日比 9 月 9 日更晚。

case 2 编程

提示词：写一个 javascript 代码，显示一个小球在旋转的正六边形内弹跳。球应该受到重力和摩擦力的影响，它必须从旋转的墙壁上真实地弹起，用 javascript 和 html 实现它

整体效果还行，能看得出来受到重力和摩擦力的影响，不过弹跳的效果不是特别突出。

case 3 图像生成

提示词：将图片里的内容翻译成中文，需要通俗易懂引人入胜，不改变原意，不要凭空添加没有的内容。

我们对比一下，大家觉得哪个翻译的更好？

Gemini 2.5 Pro：

豆包：

GPT‑5：

在我看来，Gemini 2.5 Pro 翻译的最好，整体很通顺，很有人味；豆包其次，翻译虽然没什么大错，但缺少了一点人味；GPT 5 和豆包差不多，但是和Gemini 2.5 Pro 比起来，差距挺明显的。

case 4 前端

提示词：生成一个番茄钟的网页应用，包含以下功能：- 目标：计时器 + 会话记录。- 功能：自定义时长、自动启动选项、会话图表（SVG）、声音警报（提示音）、暗黑模式。- 界面应该适合日常使用，并能给用户一些活力！

GPT‑5 生成的番茄钟网页，整体审美要好一些，计时、暂停等等按钮的功能也完整，但是页面上这个大环形…我不理解。

Gemini 2.5 Pro 生成的页面功能很完整，只是比较简陋，布局和色彩搭配没有 GPT‑5 好看，但是盖不住它能用啊！

02. 一些分享

整体测下来，GPT‑5 幻觉有没有减少不知道，智商好像真的减少了。文案水平不仅没有增强，连以前的 GPT‑4o 都比不过。

编程能力也中规中矩，可能是我没有用太复杂的提示词去测试…

前端的审美感觉还不错，就是还会存在一些小BUG。

这些都是One Shot，没有经过多次测试，但是不可能每次都刚好踩雷吧？

最后，我只想说，这发布会白看了，GPT还我睡眠！

GPT‑5 目前已上线官网，全员可用了。免费版每5小时可发送10条，Plus 版每3小时可发送80条。

不信邪的可以自己去试试。

原文链接：9.11比9.9大？GPT-5数学题都算错，真升级了吗？
August 8, 2025
GPT-5 – OpenAI推出的最新最强AI模型
GPT-5是什么

GPT-5 是 OpenAI 最新推出的人工智能模型，是目前最强模型，面向所有用户开放。GPT-5是一个统一系统，包括一个基础模型用在解答常见问题，一个深度推理模型（GPT-5 思维模块）用在处理复杂难题，一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令（如“仔细思考”）智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色，大幅减少幻觉和错误，回答更贴近真实情况。GPT-5 支持多模态输入，能处理图像和文本。GPT-5 提供免费、Plus 和 Pro 三种模式，满足不同用户的需求。

GPT-5的主要功能
- 高效回答与推理：支持根据问题复杂度自动切换基础模型和深度推理模型，快速回答常见问题或深入思考复杂问题。
- 编程能力：GPT-5 是 OpenAI 最强的编程模型，能生成高质量代码、调试大型代码库，在生产级任务中表现出色。
- 写作与创意表达：能将粗糙想法转化为有文学深度和节奏感的精彩写作，支持多种文体并提供创意灵感。
- 健康咨询：在健康相关问题上表现更好，能够提供精准建议，主动提示潜在问题，并确保回答安全可靠。
- 多模态理解：支持图像和视频输入，能进行视觉推理和空间分析，处理多模态任务。
- 减少幻觉与提高准确性：显著降低幻觉率，减少事实性错误，回答更准确且更诚实。
- 安全与可靠性：引入“安全完成”训练方法，减少欺骗行为，确保在生物和化学等高风险领域的安全性。
- 定制化与个性化：提供四种预设性格（愤世嫉俗者、机器人、倾听者和书呆子），用户根据需求选择互动风格。
- 多语言支持：支持多种语言对话，能够理解和生成多种语言内容，帮助用户进行语言转换。
- API 支持：GPT-5 通过 API 提供多种模型选择（如 GPT-5、GPT-5 mini、GPT-5 nano），灵活定价，方便开发者使用。
GPT-5的版本信息
- GPT-5：默认版本，适用大多数通用任务，能根据问题复杂度自动切换基础模型和深度推理模式。
- GPT-5 Mini：一个更小、更快的版本，适用轻量级任务或在达到使用限制后继续使用。
- GPT-5 Nano：最小版本，专为开发者设计，适合快速原型设计和高效处理轻量级任务。
- GPT-5 Pro：高级版本，专为 Pro 订阅者提供，使用更强大的计算资源，适用复杂任务和深度推理。
GPT-5的性能表现
- 编程与工具链能力：
  - SWE-bench Verified：74.9%（GPT-4：52%，o3：69.1%）
  - Aider Polyglot：88%，错误率比 o3 低 33%
  - 前端开发：内部测试胜率 70%
  - τ²-bench 工具链任务：96.7%
- 数学与多模态能力：
  - AIME 2025 数学测评：Pro+Python 模式 100%
  - MMMU 多模态理解：84.2%
- 专业领域：
  - HealthBench Hard（医疗）：46.2%
- 知识准确性与可靠性：
  - 错误率比 GPT-4o 低约 45%
  - thinking 模式比 o3 低约 80%
  - 幻觉率仅为 o3 的 1/6
  - 欺骗率 2.1%（o3 为 4.8%）
- 人机交互与风格：
  - 谄媚倾向（sycophancy）降至 6%（GPT-4 为 14.5%）
GPT-5的官网地址
- 官网地址：ChatGPT
如何使用GPT-5
- 访问官网：访问GPT-5的官网ChatGPT。
- 免费用户：
  - 访问方式：GPT-5 已全局上线，免费用户能直接在 ChatGPT 中使用。
  - 限制：免费用户的 GPT-5 用量会明显受限。当用量耗尽后，模型会被切换成 GPT-5 mini。
- Plus 用户：Plus 用户有更高的 GPT-5 使用额度。
  - 额外功能：Plus 用户能在 Codex CLI 中使用 GPT-5，开启“思考模式”。
- Pro 用户：Pro 用户能无限制访问 GPT-5，可使用 GPT-5 Pro。
  - 功能：Pro 用户能访问所有 GPT-5 的功能，包括高级的编程和创作工具。
- 企业版和教育版用户：企业版和教育版用户将在一周内获得访问权限。
- 在 API 中使用 GPT-5：
  - API 调用方法：
    
    支持的模型：API 中支持的 GPT-5 模型包括 gpt-5、gpt-5-mini、gpt-5-nano 和 gpt-5-chat。
    
    输入输出：支持用图文输入，并用文字输出。
    
    Endpoint：支持 /chat/completions、/responses 和 /assistants 等 endpoint。
  - 功能支持：
    
    Streaming：支持流式输出。
    
    Function calling：支持函数调用。
    
    Structured outputs：支持结构化输出。
    
    微调：支持模型微调。
    
    Responses API：支持 Web search、File search、Code interpreter 和 MCP 等功能。
GPT-5 的产品定价
- 免费用户：所有用户都能免费使用 GPT-5，但有使用次数限制。
- Plus 用户：$20 美元/月，获得更高的使用额度，适合日常频繁使用。
- Pro 用户：$200 美元/月，获得无限访问权限，能使用 GPT-5 Pro 版本。
- API 定价：
  - GPT-5：每百万输入 token 1.25 美元，输出 10 美元。
  - GPT-5 Mini：每百万输入 token 0.25 美元，输出 2 美元。
  - GPT-5 Nano：每百万输入 token 0.05 美元，输出 0.40 美元。
GPT-5的应用场景
- 编程开发：生成高质量代码、调试大型代码库，并在生产级任务中表现出色，适合软件开发、前端设计和复杂系统开发。
- 写作创作：GPT-5 能将粗糙想法转化为有文学深度和节奏感的精彩写作，支持多种文体，适合撰写文章、报告、诗歌和创意写作。
- 健康咨询：提供精准建议，主动提示潜在问题，并确保回答安全可靠，适合健康咨询和医学科普。
- 多模态任务：进行视觉推理和空间分析，适合处理图表解读、照片总结和多模态任务。
- 复杂问题解决：处理复杂的科学问题、数学难题和多步骤任务，适合科学研究、高级教育和专业咨询。
GPT-5的官方示例

滚动球小游戏

Prompt：Create a single-page app in a single HTML file with the following requirements:
- Name: Jumping Ball Runner
- Goal: Jump over obstacles to survive as long as possible.
- Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.
- The UI should be colorful, with parallax scrolling backgrounds.
- The characters should look cartoonish and be fun to watch.
- The game should be enjoyable for everyone.
（中文）提示词：创建一个单页面应用，仅使用一个 HTML 文件，满足以下要求：
- 游戏名称：跳跃球跑酷
- 游戏目标：跳跃躲避障碍物，尽可能存活更长时间。
- 游戏功能：速度逐渐增加、记录最高分、重试按钮、为操作和事件添加有趣的音效。
- 用户界面：色彩丰富，带有视差滚动背景。
- 角色设计：角色应具有卡通风格，看起来有趣。
- 游戏体验：适合所有人游玩。
像素艺术

Prompt：Create a single-page app, in a single HTML file, that provides a retro pixel painting experience.
- Canvas: fixed pixel grid with zoom; tools for pencil, eraser, fill, line, rectangle, circle; grid toggle.
- Palette: 16-color swatches with two custom slots; eyedropper; foreground/background swap.
- Editing: undo/redo, copy/paste selection, flip/rotate selection, clear canvas; status bar with cursor coords.
- UI shell: faux OS window (’90s style) with draggable title bar, toolbar icons, tooltip hints.
- Import/Export: import PNG (quantize to palette) and export PNG/SpriteSheet + JSON; save/load from localStorage.
- Shortcuts: number keys for tools, +/- for zoom; accessible labels and focus order.
- Responsive layout; no uploads to servers.
（中文）提示词：创建一个单页面应用，仅使用一个 HTML 文件，提供复古像素画体验：
- 画布：固定像素网格，可缩放；提供铅笔、橡皮擦、填充、直线、矩形、圆形工具；可切换网格显示。
- 调色板：16种颜色样本，带有两个自定义颜色槽；取色器；前景/背景颜色切换。
- 编辑功能：撤销/重做，复制/粘贴选择区域，翻转/旋转选择区域，清除画布；状态栏显示光标坐标。
- 用户界面：模拟 90 年代操作系统窗口风格，带有可拖动标题栏、工具栏图标、提示信息。
- 导入/导出：导入 PNG（量化到调色板）并导出 PNG/精灵表 + JSON；从 localStorage 保存/加载。
- 快捷键：数字键切换工具，加减键调整缩放；提供可访问的标签和焦点顺序。
- 响应式布局；不上传至服务器。
August 8, 2025
RightBlogger – AI内容创作平台，一键优化SEO文章
RightBlogger是什么

RightBlogger是专为博主和内容创作者设计的AI驱动的内容创作平台，提供80多种AI工具，包括文章生成、视频转博客文章、关键词研究、内容改写和AI图像生成等，帮助用户快速创作高质量内容并优化SEO。RightBlogger支持WordPress、Webflow、Ghost等多种平台，提供定制化工具，助力用户高效创作。

RightBlogger的主要功能
- AI文章生成器：输入主题或关键词，快速生成SEO优化的完整文章，节省写作时间。
- 视频转博客文章：将YouTube视频内容转化为SEO优化的博客文章，适合视频创作者。
- 关键词研究工具：提供关键词数据，包括搜索量、竞争度和每次点击成本（CPC），助力SEO优化。
- 内容改写工具：帮助用户改写段落或短语，避免重复，提升内容多样性。
- AI图像生成器：基于AI技术生成相关图片，丰富内容表现。
- 智能建议工具：基于用户网站生成长尾关键词文章创意，拓展内容方向。
- AI聊天工具：通过AI聊天功能，帮助用户在写作过程中获取灵感和建议。
- 自定义工具创建：基于RightBlogger Studio，用户你呢创建并嵌入自定义AI工具到自己的网站，吸引访客。
RightBlogger的官网地址
- 官网地址：https://rightblogger.com/
RightBlogger的产品定价
- Free：每月$0，提供每月使用2,000字，生成500字文章，AI聊天，AI图像生成，有限的关键词研究工具，免费课程和电子邮件支持。
- Pro：每年$24.99/月，包括免费计划所有功能，无限制工具使用，生成2000+字文章，关键词研究和SEO工具，自定义写作风格和语调，文章根据知识定制，5个SEO报告，5个嵌入工具。
- Business：每年$49.99/月，包含Pro计划所有功能，外加1名额外团队成员，25个项目，50个MyTone，25个SEO报告，25个嵌入工具，每月小组辅导电话。
RightBlogger的应用场景
- 个人博主：帮助博主提高内容质量，增加博客流量和读者参与度。
- 企业内容营销团队：用在协调团队工作流程，确保内容质量一致性，优化内容达到营销目标。
- 自由撰稿人：提高写作效率，同时保证内容质量，满足客户需求。
- 新闻和媒体组织：快速生成新闻标题和摘要，分析热门话题和趋势，优化内容提高搜索引擎排名。
- 电子商务平台：创建引人注目的产品描述，优化产品页面以提高转化率，生成吸引力强的营销文案。
August 7, 2025
Macaron – 首个Personal AI Agent，个性化生成实用工具
Macaron是什么

Macaron 是首个 Personal AI Agent，你的贴心AI伙伴。Macaron 能根据简单请求快速生成实用的生活工具，如健身追踪器、旅行规划器、阅读管理器等，帮助用户更好地生活。Macaron基于深度记忆系统，记住用户偏好、习惯和情绪，无需重复上下文就能理解需求。Macaron不仅关注效率，更注重情感连接，用温暖和同理心陪伴。Macaron 的目标是让生活更有意义，不是单纯追求生产力。

Macaron的主要功能
- 深度记忆（Deep Memory）：支持记住用户的聊天习惯、偏好、情绪和生活经历，无需重复上下文，像真正的朋友一样理解用户。
- 个性化体验：基于个性测试匹配用户，形成独特的性格和互动风格，随着使用不断进化。
- 即时工具生成：用户只需简单描述需求，Macaron 能快速生成实用的生活工具，如健身追踪器、旅行规划器等，无缝融入日常生活。
- 情感连接：用温暖和同理心为设计目标，提供情感支持，像真正的朋友一样陪伴用户。
- 实用功能示例：提供旅行规划、摄影指导、烹饪辅助、阅读管理、健康提醒、园艺提醒等多种实用功能，满足用户多样化需求。
Macaron的官网地址
- 官网地址：https://macaron.im/
Macaron的应用场景
- 旅行规划：根据用户的兴趣和偏好生成个性化的旅行行程，提供实用的旅行建议。
- 摄影指导：提供最佳拍摄角度、光线和相机设置建议，帮助用户拍出更美的照片。
- 烹饪辅助：创建烹饪进度跟踪工具，提供菜谱建议和烹饪指导，让烹饪更轻松。
- 阅读管理：整理用户喜欢的书籍中的有意义的引文，生成个性化的阅读见解，提升阅读体验。
- 健康提醒：在忙碌的日常中发送个性化的伸展运动提醒，帮助用户保持健康和活力。
August 7, 2025
FlowSpeech – AI文本转语音工具，书面语转自然流畅的口语
FlowSpeech是什么

FlowSpeech 是创新的 AI 文本转语音（TTS）工具，专注于将书面语转换为自然流畅的口语。通过上下文感知和多模态技术，解决了传统 TTS 在语调变化和情感表达上的不足，让 AI 生成的语音听起来更生动、自然。FlowSpeech 具备智能内容筛选功能，能自动识别并剪裁不适合朗读的内容，如广告信息和无意义字符串，显著提升语音输出质量。

FlowSpeech的主要功能
- 书面语转口语：FlowSpeech 是全球首个专注于将书面语转换为自然流畅口语的 TTS 工具。通过上下文感知和多模态支持技术，解决了传统 TTS 在语调变化和情感表达上的不足，让 AI 生成的语音听起来更自然、生动。
- 智能内容筛选：具备智能内容筛选功能，自动识别并剪裁不适合朗读的内容，如广告信息、无意义字符串等干扰元素，显著提升了语音输出的质量和用户体验。
如何使用FlowSpeech
- 网页端使用
  - 访问平台：访问 ListenHub.ai 的官网，登录选择使用FlowSpeech 服务。
  - 输入文本：在网页或应用中输入或粘贴需要转换的文本内容。
  - 选择设置：根据需求选择语音风格、语速、音调等参数，还可以选择是否启用智能内容筛选功能。
  - 生成语音：点击“生成语音”按钮，系统将自动将文本转换为自然流畅的口语语音。
  - 保存或分享：生成的语音文件可以保存到本地，也可以通过平台提供的分享功能分享给他人。
- 移动端使用
  - 下载应用：访问ListenHub的官方应用商店，根据手机型号选择下载应用。FlowSpeech 会在下周上线到 App 里。安卓版本正在开发中。
- API 接入：开发者可以等待 FlowSpeech 推出 TTS API 服务后，通过 API 将 FlowSpeech 集成到自己的应用程序中，实现文本转语音功能的自动化和定制化。
FlowSpeech的应用场景
- 内容创作：内容创作者可以用 FlowSpeech 将公众号文章、知识库等内容转化为自然口语化的音频，节省录音和剪辑时间。
- 有声读物：将小说、散文等文学作品转化为富有表现力、接近真人讲述的有声书，提升听众的沉浸体验。
- 企业应用：企业用户可以应用于内部培训材料、产品介绍、客户通知、财报解读等语音内容的制作。
- 教育领域：教育工作者可以将课件、教材、学术论文等转化为易于理解的口语讲解，让学习更高效、更沉浸。
August 7, 2025