Blog

  • self-llm – 专为中国开发者推出的开源大模型教程

    self-llm是什么

    self-llm (开源大模型食用指南)是Datawhale专为国内初学者打造的开源大模型教程,基于Linux平台,提供从环境配置到模型部署、微调的全流程指导,涵盖LLaMA、ChatGLM等主流模型。项目能简化开源大模型的使用流程,帮助学生和研究者快速上手。教程提供多种模型的详细教程、微调方法(如LoRA、ptuning)及应用案例,适合不同层次的学习者。项目鼓励社区参与,共同完善内容,推动开源大模型的普及和应用。

    开源大模型食用指南self-llm

    self-llm的主要功能

    • 环境配置指导:提供基于Linux平台的开源大模型环境配置指南,帮助用户搭建适合不同模型运行的基础环境。
    • 模型部署教程:涵盖国内外主流开源大模型(如LLaMA、ChatGLM、InternLM等)的本地部署方法,包括命令行调用、在线Demo部署等。
    • 微调方法指导:提供全量微调、LoRA微调、ptuning等高效微调方法的详细教程,帮助用户根据需求对模型进行定制化优化。
    • 应用开发指导:结合LangChain等框架,指导用户如何将开源大模型集成到实际应用中,打造领域特色的私域模型。
    • 社区共创与支持:鼓励用户提交问题(issue)或贡献代码(PR),共同完善教程内容,形成开源社区的协作与支持体系。

    self-llm支持的模型

    • GLM-4.1-Thinking
      • GLM-4.1V-Thinking vLLM 部署调用
      • GLM-4.1V-Thinking Gradio 部署
      • GLM-4.1V-Thinking LoRA 微调及 SwanLab 可视化记录
      • GLM-4.1V-Thinking Docker 镜像
    • GLM-4.5-Air
      • GLM-4.5-Air vLLM 部署调用
      • GLM-4.5-Air EvalScope 智商情商评测
      • GLM-4.5-Air LoRA 微调
      • GLM-4.5-Air Ucloud Docker 镜像
    • ERNIE-4.5
      • ERNIE-4.5-0.3B-PT LoRA 微调及 SwanLab 可视化记录
      • ERNIE-4.5-0.3B-PT LoRA Docker 镜像
    • Hunyuan-A13B-Instruct
      • Hunyuan-A13B-Instruct 模型架构解析
      • Hunyuan-A13B-Instruct SGLang 部署调用
      • Hunyuan-A13B-Instruct LoRA SwanLab 可视化微调
      • Hunyuan-A13B-Instruct LoRA Docker 镜像
    • Qwen3
      • Qwen3 模型结构解析
      • Qwen3-8B vllm 部署调用
      • Qwen3-8B Windows LMStudio 部署调用
      • Qwen3-8B Evalscope 智商情商评测
      • Qwen3-8B LoRA 微调及 SwanLab 可视化记录
      • Qwen3-30B-A3B 微调及 SwanLab 可视化记录
      • Qwen3 Think 解密
      • Qwen3-8B Docker 镜像
      • Qwen3-0.6B 的小模型用途
      • Qwen3-1.7B 医学推理式对话微调及 SwanLab 可视化记录
      • Qwen3-8B GRPO 微调及 SwanLab 可视化
    • Kimi-VL-A3B
      • Kimi-VL-A3B 技术报告解读
      • Kimi-VL-A3B-Thinking WebDemo 部署(网页对话助手)
    • Llama4
      • Llama4 对话助手
      • SpatialLM
      • SpatialLM 3D点云理解与目标检测模型部署
      • Hunyuan3D-2
      • Hunyuan3D-2 系列模型部署
      • Hunyuan3D-2 系列模型代码调用
      • Hunyuan3D-2 系列模型 Gradio 部署
      • Hunyuan3D-2 系列模型 API Server
      • Hunyuan3D-2 Docker 镜像
    • Gemma3
      • Gemma-3-4b-it FastApi 部署调用
      • Gemma-3-4b-it ollama + open-webui 部署
      • Gemma-3-4b-it Evalscope 智商情商评测
      • Gemma-3-4b-it LoRA 微调
      • Gemma-3-4b-it Docker 镜像
      • Gemma-3-4b-it GRPO 微调及 SwanLab 可视化
    • DeepSeek-R1-Distill
      • DeepSeek-R1-Distill-Qwen-7B FastApi 部署调用
      • DeepSeek-R1-Distill-Qwen-7B Langchain 接入
      • DeepSeek-R1-Distill-Qwen-7B WebDemo 部署
      • DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用
      • DeepSeek-R1-0528-Qwen3-8B-GRPO 及 SwanLab 可视化
    • MiniCPM-o-2_6
      • MiniCPM-o-2.6 FastApi 部署调用
      • MiniCPM-o-2.6 WebDemo 部署
      • MiniCPM-o-2.6 多模态语音能力
      • MiniCPM-o-2.6 可视化 LaTeX_OCR LoRA 微调
    • InternLM3
      • InternLM3-8b-instruct FastApi 部署调用
      • InternLM3-8b-instruct Langchain 接入
      • InternLM3-8b-instruct WebDemo 部署
      • InternLM3-8b-instruct LoRA 微调
      • InternLM3-8b-instruct o1-like 推理链实现
    • phi4
      • phi4 FastApi 部署调用
      • phi4 Langchain 接入
      • phi4 WebDemo 部署
      • phi4 LoRA 微调
      • phi4 LoRA 微调 NER任务 SwanLab 可视化记录版
      • phi4 GRPO 微调及 SwanLab 可视化
    • Qwen2.5-Coder
      • Qwen2.5-Coder-7B-Instruct FastApi 部署调用
      • Qwen2.5-Coder-7B-Instruct Langchain 接入
      • Qwen2.5-Coder-7B-Instruct WebDemo 部署
      • Qwen2.5-Coder-7B-Instruct vLLM 部署
      • Qwen2.5-Coder-7B-Instruct LoRA 微调
      • Qwen2.5-Coder-7B-Instruct LoRA 微调 SwanLab 可视化记录版
    • Qwen2-vl
      • Qwen2-vl-2B FastApi 部署调用
      • Qwen2-vl-2B WebDemo 部署
      • Qwen2-vl-2B vLLM 部署
      • Qwen2-vl-2B LoRA 微调
      • Qwen2-vl-2B LoRA 微调 SwanLab 可视化记录版
      • Qwen2-vl-2B LoRA 微调案例 – LaTeXOCR
    • Qwen2.5
      • Qwen2.5-7B-Instruct FastApi 部署调用
      • Qwen2.5-7B-Instruct Langchain 接入
      • Qwen2.5-7B-Instruct vLLM 部署调用
      • Qwen2.5-7B-Instruct WebDemo 部署
      • Qwen2.5-7B-Instruct LoRA 微调
      • Qwen2.5-7B-Instruct o1-like 推理链实现
      • Qwen2.5-7B-Instruct LoRA 微调 SwanLab 可视化记录版
    • Apple OpenELM
      • OpenELM-3B-Instruct FastApi 部署调用
      • OpenELM-3B-Instruct LoRA 微调
    • Llama3_1-8B-Instruct
      • Llama3_1-8B-Instruct FastApi 部署调用
      • Llama3_1-8B-Instruct Langchain 接入
      • Llama3_1-8B-Instruct WebDemo 部署
      • Llama3_1-8B-Instruct LoRA 微调
      • 动手转换 GGUF 模型并使用 Ollama 本地部署
    • Gemma-2-9b-it
      • Gemma-2-9b-it FastApi 部署调用
      • Gemma-2-9b-it Langchain 接入
      • Gemma-2-9b-it WebDemo 部署
      • Gemma-2-9b-it Peft LoRA 微调
    • Yuan2.0
      • Yuan2.0-2B FastApi 部署调用
      • Yuan2.0-2B Langchain 接入
      • Yuan2.0-2B WebDemo 部署
      • Yuan2.0-2B vLLM 部署调用
      • Yuan2.0-2B LoRA 微调
    • Yuan2.0-M32
      • Yuan2.0-M32 FastApi 部署调用
      • Yuan2.0-M32 Langchain 接入
      • Yuan2.0-M32 WebDemo 部署
    • DeepSeek-Coder-V2
      • DeepSeek-Coder-V2-Lite-Instruct FastApi 部署调用
      • DeepSeek-Coder-V2-L

    self-llm的项目地址

    • GitHub仓库:https://github.com/datawhalechina/self-llm

    self-llm的应用场景

    • 教育与学习:为初学者提供从环境配置到模型微调的全流程指导,助力学生和开发者快速掌握开源大模型的使用方法。
    • 企业应用开发:帮助企业根据自身业务需求对开源大模型进行定制化微调,开发智能客服、知识管理等专属应用。
    • 个人项目开发:支持个人开发者利用开源大模型开发智能写作助手、个人智能助手等项目,提升个人生产力。
    • 研究与创新:为研究人员提供实验平台,支持对开源大模型的架构优化、训练方法改进等研究工作。
  • NeuralAgent – 开源的桌面AI助手,自然语言执行复杂任务

    NeuralAgent是什么

    NeuralAgent 是开源的桌面 AI 个人助手,通过自然语言指令自动化执行多种复杂任务,如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化,在 Windows 平台上支持后台浏览器控制,实现高效任务处理。NeuralAgent 集成 ClaudeGPT-4、Azure OpenAI、BedrockOllamaGemini 等多种主流语言模型,基于模块化设计(如规划器、分类器等),支持多模态(文本+视觉)交互。NeuralAgent 基于 FastAPI 后端、Electron 桌面应用和 React 前端构建,为用户提供高度可配置的智能分析与执行能力,助力实现真正的生产力提升。

    NeuralAgent

    NeuralAgent的主要功能

    • 桌面自动化:通过模拟键盘输入、鼠标点击、表单填写、邮件发送和网页导航等操作,实现任务的自动执行。
    • 后台任务执行:在 Windows 平台上支持后台浏览器控制,无需人工干预即可完成任务。
    • 多模态交互:支持文本和视觉输入,能处理图像和文字信息。
    • 多语言模型支持:集成多种主流语言模型,如 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini。
    • 模块化设计:包含多种功能模块,如规划器、分类器、建议器等,支持根据任务需求灵活配置。
    • 跨平台运行:支持 Windows、macOS 和 Linux,但部分功能(如后台自动化)目前仅限 Windows。

    NeuralAgent的技术原理

    • FastAPI 后端:用 FastAPI 构建高性能后端服务,负责处理 API 请求和任务调度。集成 PostgreSQL 数据库,用在存储任务数据和用户信息。
    • Electron 桌面应用:用 Electron 构建跨平台桌面应用,提供用户界面。内嵌 React 前端框架,实现流畅的用户体验。
    • Python 自动化脚本:基于 Python 的 pyautogui 库实现桌面自动化操作,如鼠标点击和键盘输入。在 Windows 平台上通过 WSL(Windows Subsystem for Linux)实现后台浏览器控制。
    • 模块化代理系统:基于模块化设计,将不同任务分配给专门的代理模块(如规划器、分类器等)。每个模块根据任务需求调用不同的语言模型,实现智能分析和执行。

    NeuralAgent的项目地址

    • 项目官网:https://www.getneuralagent.com/
    • GitHub仓库:https://github.com/withneural/neuralagent

    NeuralAgent的应用场景

    • 办公自动化:自动填写和发送邮件、编辑文档、生成报告,显著提升工作效率,减少重复性劳动,让办公更加高效便捷。
    • 网页自动化:快速抓取网页数据、自动提交表单、批量处理网页任务,助力用户高效收集信息和完成在线操作。
    • 个人生产力提升:智能规划日常任务、整理信息、生成笔记,帮助用户高效管理时间和工作,提升个人生产力。
    • 创意工作辅助:生成创意文案、辅助设计草图、提供代码片段,激发创作灵感,加速创意工作流程,助力创意实现。
    • 企业级应用:自动分析数据、跟踪项目进度、生成项目报告,助力企业高效运营与管理,提升团队协作效率。
  • GitMCP – 开源MCP服务器,可将GitHub仓库转为实时文档中心

    GitMCP是什么

    GitMCP 是开源的远程 Model Context Protocol (MCP) 服务器,能将 GitHub 仓库(包括代码库和 GitHub 页面)转变为实时文档中心,让 AI 工具(如 Cursor)直接访问最新文档和代码,消除代码幻觉提高代码准确性。GitMCP支持特定仓库和通用服务器两种模式,用户能根据需求选择。GitMCP 无需安装,零配置,支持嵌入式聊天,完全免费、保护隐私。GitMCP能通过智能搜索和文档访问,确保 AI 助手提供准确、可靠的代码示例和 API 用法。

    GitMCP

    GitMCP的主要功能

    • 最新文档和代码访问:提供GitHub项目最新文档和代码,确保AI助手获取准确信息。
    • 消除代码幻觉:通过实时数据减少AI生成错误代码的概率,提升代码正确性。
    • 零配置使用:无需安装或注册,直接在IDE中添加GitMCP URL即可使用。
    • 嵌入式聊天:支持通过浏览器直接与仓库文档聊天,快速获取信息。
    • 隐私保护:开源免费,不收集个人信息,用户能自行托管增强隐私。
    • 灵活访问方式:支持特定仓库和通用服务器两种模式,满足不同使用需求。

    GitMCP的技术原理

    • 基于Model Context Protocol (MCP):GitMCP的核心是Model Context Protocol (MCP),一个标准化的协议,支持AI助手从外部源请求额外的上下文信息。基于MCP,GitMCP能与各种AI助手(如Cursor、Claude、VSCode等)无缝集成。
    • 用户指定GitHub项目:用户用提供特定的GitMCP URL(例如gitmcp.io/{owner}/{repo}或{owner}.gitmcp.io/{repo})指定需要访问的GitHub项目。这种URL格式让GitMCP能精准定位到目标仓库,确保AI助手访问到正确的项目文档和代码。GitMCP提供通用的动态端点gitmcp.io/docs,支持AI助手根据上下文动态选择仓库。
    • AI助手发起请求:当用户向AI助手提出问题(例如“如何使用某个库的特定功能”)时,AI助手通过MCP协议向GitMCP发送请求。请求的内容包括获取文档、搜索代码示例或查询特定功能的实现细节。
    • GitMCP执行请求:GitMCP接收到AI助手的请求后,根据请求类型执行相应的操作。
    • 返回数据给AI助手:GitMCP将从GitHub仓库中检索到的文档、代码或其他信息返回给AI助手。数据会用结构化的形式返回,让AI助手能够速解析并利用信息。AI助手根据数据生成更准确、更可靠的回答,减少因信息过时或不准确导致的代码幻觉(hallucinations)。

    GitMCP的项目地址

    • 项目官网:https://gitmcp.io/
    • GitHub仓库:https://github.com/idosal/git-mcp

    GitMCP的应用场景

    • 跨项目协作:团队成员在不同GitHub项目中协作时,快速获取各项目最新文档和代码,提升协作效率。
    • 学习新技术:开发者学习新库或框架时,快速找到GitHub项目的关键文档和示例代码,加速学习过程。
    • 开源项目贡献:开发者参与开源项目时,快速了解项目结构和代码规范,降低贡献门槛。
    • 远程开发支持:远程团队成员在不同地区访问GitHub项目,确保信息同步,减少因网络或时差导致的沟通成本。
    • 项目迁移与重构:在迁移或重构GitHub项目时,帮助开发者快速找到关键代码片段和文档,减少工作量。
  • LandPPT – 开源AI PPT生成工具,简化三步工作流

    LandPPT是什么

    LandPPT 是AI演示文稿生成平台,能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型,兼容 PDF、Word、Markdown 等文件格式,支持智能解析内容,生成结构清晰的大纲和精美的 PPT 页面。平台提供丰富的模板系统和自定义功能,用户基于现代化的 Web 界面进行可视化编辑、实时预览和多格式导出。LandPPT 基于三步工作流(需求确认、大纲生成、PPT 生成)简化创作过程,让演示文稿制作更高效、更智能。

    LandPPT

    LandPPT的主要功能

    • 多AI提供商支持:集成多种主流AI模型,如OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列,及本地部署的Ollama模型,用户能根据需求灵活选择。
    • 强大的文件处理能力:支持PDF、Word、Markdown、TXT等多种文件格式,支持智能解析内容,基于联网进行深度研究,为PPT生成提供更丰富的素材。
    • 丰富的模板系统:提供全局主模板和多样化的页面布局选择,AI能生成创意页面布局,支持用户导入和创建个性化模板,满足不同用户的审美和需求。
    • 完整的项目管理:基于三阶段工作流(需求确认、大纲生成、PPT生成),配备可视化大纲编辑器和实时预览功能,帮助用户高效管理演示文稿的创作过程。
    • 现代化Web界面:用户界面友好,支持AI聊天编辑功能,用户在侧边栏用自然语言与AI交互,实时修改PPT内容;提供PDF、HTML、PPTX等多种格式的导出功能,方便用户在不同场景下使用演示文稿。

    如何使用LandPPT

    • 本地安装
      • 克隆项目
    git clone https://github.com/sligter/LandPPT.git
    cd LandPPT
      • 安装依赖
        • 安装 uv(推荐):
    # Windows
    powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
    # macOS/Linux
    curl -LsSf https://astral.sh/uv/install.sh | sh
        • 同步环境
    uv sync
    uv pip install apryse-sdk --extra-index-url=https://pypi.apryse.com
      • 配置环境变量
        • 复制 .env.example 文件并重命名为 .env
    cp .env.example .env
        • 编辑 .env 文件,配置 AI 提供商的 API 密钥(如 OpenAI、Anthropic 等)。
      • 启动服务
    uv run python run.py
      • 访问 Web 界面:打开浏览器,访问 http://localhost:8000。初始账号为 admin,密码为 admin123
    • Docker 部署
      • 拉取镜像
    docker pull bradleylzh/landppt:latest
        • 创建并配置 .env 文件:将 .env.example 文件的内容复制到本地的 .env 文件中,根据需要配置 API 密钥。
      • 运行容器
    docker run -d \
      --name landppt \
      -p 8000:8000 \
      -v $(pwd)/.env:/app/.env \
      -v landppt_data:/app/data \
      -v landppt_reports:/app/research_reports \
      -v landppt_cache:/app/temp \
      bradleylzh/landppt:latest
      • 查看日志
    docker logs -f landppt
    • 访问 Web 界面打开浏览器,访问 http://localhost:8000初始账号为 admin,密码为 admin123

    LandPPT的项目地址

    • GitHub仓库:https://github.com/sligter/LandPPT

    LandPPT的应用场景

    • 企业汇报:快速将项目报告、数据分析等文档内容转化为专业 PPT,节省制作时间,提升汇报效率。
    • 学术演讲:将学术论文、研究资料转化为清晰的演示文稿,帮助学者专注于内容讲解,提升演讲效果。
    • 教育培训:教师将教学大纲、教案快速生成互动性强的课件,提升教学吸引力和学生参与度。
    • 市场营销:为产品推广、品牌宣传等活动快速生成创意十足、视觉精美的演示文稿,吸引目标受众。
    • 个人分享:帮助个人快速整理演讲思路,生成个性化的 PPT,适用技术分享、创意展示等场景。
  • WeKnora – 腾讯开源的文档理解与语义检索框架

    WeKnora是什么

    WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。框架基于模块化设计,支持多模态文档解析(如 PDF、Word、图片等),通过 RAG(检索增强生成)机制实现精准问答。WeKnora 提供强大的多模态认知引擎、灵活的检索策略、私有化部署和开箱即用的 Web UI 界面,适用于企业知识管理、科研文献分析、法律合规审查等场景,支持本地化部署和微信生态集成,助力高效的知识管理和智能问答。

    WeKnora

    WeKnora的主要功能

    • 多模态文档解析:支持多种格式文档(如PDF、Word、图片等)的精准解析,提取文本、表格及图像语义,构建统一的结构化知识中枢。
    • 智能语义检索:基于语义向量索引和多种检索策略(如关键词、向量检索、知识图谱检索),实现高效、精准的内容召回。
    • 大语言模型集成:支持集成主流大语言模型(如Qwen、DeepSeek等),提供上下文感知和多轮对话功能,生成高质量的智能问答。
    • 知识图谱构建:将文档内容转化为知识图谱,展示段落之间的语义关联,提升检索结果的相关性和广度。
    • 灵活部署与适配:支持本地化部署、Docker镜像和私有云部署,适配多种生产环境,内置监控日志体系,便于运维管理。
    • 用户友好的交互体验:提供直观的Web UI界面,支持拖拽上传文档和知识库管理,零代码部署,快速集成到微信生态。

    WeKnora的技术原理

    • 模块化架构:基于模块化设计,构建一条完整的文档理解与检索流水线,包括文档解析、向量化处理、检索引擎和大模型推理等核心模块。每个模块均能灵活配置与扩展,支持自由组合检索策略和大语言模型。
    • 多模态预处理:用OCR技术和跨模态建模技术,精准解析文档中的图文混排内容。将非结构化内容转换为结构化数据,构建统一的语义视图。
    • 语义向量索引:将文档内容向量化处理,构建高效的语义索引。支持多种向量数据库(如PostgreSQL的pgvector、Elasticsearch等),实现快速的语义检索。
    • RAG机制:基于Retrieval-Augmented Generation(RAG)机制,将检索到的上下文相关片段与大语言模型结合。实现更高质量的语义回答,支持复杂的语义建模和多轮对话。

    WeKnora的项目地址

    • 项目官网:https://weknora.weixin.qq.com/
    • GitHub仓库:https://github.com/Tencent/WeKnora

    WeKnora的应用场景

    • 企业知识管理:帮助员工快速检索内部文档、规章制度和操作手册,提升知识查找效率,降低培训成本。
    • 科研文献分析:加速论文、研究报告和学术资料的检索与分析,助力科研人员高效开展研究工作。
    • 产品技术支持:提供产品手册问答和技术文档检索服务,帮助用户快速解决技术问题,提升客户服务质量。
    • 法律合规审查:支持合同条款检索、法规政策查询和案例分析,提高法律合规效率,降低法律风险。
    • 医疗知识辅助:辅助医学文献检索、诊疗指南查询和病例分析,提升医疗决策的科学性和准确性。
  • 实测GPT-5,算错数学题,真升级了吗?

    预告了几十波,OpenAI 今天终于上线了 GPT-5

    上线没多久,就刷新了 lmarena.ai 竞技榜分数,直冲第一:

    • 在文本、Web 开发和视觉竞技场中稳居第一;
    • 在硬提示、编程、数学、创造力、长查询等方面同样荣登榜首。

    但是尴尬的是,发布会上GPT-5 生成的图表似乎翻车了。52.8 比 69.1 大?30.8 和 69.1 一样高?

    这就是 Sam Altman 口中 OpenAI 有史以来最聪明的模型吗?

    第一时间实测了一波,除了编程,都挺拉的…我只想说:还我4o

     

    01. 一手实测

     

    case 1 经典易错题

    先问一个经典的数学问题:

    提示词:9.9和9.11谁大

    GPT-5 回答:9.11 比 9.9 大,因为在数字比较时先比整数部分(相同都是 9),再比小数部分,11 > 9。

    如果你是问日期,那就是 9 月 11 日比 9 月 9 日更晚。

    case 2 编程

    提示词:写一个 javascript 代码,显示一个小球在旋转的正六边形内弹跳。球应该受到重力和摩擦力的影响,它必须从旋转的墙壁上真实地弹起,用 javascript 和 html 实现它

    整体效果还行,能看得出来受到重力和摩擦力的影响,不过弹跳的效果不是特别突出。

    case 3 图像生成

    提示词:将图片里的内容翻译成中文,需要通俗易懂引人入胜,不改变原意,不要凭空添加没有的内容。

    我们对比一下,大家觉得哪个翻译的更好?

    Gemini 2.5 Pro:

    豆包:

    GPT‑5:

    在我看来,Gemini 2.5 Pro 翻译的最好,整体很通顺,很有人味;豆包其次,翻译虽然没什么大错,但缺少了一点人味;GPT 5 和豆包差不多,但是和Gemini 2.5 Pro 比起来,差距挺明显的。

    case 4 前端

    提示词:生成一个番茄钟的网页应用,包含以下功能:- 目标:计时器 + 会话记录。- 功能:自定义时长、自动启动选项、会话图表(SVG)、声音警报(提示音)、暗黑模式。- 界面应该适合日常使用,并能给用户一些活力!

    GPT‑5 生成的番茄钟网页,整体审美要好一些,计时、暂停等等按钮的功能也完整,但是页面上这个大环形…我不理解。

    Gemini 2.5 Pro 生成的页面功能很完整,只是比较简陋,布局和色彩搭配没有 GPT‑5 好看,但是盖不住它能用啊!

     

    02. 一些分享

     

    整体测下来,GPT‑5 幻觉有没有减少不知道,智商好像真的减少了。文案水平不仅没有增强,连以前的 GPT‑4o 都比不过。

    编程能力也中规中矩,可能是我没有用太复杂的提示词去测试…

    前端的审美感觉还不错,就是还会存在一些小BUG。

    这些都是One Shot,没有经过多次测试,但是不可能每次都刚好踩雷吧?

    最后,我只想说,这发布会白看了,GPT还我睡眠!

    GPT‑5 目前已上线官网,全员可用了。免费版每5小时可发送10条,Plus 版每3小时可发送80条。

    不信邪的可以自己去试试。

    原文链接:9.11比9.9大?GPT-5数学题都算错,真升级了吗?

  • GPT-5 – OpenAI推出的最新最强AI模型

    GPT-5是什么

    GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最强模型,面向所有用户开放。GPT-5是一个统一系统,包括一个基础模型用在解答常见问题,一个深度推理模型(GPT-5 思维模块)用在处理复杂难题,一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令(如“仔细思考”)智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色,大幅减少幻觉和错误,回答更贴近真实情况。GPT-5 支持多模态输入,能处理图像和文本。GPT-5 提供免费、Plus 和 Pro 三种模式,满足不同用户的需求。

    GPT-5

    GPT-5的主要功能

    • 高效回答与推理:支持根据问题复杂度自动切换基础模型和深度推理模型,快速回答常见问题或深入思考复杂问题。
    • 编程能力:GPT-5 是 OpenAI 最强的编程模型,能生成高质量代码、调试大型代码库,在生产级任务中表现出色。
    • 写作与创意表达:能将粗糙想法转化为有文学深度和节奏感的精彩写作,支持多种文体并提供创意灵感。
    • 健康咨询:在健康相关问题上表现更好,能够提供精准建议,主动提示潜在问题,并确保回答安全可靠。
    • 多模态理解:支持图像和视频输入,能进行视觉推理和空间分析,处理多模态任务。
    • 减少幻觉与提高准确性:显著降低幻觉率,减少事实性错误,回答更准确且更诚实。
    • 安全与可靠性:引入“安全完成”训练方法,减少欺骗行为,确保在生物和化学等高风险领域的安全性。
    • 定制化与个性化:提供四种预设性格(愤世嫉俗者、机器人、倾听者和书呆子),用户根据需求选择互动风格。
    • 多语言支持:支持多种语言对话,能够理解和生成多种语言内容,帮助用户进行语言转换。
    • API 支持:GPT-5 通过 API 提供多种模型选择(如 GPT-5、GPT-5 mini、GPT-5 nano),灵活定价,方便开发者使用。

    GPT-5的版本信息

    • GPT-5:默认版本,适用大多数通用任务,能根据问题复杂度自动切换基础模型和深度推理模式。
    • GPT-5 Mini:一个更小、更快的版本,适用轻量级任务或在达到使用限制后继续使用。
    • GPT-5 Nano:最小版本,专为开发者设计,适合快速原型设计和高效处理轻量级任务。
    • GPT-5 Pro:高级版本,专为 Pro 订阅者提供,使用更强大的计算资源,适用复杂任务和深度推理。

    GPT-5的性能表现

    • 编程与工具链能力
      • SWE-bench Verified:74.9%(GPT-4:52%,o3:69.1%)
      • Aider Polyglot:88%,错误率比 o3 低 33%
      • 前端开发:内部测试胜率 70%
      • τ²-bench 工具链任务:96.7%
    • 数学与多模态能力
      • AIME 2025 数学测评:Pro+Python 模式 100%
      • MMMU 多模态理解:84.2%
    • 专业领域
      • HealthBench Hard(医疗):46.2%
    • 知识准确性与可靠性
      • 错误率比 GPT-4o 低约 45%
      • thinking 模式比 o3 低约 80%
      • 幻觉率仅为 o3 的 1/6
      • 欺骗率 2.1%(o3 为 4.8%)
    • 人机交互与风格
      • 谄媚倾向(sycophancy)降至 6%(GPT-4 为 14.5%)

    GPT-5

    GPT-5的官网地址

    如何使用GPT-5

    • 访问官网:访问GPT-5的官网ChatGPT
    • 免费用户
      • 访问方式:GPT-5 已全局上线,免费用户能直接在 ChatGPT 中使用。
      • 限制:免费用户的 GPT-5 用量会明显受限。当用量耗尽后,模型会被切换成 GPT-5 mini。
    • Plus 用户:Plus 用户有更高的 GPT-5 使用额度。
      • 额外功能:Plus 用户能在 Codex CLI 中使用 GPT-5,开启“思考模式”。
    • Pro 用户:Pro 用户能无限制访问 GPT-5,可使用 GPT-5 Pro。
      • 功能:Pro 用户能访问所有 GPT-5 的功能,包括高级的编程和创作工具。
    • 企业版和教育版用户:企业版和教育版用户将在一周内获得访问权限。
    • 在 API 中使用 GPT-5
      • API 调用方法
        • 支持的模型:API 中支持的 GPT-5 模型包括 gpt-5、gpt-5-mini、gpt-5-nano 和 gpt-5-chat。
        • 输入输出:支持用图文输入,并用文字输出。
        • Endpoint:支持 /chat/completions、/responses 和 /assistants 等 endpoint。
      • 功能支持
        • Streaming:支持流式输出。
        • Function calling:支持函数调用。
        • Structured outputs:支持结构化输出。
        • 微调:支持模型微调。
        • Responses API:支持 Web search、File search、Code interpreter 和 MCP 等功能。

    GPT-5 的产品定价

    • 免费用户:所有用户都能免费使用 GPT-5,但有使用次数限制。
    • Plus 用户:$20 美元/月,获得更高的使用额度,适合日常频繁使用。
    • Pro 用户:$200 美元/月,获得无限访问权限,能使用 GPT-5 Pro 版本。
    • API 定价
      • GPT-5:每百万输入 token 1.25 美元,输出 10 美元。
      • GPT-5 Mini:每百万输入 token 0.25 美元,输出 2 美元。
      • GPT-5 Nano:每百万输入 token 0.05 美元,输出 0.40 美元。

    GPT-5

    GPT-5的应用场景

    • 编程开发:生成高质量代码、调试大型代码库,并在生产级任务中表现出色,适合软件开发、前端设计和复杂系统开发。
    • 写作创作:GPT-5 能将粗糙想法转化为有文学深度和节奏感的精彩写作,支持多种文体,适合撰写文章、报告、诗歌和创意写作。
    • 健康咨询:提供精准建议,主动提示潜在问题,并确保回答安全可靠,适合健康咨询和医学科普。
    • 多模态任务:进行视觉推理和空间分析,适合处理图表解读、照片总结和多模态任务。
    • 复杂问题解决:处理复杂的科学问题、数学难题和多步骤任务,适合科学研究、高级教育和专业咨询。

    GPT-5的官方示例

    滚动球小游戏

    Prompt:Create a single-page app in a single HTML file with the following requirements:

    • Name: Jumping Ball Runner
    • Goal: Jump over obstacles to survive as long as possible.
    • Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.
    • The UI should be colorful, with parallax scrolling backgrounds.
    • The characters should look cartoonish and be fun to watch.
    • The game should be enjoyable for everyone.

    (中文)提示词:创建一个单页面应用,仅使用一个 HTML 文件,满足以下要求:

    • 游戏名称:跳跃球跑酷
    • 游戏目标:跳跃躲避障碍物,尽可能存活更长时间。
    • 游戏功能:速度逐渐增加、记录最高分、重试按钮、为操作和事件添加有趣的音效。
    • 用户界面:色彩丰富,带有视差滚动背景。
    • 角色设计:角色应具有卡通风格,看起来有趣。
    • 游戏体验:适合所有人游玩。

    GPT-5

    像素艺术

    Prompt:Create a single-page app, in a single HTML file, that provides a retro pixel painting experience.

    • Canvas: fixed pixel grid with zoom; tools for pencil, eraser, fill, line, rectangle, circle; grid toggle.
    • Palette: 16-color swatches with two custom slots; eyedropper; foreground/background swap.
    • Editing: undo/redo, copy/paste selection, flip/rotate selection, clear canvas; status bar with cursor coords.
    • UI shell: faux OS window (’90s style) with draggable title bar, toolbar icons, tooltip hints.
    • Import/Export: import PNG (quantize to palette) and export PNG/SpriteSheet + JSON; save/load from localStorage.
    • Shortcuts: number keys for tools, +/- for zoom; accessible labels and focus order.
    • Responsive layout; no uploads to servers.

    (中文)提示词:创建一个单页面应用,仅使用一个 HTML 文件,提供复古像素画体验:

    • 画布:固定像素网格,可缩放;提供铅笔、橡皮擦、填充、直线、矩形、圆形工具;可切换网格显示。
    • 调色板:16种颜色样本,带有两个自定义颜色槽;取色器;前景/背景颜色切换。
    • 编辑功能:撤销/重做,复制/粘贴选择区域,翻转/旋转选择区域,清除画布;状态栏显示光标坐标。
    • 用户界面:模拟 90 年代操作系统窗口风格,带有可拖动标题栏、工具栏图标、提示信息。
    • 导入/导出:导入 PNG(量化到调色板)并导出 PNG/精灵表 + JSON;从 localStorage 保存/加载。
    • 快捷键:数字键切换工具,加减键调整缩放;提供可访问的标签和焦点顺序。
    • 响应式布局;不上传至服务器。

    GPT-5

  • RightBlogger – AI内容创作平台,一键优化SEO文章

    RightBlogger是什么

    RightBlogger是专为博主和内容创作者设计的AI驱动的内容创作平台,提供80多种AI工具,包括文章生成、视频转博客文章、关键词研究、内容改写和AI图像生成等,帮助用户快速创作高质量内容并优化SEO。RightBlogger支持WordPress、Webflow、Ghost等多种平台,提供定制化工具,助力用户高效创作。

    RightBlogger

    RightBlogger的主要功能

    • AI文章生成器:输入主题或关键词,快速生成SEO优化的完整文章,节省写作时间。
    • 视频转博客文章:将YouTube视频内容转化为SEO优化的博客文章,适合视频创作者。
    • 关键词研究工具:提供关键词数据,包括搜索量、竞争度和每次点击成本(CPC),助力SEO优化。
    • 内容改写工具:帮助用户改写段落或短语,避免重复,提升内容多样性。
    • AI图像生成器:基于AI技术生成相关图片,丰富内容表现。
    • 智能建议工具:基于用户网站生成长尾关键词文章创意,拓展内容方向。
    • AI聊天工具:通过AI聊天功能,帮助用户在写作过程中获取灵感和建议。
    • 自定义工具创建:基于RightBlogger Studio,用户你呢创建并嵌入自定义AI工具到自己的网站,吸引访客。

    RightBlogger的官网地址

    • 官网地址:https://rightblogger.com/

    RightBlogger的产品定价

    • Free:每月$0,提供每月使用2,000字,生成500字文章,AI聊天,AI图像生成,有限的关键词研究工具,免费课程和电子邮件支持。
    • Pro:每年$24.99/月,包括免费计划所有功能,无限制工具使用,生成2000+字文章,关键词研究和SEO工具,自定义写作风格和语调,文章根据知识定制,5个SEO报告,5个嵌入工具。
    • Business:每年$49.99/月,包含Pro计划所有功能,外加1名额外团队成员,25个项目,50个MyTone,25个SEO报告,25个嵌入工具,每月小组辅导电话。

    RightBlogger的应用场景

    • 个人博主:帮助博主提高内容质量,增加博客流量和读者参与度。
    • 企业内容营销团队:用在协调团队工作流程,确保内容质量一致性,优化内容达到营销目标。
    • 自由撰稿人:提高写作效率,同时保证内容质量,满足客户需求。
    • 新闻和媒体组织:快速生成新闻标题和摘要,分析热门话题和趋势,优化内容提高搜索引擎排名。
    • 电子商务平台:创建引人注目的产品描述,优化产品页面以提高转化率,生成吸引力强的营销文案。
  • Macaron – 首个Personal AI Agent,个性化生成实用工具

    Macaron是什么

    Macaron 是首个 Personal AI Agent,你的贴心AI伙伴。Macaron 能根据简单请求快速生成实用的生活工具,如健身追踪器、旅行规划器、阅读管理器等,帮助用户更好地生活。Macaron基于深度记忆系统,记住用户偏好、习惯和情绪,无需重复上下文就能理解需求。Macaron不仅关注效率,更注重情感连接,用温暖和同理心陪伴。Macaron 的目标是让生活更有意义,不是单纯追求生产力。

    Macaron

    Macaron的主要功能

    • 深度记忆(Deep Memory):支持记住用户的聊天习惯、偏好、情绪和生活经历,无需重复上下文,像真正的朋友一样理解用户。
    • 个性化体验:基于个性测试匹配用户,形成独特的性格和互动风格,随着使用不断进化。
    • 即时工具生成:用户只需简单描述需求,Macaron 能快速生成实用的生活工具,如健身追踪器、旅行规划器等,无缝融入日常生活。
    • 情感连接:用温暖和同理心为设计目标,提供情感支持,像真正的朋友一样陪伴用户。
    • 实用功能示例:提供旅行规划、摄影指导、烹饪辅助、阅读管理、健康提醒、园艺提醒等多种实用功能,满足用户多样化需求。

    Macaron的官网地址

    • 官网地址:https://macaron.im/

    Macaron的应用场景

    • 旅行规划:根据用户的兴趣和偏好生成个性化的旅行行程,提供实用的旅行建议。
    • 摄影指导:提供最佳拍摄角度、光线和相机设置建议,帮助用户拍出更美的照片。
    • 烹饪辅助:创建烹饪进度跟踪工具,提供菜谱建议和烹饪指导,让烹饪更轻松。
    • 阅读管理:整理用户喜欢的书籍中的有意义的引文,生成个性化的阅读见解,提升阅读体验。
    • 健康提醒:在忙碌的日常中发送个性化的伸展运动提醒,帮助用户保持健康和活力。
  • FlowSpeech – AI文本转语音工具,书面语转自然流畅的口语

    FlowSpeech是什么

    FlowSpeech 是创新的 AI 文本转语音(TTS)工具,专注于将书面语转换为自然流畅的口语。通过上下文感知和多模态技术,解决了传统 TTS 在语调变化和情感表达上的不足,让 AI 生成的语音听起来更生动、自然。FlowSpeech 具备智能内容筛选功能,能自动识别并剪裁不适合朗读的内容,如广告信息和无意义字符串,显著提升语音输出质量。

    FlowSpeech

    FlowSpeech的主要功能

    • 书面语转口语:FlowSpeech 是全球首个专注于将书面语转换为自然流畅口语的 TTS 工具。通过上下文感知和多模态支持技术,解决了传统 TTS 在语调变化和情感表达上的不足,让 AI 生成的语音听起来更自然、生动。
    • 智能内容筛选:具备智能内容筛选功能,自动识别并剪裁不适合朗读的内容,如广告信息、无意义字符串等干扰元素,显著提升了语音输出的质量和用户体验。

    如何使用FlowSpeech

    • 网页端使用
      • 访问平台:访问 ListenHub.ai 的官网,登录选择使用FlowSpeech 服务。
      • 输入文本:在网页或应用中输入或粘贴需要转换的文本内容。
      • 选择设置:根据需求选择语音风格、语速、音调等参数,还可以选择是否启用智能内容筛选功能。
      • 生成语音:点击“生成语音”按钮,系统将自动将文本转换为自然流畅的口语语音。
      • 保存或分享:生成的语音文件可以保存到本地,也可以通过平台提供的分享功能分享给他人。
    • 移动端使用
      • 下载应用:访问ListenHub的官方应用商店,根据手机型号选择下载应用。FlowSpeech 会在下周上线到 App 里。安卓版本正在开发中。
    • API 接入:开发者可以等待 FlowSpeech 推出 TTS API 服务后,通过 API 将 FlowSpeech 集成到自己的应用程序中,实现文本转语音功能的自动化和定制化。

    FlowSpeech的应用场景

    • 内容创作:内容创作者可以用 FlowSpeech 将公众号文章、知识库等内容转化为自然口语化的音频,节省录音和剪辑时间。
    • 有声读物:将小说、散文等文学作品转化为富有表现力、接近真人讲述的有声书,提升听众的沉浸体验。
    • 企业应用:企业用户可以应用于内部培训材料、产品介绍、客户通知、财报解读等语音内容的制作。
    • 教育领域:教育工作者可以将课件、教材、学术论文等转化为易于理解的口语讲解,让学习更高效、更沉浸。