Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Glass – 开源AI桌面助手,实时捕捉屏幕内容和音频识别

    Glass是什么

    Glass 是Pickle 团队推出的开源隐形 AI 桌面助手。Glass能在后台实时捕捉屏幕内容和音频,将其转化为结构化知识。Glass核心功能包括实时会议记录、自动摘要生成、上下文理解及实时问答。Glass 的设计真正隐形,不会出现在屏幕录制、截图或 Dock 中,完全不干扰用户操作。Glass支持 macOS 和 Windows 系统,用户能免费使用,且无需注册。Glass开源特性成为 AI 办公和知识管理领域的新兴工具。

    Glass

    Glass的主要功能

    • 实时屏幕捕捉与音频识别:Glass 能实时监听并捕捉屏幕内容和音频(如会议语音),转化为结构化信息。
    • 上下文理解与总结:结合视觉和听觉信息,自动生成高质量的会议笔记、摘要和任务清单。
    • 实时问答助手:用户能随时提问,AI 基于之前的屏幕操作和音频内容给出答案。
    • 隐形设计:Glass完全隐形,不出现在屏幕录制、截图或 Dock 中,不干扰用户操作。
    • 会议记录与总结:自动记录会议内容,区分发言人,提取关键信息并生成总结。
    • 知识沉淀:将用户的操作行为和语音交互沉淀为知识文档,便于后续查阅和回顾。

    如何使用Glass

    • macOS 用户
      • 下载预编译版本:访问 Glass GitHub Release 页面。下载最新版本的 .dmg 文件(推荐)或 .zip 压缩包。打开 .dmg 文件,将 Glass 应用程序拖动到“Applications”文件夹中。
      • 运行 Glass:在“Applications”文件夹中找到 Glass,双击启动。
      • 配置和使用:打开 Glass 后,按照界面提示进行配置,例如输入 OpenAI API Key(可选)。使用快捷键(如 Cmd + \ 显示/隐藏主窗口,Cmd + Enter 调用 AI 助手)开始使用。
    • Windows 用户
      • 安装依赖环境:确保已安装 Python 和 Node.js(推荐使用 Node.js 20.x.x)。如果未安装,基于以下命令安装 Node.js:
    curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash
    nvm install 20
    nvm use 20
      • 克隆和安装项目:打开终端或命令提示符,运行以下命令克隆项目:
    git clone https://github.com/pickle-com/glass.git
    cd glass
      • 安装项目依赖
    npm run setup
      • 运行 Glass:在项目根目录下运行以下命令启动 Glass:
    npm start
      • 配置和使用:打开 Glass 后,按照界面提示进行配置,例如输入 OpenAI API Key(可选)。使用快捷键(如 Ctrl + \ 显示/隐藏主窗口,Ctrl + Enter 调用 AI 助手)开始使用。

    Glass的项目地址

    • GitHub仓库:https://github.com/pickle-com/glass

    Glass的应用场景

    • 会议记录与总结:在远程或本地会议中,实时捕捉屏幕内容和音频,自动生成会议笔记、摘要和行动项,帮助团队高效记录和跟进会议要点。
    • 学术与教学:在课堂或学术会议中,自动记录内容并生成结构化笔记,辅助学生和研究人员更好地复习和整理知识,提升学习与研究效率。
    • 团队协作与项目管理:在团队讨论和项目会议中,实时生成任务清单和待办事项,帮助团队成员清晰了解任务分工和进度,提升协作效率。
    • 个人知识管理:在日常学习或工作中,将屏幕操作和语音交互沉淀为知识文档,帮助个人用户高效整理知识,便于后续查阅和回顾。
    • 办公辅助:在处理工作任务时,实时回答问题,提供背景信息和建议,帮助用户快速完成任务,提升工作效率。
  • Awesome AI Agents – e2b-dev推出的AI Agent大合集GitHub

    Awesome AI Agents是什么

    Awesome AI Agents是e2b-dev维护的GitHub仓库,汇集和展示各种人工智能代理(AI Agents)相关的开源项目、闭源项目以及相关公司。仓库内容分为两部分:开源项目和闭源项目及公司。涵盖了从通用目的到特定领域(如编码、数据处理、商业智能等)的各种AI代理工具和框架。为开发者和研究人员提供了一个探索AI代理的平台,鼓励社区通过Pull Request或填写表单来提交新的产品或项目,以丰富和完善这个列表。

    Awesome AI Agents

    Awesome AI Agents的主要功能

    • 资源汇总与分类:将AI代理工具和框架分为开源项目和闭源项目及公司两类,方便用户根据需求快速定位。
    • 按用途分类:进一步将AI代理按用途(如通用目的、编码、数据处理、商业智能、生产力等)进行分类,便于用户快速找到适合特定任务的工具。
    • 项目展示与描述:为每个AI代理提供详细的描述,包括其功能、特点、适用场景以及支持的模型或技术栈。
    • 链接与资源:提供项目链接、文档、GitHub页面、网站等资源,方便用户深入了解和使用。
    • Pull Request支持:鼓励用户通过Pull Request提交新的项目或工具,丰富列表内容。
    • 表单提交:提供在线表单,方便用户提交新项目或反馈,促进社区互动。
    • E2B集成:推荐使用E2B(Code Interpreter SDK)为AI应用提供代码解释功能,支持在沙盒环境中安全执行代码。
    • Web UI支持:提供Web版本,支持按类别和用例筛选产品,提升用户体验。
    • 多领域支持:涵盖从数据处理、编码、商业智能到生产力工具等多个领域的AI代理,满足不同用户的需求。
    • 多语言支持:部分工具支持多种编程语言和框架,如Python、JavaScript、TypeScript等。
    • 定期更新:仓库会定期更新,添加新的项目和工具,确保内容的时效性和实用性。
    • 社区反馈:通过社区反馈和讨论,不断优化和改进列表内容。
    • 文档与教程:提供相关文档和教程,帮助用户更好地理解和使用AI代理。
    • 示例与用例:通过示例和用例展示AI代理的实际应用场景,为开发者提供参考。

    Awesome AI Agents的特色Agent

    Agent名称 Agent描述 框架
    AgentGPT 部署AI代理以自主完成复杂任务 OpenAI, GPT
    Auto-GPT 一个实验性的开源项目,展示了GPT-4的能力 OpenAI, Python
    BabyAGI 任务驱动的自主AI代理 Python
    Claude 3.7 Sonnet 具有混合推理能力的AI模型,用于解决问题和编码任务 Anthropic
    Gemini Code Assist Google的AI编码工具,用于多语言代码生成和完成 Google AI
    GitHub Copilot Agent AI驱动的开发者编码助手 OpenAI, GitHub
    DeepSeek R1 与Azure集成的AI助手,提供高级AI能力 Microsoft AI

    Awesome AI Agents的开源项目

    工具类型 AI Agent名称 工具介绍描述
    数据处理 Adala 自主数据(标注)代理框架,提供可靠、可定制的输出,专注于数据处理任务。
    推荐系统 Agent4Rec 利用1,000个LLM驱动的生成代理进行个性化电影推荐的模拟器。
    代理构建 AgentForge 低代码框架,支持多种LLM模型,便于快速创建、测试和迭代AI驱动的自主代理。
    无代码平台 AgentGPT 基于浏览器的无代码平台,使用OpenAI功能实现任务分解和执行。
    桌面应用 AgentPilot 集成Open Interpreter和MemGPT,支持群组聊天功能的桌面应用。
    语言代理 Agents 具备长期记忆和短期记忆的语言代理库,支持多代理通信和人类交互。
    任务解决 AgentVerse 支持多代理协作完成任务的平台,允许自定义环境进行观察或交互。
    多代理任务解决 AI Legion 类似于AutoGPT的多代理任务解决平台,支持团队协作完成任务。
    代码编辑 Aider 与GPT-3.5/GPT-4配对编程的命令行工具,支持本地代码库编辑。
    任务执行 AIlice 以聊天形式创建任务执行树的代理,支持故障容错和自我扩展。
    多代理框架 AutoGen 支持多代理协作的LLM应用框架,简化复杂工作流,提升自动化能力。
    自主尝试 AutoGPT 使GPT-4完全自主的实验尝试,支持互联网搜索和长期记忆管理。
    代码生成 Automata 基于项目上下文生成代码的工具,支持多种LLM模型。
    拉取请求 AutoPR 基于AI生成拉取请求的代理,修复问题并优化代码。
    HR查询 Autonomous HR Chatbot 基于GPT-3.5的HR查询代理,支持时间管理、员工数据查询等功能。
    任务管理 BabyAGI 基于任务结果和预定义目标创建新任务的简单框架。
    功能扩展 BabyBeeAGI BabyAGI的扩展版本,支持更复杂的任务管理提示。
    修改版 BabyCatAGI BabyBeeAGI的轻量级版本,专注于任务依赖和结果汇总。
    代码简洁 BabyDeerAGI 仅350行代码的BabyAGI修改版,支持并行任务和用户输入工具。
    功能丰富 BabyElfAGI BabyDeerAGI的扩展版本,支持技能创建和动态任务列表。
    CLI和LLM测试 BabyCommandAGI 结合CLI和LLM进行测试的AI代理,支持自动编程和环境设置。
    UI面板 BabyFoxAGI 具有新并行UI面板的BabyAGI修改版,支持多种技能。
    数据探索 BambooAI 非程序员的数据探索和分析工具,支持本地交互和隐私保护。
    多任务代理 BeeBot 早期阶段的多任务代理项目,仍在开发中。
    代码搜索 Bloop Rust和Typescript代码搜索工具,支持自然语言查询和代码片段搜索。
    代码解释器 BondAI 支持CLI和RESTful/WebSocket API的代码解释器,提供强大的代码执行功能。
    依赖更新 bumpgen 保持npm依赖最新的AI代理,支持gpt-4-turbo。
    调度助手 Cal.ai 基于Cal.com的开源调度助手,支持自然语言任务调度。
    代理“思维”探索 CAMEL 研究自主和沟通代理的开源库,支持社区交流。
    多代理互动 ChatArena 支持多代理语言游戏环境的聊天工具。
    软件开发 ChatDev 由多个智能代理驱动的虚拟软件公司,支持多种角色协作。
    化学任务处理 ChemCrow 处理化学相关任务的LangChain代理,集成13个专家设计工具。
    代码操作 Clippy 可以计划、编写、调试和测试代码的代理。
    软件开发生命周期 CodeFuse-ChatBot 服务于整个软件开发生命周期的智能助手。
    代码库查询 Cody by ajhous44 基于自然语言查询代码库的AI助手。
    代码编写与问题回答 Cody by Sourcegraph 基于代码库和代码图谱编写代码和回答问题的AI助手。
    软件开发自动驾驶仪 Continue 为VS Code带来ChatGPT功能的开源自动驾驶仪。
    角色扮演代理编排 CrewAI 支持多代理协作的框架,旨在提升团队协作效率。
    无代码聊天机器人构建 Databerry 无代码平台,用于创建基于用户数据的AI聊天机器人。
    应用程序演示生成 DemoGPT 利用LLM快速生成应用程序演示的工具。
    虚拟开发者团队 DevGPT 由虚拟产品经理、开发者和运维人员组成的AI团队。
    代理AI软件工程师 Devika 能够理解高级指令、分解任务并编写代码的AI软件工程师。
    Devin替代品 Devon 开源的Devin替代品,支持多种任务。
    软件开发自动化 DevOpsGPT 结合LLM和DevOps工具,将自然语言需求转化为可运行软件的解决方案。
    代理部署 dotagent 支持在多种平台上部署代理的管理系统。
    多代理SDK Eidolon 支持AI代理的开源SDK,提供可插拔模块化组件。
    规格转换 English Compiler 将markdown规格转换为功能代码的AI编译器。
    角色适应 evo.ninja 能够根据任务实时调整角色的AI代理。
    快速代理构建 FastAgency 加速多代理工作流从原型到生产的开源框架。
    低代码代理构建器 Flowise 开源低代码工具,用于构建定制的LLM编排流程和AI代理。
    AI开发助手 Friday 支持Node.js项目的AI开发助手。
    工程平台 GeniA 能够与您并肩工作的工程平台工程AI团队成员。
    Godmode Godmode 受AutoGPT和BabyAGI启发,具有美观UI的通用代理。
    Discord集成 GPT Discord 为Discord提供强大的GPT接口,支持多种功能。
    代码库生成 GPT Engineer 基于提示生成整个代码库的AI代理。
    代码库迁移 GPT Migrate 在框架/语言之间迁移代码库的AI代理。
    应用程序编写 GPT Pilot 从头开始编写整个可扩展应用程序的AI代理。
    主题研究 GPT Researcher 在互联网上对任何主题进行研究的AI代理。
    文件对话 GPT Runner 与文件对话的AI代理,支持多种语言。
    图形语言代理 GPTSwarm 基于图的语言代理框架,支持自优化和自组织。
    代理开发平台 IX 支持构建和部署协作代理的平台。
    系统连接 JARVIS 连接LLM与ML社区的系统,支持任务规划和模型选择。
    LLM应用程序框架 Langroid 用于构建LLM应用的Python框架,支持多代理协作。
    工作流自动化 Lemon Agent 计划-验证-解决代理,支持任务自动化和人类交互。
    代理构建库 LLM Agents 用于构建代理、使用工具和计划的库。
    LLM代理构建平台 LLM Stack 用于构建LLM代理的无代码平台。
    私密文件互动 Local GPT 与本地文件进行私密互动的工具,支持多种模型。
    Python包实现 Loop GPT 作为Python包重新实现的AutoGPT项目。
    代码库和书籍生成 L2MAC 能够生成大型复杂代码库和整本书的代理框架。
    自然语言工作流 Maige 支持自然语言工作流的代码库代理。
    AIDE工具 Magick 用于创建、部署、扩展和货币化AI代理的AIDE。
    AI搜索引擎 MemFree 开源混合AI搜索引擎,支持多种数据源。
    内存管理系统 MemGPT 为LLM提供上下文的内存管理系统。
    编码任务助手 Mentat 从命令行协助编码任务的AI工具。
    多代理框架 MetaGPT 多代理框架,根据需求返回设计、任务或代码库。
    通用代理 Mini AGI 基于GPT-3.5/GPT-4的通用代理,支持多种任务。
    多代理辩论实现 Multiagent Debate 实现多代理辩论的论文,提升事实性和推理能力。
    多代理系统 Multi GPT 支持多个“专家GPT”协作完成任务的系统。
    AI开发工具 MutahunterAI 生成针对代码库漏洞的单元测试的AI工具。
    自然语言心智社会 NLSOM 基于自然语言的心智社会概念,支持多代理协作。
    通用多代理平台 OpenAgents 通用多代理平台,支持用户自定义代理。
    研发代理平台 OpenAGI 支持基准任务和开放式任务的AGI研发平台。
    代码与功能实现 OpenDevin 开源项目,旨在复制和改进Devin模型。
    代码解释器 Open Interpreter 允许LLM在本地运行代码以完成任务的代码解释器。
    提示管理工具 Pezzo 用于提示设计、版本管理、发布等的开发工具包。
    私密文档互动 Private GPT 与文档进行私密互动的工具,支持本地运行。
    营养目标助手 PromethAI 分解问题、提供解决方案并自动化的AI助手。
    React.js代理 React Agent 基于GPT-4的React.js自主LLM代理。
    计算机操作代理 Self-operating computer 让多模态模型操作计算机的代理。
    个人初级开发者 Smol developer 通过E2B UI部署的个人初级AI开发者。
    VSCode扩展 Stackwise 为VSCode扩展,自动生成和导入nodejs函数。
    代理构建工具 Superagent 无需编码即可创建代理的工具。
    代理开发框架 SuperAGI 用于开发和部署AI代理的框架。
    不完全信息游戏研究 Suspicion Agent 关于不完全信息游戏的研究论文。
    Devin替代品 SWE Agent 开源的Devin替代品,支持多种任务。
    GitHub助手 Sweep 修复问题并编写代码的GitHub助手。
    浏览器自动化 Taxy AI 使用GPT-4控制浏览器并执行任务的AI代理。
    无限记忆代理 Teenage AGI 受BabyAGI启发,能够回忆无限记忆的代理。
    UI代理 UFO 专注于Windows操作系统的UI代理。
    Python AI SQL代理 Vanna.AI 基于用户模式训练的Python AI SQL代理。
    终身学习代理 Voyager 在Minecraft中基于LLM的终身学习代理。
    智能合约部署 Web3 GPT 编写并部署智能合约到EVM区块链的工具。
    多代理环境模拟 “Westworld” simulation 多代理环境模拟库,支持多种交互。
    API调用框架 WorkGPT 用于调用API的GPT代理框架。
    任务解决代理 XAgent 解决各种任务的实验性LLM代理。
    工具设计与调试 yAgents 能够设计、编码和调试工具的代理构建器。
    Swift实现 Yourgoal BabyAGI的Swift实现,支持任务管理和执行。

    Awesome AI Agents的闭源项目

    工具类型 AI Agent工具名称 工具介绍描述
    安全自主代理 Ability AI 提供安全、以人为中心的自主AI代理。
    智能构建 Adept AI 构建智能的ML研究和产品实验室,支持人类与计算机的协作。
    AI代理平台 AGENTS.inc 提供多种特定任务的AI代理,如新闻雷达、公司识别等。
    个人助理 AgentScale 个人助理、邮件撰写器、日程安排器和互联网浏览器。
    AI代码解释器 Aide by Codestory 支持JS/TS的AI代码解释器,能够修复代码并生成测试。
    无代码平台 AilaFlow 无代码平台,用于构建AI代理。
    代理构建平台 Airkit.ai 用于构建、测试和部署代理的平台。
    Autopilot Airplane Autopilot 开发者为中心的内部UI和工作流构建工具。
    商业智能代理 Aomni 为商业智能设计的AI代理,支持多种工具。
    API集成平台 APIDNA 支持API集成的多代理平台。
    数字工作者 Artisian AI 创建类似人类的数字工作者,支持多种角色。
    知识引擎 Ask Pandi 搜索和生成知识的答案引擎。
    销售代理平台 AskToSell 部署和管理能够关闭交易的自主AI销售代理的平台。
    数据库交互 AskYourDatabase 与SQL数据库交互,探索和可视化数据的工具。
    企业数据分析 Athena Intelligence 24/7企业AI数据分析师。
    投资组合风险代理 Avanzai 帮助用户构建计算投资组合风险的自主AI代理。
    任务自动化代理 Bardeen 用于自动化重复任务的AI代理。
    工作流自动化 Beam 提供多种行业工作流自动化的AI代理。
    软件构建工具 Blackbox AI 旨在改变软件构建方式的编码LLM。
    商业助手 Blobr 连接所有工具的AI商业助手。
    AI团队构建器 BrainSoup 在PC上构建AI团队的工具。
    无代码平台 broadn 帮助非技术人员快速构建AI产品的无代码平台。
    网站构建器 Butternut AI 创建完全功能、准备发布的网站的工具。
    个人助理 B2 AI 帮助完成任务的自主AI个人助理。
    多功能助手 ChatHelp 支持多种语言和数据源的AI助手。
    个人购物助手 Claros AI Shopper 根据用户口味推荐产品的AI个人购物助手。
    网络爬虫 Claygent 能够搜索和浏览网络以查找信息的AI网络爬虫。
    项目助手 Code Autopilot 为GitHub问题和拉取请求提供AI助手。
    代码生成器 Codegen 使用GPT-4自动解决票务、编写测试并提升开发流程的代理。
    WordPress代理 CodeWP 为WordPress网站提供AI代理。
    编码助手 Codium AI 为开发者提供编码多功能AI助手。
    职业助手 Commit 为软件开发者提供职业搜索和AI驱动的自动申请。
    AI代理平台 Cognosys 基于Web的AutoGPT或BabyAGI版本。
    软件测试代理 ContextQA 用于软件测试的AI代理。
    代码编辑器 Cursor 支持AI的代码编辑器,类似VSCode界面。
    多模态代理 Cykel 能够与任何UI、网站或API交互的AI代理。
    AI软件工程师 Devin 能够学习新技术、构建和部署应用并修复代码的AI软件工程师。
    设计工具 Diagram 被Figma收购的AI设计工具。
    销售工程师 Docket AI 为复杂B2B销售提供AI销售工程师的工具。
    GitHub代理 Dosu 帮助响应问题、分类错误并构建更好文档的GitHub代理。
    数据分析助手 Dot 与数据仓库或语义层交互的虚拟助手。
    软件开发伙伴 Duckie AI 管理AI软件开发伙伴团队的平台。
    代码审查工具 Ellipsis 自动化代码审查和错误修复的工具。
    编码工具 encode 与团队合作完成工作的完全自主AI软件工程师。
    软件开发工具 Factory 能够从头到尾构建软件的编码工具。
    AI代理构建器 Fine 构建、管理和运行AI代理的平台。
    无代码平台 Fine Tuner 无需技术技能或编码即可构建AI代理的无代码平台。
    代理构建平台 Fixie 用于构建LLM驱动的AI应用的平台。
    通信自动化代理 Floode 自动化通信任务的执行代理。
    AI开发工具 GitHub Copilot X AI驱动的软件开发工具。
    DevSecOps工具 GitLab Duo 为DevSecOps工作流提供AI支持的工具。
    代码生成工具 GitWit 使用AI生成代码并跟踪文件更改的工具。
    多模态内容创作代理 GoCharlie 多模态内容创作自主代理。
    数据平台 Graphlit 构建AI应用的API优先数据平台。
    代码迁移工具 Grit 使用机器学习和静态分析自动生成清理技术债务的拉取请求。
    自动化工作流平台 Gumloop 构建和托管LLM驱动自动化的平台。
    生产力工具 Heights Platform 为课程创建者、社区建设者和教练提供服务的平台。
    数据增强工具 Hex Magic 为数据人员提供强大AI功能的工具。
    个人助理 Heymoon.ai 帮助管理日历、任务和信息的个人助理。
    浏览器任务自动化 iMean.AI 自动化浏览器任务的AI个人助理。
    代码协作工具 Input 允许邀请团队成员与AI协作的AI助手。
    代理交互环境 Instrukt 支持与AI代理交互的终端环境。
    代理构建框架 Invicta 构建自主AI代理的框架。
    数据处理工具 Julius 基于聊天的数据分析和AI代理。
    Web Scraping工具 Kadoa 使用LLM生成Web爬虫和数据处理步骤的工具。
    用户研究平台 Juno AI引导的用户访谈平台,收集人类洞察。
    定制对话代理 Kompas AI 选择LLM并构建自定义对话代理的工具。
    API测试代理 Kusho 为API测试生成和运行测试套件的AI代理。
    招聘语音代理 Kwal 招聘领域的语音代理。
    日常任务助手 Lindy 帮助管理日常任务的AI助手。
    AI工作流平台 Lutra AI 创建个人AI工作流和应用的平台。
    个人自动化工具 Magic Loops 通过结合生成式AI和代码,简化重复任务和自动化工作流的工具。
    HTML组件生成器 Makedraft 根据文本提示生成和编辑HTML组件的工具。
    工作流自动化工具 Manaflow 非技术团队用于自动化重复工作流的工具。
    AI加速软件开发 Mutable AI 加速软件开发的AI工具。
    AI代理构建器 Naut 构建自己的AI代理的平台。
    AI代理构建器 NexusGPT 无需编码即可构建AI代理的工具。
    Chrome扩展 Hyperwrite 能够控制浏览器完成高级任务的AI代理。
    个人编程助手 Phind AI搜索引擎和配对程序员。
    数据分析工具 Powerdrill AI 使用自然语言与数据集交互的AI SaaS服务。
    AI代理构建器 Proficient AI 用于构建AI代理的交互式API和SDK。
    生成式AI平台 Promptly 无需编码即可构建定制的生成式AI代理和应用的平台。
    Slack中的AI劳动力 Q, ChatGPT for Slack 在Slack中提供类似ChatGPT功能的AI劳动力。
    自主AI工作市场 Questflow 为中小企业提供自主AI工作者的市场。
    多AI代理构建平台 Rebyte 为GenAI应用构建多AI代理的平台。
    AI劳动力平台 Relevance AI 构建和部署AI应用和代理的平台。
    数字AI助手 Saga 用于笔记、任务和工具的数字AI助手。
    代码迁移工具 Second 自动化代码迁移和升级的工具。
    企业代理平台 Sentius 企业级的高负载自主代理平台。
    AI购物助手 ShopPal 提供个性化购物体验的AI购物助手。
    AutoGPT代理 Spell 具有插件的AutoGPT代理。
    产品数据仪表板的AI副驾驶 Superluminal 为产品数据仪表板提供AI支持的工具。
    数据发现工具 TalktoData 与CSV、Excel、Google Sheets和SQL数据库交互的AI数据分析师。
    AI代理构建器 Taskade 创建、训练和运行自定义AI代理的工具。
    金融AI代理平台 ThinkChain AI 提供多种高级AI代理的金融平台。
    质量保证代理 Test Driver 在GitHub中进行质量保证的AI代理。
    AI工程师 Tusk 帮助产品经理快速发布前端更改的AI工程师。
    保险销售和理赔AI代理 Vortic 提供定制化工具包的保险销售和理赔AI代理。
    React代码生成器 v0 by Vercel 基于Shadcn UI和Tailwind CSS生成React代码的工具。
    内容创作工具 Wispy 能够总结内容、创作内容或为学习主题创建测验的AI助手。
    语言模型应用平台 Wordware 部署LLM应用的平台。
    AI平台 WorkBot 隐私中心的对话式AI平台,支持商业和开源LLM。
    AI工作空间 Zapier Central 与6,000多个应用协作的AI工作空间。

    Awesome AI Agents的项目地址

    • Github仓库:https://github.com/e2b-dev/awesome-ai-agents

    Awesome AI Agents的适用人群

    • 软件开发者如AgentGPT适合需要快速实现任务分解和执行的开发者,希望减少手动编码工作量的人。
    • 数据分析师:如Adala适合需要可靠数据处理的分析师,处理大量标注数据的人。
    • 产品经理:如Superagent适合需要快速构建和部署自动化工作流的产品经理,希望减少手动工作的人。
    • 研究人员:如data-to-paper适合需要完整研究流程的研究人员,处理数据到论文转换的人。
  • self-llm – 专为中国开发者推出的开源大模型教程

    self-llm是什么

    self-llm (开源大模型食用指南)是Datawhale专为国内初学者打造的开源大模型教程,基于Linux平台,提供从环境配置到模型部署、微调的全流程指导,涵盖LLaMA、ChatGLM等主流模型。项目能简化开源大模型的使用流程,帮助学生和研究者快速上手。教程提供多种模型的详细教程、微调方法(如LoRA、ptuning)及应用案例,适合不同层次的学习者。项目鼓励社区参与,共同完善内容,推动开源大模型的普及和应用。

    开源大模型食用指南self-llm

    self-llm的主要功能

    • 环境配置指导:提供基于Linux平台的开源大模型环境配置指南,帮助用户搭建适合不同模型运行的基础环境。
    • 模型部署教程:涵盖国内外主流开源大模型(如LLaMA、ChatGLM、InternLM等)的本地部署方法,包括命令行调用、在线Demo部署等。
    • 微调方法指导:提供全量微调、LoRA微调、ptuning等高效微调方法的详细教程,帮助用户根据需求对模型进行定制化优化。
    • 应用开发指导:结合LangChain等框架,指导用户如何将开源大模型集成到实际应用中,打造领域特色的私域模型。
    • 社区共创与支持:鼓励用户提交问题(issue)或贡献代码(PR),共同完善教程内容,形成开源社区的协作与支持体系。

    self-llm支持的模型

    • GLM-4.1-Thinking
      • GLM-4.1V-Thinking vLLM 部署调用
      • GLM-4.1V-Thinking Gradio 部署
      • GLM-4.1V-Thinking LoRA 微调及 SwanLab 可视化记录
      • GLM-4.1V-Thinking Docker 镜像
    • GLM-4.5-Air
      • GLM-4.5-Air vLLM 部署调用
      • GLM-4.5-Air EvalScope 智商情商评测
      • GLM-4.5-Air LoRA 微调
      • GLM-4.5-Air Ucloud Docker 镜像
    • ERNIE-4.5
      • ERNIE-4.5-0.3B-PT LoRA 微调及 SwanLab 可视化记录
      • ERNIE-4.5-0.3B-PT LoRA Docker 镜像
    • Hunyuan-A13B-Instruct
      • Hunyuan-A13B-Instruct 模型架构解析
      • Hunyuan-A13B-Instruct SGLang 部署调用
      • Hunyuan-A13B-Instruct LoRA SwanLab 可视化微调
      • Hunyuan-A13B-Instruct LoRA Docker 镜像
    • Qwen3
      • Qwen3 模型结构解析
      • Qwen3-8B vllm 部署调用
      • Qwen3-8B Windows LMStudio 部署调用
      • Qwen3-8B Evalscope 智商情商评测
      • Qwen3-8B LoRA 微调及 SwanLab 可视化记录
      • Qwen3-30B-A3B 微调及 SwanLab 可视化记录
      • Qwen3 Think 解密
      • Qwen3-8B Docker 镜像
      • Qwen3-0.6B 的小模型用途
      • Qwen3-1.7B 医学推理式对话微调及 SwanLab 可视化记录
      • Qwen3-8B GRPO 微调及 SwanLab 可视化
    • Kimi-VL-A3B
      • Kimi-VL-A3B 技术报告解读
      • Kimi-VL-A3B-Thinking WebDemo 部署(网页对话助手)
    • Llama4
      • Llama4 对话助手
      • SpatialLM
      • SpatialLM 3D点云理解与目标检测模型部署
      • Hunyuan3D-2
      • Hunyuan3D-2 系列模型部署
      • Hunyuan3D-2 系列模型代码调用
      • Hunyuan3D-2 系列模型 Gradio 部署
      • Hunyuan3D-2 系列模型 API Server
      • Hunyuan3D-2 Docker 镜像
    • Gemma3
      • Gemma-3-4b-it FastApi 部署调用
      • Gemma-3-4b-it ollama + open-webui 部署
      • Gemma-3-4b-it Evalscope 智商情商评测
      • Gemma-3-4b-it LoRA 微调
      • Gemma-3-4b-it Docker 镜像
      • Gemma-3-4b-it GRPO 微调及 SwanLab 可视化
    • DeepSeek-R1-Distill
      • DeepSeek-R1-Distill-Qwen-7B FastApi 部署调用
      • DeepSeek-R1-Distill-Qwen-7B Langchain 接入
      • DeepSeek-R1-Distill-Qwen-7B WebDemo 部署
      • DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用
      • DeepSeek-R1-0528-Qwen3-8B-GRPO 及 SwanLab 可视化
    • MiniCPM-o-2_6
      • MiniCPM-o-2.6 FastApi 部署调用
      • MiniCPM-o-2.6 WebDemo 部署
      • MiniCPM-o-2.6 多模态语音能力
      • MiniCPM-o-2.6 可视化 LaTeX_OCR LoRA 微调
    • InternLM3
      • InternLM3-8b-instruct FastApi 部署调用
      • InternLM3-8b-instruct Langchain 接入
      • InternLM3-8b-instruct WebDemo 部署
      • InternLM3-8b-instruct LoRA 微调
      • InternLM3-8b-instruct o1-like 推理链实现
    • phi4
      • phi4 FastApi 部署调用
      • phi4 Langchain 接入
      • phi4 WebDemo 部署
      • phi4 LoRA 微调
      • phi4 LoRA 微调 NER任务 SwanLab 可视化记录版
      • phi4 GRPO 微调及 SwanLab 可视化
    • Qwen2.5-Coder
      • Qwen2.5-Coder-7B-Instruct FastApi 部署调用
      • Qwen2.5-Coder-7B-Instruct Langchain 接入
      • Qwen2.5-Coder-7B-Instruct WebDemo 部署
      • Qwen2.5-Coder-7B-Instruct vLLM 部署
      • Qwen2.5-Coder-7B-Instruct LoRA 微调
      • Qwen2.5-Coder-7B-Instruct LoRA 微调 SwanLab 可视化记录版
    • Qwen2-vl
      • Qwen2-vl-2B FastApi 部署调用
      • Qwen2-vl-2B WebDemo 部署
      • Qwen2-vl-2B vLLM 部署
      • Qwen2-vl-2B LoRA 微调
      • Qwen2-vl-2B LoRA 微调 SwanLab 可视化记录版
      • Qwen2-vl-2B LoRA 微调案例 – LaTeXOCR
    • Qwen2.5
      • Qwen2.5-7B-Instruct FastApi 部署调用
      • Qwen2.5-7B-Instruct Langchain 接入
      • Qwen2.5-7B-Instruct vLLM 部署调用
      • Qwen2.5-7B-Instruct WebDemo 部署
      • Qwen2.5-7B-Instruct LoRA 微调
      • Qwen2.5-7B-Instruct o1-like 推理链实现
      • Qwen2.5-7B-Instruct LoRA 微调 SwanLab 可视化记录版
    • Apple OpenELM
      • OpenELM-3B-Instruct FastApi 部署调用
      • OpenELM-3B-Instruct LoRA 微调
    • Llama3_1-8B-Instruct
      • Llama3_1-8B-Instruct FastApi 部署调用
      • Llama3_1-8B-Instruct Langchain 接入
      • Llama3_1-8B-Instruct WebDemo 部署
      • Llama3_1-8B-Instruct LoRA 微调
      • 动手转换 GGUF 模型并使用 Ollama 本地部署
    • Gemma-2-9b-it
      • Gemma-2-9b-it FastApi 部署调用
      • Gemma-2-9b-it Langchain 接入
      • Gemma-2-9b-it WebDemo 部署
      • Gemma-2-9b-it Peft LoRA 微调
    • Yuan2.0
      • Yuan2.0-2B FastApi 部署调用
      • Yuan2.0-2B Langchain 接入
      • Yuan2.0-2B WebDemo 部署
      • Yuan2.0-2B vLLM 部署调用
      • Yuan2.0-2B LoRA 微调
    • Yuan2.0-M32
      • Yuan2.0-M32 FastApi 部署调用
      • Yuan2.0-M32 Langchain 接入
      • Yuan2.0-M32 WebDemo 部署
    • DeepSeek-Coder-V2
      • DeepSeek-Coder-V2-Lite-Instruct FastApi 部署调用
      • DeepSeek-Coder-V2-L

    self-llm的项目地址

    • GitHub仓库:https://github.com/datawhalechina/self-llm

    self-llm的应用场景

    • 教育与学习:为初学者提供从环境配置到模型微调的全流程指导,助力学生和开发者快速掌握开源大模型的使用方法。
    • 企业应用开发:帮助企业根据自身业务需求对开源大模型进行定制化微调,开发智能客服、知识管理等专属应用。
    • 个人项目开发:支持个人开发者利用开源大模型开发智能写作助手、个人智能助手等项目,提升个人生产力。
    • 研究与创新:为研究人员提供实验平台,支持对开源大模型的架构优化、训练方法改进等研究工作。
  • NeuralAgent – 开源的桌面AI助手,自然语言执行复杂任务

    NeuralAgent是什么

    NeuralAgent 是开源的桌面 AI 个人助手,通过自然语言指令自动化执行多种复杂任务,如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化,在 Windows 平台上支持后台浏览器控制,实现高效任务处理。NeuralAgent 集成 ClaudeGPT-4、Azure OpenAI、BedrockOllamaGemini 等多种主流语言模型,基于模块化设计(如规划器、分类器等),支持多模态(文本+视觉)交互。NeuralAgent 基于 FastAPI 后端、Electron 桌面应用和 React 前端构建,为用户提供高度可配置的智能分析与执行能力,助力实现真正的生产力提升。

    NeuralAgent

    NeuralAgent的主要功能

    • 桌面自动化:通过模拟键盘输入、鼠标点击、表单填写、邮件发送和网页导航等操作,实现任务的自动执行。
    • 后台任务执行:在 Windows 平台上支持后台浏览器控制,无需人工干预即可完成任务。
    • 多模态交互:支持文本和视觉输入,能处理图像和文字信息。
    • 多语言模型支持:集成多种主流语言模型,如 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini。
    • 模块化设计:包含多种功能模块,如规划器、分类器、建议器等,支持根据任务需求灵活配置。
    • 跨平台运行:支持 Windows、macOS 和 Linux,但部分功能(如后台自动化)目前仅限 Windows。

    NeuralAgent的技术原理

    • FastAPI 后端:用 FastAPI 构建高性能后端服务,负责处理 API 请求和任务调度。集成 PostgreSQL 数据库,用在存储任务数据和用户信息。
    • Electron 桌面应用:用 Electron 构建跨平台桌面应用,提供用户界面。内嵌 React 前端框架,实现流畅的用户体验。
    • Python 自动化脚本:基于 Python 的 pyautogui 库实现桌面自动化操作,如鼠标点击和键盘输入。在 Windows 平台上通过 WSL(Windows Subsystem for Linux)实现后台浏览器控制。
    • 模块化代理系统:基于模块化设计,将不同任务分配给专门的代理模块(如规划器、分类器等)。每个模块根据任务需求调用不同的语言模型,实现智能分析和执行。

    NeuralAgent的项目地址

    • 项目官网:https://www.getneuralagent.com/
    • GitHub仓库:https://github.com/withneural/neuralagent

    NeuralAgent的应用场景

    • 办公自动化:自动填写和发送邮件、编辑文档、生成报告,显著提升工作效率,减少重复性劳动,让办公更加高效便捷。
    • 网页自动化:快速抓取网页数据、自动提交表单、批量处理网页任务,助力用户高效收集信息和完成在线操作。
    • 个人生产力提升:智能规划日常任务、整理信息、生成笔记,帮助用户高效管理时间和工作,提升个人生产力。
    • 创意工作辅助:生成创意文案、辅助设计草图、提供代码片段,激发创作灵感,加速创意工作流程,助力创意实现。
    • 企业级应用:自动分析数据、跟踪项目进度、生成项目报告,助力企业高效运营与管理,提升团队协作效率。
  • GitMCP – 开源MCP服务器,可将GitHub仓库转为实时文档中心

    GitMCP是什么

    GitMCP 是开源的远程 Model Context Protocol (MCP) 服务器,能将 GitHub 仓库(包括代码库和 GitHub 页面)转变为实时文档中心,让 AI 工具(如 Cursor)直接访问最新文档和代码,消除代码幻觉提高代码准确性。GitMCP支持特定仓库和通用服务器两种模式,用户能根据需求选择。GitMCP 无需安装,零配置,支持嵌入式聊天,完全免费、保护隐私。GitMCP能通过智能搜索和文档访问,确保 AI 助手提供准确、可靠的代码示例和 API 用法。

    GitMCP

    GitMCP的主要功能

    • 最新文档和代码访问:提供GitHub项目最新文档和代码,确保AI助手获取准确信息。
    • 消除代码幻觉:通过实时数据减少AI生成错误代码的概率,提升代码正确性。
    • 零配置使用:无需安装或注册,直接在IDE中添加GitMCP URL即可使用。
    • 嵌入式聊天:支持通过浏览器直接与仓库文档聊天,快速获取信息。
    • 隐私保护:开源免费,不收集个人信息,用户能自行托管增强隐私。
    • 灵活访问方式:支持特定仓库和通用服务器两种模式,满足不同使用需求。

    GitMCP的技术原理

    • 基于Model Context Protocol (MCP):GitMCP的核心是Model Context Protocol (MCP),一个标准化的协议,支持AI助手从外部源请求额外的上下文信息。基于MCP,GitMCP能与各种AI助手(如Cursor、Claude、VSCode等)无缝集成。
    • 用户指定GitHub项目:用户用提供特定的GitMCP URL(例如gitmcp.io/{owner}/{repo}或{owner}.gitmcp.io/{repo})指定需要访问的GitHub项目。这种URL格式让GitMCP能精准定位到目标仓库,确保AI助手访问到正确的项目文档和代码。GitMCP提供通用的动态端点gitmcp.io/docs,支持AI助手根据上下文动态选择仓库。
    • AI助手发起请求:当用户向AI助手提出问题(例如“如何使用某个库的特定功能”)时,AI助手通过MCP协议向GitMCP发送请求。请求的内容包括获取文档、搜索代码示例或查询特定功能的实现细节。
    • GitMCP执行请求:GitMCP接收到AI助手的请求后,根据请求类型执行相应的操作。
    • 返回数据给AI助手:GitMCP将从GitHub仓库中检索到的文档、代码或其他信息返回给AI助手。数据会用结构化的形式返回,让AI助手能够速解析并利用信息。AI助手根据数据生成更准确、更可靠的回答,减少因信息过时或不准确导致的代码幻觉(hallucinations)。

    GitMCP的项目地址

    • 项目官网:https://gitmcp.io/
    • GitHub仓库:https://github.com/idosal/git-mcp

    GitMCP的应用场景

    • 跨项目协作:团队成员在不同GitHub项目中协作时,快速获取各项目最新文档和代码,提升协作效率。
    • 学习新技术:开发者学习新库或框架时,快速找到GitHub项目的关键文档和示例代码,加速学习过程。
    • 开源项目贡献:开发者参与开源项目时,快速了解项目结构和代码规范,降低贡献门槛。
    • 远程开发支持:远程团队成员在不同地区访问GitHub项目,确保信息同步,减少因网络或时差导致的沟通成本。
    • 项目迁移与重构:在迁移或重构GitHub项目时,帮助开发者快速找到关键代码片段和文档,减少工作量。
  • LandPPT – 开源AI PPT生成工具,简化三步工作流

    LandPPT是什么

    LandPPT 是AI演示文稿生成平台,能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型,兼容 PDF、Word、Markdown 等文件格式,支持智能解析内容,生成结构清晰的大纲和精美的 PPT 页面。平台提供丰富的模板系统和自定义功能,用户基于现代化的 Web 界面进行可视化编辑、实时预览和多格式导出。LandPPT 基于三步工作流(需求确认、大纲生成、PPT 生成)简化创作过程,让演示文稿制作更高效、更智能。

    LandPPT

    LandPPT的主要功能

    • 多AI提供商支持:集成多种主流AI模型,如OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列,及本地部署的Ollama模型,用户能根据需求灵活选择。
    • 强大的文件处理能力:支持PDF、Word、Markdown、TXT等多种文件格式,支持智能解析内容,基于联网进行深度研究,为PPT生成提供更丰富的素材。
    • 丰富的模板系统:提供全局主模板和多样化的页面布局选择,AI能生成创意页面布局,支持用户导入和创建个性化模板,满足不同用户的审美和需求。
    • 完整的项目管理:基于三阶段工作流(需求确认、大纲生成、PPT生成),配备可视化大纲编辑器和实时预览功能,帮助用户高效管理演示文稿的创作过程。
    • 现代化Web界面:用户界面友好,支持AI聊天编辑功能,用户在侧边栏用自然语言与AI交互,实时修改PPT内容;提供PDF、HTML、PPTX等多种格式的导出功能,方便用户在不同场景下使用演示文稿。

    如何使用LandPPT

    • 本地安装
      • 克隆项目
    git clone https://github.com/sligter/LandPPT.git
    cd LandPPT
      • 安装依赖
        • 安装 uv(推荐):
    # Windows
    powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
    # macOS/Linux
    curl -LsSf https://astral.sh/uv/install.sh | sh
        • 同步环境
    uv sync
    uv pip install apryse-sdk --extra-index-url=https://pypi.apryse.com
      • 配置环境变量
        • 复制 .env.example 文件并重命名为 .env
    cp .env.example .env
        • 编辑 .env 文件,配置 AI 提供商的 API 密钥(如 OpenAI、Anthropic 等)。
      • 启动服务
    uv run python run.py
      • 访问 Web 界面:打开浏览器,访问 http://localhost:8000。初始账号为 admin,密码为 admin123
    • Docker 部署
      • 拉取镜像
    docker pull bradleylzh/landppt:latest
        • 创建并配置 .env 文件:将 .env.example 文件的内容复制到本地的 .env 文件中,根据需要配置 API 密钥。
      • 运行容器
    docker run -d \
      --name landppt \
      -p 8000:8000 \
      -v $(pwd)/.env:/app/.env \
      -v landppt_data:/app/data \
      -v landppt_reports:/app/research_reports \
      -v landppt_cache:/app/temp \
      bradleylzh/landppt:latest
      • 查看日志
    docker logs -f landppt
    • 访问 Web 界面打开浏览器,访问 http://localhost:8000初始账号为 admin,密码为 admin123

    LandPPT的项目地址

    • GitHub仓库:https://github.com/sligter/LandPPT

    LandPPT的应用场景

    • 企业汇报:快速将项目报告、数据分析等文档内容转化为专业 PPT,节省制作时间,提升汇报效率。
    • 学术演讲:将学术论文、研究资料转化为清晰的演示文稿,帮助学者专注于内容讲解,提升演讲效果。
    • 教育培训:教师将教学大纲、教案快速生成互动性强的课件,提升教学吸引力和学生参与度。
    • 市场营销:为产品推广、品牌宣传等活动快速生成创意十足、视觉精美的演示文稿,吸引目标受众。
    • 个人分享:帮助个人快速整理演讲思路,生成个性化的 PPT,适用技术分享、创意展示等场景。
  • WeKnora – 腾讯开源的文档理解与语义检索框架

    WeKnora是什么

    WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。框架基于模块化设计,支持多模态文档解析(如 PDF、Word、图片等),通过 RAG(检索增强生成)机制实现精准问答。WeKnora 提供强大的多模态认知引擎、灵活的检索策略、私有化部署和开箱即用的 Web UI 界面,适用于企业知识管理、科研文献分析、法律合规审查等场景,支持本地化部署和微信生态集成,助力高效的知识管理和智能问答。

    WeKnora

    WeKnora的主要功能

    • 多模态文档解析:支持多种格式文档(如PDF、Word、图片等)的精准解析,提取文本、表格及图像语义,构建统一的结构化知识中枢。
    • 智能语义检索:基于语义向量索引和多种检索策略(如关键词、向量检索、知识图谱检索),实现高效、精准的内容召回。
    • 大语言模型集成:支持集成主流大语言模型(如Qwen、DeepSeek等),提供上下文感知和多轮对话功能,生成高质量的智能问答。
    • 知识图谱构建:将文档内容转化为知识图谱,展示段落之间的语义关联,提升检索结果的相关性和广度。
    • 灵活部署与适配:支持本地化部署、Docker镜像和私有云部署,适配多种生产环境,内置监控日志体系,便于运维管理。
    • 用户友好的交互体验:提供直观的Web UI界面,支持拖拽上传文档和知识库管理,零代码部署,快速集成到微信生态。

    WeKnora的技术原理

    • 模块化架构:基于模块化设计,构建一条完整的文档理解与检索流水线,包括文档解析、向量化处理、检索引擎和大模型推理等核心模块。每个模块均能灵活配置与扩展,支持自由组合检索策略和大语言模型。
    • 多模态预处理:用OCR技术和跨模态建模技术,精准解析文档中的图文混排内容。将非结构化内容转换为结构化数据,构建统一的语义视图。
    • 语义向量索引:将文档内容向量化处理,构建高效的语义索引。支持多种向量数据库(如PostgreSQL的pgvector、Elasticsearch等),实现快速的语义检索。
    • RAG机制:基于Retrieval-Augmented Generation(RAG)机制,将检索到的上下文相关片段与大语言模型结合。实现更高质量的语义回答,支持复杂的语义建模和多轮对话。

    WeKnora的项目地址

    • 项目官网:https://weknora.weixin.qq.com/
    • GitHub仓库:https://github.com/Tencent/WeKnora

    WeKnora的应用场景

    • 企业知识管理:帮助员工快速检索内部文档、规章制度和操作手册,提升知识查找效率,降低培训成本。
    • 科研文献分析:加速论文、研究报告和学术资料的检索与分析,助力科研人员高效开展研究工作。
    • 产品技术支持:提供产品手册问答和技术文档检索服务,帮助用户快速解决技术问题,提升客户服务质量。
    • 法律合规审查:支持合同条款检索、法规政策查询和案例分析,提高法律合规效率,降低法律风险。
    • 医疗知识辅助:辅助医学文献检索、诊疗指南查询和病例分析,提升医疗决策的科学性和准确性。
  • GPT-5 – OpenAI推出的最新最强AI模型

    GPT-5是什么

    GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最强模型,面向所有用户开放。GPT-5是一个统一系统,包括一个基础模型用在解答常见问题,一个深度推理模型(GPT-5 思维模块)用在处理复杂难题,一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令(如“仔细思考”)智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色,大幅减少幻觉和错误,回答更贴近真实情况。GPT-5 支持多模态输入,能处理图像和文本。GPT-5 提供免费、Plus 和 Pro 三种模式,满足不同用户的需求。

    GPT-5

    GPT-5的主要功能

    • 高效回答与推理:支持根据问题复杂度自动切换基础模型和深度推理模型,快速回答常见问题或深入思考复杂问题。
    • 编程能力:GPT-5 是 OpenAI 最强的编程模型,能生成高质量代码、调试大型代码库,在生产级任务中表现出色。
    • 写作与创意表达:能将粗糙想法转化为有文学深度和节奏感的精彩写作,支持多种文体并提供创意灵感。
    • 健康咨询:在健康相关问题上表现更好,能够提供精准建议,主动提示潜在问题,并确保回答安全可靠。
    • 多模态理解:支持图像和视频输入,能进行视觉推理和空间分析,处理多模态任务。
    • 减少幻觉与提高准确性:显著降低幻觉率,减少事实性错误,回答更准确且更诚实。
    • 安全与可靠性:引入“安全完成”训练方法,减少欺骗行为,确保在生物和化学等高风险领域的安全性。
    • 定制化与个性化:提供四种预设性格(愤世嫉俗者、机器人、倾听者和书呆子),用户根据需求选择互动风格。
    • 多语言支持:支持多种语言对话,能够理解和生成多种语言内容,帮助用户进行语言转换。
    • API 支持:GPT-5 通过 API 提供多种模型选择(如 GPT-5、GPT-5 mini、GPT-5 nano),灵活定价,方便开发者使用。

    GPT-5的版本信息

    • GPT-5:默认版本,适用大多数通用任务,能根据问题复杂度自动切换基础模型和深度推理模式。
    • GPT-5 Mini:一个更小、更快的版本,适用轻量级任务或在达到使用限制后继续使用。
    • GPT-5 Nano:最小版本,专为开发者设计,适合快速原型设计和高效处理轻量级任务。
    • GPT-5 Pro:高级版本,专为 Pro 订阅者提供,使用更强大的计算资源,适用复杂任务和深度推理。

    GPT-5的性能表现

    • 编程与工具链能力
      • SWE-bench Verified:74.9%(GPT-4:52%,o3:69.1%)
      • Aider Polyglot:88%,错误率比 o3 低 33%
      • 前端开发:内部测试胜率 70%
      • τ²-bench 工具链任务:96.7%
    • 数学与多模态能力
      • AIME 2025 数学测评:Pro+Python 模式 100%
      • MMMU 多模态理解:84.2%
    • 专业领域
      • HealthBench Hard(医疗):46.2%
    • 知识准确性与可靠性
      • 错误率比 GPT-4o 低约 45%
      • thinking 模式比 o3 低约 80%
      • 幻觉率仅为 o3 的 1/6
      • 欺骗率 2.1%(o3 为 4.8%)
    • 人机交互与风格
      • 谄媚倾向(sycophancy)降至 6%(GPT-4 为 14.5%)

    GPT-5

    GPT-5的官网地址

    如何使用GPT-5

    • 访问官网:访问GPT-5的官网ChatGPT
    • 免费用户
      • 访问方式:GPT-5 已全局上线,免费用户能直接在 ChatGPT 中使用。
      • 限制:免费用户的 GPT-5 用量会明显受限。当用量耗尽后,模型会被切换成 GPT-5 mini。
    • Plus 用户:Plus 用户有更高的 GPT-5 使用额度。
      • 额外功能:Plus 用户能在 Codex CLI 中使用 GPT-5,开启“思考模式”。
    • Pro 用户:Pro 用户能无限制访问 GPT-5,可使用 GPT-5 Pro。
      • 功能:Pro 用户能访问所有 GPT-5 的功能,包括高级的编程和创作工具。
    • 企业版和教育版用户:企业版和教育版用户将在一周内获得访问权限。
    • 在 API 中使用 GPT-5
      • API 调用方法
        • 支持的模型:API 中支持的 GPT-5 模型包括 gpt-5、gpt-5-mini、gpt-5-nano 和 gpt-5-chat。
        • 输入输出:支持用图文输入,并用文字输出。
        • Endpoint:支持 /chat/completions、/responses 和 /assistants 等 endpoint。
      • 功能支持
        • Streaming:支持流式输出。
        • Function calling:支持函数调用。
        • Structured outputs:支持结构化输出。
        • 微调:支持模型微调。
        • Responses API:支持 Web search、File search、Code interpreter 和 MCP 等功能。

    GPT-5 的产品定价

    • 免费用户:所有用户都能免费使用 GPT-5,但有使用次数限制。
    • Plus 用户:$20 美元/月,获得更高的使用额度,适合日常频繁使用。
    • Pro 用户:$200 美元/月,获得无限访问权限,能使用 GPT-5 Pro 版本。
    • API 定价
      • GPT-5:每百万输入 token 1.25 美元,输出 10 美元。
      • GPT-5 Mini:每百万输入 token 0.25 美元,输出 2 美元。
      • GPT-5 Nano:每百万输入 token 0.05 美元,输出 0.40 美元。

    GPT-5

    GPT-5的应用场景

    • 编程开发:生成高质量代码、调试大型代码库,并在生产级任务中表现出色,适合软件开发、前端设计和复杂系统开发。
    • 写作创作:GPT-5 能将粗糙想法转化为有文学深度和节奏感的精彩写作,支持多种文体,适合撰写文章、报告、诗歌和创意写作。
    • 健康咨询:提供精准建议,主动提示潜在问题,并确保回答安全可靠,适合健康咨询和医学科普。
    • 多模态任务:进行视觉推理和空间分析,适合处理图表解读、照片总结和多模态任务。
    • 复杂问题解决:处理复杂的科学问题、数学难题和多步骤任务,适合科学研究、高级教育和专业咨询。

    GPT-5的官方示例

    滚动球小游戏

    Prompt:Create a single-page app in a single HTML file with the following requirements:

    • Name: Jumping Ball Runner
    • Goal: Jump over obstacles to survive as long as possible.
    • Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.
    • The UI should be colorful, with parallax scrolling backgrounds.
    • The characters should look cartoonish and be fun to watch.
    • The game should be enjoyable for everyone.

    (中文)提示词:创建一个单页面应用,仅使用一个 HTML 文件,满足以下要求:

    • 游戏名称:跳跃球跑酷
    • 游戏目标:跳跃躲避障碍物,尽可能存活更长时间。
    • 游戏功能:速度逐渐增加、记录最高分、重试按钮、为操作和事件添加有趣的音效。
    • 用户界面:色彩丰富,带有视差滚动背景。
    • 角色设计:角色应具有卡通风格,看起来有趣。
    • 游戏体验:适合所有人游玩。

    GPT-5

    像素艺术

    Prompt:Create a single-page app, in a single HTML file, that provides a retro pixel painting experience.

    • Canvas: fixed pixel grid with zoom; tools for pencil, eraser, fill, line, rectangle, circle; grid toggle.
    • Palette: 16-color swatches with two custom slots; eyedropper; foreground/background swap.
    • Editing: undo/redo, copy/paste selection, flip/rotate selection, clear canvas; status bar with cursor coords.
    • UI shell: faux OS window (’90s style) with draggable title bar, toolbar icons, tooltip hints.
    • Import/Export: import PNG (quantize to palette) and export PNG/SpriteSheet + JSON; save/load from localStorage.
    • Shortcuts: number keys for tools, +/- for zoom; accessible labels and focus order.
    • Responsive layout; no uploads to servers.

    (中文)提示词:创建一个单页面应用,仅使用一个 HTML 文件,提供复古像素画体验:

    • 画布:固定像素网格,可缩放;提供铅笔、橡皮擦、填充、直线、矩形、圆形工具;可切换网格显示。
    • 调色板:16种颜色样本,带有两个自定义颜色槽;取色器;前景/背景颜色切换。
    • 编辑功能:撤销/重做,复制/粘贴选择区域,翻转/旋转选择区域,清除画布;状态栏显示光标坐标。
    • 用户界面:模拟 90 年代操作系统窗口风格,带有可拖动标题栏、工具栏图标、提示信息。
    • 导入/导出:导入 PNG(量化到调色板)并导出 PNG/精灵表 + JSON;从 localStorage 保存/加载。
    • 快捷键:数字键切换工具,加减键调整缩放;提供可访问的标签和焦点顺序。
    • 响应式布局;不上传至服务器。

    GPT-5

  • Speech 2.5 – MiniMax推出的新一代语音生成模型

    Speech 2.5是什么

    Speech 2.5 是 MiniMax 推出的新一代语音生成模型,在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言,能精准还原不同语言和口音的细节,复刻音色时保留风格与情绪,跨语种切换依然逼真。Speech 2.5 适用企业多语种客服、创作者全球内容制作和教育者语言教学等场景,助力全球化内容创作与传播。用户可通过MiniMax开放平台和MiniMax Audio官网使用模型。

    Speech 2.5

    Speech 2.5的主要功能

    • 多语种语音合成:支持40种语言,包括中文、英文、西班牙语、保加利亚语、丹麦语、希伯来语、马来语、波斯语等。不同语言之间的切换自然流畅,字错率低,自然韵律度高,适合商务会议、播克等多种场景。
    • 音色复刻:高度还原特定音色,包括跨语种口音、风格和情绪。能保留不同地区口音(如英国女王的发音)及特殊年龄的声音细节。
    • 高性价比:在全球语音模型榜单中表现优异,延续高性价比的优势,广泛应用在国内外头部平台。

    Speech 2.5的项目地址

    如何使用Speech 2.5

    • 访问官网:打开浏览器,访问 MiniMax Audio 官网。
    • 注册/登录账号:点击“注册”或“登录”按钮,完成账号创建或登录。
    • 选择功能模块:登录后选择语音合成功能模块。
    • 音色复刻操作:输入文本提示词,点击“生成语音”。
    • 下载或播放:生成的语音文件在线播放或下载保存。

    Speech 2.5的应用场景

    • 企业客户:企业客户 实现多语种客服与广告配音,降本增效,助力全球化业务拓展。
    • 创作者:创作者借助 Speech 2.5 制作多语种短视频,轻松拓展全球受众。
    • 教育者:教育者生成多语言语音样本,辅助语言学习,提升教学效果。
    • 全球化应用:跨境电商平台借助 Speech 2.5 生成多语种产品介绍,提升用户体验和购买转化率。
  • Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型

    Qwen-Flash是什么

    Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型,版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升,特别优化主观开放类任务的处理,能更好地满足用户需求。Qwen-Flash支持1M超长上下文,适合处理复杂任务。定价为每百万字符0.00015元,具有速度快、成本低的优势,适合简单任务快速处理。模型现已上线阿里云百炼平台。

    Qwen-Flash

    Qwen-Flash的主要功能

    • 通用能力提升:相较于之前的版本,Qwen-Flash在处理各种任务时的通用能力有显著提升。
    • 推理能力增强:模型能完成一定难度的数学、科学、代码类等推理任务,适用需要逻辑分析和问题解决的场景。
    • 知识能力提升:在中英文长尾知识处理方面有大幅度提升,能更好地理解和生成相关领域的内容。
    • 主观开放类任务优化:专项优化主观开放类任务的处理,能提供更符合用户偏好和更有帮助性的回复。
    • Agent能力增强:增强模型的Agent能力,在执行任务时更加智能和高效。
    • 超长上下文支持:支持1M(百万字符)超长上下文,能处理更长的文本输入。

    Qwen-Flash的项目地址

    • 项目官网:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/group-qwen-flash?modelGroup=group-qwen-flash

    如何使用Qwen-Flash

    • 访问平台:访问阿里云百炼平台官网。
    • 登录或注册:按提示完成账户注册和登录。
    • 模型体验:点击导航栏上方“模型”,进入模型广场,选择“模型体验”-“文本模型”,选择“更多模型”找到进行Qwen-Flash模型,进行文本对话或文本调试。
    • 模型部署和应用:如果您需要将模型部署到应用中,用“模型部署”功能。或通过“工作台”进行批量推理、模型评测和模型调优。

    Qwen-Flash的应用场景

    • 客户服务:Qwen-Flash能快速处理客户咨询,提供即时反馈和解决方案。
    • 内容创作:帮助用户自动生成或编辑文章、博客和其他文本内容。
    • 教育辅导:Qwen-Flash能提供个性化的学习支持和学术问题解答。
    • 编程辅助:为开发者提供代码理解和编程建议,甚至自动生成代码。
    • 数据分析:Qwen-Flash能分析大量数据,帮助提取有价值的业务洞察。