Skip to main content

Author: Chimy

豌豆羊输入法 – AI输入工具,支持动态预测与智能纠错

豌豆羊输入法是什么

豌豆羊输入法是专为年轻人设计的趣味AI输入法工具,由蚂蚁云通(上海)信息技术有限公司开发。通过多种创新功能,满足用户在聊天场景中的个性化和趣味化表达需求。主要功能包括智能回复、表情包制作和多样化的输入方式。用户可以用AI智能替身回复聊天,选择多种AI人设(如情话、怼人、夸赞等),能通过AI生图能力制作搞怪表情包。豌豆羊输入法支持拼音、手写、语音等多种输入方式,提供智能纠错和动态预测功能,让输入更高效。支持个性化设置,用户可以根据聊天场景切换角色和主题,打造专属输入体验。

豌豆羊输入法

豌豆羊输入法的主要功能

  • AI智能替身:接入大模型,用户上传聊天截图后,AI可自动回复,提供多种AI人设(如情话、怼人、夸赞、宫斗等),满足不同社交场景需求。
  • 智能纠错与预测:支持动态预测、整句输入,能智能纠错,让用户输入更高效。
  • AI生图能力:提供丰富的表情包制作工具,支持AI配梗、AI重绘,用户可一键生成搞怪表情包,轻松应对各种聊天场景。
  • 多种输入法:支持拼音、手写、语音、笔画、五笔等多种输入方式,满足不同用户的输入习惯。
  • 混合输入:支持中文、英文、数字、符号的混合输入免切换,方便快捷。
  • 自定义角色切换:用户可以根据聊天场景自定义角色和设定,切换输入法主题,打造专属输入体验。
  • 主题管理:提供丰富的主题选择,用户可以根据喜好更换输入法界面风格。

豌豆羊输入法的官网地址

豌豆羊输入法的应用场景

  • 社交聊天:在聊天中,用户可以通过上传聊天截图,让AI根据聊天内容生成合适的回复。
  • 高效输入:支持中英文、数字、符号的混合输入免切换,适合在学习和工作中快速输入各种内容。
  • 个性化表达:在学习和工作中,用户也可以通过自定义角色切换和主题管理,让输入法更符合自己的风格,提高输入的愉悦感。
  • 表情包制作:用户可以根据聊天内容,用AI生图能力制作搞怪表情包。

Coze Loop – 字节Coze推出的AI Agent开发与调试平台

Coze Loop是什么

Coze Loop(扣子罗盘)是字节跳动旗下Coze平台开源的专注于AI智能体(Agent)开发与运维的管理平台,为开发者提供从开发、调试、评估到监控的全生命周期管理能力。包括提示词工程、Agent效果评测、性能监控与调优、透明决策监控以及多模型对比。支持提示词的编写、优化和版本管理,提供AI辅助优化功能,显著提升提示词开发效率。Coze Loop通过系统化的评估体系,能对Agent的输出效果进行多维度自动化检测,确保其准确性和合规性。提供性能监控、异常告警以及透明化的决策链路展示,帮助开发者快速定位问题并优化模型表现。

Coze Loop

Coze Loop的主要功能

  • 提示词工程:支持提示词的编写、调试、优化及版本管理,提供AI辅助优化功能,显著提升提示词开发效率。
  • Agent效果评测:提供系统化的Agent性能评估体系,能对Prompt和AI智能体的输出效果进行多维度自动化检测,例如准确性、简洁性和合规性等。
  • 性能监控与调优:通过Trace数据追踪、性能统计和异常告警,快速定位问题根源,优化模型表现。
  • 透明决策监控:可视化展示AI工作流程,包括用户输入、模型调用和工具调用,实现全链路透明化。
  • 多模型对比:支持不同模型(如DeepSeek、豆包等)的性能对比,帮助开发者选择最优方案。

Coze Loop的项目地址

  • Github仓库:https://github.com/coze-dev/cozeloop
  • 官网地址:https://www.coze.cn/loop

如何使用Coze Loop

  • 访问与注册:访问Coze Loop的官网,注册并登录平台,创建或导入项目。
  • Prompt开发
    • 编写与调试:使用Prompt智能中枢编写和调试Prompt,实时预览不同模型的回答效果。支持智能优化、多版本对比和版本管理。
    • AI辅助优化:平台提供AI辅助优化功能,帮助提升Prompt开发效率。
  • 评测
    • 配置评测集:自定义评测集(输入数据和预期输出结果),设置评估标准。
    • 运行自动化测试:平台自动调用模型输出并对齐真实结果,支持准确率、语言规范性等多维度统计。
  • 观测
    • 启用观测功能:监控AI工作流程,包括用户输入、模型调用和工具调用,实现全链路透明化。
    • 实时预警:通过Trace数据追踪、性能统计和异常告警,快速定位问题根源。
  • 优化与迭代:根据观测和评测结果,优化Prompt或模型。迭代更新并部署最终版本。
  • 多模型对比:支持不同模型(如DeepSeek、豆包等)的性能对比,帮助选择最优方案。
  • 部署与集成:调试完成后,可通过SDK一键集成至业务代码,实现开发流程无缝对接。

Coze Loop的应用场景

  • 虚拟陪伴AI开发:通过透明化决策链优化人物设定,提升对话自然度。
  • 营销内容生成:自动化生成公众号、小红书等内容,结合评测确保合规性与质量。
  • 企业智能客服:监控问答链路,快速定位错误并优化响应准确性。
  • 教育领域智能辅导:评测不同模型的教学效果,选择最适合的AI辅导方案。
  • 金融风控分析:实时观测模型决策过程,确保合规并降低风险。

Coze Studio – 字节跳动开源的AI Agent开发平台

Coze Studio是什么

Coze Studio(扣子开发平台)是字节跳动开源的AI智能体开发平台,帮助开发者快速构建、部署和管理AI智能体。提供一站式开发环境,支持Prompt、RAG、Plugin、Workflow等核心技术,通过可视化工作流编排,开发者可以零代码或低代码开发复杂AI应用。平台内置插件框架,可将第三方API或私有能力封装为插件,扩展智能体功能。Coze Studio采用Golang和React开发,遵循领域驱动设计(DDD)原则,易于二次开发。支持本地及私有化部署,部署门槛低,仅需双核CPU和4GB内存即可运行,提供一键部署脚本。

Coze Studio

Coze Studio的主要功能

  • 一站式开发环境:提供从开发到部署的全流程支持,涵盖Prompt、RAG、Plugin、Workflow等核心技术。
  • 可视化工作流编排:通过拖拽节点的方式,快速构建复杂的工作流,支持零代码或低代码开发,方便开发者设计业务逻辑。
  • 智能体构建与管理:提供健全的应用模板和编排框架,支持快速创建、发布和管理AI智能体。
  • 多模型支持:支持集成多种主流大模型(如OpenAI、火山引擎等),并提供统一的模型接口抽象。
  • 知识库管理:集成RAG(检索增强生成)能力,支持向量检索,可上传文档或数据,智能体基于知识库生成精准回答。
  • 插件系统:支持创建、配置和管理插件,可封装第三方API或私有功能,扩展智能体的能力。
  • 数据库支持:集成数据库资源,支持数据存储与查询。
  • API与SDK集成:提供聊天和工作流相关API,支持Python、JavaScript、Java等SDK,方便二次开发。
  • 实时交互:通过WebSocket支持实时聊天、语音合成和转录。

Coze Studio的项目地址

  • Github仓库:https://github.com/coze-dev/coze-studio

如何使用Coze Studio

  • 环境准备
    • 确保电脑满足最低配置要求:双核 CPU 和 4GB 内存。
    • 提前安装 Docker 和 Docker Compose,并启动 Docker 服务。
  • 获取源码:打开终端或命令提示符,运行以下命令克隆 Coze Studio 的源码:git clone https://github.com/coze-dev/coze-studio.git
  • 配置模型
    • 进入克隆后的项目目录:cd coze-studio
    • 从模板目录复制模型配置模板文件:cp backend/conf/model/template/model_template_ark_doubao-seed-1.6.yaml backend/conf/model/ark_doubao-seed-1.6.yaml
  • 修改配置文件
    • 进入 backend/conf/model 目录。
    • 打开 ark_doubao-seed-1.6.yaml 文件。
    • 设置以下字段:
      • id:模型 ID,由开发者自行定义,必须是非 0 的整数,且全局唯一。
      • meta.conn_config.api_key:模型服务的 API Key。
      • meta.conn_config.model:模型服务的 model ID。
  • 部署并启动服务
    • 进入 docker 目录,复制环境变量模板文件,启动服务。
    • 首次部署可能需要拉取镜像和构建本地镜像,耗时较长。如果看到提示 “Container coze-server Started”,则表示服务启动成功。
  • 访问平台:打开浏览器,访问 http://localhost:8888/,即可打开 Coze Studio 的前端页面。
  • 注册与登录:在 Coze Studio 的登录页面,使用邮箱或手机号注册并登录。
  • 创建智能体登录后,点击左上角的“创建 Bot”按钮,输入 Bot 的基本信息(如名称、头像等)。
  • 配置智能体
    • 在配置页面,可以设置 Bot 的角色、技能和限制(提示词)。
    • 添加官方提供的插件或自定义插件,配置工作流、知识库或数据库。
    • 在调试页面与 Bot 进行对话,测试其功能。
  • 使用插件
    • 在 Bot 中使用插件
      • 在 Bot 编辑页面,选择插件区域,点击加号图标添加插件。
      • 配置插件参数,并在预览与调试区域测试插件功能。
    • 在工作流中使用插件节点
      • 创建或选择工作流,在工作流中添加插件节点。
      • 配置输入输出参数,并测试插件功能。
  • 发布应用:完成所有配置后,点击右上角的“发布”按钮,将智能体发布到 Coze 的应用商店。

Coze Studio的应用场景

  • 快速原型验证(POC):开发者可以快速搭建 AI 应用的原型,验证想法和概念。
  • 中小企业 AI 应用落地:中小企业可以通过 Coze Studio 快速利用大模型能力解决业务问题。
  • 私有化部署:对于数据安全要求高的企业,Coze Studio 支持私有化部署,确保业务数据不流出企业内网。
  • 企业内部问答机器人:使用知识库构建公司 SOP 智能体,通过工作流添加审批、填表、发邮件等逻辑。
  • AI 交互式问卷系统:使用工作流引导用户填写问卷,调用插件生成数据图表,将数据同步到后端 BI 系统。

Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

Qwen3-235B-A22B-Thinking-2507是什么

Qwen3-235B-A22B-Thinking-2507 是阿里巴巴发布的全球最强开源推理模型。基于2350亿参数的稀疏混合专家(MoE)架构,每次激活220亿参数,拥有94层Transformer网络和128个专家节点。模型专为复杂推理任务设计,支持256K原生上下文处理能力,可应对长文本和深度推理链。在性能方面,Qwen3-235B-A22B-Thinking-2507 在逻辑推理、数学、科学分析、编程等核心能力上显著提升,特别是在AIME25(数学)和LiveCodeBench v6(编程)等基准测试中刷新了全球开源模型的最佳成绩,超越了部分闭源模型。在知识、创意写作、多语言能力等通用任务上也表现出色。

模型采用Apache 2.0开源协议,免费商用,用户可通过QwenChat、魔搭社区或Hugging Face体验和下载。定价为每输入百万token 0.7美元,每输出百万token 8.4美元。

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507的主要功能

  • 逻辑推理:在逻辑推理任务中表现出色,能够处理复杂的多步推理问题。
  • 数学运算:在数学能力上显著提升,特别是在 AIME25 等高难度数学测试中刷新了开源模型的最佳成绩。
  • 科学分析:能处理复杂的科学问题,提供准确的分析和解答。
  • 代码生成:能生成高质量的代码,支持多种编程语言。
  • 代码优化:帮助开发者优化现有代码,提高代码效率。
  • 调试支持:提供代码调试建议,帮助开发者快速定位和解决问题。
  • 256K 上下文支持:原生支持 256K 的长文本处理能力,能处理超长上下文,适用于复杂的文档分析和长篇对话。
  • 深度推理链:自动启用多步推理,无需用户手动切换模式,适合需要深度分析的任务。
  • 多语言对话:支持多种语言的对话和文本生成,能满足跨语言交流的需求。
  • 指令遵循:能准确理解和执行用户的指令,生成高质量的文本输出。
  • 工具调用:支持与外部工具结合使用,扩展模型的功能。

Qwen3-235B-A22B-Thinking-2507的技术原理

  • 稀疏混合专家(MoE)架构:Qwen3-235B-A22B-Thinking-2507 采用稀疏混合专家(Mixture of Experts,MoE)架构,总参数量为2350亿,每次推理激活220亿参数。这种架构包含128个专家节点,每个token动态激活8个专家,平衡了计算效率与模型能力。
  • 自回归Transformer结构:模型基于自回归Transformer结构,拥有94层Transformer层,支持超长序列建模,原生支持256K上下文长度。使模型能处理复杂的长文本任务。
  • 推理模式优化:Qwen3-235B-A22B-Thinking-2507 专为深度推理场景设计,默认强制进入推理模式。在逻辑推理、数学运算、科学分析、编程及学术测评等需要专业知识的领域表现出色。
  • 训练与优化:模型通过预训练与后训练双阶段范式进一步提升性能。在多项基准测试中,如AIME25(数学)、LiveCodeBench(编程)等,模型刷新了全球开源模型的最佳成绩。
  • 动态激活机制:MoE架构中的动态激活机制允许模型在推理过程中根据任务复杂性动态选择专家节点。

Qwen3-235B-A22B-Thinking-2507的项目地址

  • HuggingFace模型库:https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507的应用场景

  • 代码生成与优化:能生成高质量的代码,帮助开发者优化现有代码。
  • 创意写作:在创意写作、故事创作、文案撰写等方面表现出色,能提供丰富的创意和详细的构思。
  • 学术写作:能辅助撰写学术论文、文献综述等,提供专业的分析和建议。
  • 研究方案设计:帮助设计研究方案,提供科学合理的建议。

如何写Prompt执行代码、数据分析或图表?一文看懂

引言

随着人工智能技术的不断进步,越来越多的人希望借助AI工具提升工作和学习的效率。尤其在编程、数据分析和可视化领域,AI的助力让许多以前复杂的任务变得更加简单。大多数初学者不知道如何对AI准确下达指令,得到符合预期的结果。Prompt相当于人类与AI之间的桥梁,懂得正确沟通,才能发挥AI的最大能力。本报告将聚焦如何写Prompt,让AI帮你执行代码、做数据分析和生成图表。将用通俗易懂的语言逐步展开,从“什么是Prompt”到“如何实操”,再到背后的原理及未来趋势,全面系统地介绍。让零基础的AI小白和希望快速掌握实用技能的职场人从中受益。

基础概念

什么是Prompt?

Prompt是指示令或提示词。在与AI交互时,Prompt是我们告诉AI“你该做什么”的句子或段落。Prompt是自然语言,基于自然语言,AI理解用户需求,生成对应内容,包括写代码、回答问题和制作图表。可以想象是在委托一个智能助手帮用户完成任务,指令越明确,助手完成得越精准。Prompt和人机沟通的桥梁类似,写得好坏,影响结果质量很大。

代码执行、数据分析、图表制作的基本概念

  • 代码执行:让AI写一段完整、可运行的程序,用在完成指定功能如计算、自动化及数据处理。
  • 数据分析:对收集的数据进行计算和处理,统计特征、发掘规律并进行预测。
  • 图表制作:将数据视觉化,借助图形让数字更直观,便于理解和对比。

AI技术结合Prompt,能快速将任务用语言指令描述变成代码,实现自动生成和快速迭代。

AI与Prompt的关系

AI模型无法“读懂”人类语言的深层意义,是通过识别语言模式和概率进行文本生成。Prompt是激活模型的钥匙,指明任务方向。简洁明确的Prompt能提高模型输出的精准完美度,模糊混乱的Prompt容易产生跑题或无关的内容。

如何写好Prompt

Prompt编写的基本原则

  • 清晰明确:用简洁语言说明想要AI完成的具体内容,避免模糊词汇。
  • 目标具体:任务越详细,结果越符合预期。
  • 给出上下文:帮助AI理解背景,提升完成度。
  • 分步骤输出:对于复杂任务,分段明确指令方便AI逐步生成内容。
  • 尝试调整:多试Prompt版本,根据回答优化输入。
  • 举例提示:用“请用Python写函数,计算列表里所有数字的平方和”比“写代码”效果更好。

Prompt编写示例

针对执行代码的Prompt示例

AI写代码时,需带上以下信息:语言(Python、JavaScript等)、功能描述(实现什么算法或功能)、输入输出细节。

例如:

  • “请用Python写一个函数,计算整数列表中所有正数的平均值,并返回结果。”
  • 基于该Prompt,AI会生成代码吸收你的需求,实现功能。

针对数据分析的Prompt示例

数据分析Prompt要具备以下元素:数据文件或数据的来源说明、需要统计或计算的指标(均值、中位数、标准差等)、特殊需求(处理缺失值、数据过滤等)。

例如:

  • “帮我用pandas读取csv文件‘sales.csv’,计算各产品的总销量,排除缺失值,并输出销量最高的五个产品。”

针对图表生成的Prompt示例

图表制作Prompt要具备:确定图表类型(条形图、折线图、饼图等)、说明数据结构及具体数值、标明图表标题、坐标轴标签等。

例如:

  • “用matplotlib绘制一个折线图,X轴为2018-2022年,Y轴为每年销售额,标题‘5年销售趋势’。”

常见误区

  • 指令不完整,让AI“猜”需求,导致结果不准确。
  • Prompt过长,包含大量无关描述,反而让模型难以把握重点。
  • 多任务混淆,一次询问多个问题,建议拆分为独立Prompt。
  • 忽略输入输出描述,模型不清楚数据结构,难以实现精准处理。

Prompt编写背后的原理分析

理解如何构建 Prompt,需要探究背后的工作原理。为什么某些 Prompt 结构会比其他结构更有效?与大型语言模型的底层架构和工作机制密切相关。

Transformer 与注意力

现代主流的 LLMs(如 GPT 系列)都基于 Transformer 架构。核心创新是自注意力机制(Self-Attention)。当模型处理一个 Prompt 时,不是逐字孤立地理解,需计算 Prompt 中每个词(Token)与其他所有词之间的相关性权重。

  • 对于代码生成: 当、提供一个 Prompt 如”用 Python 写一个函数计算斐波那契数列”时,”Python”、”函数”、”计算”、”斐波那契数列”关键词会获得很高的注意力权重。模型优先检索训练数据中与高权重词汇强相关的代码模式和语法结构。
  • 对于数据分析: 当 Prompt 中包含”Pandas”、”DataFrame”、”groupby”、”mean”等词时,注意力机制引导模型聚焦与 Pandas 库数据聚合操作相关的知识。提供列名(如 ‘Sales’, ‘Category’)作为上下文,让模型将通用操作与具体数据结构关联起来。

上下文窗口 (Context Window) 与情境学习 (In-Context Learning)

LLMs 有固定的上下文窗口,一次能处理的文本长度(以 Token 计算)。输入的所有内容——角色扮演、指令、数据样本、示例——都在窗口内。模型基于窗口内的全部信息生成下一个 Token。

情境学习 (In-Context Learning) 是 LLMs 的一种能力。无需重新训练模型,仅通过在 Prompt 中提供几个示例(Few-Shot Prompting),模型就能学会解决类似问题的新模式。

思维链 (Chain-of-Thought, CoT) 的重要性

对于多步推理的复杂任务(如多步骤数据转换、构建机器学习流水线),直接要求最终答案会导致模型出错。 思维链 (CoT) 要求模型”大声思考”解决这一问题。

Prompt 示例:

  • 差的 Prompt: “给我一份分析报告。”
  • 好的 CoT Prompt: “为我生成一份销售数据分析报告。请遵循以下步骤思考和输出:
    • 描述数据加载和清洗的过程。
    • 进行描述性统计,并总结关键发现。
    • 分析各产品类别的销售表现。
    • 总结你的发现并提出两项业务建议。

指令微调 (Instruction Tuning) 与角色扮演

现代 LLMs 都经过指令微调,即在大规模通用语料预训练后,用大量”指令-回答”对进行微调。让模型能更好地理解并遵循用户的指令。

角色扮演(例如,”你是一位数据科学家”)这一指令激活了模型在指令微调阶段学到的特定”专家” persona。模型在训练中见过大量数据科学家撰写的文本和代码,通过扮演科学家角色,模型调整输出的风格、术语和代码模式,让回答更符合相关领域的专业标准。明确指定技术栈(如 Python, R, JavaScript, D3.js, Plotly 等)能起到类似的作用,帮助模型缩小搜索范围,专注于相关的库和语法。

实际应用场景

  • 个人学习和编程辅助:初学者借助Prompt帮助,迅速获得代码示例,理解算法思路与语法,提高编程效率。
  • 企业数据分析自动化:将简单分析需求用Prompt表述,自动生成统计脚本和图表,节省分析时间和人工成本。
  • 报告和可视化快速生成:市场、销售团队利用Prompt快速绘制趋势图与饼图,提高报告的质量和可读性。
  • 编程教育和培训场景:教师让学生通过Prompt完成分步编程学习,强化操作记忆及理解。
  • 其他创意应用:在内容创作、决策支持、科研数据处理等领域,Prompt都显示出巨大潜力。

未来展望

Prompt技术的发展前景广阔充满潜力。随着模型结构和训练算法的不断优化,AI对自然语言的理解将更加精准和智能,使Prompt编写门槛进一步降低,不具备专业背景的用户也能轻松操纵复杂任务。多模态AI的兴起将实现文字、声音、图像甚至代码的无缝交互,拓展Prompt应用的边界,带来前所未有的创造力释放。自动Prompt优化工具的出现将辅助用户快速生成高质量指令,提升交互效率。商业软件与教育平台的深度集成将催生更多定制化智能解决方案,普及智能辅助的使用。关于隐私保护、算法公平性和伦理的讨论日渐重要,规范化将成为技术演进的重要方向。Prompt是AI创新的入口,更是未来智能人机协作的桥梁,掌握Prompt写作能力的用户将成为引领数字时代变革的先锋。

Higgs Audio V2 – 开源语音大模型,能模拟多人互动场景

Higgs Audio V2是什么

Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成,具备多语言对话生成、自动韵律调整、语音克隆和歌声合成等功能。模型能模拟自然流畅的多人对话,自动匹配说话者的情绪和语调,支持低延迟的实时语音交互。支持零样本语音克隆,用户只需提供简短语音样本,即可复制特定人物的声音特征,可以合成歌声。Higgs Audio V2 能同时生成语音和背景音乐,为音频内容创作提供强大支持。

Higgs Audio V2

Higgs Audio V2的主要功能

  • 多语言对话生成:支持多语言对话生成,能模拟多人互动场景,自动匹配说话者的情绪和能量水平,使对话自然流畅。
  • 自动韵律调整:在长文本朗读中,能根据内容自动调整语速、停顿和语调,无需人工干预,生成自然流畅的语音。
  • 语音克隆与歌声合成:用户只需提供简短的语音样本,模型即可实现零样本语音克隆,复制特定人物的声音特征,能让克隆的声音哼唱旋律。
  • 实时语音交互:支持低延迟响应,能理解用户情绪并做出情感化表达,提供接近人类的交互体验。
  • 语音与背景音乐同步生成:能同时生成语音和背景音乐,实现“写一首歌并唱出来”的创作流程。

Higgs Audio V2的技术原理

  • AudioVerse 数据集:开发了一套自动化标注流程,结合多个语音识别模型、声音事件分类模型以及自研的音频理解模型,清洗并标注了 1000 万小时的音频数据。
  • 统一音频分词器:从零开始训练了一个统一的音频分词器,能同时捕捉语义和声学特征。
  • DualFFN 架构:在几乎不增加计算开销的前提下,显著增强了大语言模型对声学 token 的建模能力。
  • 零样本语音克隆:模型融入了上下文学习,能通过简单的提示(如简短的参考音频样本)进行零样本语音克隆,匹配说话风格。

Higgs Audio V2的项目地址

  • Github仓库:https://github.com/boson-ai/higgs-audio
  • 在线体验Demo:https://huggingface.co/spaces/smola/higgs_audio_v2

Higgs Audio V2的应用场景

  • 实时语音交互:适用于虚拟主播、实时语音助手等场景,提供低延迟和情感表达的自然互动。
  • 音频内容创作:能生成自然对话和旁白,为有声读物、互动培训及动态故事讲述等提供强大支持。
  • 娱乐和创意领域:语音克隆功能可复制特定人物的声音,开启娱乐和创意领域的新可能性。

腾讯研究院《AI Coding 非共识报告》(PDF文件)

腾讯研究院的《AI Coding 非共识报告》聚焦AI Coding领域,探讨AI Coding在软件开发领域的革命性影响。报告指出AI Coding正在改变编程的本质,将其从代码编写提升至意图表达和愿景实现的新维度。分析AI Coding在个人和企业端的高渗透率、商业增长、及对组织结构和开发者角色的深远影响。同时,报告提出行业在产品形态、模型选择、付费模式等方面的非共识和争议焦点,预测AI Coding将推动编程门槛降低,促进个性化应用发展,引发软件开发范式的重大变革。

AI Coding⾮共识报告

获取腾讯研究院《AI Coding非共识报告》PDF原文件,扫码关注回复: 20250725

AI Coding:软件开发的范式革命

AI Coding正在引发一场软件开发的革命。将编程从单纯的代码编写提升到一个新的高度,即表达意图和实现愿景。意味着未来的编程不再是“会写代码”的专利,而是“谁能清晰表达需求、善于利用AI工具”,谁就能创造软件。

AI Coding⾮共识报告

AI Coding的爆发与现状

  • 渗透率极高:在个人端,AI编程工具的渗透率已达47%,仅次于AI写作。在企业端,AI Coding是落地最快、影响力最大的AI应用场景,企业AI落地有一半以上集中在代码生成。
  • 商业爆发:过去三年,AI Coding领域收入增长极快,出现了许多独角兽公司,融资和估值屡创新高。例如Cursor、Replit、Bolt.new等公司,短时间内年收入从百万级飙升到数亿美元,团队规模却非常精干。

AI Coding⾮共识报告

行业“非共识”与争议焦点

报告特别强调,虽然AI Coding的趋势已成共识,但在具体产品形态、模型选择、价值评估、付费模式、企业推进策略、对组织影响、未来市场格局等七大方面,行业内存在大量“非共识”甚至分歧。主要包括:

  • 产品形态:本地 vs 云端
    • 有的产品强调本地开发的灵活与安全,有的则主打云端协作与资源整合。
  • 模型选择:自研 vs 第三方
    • 有的公司坚持自研大模型,追求极致定制和控制;有的则主打多模型混合调度,灵活选用最优模型。
  • 价值评估:提效 vs 降效
    • 绝大多数开发者认为AI Coding能大幅提效,但也有研究和部分企业数据表明,AI工具在某些场景下可能导致效率下降或代码质量降低。
  • 付费模式:固定 vs 按需
    • 传统订阅制面临AI高变动成本的挑战,越来越多产品采用订阅+按量混合计费,并引入更复杂的计费维度。
  • 企业态度:激进 vs 渐进
    • 有的企业强制要求员工使用AI Coding工具,甚至纳入绩效考核;有的则谨慎推进,关注安全与合规。
  • 组织影响:裁员 vs 扩张
    • AI Coding提升生产力,部分企业因此裁员,但也有企业用同样的预算雇佣更多懂AI协作的人,创新团队结构。
  • 市场格局:专业 vs 普惠
    • AI Coding正在推动编程门槛大幅降低,未来“人人都是开发者”成为可能,软件开发从专业技能走向普惠化。

AI Coding⾮共识报告

AI Coding的未来趋势

  • 意图驱动、代码自动化
    • 编程将从“写代码”转向“表达意图”,AI自动生成和完善代码,开发者更多承担“教练”“产品经理”甚至“品味把控者”的角色。
  • 产品定义与创新模式变革
    • AI Coding不仅提升写代码的效率,更在产品定义、需求转化、自动化运维等方面带来变革。未来,软件开发的重点将从“能不能做”转向“做得好不好”,品味和创新成为核心竞争力。
  • 微型/个性化应用爆发
    • 随着门槛降低,非技术人员通过AI Coding工具快速开发软件,催生大量个性化、微型应用,极大释放创新潜力。
  • 开发者角色转型
    • AI不会完全取代开发者,开发者需要具备更强的综合能力,包括底层技术、产品思维、管理AI团队等。

AI Coding⾮共识报告

AI Coding正在重塑软件开发的每一个环节,推动软件生产力、创新力和市场边界的巨大跃迁。未来,软件开发将更加普惠、智能和高效,AI Coding不仅是技术升级,更是生产关系和创新范式的深度变革。

获取腾讯研究院《AI Coding非共识报告》PDF原文件,扫码关注回复: 20250725

Step 3 – 阶跃星辰最新推出的多模态推理模型

Step 3是什么

Step 3 是阶跃星辰最新发布的新一代基础大模型,专为推理时代设计,兼具高性能与极致成本效益。采用 MoE 架构,拥有 321B 总参数量 和 38B 激活参数量,是首个全尺寸、原生多模态推理模型,具备强大的视觉感知和复杂推理能力,能在多个领域实现高效应用。通过 AFD 分布式推理系统 和 MFA 注意力机制,实现了推理效率的大幅提升。在国产芯片上,推理效率可达同类模型的 3 倍,在 NVIDIA Hopper 架构芯片上吞吐量提升超 70%,显著降低了推理成本。Step 3 将于 7 月 31 日 正式开源,为全球开发者和企业提供最强的多模态推理模型。

Step 3

Step 3的主要功能

  • 视觉感知:Step 3 能准确识别和分析图像和视频中的复杂信息,例如在反光严重的菜单识别中,依然能准确还原内容。
  • 复杂推理:支持跨领域的复杂知识理解、数学与视觉信息的交叉分析,例如结合微信群聊天记录和购物小票自动计算 AA 制消费分摊。
  • 多模态任务处理:作为原生多模态模型,Step 3 能处理语言、视觉等多种模态的任务,满足多样化应用场景需求。
  • 高效推理:通过系统架构创新,Step 3 在推理效率上表现出色。在国产芯片上,推理效率最高可达 DeepSeek-R1 的 300%,在 NVIDIA Hopper 架构芯片上吞吐量提升超 70%
  • 硬件友好:Step 3 适配多种硬件平台,包括主流和国产芯片,能显著降低推理成本,提升资源利用率。

Step 3的技术原理

  • MoE 架构:Step 3 采用了 MoE(Mixture of Experts)架构,是高效的模型并行化方法。通过将模型分解为多个“专家”模块,根据输入动态选择合适的专家进行计算,MoE 架构能在保持高性能的同时显著降低计算资源的浪费。
  • AFD 分布式推理系统:将模型中的注意力(Attention)和前馈网络(FFN)计算任务分配到最适合的硬件上,提升整体效率。
    • Attention 计算:极度消耗内存带宽的任务,分配给内存带宽大的 GPU 集群。
    • FFN 计算:极度消耗算力的任务,分配给算力强大的 GPU 集群。
  • MFA 注意力机制:优化算术强度,适配主流和国产芯片的性能特征,实现跨硬件平台的高效推理。

Step 3的项目地址

  • Github仓库:https://github.com/stepfun-ai/Step3

Step 3的应用场景

  •  智能终端 Agent:Step 3 可以应用于各种 IoT 设备,如智能家居、智能穿戴设备等,提供智能语音助手和视觉识别功能。
  • 金融财经:Step 3 可以用于金融风险评估、智能客服、市场分析等场景。通过多模态数据处理,模型能更准确地分析市场趋势和用户需求。
  • 内容创作:Step 3 可以辅助内容创作者生成创意文案、图像和视频内容。例如,结合视觉和文本信息生成高质量的广告文案或视频脚本。
  • 视觉识别:Step 3 能处理复杂的视觉任务,如反光菜单识别、图像分类、目标检测等。
  • 复杂推理:Step 3 支持跨领域的复杂知识理解,例如结合微信群聊天记录和购物小票自动计算 AA 制消费分摊。
  • 自然语言处理:Step 3 在自然语言处理任务中表现出色,能理解并生成高质量的文本内容。

Opal – 谷歌推出的AI工作流生成平台

Opal是什么

Opal 是 Google Labs 推出的实验性AI工作流生成工具,支持通过简单的自然语言和可视化编辑帮助用户快速创建和分享 AI 小应用。Opal 支持将提示、模型调用和工具串联成工作流,无需编写代码构建多步骤的 AI 应用。Opal 提供丰富的编辑功能,支持用户用自然语言指令或可视化编辑器进行修改和优化,能将应用分享给他人使用。目前,Opal 仅在美国地区进行公开测试,加速 AI 概念的原型设计和工作流程的构建。

Opal

Opal的主要功能

  • 创建工作流:Opal 能将复杂的 AI 应用构建过程简化为可视化的流程图,用户只需描述逻辑,通过串联提示、模型调用和其他工具构建多步骤的应用程序。
  • 自然语言编辑:用户通过自然语言指令对应用进行修改,例如调整某个步骤的提示、添加新功能或调用工具,无需编写代码。
  • 可视化编辑器:Opal 提供可视化的编辑界面,用户能直观地对工作流进行调整和优化,进一步增强对应用的控制能力。
  • 快速分享:完成应用后,支持用户分享给他人,对方通过自己的 Google 账户直接使用,方便协作和共享。
  • 模板库:Opal 提供预建的模板库,用户能用模板快速开始,或者根据自己的需求进行修改和定制。

Opal

如何使用Opal

  • 访问 Opal 官方网站:访问 Opal 官方网站:https://opal.withgoogle.com/,目前 Opal 仅在美国地区提供公开测试版,需要确保在美国地区或有相关访问权限。
  • 注册并登录:按提示完成注册和登录。
  • 选择模板或创建新应用
    • 使用模板:Opal 提供模板库,选择适合需求的模板作为起点。
    • 创建新应用:如果有明确的想法,直接创建新的空白应用。
  • 描述应用逻辑:用自然语言描述应用逻辑。Opal 根据描述自动生成可视化的工作流。
  • 用可视化编辑器进行调整
    • 自然语言指令:直接用自然语言描述想要的修改,例如:“将步骤 2 的提示改为‘详细回答’。”
    • 可视化编辑器:手动拖动、添加或删除步骤,调整连接线,达到想要的效果。
  • 测试应用:在完成工作流的构建和调整后,直接在 Opal 平台上测试应用。输入测试数据,查看输出结果,确保应用符合预期。
  • 分享应用:应用测试通过,选择将其分享给他人。

Opal的应用场景

  • 内容创作:用Opal自动撰写文章、博客或社交媒体内容,提高内容生产的效率。
  • 数据分析:从大量数据中提取关键信息,并自动生成易于理解的分析报告。
  • 客户服务:帮助构建智能聊天机器人,自动回答客户的常见问题,提升服务效率。
  • 教育和学习:用Opal创建个性化的学习计划和互动课程,满足不同学习者的需求。
  • 项目管理:自动化任务分配和进度跟踪,帮助项目管理者更有效地管理项目。

Clueso – AI视频生成工具,自动优化视频脚本

Clueso是什么

Clueso 是强大的 AI 视频和文档生成工具,帮助企业和创作者快速制作高质量的产品视频、教程和文档。通过 AI 技术自动化视频编辑流程,包括去除多余词汇、生成专业配音、智能缩放、添加美观字幕以及自动生成标准操作流程(SOP)和教程文档。Clueso 支持一键翻译功能,可将内容翻译成多种语言,满足全球观众的需求。用户只需简单几步,可完成从录制到成品的整个过程,大大节省时间和精力。品牌化模板功能能确保视频内容与品牌形象保持一致。

Clueso

Clueso的主要功能

  • 自动优化视频脚本:AI 帮助去除多余词汇,改写脚本清晰简洁,完美契合品牌风格。
  • 提供逼真的 AI 配音:将原始音频替换为专业且逼真的 AI 配音,提升视频质量。
  • 智能自动缩放:AI 自动聚焦关键动作,突出观众需要看到的内容。
  • 生成美观字幕:AI 生成的字幕能够吸引观众注意力,增强视频的吸引力。
  • 自动生成 SOP 和教程文档:从视频中自动生成清晰的分步文档,方便用户快速创建标准操作流程和教程。
  • 品牌化视频模板:通过主题化的开头、结尾和背景,保持视频的品牌一致性。
  • 一键翻译功能:支持将配音、字幕和文档翻译成多种语言,满足全球观众的需求。

Clueso的官网地址

  • 官网地址:https://www.clueso.io/

Clueso的应用场景

  • 员工培训:加速新员工入职培训,快速制作培训视频和文档,帮助员工快速掌握技能和流程。
  • 产品演示与营销:创建吸引人的产品演示视频和详细文档,帮助客户更好地了解产品功能和优势。
  • 客户支持:生成详细的帮助文档和视频教程,提升客户支持效率,帮助客户快速解决问题。
  • 软件开发:为开发人员提供快速的入职培训和教育内容,帮助他们更快熟悉开发流程和工具。
  • 知识共享:将复杂的操作流程和知识转化为易于理解的视频和文档,便于团队内部共享和学习。