Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • AnyVoice – AI声音克隆平台,3秒克隆逼真声音模型

    AnyVoice是什么

    AnyVoice 是全球首创的 AI 声音克隆平台,仅需 3 秒音频能克隆出高度逼真的声音,支持英语、中文、日语和韩语。平台能捕捉说话者细微差别和情感,生成的音频与真人难以区分。用户无需技术专长,操作简单,适合快速原型设计和实时应用。平台提供专业版,支持商业用途、支持无限生成和创建无限声音模型。AnyVoice 重视用户隐私,确保音频数据安全处理。

    AnyVoice

    AnyVoice的主要功能

    • 3 秒快速声音克隆:仅需 3 秒音频样本即可克隆出高度逼真的声音。
    • 多语言支持:支持英语、中文(普通话)、日语和韩语。
    • 超逼真的声音克隆:捕捉原始说话者的细微差别和情感,生成的音频与真人语音难以区分。
    • 实时音频生成:克隆后能立即生成音频,适合快速原型设计和动态内容创建。
    • 音频下载与使用:生成的音频支持 MP3 或 WAV 格式下载,适用各种项目。

    如何使用AnyVoice

    • 访问平台:访问 AnyVoice 的官方网站:https://anyvoice.net。
    • 上传或录制音频样本:选择一个 3-10 秒的音频文件,用浏览器的录音功能录制 3 秒的音频样本。
    • 生成声音克隆:上传或录制完成后,点击“生成”按钮。AnyVoice 的 AI 将在几秒钟内生成自定义的声音克隆。
    • 下载音频:生成的音频支持 MP3 或 WAV 格式下载,适用任何项目。

    AnyVoice的产品定价

    • 免费版:适合个人非商业用途,每次生成最多 200 个字符,每月 1,200 秒音频生成,最多创建 10 个声音克隆模型。
    • 专业版:适合商业用途,每次生成最多 1,000 个字符,无限生成,优先生成,创建无限声音克隆模型。

    AnyVoice的应用场景

    • 内容创作:为有声读物、视频配音、播客制作生成自然流畅的语音内容,提升作品的专业性和吸引力。
    • 广告与营销:快速生成高质量的广告配音、语音广告和社交媒体语音内容,增强广告的感染力和传播效果。
    • 教育与培训:为在线课程、语言学习材料、企业培训视频生成专业的讲解语音,提高学习和培训效果。
    • 游戏开发:为游戏角色和游戏旁白生成独特且逼真的声音,增强游戏的沉浸感和趣味性。
    • 虚拟助手:为智能客服、智能家居设备、智能办公设备生成自然的语音交互,提升用户体验。
  • 日日新 V6.5 – 商汤科技推出的多模态推理大模型

    日日新 V6.5是什么

    日日新 V6.5是商汤科技推出的日日新新型多模态推理大模型。模型独创图文交错思维链,图像用本体形式参与推理,显著提升跨模态推理精度,超越Gemini 2.5 Pro。相比日日新6.0,推理能力提升6.99%,推理成本仅为30%,性价比提升5倍。模型依托轻量Vision Encoder+和纵深LLM架构,具备高效推理能力,能广泛应用在自动驾驶、机器人等具身智能场景。

    日日新 V6.5

    日日新 V6.5的主要功能

    • 多模态推理:支持处理图像和文本的混合输入,进行复杂的推理任务,例如理解图像内容并结合文本信息生成准确的描述或回答相关问题。
    • 高效推理能力:在多个数据集上表现优异,推理精度显著提升,推理成本大幅降低,性价比提升5倍。

    日日新 V6.5的技术原理

    • 图文交错思维链:图像用本体形式参与推理过程,图文混合的思考模式使得模型能够更准确地理解和处理多模态信息。
    • 轻量Vision Encoder+:基于优化视觉编码器,提高图像处理效率,同时减少计算资源消耗。
    • 纵深LLM架构:结合深度语言模型(LLM)的强大语言理解和生成能力,实现高效的跨模态推理。
    • 多模态协同训练:同时处理图像和文本数据,模型能学习到更丰富的语义信息,提升推理精度。

    日日新 V6.5的项目地址

    • 项目官网:https://platform.sensenova.cn/

    日日新 V6.5的应用场景

    • 自动驾驶:实时分析道路环境,精准识别交通标志、行人和车辆,为自动驾驶系统提供高效、安全的决策支持,提升自动驾驶车辆的智能化水平。
    • 机器人:在工业、服务和物流机器人领域,助力机器人实现精准的物体抓取、灵活的导航避障和自然的人机交互,显著提升机器人的工作效率和适应性。
    • 智能家居:实时监控家庭环境,提供智能安全警报和个性化的家居管理服务,为用户打造更加便捷、智能的家居生活体验。
    • 智能教育:为学生提供个性化的学习辅导,通过图像识别和自然语言处理技术,快速解答数学题、批改作业,同时生成多媒体教材,提升教学效果和学习体验。
    • 医疗健康:在医疗领域,辅助医生进行医疗影像分析,快速准确地识别病变,同时为患者提供智能导诊服务,优化就医流程,提升医疗服务的智能化水平。
  • 混元3D世界模型 1.0 – 腾讯开源的3D世界生成模型

    混元3D世界模型 1.0是什么

    混元3D世界模型1.0(Hunyuan World 1.0)是腾讯在世界人工智能大会上正式发布并开源的业界首个可沉浸漫游、可交互、可仿真的世界生成模型。模型融合了全景视觉生成与分层3D重建技术,支持通过文字或图片输入,在几分钟内生成一个360度沉浸式的三维场景。用户可以在生成的世界中自由漫游,体验类似游戏或虚拟现实的交互感。模型支持物理仿真与二次编辑,生成的场景可导入Unity、Unreal Engine等主流引擎进行进一步开发。

    hunyuanworld-1-0

    混元3D世界模型 1.0的主要功能

    • 一键生成360度全景世界:用户可以通过简单的文本描述或上传一张图片,快速生成一个完整的360度沉浸式三维场景。例如,输入“一个破旧的加油站,夜晚下着雨,远处有霓虹灯”,模型能够构建出包含加油站主体、环境、天空光照、闪电等元素的完整空间。
    • 可漫游、可交互的3D世界:生成的3D场景不仅支持360度视角切换,支持用户在场景中自由漫游,体验类似游戏或虚拟现实的交互感。用户可以通过WASD键控制角色走动,鼠标拖动切换视角,探索生成的虚拟世界。
    • 支持物理仿真与二次编辑:模型生成的场景支持物理仿真和独立编辑。用户可以对前景物体进行选中、绑定骨骼或添加行为逻辑,也可以对天空、地形等元素进行替换或个性化渲染。生成的场景可以导出为标准的Mesh文件,无缝兼容Unity、Unreal Engine、Blender等主流工具,直接用于游戏开发、影视特效制作、教育仿真等场景。
    • 高质量生成能力:混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力上全面超越当前SOTA的开源模型。采用“语意层次化3D场景表征及生成算法”,将复杂3D世界解构为前景、中景、远景等不同语意层级,实现智能分离,生成的场景不仅视觉效果逼真,还具备高度的灵活性和可扩展性。
    • 多模态输入支持:模型支持多种输入方式,包括自然语言描述和图像输入。用户可以根据自己的需求选择合适的输入方式,快速生成所需的3D场景。

    混元3D世界模型 1.0的技术原理

    • 两阶段生成范式
      • 3D世界的压缩与表征(3D-aware VAE)模型首先通过一个特制的3D感知变分自编码器(3D-aware Variational Autoencoder, VAE),将复杂的3D场景数据编码成低维度但信息量密集的潜在空间表征。
      • 在潜在空间中扩散生成(Diffusion Transformer)在获得高质量的潜在空间后,模型通过一个扩散模型(Diffusion Model),其骨干网络采用强大的Transformer架构(即Diffusion Transformer, DiT),从随机噪声潜在编码开始,在文本或图像提示的语义引导下,逐步将噪声雕琢成符合用户要求的3D世界潜在编码。最后,生成的潜在编码通过VAE的解码器还原成具体的3D世界。
    • 语意层次化3D场景表征及生成算法算法将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离。保证了生成场景的视觉效果逼真,支持对场景内元素的独立编辑和物理仿真,兼容Unity、Unreal Engine、Blender等主流工具。
    • 强大的生成引擎(Diffusion Transformer)模型采用了约20亿参数的Diffusion Transformer,其自注意力机制擅长捕捉长距离依赖关系,确保场景的全局一致性。通过交叉注意力机制,将文本或图像提示的语义信息精准注入到生成过程中,实现精准可控的生成。

    混元3D世界模型 1.0的项目地址

    • 项目官网:https://3d-models.hunyuan.tencent.com/world/
    • Github仓库:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
    • HuggingFace模型库:https://huggingface.co/tencent/HunyuanWorld-1
    • 官网使用腾讯混元3D

    混元3D世界模型 1.0的应用场景

    • 游戏开发:游戏开发者可以通过简单的文本指令或图片输入,快速生成包含建筑、地形、植被等元素的完整3D场景。
    • 沉浸式视觉空间生成:无建模经验的普通用户可以通过混元3D创作引擎,仅需一句话或一张图即可快速生成360°沉浸式视觉空间。
    •  数字内容创作:模型支持文本和图片输入,能快速生成高质量、风格多样的可漫游3D场景,适用于动画制作、影视特效等领域。
    • 物理仿真支持:模型生成的场景支持物理仿真,可用于具身智能仿真,帮助机器人或智能体在虚拟环境中进行训练。
    • 智能体开发:支持零代码搭建Multi-Agent,新手小白也能快速上手,适用于构建复杂的智能体交互场景。
  • 悟能 – 商汤科技推出的具身智能平台

    悟能是什么

    悟能是商汤科技推出的面向机器人和智能设备的具身智能系统。平台基于商汤的“开悟”世界模型,结合多模态大模型技术,赋予机器人强大的感知、决策和行动能力。平台包含感知层(视觉、语音、触觉等多传感器输入)、决策层(LLM+世界模型协同规划)和行动层(端到端控制机械臂和移动底盘)。平台能赋能机器人等各种终端硬件,支持嵌入端侧芯片,适配多种场景,能生成多视角视频,构建4D真实世界,实现复杂任务的自主执行。

    悟能

    悟能的主要功能

    • 感知功能
      • 多模态感知融合:基于视觉、语音、触觉等多种传感器输入,实现对环境的全面感知和理解。
      • 环境感知:实时识别物体、人物和空间布局,为决策提供准确的环境信息。
    • 决策功能
      • LLM与世界模型协同:结合大语言模型和世界模型,实现语言理解和物理世界知识的融合,制定合理的行动策略。
      • 任务规划:根据任务目标,生成详细的执行计划,确保任务高效完成。
    • 行动功能
      • 端到端控制:精准控制机械臂和移动底盘,实现复杂动作的精确执行。
      • 动作执行与反馈:在执行任务过程中实时调整,确保任务的灵活性和可靠性。
    • 场景适配性:支持嵌入端侧芯片,适配多种智能设备和场景。

    悟能的技术特性

    • 分层设计:感知层、决策层和行动层的分层设计,让系统结构清晰,便于开发和优化。
    • 模块化:各层内部基于模块化设计,支持灵活的扩展和定制化开发。
    • 协同工作:各层之间基于高效的通信机制紧密协作,确保系统的整体性能。
    • 实时性:支持实时数据处理和反馈,确保系统能够快速响应环境变化。
    • 安全性:在关键功能上设计多重安全冗余,确保系统在异常情况下仍能安全运行。

    悟能的应用场景

    • 家庭服务:协助完成家务任务(如扫地、整理),同时提供陪伴互动,提升家庭生活质量。
    • 工业自动化:在物流仓库中自动搬运货物,优化生产线上零部件的装配和质量检测,提高效率。
    • 自动驾驶:实时感知路况,提供自动驾驶辅助功能,如自动泊车、紧急避让,提升驾驶安全性。
    • 医疗护理:协助患者进行康复训练,监测病房患者状态,为医护人员提供辅助支持。
    • 商业服务:在商场中为顾客提供购物建议,协助导购,同时进行实时安防监控,保障商业场所安全。
  • Intern-S1 – 上海AI Lab推出的科学多模态大模型

    Intern-S1是什么

    Intern-S1是上海人工智能实验室在世界人工智能大会上正式开源发布的科学多模态大模型,融合了语言和多模态性能,具备高水平的均衡发展能力,并富集多学科专业知识,在科学领域表现出色。Intern-S1首创“跨模态科学解析引擎”,能精准解读化学分子式、蛋白质结构、地震波信号等多种复杂科学模态数据,能预测化合物合成路径、判断化学反应可行性等。在多学科专业任务基准上超越了顶尖闭源模型,展现了卓越的科学推理与理解能力。Intern-S1通过动态Tokenizer和时序信号编码器实现了多种科学模态的深度融合,采用通专融合的科学数据合成方法,具备强大的通用推理能力和多项顶尖专业能力。

    Intern-S1

    Intern-S1的主要功能

    • 跨模态科学解析
      • 化学领域:能精准解读化学分子式,预测化合物的合成路径,判断化学反应的可行性。
      • 生物医学领域:可以解析蛋白质序列,辅助药物靶点发现与临床转化价值评估。
      • 地球科学领域:能识别地震波信号,分析地震波事件,为地震研究提供支持。
    • 语言与视觉融合:结合语言和视觉信息,进行复杂的多模态任务,如图文问答、科学现象解释等。
    • 科学数据处理:支持多种复杂科学模态数据的输入,包括材料科学中的光变曲线、天文学中的引力波信号等。
    • 科学问题解答:能基于输入的科学问题,结合其强大的知识库和推理能力,提供准确的解答。
    • 实验设计与优化:辅助科研人员设计实验方案,优化实验流程,提高科研效率。
    • 多智能体协同:支持多智能体系统,能与其他智能体协同工作,共同完成复杂的科研任务。
    • 自主学习与进化:具备一定的自主学习能力,能通过与环境的交互不断优化自身性能。
    • 数据处理与分析:提供数据处理和分析工具,帮助科研人员快速处理和分析科学数据。
    • 模型部署与应用:支持多种部署方式,包括本地部署和云端服务,方便科研人员在不同场景中使用。

    Intern-S1的技术原理

    • 创新的多模态架构:Intern-S1通过新增动态Tokenizer和时序信号编码器,支持多种复杂科学模态数据,包括化学分子式、蛋白质序列、光变曲线、引力波信号和地震波形等。创新实现了对科学模态数据的深入理解与高效处理,例如其对化学分子式的压缩率相比DeepSeek-R1提升70%以上。
    • 大规模科学领域预训练:模型基于一个2350亿参数的MoE语言模型和一个60亿参数的视觉编码器构建,并经过5万亿token的多模态数据预训练,其中超过2.5万亿token来自科学领域。使模型在通用能力和专业科学领域均表现出色,例如在化学结构解读、蛋白质序列理解等专业任务中表现卓越。
    • 联合优化系统与算法:Intern-S1研发团队实现了大型多模态MoE模型在FP8精度下的高效稳定强化学习训练,相比近期公开的MoE模型,训练成本降低了10倍。在系统层面,采用训推分离的RL方案,通过自研推理引擎进行FP8高效率大规模异步推理;在算法层面,提出Mixture of Rewards混合奖励学习算法,融合多种奖励和反馈信号,提升训练效率和稳定性。
    • 通专融合的科学数据合成:为了应对科学领域高价值任务的专业化需求,Intern-S1采用了通专融合的科学数据合成方法。一方面利用海量通用科学数据拓展模型的知识面,另一方面通过专业模型生成具有高可读性的科学数据,并由领域定制的专业验证智能体进行质量控制。

    Intern-S1的项目地址

    • 项目官网书生大模型
    • Github仓库:https://github.com/InternLM/Intern-S1
    • HuggingFace模型库:https://huggingface.co/internlm/Intern-S1-FP8

    Intern-S1的应用场景

    • 图像与文本融合:Intern-S1可以处理图像和文本的融合任务,例如对图像中的内容进行描述、解释图像中的科学现象等。
    • 复杂科学模态数据处理:支持多种复杂科学模态数据的输入,包括材料科学中的光变曲线、天文学中的引力波信号等,实现这些数据的深度融合与高效处理。
    • 科研工具集成:Intern-S1可以集成到科研工具中,帮助科研人员快速处理和分析科学数据。
    • 科学问题解答:作为智能助手,Intern-S1能基于其强大的知识库和推理能力,解答各种科学问题。
  • 豌豆羊输入法 – AI输入工具,支持动态预测与智能纠错

    豌豆羊输入法是什么

    豌豆羊输入法是专为年轻人设计的趣味AI输入法工具,由蚂蚁云通(上海)信息技术有限公司开发。通过多种创新功能,满足用户在聊天场景中的个性化和趣味化表达需求。主要功能包括智能回复、表情包制作和多样化的输入方式。用户可以用AI智能替身回复聊天,选择多种AI人设(如情话、怼人、夸赞等),能通过AI生图能力制作搞怪表情包。豌豆羊输入法支持拼音、手写、语音等多种输入方式,提供智能纠错和动态预测功能,让输入更高效。支持个性化设置,用户可以根据聊天场景切换角色和主题,打造专属输入体验。

    豌豆羊输入法

    豌豆羊输入法的主要功能

    • AI智能替身:接入大模型,用户上传聊天截图后,AI可自动回复,提供多种AI人设(如情话、怼人、夸赞、宫斗等),满足不同社交场景需求。
    • 智能纠错与预测:支持动态预测、整句输入,能智能纠错,让用户输入更高效。
    • AI生图能力:提供丰富的表情包制作工具,支持AI配梗、AI重绘,用户可一键生成搞怪表情包,轻松应对各种聊天场景。
    • 多种输入法:支持拼音、手写、语音、笔画、五笔等多种输入方式,满足不同用户的输入习惯。
    • 混合输入:支持中文、英文、数字、符号的混合输入免切换,方便快捷。
    • 自定义角色切换:用户可以根据聊天场景自定义角色和设定,切换输入法主题,打造专属输入体验。
    • 主题管理:提供丰富的主题选择,用户可以根据喜好更换输入法界面风格。

    豌豆羊输入法的官网地址

    豌豆羊输入法的应用场景

    • 社交聊天:在聊天中,用户可以通过上传聊天截图,让AI根据聊天内容生成合适的回复。
    • 高效输入:支持中英文、数字、符号的混合输入免切换,适合在学习和工作中快速输入各种内容。
    • 个性化表达:在学习和工作中,用户也可以通过自定义角色切换和主题管理,让输入法更符合自己的风格,提高输入的愉悦感。
    • 表情包制作:用户可以根据聊天内容,用AI生图能力制作搞怪表情包。
  • Coze Loop – 字节Coze推出的AI Agent开发与调试平台

    Coze Loop是什么

    Coze Loop(扣子罗盘)是字节跳动旗下Coze平台开源的专注于AI智能体(Agent)开发与运维的管理平台,为开发者提供从开发、调试、评估到监控的全生命周期管理能力。包括提示词工程、Agent效果评测、性能监控与调优、透明决策监控以及多模型对比。支持提示词的编写、优化和版本管理,提供AI辅助优化功能,显著提升提示词开发效率。Coze Loop通过系统化的评估体系,能对Agent的输出效果进行多维度自动化检测,确保其准确性和合规性。提供性能监控、异常告警以及透明化的决策链路展示,帮助开发者快速定位问题并优化模型表现。

    Coze Loop

    Coze Loop的主要功能

    • 提示词工程:支持提示词的编写、调试、优化及版本管理,提供AI辅助优化功能,显著提升提示词开发效率。
    • Agent效果评测:提供系统化的Agent性能评估体系,能对Prompt和AI智能体的输出效果进行多维度自动化检测,例如准确性、简洁性和合规性等。
    • 性能监控与调优:通过Trace数据追踪、性能统计和异常告警,快速定位问题根源,优化模型表现。
    • 透明决策监控:可视化展示AI工作流程,包括用户输入、模型调用和工具调用,实现全链路透明化。
    • 多模型对比:支持不同模型(如DeepSeek、豆包等)的性能对比,帮助开发者选择最优方案。

    Coze Loop的项目地址

    • Github仓库:https://github.com/coze-dev/cozeloop
    • 官网地址:https://www.coze.cn/loop

    如何使用Coze Loop

    • 访问与注册:访问Coze Loop的官网,注册并登录平台,创建或导入项目。
    • Prompt开发
      • 编写与调试:使用Prompt智能中枢编写和调试Prompt,实时预览不同模型的回答效果。支持智能优化、多版本对比和版本管理。
      • AI辅助优化:平台提供AI辅助优化功能,帮助提升Prompt开发效率。
    • 评测
      • 配置评测集:自定义评测集(输入数据和预期输出结果),设置评估标准。
      • 运行自动化测试:平台自动调用模型输出并对齐真实结果,支持准确率、语言规范性等多维度统计。
    • 观测
      • 启用观测功能:监控AI工作流程,包括用户输入、模型调用和工具调用,实现全链路透明化。
      • 实时预警:通过Trace数据追踪、性能统计和异常告警,快速定位问题根源。
    • 优化与迭代:根据观测和评测结果,优化Prompt或模型。迭代更新并部署最终版本。
    • 多模型对比:支持不同模型(如DeepSeek、豆包等)的性能对比,帮助选择最优方案。
    • 部署与集成:调试完成后,可通过SDK一键集成至业务代码,实现开发流程无缝对接。

    Coze Loop的应用场景

    • 虚拟陪伴AI开发:通过透明化决策链优化人物设定,提升对话自然度。
    • 营销内容生成:自动化生成公众号、小红书等内容,结合评测确保合规性与质量。
    • 企业智能客服:监控问答链路,快速定位错误并优化响应准确性。
    • 教育领域智能辅导:评测不同模型的教学效果,选择最适合的AI辅导方案。
    • 金融风控分析:实时观测模型决策过程,确保合规并降低风险。
  • Coze Studio – 字节跳动开源的AI Agent开发平台

    Coze Studio是什么

    Coze Studio(扣子开发平台)是字节跳动开源的AI智能体开发平台,帮助开发者快速构建、部署和管理AI智能体。提供一站式开发环境,支持Prompt、RAG、Plugin、Workflow等核心技术,通过可视化工作流编排,开发者可以零代码或低代码开发复杂AI应用。平台内置插件框架,可将第三方API或私有能力封装为插件,扩展智能体功能。Coze Studio采用Golang和React开发,遵循领域驱动设计(DDD)原则,易于二次开发。支持本地及私有化部署,部署门槛低,仅需双核CPU和4GB内存即可运行,提供一键部署脚本。

    Coze Studio

    Coze Studio的主要功能

    • 一站式开发环境:提供从开发到部署的全流程支持,涵盖Prompt、RAG、Plugin、Workflow等核心技术。
    • 可视化工作流编排:通过拖拽节点的方式,快速构建复杂的工作流,支持零代码或低代码开发,方便开发者设计业务逻辑。
    • 智能体构建与管理:提供健全的应用模板和编排框架,支持快速创建、发布和管理AI智能体。
    • 多模型支持:支持集成多种主流大模型(如OpenAI、火山引擎等),并提供统一的模型接口抽象。
    • 知识库管理:集成RAG(检索增强生成)能力,支持向量检索,可上传文档或数据,智能体基于知识库生成精准回答。
    • 插件系统:支持创建、配置和管理插件,可封装第三方API或私有功能,扩展智能体的能力。
    • 数据库支持:集成数据库资源,支持数据存储与查询。
    • API与SDK集成:提供聊天和工作流相关API,支持Python、JavaScript、Java等SDK,方便二次开发。
    • 实时交互:通过WebSocket支持实时聊天、语音合成和转录。

    Coze Studio的项目地址

    • Github仓库:https://github.com/coze-dev/coze-studio

    如何使用Coze Studio

    • 环境准备
      • 确保电脑满足最低配置要求:双核 CPU 和 4GB 内存。
      • 提前安装 Docker 和 Docker Compose,并启动 Docker 服务。
    • 获取源码:打开终端或命令提示符,运行以下命令克隆 Coze Studio 的源码:git clone https://github.com/coze-dev/coze-studio.git
    • 配置模型
      • 进入克隆后的项目目录:cd coze-studio
      • 从模板目录复制模型配置模板文件:cp backend/conf/model/template/model_template_ark_doubao-seed-1.6.yaml backend/conf/model/ark_doubao-seed-1.6.yaml
    • 修改配置文件
      • 进入 backend/conf/model 目录。
      • 打开 ark_doubao-seed-1.6.yaml 文件。
      • 设置以下字段:
        • id:模型 ID,由开发者自行定义,必须是非 0 的整数,且全局唯一。
        • meta.conn_config.api_key:模型服务的 API Key。
        • meta.conn_config.model:模型服务的 model ID。
    • 部署并启动服务
      • 进入 docker 目录,复制环境变量模板文件,启动服务。
      • 首次部署可能需要拉取镜像和构建本地镜像,耗时较长。如果看到提示 “Container coze-server Started”,则表示服务启动成功。
    • 访问平台:打开浏览器,访问 http://localhost:8888/,即可打开 Coze Studio 的前端页面。
    • 注册与登录:在 Coze Studio 的登录页面,使用邮箱或手机号注册并登录。
    • 创建智能体登录后,点击左上角的“创建 Bot”按钮,输入 Bot 的基本信息(如名称、头像等)。
    • 配置智能体
      • 在配置页面,可以设置 Bot 的角色、技能和限制(提示词)。
      • 添加官方提供的插件或自定义插件,配置工作流、知识库或数据库。
      • 在调试页面与 Bot 进行对话,测试其功能。
    • 使用插件
      • 在 Bot 中使用插件
        • 在 Bot 编辑页面,选择插件区域,点击加号图标添加插件。
        • 配置插件参数,并在预览与调试区域测试插件功能。
      • 在工作流中使用插件节点
        • 创建或选择工作流,在工作流中添加插件节点。
        • 配置输入输出参数,并测试插件功能。
    • 发布应用:完成所有配置后,点击右上角的“发布”按钮,将智能体发布到 Coze 的应用商店。

    Coze Studio的应用场景

    • 快速原型验证(POC):开发者可以快速搭建 AI 应用的原型,验证想法和概念。
    • 中小企业 AI 应用落地:中小企业可以通过 Coze Studio 快速利用大模型能力解决业务问题。
    • 私有化部署:对于数据安全要求高的企业,Coze Studio 支持私有化部署,确保业务数据不流出企业内网。
    • 企业内部问答机器人:使用知识库构建公司 SOP 智能体,通过工作流添加审批、填表、发邮件等逻辑。
    • AI 交互式问卷系统:使用工作流引导用户填写问卷,调用插件生成数据图表,将数据同步到后端 BI 系统。
  • Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

    Qwen3-235B-A22B-Thinking-2507是什么

    Qwen3-235B-A22B-Thinking-2507 是阿里巴巴发布的全球最强开源推理模型。基于2350亿参数的稀疏混合专家(MoE)架构,每次激活220亿参数,拥有94层Transformer网络和128个专家节点。模型专为复杂推理任务设计,支持256K原生上下文处理能力,可应对长文本和深度推理链。在性能方面,Qwen3-235B-A22B-Thinking-2507 在逻辑推理、数学、科学分析、编程等核心能力上显著提升,特别是在AIME25(数学)和LiveCodeBench v6(编程)等基准测试中刷新了全球开源模型的最佳成绩,超越了部分闭源模型。在知识、创意写作、多语言能力等通用任务上也表现出色。

    模型采用Apache 2.0开源协议,免费商用,用户可通过QwenChat、魔搭社区或Hugging Face体验和下载。定价为每输入百万token 0.7美元,每输出百万token 8.4美元。

    Qwen3-235B-A22B-Thinking-2507

    Qwen3-235B-A22B-Thinking-2507的主要功能

    • 逻辑推理:在逻辑推理任务中表现出色,能够处理复杂的多步推理问题。
    • 数学运算:在数学能力上显著提升,特别是在 AIME25 等高难度数学测试中刷新了开源模型的最佳成绩。
    • 科学分析:能处理复杂的科学问题,提供准确的分析和解答。
    • 代码生成:能生成高质量的代码,支持多种编程语言。
    • 代码优化:帮助开发者优化现有代码,提高代码效率。
    • 调试支持:提供代码调试建议,帮助开发者快速定位和解决问题。
    • 256K 上下文支持:原生支持 256K 的长文本处理能力,能处理超长上下文,适用于复杂的文档分析和长篇对话。
    • 深度推理链:自动启用多步推理,无需用户手动切换模式,适合需要深度分析的任务。
    • 多语言对话:支持多种语言的对话和文本生成,能满足跨语言交流的需求。
    • 指令遵循:能准确理解和执行用户的指令,生成高质量的文本输出。
    • 工具调用:支持与外部工具结合使用,扩展模型的功能。

    Qwen3-235B-A22B-Thinking-2507的技术原理

    • 稀疏混合专家(MoE)架构:Qwen3-235B-A22B-Thinking-2507 采用稀疏混合专家(Mixture of Experts,MoE)架构,总参数量为2350亿,每次推理激活220亿参数。这种架构包含128个专家节点,每个token动态激活8个专家,平衡了计算效率与模型能力。
    • 自回归Transformer结构:模型基于自回归Transformer结构,拥有94层Transformer层,支持超长序列建模,原生支持256K上下文长度。使模型能处理复杂的长文本任务。
    • 推理模式优化:Qwen3-235B-A22B-Thinking-2507 专为深度推理场景设计,默认强制进入推理模式。在逻辑推理、数学运算、科学分析、编程及学术测评等需要专业知识的领域表现出色。
    • 训练与优化:模型通过预训练与后训练双阶段范式进一步提升性能。在多项基准测试中,如AIME25(数学)、LiveCodeBench(编程)等,模型刷新了全球开源模型的最佳成绩。
    • 动态激活机制:MoE架构中的动态激活机制允许模型在推理过程中根据任务复杂性动态选择专家节点。

    Qwen3-235B-A22B-Thinking-2507的项目地址

    • HuggingFace模型库:https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

    Qwen3-235B-A22B-Thinking-2507的应用场景

    • 代码生成与优化:能生成高质量的代码,帮助开发者优化现有代码。
    • 创意写作:在创意写作、故事创作、文案撰写等方面表现出色,能提供丰富的创意和详细的构思。
    • 学术写作:能辅助撰写学术论文、文献综述等,提供专业的分析和建议。
    • 研究方案设计:帮助设计研究方案,提供科学合理的建议。
  • Higgs Audio V2 – 开源语音大模型,能模拟多人互动场景

    Higgs Audio V2是什么

    Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成,具备多语言对话生成、自动韵律调整、语音克隆和歌声合成等功能。模型能模拟自然流畅的多人对话,自动匹配说话者的情绪和语调,支持低延迟的实时语音交互。支持零样本语音克隆,用户只需提供简短语音样本,即可复制特定人物的声音特征,可以合成歌声。Higgs Audio V2 能同时生成语音和背景音乐,为音频内容创作提供强大支持。

    Higgs Audio V2

    Higgs Audio V2的主要功能

    • 多语言对话生成:支持多语言对话生成,能模拟多人互动场景,自动匹配说话者的情绪和能量水平,使对话自然流畅。
    • 自动韵律调整:在长文本朗读中,能根据内容自动调整语速、停顿和语调,无需人工干预,生成自然流畅的语音。
    • 语音克隆与歌声合成:用户只需提供简短的语音样本,模型即可实现零样本语音克隆,复制特定人物的声音特征,能让克隆的声音哼唱旋律。
    • 实时语音交互:支持低延迟响应,能理解用户情绪并做出情感化表达,提供接近人类的交互体验。
    • 语音与背景音乐同步生成:能同时生成语音和背景音乐,实现“写一首歌并唱出来”的创作流程。

    Higgs Audio V2的技术原理

    • AudioVerse 数据集:开发了一套自动化标注流程,结合多个语音识别模型、声音事件分类模型以及自研的音频理解模型,清洗并标注了 1000 万小时的音频数据。
    • 统一音频分词器:从零开始训练了一个统一的音频分词器,能同时捕捉语义和声学特征。
    • DualFFN 架构:在几乎不增加计算开销的前提下,显著增强了大语言模型对声学 token 的建模能力。
    • 零样本语音克隆:模型融入了上下文学习,能通过简单的提示(如简短的参考音频样本)进行零样本语音克隆,匹配说话风格。

    Higgs Audio V2的项目地址

    • Github仓库:https://github.com/boson-ai/higgs-audio
    • 在线体验Demo:https://huggingface.co/spaces/smola/higgs_audio_v2

    Higgs Audio V2的应用场景

    • 实时语音交互:适用于虚拟主播、实时语音助手等场景,提供低延迟和情感表达的自然互动。
    • 音频内容创作:能生成自然对话和旁白,为有声读物、互动培训及动态故事讲述等提供强大支持。
    • 娱乐和创意领域:语音克隆功能可复制特定人物的声音,开启娱乐和创意领域的新可能性。