Blog

  • Qwen3-TTS-Flash – 阿里通义推出的文本转语音模型

    Qwen3-TTS-Flash是什么

    Qwen3-TTS-Flash 是阿里通义推出的支持多音色、多语言和多方言的旗舰语音合成模型。模型具备卓越的中英语音稳定性,出色的多语言性能,及高表现力的拟人音色。模型提供 17 种音色选择,每种音色支持 10 种语言,Qwen3-TTS-Flash 支持多种方言,如普通话、闽南语、粤语等。模型能根据输入文本自动调节语气,对复杂文本具有很强的鲁棒性,且生成速度快,首包延迟低至 97ms,现可通过 Qwen API 访问,为用户提供自然且富有表现力的语音合成服务。

    Qwen3-TTS-Flash

    Qwen3-TTS-Flash的主要功能

    • 多音色支持:提供 17 种不同的音色选择,每种音色均支持多种语言,满足不同用户对音色的需求。
    • 多语言与多方言支持:支持普通话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语等多种语言,及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等方言。
    • 高表现力:生成的语音自然、富有表现力,能根据输入文本自动调节语气,使语音更加生动。
    • 高鲁棒性:支持自动处理复杂文本,抽取关键信息,对复杂和多样化的文本格式具有很强的适应性。
    • 快速生成:具有极低的首包延迟(低至 97ms),能快速生成语音,提升用户体验。
    • 音色相似度高:在多语言的语音稳定性和音色相似度上表现出色,超越其他同类模型。

    Qwen3-TTS-Flash的技术原理

    • 深度学习模型
      • 文本编码器:将输入文本转换为语义表示,提取文本的关键信息和语义特征。
      • 语音解码器:根据文本编码器的输出生成语音波形,确保语音的自然度和表现力。
      • 注意力机制:通过注意力机制,模型能更好地对齐文本和语音,提高生成语音的准确性和流畅性。
    • 多语言和多方言支持:模型在多种语言和方言的数据上进行训练,学习不同语言和方言的发音特点和语调规律。通过音色嵌入技术,模型能生成不同音色的语音,满足多样化的用户需求。
    • 高鲁棒性:对输入文本进行预处理,包括分词、词性标注、语义解析等,确保模型能正确理解文本内容。模型具备自动处理复杂文本和错误文本的能力,能抽取关键信息,生成准确的语音。

    Qwen3-TTS-Flash的性能表现

    • 中英文语音稳定性:在 seed-tts-eval test set 上,Qwen3-TTS-Flash 的中英文语音稳定性表现达到 SOTA,超越 SeedTTS、MiniMax 和 GPT-4o-Audio-Preview。
    • 多语言语音稳定性:在 MiniMax TTS multilingual test set 上,Qwen3-TTS-Flash 在中文、英文、意大利语和法语的 WER 上达到 SOTA,显著低于 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview。
    • 音色相似度:在英文、意大利语和法语的说话人相似度方面,Qwen3-TTS-Flash 超过 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview,展现出卓越的音色表现力。

    Qwen3-TTS-Flash

    Qwen3-TTS-Flash的项目地址

    • 项目官网:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list
    • 在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo

    Qwen3-TTS-Flash的应用场景

    • 智能客服:为用户提供自然流畅的语音交互,提升服务体验,如自动回答常见问题、引导用户操作等。
    • 有声读物:将文字内容转化为生动的语音,让听众享受听书的乐趣,适用于小说、新闻、教材等多种内容。
    • 语音助手:在智能家居、智能穿戴等设备中,提供语音交互功能,方便用户控制设备和获取信息。
    • 教育领域:辅助教学,为学生提供多语言、多音色的语音讲解,帮助用户更好地学习语言和知识。
    • 娱乐产业:用在动画、游戏、影视等制作,为角色配音,创造更具感染力的声音效果。
  • Qwen3-Omni – 阿里通义开源的原生端到端全模态大模型

    Qwen3-Omni是什么

    Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型,能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项达到SOTA水平,支持119种语言的文本处理,具备全球化语言能力。模型延迟低至211毫秒,高度可控,支持系统提示词自定义,具备强大的内置工具调用功能。Qwen团队开源了多个版本,包括Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner,推动技术发展和应用创新。模型现已上线Qwen Chat模型体验平台。

    Qwen3-Omni

    Qwen3-Omni的主要功能

    • 原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智。
    • 强大的性能:在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时图像和文本性能在同尺寸模型中达到SOTA水平。
    • 多语言:支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
    • 更快响应:纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
    • 长音频:支持长达30分钟音频理解。
    • 个性化:支持system prompt随意定制,能修改回复风格,人设等。
    • 工具调用:支持function call,实现与外部工具/服务的高效集成。
    • 开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

    Qwen3-Omni的技术原理

    • Thinker-Talker架构
      • Thinker:主要负责文本生成任务,能处理文本输入、输出高层语义表征,为后续的语音生成提供基础信息。
      • Talker:专注于流式语音Token的生成,直接用Thinker输出的语义表征,通过自回归方式预测多码本序列,实现低延迟的逐帧流式语音生成。
      • MTP模块:在解码过程中,MTP模块负责输出当前帧的残差码本,通过Code2Wav模块将码本合成对应的音频波形,实现高效的流式音频生成。
    • 创新架构设计
      • AuT音频编码器:基于海量音频数据(2000万小时)训练而成,具备强大的通用音频表征能力,为模型处理音频任务提供坚实基础。
      • MoE架构:Thinker和Talker均采用MoE(Mixture of Experts)架构,支持高并发处理和快速推理,显著提升模型在多任务处理时的效率和性能。
      • 多码本技术:Talker用多码本自回归方案,在每步生成过程中,能生成一个编解码帧,MTP模块会同步输出剩余的残差码本,设计进一步优化语音生成的效率和质量。
    • 全模态不降智:在文本预训练阶段,模型将单模态数据与跨模态数据混合训练。混合训练方式保证了各模态的性能与纯单模态训练相当,显著增强模型的跨模态能力,使模型在处理多模态任务时更加得心应手。Qwen3-Omni在语音识别和指令跟随任务上的表现十分出色,性能与Gemini-2.5-Pro等顶尖模型相当,能准确地理解和执行语音指令,为用户提供流畅的语音交互体验。
    • 实时音频和音视频交互:整个流程(包括AuT音频编码、Thinker文本处理、Talker语音生成及Code2wav音频合成)均实现全流式处理,支持首帧Token直接流式解码为音频输出,确保实时音频和音视频交互的高效性和流畅性。

    Qwen3-Omni的性能表现

    • 在全方位性能评估中,Qwen3-Omni在单模态任务上的表现与同规模的Qwen系列单模态模型相当,尤其在音频任务上表现突出,展现出显著优势。
    • 在36项音视频基准测试中,Qwen3-Omni在32项测试中取得开源领域的最佳性能,22项测试达到行业顶尖水平(SOTA),性能超越Gemini-2.5-ProSeed-ASRGPT-4o-Transcribe等强大的闭源模型。

    Qwen3-Omni

    Qwen3-Omni的项目地址

    • 项目官网:https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list
    • GitHub仓库:https://github.com/QwenLM/Qwen3-Omni
    • HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
    • 技术论文:https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

    Qwen3-Omni的应用场景

    • 内容创作:模型能生成高质量的文本、图像、音频和视频内容,为创作者提供丰富的创意素材,提升创作效率。
    • 智能客服:模型支持多语言文本和语音交互,快速准确地理解用户问题并提供解决方案,提升客户服务体验。
    • 教育领域:模型能生成个性化的学习材料和互动内容,如音频讲解、图像示例等,满足不同学生的学习需求。
    • 医疗辅助:模型能处理医学影像、语音记录等多模态数据,辅助医生进行诊断和治疗方案制定。
    • 多媒体娱乐:模型能创作音乐、视频等多媒体内容,为用户提供个性化娱乐体验。
  • DeepSeek-V3.1-Terminus – DeepSeek最新推出AI模型

    DeepSeek-V3.1-Terminus是什么

    DeepSeek-V3.1-Terminus 是 DeepSeek 团队推出的人工智能语言模型,是 DeepSeek-V3.1 的升级版本,主要优化语言一致性和 Agent 能力,解决中英文混杂及异常字符等问题,使输出更稳定。模型在多个领域表现良好,已在官方 App网页端、小程序及 API 中更新。模型支持用户下载开源版本。

    DeepSeek-V3.1-Terminus

    DeepSeek-V3.1-Terminus的主要更新

    • 语言一致性改进:优化中英文混杂和异常字符问题,使文本输出更规范、纯净。
    • Code Agent 优化:提升代码生成和解释的准确性和效率,增强编程辅助能力。
    • Search Agent 优化:增强搜索能力,更准确理解和处理查询,提供更相关信息。

    DeepSeek-V3.1-Terminus的性能表现

    DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,减少错误和异常情况。

    DeepSeek-V3.1-Terminus

    DeepSeek-V3.1-Terminus的项目地址

    • HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

    DeepSeek-V3.1-Terminus的应用场景

    • 内容创作:帮助创作者撰写文章、故事、创意文案等,激发创意灵感,提供高质量文本内容。
    • 知识问答:模型能回答各类问题,涵盖科学、技术、文化、生活等领域,为用户提供准确的知识解答。
    • 编程辅助:模型能生成代码片段、解释代码逻辑,支持多种编程语言,助力编程学习和开发工作。
    • 学习辅导:为学生讲解学科知识点、辅导作业,提供解题思路和方法,帮助学生更好地学习和理解知识。
    • 数据分析:帮助用户解读数据、生成数据分析报告,便于展示和传达数据信息,辅助决策。
  • Ray3 – Luma AI推出的推理视频生成模型

    Ray3是什么

    Ray3是Luma AI推出的新一代视频生成模型,具备强大的推理能力和专业级HDR视频生成技术,为视频创作带来了革命性的变化。Ray3能理解图像和语言指令,执行复杂任务,自动评估和优化输出质量,确保生成的视频达到高标准。支持的10位、12位甚至16位色深以及EXR格式输出,生成的视频在色彩和细节上更加丰富和逼真,完美适配专业影视制作和高端内容创作的需求。Ray3引入了草稿模式,可以在短时间内生成视频的初步版本,之后再升级为全4K HDR的高质量视频,大大提高了创作效率。用户可以通过直观的视觉控制工具,直接在图像上绘制草图来引导视频的生成,无需复杂的文字指令。Ray3可以通过Luma AIDream Machine使用,与Adobe Firefly和Creative Cloud Pro集成,为创作者提供了更多的便利和选择。

    Ray3

    Ray3的主要功能

    • 推理与指令执行:Ray3能理解图像和语言指令,执行复杂任务,自动评估和优化输出质量,确保生成的视频达到高标准。
    • 专业级HDR视频生成:支持10位、12位甚至16位色深,可输出EXR格式文件,生成的视频在色彩和细节上更加丰富和逼真,适配专业影视制作和高端内容创作。
    • 草稿模式与高效创作:引入草稿模式,快速生成视频的初步版本,之后可升级为全4K HDR的高质量视频,大大提高了创作效率。
    • 视觉控制与直观操作:用户可以通过在图像上绘制草图来引导视频的生成,无需复杂的文字指令,使创作过程更加直观和便捷。

    如何使用Ray3

    • 通过Dream Machine使用:用户可以用Luma AI的Dream Machine平台,输入文本或图像提示来生成视频。
    • 利用Adobe Firefly和Creative Cloud Pro:Ray3也集成在Adobe Firefly和Creative Cloud Pro中,付费用户可以在这些平台上使用Ray3生成视频,并在2025年10月1日之前享受免费无限量生成的优惠。
    • 草稿模式快速预览:用户可以使用Ray3的草稿模式快速生成视频的初步版本,以快速查看效果并进行调整。
    • 视觉控制引导生成:用户可以通过在图像上绘制草图,直接引导视频中物体、角色或摄像机的运动,而无需输入复杂的文字指令。

    Ray3的技术亮点

    • 推理能力:Ray3是业界首个具备推理能力的视频模型,能理解图像和语言,执行复杂指令,并对输出进行评估和迭代,直至达到高质量标准。
    • HDR视频生成:作为首款可制作专业级HDR视频的产品,Ray3支持10位、12位甚至16位色深,可输出EXR格式文件,与专业编辑和调色工作流程无缝集成。
    • 草稿模式:引入草稿模式,能快速生成粗略视频预览,速度提升五倍,之后可升级为全4K HDR的高质量视频。
    • 视觉控制:用户可通过在图像上绘制草图,引导移动、物体或摄像机的框架,无需输入文字提示。

    Ray3的应用场景

    • 影视制作:能生成高质量的HDR视频,支持复杂动作序列和场景,提升影视内容的真实感和细致度。
    • 广告创作:快速生成吸引人的视频广告,支持多种视觉效果和动态展示,增强广告的吸引力和影响力。
    • 游戏开发:生成逼真的游戏过场动画和背景视频,提升游戏的视觉体验和沉浸感。
    • 教育与培训:制作教育视频,通过生动的动画和场景展示,提高学习的趣味性和效果。
    • 社交媒体内容:为社交媒体平台快速生成吸引人的视频内容,提升用户参与度和互动性。
    • 虚拟现实(VR)与增强现实(AR):生成适用于VR和AR应用的高质量视频内容,提供更加沉浸式的用户体验。
  • Loomi – AI内容创作工具,多智能体协同创作

    Loomi是什么

    Loomi 是专为创作者设计的 AI 工具,通过 20 多个专家智能体,覆盖内容生产的全流程,从话题洞察、受众画像到创作策略,全方位支持创作者。自研的 Nexus 情境引擎能构建稳固的思维网络,支持长文创作和复杂并行思考,能确保任务清晰、步骤精准。Loomi 融入了 100 多位内容从业者的实战经验,提炼出经过市场验证的爆款策略和创作方法,为创作者提供合理建议和有效路径。

    Loomi

    Loomi的主要功能

    • 多智能体协同创作:Loomi 通过多个智能体分工协作,模拟真实创作过程,从创意、策略到成稿,全流程提升创作效率与内容质量。
    • 精准洞察用户需求:能拆解热门话题背后的“真实社会情绪”与“用户动机”,帮助创作者找到更具共鸣感的内容方向,而不仅仅是依赖关键词搜索。
    • 创作模板与格式输出:支持多种创作模板,如技术专栏、产品测评、运营 SOP 等,可一键调用,节省输入时间。同时,支持小红书、公众号、视频脚本等多平台格式输出,实现一稿多用。
    • 卡片 + 画布工作方式:创作者在写作过程中,如果发现方向有误,可以回到上一步或选择其他分支重新生成,更像真正的协作写作。
    • 自研 Nexus 情境引擎:能构建稳固的思维网络,无论是长文创作还是复杂并行思考,确保任务清晰、步骤精准,让复杂任务不再迷失方向。
    • 实战经验融入:Loomi 融入了 100 多位内容从业者的实战经验,提炼出经过市场验证的爆款策略和创作方法,为创作者提供合理建议和有效路径,助力创作。

    Loomi的官网地址

    • 官网地址:https://loomi.live/

    Loomi的应用场景

    • 内容创作:帮助创作者从选题到成稿的全流程创作,无论是撰写文章、制作视频脚本还是策划社交媒体内容,能提供支持。
    • 话题洞察:通过分析热门话题背后的社会情绪和用户动机,为创作者提供更具共鸣感的内容方向,助力找到有潜力的话题。
    • 多平台适配:支持多种内容输出格式,如小红书、公众号、视频号等,满足创作者在不同平台上的内容发布需求。
    • 创意启发:为创作者提供创意灵感,通过智能分析和建议,帮助突破创作瓶颈,激发新的创作思路。
    • 团队协作:模拟团队协作的创作模式,多个智能体协同工作,让创作者体验到类似与团队成员合作的创作过程。
  • LatticeWorld – 网易、清华等推出的多模态3D世界生成框架

    LatticeWorld是什么

    LatticeWorld 是网易、香港城市大学、北京航空航天大学和清华大学等机构推出的将大语言模型与工业级 3D 渲染引擎虚幻引擎 5 (Unreal Engine 5,UE5)结合的多模态 3D 世界生成框架,支持通过文本描述和视觉指令快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。LatticeWorld 由场景布局生成、环境配置生成、程序化渲染管线三个核心模块构成,相比传统手工创作,创作效率提升超 90 倍,且生成质量高,有望在游戏、影视等领域广泛应用。

    LatticeWorld

    LatticeWorld的主要功能

    • 快速生成3D世界:根据文本描述和视觉指令,快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式3D世界,相比传统手工创作,效率大幅提升。
    • 支持多种场景生成:支持生成多种不同类型的3D场景,如郊区、荒野等,满足不同用户的需求。
    • 生成动态交互式环境:能生成动态智能体配置信息,包括智能体类别、数量、行为状态和空间位置等,使生成的3D世界更具交互性和动态性。
    • 支持多模态输入:支持文本描述和视觉条件等多种输入方式,用户根据自己的需求选择合适的输入方式,使生成的3D世界更加符合用户的需求。

    LatticeWorld的技术原理

    • 多模态输入处理:通过文本描述和视觉条件等多种输入方式,将输入信息转换为符号化场景布局和环境配置参数,为后续的3D世界生成提供基础。
    • 符号序列场景布局表示:将复杂的空间场景布局转换为符号矩阵,每个符号代表特定的资产类型,如F表示森林区域,W表示水体等。符号化矩阵被序列化为大语言模型可直接处理的字符串格式,有效保持空间关系的完整性。
    • 多模态视觉融合机制:用预训练的CLIP视觉编码器提取高维视觉特征表示,通过专门设计的多层CNN投影网络将特征映射到词嵌入空间。采用精心设计的三阶段训练范式,包括CLIP微调阶段、持续预训练阶段和端到端微调阶段,联合优化视觉指令集成模块和布局生成模型。
    • 层次化场景属性框架:建立双层场景属性的层次化结构,粗粒度属性层控制全局环境特征,如地形类型、季节变化、天气状况等;细粒度属性层涵盖多种细节参数,如资产的材质、密度、位置、朝向等,确保场景的语义一致性并减少参数冲突。
    • 程序化渲染管线:通过场景布局解码器和环境配置转译系统,将符号化场景布局和JSON格式的环境配置转换为3D渲染引擎的输入。场景布局解码器实现对符号化场景布局的精确处理,包括转换为二值掩码图片、调整掩码图像大小和形成自然过渡区域等;环境配置转译系统负责将环境配置参数转译为特定渲染引擎的原生属性格式,精确控制物体和智能体的类型、状态、空间分布等详细参数。

    LatticeWorld的项目地址

    • arXiv技术论文:https://arxiv.org/pdf/2509.05263

    LatticeWorld的应用场景

    • 游戏开发:快速生成游戏世界原型,包括地形、建筑、植被等元素,加快开发进度。
    • 影视制作:快速搭建复杂虚拟场景,如外星世界、古代城市等,降低实体场景搭建成本。
    • 虚拟现实(VR)与增强现实(AR):创建沉浸式虚拟环境,如虚拟旅游、虚拟教育等,提供身临其境的体验。
    • 城市规划:快速生成城市虚拟模型,包括街道、建筑、公园等元素,用于前期研究。
    • 教育与培训:生成虚拟实验室、历史场景等,提供沉浸式学习体验。
  • LongCat-Flash-Thinking – 美团推出的大型推理模型

    LongCat-Flash-Thinking是什么

    LongCat-Flash-Thinking 是美团 LongCat 团队推出的拥有 5600 亿参数的大型推理模型,基于专家混合(MoE)架构,支持根据需求动态激活 186 亿到 313 亿参数,兼顾计算效率与性能。模型通过长思维链冷启动训练和大规模强化学习两阶段训练,具备强大的形式化推理、智能体推理等能力,在数学、逻辑、编程等复杂推理任务中表现出色,能为科研、软件开发、企业决策等领域提供高效智能支持,推动 AI 技术普惠化发展。

    LongCat-Flash-Thinking

    LongCat-Flash-Thinking的主要功能

    • 复杂推理:模型擅长处理数学、逻辑、编程等复杂推理任务,如自动定理证明、解决奥林匹克数学竞赛难题等。
    • 智能体工具使用:模型能灵活利用外部工具辅助解决问题,提高任务执行效率,例如在需要多步骤操作或调用特定功能时,自动选择、使用相应工具。
    • 通用问答与对话:具备良好的通用语言理解和生成能力,能进行流畅的自然语言对话,回答各种领域的问题,提供信息咨询等服务。
    • 形式化推理:在严谨的逻辑证明和形式化语言处理方面表现出色,支持应用在数学、物理等需要精确逻辑验证的领域。

    LongCat-Flash-Thinking的技术原理

    • 专家混合(MoE)架构:拥有5600亿参数,根据上下文动态激活186亿到313亿参数,实现计算效率与性能的平衡。
    • 两阶段训练流程
      • 长思维链冷启动训练:通过课程学习策略和推理密集型数据的SFT阶段,培养模型的基础推理能力。
      • 大规模强化学习:基于DORA系统进行异步强化学习,采用领域并行训练方案,将不同领域的优化过程解耦后再融合,提升模型的推理能力和泛化性能。
    • DORA系统:作为强化学习基础设施,采用流式架构、多版本设计和弹性共置策略,支持在数万个加速器上进行高效、稳定的异步训练,提高训练效率和模型性能。

    LongCat-Flash-Thinking的项目地址

    • GitHub仓库:https://github.com/meituan-longcat/LongCat-Flash-Thinking
    • HuggingFace模型库:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
    • 技术论文:https://github.com/meituan-longcat/LongCat-Flash-Thinking/blob/main/tech_report.pdf

    LongCat-Flash-Thinking的应用场景

    • 软件开发:在软件开发中,自动生成代码片段、快速定位、修复代码中的错误,显著提升开发效率和代码质量。
    • 科学研究:科研人员进行数学定理的证明、物理模型的推导及复杂数据的分析,帮助加速科研进程,提高研究效率。
    • 企业决策:在企业环境中分析市场数据,提供战略规划和投资建议,助力企业做出更明智的决策,提升竞争力。
    • 教育领域:在教育方面根据学生的学习进度提供个性化学习计划,实时解答学生的问题,辅助教师生成教学资源,提高教学效果。
    • 医疗健康:在医疗健康领域助医生进行医疗诊断,管理医疗知识库,为患者提供个性化的健康管理建议,提升医疗服务的质量和效率。
  • 张大妈 – 值得买科技推出的AI购物管家

    张大妈是什么

    张大妈是值得买科技推出的AI购物管家,帮助用户更高效地做出消费决策。具备强大的智能推荐功能,能根据用户的购物需求和偏好,精准推荐合适的商品。张大妈能进行全网比价,确保用户能以最优惠的价格购买到心仪的商品。张大妈通过云手机技术,实现了自动执行任务的功能,如自动价保、物流查询、低价监控等,极大地节省了用户的时间和精力。用户可以通过文字、语音、图片等多种方式与“张大妈”进行交互,享受更加个性化和便捷的购物体验。

    张大妈

    张大妈的主要功能

    • 智能推荐:根据用户的购物需求和偏好,精准推荐合适的商品。
    • 全网比价:自动搜索全网最低价,帮助用户找到最优惠的购买选项。
    • 自动执行任务:通过云手机技术,自动完成价保、物流查询、低价监控等操作。
    • 多模态交互:支持文字、语音、图片等多种交互方式,满足不同用户需求。
    • 商品评价与口碑:提供商品的用户评价和口碑信息,帮助用户做出更明智的决策。

    如何使用张大妈

    • 下载安装:访问“张大妈”的官网 https://zhangdama.smzdm.com/,点击下载链接,根据提示完成安装。
    • 注册登录:打开App后,使用手机号码或社交账号注册并登录,以便个性化服务。
    • 输入需求:在首页输入框中输入你的购物需求,如商品名称或服务类型。
    • 选择服务:根据需求选择“帮我挑”“帮我买”或“帮我问”等服务。
    • 查看结果:系统会根据你的需求提供推荐商品、比价信息或执行任务的结果。
    • 交互沟通:通过文字、语音或图片与“张大妈”进行交互,进一步细化需求或获取更多信息。
    • 任务执行:对于自动执行的任务,如价保、监控等,系统会自动完成并通知你结果。
    • 评价反馈:使用后可以对“张大妈”的服务进行评价和反馈,帮助改进体验。

    张大妈的应用场景

    • 电商购物:帮助用户在多个电商平台之间进行商品比价和推荐,自动监控商品价格变化,提醒用户在最佳时机购买。
    • 物流查询:自动查询商品物流信息,实时跟踪包裹状态,无需用户手动输入单号。
    • 价保服务:自动检测商品价格变动,为用户申请价保,确保用户享受最低价。
    • 机票预订:根据用户需求,自动搜索并推荐合适的机票,甚至可以完成预订和支付流程。
    • 餐饮预订:帮助用户查找附近的餐厅,查看评价,并协助预订座位。
    • 购物领券:自动为用户领取各类优惠券,增加购物优惠。
  • 阿里推出的《企业 AI 应用构建指南》(PDF文件)

    《企业AI应用构建指南》全面阐述企业级AI应用的构建方法与技术体系。内容涵盖AI应用架构演进(从对话、RAG到工作流和Agent模式),深入解析交付流程、MaaS、记忆管理、MCP协议、AI网关、沙箱隔离等核心基础设施,重点讨论提示词注入、工具安全、身份鉴权等新型风险及其防护策略。指南结合阿里巴巴内部实践,为开发者提供从研发到运维的全链路指导,助力高效、安全地实现AI应用落地与创新。

    获取《企业 AI 应用构建指南》报告PDF原文件 扫码关注回复: 20250922

    简介

    本文基于阿里巴巴内部 AI 应用研发经验,结合业务研究与开源进展,深入分析 AI 应用研发的架构模式、交付差异、基础设施支持及安全挑战。从复杂度最高的 Agent 模式架构入手,探讨 AI 应用与传统应用在研发交付阶段的差异,包括模型切换升级及能力评测等问题。重点介绍支持 AI 应用研发的基础设施,如 MaaS、MCP 工具、Sandbox 技术及研发运维生命周期的观测和评测。分析 AI 引入应用程序带来的安全新挑战,如提示词注入、工具使用安全、Sandbox 隔离及身份和授权体系等,为读者提供 AI 应用研发的实践经验和深入见解。

    AI 应用架构

    • 发展历程:从简单的对话模式,到加入向量检索召回能力的 RAG 模式,再到开发者编排工作流、在关键节点用模型驱动的 AI 工作流模式,发展到用模型自身规划流程的 Agent 模式。
    • Agent 模式架构
      • 用户交互模块:接收用户请求,收集上下文数据、转换成模型请求。
      • 核心 LLM 模块:负责任务规划及短期记忆保存,生成任务计划并执行。
      • 环境模块:作为任务执行场所,通常是隔离的 sandbox 环境,执行任务、收集环境信息。
      • 规划、任务执行、感知和反思循环:根据执行结果调整规划,循环多次实现目标。
      • 记忆模块:在任务复杂、上下文过长时,引入长期记忆模块,精细压缩记忆以保留关键信息。

    AI 应用交付

    • 特点:与传统应用 CI/CD 相比,AI 应用 CI/CD 面临多维度的供应链管理,需用概率性测试策略,采用复杂循环流程,需对模型性能变化等 AI 特有问题进行多层次监控。
    • 模型和框架选择:根据质量、成本、费用、合规等多维度选择基础模型和框架,如通用对话场景可选择 GPT-4,代码生成可选择 Qwen-Coder,企业考虑合规可选择开源模型私有化部署。在应用更新迭代过程中,需进行模型切换及相应工作。
    • 核心流程:AI 应用依赖关系复杂,需统筹代码、模型、数据协同交付。建议用环境隔离方式,分为开发、集成、生产三阶段,每个环境有不同权限控制和稳定性要求。

    AI 应用研发基础设施

    • MaaS(模型即服务):将具备不同任务处理能力的 AI 模型以服务形式提供给用户,用户通过 SDK/API 快速应用模型推理能力,降低 AI 应用构建复杂度。
    • 记忆(Memory):使 AI 应用能对先前交互内容进行记忆,保持长期交互的一致性和连贯性。
    • MCP(模型上下文协议):让大型语言模型以标准化方式连接外部数据源和工具,使模型能发挥更大价值,如引入网络搜索、数据集和 API 等外部工具。
    • AI 网关:基于模型访问 + API 供应两个场景核心,通过抽象协议、统一治理等设计原理,把“任何模型”和“任何业务 API”纳入统一控制平面,解决 MxN 重复建设问题,实现快速迭代与企业级稳态共存。
    • Sandbox:为 Agent 规划和执行任务提供可靠安全的环境,支持代码生成和运行、browser-use 及本地 MCP Tool 等。
    • AI 可观测:通过获取用户上报的 OpenTelemetry 数据,清晰展示从用户输入到最终输出的全过程,记录关键节点元数据,为开发者提供调试依据,是评测、分析和优化的数据基础。
    • AI 评测:传统软件测试方法在 AI 应用面前力不从心,需建立全新 AI 应用评测体系,确保 AI 应用可信赖、高质量、可持续进化,将不确定性转化为确定性商业价值。

    AI 应用安全

    • 应用安全风险及防护:Agent 应用面临提示词注入、逻辑错误、用户有害请求等新型安全挑战,安全问题从单点漏洞演变为系统性风险,需多层次纵深防御和专门安全治理体系。
    • Tools 使用安全:高危 Tool 必须在与宿主逻辑彻底隔离、可精细审计的受控环境中运行,限定影响范围。
    • 身份与授权:AI 场景下的认证和授权与传统存在差异,需更灵活可靠的安全协议,防止权限泄露、访问越权、数据安全等风险。
    • 大模型供应链安全防护:防范训练数据集、模型权重、依赖组件、交付渠道等环节被恶意篡改或植入“后门”,导致模型“带病上线”威胁业务安全。

    总结

    随着大模型的兴起,阿里巴巴的 AI 研发生态蓬勃发展,Python 活跃开发者数量在过去一年增长 33%,主要用于数据处理、模型训练和 AI 应用研发等工作。在 2025 年 AI 应用发展的元年,资本的大量投入推动了 AI 应用的快速发展,相关的研发模式和应用架构也在不断成熟,新的 AI 应用中间件逐渐出现,让开发者更专注于创新。基于 AI 模型能力的不断提升和上下文工程成为行业共识的趋势,本文推出指南文章,能帮助广大开发者快速构建 AI 应用,实现创新梦想。

    获取《企业 AI 应用构建指南》报告PDF原文件 扫码关注回复: 20250922

  • Granite-Docling-258M – IBM推出的轻量级视觉语言模型

    Granite-Docling-258M是什么

    Granite-Docling-258M 是 IBM 推出的轻量级视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。模型仅含 258M 参数,性能卓越,成本效益高,支持多语言(包括阿拉伯语、中文和日语)处理。模型使用 DocTags 格式精准描述文档结构,避免信息丢失。Granite-Docling-258M能与 Docling 库无缝集成,提供强大的定制化和错误处理能力,适用企业级文档处理,是文档处理领域的强大工具。

    Granite-Docling-258M

    Granite-Docling-258M的主要功能

    • 精准文档解析:模型能准确识别、解析文档中的文字、表格、公式、图表等各类元素,为后续处理提供清晰、准确的数据基础。
    • 结构保留转换:在将文档转换为电子格式时,完整保留原始文档的布局和结构,确保转换后的文档与原文高度一致,便于阅读和进一步编辑。
    • 多模态输入支持:同时支持图像和文本输入,能处理扫描文档、手写笔记及电子文档等多种形式的文档,拓宽应用范围。
    • 多语言文档处理:具备多语言处理能力,能处理不同语言的文档,为跨国企业和多语言环境下的文档处理提供便利。
    • 高效数据提取:支持快速从文档中提取关键信息和结构化数据,提高工作效率,减少人工处理时间。
    • 灵活的输出格式:支持将文档转换为多种常见格式,如Markdown、HTML、JSON等,方便用户根据需求进行后续处理和应用。
    • 强大的定制化能力:与Docling库集成,用户能根据具体需求定制文档处理流程,实现个性化的文档转换和分析功能。
    • 企业级稳定性:经过优化,模型在处理文档时更加稳定,减少错误和异常情况的发生,适合在企业级环境中大规模应用。

    Granite-Docling-258M的技术原理

    • 模型架构
      • 视觉编码器:用 siglip2-base-patch16-512 作为视觉编码器,能高效处理图像输入,提取文档中的视觉特征。
      • 视觉语言连接器:基于像素洗牌投影器(pixel shuffle projector),将视觉特征与语言模型连接起来,实现视觉和语言信息的融合。
      • 语言模型:基于 Granite 165M 的语言模型,能处理和生成自然语言文本,确保文档内容的准确转换。
    • DocTags 格式:DocTags 通用标记语言,能精准描述文档中的各种元素(如图表、表格、公式等)及上下文关系和位置。:DocTags 格式优化 LLM 的可读性,使模型输出的文档能直接转换为 Markdown、HTML 或 JSON 等格式,便于后续处理和应用。
    • 训练数据:训练数据包括公开数据集和内部合成数据集,如 SynthCodeNet(代码片段)、SynthFormulaNet(数学公式)、SynthChartNet(图表)和 DoclingMatix(真实文档页面)。通过高质量的标注数据,模型能更好地学习文档的结构和内容,提高转换的准确性和稳定性。

    Granite-Docling-258M的项目地址

    • 项目官网:https://www.ibm.com/new/announcements/granite-docling-end-to-end-document-conversion
    • HuggingFace模型库:https://huggingface.co/ibm-granite/granite-docling-258M
    • 在线体验Demo:https://huggingface.co/spaces/ibm-granite/granite-docling-258m-demo

    Granite-Docling-258M的应用场景

    • 企业文档管理:模型能快速将纸质文档数字化,便于存储和检索,提升工作效率。
    • 学术研究:模型能高效处理大量文献,助力研究人员快速获取和分析资料。
    • 政府档案数字化:用在精准转换历史档案,确保信息完整,便于长期保存和查询。
    • 教育领域:教师能快速整理教学资料,学生能便捷获取电子版学习材料。
    • 多语言文档处理:跨国企业能处理多语言文档,打破语言障碍,促进国际交流。