Blog

  • Genie 3 – 谷歌DeepMind推出的新一代通用世界模型

    Genie 3是什么

    Genie 3是谷歌DeepMind推出的新一代通用世界模型,能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力,支持用文本提示改变世界状态,如天气变化或引入新物体。Genie 3实现了长达数分钟的视觉一致性,视觉记忆能追溯到一分钟前。模型为AI智能体提供训练环境,支持复杂目标的实现,其技术突破为AI研究和应用带来新的可能性。

    Genie 3

    Genie 3的主要功能

    • 模拟物理世界:能生成水流、光照等自然现象,并与复杂环境进行交互。
    • 模拟自然世界:支持生成充满生命力的生态系统,包括动物行为和复杂植物。
    • 创建动画和奇幻世界:能生成富有想象力的奇幻场景和动画角色,例如彩虹桥上的卡通狐狸。
    • 探索地点和历史场景:支持跨越时空,重现历史场景或探索不同地点。
    • 实时交互能力:支持实时交互,每秒生成 20-24 帧画面,保持数分钟的一致性。
    • 长时程一致性:生成的环境在数分钟内保持物理一致性,视觉记忆可追溯到一分钟前。
    • 由提示词驱动的世界事件:支持用文本输入改变世界状态,如天气变化或引入新物体。
    • 智能体训练:为 AI 智能体提供训练环境,支持复杂目标的实现。

    Genie 3的技术原理

    • 自回归生成:Genie 3 用自回归生成技术,逐帧生成画面。在生成每一帧时,模型需要考虑之前生成的轨迹,保持环境的一致性。
    • 长时程一致性:基于复杂的记忆机制,Genie 3 能在数分钟内保持环境的物理一致性,让用户在一分钟后重新访问某个地点,模型也能调取之前的相关信息。
    • 动态世界生成:与依赖显式 3D 表征的方法(如 NeRFs 和高斯溅射)不同,Genie 3 根据世界描述和用户行为逐帧生成世界,让生成的环境更加动态和丰富。
    • 文本驱动的世界事件:通过文本输入,用户可以改变世界的状态,例如改变天气或引入新物体。增强了交互性,为 AI 智能体的训练提供了更广泛的应用场景。

    Genie 3的项目地址

    • 项目官网:https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

    Genie 3的局限性

    • 有限的动作空间:支持的智能体直接执行的动作范围有限,影响其在复杂任务中的自主性。
    • 多智能体交互的复杂性:精确模拟多个独立智能体之间的复杂互动仍具挑战,限制了在多智能体系统中的应用。
    • 真实世界位置的准确表征:无法用完美的地理精度模拟真实世界的地点,限制了在地理信息系统中的应用。
    • 文本渲染能力有限:只有在输入描述中提供文本信息时,Genie 3 才能生成清晰易读的文字,限制了在需要精确文本显示的场景中的应用。
    • 有限的交互时长:目前仅支持数分钟的连续交互,限制了在需要长时间交互的应用中的使用。

    Genie 3的应用场景

    • 教育与培训:创建虚拟实验室和历史场景,帮助学生通过沉浸式体验加深对科学和历史知识的理解。
    • 娱乐与游戏开发:作为下一代游戏引擎的核心技术,能实时生成丰富多变的游戏世界,提供更沉浸式的娱乐体验。
    • AI 研究与开发:为 AI 智能体提供复杂的虚拟环境,用在训练和测试其导航、决策和学习能力,助力人工智能研究。
    • 建筑设计与城市规划:模拟城市环境,帮助建筑师和规划师评估不同设计方案对交通、环境和居民生活的影响。
    • 心理健康与治疗:生成的虚拟环境用在心理治疗,帮助患者应对创伤后应激障碍(PTSD)和恐惧症等心理问题。
  • gpt-oss – OpenAI开源的推理模型系列

    gpt-oss是什么

    gpt-oss 是 OpenAI 推出的开源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数,激活参数约51亿,能在单张 80GB GPU 上运行;gpt-oss-20b 拥有210亿参数,激活参数约36亿,能在 16GB 内存的消费级设备(如笔记本或手机)上运行。两者均基于 MoE 架构,支持 128k上下文长度,性能接近闭源的 o4-minio3-mini,在工具调用、少样本函数调用、链式思考推理及健康问答等方面表现出色。模型基于 Apache 2.0 许可证开源,支持免费商用,为开发者提供强大的本地推理能力。

    gpt-oss

    gpt-oss的主要功能

    • 工具调用:支持调用外部工具(如网页搜索、Python代码解释器)解决复杂问题,增强问题解决能力。
    • 链式思考:逐步分解复杂问题并逐步解决,适合多步骤推理任务。
    • 低资源需求:gpt-oss-20b 能在 16GB 内存设备上运行,适合消费级设备;gpt-oss-120b 能在 80GB GPU 上运行,适合高性能需求。
    • 快速推理:推理速度可达 40-50 tokens/s,适合需要快速响应的场景。
    • 开源权重:提供完整的模型权重和代码,支持本地微调和定制,满足特定任务需求。
    • 推理强度调节:支持低、中、高三种推理强度,能根据需求调整,平衡延迟与性能。

    gpt-oss的技术原理

    • 模型架构:基于 Transformer 架构,用专家混合(MoE)技术减少处理输入所需的活跃参数数量,提高推理效率。基于交替的密集和局部带状稀疏注意力模式,类似于 GPT-3,进一步优化内存和计算效率。用分组多查询注意力机制,分组大小为 8,进一步提升推理效率。用 RoPE 进行位置编码,支持最长 128k 的上下文长度。
    • 预训练与后训练:预训练用高质量的纯文本数据集进行预训练,重点关注 STEM、编程和通用知识领域。后训练用与 o4-mini 类似的训练流程,包括监督式微调和高计算量的强化学习阶段。训练目标是让模型符合 OpenAI 模型规范,具备链式推理和工具调用能力。
    • 量化与优化:用 MXFP4 格式进行量化,模型在训练阶段就适应低精度环境,确保在减少模型体积的同时保持高性能。gpt-oss-20b量化后模型大小约为 12.8GB,能在 16GB 内存设备上运行。gpt-oss-120b量化后可在 80GB 内存中运行。与 NVIDIA、AMD 等硬件厂商合作,确保模型在各类系统上实现性能优化。
    • 安全机制:在预训练阶段过滤与化学、生物、放射性和核(CBRN)相关的有害数据。通过审慎对齐和指令优先级评估,训练模型拒绝不安全提示并抵御注入攻击。在特定领域(如生物学和网络安全)进行对抗性微调,评估并优化模型的安全性。

    gpt-oss的性能表现

    • 基准测试表现
      • 竞赛编程:在 Codeforces 竞赛编程测试中,gpt-oss-120b 获得 2622 分,gpt-oss-20b 获得 2516 分,表现优于部分开源模型,略逊于闭源的 o3 和 o4-mini。
      • 通用问题解决:在 MMLU 和 HLE 测试中,gpt-oss-120b 表现优于 OpenAI 的 o3-mini,并接近 o4-mini 的水平。
      • 工具调用:在 TauBench 智能体评估套件中,gpt-oss-120b 和 gpt-oss-20b 的表现均优于 OpenAI 的 o3-mini,达到或超过了 o4-mini 的水平。
      • 健康问答:在 HealthBench 测试中,gpt-oss-120b 的表现超越 o4-mini, gpt-oss-20b 达到与 o3-mini 相当的水平。

    gpt-oss

    gpt-oss的项目地址

    • 项目官网:https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
    • GitHub仓库:https://github.com/openai/gpt-oss
    • HuggingFace模型库:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4
    • 在线体验Demo:https://gpt-oss.com/

    gpt-oss的应用场景

    • 本地推理与隐私保护:在隐私敏感领域(如医疗、金融),gpt-oss 能在本地设备运行,确保数据安全,同时提供强大推理能力。
    • 编程辅助与代码生成:开发者用 gpt-oss 调用工具生成和验证代码片段,显著提升编程效率,减少调试时间。
    • 智能客服与客户支持:企业部署 gpt-oss 作为智能客服,快速响应客户咨询,提供准确答案,降低人力成本。
    • 教育与学习辅导:学生借助 gpt-oss 辅助学习,解答问题、提供写作建议,提升学习效率和理解能力。
    • 创意内容生成:作家、编剧、游戏开发者等用 gpt-oss 生成创意内容,激发灵感,提升创作效率。
  • Forge Code – AI编程工具,执行代码生成、修改、调试、修复

    Forge Code是什么

    Forge Code 是基于人工智能的编程辅助工具,帮助开发者更高效地完成代码开发任务。通过自然语言交互的方式,能理解用户的指令并执行代码生成、修改、调试、修复等多种操作。Forge Code 支持多种 AI 模型,用户可以根据需求选择不同的模型来满足开发需求。能快速生成代码,对现有代码进行优化和重构,帮助开发者节省时间和精力。Forge Code 支持 Git 操作,通过对话式的方式帮助用户完成复杂的版本控制任务。

    Forge Code

    Forge Code的主要功能

    • 快速生成代码:根据用户的自然语言描述,Forge Code 可以自动生成完整的代码片段或文件。
    • 支持多种语言:支持多种编程语言(如 Python、JavaScript、Java 等),满足不同开发需求。
    • 智能修改代码:用户可以通过自然语言描述需要修改的内容,Forge Code 会自动调整代码满足需求。
    • 优化代码结构:对现有代码进行优化,提升代码的可读性和性能。
    • 错误检测与修复:分析代码中的错误,提供详细的错误上下文和修复建议。为同一个问题提供多种修复方案,用户可以根据实际情况选择。
    • 代码理解与分析:理解代码库的结构、依赖关系和模式,提供代码的详细见解。帮助开发者进行代码审查,发现潜在问题并提供改进建议。
    • 对话式 Git 操作:将 Git 操作变得对话式和智能化,用户可以通过自然语言描述来完成复杂的 Git 操作。
    • 版本控制管理:支持分支管理、提交、合并等操作,简化 Git 使用流程。
    • 多模型支持:用户可以根据需求选择不同的 AI 模型,获得最佳的开发体验。支持自定义模型设置,满足不同开发场景的需求。
    • AI 配对程序员:在团队开发中,Forge Code 可以作为 AI 配对程序员,协助团队成员更高效地完成任务。
    • 代码共享与协作:支持代码共享和团队协作功能,方便团队成员之间的交流和合作。

    Forge Code的官网地址

    • 官网地址:https://forgecode.dev/

    Forge Code的应用场景

    • 学习与教学:为初学者提供代码示例和解释,帮助他们快速掌握编程技能和知识点。
    • 代码审查:自动分析代码,提供审查建议,帮助发现潜在问题,提升代码质量。
    • 项目维护:帮助维护老旧代码,优化结构,修复遗留问题,确保项目长期稳定运行。
    • 自动化测试:生成测试代码,辅助开发测试用例,提高测试覆盖率和效率。
    • 个人开发:为个人开发者提供全方位支持,从代码生成到调试修复,提升个人开发效率。
  • Producer.ai – AI音乐创作平台,自然语言生成音乐作品

    Producer.ai是什么

    Producer.ai 是 AI 音乐创作平台。通过先进的 AI 技术,为用户提供了一个简单易用的音乐创作环境,帮助用户激发创造力并快速生成音乐作品。用户可以通过自然语言与平台的核心功能,Producer 进行交互,生成音乐、歌词,进行混音和替换作品中的部分段落。用户能上传或录制自己的音频,用于进一步的创作。Producer.ai 的界面友好,操作简单,适合所有水平的创作者。平台采用了最新的音乐模型 FUZZ-2.0,能生成高质量的音乐作品。

    Producer.ai

    Producer.ai的主要功能

    • 音乐生成:用户可以通过自然语言指令让 Producer.ai 生成各种风格的音乐,从流行到古典,从电子到爵士,满足不同创作需求。
    • 歌词创作:平台能根据用户提供的主题、情感或风格生成歌词,帮助创作者快速构思和创作歌词内容。
    • 混音功能:用户可以上传自己的音频片段,使用 Producer.ai 的混音工具进行调整和优化,提升作品的音质和效果。
    • 音频替换:支持用户替换作品中的特定部分,比如替换乐器声部或人声,为音乐创作提供更多灵活性。
    • 音乐可视化:Producer.ai 能为生成的音乐创建即时的可视化效果,增强音乐的感官体验。
    • 上传与录制:用户可以上传自己的音频文件或直接在平台上录制音频,用于后续的创作和处理。

    Producer.ai的官网地址

    • 官网地址:https://www.producer.ai/

    如何使用Producer.ai

    • 注册与登录:访问 Producer.ai 官网,申请邀请码并注册账号,登录后进入创作界面。
    • 选择创作模式:在界面中选择歌曲、EP 或特定风格的创作模式,设定音乐的基本参数。
    • 输入创作指令:通过自然语言输入创作指令,比如指定音乐风格、歌词主题、情感基调等,Producer.ai 会根据指令生成相应的音乐。
    • 生成与调整:点击生成按钮后,平台会生成音乐作品。如果生成的音乐不符合期望,可以调整指令或参数,重新生成。
    • 上传与编辑:用户可以上传自己的音频文件或录制音频,用于混音、替换部分段落或进一步编辑。
    • 下载与分享:对生成的音乐满意后,可以直接从平台下载音轨,也可以将作品分享到社交媒体或用于其他项目。

    Producer.ai的应用场景

    • 音乐创作:音乐人可以用 Producer.ai 生成旋律、编曲和歌词,快速激发灵感,完成音乐作品的创作。
    • 音乐制作:音乐制作人可以使用混音和音频处理功能,优化音乐作品的音质和效果。
    • 内容创作:视频创作者、自媒体人可以为视频、播客等生成背景音乐,提升内容的吸引力。
    • 教育领域:音乐教育者可以辅助教学,帮助学生理解音乐创作的流程和技巧。
    • 广告与营销:广告公司和营销团队可以快速生成符合品牌调性的音乐,用于广告、宣传片等。
    • 游戏开发:游戏开发者可以用 Producer.ai 生成游戏音乐,根据游戏场景和氛围调整音乐风格。
  • Browserfly – AI浏览器插件,支持多任务并行处理

    Browserfly是什么

    Browserfly是AI浏览器插件,通过自然语言指令帮助用户更高效地完成各种网页操作。用户只需输入简单的指令,如“搜索某项内容”“总结文章要点”或“填写表单”,Browserfly能自动执行任务,无需用户手动操作。支持多任务并行处理,用户可以同时在不同窗口运行多个任务,例如一边搜索信息,一边整理标签页。Browserfly支持语音输入,用户可以通过语音指令快速完成操作。Browserfly支持Chrome和Edge浏览器,提供免费基础版本。

    Browserfly

    Browserfly的主要功能

    • 任务自动化:通过自然语言指令,自动完成网页搜索、内容总结、表单填写等任务,无需手动操作。
    • 元素交互:用户可选择网页上的任意元素,AI会根据指令进行分析、修改或操作。
    • 标签页管理:自动整理浏览器标签页,归类或关闭无用标签,帮助用户保持浏览器界面整洁。
    • 信息提取:从网页中提取关键信息,如文章要点、价格或联系方式,便于快速获取重要数据。
    • 搜索优化:智能使用搜索引擎,快速定位用户所需内容,提高搜索效率。
    • 多任务并行:支持同时运行多个任务,用户可在不同任务窗口输入指令,AI会并行处理。
    • 语音输入:支持语音指令,用户可通过语音快速下达任务,无需手动输入。
    • 自定义脚本:高级用户可编写简单JavaScript代码,结合AI执行复杂任务,满足个性化需求。

    如何使用Browserfly

    • 安装插件:访问 Browserfly 的官网:https://browserfly.app/,点击“Add to Chrome”或“Add to Edge”按钮,跳转到扩展商店完成安装。
    • 激活插件:安装完成后,点击浏览器右上角的 Browserfly 图标,登录或注册账号(支持 Google 或邮箱注册),并授权插件访问网页内容。
    • 输入指令:点击 Browserfly 图标弹出操作面板,在输入框中输入自然语言指令,例如“搜索某主题”或“总结这篇文章”。
    • 执行任务:点击“运行”按钮,AI 会根据指令自动操作网页,完成任务。
    • 管理任务:可在操作面板中创建多个任务窗口,实现多任务并行处理。
    • 使用语音:点击面板中的麦克风图标,通过语音输入指令,AI 会自动识别并执行。
    • 高级功能:在面板的“脚本”选项中,高级用户可编写自定义 JavaScript 脚本,实现更复杂的功能。
    • 查看结果:任务完成后,结果会直接显示在网页上或操作面板中,用户可查看并使用。

    Browserfly的应用场景

    • 网页内容管理:快速整理浏览器标签页,关闭无用标签,归类重要页面,保持浏览器界面整洁。
    • 信息检索:通过自然语言指令快速搜索网页内容,提取关键信息,如文章要点、价格或联系方式。
    • 表单填写:自动填写复杂的在线表单,节省手动输入时间,尤其适用于重复性任务。
    • 内容创作:帮助用户快速总结文章、生成内容大纲或提取关键信息,辅助写作和研究。
    • 脚本定制:高级用户可通过编写自定义脚本实现复杂任务自动化,满足个性化需求。
    • 教育与学习:快速获取学习资料、总结课程要点或整理在线教育资源,辅助学习。
  • X-Design – 美图公司推出的AI图片编辑平台

    X-Design是什么

    X-Design 是 AI 驱动的图片编辑平台,美图设计室海外版。专为电商和营销人员设计。通过先进的 AI 技术,帮助用户快速创建温暖、真实的视觉内容,激发买家对理想生活方式的向往。平台的核心功能包括背景移除、物体移除和产品增强,能快速将灵感转化为高质量的图片,提升营销效果。适用于电商企业,帮助营销人员和社交媒体管理者快速生成符合品牌形象的视觉内容,提升品牌形象和销售转化率。

    X-Design

    X-Design的主要功能

    • AI 背景移除与生成:可自动移除图像背景,替换为自定义背景,如纯色、生活场景等,用户能从 500 多个预设背景中选择,或直接描述场景,由 AI 生成。
    • AI 时尚模特生成:将普通服装照片转化为专业模特展示效果,可调整体型和面部表情,减少传统拍摄成本。
    • 图像增强与放大:提升图像分辨率(宣传支持至 4K),改善细节,适用于低质量素材优化。
    • 对象移除:一键删除图像中的不需要元素,如水印或杂物,清除后可无缝重新创建删除区域。
    • AI 图像扩展:扩展图像边界,调整画幅比例,适合社交媒体或广告需求。
    • 图片修饰:提供图片美化功能,调整光线、色彩等,让产品看起来更精致。
    • 尺寸调整:自动调整图片尺寸,满足各种电商平台和社交媒体的需求。
    • 视频编辑:提供简单的 AI 视频剪辑功能,生成短促销视频。
    • 眼镜移除:从人物照片中自然移除眼镜,适用于特定场景。
    • 模板设计转换:提供一键式电子商务模板,支持即时上传与智能裁剪。

    X-Design的官网地址

    • 官网地址:https://www.x-design.com/

    X-Design的应用场景

    • 电商产品展示:电商卖家可用 X-Design 的背景移除、AI 时尚模特生成等功能,优化产品图片,提升在线商店的视觉吸引力。
    • 社交媒体营销:社交媒体管理者可快速编辑产品图片,生成符合 Instagram 或 TikTok 风格的视觉内容。X-Design 的 AI 图像增强和扩展功能,能帮助用户为社交媒体创建高质量的帖子和横幅,提升品牌形象和用户参与度。
    • 数字营销广告:数字营销机构可用 X-Design 创建高质量广告素材,批量处理功能支持为客户快速生成多套图片,视频编辑工具可制作短促销视频,提升广告转化率。
    • 教育与艺术创作:教育机构可用 X-Design 教授数字营销技巧,独立艺术家可利用 AI 工具生成数字艺术品。
    • 个人和小型企业品牌建设:个人创作者和小型企业可以用 X-Design 的多样化功能和丰富资源,快速制作专业风格的设计作品,提升设计技能。
  • Edge Copilot – 微软Edge推出的AI浏览器

    Edge Copilot是什么

    Edge Copilot 是微软 Edge 浏览器中的 AI 辅助功能,为用户提供更智能、便捷的浏览体验。能理解用户的自然语言指令,快速回答与当前网页内容相关的问题,能总结长篇文章、视频或 PDF 文档的核心要点。Edge Copilot 支持多标签页协作,可以查看用户打开的所有标签页,帮助进行信息比较和决策。具备语音交互能力,用户可以通过语音指令让 Copilot 完成查找信息、打开网页等操作。

    Edge Copilot

    Edge Copilot的主要功能

    • 多标签页上下文理解:Copilot 能查看用户所有打开的标签页,全面了解用户正在探索的内容。例如,在比较多个度假租赁选项时,用户可以直接通过与 Copilot 对话获取「离海滩最近且带厨房」的房源。适用于研究、购物、旅行规划等多源信息整合场景。
    • AI 驱动的统一输入框:在新标签页中,用户会看到一个简洁的输入框,支持输入网址、搜索问题或直接与 AI 进行对话。用户可以输入类似「比较这两款显示器哪个更适合设计」的问题,Copilot 会在当前打开的多个标签中整合信息并给出建议。
    • 语音交互:Copilot 支持自然语音导航,用户可以直接对它说话,让它帮助完成任务,如在页面上查找信息或打开多个标签页进行比较。
    • 任务自动化:微软正在探索让 Copilot 执行一些常见操作,比如预订航班、填写表单,一键下单(需要用户最终确认)。
    • 页面内嵌协作:用户可以在不离开当前网页的情况下调用 Copilot,会以动态面板的形式出现,保持原始页面可见。
    • 内容摘要与改写:Copilot 能总结网页和文档的内容,帮助用户快速浏览长篇文章。提供文本改写功能,帮助用户调整文本的语气、风格或内容。
    • 隐私与安全:Copilot 模式严格遵循微软的隐私标准,用户的数据始终由本人掌控。仅在用户明确授权下,Copilot 才会访问标签页、历史记录等信息。用户可以随时在 Edge 设置中开启或关闭 Copilot 模式。

    Edge Copilot的官网地址

    • 官网地址:https://www.microsoft.com/zh-cn/edge/ai-powered/copilot-mode

    如何使用Edge Copilot

    • 使用步骤
      • 登录 Microsoft 帐户:访问Edge的官网,使用个人 Microsoft 帐户登录到 Edge 浏览器。如果尚未创建帐户,可以先进行注册。
      • 导航到目标页面:在 Edge 中打开你想要提问的网站、视频或 PDF 文档。
      • 打开 Copilot:点击浏览器右上角的 Copilot 图标,打开边缘边栏中的 Copilot 功能。
      • 授权使用浏览器信息:首次使用时,Copilot 会请求授权以使用浏览器信息。授权后,Copilot 将根据你的设置使用相关数据。
    • 提问方式
      • 键入提示:在 Copilot 边栏中输入问题或指令,Copilot 会根据页面内容回答。
      • 语音提问:点击“语音”按钮,使用 Copilot Vision 功能,通过语音与 Copilot 进行自然对话。
      • 请求摘要:在 Copilot 边栏中选择“创建摘要”或“展开本主题”,让 Copilot 分析并总结页面内容。
    • 设置偏好
      • 调整权限:点击“更多菜单”,进入 Edge 设置,更新 Copilot 的使用权限,例如是否允许 Copilot 使用当前网页内容、浏览器历史记录等。
      • 隐私保护:用户可以选择限制 Copilot 访问某些信息,确保隐私安全。

    Edge Copilot的应用场景

    • 旅行规划:用户可以同时打开多个旅行预订网站,让 Copilot 比较不同酒店的价格、位置和设施,快速找到最合适的住宿选项。
    • 在线购物:在多个电商网站打开产品页面后,用户可以询问 Copilot 哪个产品的性价比更高,或者让 Copilot 帮助比较不同产品的特点和用户评价。
    • 学术研究:用户可以打开多篇学术论文,让 Copilot 帮助总结它们的共性或差异,提取关键信息,节省研究时间。
    • 日常任务管理:用户可以授权 Copilot 访问日程和历史记录,让其自动安排餐厅预订、管理行程,提醒用户购买必需品。
    • 内容创作:用户在撰写文章或制作视频时,可以询问 Copilot 提供相关主题的灵感、推荐素材或帮助校对内容,提升创作效率。
  • AudioGen-Omni – 快手推出的多模态音频生成框架

    AudioGen-Omni是什么

    AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异性位置注入(PAAPI)技术,实现精准的视听对齐和跨模态同步。框架支持多语言输入,推理速度快,1.91秒能生成8秒音频,且在多种音频生成任务上表现出色,适用视频配音、语音合成和歌曲创作等场景。

    AudioGen-Omni

    AudioGen-Omni的主要功能

    • 多模态音频生成:根据视频、文本或两者的组合生成高质量的音频、语音和歌曲。
    • 精准视听对齐:基于相位对齐各向异性位置注入(PAAPI)技术,实现音频与视频的唇音同步和节奏对齐。
    • 多语言支持:支持多种语言输入,生成对应语言的语音和歌曲。
    • 高效推理:推理速度快,1.91秒能生成8秒音频,显著优于同类模型。
    • 灵活的输入条件:能处理缺失模态的情况,即使只有视频或只有文本输入,也能生成稳定的音频输出。
    • 高质量音频生成:生成的音频在语义和声学表现上与输入高度匹配,支持高保真音频生成。

    AudioGen-Omni的技术原理

    • 多模态扩散Transformer(MMDiT):整合视频、音频和文本模态到共享语义空间,支持多种音频生成任务。基于联合训练范式,用大规模视频-文本-音频数据,增强跨模态关联。
    • 歌词-文本统一编码器:将文字(grapheme)和音素(phoneme)编码为帧级稠密表示,适配语音和歌唱任务。用多语言统一分词和ConvNeXt细化,生成帧对齐表示。
    • 相位对齐各向异性位置注入(PAAPI):选择性地将旋转位置编码(RoPE)应用于时序模态(如视频、音频),提升跨模态时序对齐精度。
    • 动态条件机制:基于解冻所有模态并掩码缺失输入,避免文本冻结范式的语义限制,支持灵活的多模态条件生成。
    • 联合注意力机制:基于AdaLN(自适应层归一化)增强跨模态特征融合,通过联合注意力机制促进跨模态信息交换。

    AudioGen-Omni的项目地址

    • 项目官网:https://ciyou2.github.io/AudioGen-Omni/
    • arXiv技术论文:https://arxiv.org/pdf/2508.00733

    AudioGen-Omni的应用场景

    • 视频配音:为视频自动生成精准匹配的语音、歌曲或音效,提升视频创作效率和内容丰富度。
    • 语音合成:将文本快速转换为自然流畅的语音,适用于有声读物、语音助手、智能客服等领域。
    • 歌曲创作:根据视频内容或歌词生成匹配的歌曲,辅助音乐创作,丰富视频背景音乐。
    • 音效生成:根据文本描述或视频内容生成自然环境音效、动作音效等,增强内容的沉浸感。
  • 爱宠信箱 – AI宠物情绪陪伴应用,与去世宠物双向互动

    爱宠信箱是什么

    爱宠信箱是AI宠物情绪陪伴产品。基于AI技术,让宠物主人能与去世的宠物进行虚拟互动。主人能给宠物写信倾诉心事,宠物用温暖的语气回复,每天固定时间发送两封信,模拟日常互动。双向沟通方式帮助主人缓解失去宠物的痛苦,提供情感慰藉。爱宠信箱是一个树洞,更是主人与宠物情感连接的桥梁,让爱与温暖得以延续。

    pet-mailbox

    爱宠信箱的主要功能

    • 虚拟互动:主人给去世的宠物写信,宠物通过AI技术用温暖的语气回复,形成双向互动。
    • 情感慰藉:模拟宠物的关心和陪伴,帮助主人缓解失去宠物的痛苦,提供情感支持。
    • 固定信件推送:每天早上和晚上各推送一封宠物的回信,模拟主人与宠物的日常互动时间。
    • 个性化设置:主人能选择宠物的种类、为其取名,甚至输入宠物的生前信息,让AI更好地模拟宠物的性格和行为。
    • 情绪记录:主人能随时记录自己的思念和心情,通过与宠物的“对话”释放情感压力。
    • 仪式感营造:将主人与宠物的互动从现实延续到虚拟空间,增强情感的仪式感和连贯性。

    如何使用爱宠信箱

    • 下载与安装:微信搜索“爱宠信箱”小程序,点击进入。
    • 创建宠物档案:进入小程序后,选择宠物种类,输入宠物名字完成宠物档案创建。
    • 开始写信:点击“写信”按钮,倾诉对宠物的思念或心情,然后点击“发送”。
    • 接收回信:每天早上和晚上,系统推送宠物的回信,可在“收件箱”查看。
    • 互动与记录:持续写信与宠物互动,随时查看历史信件回顾往昔。

    爱宠信箱的应用场景

    • 情感慰藉:帮助宠物主人缓解因宠物离世带来的悲伤,用虚拟互动获得情感支持。
    • 日常陪伴:模拟宠物的陪伴,让主人在日常生活中感受到宠物的存在。
    • 纪念宠物:用写信和回信的方式,记录与宠物的回忆,留下情感纪念。
    • 心理疗愈:作为心理疗愈工具,帮助主人处理失去宠物的情绪创伤。
    • 情感倾诉:为主人提供倾诉的出口,表达对宠物的思念和日常生活中的感受。
  • Qwen-Image – 阿里通义千问开源的文生图模型

    Qwen-Image是什么

    Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,中英文都能实现高保真输出。Qwen-Image 在通用图像生成和编辑任务中展现出强大的能力,支持多种艺术风格和高级编辑操作。目前用户可通过Qwen Chat,图像生成功能体验模型性能。

    Qwen-Image

    Qwen-Image的主要功能

    • 复杂文本渲染:支持多行和段落文本生成,能清晰呈现细小文字,擅长中文和英文渲染。
    • 精确图像编辑:支持风格迁移、对象增删改、细节增强、文字编辑和人物姿态调整,并保持图像自然和真实感。
    • 通用图像生成:支持多种艺术风格,能根据用户描述生成创意图像。

    Qwen-Image的技术原理

    • 模型架构:基于先进的多模态大语言模型(MLLM)作为文本特征提取模块,能精准理解文本语义并转化为图像生成所需的特征。变分自编码器(VAE)负责将输入图像编码为紧凑的潜在表示,在推理阶段进行解码,实现图像的高效处理和生成。模型核心部分是多模态扩散变换器(MMDiT),基于逐步去除噪声生成图像,结合文本特征进行引导,确保生成的图像与文本描述高度一致。
    • 数据处理:通过大规模的数据收集和标注,构建涵盖自然、设计、人物和合成数据的丰富数据集。基于多阶段的数据过滤流程,逐步去除低质量或不符合要求的数据,确保数据的高质量和多样性。
    • 训练策略:在训练过程中,用流匹配(Flow Matching)作为预训练目标,用普通微分方程(ODE)实现稳定的训练动态,同时保持与最大似然目标的等价性。模型结合文本到图像(T2I)、图像到图像(I2I)和文本图像到图像(TI2I)的多任务训练范式,基于共享潜在空间实现多任务学习。

    Qwen-Image的性能表现

    • 总体性能表现
      • 多基准测试领先:Qwen-Image在多个公开基准测试中获得了12项最佳表现(SOTA),在图像生成和编辑领域具有很强的竞争力。
      • 超越头部模型:在通用图像生成测试(如GenEval、DPG和OneIG-Bench)和图像编辑测试(如GEdit、ImgEdit和GSO)中,Qwen-Image超过Flux.1、BAGEL等开源模型,且超过字节跳动的SeedDream 3.0和OpenAI的GPT Image 1(High)等闭源模型。Qwen-Image在生成质量和编辑能力上都达到较高的水平。
    • 文本渲染能力表现
      • 文本渲染基准测试:在LongText-Bench、ChineseWord和TextCraft等基准测试中,Qwen-Image表现尤为出色,特别是在中文文本渲染方面,大幅领先现有的最先进模型,如SeedDream 3.0和GPT Image 1(High)。
      • 中文文本渲染优势:Qwen-Image在处理中文文本渲染时具有独特的优势,在语言理解、字体生成、排版等方面有更优化的技术,能更好地适应中文的复杂性和多样性。

    Qwen-Image

    如何使用Qwen-Image

    • 访问 QwenChat:访问 Qwen Chat 官方网站。
    • 选择图像生成功能:在 QwenChat 的界面中,找到并选择“图像生成”功能。
    • 输入文本提示:在文本输入框中输入想要生成图像的描述。
    • 生成图像:点击“生成”按钮,Qwen-Image 根据文本提示生成图像。
    • 查看和下载生成的图像:生成的图像显示在界面上,用户能查看生成的效果,选择下载保存到本地。

    Qwen-Image

    Qwen-Image的项目地址

    • GitHub仓库:https://github.com/QwenLM/Qwen-Image
    • HuggingFace模型库:https://huggingface.co/Qwen/Qwen-Image
    • 技术论文:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
    • 在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen-Image

    Qwen-Image的应用场景

    • 内容创作:根据文本描述快速生成高质量的图像、海报和PPT页面,极大地提升创意设计和演示文稿的制作效率与视觉效果。
    • 艺术与设计:模型能轻松实现风格迁移和创意绘画,为艺术家和设计师提供丰富的灵感来源,加速艺术作品的创作过程。
    • 教育与学习:通过生成教学材料和语言学习相关的图像,帮助教师更生动地传授知识,辅助学习者更好地理解和记忆。
    • 商业与营销:在商业领域快速生成吸引人的广告图像和品牌推广素材,有效提升广告的吸引力和品牌的市场影响力。
    • 娱乐与游戏:用在生成游戏中的角色、场景和道具图像,及影视制作中的特效和概念图,加速娱乐内容的创作周期。