Blog

  • IndexTTS2 – B站开源的最新文本转语音模型

    IndexTTS2是什么

    IndexTTS2是B站语音团队开发的新型文本转语音(TTS)模型,已经正式开源。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS2实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考音频、情感描述文本或情感向量来控制情感。

    IndexTTS2

    IndexTTS2的主要功能

    • 零样本语音克隆:仅需一个参考音频,可精准模仿该音频的声线、语调和节奏,支持多语言,实现高度个性化的声音合成。
    • 情绪与时长控制:支持零样本情绪克隆,能根据参考音频中的情绪进行模拟,可通过文本描述来控制语音情绪。具备全球首创的精准时长控制功能,可设定生成语音的长度,满足电影配音、时间轴同步等场景的需求。
    • 高保真音质:音频采样率高达48kHz,支持无损音频输出,结合优化后的声码器,生成自然、流畅且富有情感的语音,减少机械感,提升音质表现。
    • 多模态输入支持:支持文本、音频等多种输入方式,用户可以通过文本描述、参考音频或情感向量等方式来控制生成语音的风格和情绪,提供更灵活的语音合成体验。
    • 本地化部署与开源:支持完全本地化部署,计划开放模型权重,为开发者提供强大的工具,赋能更多应用场景,推动TTS技术的广泛应用。

    IndexTTS2的技术原理

    • 模块化架构:由文本到语义(T2S)、语义到旋律(S2M)和声码器三个核心模块组成,各模块协同工作,实现从文本到高质量语音的转换。
    • 情感与音色解耦:通过梯度反转层等技术,将情感和音色特征从提示中解耦,使用户能够独立控制情感和音色,实现更灵活的语音合成。
    • 多阶段训练策略:采用多阶段训练策略,克服高质量情感数据缺乏的问题,增强模型的情感表达能力,提升语音合成的自然度和情感丰富度。
    • 高采样率与优化声码器:音频采样率高达48kHz,结合优化后的声码器,如BigVGAN2,生成高保真、自然流畅的语音,减少机械感,提升音质表现。
    • 零样本克隆技术:通过先进的零样本克隆技术,仅需一个参考音频即可精准模仿声线、语调和节奏,支持多语言,实现高度个性化的声音合成。

    IndexTTS2的项目地址

    • 项目官网:https://index-tts.github.io/index-tts2.github.io/
    • Github仓库:https://github.com/index-tts/index-tts
    • HuggingFace模型库:https://huggingface.co/IndexTeam/IndexTTS-2
    • arXiv技术论文:https://arxiv.org/pdf/2506.21619

    IndexTTS2与IndexTTS1.5的升级点

    • 精确时长控制功能:IndexTTS2是首个支持精确时长控制的自回归TTS模型,能精确到毫秒级别地指定生成音频的长度。IndexTTS1.5不具备这一功能。
    • 情感音色分离建模:IndexTTS2实现了情感和音色的分离建模,用户可以独立控制情感和音色。在IndexTTS1.5中,情感和音色的控制相对没有这么精细。
    • 多模态情感输入支持:IndexTTS2支持通过音频情感参考、文本情感描述或情感向量等多种方式来控制生成语音的情感。IndexTTS1.5虽然也支持情感控制,但方式相对单一。
    • 更强的情感表达能力:IndexTTS2在情感表达方面进行了优化,能更好地模拟各种情感状态。IndexTTS1.5在情感表达上也有所提升,但相比2代仍有差距。
    • 更好的语音稳定性:IndexTTS2通过GPT latent representations和soft instruction mechanisms等技术,增强了语音生成的稳定性。IndexTTS1.5在稳定性方面也有所提升,但2代在此基础上进一步优化。

    IndexTTS2的应用场景

    • 影视配音:可为影视作品提供高质量的配音,精准控制语音时长和情绪,满足音画同步的需求。
    • 虚拟角色:为虚拟角色赋予自然、富有情感的语音,提升虚拟角色的交互体验和用户沉浸感。
    • 有声读物:生成自然流畅的语音,为有声读物制作提供高质量的语音合成,提升听众的听觉体验。
    • 智能助手:在智能助手、语音播报等场景中,提供自然、流畅的语音交互,增强用户体验。
    • 广告制作:为广告制作提供个性化的语音合成,支持多种语言和情感风格,提升广告的吸引力。
    • 教育领域:在教育软件和在线课程中,提供生动的语音讲解,帮助学生更好地理解和学习。
  • Strix – 开源AI安全测试工具,全面漏洞检测

    Strix是什么

    Strix 是开源的 AI 驱动安全测试工具,能帮助开发人员和安全团队快速发现、验证应用程序中的漏洞。工具通过模拟真实黑客攻击,动态运行代码,减少误报。Strix 支持本地代码库、GitHub 仓库和 Web 应用的安全评估,具备自主安全工具、全面漏洞检测和分布式代理网络等功能。Strix提供企业平台,支持大规模扫描和 CI/CD 集成。

    Strix

    Strix的主要功能

    • 全面漏洞检测:涵盖多种漏洞类型,包括访问控制、注入攻击、服务器端漏洞、客户端漏洞和业务逻辑漏洞等。
    • 自主安全工具:内置 HTTP 代理、浏览器自动化、终端环境、Python 运行时和代码分析等工具,支持多种测试场景。
    • 动态测试与验证:通过动态运行代码和实际利用漏洞,验证漏洞的可利用性,减少误报。
    • 分布式代理网络:支持分布式测试,可扩展性强,能动态协调多个测试节点,提高测试效率。
    • 容器隔离与安全:所有测试在沙盒化的 Docker 容器中进行,确保测试的隔离性和数据安全。
    • 自动修复与报告:自动生成修复建议和详细报告,帮助开发人员快速理解和修复漏洞。
    • 企业级平台支持:提供执行仪表板、自定义微调模型、CI/CD 集成、大规模扫描和企业级支持等功能,满足企业需求。

    Strix的技术原理

    • AI 驱动的漏洞发现:Strix 用先进的人工智能(AI)和机器学习(ML)技术来分析代码和运行时行为。AI 模型能识别潜在的安全漏洞,通过静态代码分析,识别潜在的安全问题,如注入攻击、不安全的代码实现等。在动态运行环境中,实时监控应用程序的行为,发现运行时漏洞,如服务器端请求伪造(SSRF)、跨站脚本(XSS)等。
    • 模拟真实攻击:Strix 模拟真实黑客攻击,通过动态测试验证漏洞的存在,拦截和修改 HTTP 请求和响应,模拟各种攻击场景。用自动化工具(如 Selenium)模拟用户交互,测试 Web 应用的安全性。在隔离的环境中运行代码,模拟真实攻击环境,确保测试的安全性和准确性。
    • 动态测试与验证:Strix通过动态测试验证这些漏洞是否真实存在。尝试利用发现的漏洞,验证可利用性。通过动态验证,减少误报,提高测试结果的准确性。
    • 分布式代理网络:Strix 支持分布式测试,通过代理网络协调多个测试节点,能同时处理多个测试任务,提高测试效率。根据测试需求动态分配资源,优化测试流程。

    Strix的项目地址

    • 项目官网:https://usestrix.com/
    • GitHub仓库:https://github.com/usestrix/strix

    Strix的应用场景

    • 开发阶段的安全测试:开发人员用 Strix 对本地代码库进行安全评估,通过静态代码分析和动态测试发现潜在漏洞,及时修复问题,减少安全风险。
    • 持续集成与持续部署(CI/CD):无缝集成到 CI/CD 流程中,自动运行安全测试,确保每次代码提交都符合安全标准。
    • Web 应用安全评估:通过 HTTP 代理和浏览器自动化工具,对 Web 应用进行安全测试,检测常见漏洞、验证可利用性,确保 Web 应用的安全性。
    • 开源代码和第三方库的安全审查:开发人员分析开源代码和第三方库,检测已知安全漏洞,评估引入代码的安全性,避免因第三方代码引入的安全问题。
    • 企业级安全测试:企业处理复杂测试需求,通过执行仪表板实时监控测试进度和结果,生成详细报告满足合规性和安全审计要求。
  • ST-Raptor – AI表格问答工具,支持多种半结构化表格

    ST-Raptor是什么

    ST-Raptor 是用在半结构化表格问答的工具,仅需一个 Excel 格式的表格和一个自然语言问题作为输入,能产生精确的答案。工具能处理多种半结构化表格布局,结合视觉语言模型和树构建算法,能灵活集成不同的大型语言模型。ST-Raptor 有两阶段验证机制,确保结果可靠。ST-Raptor 提供包含 102 个表格和 764 个问题的 SSTQA 基准测试,用在评估其性能。

    ST-Raptor

    ST-Raptor的主要功能

    • 精确问答:仅需输入Excel格式的表格和自然语言问题,能生成精确答案。
    • 多样化表格支持:支持多种半结构化表格布局,如个人信息表、学术表格、财务表格等。
    • 多格式输入:支持从Excel、HTML、Markdown、CSV等多种格式输入表格。
    • 无需微调:无需对模型进行额外的微调即可使用。

    ST-Raptor的技术原理

    • 视觉语言模型(VLM):结合视觉语言模型,能理解和处理表格中的视觉信息。
    • 树构建算法(HO-Tree):通过树构建算法对表格结构进行分析和理解,提高对复杂表格的处理能力。
    • 灵活集成大型语言模型(LLM):支持灵活集成不同的大型语言模型,如Deepseek-V3GPT-4o等,提升问答性能。
    • 两阶段验证机制:通过两阶段验证机制,确保生成的答案准确可靠,避免错误答案的产生。

    ST-Raptor的项目地址

    • GitHub仓库:https://github.com/weAIDB/ST-Raptor

    ST-Raptor的应用场景

    • 企业财务管理:财务人员输入预算表,能快速获取答案,助力财务成本控制。
    • 学术研究数据管理:科研人员输入实验数据表,能查询特定结果,加速研究进程。
    • 人力资源管理:HR输入绩效表,能查询员工绩效,为管理决策提供支持。
    • 金融风险评估:分析师输入风险数据表,能识别高风险客户,降低信贷风险。
    • 物流供应链管理:管理人员输入物流订单表,能查询库存和运输情况,优化供应链。
  • Stand-In – 腾讯微信推出的视频生成框架

    Stand-In是什么

    Stand-In 是腾讯微信视觉团队推出的轻量级的视频生成框架,专注于生成身份保护视频。框架通过训练1%的基础模型参数,能生成高保真度、身份一致的视频,具有即插即用的特点,支持轻松集成到现有的文本到视频(T2V)模型中。Stand-In 支持多种应用场景,包括身份保留的文本到视频生成、非人类主体视频生成、风格化视频生成、视频换脸和姿势引导视频生成等,具有高效、灵活和可扩展性强的优势。

    Stand-In

    Stand-In的主要功能

    • 身份保留的文本到视频生成:根据文本描述和参考图像,生成与参考图像身份一致的视频,确保人物特征在视频中保持高度一致。
    • 非人类主体保留视频生成:框架能生成卡通角色、物体等非人类主体的视频,且保持主体特征的连贯性。
    • 身份保留风格化视频生成:在保持人物身份特征的同时,对生成的视频应用特定的艺术风格,如油画或动漫风格,实现风格化效果。
    • 视频换脸:将视频中的人物面部替换为参考图像中的面部,实现高保真度的面部替换,保持视频的自然度和连贯性。
    • 姿势引导视频生成:根据输入的姿势序列,生成人物在相应姿势下的视频,实现姿势的精确控制和生成。

    Stand-In的技术原理

    • 条件图像分支:在预训练的视频生成模型中引入一个条件图像分支。用预训练的 VAE(变分自编码器)将参考图像编码到与视频相同的潜在空间中,提取丰富的面部特征。
    • 受限自注意力机制:通过受限自注意力机制实现身份控制,支持视频特征有效地引用参考图像中的身份信息,同时保持参考图像的独立性。用条件位置映射(Conditional Position Mapping)区分图像和视频特征,确保信息交换的准确性和高效性。
    • 低秩适配(LoRA):在条件图像分支中使用低秩适配(LoRA)来增强模型对身份信息的利用能力,同时保持模型的轻量级设计。LoRA 仅对条件图像的 QKV 投影进行微调,避免引入过多的训练参数。
    • KV 缓存:参考图像的时间步固定为零, Key 和 Value 矩阵在扩散去噪过程中保持不变。在推理过程中缓存这些矩阵加速计算。
    • 轻量级设计:Stand-In 训练约1%的额外参数,显著减少训练成本和计算资源的消耗,使 Stand-In 能轻松集成到现有的文本到视频(T2V)模型中,具有高度的可扩展性和兼容性。

    Stand-In的项目地址

    • 项目官网:https://www.stand-in.tech/
    • GitHub仓库:https://github.com/WeChatCV/Stand-In
    • HuggingFace模型库:https://huggingface.co/BowenXue/Stand-In
    • arXiv技术论文:https://arxiv.org/pdf/2508.07901

    Stand-In的应用场景

    • 虚拟角色生成:为电影、电视剧和动画创建虚拟角色,确保角色在不同场景中的身份一致性。
    • 特效合成:在特效制作中,快速生成与真人演员身份一致的虚拟角色,减少后期合成的复杂性。
    • 个性化广告:根据用户提供的参考图像生成个性化的广告视频,提高广告的吸引力和用户参与度。
    • 虚拟代言人:创建虚拟代言人,用在品牌推广和产品宣传,确保品牌形象的一致性和连贯性。
    • 角色定制:玩家根据自己的形象生成游戏中的角色,增强游戏的沉浸感和个性化体验。
  • Song.do – AI音乐创作平台,一键生成完整歌曲

    Song.do是什么

    Song.do 是强大的 AI 音乐创作平台,通过简单易用的工具,帮助用户将文本转化为完整的歌曲。用户输入歌词、主题或情绪描述,选择音乐风格, AI 能快速生成旋律、伴奏和人声。平台提供多种功能,包括 AI 歌曲生成器、AI 歌词生成器、歌词转歌曲和 AI 歌手唱歌等,满足不同创作需求。Song.do 适合音乐新手,能为专业创作者提供灵感,让音乐创作变得轻松有趣,无需任何音乐基础,将创意转化为动听的旋律。

    Song.do

    Song.do的主要功能

    • AI 歌曲生成器(AI Song Generator):用户输入文本描述(如歌词、主题或情绪等),平台快速生成完整的歌曲,包括旋律、伴奏和人声。
    • AI 歌词生成器(AI Lyrics Generator):输入主题、关键词或想法,快速生成原创歌词。支持多种音乐风格,帮助用户轻松创作歌词。
    • 歌词转歌曲(Lyrics to Song):将用户提供的歌词转化为包含人声、旋律和伴奏的完整歌曲。
    • AI 歌手唱歌(AI Singer Singing):将文本(如歌词)转化为 AI 生成的人声演唱。生成的人声能以惊人的准确性模仿人类的演唱,适合需要快速将歌词转化为人声演唱的用户。
    • 多种音乐风格选择:支持流行、摇滚、电子、爵士等多种音乐风格,满足不同用户的创作需求。
    • 个性化定制:用户能调整歌曲的速度、调性等参数,实现个性化创作。

    Song.do的官网地址

    • 官网地址:https://song.do/

    Song.do的应用场景

    • 初学者和爱好者:对于没有音乐基础的初学者或音乐爱好者,平台提供简单易用的平台,让用户快速将创意转化为完整的歌曲。
    • 专业创作者:对于专业音乐创作者,Song.do 作为灵感来源,能快速生成新的旋律和歌词,突破创作瓶颈。
    • 为亲人和朋友创作:用户能为家人、朋友或爱人创作个性化歌曲,表达情感。
    • 情感日记:将个人的情感和经历转化为歌曲,作为独特的表达方式,记录生活中的重要时刻。
    • 视频配乐:为 YouTube、TikTok、Instagram 等平台的视频创作配乐。用户根据视频的主题和风格,快速生成合适的背景音乐。
  • HuMo – 清华联合字节推出的多模态视频生成框架

    HuMo是什么

    HuMo是清华大学和字节跳动智能创作实验室共同提出的多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频,为用户提供了更高的定制化和控制能力。HuMo的模型在Hugging Face上开源,提供了详细的安装指南和模型准备步骤,支持480P和720P分辨率的视频生成,720P的生成质量更高。HuMo提供了配置文件来定制生成行为和输出,包括生成长度、视频分辨率以及文本、图像和音频输入的平衡。

    HuMo

    HuMo的主要功能

    • 文本-图像驱动视频生成:结合文本提示和参考图像,定制角色的外貌、服装、妆容、道具和场景,生成个性化视频。
    • 文本-音频驱动视频生成:仅用文本和音频输入生成与音频同步的视频,无需图像参考,提供更大创作自由度。
    • 文本-图像-音频驱动视频生成:融合文本、图像和音频指导,实现最高级别定制和控制,生成高质量视频。
    • 多模态协同处理:支持强文本提示跟随、主体一致性保留以及音频驱动的动作同步,实现多种模态输入的协同驱动。
    • 高分辨率视频生成:兼容480P和720P分辨率,720P生成质量更高,满足不同场景需求。
    • 定制化配置:通过修改generate.yaml配置文件,可调整生成长度、视频分辨率及文本、图像、音频输入的平衡,实现个性化输出。

    HuMo的技术原理

    • 多模态协同输入:HuMo能同时处理文本、图像和音频三种模态的输入。文本用于提供具体的描述和指令,图像作为参考来定义角色的外观特征,音频则用于驱动角色的动作和表情,使生成的视频内容更加自然和生动。
    • 统一的生成框架:框架通过协同多模态条件(文本、图像、音频)来生成人类中心的视频。将不同模态的信息融合在一起,实现更丰富、更精细的视频生成效果,不是单一模态的简单生成。
    • 强大的文本跟随能力:HuMo可以精确地遵循文本提示,将文本中描述的内容转化为视频中的视觉元素。意味着用户可以通过详细的文本描述来控制视频的内容和风格,提高生成视频的准确性和符合度。
    • 一致的主体保留:在生成视频的过程中,HuMo能保持主体的一致性。即使在多帧视频中,角色的外观和特征也能保持稳定,避免了常见的生成模型中主体在不同帧之间出现不一致的问题。
    • 音频驱动的动作同步:音频输入用于生成背景声音,能驱动角色的动作和表情。例如,角色可以根据音频中的节奏、语调等元素做出相应的动作或表情,使视频内容更加生动和真实。
    • 高质量数据集支持:HuMo的训练依赖于高质量的数据集,这些数据集包含了丰富的文本、图像和音频样本。高质量的数据集有助于模型学习到更准确的模态之间的关系,生成更高质量的视频内容。
    • 可定制的生成配置:通过配置文件,用户可以调整生成视频的各种参数,如帧数、分辨率、文本和音频的指导强度等。可定制性使HuMo能适应不同的应用场景和用户需求。

    HuMo的项目地址

    • 项目官网:https://phantom-video.github.io/HuMo/
    • HuggingFace模型库:https://huggingface.co/bytedance-research/HuMo
    • arXiv技术论文:https://arxiv.org/pdf/2509.08519

    HuMo的应用场景

    • 内容创作:用于生成高质量的视频内容,如动画、广告、短视频等,帮助创作者快速实现创意构思。
    • 虚拟现实与增强现实:创建沉浸式的虚拟环境,为用户提供更加真实和生动的体验。
    • 教育与培训:生成教育视频,通过生动的动画和音频讲解,帮助学生更好地理解和学习复杂的概念。
    • 娱乐与游戏:在游戏开发中生成角色动画,或者在娱乐应用中创造个性化的虚拟角色。
    • 社交媒体:为社交媒体平台生成个性化和吸引人的视频内容,提升用户参与度。
    • 广告与营销:制作个性化的广告视频,根据目标受众的偏好生成定制化的内容,提高广告效果。
  • 小美 – 美团推出的首款AI生活Agent

    小美是什么

    小美是美团正式发布的首款AI生活Agent。定位为“小而美的AI生活小秘书”,通过自然语言交互为用户提供便捷的生活服务。小美能快速响应用户指令,完成外卖点单、餐厅推荐、订座导航等操作。例如,用户只需说“给我点一份和府捞面的鸡丝凉面”,小美能迅速完成点单并支付。小美基于美团自研的龙猫大模型,能提供从决策辅助到直接代办的深度服务。支持定时任务,用户可以设置每天早上10点点一杯星巴克的冰美式送到公司,小美会自动执行这些任务。小美还在学习更多技能,包括打车、订酒店机票、买电影票、预约按摩店等,未来将覆盖更多生活场景。

    小美

    小美的主要功能

    • 外卖点单与支付:用户可以通过简单的语音指令或文字输入,让小美帮忙点外卖。
    • 餐厅推荐与订座:小美能为用户推荐适合的餐厅,帮助用户预订座位。用户只需描述自己的需求,如“帮我找一个适合家庭聚餐的餐厅并预订座位”,小美会根据用户的偏好和位置信息,推荐合适的餐厅并完成预订,提供一站式的餐饮服务。
    • 定时任务设置:用户可以设置定时任务,如每天早上10点点一杯星巴克的冰美式送到公司,或者每周一到周五的早上点一份健康早餐。小美会自动执行这些任务,帮助用户养成健康的生活习惯,也减少了用户每天重复下单的麻烦。
    • 生活管理与规划:小美可以帮助用户管理一周的早餐、咖啡等,可以为用户规划健康食谱并采购相应食材。用户只需告诉小美自己的需求,如“帮我规划一周的健康食谱”,小美会根据用户的饮食偏好和健康目标,提供个性化的食谱建议,帮助用户采购所需食材。

    如何使用小美

    • 下载与安装:用户可以在苹果应用商店(App Store)或安卓应用商店中搜索“小美”,下载并安装该应用。
    • 登录与授权:打开应用后,用户需要登录美团账号,授权小美访问相关权限,如地理位置、麦克风等。这些权限是小美提供服务的基础,例如,地理位置权限可以帮助小美准确地为用户推荐附近的餐厅和外卖服务。
    • 点外卖:用户可以通过语音或文字输入指令,如“给我点一份和府捞面的鸡丝凉面,加个大师溏心蛋”,小美会根据用户的指令快速完成点单并支付。用户可以指定送餐地址,如“送到公司”或“送到家”,小美会自动识别并执行。
    • 餐厅推荐与订座:用户可以向小美描述自己的需求,如“帮我找一个适合家庭聚餐的餐厅并预订座位”,小美会根据用户的偏好和位置信息,推荐合适的餐厅,帮助用户完成预订。用户可以查看餐厅的详细信息,如菜品、评价、价格等。
    • 设置定时任务:用户可以设置定时任务,小美会自动记住这些任务,在指定时间自动执行。用户可以设置每周或每月的重复任务。
    • 生活管理与规划:用户可以向小美提出生活管理的需求,小美会根据用户的饮食偏好和健康目标,提供个性化的食谱建议,帮助用户采购所需食材。用户可以通过小美管理其他生活服务,如打车、订酒店机票等。
    • 互动与反馈:用户可以随时与小美进行互动,提出问题或反馈意见。小美会根据用户的反馈不断优化服务,提供更精准、更贴心的体验。用户可以通过小美的界面查看任务执行情况和历史记录。

    小美的应用场景

    • 外卖点单:用户可以通过语音或文字指令让小美帮忙点外卖。
    • 餐厅推荐与订座:为用户推荐适合的餐厅,帮助用户预订座位。小美会根据用户的偏好和位置信息,推荐合适的餐厅并完成预订。
    • 定时任务设置:用户可以设置定时任务,会自动执行这些任务,帮助用户养成健康的生活习惯。
    • 生活管理与规划:小美会根据用户的饮食偏好和健康目标,提供个性化的食谱建议,帮助用户采购所需食材。
  • 纳米P视频 – 纳米AI推出的一句话P视频智能体

    这几天 Nano Banana 把P图玩出花了,没想到纳米AI更牛,直接就能P视频。

    一句话,换主角、换商品、改场景、改音效、对口型,纳米P视频智能体和AI视频编辑器无缝链接,不再需要繁琐的软件切换就能实现高质量视频的一站式生成,效率拉满!

    从此以后,人人都是视频剪辑加特效师。

     

    01. 如何一句话P视频

     

    我们打开纳米AI,在左侧导航栏中选择智能体,选择纳米P视频。

    官网:https://n.cn/

    在对话框输入P视频的需求。

    比如,我们点击上传图片,上传这两张图片:

    在描述修改要求中补充:

    女孩由油画逐渐变为现实,身后的场景从纯黑变为室内,极简轻奢风。女孩微笑着介绍手里的耳环。

    生成的视频变换效果非常自然,还配上了音效。

    不同于 Nano Banana 的P图,纳米AI 在草图的基础上直接生成视频,玩法非常多样。

    比如根据人物图片,生成剧情。上传图片,补充描述:

    照片中的两个人,并排坐在摩天轮上,手挽着手,有说有笑,镜头逐渐拉远,展现整个城市的街景。

    就可以生成一个有故事感的短片:

    人物的一致性保持的很好,表情动作也很自然,是不是很适合做AI短剧?

    视频可以P人物,当然也可以P产品。比如我们做产品宣传的短视频,可以直接上传两张图片,补充描述:

    女孩在甜品店,对着镜头展示图中的甜品,连连夸赞。

    最后就得到了一条非常流畅的口播展示视频:

    可以看出画面的一致性是非常强的,背景不仅真实感拉满,还与主题完美呼应。

    纳米AI还自动添加了一个运镜效果,产品展示不仅更清晰,还透着真人实拍般的自然质感。

    除了上传图片,联网搜的作用在此刻彻底具象化了,我第一次知道联网搜还能这么玩。

    比如我输入帮我搜索甄嬛传甄嬛跳惊鸿舞的名场面,描述修改要求:

    变成迪士尼卡通风格。并将编辑后图片生成视频。

    纳米AI参考了网上众多参考图片之后,给我生成了这张迪士尼风格图。甄嬛跳舞的服装、装饰,还有背景中的人物都很还原。

    然后一键转成视频,纳米AI又生成了这个视频:

    人物跳舞的动作不仅多变还很流畅~

     

    02. P视频专业版

     

    除了P这种有意思的小视频,我们也可以P专业大片。

    以广告片为例,过去我们做个AI广告片,需要反复抽卡,再去不同平台合成、剪辑,很麻烦。

    现在我们可以逐帧精P,一站式的处理视频的各种问题,告别抽卡。

    我们选择一句话生成大片智能体。

    先输入需求:

    提示词:生成榴莲蛋挞的广告宣传片,展示榴莲蛋挞的完整制作过程。

    纳米AI会自动调用智能体,先确认具体要求,比如画面比例和风格。再逐步完成脚本文案、图片、视频、配音、背景音乐和剪辑,最终交付完整的视频内容。

    生成的成片有一分半左右,整体效果还是不错的,不过有部分画面不太符合我的预期。

    比如在开头的视频画面中,有两个问题:人物手部细节没处理好,人物说话口型没有对上。

    我们点击视频下方的去编辑视频,进入P视频专业版画布冲,选择编辑素材,修改画面。

    在这个画布中调整提示词,先把首帧图片中人物的手型修正。点击首帧图片,选择【局部编辑】,输入以下提示词生成新图:

    女孩双手五指张开,做出打招呼的手势。

    点击生成好的图片,在工具中选择图转视频,复制下方原视频生成提示词,点击开始转视频。

    这样视频画面中手部的问题就修复好了~

    不过人物口型和声音还是不同步的,我们继续点击生成好的视频,选择角色对口型。

    视频调整合适之后,我们直接点击应用该视频,就可以替换掉原视频中的片段。

    在有多个片段的视频中,每一小段视频片段、文案、配音都可以单独编辑。

    我们找到原视频中有瑕疵的内容,可以精准地进行局部修改。

    一起欣赏下成片吧:

     

    03. 一些分享

     

    从P图到P视频,AI玩法不断进化,使用门槛不断降低,从小白到创作者的门槛彻底消失,人人都能是导演。

    过去用AI做视频,要写脚本,生成分镜图,再生成画面、配音、对口型,加音效、剪辑,步骤繁琐,还需要反复抽卡,积分消耗更是让人直呼用不起。

    现在纳米AI直接给出了一个高效又实惠的解法,视频生产方式或许将被彻底改写。

    未来的创作,不再是软件 + 人,而是智能体 + 想法。如果说以前需要团队花1周才能拍的片子,现在也许一杯咖啡的时间,一个人就能搞定。

    电商展示更高效、广告创意更灵活、短剧、动漫制作节奏被加速。相信纳米AI只是颠覆的开始,未来的视频产业链会因为智能体的普及而重构。

    原文链接:你还在香蕉P图?纳米AI已经可以一句话P视频了!

  • FireRedTTS-2 – 小红书推出的流式文本转语音系统

    FireRedTTS-2是什么

    FireRedTTS-2 是先进的长格式流式文本转语音(TTS)系统,专注于多说话人对话生成。采用12.5Hz流式语音分词器和双Transformer架构,能实现低延迟、高保真、多语言的语音合成。支持英语、中文、日语、韩语、法语、德语和俄语等多种语言,具备零样本跨语言及语码转换语音克隆能力。目前支持4个说话人的3分钟对话生成,可以通过扩展训练语料进一步延长对话时长和增加说话人数量。在播客生成和聊天机器人集成方面表现出色,提供稳定、自然的语音输出,可以根据上下文生成富有情感的语音。

    FireRedTTS-2

    FireRedTTS-2的主要功能

    • 长对话语音生成:支持4个说话人的3分钟对话生成,可扩展训练语料以增加对话时长和说话人数量。
    • 多语言支持:涵盖英语、中文、日语、韩语、法语、德语、俄语等,具备零样本跨语言及语码转换语音克隆能力。
    • 低延迟与高保真:在L20 GPU环境下,首次数据包延迟低至140毫秒,适合实时交互场景,同时保证高质量音频输出。
    • 稳定语音输出:在独白与对话测试中,生成语音与目标说话人相似度高,语音识别错误率低,能维持稳定的音质与韵律。
    • 随机音色生成:可生成随机特征的语音,适用于构建语音识别模型训练数据或为语音交互系统提供多样化测试素材。
    • 情感韵律生成:在聊天机器人集成中,能根据上下文生成富有情感的语音,提升交互体验。
    • 实时流式生成:采用12.5Hz流式语音分词器,支持高保真流式解码,适合实时应用。

    FireRedTTS-2的技术原理

    • 12.5Hz流式语音分词器:以低帧率运行,能编码更丰富的语义信息,缩短语音序列,稳定文本到分词的建模,支持高保真流式解码,适合实时应用。
    • 双Transformer架构:采用文本-语音交错格式,将标记了说话人的文本与对齐的语音分词按时间顺序连接起来,用双Transformer进行建模。一个大型的解码器仅Transformer预测第一层的分词,而一个较小的Transformer完成后续层。
    • 多语言建模:通过多语言预训练,支持多种语言的语音生成,具备零样本跨语言及语码转换语音克隆能力,能适应不同语言的对话场景。
    • 低延迟设计:优化了模型架构和推理流程,确保在L20 GPU环境下,首次数据包延迟可低至140毫秒,满足实时交互的需求。
    • 长对话支持:通过高效的分词和建模机制,支持4个说话人的3分钟对话生成,并可通过扩展训练语料进一步延长对话时长和增加说话人数量。
    • 上下文感知韵律:在生成语音时,能够根据上下文信息调整韵律和情感,使语音输出更加自然和富有表现力。

    FireRedTTS-2的项目地址

    • 项目官网:https://fireredteam.github.io/demos/firered_tts_2/
    • Github仓库:https://github.com/FireRedTeam/FireRedTTS2
    • arXiv技术论文:https://arxiv.org/pdf/2509.02020v1

    FireRedTTS-2的应用场景

    • 播客生成:能生成多说话人的播客内容,支持多种语言,提供稳定且自然的语音输出,适合制作多语言播客节目。
    • 聊天机器人:可以集成到聊天框架中,根据上下文生成富有情感的语音,提升交互体验,适用于各种聊天机器人应用。
    • 语音克隆:支持零样本跨语言及语码转换语音克隆,能生成与目标说话人相似度高的语音,适用于语音克隆相关应用。
    • 语音交互系统:可用于构建语音交互系统,提供多样化的测试素材,支持随机音色生成,满足不同场景的需求。
    • 语音识别模型训练:能生成随机特征的语音,适用于构建语音识别模型训练数据,减少对真实录音数据的依赖。
    • 多语言语音合成:支持多种语言的语音合成,适用于需要多语言支持的语音应用,如国际会议、多语言客服等场景。
  • Dreamoo – AI梦境社交应用,将梦境转为生动图像

    Dreamoo是什么

    Dreamoo 是全球首款 AI 梦境社交应用,通过可穿戴设备记录睡眠数据,结合 AI 技术,帮助用户清晰记录梦境,将模糊的梦境描述转化为生动的图像。用户能分享自己的梦境,与他人交流解梦,能在社交平台上互动。Dreamoo能记录梦境,探索潜意识世界,为用户提供独特的梦境体验和社交乐趣,让被遗忘的梦境成为可分享的记忆。

    Dreamoo

    Dreamoo的主要功能

    • 梦境记录:通过可穿戴设备记录睡眠数据,帮助用户清晰地记录下梦境内容。
    • AI绘梦:基于AI技术将用户模糊的梦境描述转化为生动的图像,让梦境可视化。
    • 梦境解读:提供解梦功能,帮助用户理解梦境的含义,探索潜意识。
    • 梦境社交:用户能分享自己的梦境图像和故事,与其他用户交流和互动,形成独特的社交体验。
    • 睡眠监测:结合睡眠数据,分析睡眠质量,为用户提供睡眠改善建议。

    如何使用Dreamoo

    • 下载与安装:访问Dreamoo官网 https://dreamoo.framer.ai/,下载Dreamoo APP完成注册登录。
    • 设置与连接:将可穿戴设备与应用连接,确保应用有权限访问设备数据。
    • 使用功能:在应用中记录梦境,用AI生成梦境图像,查看梦境解读,分享到社交平台。
    • 社交互动:关注其他用户,点赞、评论他们的梦境故事,参与话题讨论。

    Dreamoo的应用场景

    • 记录梦境:用户在醒来后记录梦境,避免遗忘,帮助自己更好地回忆和整理梦境内容。
    • 探索潜意识:通过AI解梦功能,用户能探索梦境背后的潜意识含义,了解自己的内心世界。
    • 情绪分析:梦境往往与情绪状态有关,通过记录和分析梦境,用户能更好地理解自己的情绪变化。
    • 自我疗愈:在梦境中体验到的积极或消极情绪可以通过分享和交流得到缓解,有助于心理健康。