Category: AI项目和框架

Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型
Moshi是什么

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型，拥有听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。作为平替GPT-4o的开源模型，Moshi在普通笔记本上即可运行，具有低延迟特性，支持本地设备使用，保护用户隐私。Moshi的开发和训练流程简单高效，由8人团队在6个月内完成，将很快开源模型的代码、权重和技术论文，免费供全球用户使用和进一步研究开发。

Moshi的功能特色
- 多模态交互：Moshi作为一个多模态AI模型，不仅能够处理和生成文本信息，还能够理解和生成语音，使得Moshi可以与用户进行更加自然和直观的交流，就像与真人对话一样。
- 情绪和风格表达：Moshi可以模拟70种不同的情绪和风格进行对话，让AI对话更加生动和真实。无论是表达喜悦、悲伤还是严肃，Moshi都能够通过语音的变化来传达相应的情感，增强交流的体验。
- 实时响应低延迟：Moshi的响应具备低延迟特性，能够快速地处理用户的输入，并几乎0延迟地给出回应。对于需要即时反馈的应用场景非常有帮助，比如客户服务或实时翻译。
- 语音理解与生成：Moshi能够同时处理听和说的任务，可以在听用户说话的同时生成回答，提高了交互的效率和流畅性，提供了一个自然无缝的对话体验。
- 文本和音频混合预训练：Moshi通过结合文本和音频数据进行预训练，使得模型在理解和生成语言时能够更好地捕捉到语义和语境信息，提高了模型的准确性和可靠性。
- 本地设备运行：作为一款完全端到端的音频模型，Moshi可以在用户的本地设备上运行，普通笔记本电脑或消费级GPU即可满足运行要求。
如何使用Moshi
1. 访问Moshi平台：访问Moshi的官方网站https://moshi.chat/?queue_id=talktomoshi。
2. 提供邮箱：进入网站后只需要提供一个邮箱地址，点击Join queue即可免费开始使用。
3. 检查设备兼容性：确保你的设备（无论是手机还是电脑）配备有麦克风和扬声器，因为Moshi的交互主要依赖语音输入和输出。
4. 开始语音交互：提供邮箱后即可开始与Moshi进行语音交互，系统会提示你使用麦克风进行语音输入。
5. 提问或发出指令：对着麦克风提出问题或发出指令，Moshi将通过语音识别技术理解您的问题或指令。
6. 听取回答：Moshi会根据你的提问生成回答，并通过语音合成技术将文本转换为语音，然后通过设备的扬声器播放出来。
目前，Moshi主要支持英语和法语，暂不支持中文普通话。此外，Kyutai团队表示后续很快将开源Moshi，公布代码、模型权重和论文。

Moshi的应用场景
- 虚拟助手：Moshi可以作为个人或企业的虚拟助手，提供语音交互服务，帮助用户完成日常任务，如设置提醒、搜索信息等。
- 客户服务：在客户服务领域，Moshi可以作为智能客服，通过语音与客户进行交流，解答咨询，提供即时帮助。
- 语言学习：Moshi能够模拟不同口音和情绪，有助于语言学习者练习听力和口语，提高语言能力。
- 内容创作：Moshi可以生成不同风格和情绪的语音，为视频、播客或动画制作提供配音服务。
- 辅助残障人士：对于视力或听力有障碍的人士，Moshi可以提供语音到文本或文本到语音的服务，帮助他们更好地获取信息。
- 研究和开发：研究人员可以使用Moshi进行语音识别、自然语言处理和机器学习等领域的研究。
- 娱乐和游戏：在游戏和娱乐应用中，Moshi可以作为角色与用户进行互动，提供更加丰富的用户体验。
July 4, 2024
Fish Speech – 开源的高效文本到语音合成TTS工具
Fish Speech是什么

Fish Speech是一款由Fish Audio开发的开源的文本到语音（TTS）工具，支持中文、英文和日文。通过约15万小时的多语种数据训练，实现了接近人类水平的语音合成效果，目前已更新到1.2版本。该工具特点包括低显存需求（仅需4GB）、快速推理速度、高自定义性和灵活性，用户可快速进行语音克隆而无需复杂训练。Fish Speech还支持多种语音生成模型，如VITS2、Bert-VITS2等，适用于智能助手、自动客服、语言学习等场景。

Fish Speech的功能特色
- 高效的文本到语音转换： Fish Speech利用先进的算法，能够迅速将输入的文本信息转换成听起来自然、流畅的语音。通过优化的声学模型和语言模型，确保语音的自然度和准确性，使其在多种场景下都能提供高质量的语音输出。
- 多语言支持：支持中文、英文和日文，Fish Speech的多语言能力可以跨越语言障碍，为不同国家和地区的用户提供服务，为全球化的应用场景提供了便利。
- 语音克隆能力：用户可以上传自己或他人的一段语音作为参考，Fish Speech通过深度学习技术，学习并模仿该语音的特征，实现个性化的语音克隆。该功能在个性化语音助手、有声读物制作等领域具有广泛的应用潜力。
- 低显存需求：仅需4GB显存即可运行，大大降低了硬件门槛，使得更多的用户能够在自己的电脑上使用Fish Speech，而不必投资昂贵的硬件设备。
- 快速推理速度： Fish Speech优化了推理过程，减少了等待时间，提高了语音合成的效率。用户可以在短时间内获得所需的语音输出，提升了整体的使用体验。
- 多种语音生成模型： Fish Speech支持包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast和GPT-SoVITS等多种模型，用户可以根据自己的需求选择合适的模型，以获得最佳的语音合成效果。
- 易于使用： Fish Speech的设计注重用户体验，简化了安装和配置流程。用户无需深入了解技术细节，即可通过一键启动程序快速开始使用，大大降低了使用门槛。
- 微调能力： LORA微调技术允许用户对模型进行细致的调整，以适应特定的语音风格或表达方式，为用户提供了更多的创造性空间。
- 性能优化：通过采用gradient checkpointing、causal sampling和flash-attn等先进技术，Fish Speech在模型训练和推理过程中实现了性能的显著提升，确保了处理大规模数据时的高效性和稳定性。
Fish Speech的官网入口
- 官方项目主页：https://speech.fish.audio/
- GitHub源码库：https://github.com/fishaudio/fish-speech
- Hugging Face模型地址：https://huggingface.co/fishaudio/fish-speech-1.2
如何安装和使用Fish Speech

运行要求
- GPU 内存：4GB (用于推理)、16GB (用于微调)
- 系统：Linux、Windows
Windows配置

Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法（附带模型编译功能，即 torch.compile）：
1. 解压项目压缩包。
2. 点击 install_env.bat 安装环境。
  - 可以通过编辑 install_env.bat 的 USE_MIRROR 项来决定是否使用镜像站下载。
  - USE_MIRROR=false 使用原始站下载最新稳定版 torch 环境。USE_MIRROR=true 为从镜像站下载最新 torch 环境。默认为 true。
  - 可以通过编辑 install_env.bat 的 INSTALL_TYPE 项来决定是否启用可编译环境下载。
  - INSTALL_TYPE=preview 下载开发版编译环境。INSTALL_TYPE=stable 下载稳定版不带编译环境。
3. 若第2步 INSTALL_TYPE=preview 则执行这一步（可跳过，此步为激活编译模型环境）
  1. 使用如下链接下载 LLVM 编译器。
    
    LLVM-17.0.6（原站站点下载）
    
    LLVM-17.0.6（镜像站点下载）
    
    下载完 LLVM-17.0.6-win64.exe 后，双击进行安装，选择合适的安装位置，最重要的是勾选 Add Path to Current User 添加环境变量。
    
    确认安装完成。
  2. 下载安装 Microsoft Visual C++ 可再发行程序包，解决潜在 .dll 丢失问题。
    
    MSVC++ 14.40.33810.0 下载
  3. 下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。
    
    Visual Studio 下载
    
    安装好Visual Studio Installer之后，下载Visual Studio Community 2022
    
    如下图点击修改按钮，找到使用C++的桌面开发项，勾选下载
4. 双击 start.bat, 进入 Fish-Speech 训练推理配置 WebUI 页面。
  - (可选) 想直接进入推理页面？编辑项目根目录下的 API_FLAGS.txt, 前三行修改成如下格式:
    
    --infer # --api # --listen ... ...
  - (可选) 想启动 API 服务器？编辑项目根目录下的 API_FLAGS.txt, 前三行修改成如下格式:
    
    --infer # --api # --listen ... ...
5. （可选）双击 run_cmd.bat 进入本项目的 conda/python 命令行环境
Linux配置
```
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch torchvision torchaudio

# 安装 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
```
July 3, 2024
FreeAskInternet – 免费开源的本地AI搜索引擎
FreeAskInternet是什么

FreeAskInternet是一个免费开源的本地AI搜索引擎，整合了GPT-3.5等先进的大型语言模型（LLM）和SearXNG元搜索引擎，为用户提供搜索和智能答案生成服务。该项目完全免费开源、本地化运行，不需要GPU支持，确保了用户数据的私密性和安全性。FreeAskInternet支持自定义LLM，如Ollama，并通过Docker Compose简化了部署过程，使得用户可以快速在自己的计算机上搭建起一个功能强大的AI搜索和问答系统。

FreeAskInternet的功能特色
- 本地化搜索聚合：结合SearXNG元搜索引擎，FreeAskInternet能够在本地进行多引擎搜索，聚合不同来源的信息。
- 智能答案生成：利用集成的大型语言模型（如ChatGPT3.5、Kimi、Qwen、ZhipuAI等），根据搜索结果生成准确的答案。
- 完全免费：用户无需支付任何费用即可使用FreeAskInternet的全部功能。
- 隐私保护：所有数据处理在本地完成，不上传用户数据，确保隐私安全。
- 无需GPU：与通常需要高性能GPU支持的AI模型不同，FreeAskInternet可以在普通计算机上运行，降低了硬件要求。
- 自定义支持：用户可以根据自己的需要，通过Ollama使用自定义的大型语言模型，增加个性化选项。
- 易于部署：通过Docker Compose实现快速部署，简化了安装和配置过程。
- 多语言模型支持：除了内置的免费API，FreeAskInternet还支持多种语言模型，提供更广泛的选择。
- 用户界面友好：提供基于搜索的聊天对话框，用户可以自然地输入问题并获取答案。
GitHub项目地址：https://github.com/nashsu/FreeAskInternet

如何使用FreeAskInternet
1. 环境准备：确保您的计算机上已安装Docker和Docker Compose，这是运行FreeAskInternet的前提条件。
2. 获取项目代码：打开终端或命令提示符，使用Git克隆FreeAskInternet的GitHub仓库到本地：git clone https://github.com/nashsu/FreeAskInternet.git
3. 进入项目目录：cd FreeAskInternet
4. 启动服务：运行Docker Compose来启动FreeAskInternet服务：docker-compose up -d，这将自动下载所需的Docker镜像，并在后台启动服务。
5. 访问Web界面：服务启动后，在浏览器中访问http://localhost:3000，将看到FreeAskInternet的Web界面。
6. 提问和获取答案：在Web界面的聊天对话框中输入你的问题，FreeAskInternet将使用集成的搜索引擎和语言模型为您搜索并生成答案。
July 2, 2024
MimicMotion – 腾讯推出的AI人像动态视频生成框架
MimicMotion是什么

MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架，利用置信度感知的姿态引导技术，确保视频帧的高质量和时间上的平滑过渡。此外，MimicMotion通过区域损失放大和手部区域增强，显著减少了图像失真，提升了人像手部动作的细节表现。该框架还能通过渐进式潜在融合策略生成长视频，能够生成高质量、长时间且符合特定动作指导的人类动作视频，同时显著提高了视频生成的控制性和细节丰富度。

MimicMotion的功能特点
- 生成多样化视频：MimicMotion能够根据用户提供的姿态指导生成各种动作的视频内容。无论是舞蹈、运动还是日常活动，只要提供相应的姿态序列，MimicMotion都能够创造出相应的动态视频。
- 控制视频长度：用户可以根据自己的需求指定视频的持续时间，MimicMotion能够生成从几秒钟的短片段到几分钟甚至更长的完整视频，提供灵活性以适应不同的应用场景。
- 姿态引导控制：框架使用参考姿态作为条件，确保生成的视频内容在动作上与指定的姿态保持一致。MimicMotion允许用户对视频的动作进行精确控制，实现高度定制化的视频生成。
- 细节质量保证：MimicMotion特别关注视频中的细节，尤其是手部等容易失真的区域。通过置信度感知的策略，系统能够在这些区域提供更清晰的视觉效果。
- 时间平滑性：为了提供更自然的观看体验，MimicMotion确保视频帧之间的过渡平滑，避免出现卡顿或不连贯的现象，使得视频看起来更加流畅自然。
- 减少图像失真：通过置信度感知的姿态引导，MimicMotion能够识别并减少由于姿态估计不准确导致的图像失真，尤其是在人物手部区域。
- 长视频生成：MimicMotion采用渐进式潜在融合技术，允许系统在生成长视频时保持高时间连贯性。该技术通过在视频段之间融合潜在特征，有效避免了闪烁和不连贯现象。
- 资源消耗控制：在生成视频时，MimicMotion优化算法以确保资源消耗保持在合理范围内。即使在生成较长视频时，也能有效地管理计算资源，避免过高的成本。
MimicMotion的官网入口
- 官方项目主页：https://tencent.github.io/MimicMotion/
- GitHub源代码库：https://github.com/Tencent/MimicMotion
- arXiv技术论文：https://arxiv.org/abs/2406.19680
MimicMotion的技术原理
- 姿态引导的视频生成：MimicMotion利用用户提供的姿态序列作为输入条件，引导视频内容的生成，允许模型根据姿态的变化合成相应的动作。
- 置信度感知的姿态指导：框架引入了置信度的概念，通过分析姿态估计模型提供的置信度分数，对姿态序列中的每个关键点进行加权。这样，模型可以更加信赖那些置信度高的关键点，减少不准确姿态估计对生成结果的影响。
- 区域损失放大：特别针对手部等容易失真的区域，MimicMotion通过提高这些区域在损失函数中的权重，增强模型对这些区域的训练，从而提高生成视频的手部细节质量。
- 潜在扩散模型：MimicMotion使用潜在扩散模型来提高生成效率和质量，模型通过在低维潜在空间中进行扩散过程，而不是直接在像素空间操作，从而减少了计算成本。
- 渐进式潜在融合：为了生成长视频，MimicMotion采用了一种渐进式潜在融合策略。在视频段之间，通过逐步融合重叠帧的潜在特征，实现了视频段之间的平滑过渡，避免了生成长视频时可能出现的闪烁和不连贯现象。
- 预训练模型的利用：MimicMotion基于一个预训练的视频生成模型（如Stable Video Diffusion, SVD），减少了从头开始训练模型所需的数据量和计算资源。
- U-Net和PoseNet的结构：MimicMotion的模型结构包括一个用于空间时间交互的U-Net和一个用于提取姿态序列特征的PoseNet。这些网络结构共同工作，以实现高质量的视频生成。
- 跨帧平滑性：MimicMotion在生成过程中考虑了帧之间的时间关系，确保了视频帧之间的连贯性和平滑性。
July 2, 2024
Gemma 2 – 谷歌DeepMind推出的新一代开源人工智能模型
Gemma 2是什么

Gemma 2是谷歌DeepMind推出的新一代开源人工智能模型，包含90亿和270亿参数版本。该模型以卓越的性能、高效的推理速度和广泛的硬件兼容性为特点，能够与参数量更大的模型（如Llama 3、Claude 3 Sonnet）相媲美。Gemma 2设计易于集成到开发者的工作流程中，支持多种AI框架，并通过Google Cloud、Kaggle和Hugging Face等平台免费提供。

Gemma 2的特点
- 参数规模：Gemma 2目前提供两种参数规模的模型，分别是90亿（9B）和270亿（27B）参数版本，以适应不同的应用需求和资源限制。后续还会发布26亿参数（2.6B）模型。
- 性能优化：27B版本的Gemma 2在性能上能够与参数量超过其两倍的模型相媲美，显示出极高的性能效率比，在LMSYS Chatbot Arena中，270亿参数的Gemma 2指令微调模型击败了拥有700亿参数的Llama 3，并超过Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B等模型，在所有开源权重的模型中位列第一。
- 推理效率：Gemma 2特别优化了推理过程，能够在单个高端GPU或TPU上以全精度运行，无需额外的硬件资源，从而大幅降低了使用成本。
- 硬件兼容性：Gemma 2能够在多种硬件平台上快速运行，包括个人电脑、工作站、游戏笔记本以及云服务器等。
- 开放许可：Gemma 2采用商业友好的许可协议，允许开发者和研究人员自由地分享、使用和商业化他们的应用。
- 框架支持：Gemma 2与多个主流AI框架兼容，包括Hugging Face Transformers、JAX、PyTorch和TensorFlow，使得开发者可以根据自己的偏好选择合适的工具。
- 部署工具：谷歌提供了Gemma Cookbook，这是一个包含实用示例和指南的资源库，帮助用户构建应用程序和微调Gemma 2模型。
- 负责任的AI：谷歌提供了一系列工具和资源，如Responsible Generative AI Toolkit和LLM Comparator，以支持开发者和研究人员负责任地构建和部署AI。
如何使用Gemma 2

Gemma 2可与用户常用的工具和工作流程轻松配合使用，与Hugging Face Transformers、JAX、PyTorch 和 TensorFlow 等主流 AI 框架兼容，可通过原生 Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama实现。此外，Gemma 还通过NVIDIA TensorRT-LLM进行了优化，可在 NVIDIA 加速基础设施上运行或作为NVIDIA NIM推理微服务运行，并将针对NVIDIA 的 NeMo进行优化。

Gemma 2现已在Google AI Studio中推出，用户可以在无需硬件要求的情况下以 27B 的速度测试其全部性能。开发人员还可以从Kaggle和Hugging Face Models下载Gemma 2的模型权重，Vertex AI Model Garden即将推出。

为了便于研究和开发，Gemma 2 还可通过Kaggle或 Colab 笔记本免费使用。首次使用 Google Cloud 的客户有资格获得300美元的信用额度。学术研究人员可以申请Gemma 2学术研究计划，以获得 Google Cloud 信用额度，以加速他们使用 Gemma 2 的研究。申请开放时间为即日起至 8 月 9 日。
June 28, 2024
CriticGPT – OpenAI推出的识别GPT输出代码错误的模型
CriticGPT是什么

CriticGPT是OpenAI发布的一个新型人工智能模型，基于GPT-4构建，专门用于审查和识别大型语言模型（如ChatGPT）生成的代码中的错误。CriticGPT通过人类反馈强化学习（RLHF）技术，提高了代码审查的准确性和效率，能够识别并解释AI输出中的潜在问题，帮助提升代码质量和安全性。使用CriticGPT时，人类评估员在60%的情况下比没有AI辅助的表现更好。CriticGPT的开发是AI领域的一大进步，它不仅增强了AI模型的自我纠错能力，也为AI与人类的协作提供了新的可能性。

CriticGPT的主要功能
- 代码审核：自动审查由其他AI模型生成的代码，识别潜在的逻辑错误和安全漏洞。
- 错误识别：检测代码中的语法错误、运行时错误以及可能的编程失误。
- 安全漏洞分析：专门分析代码，找出可能导致安全问题的漏洞，如路径遍历、注入攻击等。
- 反馈生成：为开发人员提供具体的错误反馈和改进建议，帮助他们理解并修复问题。
- 性能评估：评估AI生成的代码在性能上是否达到预期标准。
- 辅助学习：通过提供错误示例和正确做法，辅助开发人员和AI训练师学习和提高。
CriticGPT的工作原理
1. 错误注入：首先，通过一种称为”篡改”的方法，人类评估员故意在AI生成的代码中插入细微的错误，然后记录下这些错误的详细描述。这个过程类似于代码审查中发现错误并记录错误的方式。
2. 训练数据生成：这些被篡改的代码样本和相应的错误描述被用来训练CriticGPT，使其能够识别和指出各种潜在问题。
3. 评论生成：CriticGPT接收一个问题和相应的回答作为输入，然后生成一个评论，指出回答中的具体错误。评论的结构通常包含多个部分，每个部分都针对原始回答中的特定引用进行评论。
4. 策略优化：使用近端策略优化（PPO）算法来优化CriticGPT的行为策略，允许模型在保持策略更新幅度较小的同时，有效地学习如何改进其输出。
5. 推理采样策略：引入了一种名为”强制采样波束搜索”（FSBS）的技术，通过在生成评论时强制模型产生特定的高亮部分，然后根据奖励模型的评分选择最佳评论。这种方法允许模型在生成更长、更全面的评论时，减少虚假问题的产生。
6. 性能评估：CriticGPT的输出会被评估，以确定其在检测代码错误方面的表现，以及与人类评估员相比的优势。
CriticGPT的优点
- 提高准确性：CriticGPT通过增强RLHF，显著提升了AI模型输出的准确性，尤其在代码审查方面，能找出许多人类难以发现的问题。
- 减少错误：它能够帮助减少在代码中的错误，特别是那些由于模型复杂度增加而变得更加隐蔽的错误。
- 提升效率：CriticGPT可以自动化地审查代码，减少了人工审查所需的时间和工作量。
- 增强安全性：通过识别代码中的安全漏洞，CriticGPT有助于提升软件产品的安全性。
- 辅助人类评估员：CriticGPT可以作为人类评估员的辅助工具，提高他们审查代码的效率和质量。
- 自我学习和优化：CriticGPT使用PPO算法进行策略优化，能够不断学习和改进其错误检测的能力。
- 减少幻觉：CriticGPT有助于减少在评估过程中产生的幻觉或虚假错误，提高了评估的可靠性。
- 全面性：通过FSBS技术，CriticGPT能够生成更全面、更详细的评论，同时避免了无关紧要的问题或错误。
- 提升训练数据质量：CriticGPT的使用有助于生成更高质量的训练数据，进一步优化AI模型。
- 适应性强：CriticGPT的设计使其能够适应不同的AI输出和任务，具有较好的通用性。
CriticGPT的短板
- 复杂性限制：CriticGPT在处理极复杂的任务时可能会面临挑战，尤其是当错误分布在代码的多个部分时。
- 短答案训练：该模型主要针对较短的代码片段进行训练，可能在处理更长、更复杂的任务时效果不佳。
- 幻觉问题：尽管CriticGPT减少了幻觉错误的产生，但仍然存在可能输出不正确内容误导人类的风险。
- 单一错误焦点：当前CriticGPT主要关注单点错误，对于跨多个代码段的错误可能识别不够。
- 应用范围：CriticGPT主要针对代码审查，对于其他类型的AI输出（如文本、图像等）可能需要进一步的调整和优化。
- 依赖训练数据：CriticGPT的性能在很大程度上依赖于训练数据的质量和多样性，如果训练数据存在偏差，可能影响模型的准确性。
延伸阅读
- OpenAI – Finding GPT-4’s mistakes with GPT-4
- 论文 – LLM Critics Help Catch LLM Bugs
June 28, 2024
MOFA-Video – 腾讯开源的可控性AI图生视频模型
MOFA-Video是什么

MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型，该技术利用生成运动场适应器对图像进行动画处理以生成视频。MOFA-Video能够在预训练的Stable Video Diffusion模型基础上，通过稀疏控制信号如手动轨迹、面部标记序列或音频等，实现对视频生成过程中动作的精细控制。MOFA-Video不仅能够单独使用这些控制信号，还能将它们组合使用，以零样本（zero-shot）的方式进行更复杂的动画制作，提供了一种全新的、高度可控的图像动画视频解决方案。

MOFA-Video的功能特色
- 轨迹控制动画：用户通过在图像上手动绘制轨迹，指导MOFA-Video生成相应的视频动画。这种功能特别适合需要精确控制物体或相机运动的场景。
- 面部关键点动画：系统利用面部关键点数据，如通过面部识别技术获得的标记，来生成逼真的面部表情和头部动作动画。
- 混合控制动画：MOFA-Video能够将轨迹控制和面部关键点控制相结合，实现面部表情和身体动作的同步动画，创造出复杂的多部分动画效果。
- 音频驱动面部动画：通过分析音频信号，MOFA-Video能够生成与语音或音乐同步的面部动画，例如口型同步。
- 视频驱动面部动画：使用参考视频，MOFA-Video能够使静态图像中的面部动作模仿视频中的动作，实现动态的面部表情再现。
- 零样本多模态控制：MOFA-Video支持零样本学习，即不同控制信号可以无需额外训练即可组合使用，这大大提高了动画生成的灵活性和多样性。
- 长视频生成能力：通过采用周期性采样策略，MOFA-Video能够生成比传统模型更长的视频动画，突破了帧数限制。
- 用户界面操作：MOFA-Video提供了基于Gradio的简单易用的用户界面，用户可以通过这个界面直观地进行动画生成，无需具备专业的编程技能。
MOFA-Video的官网入口
- 官方项目主页：https://myniuuu.github.io/MOFA_Video
- GitHub代码库：https://github.com/MyNiuuu/MOFA-Video
- 基于轨迹的图像动画Gradio演示和模型检查点：https://huggingface.co/MyNiuuu/MOFA-Video-Traj
- Gradio演示和混合控制图像动画检查点：https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid
MOFA-Video的工作原理
1. 稀疏控制信号生成：在训练阶段，系统通过稀疏运动采样技术生成稀疏控制信号。这些信号可能是基于轨迹的动画控制点，面部关键点序列，或者是其他形式的运动指示。
2. MOFA-Adapter设计：MOFA-Adapter是系统的核心，它是一个专门设计的网络结构，用于将稀疏控制信号转换为密集的运动场。这一组件包括：
  - S2D网络：将稀疏的运动提示转换为密集的运动场。
  - 参考图像编码器：提取参考图像的多尺度特征，用于后续的运动场生成。
  - 特征融合编码器：将S2D网络生成的运动场与参考图像编码器的特征结合。
3. 多尺度特征提取：参考图像编码器对输入的参考图像进行处理，提取出多尺度的特征表示，这些特征将用于后续的视频帧生成过程中的引导和变形。
4. 运动场的生成与应用：S2D网络根据稀疏控制信号生成密集的运动场，这些运动场随后用于对多尺度特征进行空间变形，以模拟视频中的运动效果。
5. 预训练的SVD模型：MOFA-Adapter与预训练的Stable Video Diffusion模型（SVD）结合，利用从MOFA-Adapter获得的条件特征来引导视频帧的生成。
6. 空间变形：利用生成的运动场，系统对参考图像的多尺度特征进行空间变形，确保视频帧中的物体和场景元素按照预定的运动轨迹进行移动。
7. 视频帧生成：在特征空间中经过变形的特征被用于生成视频帧。这一过程涉及到从潜在空间中采样并逐步去除噪声，以重建清晰的视频帧。
8. 多模态控制信号集成：MOFA-Video能够处理来自不同源的控制信号，并将它们融合到统一的生成过程中，实现复杂的动画效果。
9. 零样本学习：MOFA-Adapter训练完成后，可以在不同控制域中无需额外训练即可联合工作，实现对视频生成的精细控制。
10. 长视频生成策略：为了生成更长的视频，MOFA-Video采用了周期性采样策略，通过在潜在空间中对帧进行分组和重叠采样，解决了长视频生成中的连贯性和计算复杂性问题。
June 25, 2024
Toucan TTS – 免费开源的文本转语音工具，支持超7000种语言
Toucan TTS是什么

Toucan TTS是由德国斯图加特大学自然语言处理研究所（IMS）开发的文本到语音合成工具箱，支持超过7000种语言，包括多种方言和变体。Toucan TTS基于Python和PyTorch构建，易于使用且功能强大，提供多说话人语音合成、语音风格克隆和人机交互编辑功能，适用于语音模型教学、文字朗读和多语言应用开发等场景。ToucanTTS作为一个开源项目，基于Apache 2.0许可，允许用户和开发者自由使用和修改代码，以适应不同的应用需求。

Toucan TTS的主要功能
- 多语言语音合成：Toucan TTS能够处理和生成超过7000种不同语言的语音，包括各种方言和语言变体，使其成为全球语言支持最广泛的TTS项目之一。
- 多说话人支持：该工具箱支持多说话人语音合成，允许用户选择或创建具有不同语音特征的说话人模型，实现个性化的语音输出。
- 人机交互编辑：Toucan TTS提供了人机交互编辑功能，用户可以对合成的语音进行细致的调整，以适应不同的应用场景，如文学朗诵或教育材料。
- 语音风格克隆：用户可以利用Toucan TTS克隆特定说话人的语音风格，包括节奏、重音和语调等，使得合成语音更加贴近原说话人的声音特征。
- 语音参数调整：ToucanTTS允许用户调整语音的持续时间、音调变化和能量变化等参数，以控制语音的流畅度、情感表达和声音特征。
- 发音清晰度和性别特征调整：用户可以根据需要调整语音的清晰度和性别特征，使得合成语音更加自然和符合特定角色或场景的需求。
- 交互式演示：Toucan TTS提供了在线交互式演示，用户可以通过网页界面实时体验和测试语音合成效果，这有助于用户快速理解和使用工具箱的功能。
如何使用Toucan TTS

对于普通用户可以前往Hugging Face体验Toucan TTS的在线文本转语音和语音克隆Demo，开发人员可以访问其GitHub项目库，克隆其代码到本地进行部署和运行。
- 官方GitHub代码库：https://github.com/DigitalPhonetics/IMS-Toucan
- Hugging Face在线TTS Demo：https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS
- Hugging Face在线语音克隆Demo：https://huggingface.co/spaces/Flux9665/SpeechCloning
- Hugging Face TTS数据集：https://huggingface.co/datasets/Flux9665/BibleMMS
Toucan TTS的应用场景
- 文学朗诵：合成诗歌、文学作品、网页内容的语音，供朗诵欣赏或作为有声读物。
- 多语言应用开发：为需要多语言支持的应用程序提供语音合成服务，如国际化软件和游戏。
- 辅助技术：为视障人士或阅读困难者提供文本到语音的服务，帮助他们更好地获取信息。
- 客户服务：在客户服务系统中使用，提供多语言的自动语音回复或交互式语音响应系统。
- 新闻与媒体：自动将新闻文章转换为语音，为忙碌的听众提供便捷的新闻获取方式。
- 电影和视频制作：为电影、动画或视频内容生成配音，尤其是当原始音频不可用或需要特定语言版本时。
- 有声书制作：将电子书或文档转换为有声书，提供给偏好听书的用户。
June 24, 2024
ExVideo – 阿里和华东师大推出的AI视频长度扩展调优技术
ExVideo是什么

ExVideo是由阿里巴巴和华东师大的研究人员推出的一种视频合成模型的后调优技术，能够扩展现有视频合成模型的时间尺度，以生成更长和帧数更多的视频。该团队基于Stable Video Diffusion模型，训练了一个能够生成长达128帧连贯视频的扩展模型，同时保留了原始模型的生成能力。ExVideo通过优化3D卷积、时间注意力和位置嵌入等时间模块，使模型能够处理更长时间跨度的内容，在保持原始模型生成能力的同时，显著增加了视频帧数，且训练成本较低，特别适合计算资源有限的情况。

ExVideo的功能特点
- 时间尺度扩展：ExVideo的核心功能之一是扩展视频合成模型的时间尺度，可以处理和生成比原始模型设计时更长的视频序列。通过这种扩展，ExVideo能够生成具有更多帧的视频，从而讲述更完整的故事或展示更长时间的动态场景。
- 后调优策略：ExVideo的后调优策略是其技术的关键部分，通过对Stable Video Diffusion等模型的特定部分进行再训练，ExVideo能够使这些模型生成更长的视频，达到128帧或更多。不仅提高了视频的长度，还保持了模型对各种输入的泛化能力，使得生成的视频多样化且适应性强。
- 参数高效：与传统的训练方法相比，ExVideo采用后调优策略，无需从头开始训练一个全新的模型，而是在现有模型的基础上进行优化，显著减少了所需的参数数量和计算资源，使得模型的扩展更加高效和实用。
- 保持生成能力：在对视频长度进行扩展的同时，ExVideo注重保持视频的质量，生成的视频不仅在时间上有所延长，而且在视觉连贯性、清晰度和整体质量上也能满足高标准。
- 兼容性和通用性：ExVideo的设计考虑到了与多种视频合成模型的兼容性，使其能够广泛应用于不同的视频生成任务。无论是3D卷积、时间注意力还是位置嵌入，ExVideo都能够提供相应的扩展策略，以适应不同的模型架构。
ExVideo的官网入口
- 官方项目主页：https://ecnu-cilab.github.io/ExVideoProjectPage/
- GitHub代码库：https://github.com/modelscope/DiffSynth-Studio
- Hugging Face模型下载：https://huggingface.co/ECNU-CILab/ExVideo-SVD-128f-v1
- ModelScope模型下载：https://www.modelscope.cn/models/ECNU-CILab/ExVideo-SVD-128f-v1/summary
- arXiv技术论文：https://arxiv.org/abs/2406.14130
ExVideo的技术原理
- 参数后调优（Post-Tuning）：ExVideo采用参数后调优的方法，对现有的视频合成模型进行改进。这包括对模型的特定部分进行再训练，而不是重新训练整个模型，从而提高效率。
- 时间模块扩展：针对视频合成模型中的时间模块，ExVideo提出了扩展策略。这些策略包括对3D卷积层、时间注意力机制和位置嵌入层的优化，以适应更长的视频序列。
- 3D卷积层：3D卷积层在视频合成中用于捕捉时间维度上的特征。ExVideo保留了原始模型中的3D卷积层，因为它们能够适应不同的时间尺度，而无需额外的微调。
- 时间注意力机制：为了提高模型处理长时间序列的能力，ExVideo对时间注意力模块进行了微调。这有助于模型更好地理解视频内容的时间连贯性。
- 位置嵌入：传统的视频合成模型可能使用静态或可训练的位置嵌入来表示视频中的帧顺序。ExVideo通过引入可训练的位置嵌入，并通过循环模式初始化，来适应更长的视频序列。
- 身份3D卷积层（Identity 3D Convolution）：在位置嵌入层之后，ExVideo引入了一个额外的身份3D卷积层，用于学习长期视频特征。这个层在训练前初始化为单位矩阵，确保不会改变视频表示，保持与原始模型的一致性。
- 工程优化：为了在有限的计算资源下进行有效的训练，ExVideo采用了多种工程优化技术，如参数冻结、混合精度训练、梯度检查点技术和Flash Attention，以及使用DeepSpeed库来分片优化器状态和梯度。
- 训练过程：ExVideo使用了一个公开可用的数据集OpenSoraPlan2进行训练，该数据集包含大量视频，以此来增强模型生成多样化视频的能力。
- 损失函数和噪声调度：在训练过程中，ExVideo保持了与原始模型一致的损失函数和噪声调度策略，确保了模型训练的稳定性和效率。
June 24, 2024
Diffutoon – 阿里推出的AI将视频转卡通风格的框架
Diffutoon是什么

Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架，基于扩散模型的可编辑卡通着色技术，能够将真实感视频转换成动漫风格。该技术通过分解为风格化、一致性增强、结构引导和着色等子任务，实现了对视频的高分辨率和长时间渲染。Diffutoon还具备内容编辑功能，可以根据文本提示调整视频细节，在处理视频时保持了高度的视觉效果和一致性，实现了对视频动画的高效、高质量处理。

Diffutoon的功能特色
- 卡通视频渲染：Diffutoon利用扩散模型将现实风格的视频转换成具有卡通或动漫风格的视频，实现视觉上的平面化和风格化效果。转换不仅包括颜色和纹理的变化，还涉及对光影、轮廓等元素的艺术化处理，以模仿手绘动画的视觉效果。
- 高分辨率支持：Diffutoon能够处理高分辨率视频，支持至少1536×1536像素的分辨率，确保在放大或高清显示设备上也能保持清晰度和细节，适合高质量的视频制作和展示需求。
- 视频编辑：用户可以通过文本提示对视频内容进行编辑，Diffutoon能够识别并根据这些提示调整视频的特定部分。编辑功能支持对角色、场景元素的外观和属性进行修改，如更换服装颜色、调整角色表情等。
- 帧间一致性：通过特定的算法和技术，Diffutoon确保视频序列中的每一帧在风格和内容上保持一致性，避免了视频播放时可能出现的闪烁、颜色突变或内容不连贯的问题，提高了观看体验。
- 结构保持：在视频风格化的过程中，Diffutoon能够识别并保留视频的关键结构信息，如角色的轮廓和物体的边缘，确保了即使在风格化之后，视频的主要内容和形状仍然清晰可辨。
- 自动着色：Diffutoon具备自动着色功能，能够根据视频内容和风格要求自动选择合适的颜色进行填充。自动着色不仅提高了生产效率，还能确保颜色的协调性和视觉吸引力，使得最终视频在色彩上更加和谐。
Diffutoon的官网入口
- 官方项目主页：https://ecnu-cilab.github.io/DiffutoonProjectPage/
- GitHub代码库：https://github.com/modelscope/DiffSynth-Studio
- arXiv技术论文：https://arxiv.org/abs/2401.16224
Diffutoon的技术原理
1. 扩散模型的应用：Diffutoon利用扩散模型作为图像合成的核心技术，通过学习数据集中的图像和视频的分布特性，实现从高维潜在空间到图像数据的转换。
2. 多模块去噪：Diffutoon构建了一个多模块去噪模型，该模型结合了ControlNet和AnimateDiff等技术，用于处理视频中的可控性和一致性问题。
3. 风格化、一致性增强、结构引导和着色：Diffutoon将卡通着色问题分解为四个子问题，每个子问题由特定的模型解决：
  - 风格化：使用个性化的Stable Diffusion模型实现动漫风格化。
  - 一致性增强：通过在UNet中插入基于AnimateDiff的运动模块，保持视频帧之间的内容一致性。
  - 结构引导：使用ControlNet模型提取和保留视频的结构信息，如轮廓。
  - 着色：另一个ControlNet模型用于上色，提高视频质量，即使输入视频分辨率较低。
4. 滑动窗口方法：采用滑动窗口方法迭代更新每一帧的潜在嵌入，这种方法有助于处理长视频并保持帧间的连贯性。
5. 编辑分支：除了主卡通着色管道外，Diffutoon还包含一个编辑分支，用于根据文本提示生成编辑信号，这些信号以彩色视频的形式提供给主管道。
6. 高效率的注意力机制：通过引入Flash Attention，减少GPU内存使用，提高处理高分辨率视频的效率。
7. 分类器自由引导：使用分类器自由引导机制，通过文本提示进行视觉质量的优化。
8. DDIM调度器：使用DDIM（Denoising Diffusion Implicit Models）去噪扩散隐式模型调度器控制视频生成过程，平衡了生成质量和速度。
9. 后期处理方法：采用如FastBlend等后期处理技术，进一步增强视频的长期一致性和视觉效果。
June 24, 2024