Category: AI项目和框架

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
StreamingT2V是什么

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型，旨在解决现有模型仅能生成16帧或24帧的高质量短视频，而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块（CAM）和外观保持模块（APM）以及随机混合方法，实现了长视频（最长达1200帧、时长2分钟）的流畅生成，确保了时间上的连贯性和与文本描述的紧密对齐。该方法不仅提高了视频的质量，还使得视频内容更加丰富和动态，从而在长视频生成领域取得了显著进步。

StreamingT2V的官网入口
- 官方项目主页：https://streamingt2v.github.io/
- GitHub代码库：https://github.com/Picsart-AI-Research/StreamingT2V（模型和源码待上线）
- arXiv研究论文：https://arxiv.org/abs/2403.14773
StreamingT2V的功能特性
- 长视频生成：StreamingT2V能够根据文本描述生成长视频（80, 240, 600, 1200帧或更多），远超传统模型通常生成的短视频长度。
- 时间连贯性：生成的视频帧之间具有平滑的过渡和一致性，避免了生成长视频时常见的硬切换或不连贯现象。
- 高质量图像帧：该模型注重帧级别的图像质量，保证即使在视频较长的情况下，每一帧的图像也能保持清晰和细腻。
- 文本对齐：StreamingT2V生成的视频紧密对齐于输入的文本提示描述，确保视频内容与用户的文本指导保持一致。
- 视频增强：利用随机混合方法，StreamingT2V可以在不引入块间不一致性的情况下，对生成的视频进行质量增强，提高视频的分辨率和视觉效果。
StreamingT2V的工作流程

StreamingT2V的工作流程可以分为以下几个主要阶段：
1. 初始化阶段（Initialization Stage）：
  - 在这一阶段，首先使用预训练的文本到视频模型（例如Modelscope）来合成一个初始的视频块，通常是一个短的16帧的视频序列。
2. 流式生成阶段（Streaming T2V Stage）：
  - 接下来，模型进入自回归的长视频生成过程。在这个阶段，StreamingT2V使用条件注意模块（CAM）和外观保持模块（APM）来生成长视频的后续帧。
  - CAM利用短期记忆，通过注意力机制关注前一个视频块的特征，从而实现块之间的平滑过渡。
  - APM则利用长期记忆，从初始视频块中提取关键的视觉特征，确保在整个视频生成过程中保持场景和对象的一致性。
3. 流式细化阶段（Streaming Refinement Stage）：
  - 在生成了足够长的视频（例如80, 240, 600, 1200帧或更多）后，模型进入细化阶段。
  - 在这一阶段，使用高分辨率的文本到视频模型（例如MS-Vid2Vid-XL）对生成的视频进行自回归增强。
  - 通过随机混合方法，对连续的24帧视频块进行增强，同时保持块之间的平滑过渡，从而提高视频的整体质量和分辨率。
March 25, 2024
SUPIR – 高保真的AI图像修复和画质增强模型
SUPIR是什么

SUPIR（Scaling-UP Image Restoration）是一个突破性的图像修复和画质增强方法，利用了大规模的生成模型StableDiffusion-XL（SDXL）和模型扩展技术，通过深度学习和多模态方法，实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制，能够根据用户的输入调整恢复的各个方面，如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的研究人员共同推出。

SUPIR的官网入口
- 官方项目主页：https://supir.xpixel.group/
- GitHub源码库：https://github.com/Fanghua-Yu/SUPIR
- arXiv研究论文：https://arxiv.org/abs/2401.13627
SUPIR的主要功能
- 高质量图像修复：SUPIR能够将低质量的图像恢复到接近原始状态的高质量版本，可以处理由于各种原因（如压缩、噪点、模糊等）导致的图像退化。
- 修复多种类型的图像：SUPIR能够有效修复多种类型的退化图像，包括风景、人脸、动物、游戏画面、老电影和老照片，可增强图像细节，恢复清晰度和真实感，让图像焕发新生。
- 文本提示引导修复：SUPIR允许用户通过文本提示来指导图像恢复的过程，可以指定恢复的特定方面，例如修复图像中的某个模糊物体、改变物体的材质纹理，或者根据高级语义调整图像的恢复效果。
- 负质量提示：SUPIR使用负质量提示来提高图像的感知质量，通过告诉模型哪些图像特征是不期望的（例如“油画效果、卡通化、模糊、脏乱、低质量”等），模型可以在恢复过程中避免这些特征，从而提升图像的整体质量。
SUPIR的工作原理
1. 生成性先验：SUPIR使用StableDiffusion-XL（SDXL）作为其生成性先验（Generative Prior），一个包含26亿参数大型的预训练图像生成模型。生成性先验是模型学习到的图像数据分布的知识，用于指导图像的生成和恢复过程。
2. 数据集和文本注释：为了训练SUPIR，研究者收集了一个包含2000万张高分辨率、高质量的图像的数据集，每张图像都有详细的描述性文本注释。这些注释提供了图像内容的额外信息，使得模型能够更好地理解和恢复图像。
3. 适配器：为了有效地应用SDXL模型，研究者设计并训练了一个适配器，该适配器具有超过6亿参数。适配器的作用是识别低质量图像中的内容，并在像素级别上精细控制生成过程。
4. 文本提示控制：SUPIR能够根据用户提供的文本提示来指导图像的恢复，提示词可以是关于图像内容的具体描述，也可以是关于期望图像质量的高级语义描述。
5. 负质量提示和训练样本：为了提高图像的感知质量，SUPIR引入了负质量提示，帮助模型理解不希望出现的图像特征。研究者通过使用SDXL生成对应于负质量提示的图像，并将这些图像纳入训练数据中，以确保模型能够学习到这些负质量概念。
6. 恢复引导采样：为了防止生成过程中的图像失真，SUPIR采用了一种新颖的恢复引导采样方法，在扩散过程中有选择性地引导预测结果接近低质量图像，以保持恢复的一致性。
7. 模型训练和采样设置：SUPIR在训练过程中使用了合成退化模型，并在64个Nvidia A6000 GPU上进行了为期10天的训练。测试时，模型能够处理1024×1024像素大小的图像。
SUPIR的应用场景
- 老照片修复：SUPIR可以用于修复老化、损坏或褪色的老照片，恢复其原始的色彩和细节，使珍贵的记忆得以保存和传承。
- 模糊图像增强：对于因手抖、对焦错误或运动模糊导致的照片，SUPIR能够通过先进的算法提高图像的清晰度，使得原本模糊的图像变得更加锐利。
- 噪点去除：在高ISO或低光照条件下拍摄的照片往往会有噪点。SUPIR能够有效地识别并去除这些噪点，同时保留图像的重要细节。
- 色彩校正和增强：SUPIR能够识别和修正色彩失真问题，如过度饱和或色彩偏差，使图像的色彩更加真实和生动。
March 25, 2024
BrushNet – 腾讯推出的高质量图像照片修复模型
BrushNet是什么

BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复（Inpainting）模型，通过分解的双分支架构来有效处理图像中的遮罩区域。该模型的一个分支专注于提取遮罩图像的像素级特征，而另一个分支则负责图像的生成。这种设计使得BrushNet能够将关键的遮罩信息以分层的方式精细地融入到修复过程中，从而在保持原有图像内容连贯性的同时，生成高质量的修复结果。

与以前的图像修复方法相比（如Blended Latent Diffusion、Stable Diffusion Inpainting、HD-Painter、PowerPaint等），BrushNet的图像还原修复能力无论是在风格、内容，还是颜色和提示对齐等方面都表现出了优越的连贯性。

BrushNet的官网入口
- 官方项目主页：https://tencentarc.github.io/BrushNet/
- GitHub代码库：https://github.com/TencentARC/BrushNet
- arXiv研究论文：https://arxiv.org/abs/2403.06976
BrushNet的功能特性
- 修复不同类型的图像：BrushNet可修复不同场景的图像，如人类、动物、室内和室外场景，还可以修复不同风格的图像，如自然图像、铅笔画、动漫、插图、水彩等。
- 像素级修复：BrushNet能够识别和处理图像中的遮罩区域，对每个像素进行精确的修复，确保修复区域与原始图像在视觉上的无缝对接。
- 保留未遮罩区域：通过分层控制和特定的模糊融合策略，BrushNet能够在修复过程中保留未被遮罩的区域，避免对原始图像内容的不必要改动。
- 与预训练模型的兼容性：作为一个即插即用的模型，BrushNet可以与各种预训练的扩散模型（如DreamShaper、epiCRealism、MeinaMix等）结合，利用这些模型的强大生成能力来完成修复任务。
- 灵活性和控制性：用户可以通过调整模型的参数来控制修复的规模和细节，包括修复区域的大小和修复内容的详细程度。
BrushNet的工作原理

BrushNet 基于扩散模型通过一个创新的双分支架构来执行图像修复任务。

以下是BrushNet工作原理的简要概述：
1. 双分支架构：BrushNet的核心是一个分解的双分支架构，其中一个分支专注于处理遮罩图像的特征，而另一个分支负责生成图像的其余部分。
2. 遮罩图像特征提取：在遮罩分支中，模型使用变分自编码器（VAE）对遮罩图像进行编码，以提取其潜在特征。这些特征随后被用来指导图像的修复过程。
3. 预训练扩散模型：在生成分支中，模型利用预训练的扩散模型来生成图像内容。这个模型已经学会了如何从噪声中恢复出清晰的图像。
4. 特征融合：提取的遮罩图像特征被逐步融合到预训练的扩散模型中，这样可以通过层级的方式细致地控制修复过程。
5. 去噪和生成：在反向扩散过程中，模型通过迭代去噪步骤，逐步从噪声中恢复出清晰的图像。每一步都会考虑遮罩图像的特征，以确保修复区域与原始图像的其余部分在视觉上保持一致。
6. 模糊融合策略：为了更好地保留未遮罩区域的细节，BrushNet采用了模糊融合策略。这意味着在融合遮罩区域和生成区域时，会使用模糊的遮罩来减少硬边缘和不自然的过渡。
7. 输出修复图像：最终，模型输出一个修复后的图像，其中遮罩区域被自然而连贯地填充，同时未遮罩区域的原始内容得到保留。
March 23, 2024
LATTE3D – 英伟达推出的文本快速生成3D对象的模型
LATTE3D是什么

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型，能够从文本提示描述快速生成高质量的3D内容（仅需400毫秒）。该技术的核心在于采用了一种称为“摊销优化（amortized）”的方法，即在大量文本提示上同时优化一个共享的文本条件模型，以此提高模型对新提示的泛化能力，从而减少了生成每个3D对象所需的时间。

LATTE3D的官网入口
- 官方项目主页：https://research.nvidia.com/labs/toronto-ai/LATTE3D/
- 研究论文：https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view
LATTE3D的主要功能
- 文本到3D合成： 能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示，如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”，来生成具有特定特征和风格的3D对象。
- 快速生成： LATTE3D可以在大约400毫秒内生成3D对象，这使得它能够实时地响应用户的输入，为用户提供即时的视觉反馈。
- 高质量渲染： 通过结合神经场和纹理表面生成，LATTE3D能够产生具有高细节水平的纹理网格，提供视觉上令人信服的3D渲染结果。
- 3D风格化： LATTE3D还可以作为3D风格化工具，允许用户在现有的3D资产上应用新的风格或主题，从而创造出多样化的视觉表现。
LATTE3D的架构方法

LATTE3D 的训练包含两个阶段：首先，使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性，训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后，使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。

LATTE3D 的方法使用两个网络：纹理网络 T 和几何网络 G，两者均由 triplanes 和 U-Net 的组合组成。在第一阶段，两个网络的编码器共享相同的权重集。在第二阶段，冻结几何网络 G 并更新纹理网络 T，并使用输入文本嵌入的 MLP 进一步对 triplanes 进行上采样。
March 22, 2024
Mora – 微软等推出的可生成12秒视频的多AI智能体框架
Mora是什么

Mora是由来自微软和理海大学的研究人员推出的一个多智能体（AI Agents）框架，专门用于通用视频生成任务，目标是模拟并扩展OpenAI的Sora视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频内容，Mora通过分解视频生成过程为多个子任务，并为每个子任务分配一个专门的智能体，从而实现了各种视频生成的功能。

根据论文中的实验结果显示，Mora在生成高分辨率（1024×576）且时间持续12秒的视频方面表现出色，总共包含75帧。但当涉及大量物体运动的场景时，Mora与Sora相比存在显著的性能差距。此外，尝试生成超过12秒的视频会导致视频质量显著下降。

Mora的主要功能
- 文本到视频生成：Mora可以根据用户提供的文本描述自动生成相应的视频内容，能适用于从简单的场景描述到复杂故事情节的视频创作。
- 图像到视频生成：除了直接从文本生成视频，Mora还能够结合用户提供的初始图像和文本提示，生成与之相匹配的视频序列，增强内容的丰富性和细节。
- 扩展生成视频：Mora不仅可以从头开始生成视频，还能够对现有的视频内容进行扩展和编辑，增加新的元素或延长视频的持续时间。
- 视频到视频编辑：Mora具备高级编辑功能，能够根据用户的文本指令对视频进行编辑，如改变场景、调整对象属性或添加新元素。
- 连接视频：Mora能够将两个或多个视频片段无缝连接起来，创造出流畅的过渡效果，适用于制作视频合集或剪辑。
- 模拟数字世界：Mora还能够创建和模拟数字世界，可根据文本描述创造出具有数字世界风格的视频序列，如游戏场景或虚拟环境。
Mora的官网入口
- GitHub地址：https://github.com/lichao-sun/Mora（源码和模型待开源）
- arXiv研究论文：http://arxiv.org/abs/2403.13248
Mora的工作原理

Mora的工作原理基于一个多智能体框架，该框架通过协同多个专门化的AI智能体来完成视频生成任务。每个智能体都负责处理特定的子任务，这些子任务共同构成了完整的视频生成流程。

以下是Mora工作流程的详细步骤：
1. 任务分解：Mora将复杂的视频生成任务分解为多个子任务，每个子任务都由一个专门的智能体来处理。
2. 智能体角色定义：Mora定义了以下五种基本角色的智能体：
  - 提示选择与生成智能体：使用大型语言模型（如GPT-4或Llama）来优化和选择文本提示，以提高生成图像的相关性和质量。
  - 文本到图像生成智能体：将文本提示转换为高质量的初始图像。
  - 图像到图像生成智能体：根据文本指令修改给定的源图像。
  - 图像到视频生成智能体：将静态图像转换成动态视频序列。
  - 视频连接智能体：基于两个输入视频创建平滑过渡的视频。
3. 工作流程：Mora根据任务需求，自动组织智能体按照特定的顺序执行子任务。例如，文本到视频的生成任务可能包括以下步骤：
  - 首先，提示选择与生成智能体处理文本提示。
  - 接着，文本到图像生成智能体根据优化后的文本提示生成初始图像。
  - 然后，图像到视频生成智能体将初始图像转换成视频序列。
  - 最后，如果需要，视频连接智能体可以将多个视频片段连接成一个连贯的视频。
4. 多智能体协作：智能体之间通过预定义的接口和协议进行通信和协作，确保整个视频生成过程的连贯性和一致性。
5. 生成与评估：每个智能体完成其子任务后，会将结果传递给下一个智能体，直至完成整个视频生成流程。生成的视频可以根据预定义的评估标准进行质量评估。
6. 迭代与优化：Mora框架允许通过迭代和优化来改进视频生成的质量。智能体可以根据反馈调整其参数，以提高生成视频的质量和与文本提示的一致性。
March 21, 2024
StreamMultiDiffusion – 实时生成和编辑图像的交互式框架
StreamMultiDiffusion是什么

StreamMultiDiffusion是一个开源的实时交互式的图像生成框架，结合了扩散模型的高质量图像合成能力和区域控制的灵活性，可根据用户指定的区域文本提示生成实时、交互式、多文本到图像。该框架的目的是提高图像生成的速度和用户交互性，使得用户能够实时地生成和编辑图像。

StreamMultiDiffusion的官网入口
- GitHub源码：https://github.com/ironjr/StreamMultiDiffusion
- Hugging Face Demo：https://huggingface.co/spaces/ironjr/SemanticPalette
- arXiv研究论文：https://arxiv.org/abs/2403.09055
StreamMultiDiffusion的功能特性
- 实时图像生成：StreamMultiDiffusion能够实现快速的图像生成，使得用户可以实时地看到由文本描述转换成的图像。这种实时性大大提高了用户体验，并允许即时的迭代和修改。
- 指定区域文本到图像生成：用户可以通过指定的文本提示和手绘区域来生成图像的特定部分。这意味着用户可以控制图像的特定区域，如指定某个区域应包含“鹰”或“女孩”，而其他区域则由模型根据上下文自动生成。
- Semantic Palette（语义画板）允许用户通过直观的方式与模型交互，类似于使用画笔在画布上绘制。用户可以通过输入文本提示和绘制区域来“绘制”图像，从而实现高度个性化的图像创作。
- 高质量图像输出：利用强大的扩散模型，StreamMultiDiffusion能够生成高分辨率和高质量的图像，满足专业级图像生成的需求。
- 直观的用户交互界面：StreamMultiDiffusion提供了一个直观的用户界面，使得用户可以通过简单的操作来控制图像生成过程，包括上传背景图像、输入文本提示、绘制区域以及实时查看生成结果。
StreamMultiDiffusion的工作原理
1. 多提示流批处理架构：StreamMultiDiffusion将模型重构为一个新的流批处理架构，可同时处理多个文本提示和对应的区域掩码（masks）。该架构通过在每个时间步输入新的图像和上一批处理过的图像，使得模型能够在不同的时间步处理不同阶段的图像生成任务，从而提高整体的生成速度和效率。
2. 快速推理技术：为了实现实时生成，StreamMultiDiffusion采用了快速推理技术，如Latent Consistency Models（LCM）和其LoRA（Low-rank Adaptation）扩展，减少了从扩散模型生成图像所需的推理步骤，从而加快了生成速度。
3. 区域控制：StreamMultiDiffusion允许用户通过手绘区域和文本提示来控制图像的特定部分。这些区域掩码指导模型在指定区域内生成与文本提示相对应的内容，从而实现对图像细节的精细控制。
4. 稳定化技术：为了确保在快速推理的同时保持图像质量，StreamMultiDiffusion引入了几种稳定化技术：
  - Latent Pre-Averaging：在进行区域合成之前，先对潜在表示进行预平均，以减少不同区域间的突兀感。
  - Mask-Centering Bootstrapping：在生成过程的早期阶段，将区域的中心引导到图像的中心位置，以确保模型不会在后续步骤中忽略这些区域。
  - Quantized Masks：通过量化掩码来平滑区域边界，使得不同区域之间的过渡更加自然。
5. Semantic Palette（语义画板）：这是StreamMultiDiffusion提出的一个新的交互式图像生成范式，允许用户通过文本提示和手绘区域来“绘制”图像。用户可以实时地调整这些输入，模型将根据这些输入生成相应的图像。
6. 实时反馈和迭代：StreamMultiDiffusion提供了一个实时反馈机制，用户可以通过观察生成的图像流来评估模型的输出，并根据需要实时调整文本提示和区域掩码。这种实时反馈机制使得用户可以快速迭代和优化生成的图像。
如何使用StreamMultiDiffusion
1. 访问StreamMultiDiffusion的Hugging Face空间
2. 点击Background输入画面背景提示，若绘制整个画板，则不需要输入背景提示
3. 选择语义画板中的画笔并编辑画笔的提示词，然后开始绘制
4. 绘制完成后点击右侧的Generate按钮等待图像生成
March 21, 2024
AnimateDiff-Lightning – 字节推出的快速生成高质量视频的模型
AnimateDiff-Lightning是什么

AnimateDiff-Lightning是由字节跳动的研究人员最新推出的一个高质量视频生成模型，利用了渐进式对抗性扩散蒸馏技术来实现快速的视频生成。该模型旨在解决现有视频生成模型在速度和计算成本上的主要挑战，同时保持生成视频的高质量，相较于原始的 AnimateDiff，生成视频的速度快十倍以上！

AnimateDiff-Lightning的官网入口
- Hugging Face模型地址：https://huggingface.co/ByteDance/AnimateDiff-Lightning
- Hugging Face Demo运行：https://huggingface.co/spaces/AP123/AnimateDiffLightning
- arXiv研究论文：https://arxiv.org/html/2403.12706v1
AnimateDiff-Lightning的功能特性
- 快速视频生成：AnimateDiff-Lightning能够通过少步骤推断（few-step inference）快速生成视频，显著减少了视频生成所需的时间，使其适用于需要即时或快速内容生成的场景。
- 高质量输出：尽管生成速度快，AnimateDiff-Lightning仍然能够保持视频内容的高质量，确保生成的视频在视觉上具有较高的清晰度和细节表现。
- 风格兼容性：通过跨模型蒸馏技术，AnimateDiff-Lightning能够适应多种不同的基础模型，这意味着它可以生成具有不同艺术风格（如现实主义、动漫、卡通等）的视频内容。
- 不同宽高比的视频生成：AnimateDiff-Lightning能够在不同的宽高比下生成视频，支持多种视频格式和布局要求。
- 视频到视频的转换：AnimateDiff-Lightning不仅支持从文本到视频的生成，还能够进行视频到视频的风格转换，为用户提供高度的创作自由度。
- 与控制模块的兼容性：AnimateDiff-Lightning可以与图像控制模块（如ControlNet）和相机运动模块（如Motion LoRA）结合使用，进一步增强视频内容的控制能力。
AnimateDiff-Lightning的工作原理

AnimateDiff-Lightning的方法是基于AnimateDiff模型的改进，并通过跨模型扩散蒸馏技术来提高视频生成的速度和质量。以下是AnimateDiff-Lightning方法的关键步骤和组成部分：

1. 模型和数据准备
- 选择基础模型：AnimateDiff-Lightning选择了多个流行的基础模型，包括现实风格和动漫风格的模型，如Stable Diffusion v1.5、RealisticVision v5.1、epiCRealism、ToonYou Beta 6、IMP v1.0和Counterfeit v3.0。
- 数据生成：使用AnimateDiff模型和选定的基础模型生成大量的视频剪辑数据，以支持蒸馏过程。这些数据包括从WebVid-10M数据集生成的现实风格视频和使用文本提示生成的动漫风格视频。
2. 跨模型蒸馏
- 共享运动模块：AnimateDiff模型由冻结的图像基础模型和共享的运动模块组成。在蒸馏过程中，只更新运动模块的权重，而保持图像基础模型的权重不变。
- 多GPU训练：在不同的GPU上加载不同的图像基础模型，并初始化相同的运动模块。这样可以同时在多个基础模型上进行蒸馏，提高了训练效率。
3. 流条件视频判别器
- 扩展判别器：为了处理多个基础模型的不同流动，判别器被扩展为流条件的，即它可以根据基础模型的索引来学习并评估不同的流动轨迹。
- 训练判别器：判别器与扩散模型和蒸馏模型一起训练，以确保生成的视频在风格和质量上与原始模型相匹配。
4. 蒸馏过程
- 渐进式蒸馏：AnimateDiff-Lightning按照128 → 32 → 8 → 4 → 2的步骤顺序进行蒸馏，使用均方误差（MSE）和分类器自由引导（CFG）进行初步蒸馏，然后使用对抗性损失进行后续步骤。
- 梯度累积：由于GPU内存限制，每个GPU只能处理一个批次，因此使用梯度累积技术来实现较大的有效批次大小。
5. 评估和测试
- 定性评估：通过与原始AnimateDiff和AnimateLCM模型的比较，展示AnimateDiff-Lightning在不同推断步骤下生成视频的质量。
- 定量评估：使用FVD（Fréchet Video Distance）指标对不同基础模型上生成的视频进行定量比较，以证明AnimateDiff-Lightning在保持原始质量方面的优势。
March 20, 2024
Stable Video 3D (SV3D) – 多视角合成和3D生成模型，由Stability AI推出
Stable Video 3D是什么

Stable Video 3D（简称SV3D）是由Stability AI公司开发的一个多视角合成和3D生成模型，能够从单张图片生成一致的多视角图像，并进一步优化生成高质量的3D网格模型。该模型在之前发布的Stable Video Diffusion模型的基础上进行了改进，提供了更好的质量和多视角体验。相较于其他的3D生成模型，SV3D的主要优势在于其使用视频扩散模型而不是图像扩散模型，这在生成输出的泛化性和视角一致性方面提供了显著的好处。

Stable Video 3D的功能特性
- 多视角视频生成：SV3D能够从单张图片输入生成多个视角的视频内容。用户可以从不同的方向和角度查看对象，每个视角都是高质量的，并且保持了视角之间的一致性。
- 3D网格创建：通过使用生成的多视角视频和Stable Video 3D模型，用户可以创建对象的3D网格。这些3D网格是从二维图像中推断出来的，可以用于各种3D应用，如游戏开发、虚拟现实、增强现实等。
- 轨道视频生成：Stable Video 3D提供了生成围绕对象的轨道视频的能力，允许用户创建围绕对象旋转或移动的视频，提供了一种动态的视角体验。
- 相机路径控制：SV3D支持沿着指定的相机路径创建3D视频，用户可以精确控制视频的视角和相机运动，为创作提供了更高的自由度。
- 新视角合成（NVS）：SV3D在新视角合成方面取得了显著进展，能够从任何给定的角度生成一致且逼真的视图，提高了3D生成的真实感和准确性。
Stable Video 3D的官网入口
- 官方项目主页：https://sv3d.github.io/
- 技术报告：https://stability.ai/s/SV3D_report.pdf
- Hugging Face模型：https://huggingface.co/stabilityai/sv3d
Stable Video 3D的工作原理
1. 新视角合成（NVS）:
  - 输入图像：用户提供的单张2D图像作为输入，该图像包含一个或多个对象。
  - 相机姿态控制：定义一个相机轨迹，包括一系列的角度（仰角和方位角），用于控制生成图像的视角。
  - 潜在视频扩散模型：使用一个训练有素的潜在视频扩散模型（如Stable Video Diffusion – SVD），该模型能够根据输入图像和相机姿态生成一系列新的视角图像。这些图像模拟了围绕3D对象的轨道视频。
2. 3D表示优化:
  - 粗略3D重建：使用生成的多视角图像作为目标，通过训练一个NeRF（Neural Radiance Fields）模型来重建3D对象的粗略表示。这个步骤在较低分辨率下进行，以捕捉对象的大致形状和纹理。
  - 网格提取：从训练好的NeRF模型中提取一个初步的3D网格，通常使用Marching Cubes算法。
  - 精细优化：采用DMTet（Deep Marching Tetrahedra）表示来进一步细化3D网格，这个步骤在高分辨率下进行，以提高细节的准确性和网格的质量。
3. 改进的3D优化技术:
  - 掩蔽分数蒸馏采样（SDS）损失：为了提高不可见区域的3D质量，SV3D引入了一种掩蔽分数蒸馏采样损失。这种损失函数专注于在训练过程中填充和优化那些在参考视角中不可见的区域。
  - 解耦照明模型：SV3D还提出了一种解耦照明模型，该模型独立于3D形状和纹理进行优化，以减少由于固定照明条件导致的渲染问题。
4. 训练和评估:
  - 数据集：SV3D在包含多样化3D对象的数据集上进行训练，如Objaverse数据集。
  - 评估：通过与真实世界的3D数据和其他NVS方法的比较，评估SV3D生成的多视角图像和3D网格的质量。
March 19, 2024
VLOGGER – 谷歌推出的图像到合成人物动态视频的模型
VLOGGER是什么

VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型，专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型，将一张静态图片转换成一个动态的视频角色，同时保持照片中人物的逼真外观。此外，VLOGGER还能够根据音频来控制人物动作，不仅仅是面部动作和嘴唇同步，还包括头部运动、目光、眨眼以及上身和手部手势，从而将音频驱动的视频合成推向了一个新的高度。

VLOGGER的官网入口
- 官方项目主页：https://enriccorona.github.io/vlogger/
- arXiv研究论文：https://arxiv.org/abs/2403.08764v1
VLOGGER的功能特性
- 图像和音频驱动的视频生成： VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频，VLOGGER将生成一个视频中的人物，其面部表情、嘴唇动作和身体语言与音频同步。
- 多样性和真实性： VLOGGER生成的视频具有高度的多样性，能够展示原始主体的不同动作和表情，同时保持背景的一致性和视频的真实性。
- 视频编辑： VLOGGER可以用于编辑现有视频，例如改变视频中人物的表情，使其与原始视频的未改变像素保持一致。
- 生成移动和说话的人物： VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频，即使没有视频中人物的原始视频资料。
- 视频翻译： VLOGGER能够将一种语言的视频转换为另一种语言的视频，通过编辑唇部和面部区域以匹配新的音频，实现跨语言的视频内容适配。
VLOGGER的工作原理

VLOGGER的工作原理主要基于一个两阶段的流程，结合了音频驱动的运动生成和时间连贯的视频生成。

第一阶段：音频驱动的运动生成
1. 音频处理：VLOGGER首先接收一段音频输入，这可以是语音或音乐。如果输入是文本，它也会通过文本到语音（TTS）模型转换为音频波形。
2. 3D运动预测：接着，系统使用一个基于变换器（Transformer）架构的网络来处理音频输入。这个网络被训练来预测与音频同步的3D面部表情和身体姿势。网络使用多步注意力层来捕捉音频的时间特征，并生成一系列的3D姿势参数。
3. 生成控制表示：网络输出的是一系列预测的面部表情（θe i）和身体姿势的残差（∆θb i）。这些参数随后用于生成控制视频生成过程的2D表示。
第二阶段：时间连贯的视频生成
1. 视频生成模型：VLOGGER的第二个阶段是一个时间扩散模型，它接收第一阶段生成的3D运动控制和一张参考图像（即输入的单一人物图像）。
2. 条件化视频生成：视频生成模型是一个基于扩散的图像到图像翻译模型，它利用预测的2D控制来生成一系列帧，这些帧按照输入的音频和3D运动参数进行动画处理。
3. 超分辨率：为了提高视频质量，VLOGGER还包括一个超分辨率扩散模型，它将基础视频的分辨率从128×128提升到更高的分辨率，如256×256或512×512。
4. 时间外延：VLOGGER使用时间外延（temporal outpainting）的技术来生成任意长度的视频。它首先生成一定数量的帧，然后基于前一帧的信息迭代地生成新的帧，从而扩展视频的长度。
数据集和训练
- VLOGGER在名为MENTOR的大规模数据集（2200个小时和800000个身份）上进行训练，这是一个包含大量身份和动态手势的大规模数据集。训练过程中，模型学习如何根据3D姿势参数和输入图像生成连贯的、高质量的视频序列。
March 19, 2024
Open-Sora – 开源的类Sora架构的视频生成模型和复现方案
Open-Sora是什么

Open-Sora是由Colossal-AI团队开源的视频生成模型，旨在复现OpenAI的Sora视频生成产品。Open-Sora同样基于DiT架构，通过三个阶段训练：大规模图像预训练、大规模视频预训练和高质量视频数据微调，以生成与文本描述相符的视频内容。该开源解决方案涵盖了整个视频生成模型的训练过程，包括数据处理、所有训练细节和模型检查点，供所有对文生视频模型感兴趣的人免费学习和使用。

Open-Sora的官网入口
- 官方项目主页：https://hpcaitech.github.io/Open-Sora/
- GitHub代码库：https://github.com/hpcaitech/Open-Sora
Open-Sora的模型架构

Open-Sora模型采用当前流行的Diffusion Transformer（DiT）架构，使用华为开源的PixArt-α高质量文本到图像生成模型，并通过添加时间注意力层将其扩展为生成视频。具体设计如下：

核心组件
- 预训练的VAE (变分自编码器)：VAE是用于数据压缩的组件，它将输入的视频数据映射到一个潜在空间的低维表示。在Open-Sora中，VAE的编码器部分在训练阶段用于压缩视频数据，而在推理阶段，它从潜在空间中采样高斯噪声并生成视频。
- 文本编码器：这个组件负责将文本提示（如描述视频内容的句子）转换为文本嵌入，这些嵌入随后与视频数据结合，以确保生成的视频符合文本描述。
- STDiT (Spatial Temporal Diffusion Transformer)：这是Open-Sora的核心组件，一个利用空间-时间注意力机制的DiT模型。STDiT通过串行地在二维空间注意力模块上叠加一维时间注意力模块来建模视频数据中的时序关系。此外，交叉注意力模块用于对齐文本的语义信息。
架构设计
- 空间-时间注意力机制：STDiT模型的每一层都包含空间注意力模块和时间注意力模块。空间注意力模块处理视频帧的二维空间特征，而时间注意力模块则处理帧之间的时序关系。这种设计使得模型能够有效地处理视频数据中的空间和时间维度。
- 交叉注意力：在时间注意力模块之后，交叉注意力模块用于将文本嵌入与视频特征融合，确保生成的视频内容与文本描述相匹配。
- 训练与推理流程：在训练阶段，VAE的编码器将视频数据压缩，然后与文本嵌入一起用于训练STDiT模型。在推理阶段，从VAE的潜在空间中采样出噪声，与文本提示一起输入到STDiT模型中，生成去噪后的特征，最后通过VAE的解码器解码得到最终的视频。
Open-Sora的复现方案

Open-Sora的训练复现方案参考了Stable Video Diffusion (SVD)的工作，分为三个阶段：大规模图像预训练、大规模视频预训练和高质量视频数据微调。通过这三个阶段的训练复现方案，Open-Sora模型能够逐步提升其视频生成的能力，从基础的图像理解到复杂的视频内容生成，最终达到高质量的视频生成效果。

第一阶段：大规模图像预训练

在第一阶段，模型通过大规模图像数据集进行预训练，以建立对图像内容的基本理解。这个阶段的目的是利用现有的高质量图像生成模型（如Stable Diffusion）作为基础，来初始化视频生成模型的权重。通过这种方式，模型能够从图像数据中学习到丰富的视觉特征，为后续的视频预训练打下坚实的基础。

第二阶段：大规模视频预训练

第二阶段专注于大规模视频数据的预训练，目的是增强模型对视频时间序列的理解。在这个阶段，模型通过大量的视频数据进行训练，以学习视频中的时序关系和动态变化。为了提高模型的泛化能力，需要确保视频题材的多样性。此外，模型在这个阶段会加入时序注意力模块，以更好地处理时间序列数据。这个阶段的训练会在第一阶段的基础上进行，使用前一阶段的权重作为起点。

第三阶段：高质量视频数据微调

最后一个阶段是对模型进行微调，使用高质量的视频数据来进一步提升生成视频的质量和真实感。在这个阶段，虽然使用的视频数据量可能比第二阶段少，但视频的时长、分辨率和质量都会更高。微调过程有助于模型捕捉到更加细致和逼真的视频内容，从而生成更加符合用户期望的视频。
March 18, 2024