Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架，紧跟最新AI领域的进展，解读AI研究论文和方法框架，帮你快速了解这些项目的工作原理。

SWE-agent – 普林斯顿开源的AI程序员智能体
SWE-agent是什么

SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统，利用大型语言模型（如GPT-4）的能力，可以自动解决GitHub存储库中的问题。SWE-agent通过智能体-计算机接口（ACI）与代码库交互，能够执行代码的浏览、编辑、测试和执行等任务。该系统在SWE-bench测试集上展现出与闭源AI程序员Devin相似的准确度，平均93秒解决一个问题，实现了SOTA 性能。

在25%的SWE-bench测试集上，SWE-agent 实现了与 Devin 相似的准确度—— 解决了12.29%的问题。SWE-agent目前已在GitHub上开源，研究论文将于4月10日发布。

SWE-agent的官网入口
- 官方项目主页：https://swe-agent.com/
- GitHub源码库：https://github.com/princeton-nlp/SWE-agent
- 官方在线Demo：https://swe-agent.com/demo
SWE-agent的主要功能
- Pull Request问题解决：SWE-agent能够理解GitHub存储库中的问题，并尝试通过创建拉取请求（pull request）来修复这些问题。
- 代码编辑与修复：SWE-agent能够浏览和编辑代码库中的文件，自动修复代码中的错误和漏洞。
- 自动语法检查：在代码编辑过程中，SWE-agent可以运行linter（代码检查工具），确保代码符合语法规范。
- 文件查看器：提供了一个专门构建的文件查看器，能够在每轮显示100行代码，支持上下滚动和搜索功能，以便更有效地查看和编辑代码。
- 全目录字符串搜索：SWE-agent具备全目录字符串搜索功能，能够简洁地列出所有匹配搜索条件的文件和代码片段。
- 命令与反馈：通过智能体-计算机接口（ACI），SWE-agent能够接收和执行以自然语言形式给出的命令，并提供相应的反馈。
- 测试编写与执行：SWE-agent能够编写并执行测试代码，验证修复的有效性。
SWE-agent的工作流程
- 理解问题：首先，SWE-agent通过自然语言处理（NLP）技术理解GitHub存储库中的问题描述。这一步骤依赖于其内部集成的大型语言模型（如GPT-4），该模型能够解析和理解人类编写的问题报告。
- 智能体-计算机接口（ACI）：SWE-agent使用ACI与代码库进行交互。ACI是一套设计用来简化大模型与计算机系统交互的命令和反馈格式。通过ACI，SWE-agent可以浏览代码库、搜索文件、查看和编辑代码，甚至执行代码。
- 代码分析与修复：在理解了问题之后，SWE-agent会分析相关的代码，定位可能的错误或漏洞，并生成修复方案。这可能包括修改现有代码、添加缺失的代码或者重构代码结构。
- 自动化测试：为了确保修复有效，SWE-agent能够自动编写和执行测试用例。这些测试用例旨在验证代码更改是否解决了原始问题，并且没有引入新的错误。
- 性能反馈：SWE-agent执行的每一步操作都会产生反馈，这些反馈用于评估其工作的效果。特别是在SWE-bench基准测试中，SWE-agent会评估其生成的拉取请求是否真正解决了问题。
- 迭代与优化：SWE-agent的设计允许不断的迭代和优化。研究团队通过收集使用中的反馈和性能数据，不断改进ACI设计，提高SWE-agent的问题解决能力和代码修复的准确性。
April 3, 2024
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型
Voice Engine是什么

Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术，能够利用简短的15秒音频样本和文本输入，生成接近原声的自然听起来的语音。该项技术自2022年底开发以来，已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛，包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流者、帮助恢复患者的声音等。同时，为确保技术的安全使用，OpenAI制定了严格的使用政策，防止声音冒充，并采取了包括水印追踪在内的多项安全措施。

官方博客介绍：https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Voice Engine的应用场景和案例
- 教育与阅读辅助：Voice Engine可以为儿童和非读者提供自然听起来的语音，帮助他们更好地接触和理解书面内容。例如，教育技术公司Age of Learning利用这一技术生成预设脚本的语音内容，并与GPT-4结合，创造实时、个性化的互动响应，以提高学生的学习体验。
- 内容翻译与全球化：通过Voice Engine，视频和播客等内容可以被翻译成听众的母语，同时保留原始说话者的口音，使得创作者和企业能够以更加地道和亲切的方式触及全球听众。例如，AI视觉叙事平台HeyGen使用Voice Engine进行视频翻译，使其内容能够跨越语言障碍，触及更广泛的受众。
- 改善偏远地区的服务提供：Voice Engine能够通过提供本地语言的服务，改善偏远社区的基本服务，如健康咨询等。Dimagi公司正在开发工具，使用Voice Engine和GPT-4为社区卫生工作者提供互动反馈，帮助他们提高技能。
- 支持言语残障人士：对于有交流障碍的个体，Voice Engine可以提供独特且非机械性的声音，使他们能够通过增强和替代通讯（AAC）设备进行交流。Livox公司就是利用这一技术，为其用户提供多种语言的自然听起来的声音，让他们能够更好地表达自己。
- 恢复患者的声音：对于那些因疾病或神经问题而失去语言能力的患者，Voice Engine可以帮助他们恢复或重建自己的声音。例如，Norman Prince Neurosciences Institute正在探索如何使用Voice Engine帮助因肿瘤或神经原因导致语言障碍的个体。
Voice Engine的音频示例

1. 音频翻译

参考英文音频

生成的中文音频

2. 患者声音恢复

患者原声

参考音频

生成音频

如何使用Voice Engine

Voice Engine目前还处于小规模预览阶段，并没有广泛发布。OpenAI正在通过与一小部分可信赖的合作伙伴进行私下测试，以更好地理解这项技术的可能用途，并且根据这些小规模测试的结果和收到的反馈，来决定如何以及是否在未来更广泛地部署这项技术。

因此，目前Voice Engine并没有对公众开放在线使用。OpenAI采取了谨慎的态度，以确保在推广这项技术的同时，能够充分考虑到其潜在的滥用风险，并制定相应的安全措施和使用政策。未来，OpenAI可能会根据测试结果和社会发展的需要，决定是否将Voice Engine提供给更广泛的用户群体。
March 30, 2024
Jamba – AI21开源的首个基于Mamba架构的大模型
Jamba是什么

Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型，目前大部分的大模型（如GPT、Gemini 和 Llama）都是基于 Transformer 结构。而 Jamba 结合了 Mamba 结构化状态空间模型（SSM）和传统Transformer 架构，兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口，显著提升了处理长文本时的吞吐量和效率。

Jamba 以开放权重的形式发布，遵循Apache 2.0开源许可，鼓励社区进行进一步的研究和优化。目前，Jamba 目前作为研究模型发布，没有必要的商业用途保障。AI21 Labs 计划在未来几周内发布一个经过微调、更安全的版本。

Jamba的官网入口
- 官方项目主页：https://www.ai21.com/jamba
- 官方博客介绍：https://www.ai21.com/blog/announcing-jamba
- Hugging Face地址：https://huggingface.co/ai21labs/Jamba-v0.1
Jamba的主要特性
- SSM-Transformer混合架构：Jamba是首个采用Mamba SSM（结构化状态空间模型）与Transformer架构相结合的生产级模型，这种创新的混合架构旨在提升模型的性能和效率。
- 大容量上下文窗口：Jamba提供了256K的上下文窗口，这使得模型能够处理更长的文本序列，适用于更复杂的自然语言处理任务。
- 高吞吐量：相比于同等规模的Mixtral 8x7B模型，Jamba在处理长上下文时实现了3倍的吞吐量提升，可以更高效地处理大量数据。
- 单GPU大容量处理：Jamba能够在单个GPU上处理高达140K的上下文，显著提高了模型的可访问性和部署的灵活性。
- 开放权重许可：Jamba的权重以Apache 2.0许可发布，为研究者和开发者提供了自由使用、修改和优化模型的权限，促进了技术的共享和创新。
- NVIDIA API集成：Jamba将作为NVIDIA NIM推理微服务在NVIDIA API目录中提供，使得企业开发者可以利用NVIDIA AI Enterprise软件平台轻松部署Jamba模型。
- 优化的MoE层：Jamba利用混合结构中的MoE（混合专家）层，在推理时只激活部分参数，提高了模型的运行效率和性能。
Jamba的技术架构

Jamba 架构采用块和层方法，使 Jamba 能够成功集成 Mamba SSM 和 Transformer两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器 (MLP)，从而产生每八层中一个 Transformer 层的总体比例。

此外，Jamba 利用 MoE 来增加模型参数的总数，同时简化推理中使用的活动参数的数量，从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量，AI21 Labs 优化了所使用的 MoE 层和专家的数量，为常见推理工作负载留下了足够的可用内存。

Jamba的性能对比

根据 AI21 Labs 的报告，Jamba 模型在各种基准测试（如HellaSwag、ArcChallenge、MLLU等）中展示了优秀的结果，在广泛的任务测试（如语言理解、科学推理、常识推理等）中与同尺寸类别中最先进的模型相当甚至超越（如Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B）。
March 28, 2024
Champ – 基于3D的人物图片转视频动画模型
Champ是什么

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型，该方法结合了3D参数化模型（特别是SMPL模型）和潜在扩散模型，能够精确地捕捉和再现人体的3D形状和动态，同时保持动画的时间一致性和视觉真实性，以生成高质量的人类动画视频。

Champ的官网入口
- 官方项目主页：https://fudan-generative-vision.github.io/champ/#/
- GitHub源码库：https://github.com/fudan-generative-vision/champ
- arXiv研究论文：https://arxiv.org/abs/2403.14781
Champ的功能特性
- 人物图片转视频动画：Champ可以将静态人物图片转换为动态视频动画，通过精确捕捉和再现人体的形状和动作，创造出既真实又可控的动态视觉内容。
- 3D形状和姿势表示：Champ能够精确地表示和控制人体的形状和姿势，可从源视频中提取的人体几何和运动特征更加准确。
- 跨身份动画生成：Champ能够将来自一个视频的运动序列应用到另一个不同身份的参考图像上，实现跨身份的动画生成。
- 高质量的视频生成：Champ在生成视频时保持了角色和背景之间的一致性，同时通过时间对齐模块确保帧之间的流畅过渡，从而产生高质量的视频输出。
- 与T2I文生图模型结合：结合根据文本描述生成图像的T2I文生图模型，用户可以通过文本描述指定动画中的角色外观和动作，然后Champ根据这些描述再生成动画视频。
Champ的工作原理
1. 3D人体参数化模型（SMPL）：
  - 使用SMPL模型来表示人体的形状和姿势。SMPL模型是一个基于参数的3D人体模型，能够捕捉人体的形状变化和姿势变化。
  - 通过将SMPL模型拟合到参考图像上，可以获取人体的形状参数和姿势参数。
2. 从源视频中提取运动：
  - 利用现有的框架（如4D-Humans）从源视频中提取人体的运动序列。这些运动序列包括连续的SMPL模型参数，用于描述视频中人物的动作。
3. 生成深度、法线和语义图：
  - 将SMPL模型渲染成深度图、法线图和语义图，这些图像包含了3D结构、表面方向和人体部位的详细信息。
4. 运动对齐和指导：
  - 使用提取的SMPL模型参数来对齐参考图像中的人物形状和姿势，确保动画中的人物与源视频中的人物动作一致。
  - 引入基于骨架的运动指导，以增强对复杂运动（如面部表情和手指动作）的表示。
5. 多层运动融合：
  - 通过自注意力机制，将深度、法线、语义和骨架信息的特征图进行融合，以生成一个综合的运动指导信号。
6. 潜在扩散模型：
  - 利用潜在扩散模型（如Latent Diffusion Model）作为生成框架，将上述运动指导信号和参考图像编码后的特征结合起来，生成动画帧。
  - 在潜在空间中应用去噪过程，逐步从带有噪声的表示中恢复出清晰的动画帧。
7. 训练和推理：
  - 在训练阶段，模型学习如何根据给定的参考图像和运动指导生成连贯的动画序列。
  - 在推理阶段，模型根据新的参考图像和运动序列生成动画，展示出其泛化能力。
8. 视频生成：
  - 将生成的帧序列组合成视频，同时确保视频中的人物与参考图像在视觉上保持一致，且动作流畅自然。
March 26, 2024
VoiceCraft – 开源的语音编辑和文本转语音模型
VoiceCraft是什么

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型，专注于零样本语音编辑和文本到语音（TTS）任务。该模型采用Transformer架构，通过创新的token重排过程，结合因果掩蔽和延迟叠加技术，可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能，生成的语音自然甚至难以与原声区分。

VoiceCraft的官网入口
- 官方项目主页：https://jasonppy.github.io/VoiceCraft_web/
- GitHub源码库：https://github.com/jasonppy/VoiceCraft
- 研究论文：https://jasonppy.github.io/assets/pdfs/VoiceCraft.pdf
VoiceCraft的功能特性
- 语音编辑：VoiceCraft能够在不需要针对性训练的情况下，对现有的语音录音进行编辑，如插入、删除或替换其中的词语，而编辑后的语音听起来自然，与原录音难以区分。
- 文本到语音转换：该模型能够仅根据文本和简短的声音样本，生成与目标声音相似的语音，无需在训练过程中接触过目标声音。
- 高质量语音合成：VoiceCraft在合成语音时，能够保持语音的自然度和清晰度，使得合成语音在听觉上与真实人声相近。
- 多样化数据适应性：模型在多种口音、说话风格、录音条件以及背景噪音和音乐的挑战性数据集上进行了评估，显示出良好的适应性和一致的性能。
VoiceCraft的工作原理
1. 神经编解码器架构：VoiceCraft采用了Transformer架构，一种依赖于自注意力机制的深度学习模型，能够处理序列数据并捕捉序列中的长距离依赖关系。Transformer架构在自然语言处理（NLP）领域已经证明了其高效性，VoiceCraft将其应用于语音信号的处理。
2. Token重排过程：VoiceCraft引入了一种特殊的token重排过程，该过程包括两个主要步骤——因果掩蔽和延迟叠加。这个过程允许模型在生成语音时考虑到前后文信息，从而生成更加自然和连贯的语音序列。
  - 因果掩蔽：这一步骤涉及将输入语音信号量化为一系列编码器token，并将这些token按照因果关系（即不影响未来输出）进行掩蔽。这意味着模型在预测被掩蔽的token时，只能依赖于未被掩蔽的token。
  - 延迟叠加：在因果掩蔽的基础上，延迟叠加步骤进一步调整了编码器token的时间维度，以确保模型在预测当前时间步的编码器token时，能够有效地利用之前时间步的信息。
3. 自回归序列预测：VoiceCraft在训练和推理过程中使用自回归序列预测方法。这意味着模型会一次生成一个token，并在每个时间步使用之前生成的所有token作为上下文信息来预测下一个token。
4. 多码本建模：为了提高效率和生成质量，VoiceCraft使用了残差向量量化（RVQ）技术，将语音信号编码为多个码本的序列。这些码本捕捉了语音的不同特征，使得模型能够更精细地建模语音信号。
5. 推理和生成：在推理阶段，VoiceCraft根据输入的文本和音频信息（对于零样本TTS任务，还包括目标声音的简短参考录音），自回归地生成对应的语音序列。对于语音编辑任务，模型会根据原始音频和编辑后的文本目标，生成与目标文本匹配的语音，同时保持未编辑部分的原始特征。
VoiceCraft的应用场景
- 有声读物制作：VoiceCraft可以用来创建高质量的有声读物，通过生成自然流畅的语音来讲述故事或书籍内容，为听众提供沉浸式的听觉体验。
- 视频内容创作：在互联网视频制作中，VoiceCraft可以用于快速生成旁白或角色对话，特别是在动画、教育视频或广告中，可以节省配音成本并提高制作效率。
- 播客音频编辑：对于播客制作者，VoiceCraft提供了强大的音频编辑工具，可以轻松修正错误或更改内容，而无需重新录制整个播客，从而加快内容发布流程。
- 多语言内容生产：VoiceCraft的跨语言能力使其能够为不同语言的听众生成内容，有助于跨越语言障碍，实现全球化的内容分发。
March 25, 2024
StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
StreamingT2V是什么

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型，旨在解决现有模型仅能生成16帧或24帧的高质量短视频，而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块（CAM）和外观保持模块（APM）以及随机混合方法，实现了长视频（最长达1200帧、时长2分钟）的流畅生成，确保了时间上的连贯性和与文本描述的紧密对齐。该方法不仅提高了视频的质量，还使得视频内容更加丰富和动态，从而在长视频生成领域取得了显著进步。

StreamingT2V的官网入口
- 官方项目主页：https://streamingt2v.github.io/
- GitHub代码库：https://github.com/Picsart-AI-Research/StreamingT2V（模型和源码待上线）
- arXiv研究论文：https://arxiv.org/abs/2403.14773
StreamingT2V的功能特性
- 长视频生成：StreamingT2V能够根据文本描述生成长视频（80, 240, 600, 1200帧或更多），远超传统模型通常生成的短视频长度。
- 时间连贯性：生成的视频帧之间具有平滑的过渡和一致性，避免了生成长视频时常见的硬切换或不连贯现象。
- 高质量图像帧：该模型注重帧级别的图像质量，保证即使在视频较长的情况下，每一帧的图像也能保持清晰和细腻。
- 文本对齐：StreamingT2V生成的视频紧密对齐于输入的文本提示描述，确保视频内容与用户的文本指导保持一致。
- 视频增强：利用随机混合方法，StreamingT2V可以在不引入块间不一致性的情况下，对生成的视频进行质量增强，提高视频的分辨率和视觉效果。
StreamingT2V的工作流程

StreamingT2V的工作流程可以分为以下几个主要阶段：
1. 初始化阶段（Initialization Stage）：
  - 在这一阶段，首先使用预训练的文本到视频模型（例如Modelscope）来合成一个初始的视频块，通常是一个短的16帧的视频序列。
2. 流式生成阶段（Streaming T2V Stage）：
  - 接下来，模型进入自回归的长视频生成过程。在这个阶段，StreamingT2V使用条件注意模块（CAM）和外观保持模块（APM）来生成长视频的后续帧。
  - CAM利用短期记忆，通过注意力机制关注前一个视频块的特征，从而实现块之间的平滑过渡。
  - APM则利用长期记忆，从初始视频块中提取关键的视觉特征，确保在整个视频生成过程中保持场景和对象的一致性。
3. 流式细化阶段（Streaming Refinement Stage）：
  - 在生成了足够长的视频（例如80, 240, 600, 1200帧或更多）后，模型进入细化阶段。
  - 在这一阶段，使用高分辨率的文本到视频模型（例如MS-Vid2Vid-XL）对生成的视频进行自回归增强。
  - 通过随机混合方法，对连续的24帧视频块进行增强，同时保持块之间的平滑过渡，从而提高视频的整体质量和分辨率。
March 25, 2024
SUPIR – 高保真的AI图像修复和画质增强模型
SUPIR是什么

SUPIR（Scaling-UP Image Restoration）是一个突破性的图像修复和画质增强方法，利用了大规模的生成模型StableDiffusion-XL（SDXL）和模型扩展技术，通过深度学习和多模态方法，实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制，能够根据用户的输入调整恢复的各个方面，如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的研究人员共同推出。

SUPIR的官网入口
- 官方项目主页：https://supir.xpixel.group/
- GitHub源码库：https://github.com/Fanghua-Yu/SUPIR
- arXiv研究论文：https://arxiv.org/abs/2401.13627
SUPIR的主要功能
- 高质量图像修复：SUPIR能够将低质量的图像恢复到接近原始状态的高质量版本，可以处理由于各种原因（如压缩、噪点、模糊等）导致的图像退化。
- 修复多种类型的图像：SUPIR能够有效修复多种类型的退化图像，包括风景、人脸、动物、游戏画面、老电影和老照片，可增强图像细节，恢复清晰度和真实感，让图像焕发新生。
- 文本提示引导修复：SUPIR允许用户通过文本提示来指导图像恢复的过程，可以指定恢复的特定方面，例如修复图像中的某个模糊物体、改变物体的材质纹理，或者根据高级语义调整图像的恢复效果。
- 负质量提示：SUPIR使用负质量提示来提高图像的感知质量，通过告诉模型哪些图像特征是不期望的（例如“油画效果、卡通化、模糊、脏乱、低质量”等），模型可以在恢复过程中避免这些特征，从而提升图像的整体质量。
SUPIR的工作原理
1. 生成性先验：SUPIR使用StableDiffusion-XL（SDXL）作为其生成性先验（Generative Prior），一个包含26亿参数大型的预训练图像生成模型。生成性先验是模型学习到的图像数据分布的知识，用于指导图像的生成和恢复过程。
2. 数据集和文本注释：为了训练SUPIR，研究者收集了一个包含2000万张高分辨率、高质量的图像的数据集，每张图像都有详细的描述性文本注释。这些注释提供了图像内容的额外信息，使得模型能够更好地理解和恢复图像。
3. 适配器：为了有效地应用SDXL模型，研究者设计并训练了一个适配器，该适配器具有超过6亿参数。适配器的作用是识别低质量图像中的内容，并在像素级别上精细控制生成过程。
4. 文本提示控制：SUPIR能够根据用户提供的文本提示来指导图像的恢复，提示词可以是关于图像内容的具体描述，也可以是关于期望图像质量的高级语义描述。
5. 负质量提示和训练样本：为了提高图像的感知质量，SUPIR引入了负质量提示，帮助模型理解不希望出现的图像特征。研究者通过使用SDXL生成对应于负质量提示的图像，并将这些图像纳入训练数据中，以确保模型能够学习到这些负质量概念。
6. 恢复引导采样：为了防止生成过程中的图像失真，SUPIR采用了一种新颖的恢复引导采样方法，在扩散过程中有选择性地引导预测结果接近低质量图像，以保持恢复的一致性。
7. 模型训练和采样设置：SUPIR在训练过程中使用了合成退化模型，并在64个Nvidia A6000 GPU上进行了为期10天的训练。测试时，模型能够处理1024×1024像素大小的图像。
SUPIR的应用场景
- 老照片修复：SUPIR可以用于修复老化、损坏或褪色的老照片，恢复其原始的色彩和细节，使珍贵的记忆得以保存和传承。
- 模糊图像增强：对于因手抖、对焦错误或运动模糊导致的照片，SUPIR能够通过先进的算法提高图像的清晰度，使得原本模糊的图像变得更加锐利。
- 噪点去除：在高ISO或低光照条件下拍摄的照片往往会有噪点。SUPIR能够有效地识别并去除这些噪点，同时保留图像的重要细节。
- 色彩校正和增强：SUPIR能够识别和修正色彩失真问题，如过度饱和或色彩偏差，使图像的色彩更加真实和生动。
March 25, 2024
BrushNet – 腾讯推出的高质量图像照片修复模型
BrushNet是什么

BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复（Inpainting）模型，通过分解的双分支架构来有效处理图像中的遮罩区域。该模型的一个分支专注于提取遮罩图像的像素级特征，而另一个分支则负责图像的生成。这种设计使得BrushNet能够将关键的遮罩信息以分层的方式精细地融入到修复过程中，从而在保持原有图像内容连贯性的同时，生成高质量的修复结果。

与以前的图像修复方法相比（如Blended Latent Diffusion、Stable Diffusion Inpainting、HD-Painter、PowerPaint等），BrushNet的图像还原修复能力无论是在风格、内容，还是颜色和提示对齐等方面都表现出了优越的连贯性。

BrushNet的官网入口
- 官方项目主页：https://tencentarc.github.io/BrushNet/
- GitHub代码库：https://github.com/TencentARC/BrushNet
- arXiv研究论文：https://arxiv.org/abs/2403.06976
BrushNet的功能特性
- 修复不同类型的图像：BrushNet可修复不同场景的图像，如人类、动物、室内和室外场景，还可以修复不同风格的图像，如自然图像、铅笔画、动漫、插图、水彩等。
- 像素级修复：BrushNet能够识别和处理图像中的遮罩区域，对每个像素进行精确的修复，确保修复区域与原始图像在视觉上的无缝对接。
- 保留未遮罩区域：通过分层控制和特定的模糊融合策略，BrushNet能够在修复过程中保留未被遮罩的区域，避免对原始图像内容的不必要改动。
- 与预训练模型的兼容性：作为一个即插即用的模型，BrushNet可以与各种预训练的扩散模型（如DreamShaper、epiCRealism、MeinaMix等）结合，利用这些模型的强大生成能力来完成修复任务。
- 灵活性和控制性：用户可以通过调整模型的参数来控制修复的规模和细节，包括修复区域的大小和修复内容的详细程度。
BrushNet的工作原理

BrushNet 基于扩散模型通过一个创新的双分支架构来执行图像修复任务。

以下是BrushNet工作原理的简要概述：
1. 双分支架构：BrushNet的核心是一个分解的双分支架构，其中一个分支专注于处理遮罩图像的特征，而另一个分支负责生成图像的其余部分。
2. 遮罩图像特征提取：在遮罩分支中，模型使用变分自编码器（VAE）对遮罩图像进行编码，以提取其潜在特征。这些特征随后被用来指导图像的修复过程。
3. 预训练扩散模型：在生成分支中，模型利用预训练的扩散模型来生成图像内容。这个模型已经学会了如何从噪声中恢复出清晰的图像。
4. 特征融合：提取的遮罩图像特征被逐步融合到预训练的扩散模型中，这样可以通过层级的方式细致地控制修复过程。
5. 去噪和生成：在反向扩散过程中，模型通过迭代去噪步骤，逐步从噪声中恢复出清晰的图像。每一步都会考虑遮罩图像的特征，以确保修复区域与原始图像的其余部分在视觉上保持一致。
6. 模糊融合策略：为了更好地保留未遮罩区域的细节，BrushNet采用了模糊融合策略。这意味着在融合遮罩区域和生成区域时，会使用模糊的遮罩来减少硬边缘和不自然的过渡。
7. 输出修复图像：最终，模型输出一个修复后的图像，其中遮罩区域被自然而连贯地填充，同时未遮罩区域的原始内容得到保留。
March 23, 2024
LATTE3D – 英伟达推出的文本快速生成3D对象的模型
LATTE3D是什么

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型，能够从文本提示描述快速生成高质量的3D内容（仅需400毫秒）。该技术的核心在于采用了一种称为“摊销优化（amortized）”的方法，即在大量文本提示上同时优化一个共享的文本条件模型，以此提高模型对新提示的泛化能力，从而减少了生成每个3D对象所需的时间。

LATTE3D的官网入口
- 官方项目主页：https://research.nvidia.com/labs/toronto-ai/LATTE3D/
- 研究论文：https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view
LATTE3D的主要功能
- 文本到3D合成： 能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示，如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”，来生成具有特定特征和风格的3D对象。
- 快速生成： LATTE3D可以在大约400毫秒内生成3D对象，这使得它能够实时地响应用户的输入，为用户提供即时的视觉反馈。
- 高质量渲染： 通过结合神经场和纹理表面生成，LATTE3D能够产生具有高细节水平的纹理网格，提供视觉上令人信服的3D渲染结果。
- 3D风格化： LATTE3D还可以作为3D风格化工具，允许用户在现有的3D资产上应用新的风格或主题，从而创造出多样化的视觉表现。
LATTE3D的架构方法

LATTE3D 的训练包含两个阶段：首先，使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性，训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后，使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。

LATTE3D 的方法使用两个网络：纹理网络 T 和几何网络 G，两者均由 triplanes 和 U-Net 的组合组成。在第一阶段，两个网络的编码器共享相同的权重集。在第二阶段，冻结几何网络 G 并更新纹理网络 T，并使用输入文本嵌入的 MLP 进一步对 triplanes 进行上采样。
March 22, 2024
Mora – 微软等推出的可生成12秒视频的多AI智能体框架
Mora是什么

Mora是由来自微软和理海大学的研究人员推出的一个多智能体（AI Agents）框架，专门用于通用视频生成任务，目标是模拟并扩展OpenAI的Sora视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频内容，Mora通过分解视频生成过程为多个子任务，并为每个子任务分配一个专门的智能体，从而实现了各种视频生成的功能。

根据论文中的实验结果显示，Mora在生成高分辨率（1024×576）且时间持续12秒的视频方面表现出色，总共包含75帧。但当涉及大量物体运动的场景时，Mora与Sora相比存在显著的性能差距。此外，尝试生成超过12秒的视频会导致视频质量显著下降。

Mora的主要功能
- 文本到视频生成：Mora可以根据用户提供的文本描述自动生成相应的视频内容，能适用于从简单的场景描述到复杂故事情节的视频创作。
- 图像到视频生成：除了直接从文本生成视频，Mora还能够结合用户提供的初始图像和文本提示，生成与之相匹配的视频序列，增强内容的丰富性和细节。
- 扩展生成视频：Mora不仅可以从头开始生成视频，还能够对现有的视频内容进行扩展和编辑，增加新的元素或延长视频的持续时间。
- 视频到视频编辑：Mora具备高级编辑功能，能够根据用户的文本指令对视频进行编辑，如改变场景、调整对象属性或添加新元素。
- 连接视频：Mora能够将两个或多个视频片段无缝连接起来，创造出流畅的过渡效果，适用于制作视频合集或剪辑。
- 模拟数字世界：Mora还能够创建和模拟数字世界，可根据文本描述创造出具有数字世界风格的视频序列，如游戏场景或虚拟环境。
Mora的官网入口
- GitHub地址：https://github.com/lichao-sun/Mora（源码和模型待开源）
- arXiv研究论文：http://arxiv.org/abs/2403.13248
Mora的工作原理

Mora的工作原理基于一个多智能体框架，该框架通过协同多个专门化的AI智能体来完成视频生成任务。每个智能体都负责处理特定的子任务，这些子任务共同构成了完整的视频生成流程。

以下是Mora工作流程的详细步骤：
1. 任务分解：Mora将复杂的视频生成任务分解为多个子任务，每个子任务都由一个专门的智能体来处理。
2. 智能体角色定义：Mora定义了以下五种基本角色的智能体：
  - 提示选择与生成智能体：使用大型语言模型（如GPT-4或Llama）来优化和选择文本提示，以提高生成图像的相关性和质量。
  - 文本到图像生成智能体：将文本提示转换为高质量的初始图像。
  - 图像到图像生成智能体：根据文本指令修改给定的源图像。
  - 图像到视频生成智能体：将静态图像转换成动态视频序列。
  - 视频连接智能体：基于两个输入视频创建平滑过渡的视频。
3. 工作流程：Mora根据任务需求，自动组织智能体按照特定的顺序执行子任务。例如，文本到视频的生成任务可能包括以下步骤：
  - 首先，提示选择与生成智能体处理文本提示。
  - 接着，文本到图像生成智能体根据优化后的文本提示生成初始图像。
  - 然后，图像到视频生成智能体将初始图像转换成视频序列。
  - 最后，如果需要，视频连接智能体可以将多个视频片段连接成一个连贯的视频。
4. 多智能体协作：智能体之间通过预定义的接口和协议进行通信和协作，确保整个视频生成过程的连贯性和一致性。
5. 生成与评估：每个智能体完成其子任务后，会将结果传递给下一个智能体，直至完成整个视频生成流程。生成的视频可以根据预定义的评估标准进行质量评估。
6. 迭代与优化：Mora框架允许通过迭代和优化来改进视频生成的质量。智能体可以根据反馈调整其参数，以提高生成视频的质量和与文本提示的一致性。
March 21, 2024