Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架，紧跟最新AI领域的进展，解读AI研究论文和方法框架，帮你快速了解这些项目的工作原理。

Make-A-Character：阿里开源的AI 3D数字人生成框架
Make-A-Character是什么？

Make-A-Character（简称Mach）是一个由阿里巴巴集团智能计算研究院开发的一个人工智能3D数字人生成框架，旨在通过文本描述快速创建逼真的3D角色。该系统特别适用于满足人工智能代理和元宇宙中对个性化和富有表现力的3D角色的需求。Mach的核心功能是利用大型语言和视觉模型来理解文本中的意图，并生成中间图像，然后通过一系列针对人类视觉感知和3D生成的模块，将这些图像转化为完整的3D角色模型。

Make-A-Character的官网入口
- 官方项目主页：https://human3daigc.github.io/MACH/
- Arxiv研究论文：https://arxiv.org/abs/2312.15430
- GitHub代码库：https://github.com/Human3DAIGC/Make-A-Character（代码待开源）
- ModelScope Demo：https://www.modelscope.cn/studios/XR-3D/InstructDynamicAvatar/summary
Make-A-Character的功能特色
- 文本到3D角色生成：用户可以通过输入文本描述来指定角色的外观特征，如面部特征、发型、服装等，Mach系统会根据这些描述生成相应的3D角色模型。
- 灵活的可控定制：系统允许用户对角色进行详细的定制，包括面部特征、眼睛形状、虹膜颜色、发型和颜色、眉毛、嘴巴和鼻子等，甚至可以添加皱纹和雀斑，以创造出符合用户个性化需求的角色。
- 高度逼真的渲染：Mach利用基于物理的渲染（PBR）技术，结合真实人类扫描数据，生成高度逼真的角色。角色的头发以发丝的形式构建，而非传统的网格，以增强真实感。
- 完整的角色模型：生成的角色模型包括眼睛、舌头、牙齿、全身和服装等所有细节，确保角色在各种应用场景中都能立即使用。
- 动画支持：角色配备了高级的骨骼刚体，支持标准动画，使得角色能够进行各种动态表现，如面部表情变化等。
- 行业兼容性：Mach生成的角色模型采用明确的3D表示，可以无缝集成到游戏和电影行业的标准CG流程中，便于后续的动画制作和渲染。
Make-A-Character的工作原理
1. 文本解析与视觉提示生成：
  - 用户输入描述角色特征的文本提示。
  - 使用大型语言模型（LLM）来理解文本中的语义信息，提取关键的面部特征和属性。
  - 将这些特征映射到视觉线索，如姿势和边缘图，以指导后续的图像生成。
2. 参考肖像图像生成：
  - 结合Stable Diffusion模型和ControlNet，根据提取的视觉线索生成参考肖像图像。ControlNet确保生成的图像具有正面姿势和中性表情，便于后续的3D建模。
  - 使用Openpose和Canny边缘检测技术来确保面部特征的合理分布。
3. 密集面部坐标检测：
  - 利用密集面部坐标（431个坐标点）来重建面部和头部几何结构，这些坐标点比传统的68或98个坐标点更详细，覆盖整个头部。
  - 使用合成图像作为训练数据，通过多视角捕捉和处理流程生成这些坐标点。
4. 几何生成：
  - 根据参考肖像图像和密集面部坐标，重建头部几何结构。通过将3D网格映射到2D平面，实现对网格的优化。
  - 使用坐标投影损失和局部平滑约束来确保几何结构的准确性。
5. 纹理生成：
  - 使用可微渲染技术从参考图像中提取纹理，并通过多分辨率策略逐步生成高分辨率纹理。
  - 引入神经除光（de-lighting）方法，从纹理图像中去除不必要的照明效果，得到适合渲染的漫反射贴图。
6. 纹理修正与完成：
  - 对生成的漫反射贴图进行修正，解决眼睛、嘴巴和鼻孔等区域的不完美问题。
  - 使用面部解析算法提取错误区域的遮罩，并通过泊松融合（Poisson blending）技术与模板漫反射贴图合并，以改善视觉效果。
7. 头发生成：
  - 通过2D图像合成各种发型，然后基于这些图像进行3D发丝重建。
  - 使用先进的头发生成技术，如NeuralHDHair，训练模型并生成高质量的3D发丝。
8. 资产匹配：
  - 将生成的头部与预先制作的头发、身体、服装和配饰等资产进行匹配。
  - 使用CLIP文本编码器计算输入提示与资产标签之间的相似度，选择最匹配的资产。
9. 角色装配：
  - 将所有生成和匹配的部件组装成一个完整的3D角色模型。
  - 角色模型支持动画，可以通过骨骼刚体进行动态表现。
February 9, 2024
MetaGPT – 多个AI智能体协作分工的框架
MetaGPT是什么？

MetaGPT是一个创新的元编程框架，结合了大语言模型和多智能体协作系统，旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序（SOPs）编码成提示序列，以便在多智能体系统中实现更高效的工作流程和减少错误。

在MetaGPT中，智能体被赋予特定的角色，例如产品经理、架构师、项目经理、工程师和质量保证工程师等，每个角色都有其独特的职责和专业知识。这些智能体遵循SOPs来分解任务，确保每个步骤都能高效且准确地完成。例如，在软件开发过程中，产品经理负责分析需求并创建产品需求文档（PRD），架构师负责将需求转化为系统设计，项目经理负责任务分配，工程师负责编写代码，而质量保证工程师则负责测试和确保代码质量。

MetaGPT的官网入口
- 官方项目主页：https://www.deepwisdom.ai/
- Arxiv研究论文：https://arxiv.org/abs/2308.00352
- GitHub代码库：https://github.com/geekan/MetaGPT
- Hugging Face Demo：https://huggingface.co/spaces/deepwisdom/MetaGPT
MetaGPT的主要特点
- 角色专业化与分工协作：MetaGPT将多智能体系统中的智能体分配到不同的角色，如产品经理、架构师、工程师等，每个角色都有明确的职责和任务。这种分工使得复杂任务能够被分解为更小、更具体的子任务，由具有相应专业知识的智能体来完成。
- 标准化操作程序（SOPs）集成：MetaGPT将SOPs编码成提示序列，这些标准化的流程有助于智能体更有效地完成任务。SOPs在人类社会中广泛应用于各种领域，以确保任务的一致性和质量，MetaGPT借鉴这一概念，提高了智能体协作的效率和准确性。
- 结构化通信：为了解决纯自然语言通信在复杂任务中的局限性，MetaGPT采用了结构化的通信方式。智能体通过共享消息池发布和订阅信息，这样可以确保信息的准确传递，同时避免信息过载。
- 可执行反馈机制：MetaGPT引入了一种自我修正机制，允许智能体在代码生成过程中进行迭代编程。例如，工程师智能体可以根据产品需求和设计生成代码，然后执行并检查错误。如果发现问题，它会根据过去的信息和当前的PRD、系统设计以及代码文件进行调试，直到代码通过测试。
- 模拟真实世界团队协作：MetaGPT通过模拟真实世界中的软件开发团队，展示了其在分解复杂任务、分配具体行动程序给不同角色以及促进团队成员之间协作的能力。
MetaGPT的工作原理
1. 角色定义与分工：
  - MetaGPT首先定义了一系列智能体角色，每个角色都有特定的职责和任务。例如，产品经理负责分析用户需求，架构师负责系统设计，工程师负责编写代码，质量保证工程师负责测试等。
  - 这些角色模拟了真实世界中的工作流程，使得每个智能体都能专注于其擅长的领域。
2. 标准化操作程序（SOPs）：
  - MetaGPT将SOPs编码成提示序列，这些序列指导智能体如何执行任务。SOPs确保了任务执行的一致性和质量，类似于人类团队中的工作指南。
  - 通过遵循这些标准化流程，智能体能够更有效地协作，减少错误，并提高整体工作流程的效率。
3. 结构化通信：
  - 为了提高通信效率，MetaGPT采用了结构化的通信方式。智能体通过共享消息池发布和订阅信息，这样每个智能体都能获取到完成任务所需的必要信息。
  - 这种通信方式避免了信息的冗余和缺失，确保了信息的准确传递。
4. 可执行反馈机制：
  - 在代码生成过程中，MetaGPT引入了可执行反馈机制。这意味着智能体（如工程师）在编写代码后，会执行代码并检查其正确性。
  - 如果发现错误，智能体会根据反馈进行调试，然后再次执行，直到代码满足要求。这个过程类似于人类开发者在开发过程中的迭代过程。
5. 任务分解与协作：
  - MetaGPT将复杂任务分解为多个子任务，每个子任务由一个或多个智能体负责。这种分解策略使得大型项目可以被有效地管理和执行。
  - 智能体之间的协作是通过角色间的信息交换和任务依赖来实现的，确保了整个项目按计划推进。
6. 持续学习与优化：
  - MetaGPT的设计允许智能体从过去的经验中学习，通过自我修正和迭代来优化其行为。这种自我改进机制使得系统能够随着时间的推移而变得更加高效和智能。
MetaGPT的应用场景
- 软件开发：MetaGPT可以模拟软件开发团队的工作流程，从需求分析、系统设计、代码编写到测试和调试，每个步骤都由专门的智能体负责。这有助于提高软件开发的效率，减少错误，并生成高质量的代码。
- 项目管理：在项目管理中，MetaGPT可以协助规划、分配任务、监控进度和资源分配。通过模拟项目经理的角色，它可以帮助确保项目按时完成，同时保持团队成员之间的有效沟通。
- 自动化测试：MetaGPT的智能体可以生成和执行自动化测试用例，确保软件在各种条件下的稳定性和性能。这有助于在软件开发过程中及早发现并修复缺陷。
- 数据分析与决策支持：MetaGPT可以集成数据分析工具，帮助企业分析市场趋势、用户行为等数据，为决策提供支持。它可以模拟数据分析师的角色，提供洞察力并辅助制定策略。
February 8, 2024
DiffusionGPT – 开源的大模型驱动的文本到图像生成系统
DiffusionGPT是什么？

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型（LLM）驱动的文本到图像生成系统，旨在解决文生图领域无法处理不同的输入或者仅限于单一模型结果的挑战。该系统利用思维树和优势数据库的技术能够处理多种类型的文本提示，并将这些提示与领域专家模型相结合，以生成高质量的图像。

DiffusionGPT的官网入口
- 官方项目主页：https://diffusiongpt.github.io/
- Arxiv研究论文：https://arxiv.org/abs/2401.10061
- GitHub代码库：https://github.com/DiffusionGPT/DiffusionGPT
- Hugging Face运行地址：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT
- DiffusionGPT-XL Demo：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT-XL
DiffusionGPT的主要特点
- 文本提示解析：DiffusionGPT能够理解和解析各种类型的文本提示，包括基于描述的、基于指令的、基于启发的和基于假设的提示。这一功能使得系统能够准确把握用户想要生成的图像内容。
- 模型选择与集成：系统通过构建一个基于思维树（Tree-of-Thought, ToT）的结构，将多个领域专家生成模型进行分类和组织。这允许DiffusionGPT根据输入的文本提示，从众多模型中选择最合适的一个来生成图像。
- 人类反馈优化：DiffusionGPT利用人类反馈来优化模型选择过程。通过优势数据库（Advantage Databases），系统可以根据人类对模型生成结果的评分来选择表现最佳的模型，从而提高生成图像的质量和用户满意度。
- 图像生成执行：在选择了合适的模型后，DiffusionGPT会执行图像生成过程。为了增强生成图像的细节和艺术性，系统还会通过提示扩展代理来丰富和细化输入提示。
- 多领域适用性：DiffusionGPT设计为一个全能系统，不仅适用于描述性文本提示，还能够处理更复杂的指令和启发性内容，这使得它在多样化的应用场景中具有广泛的适用性。
- 即插即用解决方案：DiffusionGPT的设计使其成为一个训练免费、易于集成的解决方案，可以轻松地集成到现有的图像生成流程中，为用户提供便捷的服务。
DiffusionGPT的工作原理

DiffusionGPT的工作原理可以分为四个主要步骤，这些步骤共同协作以实现从文本提示到高质量图像生成的过程：
1. 提示解析（Prompt Parse）：
  - DiffusionGPT首先使用大语言模型（LLM）来分析和提取输入文本提示中的关键信息。这个过程对于生成用户期望的内容至关重要，因为用户输入可能包含多种类型的提示，如基于描述的、基于指令的、基于启发的或基于假设的。
  - LLM能够识别这些提示的不同形式，并提取出核心内容，以便为后续的图像生成提供准确的指导。
2. 模型构建和搜索的思维树（Tree-of-Thought of Models）：
  - 在解析了提示之后，系统会构建一个基于思维树（ToT）的结构，这个结构包含了多个领域专家生成模型。这些模型根据它们的属性被分类到不同的节点，形成一个层次化的结构。
  - 通过这个思维树，系统可以缩小候选模型的范围，提高模型选择的准确性。这个过程类似于在树中搜索，从根节点开始，根据提示内容逐步向下寻找最匹配的模型。
3. 模型选择（Model Selection）：
  - 在确定了候选模型集之后，DiffusionGPT会利用人类反馈和优势数据库（Advantage Databases）来选择最合适的模型。这个数据库包含了对模型生成结果的评分，基于这些评分，系统可以确定哪些模型在处理特定类型的提示时表现最佳。
  - 系统会根据输入提示与数据库中的提示进行语义相似度计算，然后选择与这些提示最匹配的模型，以确保生成的图像符合用户的期望。
4. 生成执行（Execution of Generation）：
  - 最后，选定的模型会根据提取的核心提示生成图像。为了提高生成图像的质量，DiffusionGPT还会使用提示扩展代理（Prompt Extension Agent）来丰富和细化输入提示，使其更加详细和具有描述性。
  - 这样，生成的图像不仅能够捕捉到提示的核心内容，还能展现出更高的细节和艺术性。
通过这四个步骤，DiffusionGPT能够无缝地处理多样化的文本提示，并生成与用户意图高度一致的高质量图像。这个系统的设计旨在提高图像生成的灵活性和效率，同时利用人类反馈来不断优化生成过程。
February 4, 2024
OLMo – 艾伦AI研究所开源的完全开放的大语言模型框架
OLMo是什么？

OLMo（Open Language Model）是由Allen AI（AI2，艾伦人工智能研究所）开发的一个完全开源开放的大型语言模型（LLM）框架，设计初衷是为了通过开放研究，促进学术界和研究人员共同研究语言模型的科学。OLMo框架提供了一系列的资源，包括数据、训练代码、模型权重以及评估工具，以便研究人员能够更深入地理解和改进语言模型。

OLMo的官网入口
- 官方项目主页：https://allenai.org/olmo
- GitHub代码库：https://github.com/allenai/olmo
- Hugging Face地址：https://huggingface.co/allenai/OLMo-7B
- 研究论文：https://allenai.org/olmo/olmo-paper.pdf
OLMo的主要特点
- 大规模预训练数据：基于AI2的Dolma数据集，这是一个包含3万亿个标记的大规模开放语料库，为模型提供了丰富的语言学习材料。
- 多样化的模型变体：OLMo框架包含了四种不同规模的模型变体，每种模型至少经过2万亿token的训练，这为研究人员提供了多种选择，以适应不同的研究需求。
- 详细的训练和评估资源：除了模型权重，OLMo还提供了完整的训练日志、训练指标和500多个检查点，这些资源可以帮助研究人员更好地理解模型的训练过程和性能。
- 开放性和透明度：OLMo的所有代码、权重和中间检查点都在Apache 2.0许可证下发布，这意味着研究人员可以自由地使用、修改和分发这些资源，以促进知识的共享和创新。
OLMo的模型性能

据OLMo的论文报告，OLMo-7B模型在零样本（zero-shot）评估中的表现与其他几个模型进行了对比，这些模型包括Falcon-7B、LLaMA-7B、MPT-7B、Pythia-6.9B、RPJ-INCITE-7B和LLaMA-7B。

以下是OLMo-7B在一些核心任务上的比较结果：
1. 下游任务评估：OLMo-7B在9个核心任务的零样本评估中，在2个任务（科学问题和因果推理）上表现最佳，8个任务上保持在前三名。这表明OLMo-7B在这些任务上具有较强的竞争力。
2. 基于困惑度的评估：在Paloma评估框架中，OLMo-7B在多个数据源上的困惑度（bits per byte）表现也显示出竞争力。特别是在与代码相关的数据源（如Dolma 100 Programming Languages）上，OLMo-7B的表现显著优于其他模型。
3. 额外任务评估：在额外的6个任务（headqa en、logiqa、mrpcw、qnli、wic、wnli）上，OLMo-7B在零样本评估中的表现同样优于或接近其他模型。
February 2, 2024
IP-Adapter – 腾讯开源的文本到图像扩散模型适配器
IP-Adapter是什么

IP-Adapter（Image Prompt Adapter）是一种专门为预训练的文本到图像扩散模型（如Stable Diffusion）设计的适配器，目的是让文生图模型能够利用图像提示（image prompt）来生成图像。该方法是由腾讯AI实验室的研究人员提出的，旨在解决仅使用文本提示（text prompt）生成理想图像时的复杂性和挑战。

在传统的文本到图像扩散模型中，用户需要通过编写文本提示来指导模型生成图像，这往往需要复杂的提示工程。而IP-Adapter通过引入图像提示，使得模型能够直接理解图像内容，从而更有效地生成与用户意图相符的图像。这种方法的核心在于它采用了一种解耦的交叉注意力机制，这种机制将文本特征和图像特征的处理分开，使得模型能够更好地理解和利用图像信息。

IP-Adapter的官网入口
- 官方项目主页：https://ip-adapter.github.io/
- GitHub代码库：https://github.com/tencent-ailab/IP-Adapter
- Arxiv研究论文：https://arxiv.org/abs/2308.06721
- Hugging Face 模型地址：https://huggingface.co/h94/IP-Adapter
- Google Colab Demo 地址：https://colab.research.google.com/github/tencent-ailab/IP-Adapter/blob/main/ip_adapter_demo.ipynb
- IP-Adapter-FaceID Demo：https://huggingface.co/spaces/multimodalart/Ip-Adapter-FaceID
IP-Adapter的功能特色
- 图像提示集成：IP-Adapter允许模型接收图像作为输入，与文本提示一起，指导图像生成过程。这种方法利用了图像的丰富信息，使得生成的图像更加精确地反映用户的意图。
- 轻量级适配器：尽管IP-Adapter的功能强大，但其参数量相对较小（约22M参数），在计算资源上更加高效，易于部署和使用。
- 泛化能力：IP-Adapter在训练后可以轻松地应用于其他基于相同基础模型微调的自定义模型，可以在不同的应用场景中灵活使用。
- 多模态生成：IP-Adapter支持同时使用文本提示和图像提示进行图像生成，这为用户提供了更多的创作自由度，可以生成更加丰富和多样化的图像内容。
- 结构控制兼容性：IP-Adapter与现有的结构控制工具（如ControlNet）兼容，允许用户在图像生成过程中加入额外的结构条件，如用户绘制的草图、深度图、语义分割图等，以实现更精细的图像控制。
- 无需微调：IP-Adapter的设计避免了对原始扩散模型的微调，这意味着用户可以直接使用预训练模型，而无需进行耗时的微调过程。
- 图像到图像和修复：IP-Adapter不仅支持文本到图像的生成，还可以用于图像到图像的转换和图像修复任务，通过替换文本提示为图像提示来实现。
IP-Adapter的工作原理

IP-Adapter的工作原理基于解耦的交叉注意力机制，这一机制允许模型同时处理文本和图像信息，而不会相互干扰。

以下是IP-Adapter工作原理的详细步骤：
1. 图像编码：首先，IP-Adapter使用预训练的CLIP（Contrastive Language-Image Pre-training）图像编码器来提取图像提示的特征。CLIP模型通过对比学习在大量图像和文本对上训练，能够理解图像内容并生成与图像相关的文本描述。在IP-Adapter中，CLIP编码器被用来将图像转换为一系列特征向量。
2. 特征投影：为了将图像特征与文本特征的维度对齐，IP-Adapter包含一个小型的可训练投影网络，该网络将CLIP编码器的全局图像嵌入转换为与文本特征相同维度的特征序列。
3. 解耦的交叉注意力：在预训练的文本到图像扩散模型（如Stable Diffusion）中，文本特征通过交叉注意力层与模型的内部状态进行交互。IP-Adapter在每个交叉注意力层中添加了一个新的层，专门用于处理图像特征。这样，文本特征和图像特征可以分别通过各自的交叉注意力层进行处理，避免了直接合并可能导致的信息损失。
4. 训练过程：在训练阶段，IP-Adapter只优化新添加的交叉注意力层的参数，而保持原始的扩散模型参数不变。这样，IP-Adapter可以在不改变原始模型结构的情况下，学习如何将图像特征融入到图像生成过程中。
5. 生成过程：在生成图像时，IP-Adapter将文本提示和图像提示的特征输入到模型中。模型首先通过文本交叉注意力层处理文本特征，然后通过图像交叉注意力层处理图像特征。最后，这些特征被合并并输入到扩散模型的去噪网络中，逐步生成图像。
6. 结构控制：IP-Adapter与现有的结构控制工具（如ControlNet）兼容，这意味着用户可以在生成过程中添加额外的结构条件，如草图、深度图等，以实现更精细的图像控制。
February 1, 2024
Follow Your Pose – 开源的姿态全可控视频生成框架
Follow Your Pose是什么

Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员开源的一个基于文本到视频生成的框架，允许用户通过文本描述和指定的人物姿态来生成视频。该框架采用了两阶段的训练策略，能够生成与文本描述和姿态序列高度一致的视频，同时保持视频中人物动作的真实性和连贯性。

Follow Your Pose的官网入口
- 官方项目主页：https://follow-your-pose.github.io/
- GitHub代码库：https://github.com/mayuelala/FollowYourPose
- Arxiv研究论文：https://arxiv.org/abs/2304.01186
- Hugging Face运行地址：https://huggingface.co/spaces/YueMafighting/FollowYourPose
- OpenXLab运行地址：https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
- Google Colab运行地址：https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb
Follow Your Pose的功能特色
- 文本到视频生成：用户可以输入文本描述，框架会根据这些描述生成相应的视频内容，如角色的动作、场景背景以及整体的视觉风格。
- 姿态控制：用户可以通过指定人物的姿态序列来控制视频中角色的动作，以精确地控制角色在视频中的每一个动作细节。
- 时间连贯性：框架能够生成时间上连贯的视频，确保视频中的动作和场景变化自然流畅，没有突兀的跳跃或闪烁。
- 多样化角色和背景生成：框架能够生成具有不同外观、风格和背景的视频，包括但不限于现实风格、卡通风格、赛博朋克风格等。
- 多角色视频生成：框架支持多角色视频的生成，可以在同一个视频中展示多个角色，并且能够根据文本描述指定每个角色的身份和动作。
- 风格化视频生成：用户可以通过添加风格描述（如“卡通风格”、“赛博朋克风格”等）来生成具有特定艺术风格的视频。
Follow Your Pose的工作原理

Follow Your Pose的工作原理主要基于一个两阶段的训练过程，旨在结合文本描述和姿态信息来生成视频。以下是其工作原理的详细步骤：
1. 第一阶段：姿态控制的文本到图像生成
  - 姿态编码器：首先，框架使用一个零初始化的卷积编码器来学习姿态信息。这个编码器从输入的姿态序列中提取关键点特征。
  - 特征注入：提取的姿态特征被下采样到不同的分辨率，并以残差连接的方式注入到预训练的文本到图像（T2I）模型的U-Net结构中。这样做可以在保持原有模型的图像生成能力的同时，引入姿态控制。
  - 训练：在这个阶段，模型仅使用姿态图像对进行训练，目的是学习如何根据文本描述和姿态信息生成图像。
2. 第二阶段：视频生成
  - 视频数据集：为了学习时间上的连贯性，框架在第二阶段使用了一个没有姿态标注的视频数据集（如HDVLIA）进行训练。
  - 3D网络结构：将预训练的U-Net模型扩展为3D网络，以便处理视频输入。这涉及到将第一层卷积扩展为伪3D卷积，并添加时间自注意力模块来模拟时间序列。
  - 跨帧自注意力：为了进一步提高视频的连贯性，框架引入了跨帧自注意力（cross-frame self-attention）模块，这有助于在视频帧之间保持内容的一致性。
  - 微调：在这个阶段，只有与时间连贯性相关的参数（如时间自注意力和跨帧自注意力）会被更新，而其他参数（如伪3D卷积层和前馈网络FFN）保持不变。
3. 生成过程
  - 文本和姿态输入：在推理阶段，用户输入描述目标角色外观和动作的文本，以及一个表示动作序列的姿态序列。
  - 视频生成：模型根据这些输入生成视频。在生成过程中，大多数预训练的稳定扩散模型参数被冻结，只有与时间连贯性相关的模块参与计算。
通过这种两阶段的训练策略，Follow Your Pose能够有效地从易于获取的数据集中学习，生成具有高度控制性和时间连贯性的视频。
January 31, 2024
Lepton Search – 开源的对话式AI搜索引擎项目
Lepton Search是什么

Lepton Search是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎，该项目基于调用Lepton平台上的云端人工智能模型和Bing搜索的API密钥，仅用不到 500 行 Python 代码就构建了一个类似于Perplexity AI的对话搜索引擎。

Letpton Search的功能特色
- 免费开源：Lepton Search 的代码是开源的，这意味着开发者可以自由地使用、修改和分发这些代码，促进了技术的共享和创新。
- 对话式搜索：Lepton Search 允许用户通过自然语言与搜索引擎进行交互，提供更直观和友好的搜索体验。
- 内置大语言模型（LLM）支持：Lepton Search 集成了大语言模型，这使得它能够理解和生成自然语言，从而提供更准确的搜索结果。
- 搜索引擎集成：Lepton Search 内置了搜索引擎功能，能够快速检索和提供相关信息，通过调用外部搜索引擎API（必应搜索API）来实现。
- 自定义UI界面：开发者可以根据自己的需求定制Lepton Search 的用户界面，以适应不同的应用场景和用户偏好。
- 搜索结果共享与缓存：Lepton Search 支持将搜索结果进行共享，并且可以缓存搜索结果，提高用户体验和搜索效率。
- 云原生平台：Lepton Search 运行在Lepton AI的云平台上，具有可扩展性、灵活性和安全性，适合处理大规模AI任务。
Lepton Search的官网入口
- 官网地址：https://search.lepton.run/
- GitHub代码库：https://github.com/leptonai/search_with_lepton
如何使用Lepton Search

普通用户可以通过Lepton Search在线网页版体验，开发者也可以自行部署，具体步骤如下：
1. 克隆Lepton Search项目：git clone https://github.com/leptonai/search_with_lepton.git
2. 运行pip install -U leptonai && lep login命令自动设置LLM和KV函数
3. 设置 Bing 密钥：export BING_SEARCH_V7_SUBSCRIPTION_KEY=YOUR_BING_SUBSCRIPTION_KEY
4. 构建前端网络：cd web && npm install && npm run build
5. 运行后台服务器：BACKEND=BING python search_with_lepton.py
January 29, 2024
Vary-toy：开源的小型视觉多模态模型
Vary-toy是什么

Vary-toy是一个小型的视觉语言模型（LVLM），由来自旷视、国科大、华中大的研究人员共同提出，旨在解决大型视觉语言模型（LVLMs）在训练和部署上的挑战。对于资源有限的研究者来说，大型模型通常拥有数十亿参数，难以在消费级GPU上（如GTX 1080Ti）进行训练和部署。Vary-toy的核心目标便是让研究人员能够在有限的硬件资源下，体验到当前LVLMs的所有功能（文档OCR、视觉定位、图像描述、视觉文答等）。

Vary-toy的主要功能
- 文档级光学字符识别（OCR）：Vary-toy能够识别和理解文档图像中的文字，这在处理扫描文档、PDF文件等场景中非常有用。
- 图像描述：模型能够生成图像的描述性文本，这对于图像内容的理解和生成图像描述任务（如VQA）至关重要。
- 视觉问答（VQA）：Vary-toy能够回答关于图像内容的问题，这涉及到理解图像的视觉信息以及与之相关的文本信息。
- 对象检测：通过强化的视觉词汇，Vary-toy具备了自然对象感知（定位）的能力，能够在图像中识别和定位物体。
- 图像到文本的转换：Vary-toy可以将图像内容转换为结构化的文本格式，例如将PDF图像转换为Markdown格式。
- 多模态对话：Vary-toy模型支持多模态对话，能够理解和生成与图像内容相关的对话。
Vary-toy的官方入口
- 官方项目主页：https://varytoy.github.io/
- Arxiv研究论文：https://arxiv.org/abs/2401.12503
- Demo运行地址：https://vary.xiaomy.net/
- GitHub代码库：https://github.com/Ucas-HaoranWei/Vary-toy
Vary-toy的技术原理

Vary-toy的工作原理基于几个关键的技术和设计决策，这些决策共同作用于提高模型在视觉语言任务上的性能，同时保持模型的小型化。以下是Vary-toy工作原理的主要组成部分：
1. 视觉词汇生成：Vary-toy利用一个小型的自回归模型（OPT-125M）来生成新的视觉词汇网络。这个网络通过处理PDF图像文本对和自然图像中的对象检测数据来学习如何有效地编码视觉信息。与传统的Vary模型相比，Vary-toy在生成视觉词汇时，不再将自然图像作为负样本，而是将其视为正样本，从而更充分地利用网络的容量。
2. 视觉词汇与CLIP的融合：在生成新的视觉词汇后，Vary-toy将其与原始的CLIP（Contrastive Language-Image Pre-training）模型相结合。CLIP是一个强大的视觉-语言模型，能够将图像和文本映射到共享的嵌入空间。通过这种方式，Vary-toy能够利用CLIP的图像理解能力，同时通过新的视觉词汇网络增强对文本信息的处理。
3. 多任务预训练：Vary-toy在预训练阶段采用了多任务学习策略，这意味着模型在训练过程中同时处理多种类型的数据，如图像描述、PDF OCR、对象检测、纯文本对话和视觉问答（VQA）。这种多任务训练有助于模型学习更丰富的视觉和语言表示，提高其在各种下游任务上的泛化能力。
4. 模型结构：Vary-toy遵循Vary的管道设计，但在结构上有所调整。当输入图像时，新的视觉词汇分支会将图像调整到1024×1024的分辨率，而CLIP分支则通过中心裁剪获取224×224的图像。两个分支输出的图像特征被合并，作为输入到1.8B参数的Qwen-1.8B语言模型中。
5. 数据输入格式：为了适应不同的任务，Vary-toy需要处理多种输入格式。例如，对于PDF图像-文本对，模型使用了一个特定的提示（如“Provide the OCR results of this image.”）来指导输出正确的结果。对于对象检测任务，模型使用不同的提示模板来处理图像中的多个对象。
6. 微调（SFT）：在预训练之后，Vary-toy通过指令调优（SFT）阶段进一步优化模型。这个阶段使用LLaVA-80K数据集，这是一个包含详细描述和提示的图像数据集，由GPT4生成。这有助于模型更好地理解和生成与图像内容相关的文本。
通过这些工作机制，Vary-toy能够在保持模型小型化的同时，实现对复杂视觉语言任务的有效处理。这种设计使得Vary-toy成为一个在资源受限环境中进行视觉语言研究的有力工具。

如何使用Vary-toy
1. 访问Vary-toy的官方demo体验地址（vary.xiaomy.net）
2. 点击上传一张图片或者在左侧选择示例图片
3. 输入提示指令如描述图像内容、检测图像中的物体等
4. 等待模型生成结果即可
January 29, 2024
ActAnywhere – Adobe推出的AI视频背景生成模型
ActAnywhere是什么

ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型，旨在解决视频背景生成的问题，特别是在需要将前景主体（如人物）与新背景无缝结合的场景中。这个模型适用于电影制作和视觉效果（VFX）领域，它能够自动化地创建与前景主体运动相协调的视频背景，从而节省了传统手动合成过程中的大量时间和精力。

官方项目主页：https://actanywhere.github.io/

Arxiv论文地址：https://arxiv.org/abs/2401.10822

ActAnywhere的功能特色
- 前景主体与背景融合：ActAnywhere能够根据前景主体的运动和外观，自动生成与之相匹配的背景，使得主体与背景之间的交互看起来自然和连贯。
- 条件帧驱动的背景生成：用户可以提供一个描述新场景的图像（条件帧），ActAnywhere会根据这个条件帧生成视频背景。这允许用户指定特定的背景元素，如特定的建筑、自然景观或室内环境。
- 时间一致性：通过使用时间自注意力机制，ActAnywhere确保生成的视频在时间序列上保持一致性，包括相机运动、光照变化和阴影效果。
- 自监督学习：ActAnywhere在大规模人类-场景交互视频数据集上进行自监督训练，这意味着它能够在没有人工标注的情况下学习如何生成视频背景。
- 零样本学习：ActAnywhere能够在没有额外训练的情况下，对新的、未见过的数据（如非人类主体）进行生成，这表明模型能够从训练数据中学习到通用的背景生成策略。
ActAnywhere的工作原理

ActAnywhere通过以下的步骤和组件，能够生成具有高度现实感和时间连贯性的视频背景：
1. 数据准备：
  - 使用前景主体分割算法（如Mask R-CNN）从输入视频中获取前景主体的分割序列（S）和对应的掩膜（M）。
  - 引入一个条件帧（c），这是一个描述所需生成背景的图像，可以是背景图像或包含前景和背景的复合帧。
2. 特征编码：
  - 使用预训练的变分自编码器（VAE）将前景主体分割序列编码为潜在特征（ˆS）。
  - 将前景掩膜序列下采样并与潜在特征对齐，以匹配特征维度。
3. 扩散过程：
  - 在训练过程中，使用VAE编码器将原始视频帧编码为潜在表示（Z），然后在正向扩散过程中逐渐添加高斯噪声。
  - 在测试时，潜在表示（Z0）初始化为高斯噪声，并通过逆向扩散过程逐步去噪，以生成最终的视频帧。
4. 时间注意力机制：
  - 在去噪的U-Net中插入一系列运动模块，这些模块包含特征投影层和1D时间自注意力块，以实现时间上的连贯性。
  - 条件帧的特征（Fc）通过CLIP图像编码器提取，并注入到U-Net的交叉注意力层中，以确保生成的视频背景与条件帧保持一致。
5. 训练目标：
  - 使用简化的扩散目标进行训练，即预测添加的噪声。通过最小化预测噪声与真实噪声之间的差异来训练模型。
6. 数据增强和处理：
  - 在训练过程中，为了处理不完美的分割掩膜，应用随机矩形裁剪和图像腐蚀操作。
  - 在测试时，通过随机丢弃分割、掩膜或条件帧来实现无分类器的引导。
7. 模型训练：
  - 在大规模人类-场景交互视频数据集（HiC+）上进行训练，该数据集包含240万个视频。
  - 使用AdamW优化器，固定学习率为3e-5，冻结共享的VAE和CLIP编码器，微调U-Net。
8. 生成过程：
  - 在测试时，将前景主体序列和条件帧输入到训练好的模型中，模型将生成与前景主体运动相协调的视频背景。
ActAnywhere的应用场景
- 视频背景替换：ActAnywhere可以将视频中的前景主体放置到全新的背景中，这对于电影制作、广告、虚拟现实（VR）和增强现实（AR）等领域非常有用。例如，可以将演员置于虚构的场景中，或者在不实际拍摄的情况下模拟特定环境。
- 视觉效果增强：在视觉效果（VFX）制作中，ActAnywhere可以用来生成复杂的背景效果，如动态天气、光影变化、人群互动等，而无需实际拍摄这些元素。
- 创意内容制作：艺术家和内容创作者可以使用ActAnywhere来快速尝试和实现他们的创意想法，例如，将角色置于不同的历史时期或未来世界，或者与虚构的生物互动。
- 教育和培训：在教育领域，ActAnywhere可以用来创建模拟场景，帮助学生更好地理解复杂的概念或历史事件，或者用于安全培训，模拟紧急情况。
- 游戏和娱乐：游戏开发者可以利用ActAnywhere生成动态背景，为玩家提供更加丰富和真实的游戏体验。同时，它也可以用于电影预告片、音乐视频和其他娱乐内容的制作。
January 29, 2024
DemoFusion – 免费开源的图像分辨率超清增强框架
DemoFusion是什么

DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架，通过扩展现有的开源生成人工智能模型（如Stable Diffusion），使得这些模型能够在不进行额外训练和不产生过高内存需求的情况下，将模糊的低分辨率图像变得更加高清（放大4倍、16倍甚至更高分辨率）。DemoFusion采用渐进式增强、跳跃残差和扩张采样机制来实现更高分辨率的图像生成，对于资源有限的用户来说，达成类似于Magnific AI的解决方案。

DemoFusion的官网入口
- 官方项目主页：https://ruoyidu.github.io/demofusion/demofusion.html
- Arxiv研究论文：https://arxiv.org/abs/2311.16973
- GitHub代码库：https://github.com/PRIS-CV/DemoFusion
- Hugging Face运行地址：
  - Image to Image版本：https://huggingface.co/spaces/radames/Enhance-This-DemoFusion-SDXL
  - Text to Image版本：https://huggingface.co/spaces/fffiloni/DemoFusion
- Replicate运行地址：
  - Image to Image版本：https://replicate.com/lucataco/demofusion-enhance
  - Text to Image版本：https://replicate.com/lucataco/demofusion
- Google Colab运行地址：https://colab.research.google.com/github/camenduru/DemoFusion-colab/blob/main/DemoFusion_colab.ipynb
DemoFusion的功能特色
- 高分辨率图像生成：DemoFusion能够将预训练的GenAI模型（如SDXL）的图像生成能力扩展到更高的分辨率，例如从1024×1024像素提升到4096×4096像素或更高，而无需对模型进行额外的训练。
- 渐进式上采样：通过逐步增加图像分辨率的方式，DemoFusion允许用户在生成过程中逐步细化图像细节，同时保持图像的整体质量和语义一致性。
- 全局语义一致性：通过跳跃残差和扩张采样机制，DemoFusion能够在生成高分辨率图像时保持全局的语义一致性，避免局部区域的重复和结构扭曲。
- 快速迭代：由于渐进式上采样的特性，DemoFusion允许用户在生成过程中快速预览低分辨率的结果，从而在等待高分辨率图像生成完成之前，对图像的布局和风格进行快速迭代和调整。
- 无需额外硬件：DemoFusion能够在消费级的硬件（如RTX 3090 GPU）上运行，这意味着用户不需要昂贵的硬件投资就能生成高分辨率的图像。
- 易于集成：DemoFusion作为一个插件式的框架，可以轻松地与现有的AI生成模型集成，使得研究人员和开发者能够快速地将高分辨率图像生成能力应用到他们的项目中。
- 丰富的应用场景：DemoFusion不仅适用于艺术创作，还可以用于各种需要高分辨率图像的领域，如游戏开发、电影制作、虚拟现实等。
DemoFusion的工作原理

DemoFusion的工作原理基于几个关键步骤和机制，这些步骤共同作用以生成高分辨率的图像。以下是其主要的工作流程：
1. 初始化（Initialization）：
  - DemoFusion首先从一个低分辨率的图像开始，这个图像是通过一个预训练的潜在扩散模型（如SDXL）生成的。
2. 渐进式上采样（Progressive Upscaling）：
  - 从低分辨率图像开始，DemoFusion通过迭代过程逐步增加图像的分辨率。这个过程涉及到将当前分辨率的图像上采样到更高的分辨率，然后通过扩散过程引入噪声，最后通过去噪过程恢复图像。这个过程重复进行，每次都在更高的分辨率上进行，以逐渐增加图像的细节。
3. 跳跃残差（Skip Residual）：
  - 在去噪过程中，DemoFusion利用之前迭代步骤中的噪声反转表示作为跳跃残差。这有助于在生成过程中保持图像的全局结构，同时允许局部细节的优化。
4. 扩张采样（Dilated Sampling）：
  - 为了增强每个去噪路径的全局上下文，DemoFusion引入了扩张采样。这意味着在潜在空间中，通过扩张采样来获取全局表示，然后这些全局表示被用于指导局部去噪路径，以生成具有全局一致性的图像内容。
5. 局部和全局路径融合（Fusing Local and Global Paths）：
  - 在每个迭代步骤中，DemoFusion将局部去噪路径（通过扩张采样得到的局部潜在表示）和全局去噪路径（通过跳跃残差得到的全局潜在表示）结合起来，以生成最终的高分辨率图像。
6. 解码（Decoding）：
  - 最后，通过一个解码器将最终的潜在表示转换回图像空间，得到高分辨率的输出图像。
DemoFusion的这些步骤和机制共同作用，使得它能够在不进行额外训练的情况下，有效地生成具有丰富细节和良好全局一致性的高分辨率图像。

如何使用DemoFusion
1. 访问DemoFusion的Replicate或Hugging Face运行地址
2. 上传你要放大的图片或使用示例图片
3. 输入prompt提示词描述图片画面
4. 调节Seed值并设置Demofusion参数
5. 最后点击Run运行，等待图片高清放大
January 28, 2024