Author: Chimy

Make-A-Character：阿里开源的AI 3D数字人生成框架
Make-A-Character是什么？

Make-A-Character（简称Mach）是一个由阿里巴巴集团智能计算研究院开发的一个人工智能3D数字人生成框架，旨在通过文本描述快速创建逼真的3D角色。该系统特别适用于满足人工智能代理和元宇宙中对个性化和富有表现力的3D角色的需求。Mach的核心功能是利用大型语言和视觉模型来理解文本中的意图，并生成中间图像，然后通过一系列针对人类视觉感知和3D生成的模块，将这些图像转化为完整的3D角色模型。

Make-A-Character的官网入口
- 官方项目主页：https://human3daigc.github.io/MACH/
- Arxiv研究论文：https://arxiv.org/abs/2312.15430
- GitHub代码库：https://github.com/Human3DAIGC/Make-A-Character（代码待开源）
- ModelScope Demo：https://www.modelscope.cn/studios/XR-3D/InstructDynamicAvatar/summary
Make-A-Character的功能特色
- 文本到3D角色生成：用户可以通过输入文本描述来指定角色的外观特征，如面部特征、发型、服装等，Mach系统会根据这些描述生成相应的3D角色模型。
- 灵活的可控定制：系统允许用户对角色进行详细的定制，包括面部特征、眼睛形状、虹膜颜色、发型和颜色、眉毛、嘴巴和鼻子等，甚至可以添加皱纹和雀斑，以创造出符合用户个性化需求的角色。
- 高度逼真的渲染：Mach利用基于物理的渲染（PBR）技术，结合真实人类扫描数据，生成高度逼真的角色。角色的头发以发丝的形式构建，而非传统的网格，以增强真实感。
- 完整的角色模型：生成的角色模型包括眼睛、舌头、牙齿、全身和服装等所有细节，确保角色在各种应用场景中都能立即使用。
- 动画支持：角色配备了高级的骨骼刚体，支持标准动画，使得角色能够进行各种动态表现，如面部表情变化等。
- 行业兼容性：Mach生成的角色模型采用明确的3D表示，可以无缝集成到游戏和电影行业的标准CG流程中，便于后续的动画制作和渲染。
Make-A-Character的工作原理
1. 文本解析与视觉提示生成：
  - 用户输入描述角色特征的文本提示。
  - 使用大型语言模型（LLM）来理解文本中的语义信息，提取关键的面部特征和属性。
  - 将这些特征映射到视觉线索，如姿势和边缘图，以指导后续的图像生成。
2. 参考肖像图像生成：
  - 结合Stable Diffusion模型和ControlNet，根据提取的视觉线索生成参考肖像图像。ControlNet确保生成的图像具有正面姿势和中性表情，便于后续的3D建模。
  - 使用Openpose和Canny边缘检测技术来确保面部特征的合理分布。
3. 密集面部坐标检测：
  - 利用密集面部坐标（431个坐标点）来重建面部和头部几何结构，这些坐标点比传统的68或98个坐标点更详细，覆盖整个头部。
  - 使用合成图像作为训练数据，通过多视角捕捉和处理流程生成这些坐标点。
4. 几何生成：
  - 根据参考肖像图像和密集面部坐标，重建头部几何结构。通过将3D网格映射到2D平面，实现对网格的优化。
  - 使用坐标投影损失和局部平滑约束来确保几何结构的准确性。
5. 纹理生成：
  - 使用可微渲染技术从参考图像中提取纹理，并通过多分辨率策略逐步生成高分辨率纹理。
  - 引入神经除光（de-lighting）方法，从纹理图像中去除不必要的照明效果，得到适合渲染的漫反射贴图。
6. 纹理修正与完成：
  - 对生成的漫反射贴图进行修正，解决眼睛、嘴巴和鼻孔等区域的不完美问题。
  - 使用面部解析算法提取错误区域的遮罩，并通过泊松融合（Poisson blending）技术与模板漫反射贴图合并，以改善视觉效果。
7. 头发生成：
  - 通过2D图像合成各种发型，然后基于这些图像进行3D发丝重建。
  - 使用先进的头发生成技术，如NeuralHDHair，训练模型并生成高质量的3D发丝。
8. 资产匹配：
  - 将生成的头部与预先制作的头发、身体、服装和配饰等资产进行匹配。
  - 使用CLIP文本编码器计算输入提示与资产标签之间的相似度，选择最匹配的资产。
9. 角色装配：
  - 将所有生成和匹配的部件组装成一个完整的3D角色模型。
  - 角色模型支持动画，可以通过骨骼刚体进行动态表现。
February 9, 2024
MetaGPT – 多个AI智能体协作分工的框架
MetaGPT是什么？

MetaGPT是一个创新的元编程框架，结合了大语言模型和多智能体协作系统，旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序（SOPs）编码成提示序列，以便在多智能体系统中实现更高效的工作流程和减少错误。

在MetaGPT中，智能体被赋予特定的角色，例如产品经理、架构师、项目经理、工程师和质量保证工程师等，每个角色都有其独特的职责和专业知识。这些智能体遵循SOPs来分解任务，确保每个步骤都能高效且准确地完成。例如，在软件开发过程中，产品经理负责分析需求并创建产品需求文档（PRD），架构师负责将需求转化为系统设计，项目经理负责任务分配，工程师负责编写代码，而质量保证工程师则负责测试和确保代码质量。

MetaGPT的官网入口
- 官方项目主页：https://www.deepwisdom.ai/
- Arxiv研究论文：https://arxiv.org/abs/2308.00352
- GitHub代码库：https://github.com/geekan/MetaGPT
- Hugging Face Demo：https://huggingface.co/spaces/deepwisdom/MetaGPT
MetaGPT的主要特点
- 角色专业化与分工协作：MetaGPT将多智能体系统中的智能体分配到不同的角色，如产品经理、架构师、工程师等，每个角色都有明确的职责和任务。这种分工使得复杂任务能够被分解为更小、更具体的子任务，由具有相应专业知识的智能体来完成。
- 标准化操作程序（SOPs）集成：MetaGPT将SOPs编码成提示序列，这些标准化的流程有助于智能体更有效地完成任务。SOPs在人类社会中广泛应用于各种领域，以确保任务的一致性和质量，MetaGPT借鉴这一概念，提高了智能体协作的效率和准确性。
- 结构化通信：为了解决纯自然语言通信在复杂任务中的局限性，MetaGPT采用了结构化的通信方式。智能体通过共享消息池发布和订阅信息，这样可以确保信息的准确传递，同时避免信息过载。
- 可执行反馈机制：MetaGPT引入了一种自我修正机制，允许智能体在代码生成过程中进行迭代编程。例如，工程师智能体可以根据产品需求和设计生成代码，然后执行并检查错误。如果发现问题，它会根据过去的信息和当前的PRD、系统设计以及代码文件进行调试，直到代码通过测试。
- 模拟真实世界团队协作：MetaGPT通过模拟真实世界中的软件开发团队，展示了其在分解复杂任务、分配具体行动程序给不同角色以及促进团队成员之间协作的能力。
MetaGPT的工作原理
1. 角色定义与分工：
  - MetaGPT首先定义了一系列智能体角色，每个角色都有特定的职责和任务。例如，产品经理负责分析用户需求，架构师负责系统设计，工程师负责编写代码，质量保证工程师负责测试等。
  - 这些角色模拟了真实世界中的工作流程，使得每个智能体都能专注于其擅长的领域。
2. 标准化操作程序（SOPs）：
  - MetaGPT将SOPs编码成提示序列，这些序列指导智能体如何执行任务。SOPs确保了任务执行的一致性和质量，类似于人类团队中的工作指南。
  - 通过遵循这些标准化流程，智能体能够更有效地协作，减少错误，并提高整体工作流程的效率。
3. 结构化通信：
  - 为了提高通信效率，MetaGPT采用了结构化的通信方式。智能体通过共享消息池发布和订阅信息，这样每个智能体都能获取到完成任务所需的必要信息。
  - 这种通信方式避免了信息的冗余和缺失，确保了信息的准确传递。
4. 可执行反馈机制：
  - 在代码生成过程中，MetaGPT引入了可执行反馈机制。这意味着智能体（如工程师）在编写代码后，会执行代码并检查其正确性。
  - 如果发现错误，智能体会根据反馈进行调试，然后再次执行，直到代码满足要求。这个过程类似于人类开发者在开发过程中的迭代过程。
5. 任务分解与协作：
  - MetaGPT将复杂任务分解为多个子任务，每个子任务由一个或多个智能体负责。这种分解策略使得大型项目可以被有效地管理和执行。
  - 智能体之间的协作是通过角色间的信息交换和任务依赖来实现的，确保了整个项目按计划推进。
6. 持续学习与优化：
  - MetaGPT的设计允许智能体从过去的经验中学习，通过自我修正和迭代来优化其行为。这种自我改进机制使得系统能够随着时间的推移而变得更加高效和智能。
MetaGPT的应用场景
- 软件开发：MetaGPT可以模拟软件开发团队的工作流程，从需求分析、系统设计、代码编写到测试和调试，每个步骤都由专门的智能体负责。这有助于提高软件开发的效率，减少错误，并生成高质量的代码。
- 项目管理：在项目管理中，MetaGPT可以协助规划、分配任务、监控进度和资源分配。通过模拟项目经理的角色，它可以帮助确保项目按时完成，同时保持团队成员之间的有效沟通。
- 自动化测试：MetaGPT的智能体可以生成和执行自动化测试用例，确保软件在各种条件下的稳定性和性能。这有助于在软件开发过程中及早发现并修复缺陷。
- 数据分析与决策支持：MetaGPT可以集成数据分析工具，帮助企业分析市场趋势、用户行为等数据，为决策提供支持。它可以模拟数据分析师的角色，提供洞察力并辅助制定策略。
February 8, 2024
DiffusionGPT – 开源的大模型驱动的文本到图像生成系统
DiffusionGPT是什么？

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型（LLM）驱动的文本到图像生成系统，旨在解决文生图领域无法处理不同的输入或者仅限于单一模型结果的挑战。该系统利用思维树和优势数据库的技术能够处理多种类型的文本提示，并将这些提示与领域专家模型相结合，以生成高质量的图像。

DiffusionGPT的官网入口
- 官方项目主页：https://diffusiongpt.github.io/
- Arxiv研究论文：https://arxiv.org/abs/2401.10061
- GitHub代码库：https://github.com/DiffusionGPT/DiffusionGPT
- Hugging Face运行地址：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT
- DiffusionGPT-XL Demo：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT-XL
DiffusionGPT的主要特点
- 文本提示解析：DiffusionGPT能够理解和解析各种类型的文本提示，包括基于描述的、基于指令的、基于启发的和基于假设的提示。这一功能使得系统能够准确把握用户想要生成的图像内容。
- 模型选择与集成：系统通过构建一个基于思维树（Tree-of-Thought, ToT）的结构，将多个领域专家生成模型进行分类和组织。这允许DiffusionGPT根据输入的文本提示，从众多模型中选择最合适的一个来生成图像。
- 人类反馈优化：DiffusionGPT利用人类反馈来优化模型选择过程。通过优势数据库（Advantage Databases），系统可以根据人类对模型生成结果的评分来选择表现最佳的模型，从而提高生成图像的质量和用户满意度。
- 图像生成执行：在选择了合适的模型后，DiffusionGPT会执行图像生成过程。为了增强生成图像的细节和艺术性，系统还会通过提示扩展代理来丰富和细化输入提示。
- 多领域适用性：DiffusionGPT设计为一个全能系统，不仅适用于描述性文本提示，还能够处理更复杂的指令和启发性内容，这使得它在多样化的应用场景中具有广泛的适用性。
- 即插即用解决方案：DiffusionGPT的设计使其成为一个训练免费、易于集成的解决方案，可以轻松地集成到现有的图像生成流程中，为用户提供便捷的服务。
DiffusionGPT的工作原理

DiffusionGPT的工作原理可以分为四个主要步骤，这些步骤共同协作以实现从文本提示到高质量图像生成的过程：
1. 提示解析（Prompt Parse）：
  - DiffusionGPT首先使用大语言模型（LLM）来分析和提取输入文本提示中的关键信息。这个过程对于生成用户期望的内容至关重要，因为用户输入可能包含多种类型的提示，如基于描述的、基于指令的、基于启发的或基于假设的。
  - LLM能够识别这些提示的不同形式，并提取出核心内容，以便为后续的图像生成提供准确的指导。
2. 模型构建和搜索的思维树（Tree-of-Thought of Models）：
  - 在解析了提示之后，系统会构建一个基于思维树（ToT）的结构，这个结构包含了多个领域专家生成模型。这些模型根据它们的属性被分类到不同的节点，形成一个层次化的结构。
  - 通过这个思维树，系统可以缩小候选模型的范围，提高模型选择的准确性。这个过程类似于在树中搜索，从根节点开始，根据提示内容逐步向下寻找最匹配的模型。
3. 模型选择（Model Selection）：
  - 在确定了候选模型集之后，DiffusionGPT会利用人类反馈和优势数据库（Advantage Databases）来选择最合适的模型。这个数据库包含了对模型生成结果的评分，基于这些评分，系统可以确定哪些模型在处理特定类型的提示时表现最佳。
  - 系统会根据输入提示与数据库中的提示进行语义相似度计算，然后选择与这些提示最匹配的模型，以确保生成的图像符合用户的期望。
4. 生成执行（Execution of Generation）：
  - 最后，选定的模型会根据提取的核心提示生成图像。为了提高生成图像的质量，DiffusionGPT还会使用提示扩展代理（Prompt Extension Agent）来丰富和细化输入提示，使其更加详细和具有描述性。
  - 这样，生成的图像不仅能够捕捉到提示的核心内容，还能展现出更高的细节和艺术性。
通过这四个步骤，DiffusionGPT能够无缝地处理多样化的文本提示，并生成与用户意图高度一致的高质量图像。这个系统的设计旨在提高图像生成的灵活性和效率，同时利用人类反馈来不断优化生成过程。
February 4, 2024
MusicFX – 谷歌推出的免费的AI音乐生成工具
MusicFX是什么？

Google MusicFX是谷歌推出的一款免费的人工智能音乐生成工具，基于谷歌的MusicLM模型和DeepMind的水印技术SynthID，可以创作长达70秒的曲子和loop循环。该工具的目标是让音乐创作变得更加简单和易于访问，即使是没有专业音乐背景的用户也能够通过输入文字描述来生成高质量的原创背景音乐。自2023年12月推出以来，用户累计已使用MusicFX创建了超过1000万首曲目。

MusicFX的功能特色
- 文本到音乐创作：用户可以通过输入文本描述来生成音乐。这些描述可以是关于音乐风格、情感、场景或者任何能够激发音乐创作灵感的文字。
- 多种音乐风格：MusicFX能够根据用户的描述生成多种风格的音乐，包括爵士乐、放克、嘻哈、蓝调R&B、摇滚等，满足不同用户的需求。
- 自定义音乐参数：用户可以调整生成音乐的音调、节奏、音量等基本参数，以及添加混响、回声等音效，以创造出个性化的音乐作品。
- 生成时长控制：MusicFX默认生成两个 30 秒的音乐版本，并提供50秒或70秒或自动缝合开头和结尾以循环播放的选项。
- 数字水印技术：通过DeepMind的SynthID技术，MusicFX 在生成的音乐中嵌入了数字水印，这有助于识别和追踪音乐的来源，确保了AI生成音乐的原创性和版权问题。
- 版权安全过滤：为了避免侵犯音乐版权，谷歌会过滤提及特定歌手/艺术家或包含声音的提示，不会生成相应的曲目。
如何使用MusicFX？

MusicFX 目前可通过谷歌的 AI Test Kitchen 访问使用，该平台还提供 ImageFX 文本图像生成工具。具体操作步骤如下：
1. 访问MusicFX的官网：https://aitestkitchen.withgoogle.com/tools/music-fx
2. 在左侧输入提示词并选择音乐风格
3. 在右侧点击Settings设置seed值、音乐时长、小节循环等
4. 最后点击Generate生成音乐即可（你也可以点击I’m feeling lucky随机生成音乐）
February 2, 2024
OLMo – 艾伦AI研究所开源的完全开放的大语言模型框架
OLMo是什么？

OLMo（Open Language Model）是由Allen AI（AI2，艾伦人工智能研究所）开发的一个完全开源开放的大型语言模型（LLM）框架，设计初衷是为了通过开放研究，促进学术界和研究人员共同研究语言模型的科学。OLMo框架提供了一系列的资源，包括数据、训练代码、模型权重以及评估工具，以便研究人员能够更深入地理解和改进语言模型。

OLMo的官网入口
- 官方项目主页：https://allenai.org/olmo
- GitHub代码库：https://github.com/allenai/olmo
- Hugging Face地址：https://huggingface.co/allenai/OLMo-7B
- 研究论文：https://allenai.org/olmo/olmo-paper.pdf
OLMo的主要特点
- 大规模预训练数据：基于AI2的Dolma数据集，这是一个包含3万亿个标记的大规模开放语料库，为模型提供了丰富的语言学习材料。
- 多样化的模型变体：OLMo框架包含了四种不同规模的模型变体，每种模型至少经过2万亿token的训练，这为研究人员提供了多种选择，以适应不同的研究需求。
- 详细的训练和评估资源：除了模型权重，OLMo还提供了完整的训练日志、训练指标和500多个检查点，这些资源可以帮助研究人员更好地理解模型的训练过程和性能。
- 开放性和透明度：OLMo的所有代码、权重和中间检查点都在Apache 2.0许可证下发布，这意味着研究人员可以自由地使用、修改和分发这些资源，以促进知识的共享和创新。
OLMo的模型性能

据OLMo的论文报告，OLMo-7B模型在零样本（zero-shot）评估中的表现与其他几个模型进行了对比，这些模型包括Falcon-7B、LLaMA-7B、MPT-7B、Pythia-6.9B、RPJ-INCITE-7B和LLaMA-7B。

以下是OLMo-7B在一些核心任务上的比较结果：
1. 下游任务评估：OLMo-7B在9个核心任务的零样本评估中，在2个任务（科学问题和因果推理）上表现最佳，8个任务上保持在前三名。这表明OLMo-7B在这些任务上具有较强的竞争力。
2. 基于困惑度的评估：在Paloma评估框架中，OLMo-7B在多个数据源上的困惑度（bits per byte）表现也显示出竞争力。特别是在与代码相关的数据源（如Dolma 100 Programming Languages）上，OLMo-7B的表现显著优于其他模型。
3. 额外任务评估：在额外的6个任务（headqa en、logiqa、mrpcw、qnli、wic、wnli）上，OLMo-7B在零样本评估中的表现同样优于或接近其他模型。
February 2, 2024
ImageFX – 谷歌推出的人工智能图像生成工具
ImageFX是什么

Google ImageFX是谷歌最新推出的一款人工智能图像生成工具，基于谷歌的 DeepMind 实验室开发的一个先进的文本到图像的生成模型 — Imagen 2。ImageFX 的设计目的是根据用户提供的文本提示生成高质量的图像，声称能够生成迄今为止质量最高的图像，并且在处理文本到图像系统中常见的挑战方面有所改进，同时保持图像不受干扰性视觉伪影的影响。

ImageFX的功能特色
- 文本到图像生成：用户可以输入文本提示，如“一只狗骑着冲浪板”，ImageFX 会根据这些提示生成相应的图像。
- Expressive Chips：允许用户通过简单的操作快速尝试和调整文本提示中的关键词，从而探索不同的创意变体。
- 高质量图像生成：ImageFX 声称能够生成迄今为止质量最高的图像，特别是在处理文本到图像系统中常见的挑战，如生成逼真的人类面孔和手部。
- SynthID 数字水印：为了防范图像被用于制造虚假信息或深度伪造，谷歌在生成的图像中嵌入了 SynthID 水印。这种水印对人类不可见，但可以被用于识别图像是由AI生成的。
- 内容安全措施：谷歌在 ImageFX 中实施了一系列安全措施，包括限制训练数据，防止生成暴力、冒犯或性暗示的内容，以及设置过滤器阻止生成已知或命名的个人图像。
- IPTC 元数据：所有使用 ImageFX 生成的图像都会包含 IPTC 元数据，这为用户提供了关于图像来源和生成方式的额外信息。
如何使用ImageFX

ImageFX 目前仅在谷歌的 AI Test Kitchen 中提供，并且只对美国、肯尼亚、新西兰和澳大利亚的英语用户开放。用户可以通过这个平台尝试 ImageFX，以及其他谷歌的 AI 实验性工具，如 MusicFX（用于音乐生成）和 TextFX（用于文本风格化）。具体使用步骤如下：
1. 访问ImageFX的官网地址：https://aitestkitchen.withgoogle.com/tools/image-fx
2. 在左侧输入提示词，然后ImageFX会自动优化提示词并将其识别分组为Expressive Chips
3. 点击Generate右侧会生成想要的图片，可以重新生成或点击分组的形容词或风格词进行修改
February 2, 2024
IP-Adapter – 腾讯开源的文本到图像扩散模型适配器
IP-Adapter是什么

IP-Adapter（Image Prompt Adapter）是一种专门为预训练的文本到图像扩散模型（如Stable Diffusion）设计的适配器，目的是让文生图模型能够利用图像提示（image prompt）来生成图像。该方法是由腾讯AI实验室的研究人员提出的，旨在解决仅使用文本提示（text prompt）生成理想图像时的复杂性和挑战。

在传统的文本到图像扩散模型中，用户需要通过编写文本提示来指导模型生成图像，这往往需要复杂的提示工程。而IP-Adapter通过引入图像提示，使得模型能够直接理解图像内容，从而更有效地生成与用户意图相符的图像。这种方法的核心在于它采用了一种解耦的交叉注意力机制，这种机制将文本特征和图像特征的处理分开，使得模型能够更好地理解和利用图像信息。

IP-Adapter的官网入口
- 官方项目主页：https://ip-adapter.github.io/
- GitHub代码库：https://github.com/tencent-ailab/IP-Adapter
- Arxiv研究论文：https://arxiv.org/abs/2308.06721
- Hugging Face 模型地址：https://huggingface.co/h94/IP-Adapter
- Google Colab Demo 地址：https://colab.research.google.com/github/tencent-ailab/IP-Adapter/blob/main/ip_adapter_demo.ipynb
- IP-Adapter-FaceID Demo：https://huggingface.co/spaces/multimodalart/Ip-Adapter-FaceID
IP-Adapter的功能特色
- 图像提示集成：IP-Adapter允许模型接收图像作为输入，与文本提示一起，指导图像生成过程。这种方法利用了图像的丰富信息，使得生成的图像更加精确地反映用户的意图。
- 轻量级适配器：尽管IP-Adapter的功能强大，但其参数量相对较小（约22M参数），在计算资源上更加高效，易于部署和使用。
- 泛化能力：IP-Adapter在训练后可以轻松地应用于其他基于相同基础模型微调的自定义模型，可以在不同的应用场景中灵活使用。
- 多模态生成：IP-Adapter支持同时使用文本提示和图像提示进行图像生成，这为用户提供了更多的创作自由度，可以生成更加丰富和多样化的图像内容。
- 结构控制兼容性：IP-Adapter与现有的结构控制工具（如ControlNet）兼容，允许用户在图像生成过程中加入额外的结构条件，如用户绘制的草图、深度图、语义分割图等，以实现更精细的图像控制。
- 无需微调：IP-Adapter的设计避免了对原始扩散模型的微调，这意味着用户可以直接使用预训练模型，而无需进行耗时的微调过程。
- 图像到图像和修复：IP-Adapter不仅支持文本到图像的生成，还可以用于图像到图像的转换和图像修复任务，通过替换文本提示为图像提示来实现。
IP-Adapter的工作原理

IP-Adapter的工作原理基于解耦的交叉注意力机制，这一机制允许模型同时处理文本和图像信息，而不会相互干扰。

以下是IP-Adapter工作原理的详细步骤：
1. 图像编码：首先，IP-Adapter使用预训练的CLIP（Contrastive Language-Image Pre-training）图像编码器来提取图像提示的特征。CLIP模型通过对比学习在大量图像和文本对上训练，能够理解图像内容并生成与图像相关的文本描述。在IP-Adapter中，CLIP编码器被用来将图像转换为一系列特征向量。
2. 特征投影：为了将图像特征与文本特征的维度对齐，IP-Adapter包含一个小型的可训练投影网络，该网络将CLIP编码器的全局图像嵌入转换为与文本特征相同维度的特征序列。
3. 解耦的交叉注意力：在预训练的文本到图像扩散模型（如Stable Diffusion）中，文本特征通过交叉注意力层与模型的内部状态进行交互。IP-Adapter在每个交叉注意力层中添加了一个新的层，专门用于处理图像特征。这样，文本特征和图像特征可以分别通过各自的交叉注意力层进行处理，避免了直接合并可能导致的信息损失。
4. 训练过程：在训练阶段，IP-Adapter只优化新添加的交叉注意力层的参数，而保持原始的扩散模型参数不变。这样，IP-Adapter可以在不改变原始模型结构的情况下，学习如何将图像特征融入到图像生成过程中。
5. 生成过程：在生成图像时，IP-Adapter将文本提示和图像提示的特征输入到模型中。模型首先通过文本交叉注意力层处理文本特征，然后通过图像交叉注意力层处理图像特征。最后，这些特征被合并并输入到扩散模型的去噪网络中，逐步生成图像。
6. 结构控制：IP-Adapter与现有的结构控制工具（如ControlNet）兼容，这意味着用户可以在生成过程中添加额外的结构条件，如草图、深度图等，以实现更精细的图像控制。
February 1, 2024
360AI搜索 – 360推出的新一代答案引擎
360AI搜索是什么

360AI搜索是360公司推出的一款集成了人工智能技术的AI搜索引擎，类似于Perplexity被设计为新一代答案引擎，旨在为用户提供更加精准、全面和智能的搜索体验。当用户在360AI搜索中输入问题时，系统会通过一系列复杂的处理流程来生成答案，包括问题分析、语义理解、关键词分解、网页检索、内容提取和答案生成等步骤。

360AI搜索的主要功能
- AI搜索：当用户提出问题时，360AI搜索不仅会进行关键词检索，还会利用人工智能技术对问题进行深入分析，理解用户的真正意图，并从海量的网络信息中提取出最相关的答案。
- 增强模式：在增强模式下，360AI搜索会进行更深层次的语义分析，通过追问来获取更多细节信息，然后将问题拆分为多个关键词，进行更广泛的搜索。这有助于系统更准确地理解复杂问题，并提供更详细的答案。
- 智能排序：360AI搜索使用自有的排序算法，对搜索结果进行重新匹配和排序，确保用户能够快速找到最有价值的信息。
- 内容提取与生成：系统会从与问题最匹配的网页中提取内容，并结合大模型的能力，生成逻辑清晰、有理有据的答案，并能进行多轮对话，以确保用户得到满意的回答。
360AI搜索的官方入口
- 官网地址：https://so.360.com/
- iOS App Store：https://apps.apple.com/cn/app/360ai搜索/id6474985142
- 腾讯应用宝 Android：https://sj.qq.com/appdetail/com.qihoo.aiso
February 1, 2024
Follow Your Pose – 开源的姿态全可控视频生成框架
Follow Your Pose是什么

Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员开源的一个基于文本到视频生成的框架，允许用户通过文本描述和指定的人物姿态来生成视频。该框架采用了两阶段的训练策略，能够生成与文本描述和姿态序列高度一致的视频，同时保持视频中人物动作的真实性和连贯性。

Follow Your Pose的官网入口
- 官方项目主页：https://follow-your-pose.github.io/
- GitHub代码库：https://github.com/mayuelala/FollowYourPose
- Arxiv研究论文：https://arxiv.org/abs/2304.01186
- Hugging Face运行地址：https://huggingface.co/spaces/YueMafighting/FollowYourPose
- OpenXLab运行地址：https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
- Google Colab运行地址：https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb
Follow Your Pose的功能特色
- 文本到视频生成：用户可以输入文本描述，框架会根据这些描述生成相应的视频内容，如角色的动作、场景背景以及整体的视觉风格。
- 姿态控制：用户可以通过指定人物的姿态序列来控制视频中角色的动作，以精确地控制角色在视频中的每一个动作细节。
- 时间连贯性：框架能够生成时间上连贯的视频，确保视频中的动作和场景变化自然流畅，没有突兀的跳跃或闪烁。
- 多样化角色和背景生成：框架能够生成具有不同外观、风格和背景的视频，包括但不限于现实风格、卡通风格、赛博朋克风格等。
- 多角色视频生成：框架支持多角色视频的生成，可以在同一个视频中展示多个角色，并且能够根据文本描述指定每个角色的身份和动作。
- 风格化视频生成：用户可以通过添加风格描述（如“卡通风格”、“赛博朋克风格”等）来生成具有特定艺术风格的视频。
Follow Your Pose的工作原理

Follow Your Pose的工作原理主要基于一个两阶段的训练过程，旨在结合文本描述和姿态信息来生成视频。以下是其工作原理的详细步骤：
1. 第一阶段：姿态控制的文本到图像生成
  - 姿态编码器：首先，框架使用一个零初始化的卷积编码器来学习姿态信息。这个编码器从输入的姿态序列中提取关键点特征。
  - 特征注入：提取的姿态特征被下采样到不同的分辨率，并以残差连接的方式注入到预训练的文本到图像（T2I）模型的U-Net结构中。这样做可以在保持原有模型的图像生成能力的同时，引入姿态控制。
  - 训练：在这个阶段，模型仅使用姿态图像对进行训练，目的是学习如何根据文本描述和姿态信息生成图像。
2. 第二阶段：视频生成
  - 视频数据集：为了学习时间上的连贯性，框架在第二阶段使用了一个没有姿态标注的视频数据集（如HDVLIA）进行训练。
  - 3D网络结构：将预训练的U-Net模型扩展为3D网络，以便处理视频输入。这涉及到将第一层卷积扩展为伪3D卷积，并添加时间自注意力模块来模拟时间序列。
  - 跨帧自注意力：为了进一步提高视频的连贯性，框架引入了跨帧自注意力（cross-frame self-attention）模块，这有助于在视频帧之间保持内容的一致性。
  - 微调：在这个阶段，只有与时间连贯性相关的参数（如时间自注意力和跨帧自注意力）会被更新，而其他参数（如伪3D卷积层和前馈网络FFN）保持不变。
3. 生成过程
  - 文本和姿态输入：在推理阶段，用户输入描述目标角色外观和动作的文本，以及一个表示动作序列的姿态序列。
  - 视频生成：模型根据这些输入生成视频。在生成过程中，大多数预训练的稳定扩散模型参数被冻结，只有与时间连贯性相关的模块参与计算。
通过这种两阶段的训练策略，Follow Your Pose能够有效地从易于获取的数据集中学习，生成具有高度控制性和时间连贯性的视频。
January 31, 2024
Lepton Search – 开源的对话式AI搜索引擎项目
Lepton Search是什么

Lepton Search是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎，该项目基于调用Lepton平台上的云端人工智能模型和Bing搜索的API密钥，仅用不到 500 行 Python 代码就构建了一个类似于Perplexity AI的对话搜索引擎。

Letpton Search的功能特色
- 免费开源：Lepton Search 的代码是开源的，这意味着开发者可以自由地使用、修改和分发这些代码，促进了技术的共享和创新。
- 对话式搜索：Lepton Search 允许用户通过自然语言与搜索引擎进行交互，提供更直观和友好的搜索体验。
- 内置大语言模型（LLM）支持：Lepton Search 集成了大语言模型，这使得它能够理解和生成自然语言，从而提供更准确的搜索结果。
- 搜索引擎集成：Lepton Search 内置了搜索引擎功能，能够快速检索和提供相关信息，通过调用外部搜索引擎API（必应搜索API）来实现。
- 自定义UI界面：开发者可以根据自己的需求定制Lepton Search 的用户界面，以适应不同的应用场景和用户偏好。
- 搜索结果共享与缓存：Lepton Search 支持将搜索结果进行共享，并且可以缓存搜索结果，提高用户体验和搜索效率。
- 云原生平台：Lepton Search 运行在Lepton AI的云平台上，具有可扩展性、灵活性和安全性，适合处理大规模AI任务。
Lepton Search的官网入口
- 官网地址：https://search.lepton.run/
- GitHub代码库：https://github.com/leptonai/search_with_lepton
如何使用Lepton Search

普通用户可以通过Lepton Search在线网页版体验，开发者也可以自行部署，具体步骤如下：
1. 克隆Lepton Search项目：git clone https://github.com/leptonai/search_with_lepton.git
2. 运行pip install -U leptonai && lep login命令自动设置LLM和KV函数
3. 设置 Bing 密钥：export BING_SEARCH_V7_SUBSCRIPTION_KEY=YOUR_BING_SUBSCRIPTION_KEY
4. 构建前端网络：cd web && npm install && npm run build
5. 运行后台服务器：BACKEND=BING python search_with_lepton.py
January 29, 2024