Category: AI项目和框架

InstantID – 高保真的个性化图像合成框架
InstantID是一种基于扩散模型的图像生成技术，专注于实现零次（zero-shot）身份保留（Identity-Preserving）的个性化图像合成。该技术允许用户仅使用一张面部图像，就能在多种风格中生成个性化的图像，同时确保高保真度，类似于PhotoMaker的生成效果。InstantID的设计旨在解决现有个性化图像合成方法在实际应用中的一些限制，例如高存储需求、漫长的微调过程以及需要多张参考图像。

项目主页：https://instantid.github.io/

论文地址：https://arxiv.org/abs/2401.07519

GitHub代码库：https://github.com/InstantID/InstantID

InstantID的功能特色
- 个性化图像合成：用户可以基于一张面部图像生成具有不同姿势或风格的个性化图像，同时保持高保真度。
- 身份特征保留：在生成新图像时，InstantID能够精确地保留原始图像中的人脸特征，如表情、年龄和身份等。
- 风格迁移：InstantID可以将一个人的面部特征转移到不同的艺术风格或背景中，例如将现实风格的面部特征融入到动漫风格的图像中。
- 新视角合成：通过InstantID，可以生成同一人物的新视角图像，即使原始图像中没有这些视角。
- 身份插值：InstantID能够实现不同人物特征的平滑过渡，例如在两个不同人物之间进行面部特征的插值。
- 多身份合成：在复杂的场景中，InstantID可以同时处理多个人物，生成包含多个角色的图像。
- 兼容预训练模型：InstantID作为一个插件，可以无缝集成到流行的预训练文本到图像扩散模型中，如SD1.5和SDXL，而不需要额外的微调。
InstantID的工作原理

InstantID包含了三个关键的组成部分，ID嵌入、图像适配器和IdentityNet。
1. ID嵌入：首先，InstantID使用一个预训练的面部模型来提取参考面部图像的身份嵌入，包含了丰富的语义信息，如身份、年龄和性别等，由此来保持生成图像中的人脸细节。
2. 图像适配器：InstantID引入了一个轻量级的图像适配器，这个适配器使用解耦的交叉注意力机制来支持图像作为视觉提示。该适配器可以将参考图像作为条件输入，而不影响其他模型参数。
3. IdentityNet：一个专门设计的网络，用于编码参考面部图像的详细特征，并结合额外的空间控制。IdentityNet通过将面部特征与文本提示结合起来，引导图像生成过程，确保在生成过程中保持面部身份的细节。
4. 训练和推理策略：在训练过程中，InstantID只优化图像适配器和IdentityNet的参数，而保持预训练的扩散模型参数不变。这样，即使在没有额外微调的情况下，InstantID也能在推理时保持灵活性。
5. 生成过程：在生成图像时，InstantID首先使用ID嵌入作为条件，然后通过图像适配器和IdentityNet的引导，将这些条件传递给扩散模型，扩散模型随后在这些条件下生成图像。
January 19, 2024
AnyText – 阿里开源的视觉图像文字生成和编辑模型
AnyText是什么

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线：辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码，这些编码与来自分词器的图像标题嵌入结合，生成与背景无缝融合的文本。该技术解决了在生成图像中的文本区域时合成文本模糊、不可读或错误的挑战，提高了图像中文本书写的准确性。

GitHub项目：https://github.com/tyxsspa/AnyText

论文地址：https://arxiv.org/abs/2311.03054

ModelScope：https://modelscope.cn/studios/damo/studio_anytext

Hugging Face：https://huggingface.co/spaces/modelscope/AnyText

AnyText的功能特色
- 多语言支持：AnyText能够生成多种语言的文本，包括中文、英文、日文、韩文等。
- 多行文本生成：用户可以指定在图像的多个位置生成文本。
- 变形区域书写：AnyText能够生成水平、垂直甚至曲线或不规则区域内的文本。
- 文本编辑能力：AnyText提供了修改图像中指定位置文本内容的功能，同时保持与周围文本风格的一致性。
- 即插即用：AnyText可以无缝集成到现有的扩散模型中，提供生成文本的能力。
AnyText的工作原理

AnyText通过以下模块的协同工作，AnyText能够在图像中准确地生成和编辑多语言文本，同时保持与背景的无缝融合，具体如下：
1. 文本控制扩散管道：
  - AnyText使用变分自编码器（VAE）对输入图像进行编码，生成一个潜在表示。
  - 然后，通过扩散算法逐步向这个潜在表示中添加噪声，生成一系列时间步骤的噪声潜在图像。
  - 在每个时间步骤，AnyText应用一个网络（TextControlNet）来预测应该添加到噪声潜在图像上的噪声，以控制文本的生成。
2. 辅助潜在模块：
  - 该模块接收文本字形（glyph）、位置（position）和蒙版图像（masked image）作为输入，生成一个辅助潜在特征图。
  - 字形信息通过渲染文本到图像上生成，位置信息标记文本在图像中的位置，掩膜图像指示在扩散过程中应保留的图像区域。
3. 文本嵌入模块：
  - 该模块使用预训练的OCR模型（如PP-OCRv3）来提取文本的笔画信息，并将其编码为嵌入。
  - 这些嵌入与来自分词器的图像标题嵌入结合，生成一个融合的中间表示，然后通过交叉注意力机制映射到UNet的中间层。
4. 文本感知损失：
  - 在训练过程中，AnyText使用文本感知损失来进一步提高文本生成的准确性。
  - 这种损失通过比较生成图像和原始图像中的文本区域来实现，只关注文本本身的正确性，排除背景、字符位置偏差、颜色或字体样式等因素。
5. 训练和优化：
  - AnyText的训练目标是最小化文本控制扩散损失和文本感知损失的加权和。
  - 在训练过程中，模型通过调整权重比（λ）来平衡这两种损失。
如何使用AnyText生成文字
1. 访问AnyText的ModelScope空间或Hugging Face demo
2. 输入Prompt提示词，然后选择指定文字位置
3. 最后点击Run运行，等待图片和文字生成即可
January 18, 2024
Motionshop – 阿里推出的AI角色动画项目，可替换视频人物为3D
Motionshop是什么

Motionshop是阿里巴巴智能计算研究院（XR实验室和TIDE三维渲染团队）推出的一个AI角色动画框架，可将视频中的人物角色替换为3D化身，同时不改变视频中的其他场景和人物。该框架利用视频处理、角色检测/分割/追踪、姿态分析、模型提取和动画渲染等多种技术，使得动态视频中的主角能够轻松跨越现实与虚拟的界限，一键变身为有趣的3D角色模型。

官方项目主页：https://aigc3d.github.io/motionshop/

在线体验入口：https://www.modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

Motionshop的功能特色
- 视频人物替换为3D化身：用户只需上传视频，AI便能智能识别视频中的主要人物，并将其无缝转换为生动的3D角色模型。
- 动作同步与真实感：Motionshop不仅替换人物，还能精确复刻原视频中人物的动作细节，确保3D角色的动作流畅自然，提供高度逼真的视觉效果。
- 现实与虚拟的无缝融合：通过Motionshop，现实世界的人物与3D虚拟角色得以完美融合，创造出跨越现实与虚拟界限的全新体验，为视频内容增添无限可能。
Motionshop的工作原理

Motionshop框架由两部分构成，一个是用于提取修复背景视频序列的视频处理流程，另一个是用于生成3D虚拟角色视频序列的姿态估计和渲染流程。通过并行两条线并使用高性能光线追踪渲染器TIDE ，整个视频替换过程可以在几分钟内完成。

具体的技术如下：
1. 角色检测：首先，Motionshop利用先进的算法精确识别视频中的角色，确保后续处理的准确性。
2. 视频对象分割和跟踪：在角色检测的基础上，系统进一步对视频对象进行像素级的分割和跟踪，为后续的修复和替换做好准备。
3. 视频修复：采用先进的视频修复技术，将背景视频序列中的瑕疵和不完美之处进行修复
4. 姿态估计：通过应用CVFFS等高精度姿态估计方法，系统能够稳定地捕捉角色的动作姿态，为动画重定向奠定基础
5. 动画映射：在估计出角色的姿态后，Motionshop将这些姿态重新映射到选定的3D模型上，使新模型能够自然地模拟原始角色的动作
6. 光影估计：为了确保新模型与原始视频的光影效果一致，系统会进行精细的光影估计，以实现无缝的视觉融合。
7. 3D渲染：利用TIDE渲染引擎，Motionshop将3D模型渲染成逼真的图像序列，同时结合运动模糊、时间抗锯齿等算法，提升渲染质量
8. 视频合成：最后，将新生成的3D渲染图像与修复后的视频背景进行合成，创造出与原始视频无缝对接的全新视频序列。
如何使用Motionshop
1. 访问Motionshop的ModelScope魔搭社区Demo体验地址：https://www.modelscope.cn/studios/Damo_XR_Lab/motionshop/summary
2. 准备一段视频，确保视频中的人物主体完整，且视频时长不超过15秒。
3. 上传视频后，系统将自动选择视频中的人物
4. 选择你想要用于替换的虚拟角色模型
5. 最后点击生成视频按钮，等待一会儿即可生成结果
January 17, 2024
MagicVideo-V2：字节跳动推出的AI视频生成模型
MagicVideo-V2是什么

MagicVideo-V2 是字节跳动公司团队开发的一款AI视频生成模型和框架，通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频生成流程中，可以生成高保真和美观的视频，并实现高分辨率视觉质量与流畅运动的一致性。

项目主页：https://magicvideov2.github.io/

Arxiv论文：https://arxiv.org/abs/2401.04468

MagicVideo-V2的功能特色
- 文本到高保真视频生成：用户只需输入文本描述，MagicVideo-V2 就能根据这些描述生成高保真度的视频内容。
- 生成的视频质量高：经过测试，MagicVideo-V2 在视频质量上表现出色，与市场上的其他AI视频生成工具和模型相比，如 MoonValley、Pika 1.0、Morph、Runway Gen-2、SVD-XT 等，MagicVideo-V2 的效果更优。
- 创新性地集成了多个模块：MagicVideo-V2 采用了多阶段的模块生成方法，这种集成方式提高了视频生成的效率和质量。
- 视频画面流畅平滑：生成的视频具有连贯、流畅、平滑、逼真和高分辨率的特点，为用户提供了极佳的观看体验。
MagicVideo-V2的工作原理

MagicVideo-V2视频生成的原理在于将多个生成模块集成到一个流程中，以保证视频的高保真和时间连续，具体流程如下：
1. 首先T2I（Text-to-Image）模块根据文字描述生成1024*1024的图像
2. 然后I2V（Image-to-Video）模块对生成的静态图像进行动画处理，生成600*600*32的帧序列
3. V2V（Video-to-Video）模块再对视频进行增强和内容完善，生成1048*1048*32的帧序列
4. 最后再用VFI视频插值模块将视频序列扩展到94帧
如何体验MagicVideo-V2

目前MagicVideo-V2只上线了研究论文和项目主页介绍，是否开源暂未可知，未推出代码库和在线体验运行地址，后续上线后AI工具集会第一时间更新。
January 17, 2024
I2VGen-XL：阿里推出的图像到视频生成模型
I2VGen-XL是什么

I2VGen-XL 是阿里巴巴达摩院推出的一款开源的图像到视频的生成模型，通过创新的级联扩散方法，将文本视频数据与视频结构解耦，同时利用静态图像作为关键指导形式，确保了输入数据的对齐性，将静态图像合成为高质量的动态视频。这种方法有效解决了AI视频合成过程中的语义准确性、清晰度和时空连续性的挑战。

I2VGen-XL的功能特色
- 静态图像转视频：用户只需提供静态图像和相应的文本描述，模型就能生成与输入图像内容和语义高度一致的动态视频。
- 生成宽屏高清视频：I2VGen-XL 能够生成分辨率为1280*720、16:9宽屏比例的高清视频，为用户提供了高质量的视觉体验。
- 时序连贯：模型生成的视频在时间序列上连贯，保证了视频内容的流畅性和观看的舒适度。
- 质感好、细节丰富：I2VGen-XL 在视频合成过程中注重细节的保留和质感的呈现，使得生成的视频具有较高的真实感和艺术性。
如何使用I2VGen-XL

I2VGen-XL的项目主页为：https://i2vgen-xl.github.io/，GitHub代码库为：https://github.com/ali-vilab/i2vgen-xl，研究论文地址为：https://arxiv.org/abs/2311.04145，普通用户可以通过Hugging Face或ModelScope魔搭社区的Demo进行在线体验：
1. 访问I2VGen-XL的Demo主页（Hugging Face版：https://huggingface.co/spaces/modelscope/I2VGen-XL；ModelScope版：https://www.modelscope.cn/studios/damo/I2VGen-XL-Demo/summary）
2. 选择合适的图片进行上传（建议图片比例为1:1），然后点击「生成视频」
3. 待初步生成的视频完成后，进入下一步添加对视频内容的英文文本描述
4. 点击「生成高分辨率视频」，等待2分钟左右，视频便能生成好了
January 17, 2024
FaceChain – 阿里推出的人物写真和个人形象生成框架
FaceChain是阿里巴巴达摩院推出的一个开源的人物写真和个人数字形象的AI生成框架（类似于免费开源版的妙鸭相机），用户仅需要提供最少一张照片即可生成独属于自己的个人形象数字替身。该AI框架利用了Stable Diffusion模型的文生图功能并结合人像风格化LoRA模型训练及人脸相关感知理解模型，将输入的图片进行训练后推理输出生成为个人写真图像。

FaceChain的功能特色
- 形象定制化训练：用户只需要提供至少一张个人头肩照，就可以用于LoRA风格化训练，生成具有个性化风格的数字形象。
- 生成各种风格的个人写真：FaceChain 能够生成多种风格的个人写真，包括汉服风、工作照、芭比娃娃、校服风、圣诞风、绅士风、漫画风等，满足用户多样化的个性化需求。
- 支持SD WebUI插件调用：FaceChain 支持通过SD WebUI插件进行调用，可以通过SD界面与AI模型进行交互，方便地生成和编辑个人形象。
- 支持姿态控制：用户可以控制生成的数字形象的姿态，为创造动态或特定动作的个人形象提供了可能。
- 自定义prompt提示词：用户可通过输入特定的提示词来改变数字形象的服装、配饰等，实现更加个性化的定制。
FaceChain的官网入口
- FaceChain的GitHub代码库：https://github.com/modelscope/facechain
- FaceChain的研究论文：https://arxiv.org/abs/2308.14256
- FaceChain的ModelScope魔搭地址：https://www.modelscope.cn/brand/view/FaceChain
- FaceChain的Hugging Face地址：https://huggingface.co/spaces/modelscope/FaceChain
如何使用FaceChain

FaceChain支持在Gradio的界面中使用模型训练和推理能力、支持资深开发者使用Python脚本进行训练推理，也支持在SD WebUI中安装插件使用。本文以ModelScope魔搭社区在线运行Gradio版进行体验和使用FaceChain：
1. 访问FaceChain的ModelScope demo 页面，在「人物形象训练」标签页下，选择1-10张个人的人脸/头像照片（避免图片中出现多人脸、脸部遮挡等情况）上传
2. 上传后点击「开始训练」，启动形象定制化训练，每张图片约需要1分半
3. 待训练完成后，切换至右侧的「形象写真」标签，调整和设置相关参数即可生成你的风格照片
4. 此外，你也可以直接使用FaceChain Agent版本，无需复杂操作，只需通过对话即可得到各类写真照片，更推荐该方法
January 16, 2024
PhotoMaker – 腾讯等推出的AI人物生成和图片风格化工具
PhotoMaker是由来自腾讯PCG部门的ARC实验室、南开大学和东京大学的研究人员最新推出的一款逼真的AI人物生成和照片风格化的开源模型和框架，可以帮助用户将上传的参考图片生成任何风格的照片/绘画/头像。该个性化的文本到图像生成方法将输入的 ID 图像编码成一个堆叠 ID 嵌入，以保留 ID 信息，然后在推理过程中合并/创建新的定制 ID，借此来生成各种风格的人物照片。

PhotoMaker生成的钢铁侠版牛顿

PhotoMaker的功能特色
- 快速定制：用户只需上传一张图片，输入描述性文本，即可迅速生成符合描述风格的个性化照片。
- 生成逼真的人物：PhotoMaker 能够生成高度逼真的人物图像，无论是面部特征还是整体造型，都能达到令人信服的效果。
- 多样的图片风格化：除了逼真的人物照片，PhotoMaker 还能将输入的图片转换为草图、漫画、动画等多种艺术风格。
- 无需LoRA训练：与传统的AI模型不同，PhotoMaker 不需要进行LoRA训练，降低了使用门槛，使得更多用户能够轻松上手。
- 混合不同人物特征：PhotoMaker 允许用户混合不同人物的特征，创造出全新的人物形象，为艺术创作和个性化表达提供了无限可能。
- 改变人物的年龄和性别：用户可以调整照片中人物的年龄和性别，例如生成年轻版或女性版的有趣形象
PhotoMaker生成的梵高

如何使用PhotoMaker

PhotoMaker的项目主页为：https://photo-maker.github.io/，论文全文：https://huggingface.co/papers/2312.04461。用户可以通过Hugging Face的demo在线运行和体验：
1. 访问PhotoMaker的Hugging Face项目地址https://huggingface.co/spaces/TencentARC/PhotoMaker（让照片风格化则访问PhotoMaker-Style https://huggingface.co/spaces/TencentARC/PhotoMaker-Style）
2. 上传你要个性化的人物照片（或选择示例图片）
3. 输入文本提示，确保在要自定义的类单词后面加上触发词：img，例如：man img或woman img或girl img
4. 选择你喜欢的风格样式模板
5. 最后点击“Submit”按钮提交等待图片生成即可
January 16, 2024
Outfit Anyone – 阿里开源的一键换衣虚拟试穿项目
Outfit Anyone是由阿里巴巴智能计算研究院推出的一个高质量服装虚拟试穿的开源项目，借助该技术，用户或模特无需亲自试穿衣服即可预览上身效果。Outfit Anyone采用双流条件扩散模型，处理模特、服装和文本提示，通过衣物图像作为控制因素实现更逼真的虚拟试穿效果。通过该技术，用户可以更加轻松地探索和选择适合自己的服装，同时也为服装设计师和零售商提供了新的创意和营销工具。

Outfit Anyone的功能特色
- 低图片输入要求：用户只需提供服饰的平铺图，即可生成服装在模特身上的试穿效果。
- 高质量试衣输出：系统能够生成高质量的试衣效果，服装的细节和皮肤纹理都表现得非常逼真。
- 服饰搭配支持：Outfit Anyone 支持上下装的组合搭配，能够处理各种风格的服装，并创建相应的搭配效果。
- 灵活可扩展：系统在处理服装变形方面表现出色，可以根据需要调整模特的姿势和身体形状。
- 广泛的适用范围：Outfit Anyone 能够处理从动漫到真实世界的各种图像，适应性强。
- 支持不同身材试衣：系统能够适应各种体型的模特，包括健身、曲线和娇小体型，提供个性化的试穿体验。
- 与Animate Anyone 搭配使用：Outfit Anyone 还可以与 Animate Anyone 算法结合使用，先进行服装虚拟试穿，然后生成模特穿着新服装的舞蹈视频
如何使用Outfit Anyone

Outfit Anyone的官方项目主页为：https://humanaigc.github.io/outfit-anyone/，目前用户可通过ModelScope魔搭或Hugging Face社区进行在线体验：
1. 访问 Outfit Anyone 的 ModelScope demo https://modelscope.cn/studios/DAMOXR/OutfitAnyone 或 Hugging Face demo https://huggingface.co/spaces/HumanAIGC/OutfitAnyone
2. 选择AI模特，上传或选择上衣和下衣，然后点击Run运行
3. 等待片刻合成的试衣效果即可呈现
Outfit Anyone的应用场景
1. 普通消费者：消费者可以在不实际试穿的情况下，预览服装在自己身上的效果，提供了一种全新的购物体验。
2. 服装设计师：设计师可以使用这项技术来展示设计作品，通过虚拟试穿效果来吸引潜在客户，或者在设计过程中快速测试和调整服装样式
3. 模特：对于模特来说，Outfit Anyone 可以减少实际试穿服装的时间和成本，同时提供多样化的试穿效果，帮助他们在虚拟环境中展示不同风格的服装。
4. 电商从业者：对于预算低的商家，可以使用 Outfit Anyone 给宣传图换装，展示店铺服装上身效果，节省雇佣服装模特的成本
January 16, 2024
ReplaceAnything – 阿里推出的AI替换图片中物体的开源框架
ReplaceAnything是由阿里巴巴智能计算研究院推出的一款开源AI图像内容替换框架，利用先进的人工智能技术，能够实现对照片或图像中物体的智能替换。用户可以通过简单的操作，只需框选想要保留的图像部分，输入提示词或描述来替换想要更改的图像区域，如更换人物发型、服装、背景等。这项技术为图像编辑和内容创作提供了更多的可能性，同时也为普通用户提供了便捷有趣的图像处理工具。

ReplaceAnything的应用场景
1. 服装替换：在时尚和零售行业中，可以用于展示不同服装款式在模特身上的搭配效果，或者在电商平台上提供虚拟试衣功能。
2. 证件照背景替换：用户可以轻松更换自拍图片的背景，无需前往专门的摄影店，即可替换成不同颜色要求的证件照
3. 人脸替换：在娱乐和社交媒体中，用户可以将照片中的脸部替换为其他人物或卡通形象，创造有趣的效果。
4. 产品场景图替换：商家和设计师可以更换产品图片的背景，以适应不同的营销场景和广告需求。
如何使用ReplaceAnything

目前用户可以通过ModelScope魔搭或Hugging Face社区在线体验和使用ReplaceAnything
1. 访问 ModelScope demo https://www.modelscope.cn/studios/damo/ReplaceAnything/summary 或 Hugging Face demo https://huggingface.co/spaces/modelscope/ReplaceAnything
2. 在“输入图像”中上传或选择Example例图里面的一张图片
3. 通过点击鼠标选择图像中希望保留的物体
4. 输入对应的参数，例如prompt等，点击Run进行生成
5. 此外支持换背景操作，上传目标风格背景调整后即可进行生成
ReplaceAnything项目主页：https://aigcdesigngroup.github.io/replace-anything/
January 16, 2024
Animate Anyone – 阿里推出的图像到视频角色动画合成的框架
Animate Anyone是由阿里巴巴智能计算研究院推出的一款将静态图像中的角色或人物进行动态化的开源框架，已在GitHub上斩获了近1.3万个星标，并在国内外引起了热烈的讨论。该框架在扩散模型的基础之上，引入了ReferenceNet、Pose Guider姿态引导器和时序生成模块等技术，以实现照片动起来时保持一致性、可控性和稳定性，输出高质量的动态化视频。阿里旗下的AI聊天助手通义千问里面的「通义舞王」功能便是基于该技术，可让照片中的人物/角色跳起科目三、抖肩舞、鬼步舞等。

Animate Anyone的应用场景
- 角色动态化：无论是真人、动漫角色还是卡通形象或人形物体，Animate Anyone都能让它们动起来，为各种创意项目增添乐趣。
- 时尚视频合成：在时尚领域，Animate Anyone能够将静态模特转化为动态展示，实现不同角度和着装效果的动态展示，为服装展示提供新的视觉体验。
- 人类舞蹈生成：Animate Anyone 通过结合参考图像和姿态骨架动画，能够生成逼真的舞蹈视频，可以让一本真经的人物也跳起舞来。
如何使用Animate Anyone

Animate Anyone的项目主页为https://humanaigc.github.io/animate-anyone/，GitHub代码库地址为https://github.com/HumanAIGC/AnimateAnyone，可以通过通义千问APP或Hugging Face进行在线快速体验：
1. Hugging Face社区Demo：访问https://huggingface.co/spaces/xunsong/Moore-AnimateAnyone，上传或拖放图像、添加动态姿态图并调节参数后点击Animate即可让图片中的角色动起来
2. 通义千问：手机上安装通义千问APP，然后在指令中心中选择「一张照片来跳舞」或直接输入通义舞王，选择你感兴趣的舞蹈模版、上传静态照片然后即可生成动态视频
January 16, 2024