Category: AI工具

MusicFX – 谷歌推出的免费的AI音乐生成工具
MusicFX是什么？

Google MusicFX是谷歌推出的一款免费的人工智能音乐生成工具，基于谷歌的MusicLM模型和DeepMind的水印技术SynthID，可以创作长达70秒的曲子和loop循环。该工具的目标是让音乐创作变得更加简单和易于访问，即使是没有专业音乐背景的用户也能够通过输入文字描述来生成高质量的原创背景音乐。自2023年12月推出以来，用户累计已使用MusicFX创建了超过1000万首曲目。

MusicFX的功能特色
- 文本到音乐创作：用户可以通过输入文本描述来生成音乐。这些描述可以是关于音乐风格、情感、场景或者任何能够激发音乐创作灵感的文字。
- 多种音乐风格：MusicFX能够根据用户的描述生成多种风格的音乐，包括爵士乐、放克、嘻哈、蓝调R&B、摇滚等，满足不同用户的需求。
- 自定义音乐参数：用户可以调整生成音乐的音调、节奏、音量等基本参数，以及添加混响、回声等音效，以创造出个性化的音乐作品。
- 生成时长控制：MusicFX默认生成两个 30 秒的音乐版本，并提供50秒或70秒或自动缝合开头和结尾以循环播放的选项。
- 数字水印技术：通过DeepMind的SynthID技术，MusicFX 在生成的音乐中嵌入了数字水印，这有助于识别和追踪音乐的来源，确保了AI生成音乐的原创性和版权问题。
- 版权安全过滤：为了避免侵犯音乐版权，谷歌会过滤提及特定歌手/艺术家或包含声音的提示，不会生成相应的曲目。
如何使用MusicFX？

MusicFX 目前可通过谷歌的 AI Test Kitchen 访问使用，该平台还提供 ImageFX 文本图像生成工具。具体操作步骤如下：
1. 访问MusicFX的官网：https://aitestkitchen.withgoogle.com/tools/music-fx
2. 在左侧输入提示词并选择音乐风格
3. 在右侧点击Settings设置seed值、音乐时长、小节循环等
4. 最后点击Generate生成音乐即可（你也可以点击I’m feeling lucky随机生成音乐）
February 2, 2024
OLMo – 艾伦AI研究所开源的完全开放的大语言模型框架
OLMo是什么？

OLMo（Open Language Model）是由Allen AI（AI2，艾伦人工智能研究所）开发的一个完全开源开放的大型语言模型（LLM）框架，设计初衷是为了通过开放研究，促进学术界和研究人员共同研究语言模型的科学。OLMo框架提供了一系列的资源，包括数据、训练代码、模型权重以及评估工具，以便研究人员能够更深入地理解和改进语言模型。

OLMo的官网入口
- 官方项目主页：https://allenai.org/olmo
- GitHub代码库：https://github.com/allenai/olmo
- Hugging Face地址：https://huggingface.co/allenai/OLMo-7B
- 研究论文：https://allenai.org/olmo/olmo-paper.pdf
OLMo的主要特点
- 大规模预训练数据：基于AI2的Dolma数据集，这是一个包含3万亿个标记的大规模开放语料库，为模型提供了丰富的语言学习材料。
- 多样化的模型变体：OLMo框架包含了四种不同规模的模型变体，每种模型至少经过2万亿token的训练，这为研究人员提供了多种选择，以适应不同的研究需求。
- 详细的训练和评估资源：除了模型权重，OLMo还提供了完整的训练日志、训练指标和500多个检查点，这些资源可以帮助研究人员更好地理解模型的训练过程和性能。
- 开放性和透明度：OLMo的所有代码、权重和中间检查点都在Apache 2.0许可证下发布，这意味着研究人员可以自由地使用、修改和分发这些资源，以促进知识的共享和创新。
OLMo的模型性能

据OLMo的论文报告，OLMo-7B模型在零样本（zero-shot）评估中的表现与其他几个模型进行了对比，这些模型包括Falcon-7B、LLaMA-7B、MPT-7B、Pythia-6.9B、RPJ-INCITE-7B和LLaMA-7B。

以下是OLMo-7B在一些核心任务上的比较结果：
1. 下游任务评估：OLMo-7B在9个核心任务的零样本评估中，在2个任务（科学问题和因果推理）上表现最佳，8个任务上保持在前三名。这表明OLMo-7B在这些任务上具有较强的竞争力。
2. 基于困惑度的评估：在Paloma评估框架中，OLMo-7B在多个数据源上的困惑度（bits per byte）表现也显示出竞争力。特别是在与代码相关的数据源（如Dolma 100 Programming Languages）上，OLMo-7B的表现显著优于其他模型。
3. 额外任务评估：在额外的6个任务（headqa en、logiqa、mrpcw、qnli、wic、wnli）上，OLMo-7B在零样本评估中的表现同样优于或接近其他模型。
February 2, 2024
ImageFX – 谷歌推出的人工智能图像生成工具
ImageFX是什么

Google ImageFX是谷歌最新推出的一款人工智能图像生成工具，基于谷歌的 DeepMind 实验室开发的一个先进的文本到图像的生成模型 — Imagen 2。ImageFX 的设计目的是根据用户提供的文本提示生成高质量的图像，声称能够生成迄今为止质量最高的图像，并且在处理文本到图像系统中常见的挑战方面有所改进，同时保持图像不受干扰性视觉伪影的影响。

ImageFX的功能特色
- 文本到图像生成：用户可以输入文本提示，如“一只狗骑着冲浪板”，ImageFX 会根据这些提示生成相应的图像。
- Expressive Chips：允许用户通过简单的操作快速尝试和调整文本提示中的关键词，从而探索不同的创意变体。
- 高质量图像生成：ImageFX 声称能够生成迄今为止质量最高的图像，特别是在处理文本到图像系统中常见的挑战，如生成逼真的人类面孔和手部。
- SynthID 数字水印：为了防范图像被用于制造虚假信息或深度伪造，谷歌在生成的图像中嵌入了 SynthID 水印。这种水印对人类不可见，但可以被用于识别图像是由AI生成的。
- 内容安全措施：谷歌在 ImageFX 中实施了一系列安全措施，包括限制训练数据，防止生成暴力、冒犯或性暗示的内容，以及设置过滤器阻止生成已知或命名的个人图像。
- IPTC 元数据：所有使用 ImageFX 生成的图像都会包含 IPTC 元数据，这为用户提供了关于图像来源和生成方式的额外信息。
如何使用ImageFX

ImageFX 目前仅在谷歌的 AI Test Kitchen 中提供，并且只对美国、肯尼亚、新西兰和澳大利亚的英语用户开放。用户可以通过这个平台尝试 ImageFX，以及其他谷歌的 AI 实验性工具，如 MusicFX（用于音乐生成）和 TextFX（用于文本风格化）。具体使用步骤如下：
1. 访问ImageFX的官网地址：https://aitestkitchen.withgoogle.com/tools/image-fx
2. 在左侧输入提示词，然后ImageFX会自动优化提示词并将其识别分组为Expressive Chips
3. 点击Generate右侧会生成想要的图片，可以重新生成或点击分组的形容词或风格词进行修改
February 2, 2024
IP-Adapter – 腾讯开源的文本到图像扩散模型适配器
IP-Adapter是什么

IP-Adapter（Image Prompt Adapter）是一种专门为预训练的文本到图像扩散模型（如Stable Diffusion）设计的适配器，目的是让文生图模型能够利用图像提示（image prompt）来生成图像。该方法是由腾讯AI实验室的研究人员提出的，旨在解决仅使用文本提示（text prompt）生成理想图像时的复杂性和挑战。

在传统的文本到图像扩散模型中，用户需要通过编写文本提示来指导模型生成图像，这往往需要复杂的提示工程。而IP-Adapter通过引入图像提示，使得模型能够直接理解图像内容，从而更有效地生成与用户意图相符的图像。这种方法的核心在于它采用了一种解耦的交叉注意力机制，这种机制将文本特征和图像特征的处理分开，使得模型能够更好地理解和利用图像信息。

IP-Adapter的官网入口
- 官方项目主页：https://ip-adapter.github.io/
- GitHub代码库：https://github.com/tencent-ailab/IP-Adapter
- Arxiv研究论文：https://arxiv.org/abs/2308.06721
- Hugging Face 模型地址：https://huggingface.co/h94/IP-Adapter
- Google Colab Demo 地址：https://colab.research.google.com/github/tencent-ailab/IP-Adapter/blob/main/ip_adapter_demo.ipynb
- IP-Adapter-FaceID Demo：https://huggingface.co/spaces/multimodalart/Ip-Adapter-FaceID
IP-Adapter的功能特色
- 图像提示集成：IP-Adapter允许模型接收图像作为输入，与文本提示一起，指导图像生成过程。这种方法利用了图像的丰富信息，使得生成的图像更加精确地反映用户的意图。
- 轻量级适配器：尽管IP-Adapter的功能强大，但其参数量相对较小（约22M参数），在计算资源上更加高效，易于部署和使用。
- 泛化能力：IP-Adapter在训练后可以轻松地应用于其他基于相同基础模型微调的自定义模型，可以在不同的应用场景中灵活使用。
- 多模态生成：IP-Adapter支持同时使用文本提示和图像提示进行图像生成，这为用户提供了更多的创作自由度，可以生成更加丰富和多样化的图像内容。
- 结构控制兼容性：IP-Adapter与现有的结构控制工具（如ControlNet）兼容，允许用户在图像生成过程中加入额外的结构条件，如用户绘制的草图、深度图、语义分割图等，以实现更精细的图像控制。
- 无需微调：IP-Adapter的设计避免了对原始扩散模型的微调，这意味着用户可以直接使用预训练模型，而无需进行耗时的微调过程。
- 图像到图像和修复：IP-Adapter不仅支持文本到图像的生成，还可以用于图像到图像的转换和图像修复任务，通过替换文本提示为图像提示来实现。
IP-Adapter的工作原理

IP-Adapter的工作原理基于解耦的交叉注意力机制，这一机制允许模型同时处理文本和图像信息，而不会相互干扰。

以下是IP-Adapter工作原理的详细步骤：
1. 图像编码：首先，IP-Adapter使用预训练的CLIP（Contrastive Language-Image Pre-training）图像编码器来提取图像提示的特征。CLIP模型通过对比学习在大量图像和文本对上训练，能够理解图像内容并生成与图像相关的文本描述。在IP-Adapter中，CLIP编码器被用来将图像转换为一系列特征向量。
2. 特征投影：为了将图像特征与文本特征的维度对齐，IP-Adapter包含一个小型的可训练投影网络，该网络将CLIP编码器的全局图像嵌入转换为与文本特征相同维度的特征序列。
3. 解耦的交叉注意力：在预训练的文本到图像扩散模型（如Stable Diffusion）中，文本特征通过交叉注意力层与模型的内部状态进行交互。IP-Adapter在每个交叉注意力层中添加了一个新的层，专门用于处理图像特征。这样，文本特征和图像特征可以分别通过各自的交叉注意力层进行处理，避免了直接合并可能导致的信息损失。
4. 训练过程：在训练阶段，IP-Adapter只优化新添加的交叉注意力层的参数，而保持原始的扩散模型参数不变。这样，IP-Adapter可以在不改变原始模型结构的情况下，学习如何将图像特征融入到图像生成过程中。
5. 生成过程：在生成图像时，IP-Adapter将文本提示和图像提示的特征输入到模型中。模型首先通过文本交叉注意力层处理文本特征，然后通过图像交叉注意力层处理图像特征。最后，这些特征被合并并输入到扩散模型的去噪网络中，逐步生成图像。
6. 结构控制：IP-Adapter与现有的结构控制工具（如ControlNet）兼容，这意味着用户可以在生成过程中添加额外的结构条件，如草图、深度图等，以实现更精细的图像控制。
February 1, 2024
360AI搜索 – 360推出的新一代答案引擎
360AI搜索是什么

360AI搜索是360公司推出的一款集成了人工智能技术的AI搜索引擎，类似于Perplexity被设计为新一代答案引擎，旨在为用户提供更加精准、全面和智能的搜索体验。当用户在360AI搜索中输入问题时，系统会通过一系列复杂的处理流程来生成答案，包括问题分析、语义理解、关键词分解、网页检索、内容提取和答案生成等步骤。

360AI搜索的主要功能
- AI搜索：当用户提出问题时，360AI搜索不仅会进行关键词检索，还会利用人工智能技术对问题进行深入分析，理解用户的真正意图，并从海量的网络信息中提取出最相关的答案。
- 增强模式：在增强模式下，360AI搜索会进行更深层次的语义分析，通过追问来获取更多细节信息，然后将问题拆分为多个关键词，进行更广泛的搜索。这有助于系统更准确地理解复杂问题，并提供更详细的答案。
- 智能排序：360AI搜索使用自有的排序算法，对搜索结果进行重新匹配和排序，确保用户能够快速找到最有价值的信息。
- 内容提取与生成：系统会从与问题最匹配的网页中提取内容，并结合大模型的能力，生成逻辑清晰、有理有据的答案，并能进行多轮对话，以确保用户得到满意的回答。
360AI搜索的官方入口
- 官网地址：https://so.360.com/
- iOS App Store：https://apps.apple.com/cn/app/360ai搜索/id6474985142
- 腾讯应用宝 Android：https://sj.qq.com/appdetail/com.qihoo.aiso
February 1, 2024
Follow Your Pose – 开源的姿态全可控视频生成框架
Follow Your Pose是什么

Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员开源的一个基于文本到视频生成的框架，允许用户通过文本描述和指定的人物姿态来生成视频。该框架采用了两阶段的训练策略，能够生成与文本描述和姿态序列高度一致的视频，同时保持视频中人物动作的真实性和连贯性。

Follow Your Pose的官网入口
- 官方项目主页：https://follow-your-pose.github.io/
- GitHub代码库：https://github.com/mayuelala/FollowYourPose
- Arxiv研究论文：https://arxiv.org/abs/2304.01186
- Hugging Face运行地址：https://huggingface.co/spaces/YueMafighting/FollowYourPose
- OpenXLab运行地址：https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
- Google Colab运行地址：https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb
Follow Your Pose的功能特色
- 文本到视频生成：用户可以输入文本描述，框架会根据这些描述生成相应的视频内容，如角色的动作、场景背景以及整体的视觉风格。
- 姿态控制：用户可以通过指定人物的姿态序列来控制视频中角色的动作，以精确地控制角色在视频中的每一个动作细节。
- 时间连贯性：框架能够生成时间上连贯的视频，确保视频中的动作和场景变化自然流畅，没有突兀的跳跃或闪烁。
- 多样化角色和背景生成：框架能够生成具有不同外观、风格和背景的视频，包括但不限于现实风格、卡通风格、赛博朋克风格等。
- 多角色视频生成：框架支持多角色视频的生成，可以在同一个视频中展示多个角色，并且能够根据文本描述指定每个角色的身份和动作。
- 风格化视频生成：用户可以通过添加风格描述（如“卡通风格”、“赛博朋克风格”等）来生成具有特定艺术风格的视频。
Follow Your Pose的工作原理

Follow Your Pose的工作原理主要基于一个两阶段的训练过程，旨在结合文本描述和姿态信息来生成视频。以下是其工作原理的详细步骤：
1. 第一阶段：姿态控制的文本到图像生成
  - 姿态编码器：首先，框架使用一个零初始化的卷积编码器来学习姿态信息。这个编码器从输入的姿态序列中提取关键点特征。
  - 特征注入：提取的姿态特征被下采样到不同的分辨率，并以残差连接的方式注入到预训练的文本到图像（T2I）模型的U-Net结构中。这样做可以在保持原有模型的图像生成能力的同时，引入姿态控制。
  - 训练：在这个阶段，模型仅使用姿态图像对进行训练，目的是学习如何根据文本描述和姿态信息生成图像。
2. 第二阶段：视频生成
  - 视频数据集：为了学习时间上的连贯性，框架在第二阶段使用了一个没有姿态标注的视频数据集（如HDVLIA）进行训练。
  - 3D网络结构：将预训练的U-Net模型扩展为3D网络，以便处理视频输入。这涉及到将第一层卷积扩展为伪3D卷积，并添加时间自注意力模块来模拟时间序列。
  - 跨帧自注意力：为了进一步提高视频的连贯性，框架引入了跨帧自注意力（cross-frame self-attention）模块，这有助于在视频帧之间保持内容的一致性。
  - 微调：在这个阶段，只有与时间连贯性相关的参数（如时间自注意力和跨帧自注意力）会被更新，而其他参数（如伪3D卷积层和前馈网络FFN）保持不变。
3. 生成过程
  - 文本和姿态输入：在推理阶段，用户输入描述目标角色外观和动作的文本，以及一个表示动作序列的姿态序列。
  - 视频生成：模型根据这些输入生成视频。在生成过程中，大多数预训练的稳定扩散模型参数被冻结，只有与时间连贯性相关的模块参与计算。
通过这种两阶段的训练策略，Follow Your Pose能够有效地从易于获取的数据集中学习，生成具有高度控制性和时间连贯性的视频。
January 31, 2024
Lepton Search – 开源的对话式AI搜索引擎项目
Lepton Search是什么

Lepton Search是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎，该项目基于调用Lepton平台上的云端人工智能模型和Bing搜索的API密钥，仅用不到 500 行 Python 代码就构建了一个类似于Perplexity AI的对话搜索引擎。

Letpton Search的功能特色
- 免费开源：Lepton Search 的代码是开源的，这意味着开发者可以自由地使用、修改和分发这些代码，促进了技术的共享和创新。
- 对话式搜索：Lepton Search 允许用户通过自然语言与搜索引擎进行交互，提供更直观和友好的搜索体验。
- 内置大语言模型（LLM）支持：Lepton Search 集成了大语言模型，这使得它能够理解和生成自然语言，从而提供更准确的搜索结果。
- 搜索引擎集成：Lepton Search 内置了搜索引擎功能，能够快速检索和提供相关信息，通过调用外部搜索引擎API（必应搜索API）来实现。
- 自定义UI界面：开发者可以根据自己的需求定制Lepton Search 的用户界面，以适应不同的应用场景和用户偏好。
- 搜索结果共享与缓存：Lepton Search 支持将搜索结果进行共享，并且可以缓存搜索结果，提高用户体验和搜索效率。
- 云原生平台：Lepton Search 运行在Lepton AI的云平台上，具有可扩展性、灵活性和安全性，适合处理大规模AI任务。
Lepton Search的官网入口
- 官网地址：https://search.lepton.run/
- GitHub代码库：https://github.com/leptonai/search_with_lepton
如何使用Lepton Search

普通用户可以通过Lepton Search在线网页版体验，开发者也可以自行部署，具体步骤如下：
1. 克隆Lepton Search项目：git clone https://github.com/leptonai/search_with_lepton.git
2. 运行pip install -U leptonai && lep login命令自动设置LLM和KV函数
3. 设置 Bing 密钥：export BING_SEARCH_V7_SUBSCRIPTION_KEY=YOUR_BING_SUBSCRIPTION_KEY
4. 构建前端网络：cd web && npm install && npm run build
5. 运行后台服务器：BACKEND=BING python search_with_lepton.py
January 29, 2024
Vary-toy：开源的小型视觉多模态模型
Vary-toy是什么

Vary-toy是一个小型的视觉语言模型（LVLM），由来自旷视、国科大、华中大的研究人员共同提出，旨在解决大型视觉语言模型（LVLMs）在训练和部署上的挑战。对于资源有限的研究者来说，大型模型通常拥有数十亿参数，难以在消费级GPU上（如GTX 1080Ti）进行训练和部署。Vary-toy的核心目标便是让研究人员能够在有限的硬件资源下，体验到当前LVLMs的所有功能（文档OCR、视觉定位、图像描述、视觉文答等）。

Vary-toy的主要功能
- 文档级光学字符识别（OCR）：Vary-toy能够识别和理解文档图像中的文字，这在处理扫描文档、PDF文件等场景中非常有用。
- 图像描述：模型能够生成图像的描述性文本，这对于图像内容的理解和生成图像描述任务（如VQA）至关重要。
- 视觉问答（VQA）：Vary-toy能够回答关于图像内容的问题，这涉及到理解图像的视觉信息以及与之相关的文本信息。
- 对象检测：通过强化的视觉词汇，Vary-toy具备了自然对象感知（定位）的能力，能够在图像中识别和定位物体。
- 图像到文本的转换：Vary-toy可以将图像内容转换为结构化的文本格式，例如将PDF图像转换为Markdown格式。
- 多模态对话：Vary-toy模型支持多模态对话，能够理解和生成与图像内容相关的对话。
Vary-toy的官方入口
- 官方项目主页：https://varytoy.github.io/
- Arxiv研究论文：https://arxiv.org/abs/2401.12503
- Demo运行地址：https://vary.xiaomy.net/
- GitHub代码库：https://github.com/Ucas-HaoranWei/Vary-toy
Vary-toy的技术原理

Vary-toy的工作原理基于几个关键的技术和设计决策，这些决策共同作用于提高模型在视觉语言任务上的性能，同时保持模型的小型化。以下是Vary-toy工作原理的主要组成部分：
1. 视觉词汇生成：Vary-toy利用一个小型的自回归模型（OPT-125M）来生成新的视觉词汇网络。这个网络通过处理PDF图像文本对和自然图像中的对象检测数据来学习如何有效地编码视觉信息。与传统的Vary模型相比，Vary-toy在生成视觉词汇时，不再将自然图像作为负样本，而是将其视为正样本，从而更充分地利用网络的容量。
2. 视觉词汇与CLIP的融合：在生成新的视觉词汇后，Vary-toy将其与原始的CLIP（Contrastive Language-Image Pre-training）模型相结合。CLIP是一个强大的视觉-语言模型，能够将图像和文本映射到共享的嵌入空间。通过这种方式，Vary-toy能够利用CLIP的图像理解能力，同时通过新的视觉词汇网络增强对文本信息的处理。
3. 多任务预训练：Vary-toy在预训练阶段采用了多任务学习策略，这意味着模型在训练过程中同时处理多种类型的数据，如图像描述、PDF OCR、对象检测、纯文本对话和视觉问答（VQA）。这种多任务训练有助于模型学习更丰富的视觉和语言表示，提高其在各种下游任务上的泛化能力。
4. 模型结构：Vary-toy遵循Vary的管道设计，但在结构上有所调整。当输入图像时，新的视觉词汇分支会将图像调整到1024×1024的分辨率，而CLIP分支则通过中心裁剪获取224×224的图像。两个分支输出的图像特征被合并，作为输入到1.8B参数的Qwen-1.8B语言模型中。
5. 数据输入格式：为了适应不同的任务，Vary-toy需要处理多种输入格式。例如，对于PDF图像-文本对，模型使用了一个特定的提示（如“Provide the OCR results of this image.”）来指导输出正确的结果。对于对象检测任务，模型使用不同的提示模板来处理图像中的多个对象。
6. 微调（SFT）：在预训练之后，Vary-toy通过指令调优（SFT）阶段进一步优化模型。这个阶段使用LLaVA-80K数据集，这是一个包含详细描述和提示的图像数据集，由GPT4生成。这有助于模型更好地理解和生成与图像内容相关的文本。
通过这些工作机制，Vary-toy能够在保持模型小型化的同时，实现对复杂视觉语言任务的有效处理。这种设计使得Vary-toy成为一个在资源受限环境中进行视觉语言研究的有力工具。

如何使用Vary-toy
1. 访问Vary-toy的官方demo体验地址（vary.xiaomy.net）
2. 点击上传一张图片或者在左侧选择示例图片
3. 输入提示指令如描述图像内容、检测图像中的物体等
4. 等待模型生成结果即可
January 29, 2024
ActAnywhere – Adobe推出的AI视频背景生成模型
ActAnywhere是什么

ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型，旨在解决视频背景生成的问题，特别是在需要将前景主体（如人物）与新背景无缝结合的场景中。这个模型适用于电影制作和视觉效果（VFX）领域，它能够自动化地创建与前景主体运动相协调的视频背景，从而节省了传统手动合成过程中的大量时间和精力。

官方项目主页：https://actanywhere.github.io/

Arxiv论文地址：https://arxiv.org/abs/2401.10822

ActAnywhere的功能特色
- 前景主体与背景融合：ActAnywhere能够根据前景主体的运动和外观，自动生成与之相匹配的背景，使得主体与背景之间的交互看起来自然和连贯。
- 条件帧驱动的背景生成：用户可以提供一个描述新场景的图像（条件帧），ActAnywhere会根据这个条件帧生成视频背景。这允许用户指定特定的背景元素，如特定的建筑、自然景观或室内环境。
- 时间一致性：通过使用时间自注意力机制，ActAnywhere确保生成的视频在时间序列上保持一致性，包括相机运动、光照变化和阴影效果。
- 自监督学习：ActAnywhere在大规模人类-场景交互视频数据集上进行自监督训练，这意味着它能够在没有人工标注的情况下学习如何生成视频背景。
- 零样本学习：ActAnywhere能够在没有额外训练的情况下，对新的、未见过的数据（如非人类主体）进行生成，这表明模型能够从训练数据中学习到通用的背景生成策略。
ActAnywhere的工作原理

ActAnywhere通过以下的步骤和组件，能够生成具有高度现实感和时间连贯性的视频背景：
1. 数据准备：
  - 使用前景主体分割算法（如Mask R-CNN）从输入视频中获取前景主体的分割序列（S）和对应的掩膜（M）。
  - 引入一个条件帧（c），这是一个描述所需生成背景的图像，可以是背景图像或包含前景和背景的复合帧。
2. 特征编码：
  - 使用预训练的变分自编码器（VAE）将前景主体分割序列编码为潜在特征（ˆS）。
  - 将前景掩膜序列下采样并与潜在特征对齐，以匹配特征维度。
3. 扩散过程：
  - 在训练过程中，使用VAE编码器将原始视频帧编码为潜在表示（Z），然后在正向扩散过程中逐渐添加高斯噪声。
  - 在测试时，潜在表示（Z0）初始化为高斯噪声，并通过逆向扩散过程逐步去噪，以生成最终的视频帧。
4. 时间注意力机制：
  - 在去噪的U-Net中插入一系列运动模块，这些模块包含特征投影层和1D时间自注意力块，以实现时间上的连贯性。
  - 条件帧的特征（Fc）通过CLIP图像编码器提取，并注入到U-Net的交叉注意力层中，以确保生成的视频背景与条件帧保持一致。
5. 训练目标：
  - 使用简化的扩散目标进行训练，即预测添加的噪声。通过最小化预测噪声与真实噪声之间的差异来训练模型。
6. 数据增强和处理：
  - 在训练过程中，为了处理不完美的分割掩膜，应用随机矩形裁剪和图像腐蚀操作。
  - 在测试时，通过随机丢弃分割、掩膜或条件帧来实现无分类器的引导。
7. 模型训练：
  - 在大规模人类-场景交互视频数据集（HiC+）上进行训练，该数据集包含240万个视频。
  - 使用AdamW优化器，固定学习率为3e-5，冻结共享的VAE和CLIP编码器，微调U-Net。
8. 生成过程：
  - 在测试时，将前景主体序列和条件帧输入到训练好的模型中，模型将生成与前景主体运动相协调的视频背景。
ActAnywhere的应用场景
- 视频背景替换：ActAnywhere可以将视频中的前景主体放置到全新的背景中，这对于电影制作、广告、虚拟现实（VR）和增强现实（AR）等领域非常有用。例如，可以将演员置于虚构的场景中，或者在不实际拍摄的情况下模拟特定环境。
- 视觉效果增强：在视觉效果（VFX）制作中，ActAnywhere可以用来生成复杂的背景效果，如动态天气、光影变化、人群互动等，而无需实际拍摄这些元素。
- 创意内容制作：艺术家和内容创作者可以使用ActAnywhere来快速尝试和实现他们的创意想法，例如，将角色置于不同的历史时期或未来世界，或者与虚构的生物互动。
- 教育和培训：在教育领域，ActAnywhere可以用来创建模拟场景，帮助学生更好地理解复杂的概念或历史事件，或者用于安全培训，模拟紧急情况。
- 游戏和娱乐：游戏开发者可以利用ActAnywhere生成动态背景，为玩家提供更加丰富和真实的游戏体验。同时，它也可以用于电影预告片、音乐视频和其他娱乐内容的制作。
January 29, 2024
DemoFusion – 免费开源的图像分辨率超清增强框架
DemoFusion是什么

DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架，通过扩展现有的开源生成人工智能模型（如Stable Diffusion），使得这些模型能够在不进行额外训练和不产生过高内存需求的情况下，将模糊的低分辨率图像变得更加高清（放大4倍、16倍甚至更高分辨率）。DemoFusion采用渐进式增强、跳跃残差和扩张采样机制来实现更高分辨率的图像生成，对于资源有限的用户来说，达成类似于Magnific AI的解决方案。

DemoFusion的官网入口
- 官方项目主页：https://ruoyidu.github.io/demofusion/demofusion.html
- Arxiv研究论文：https://arxiv.org/abs/2311.16973
- GitHub代码库：https://github.com/PRIS-CV/DemoFusion
- Hugging Face运行地址：
  - Image to Image版本：https://huggingface.co/spaces/radames/Enhance-This-DemoFusion-SDXL
  - Text to Image版本：https://huggingface.co/spaces/fffiloni/DemoFusion
- Replicate运行地址：
  - Image to Image版本：https://replicate.com/lucataco/demofusion-enhance
  - Text to Image版本：https://replicate.com/lucataco/demofusion
- Google Colab运行地址：https://colab.research.google.com/github/camenduru/DemoFusion-colab/blob/main/DemoFusion_colab.ipynb
DemoFusion的功能特色
- 高分辨率图像生成：DemoFusion能够将预训练的GenAI模型（如SDXL）的图像生成能力扩展到更高的分辨率，例如从1024×1024像素提升到4096×4096像素或更高，而无需对模型进行额外的训练。
- 渐进式上采样：通过逐步增加图像分辨率的方式，DemoFusion允许用户在生成过程中逐步细化图像细节，同时保持图像的整体质量和语义一致性。
- 全局语义一致性：通过跳跃残差和扩张采样机制，DemoFusion能够在生成高分辨率图像时保持全局的语义一致性，避免局部区域的重复和结构扭曲。
- 快速迭代：由于渐进式上采样的特性，DemoFusion允许用户在生成过程中快速预览低分辨率的结果，从而在等待高分辨率图像生成完成之前，对图像的布局和风格进行快速迭代和调整。
- 无需额外硬件：DemoFusion能够在消费级的硬件（如RTX 3090 GPU）上运行，这意味着用户不需要昂贵的硬件投资就能生成高分辨率的图像。
- 易于集成：DemoFusion作为一个插件式的框架，可以轻松地与现有的AI生成模型集成，使得研究人员和开发者能够快速地将高分辨率图像生成能力应用到他们的项目中。
- 丰富的应用场景：DemoFusion不仅适用于艺术创作，还可以用于各种需要高分辨率图像的领域，如游戏开发、电影制作、虚拟现实等。
DemoFusion的工作原理

DemoFusion的工作原理基于几个关键步骤和机制，这些步骤共同作用以生成高分辨率的图像。以下是其主要的工作流程：
1. 初始化（Initialization）：
  - DemoFusion首先从一个低分辨率的图像开始，这个图像是通过一个预训练的潜在扩散模型（如SDXL）生成的。
2. 渐进式上采样（Progressive Upscaling）：
  - 从低分辨率图像开始，DemoFusion通过迭代过程逐步增加图像的分辨率。这个过程涉及到将当前分辨率的图像上采样到更高的分辨率，然后通过扩散过程引入噪声，最后通过去噪过程恢复图像。这个过程重复进行，每次都在更高的分辨率上进行，以逐渐增加图像的细节。
3. 跳跃残差（Skip Residual）：
  - 在去噪过程中，DemoFusion利用之前迭代步骤中的噪声反转表示作为跳跃残差。这有助于在生成过程中保持图像的全局结构，同时允许局部细节的优化。
4. 扩张采样（Dilated Sampling）：
  - 为了增强每个去噪路径的全局上下文，DemoFusion引入了扩张采样。这意味着在潜在空间中，通过扩张采样来获取全局表示，然后这些全局表示被用于指导局部去噪路径，以生成具有全局一致性的图像内容。
5. 局部和全局路径融合（Fusing Local and Global Paths）：
  - 在每个迭代步骤中，DemoFusion将局部去噪路径（通过扩张采样得到的局部潜在表示）和全局去噪路径（通过跳跃残差得到的全局潜在表示）结合起来，以生成最终的高分辨率图像。
6. 解码（Decoding）：
  - 最后，通过一个解码器将最终的潜在表示转换回图像空间，得到高分辨率的输出图像。
DemoFusion的这些步骤和机制共同作用，使得它能够在不进行额外训练的情况下，有效地生成具有丰富细节和良好全局一致性的高分辨率图像。

如何使用DemoFusion
1. 访问DemoFusion的Replicate或Hugging Face运行地址
2. 上传你要放大的图片或使用示例图片
3. 输入prompt提示词描述图片画面
4. 调节Seed值并设置Demofusion参数
5. 最后点击Run运行，等待图片高清放大
January 28, 2024