Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Phi-3 – 微软最新推出的新一代小模型系列

    Phi-3是什么

    Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时,通过精心设计的训练数据集和优化的算法,实现了与大型模型相媲美的语言理解和推理能力。特别是phi-3-mini模型,仅3.8亿参数,却能在多项基准测试中超越参数量更大的模型,并且由于其小巧的体积,甚至可以在智能手机上运行。Phi-3系列模型的研发,展示了在数据工程和模型优化方面的最新进展,为未来小型化、高效能AI模型的发展提供了新的可能性。

    Phi-3

    技术报告:https://arxiv.org/abs/2404.14219

    Hugging Face Phi-3模型地址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

    Ollama Phi-3模型地址:https://ollama.com/library/phi3

    Phi-3的模型系列

    • phi-3-mini:最小的语言模型,拥有3.8亿参数。尽管体积小巧,但它在多项语言理解任务上的基准测试表现却能与参数量更大的模型如Mixtral 8x7B和GPT-3.5相媲美。它的设计允许在手机上部署,且在iPhone 14 Pro和iPhone 15使用的A16芯片上能够达到每秒12个token的处理速度。
    • phi-3-small:该模型的参数量为7亿,它使用了tiktoken分词器以支持多语言,并额外增加了10%的多语种数据。phi-3-small在MMLU测试中的得分为75.3%,表现出色,超越了Meta最近发布的Llama 3 8B Instruct模型。
    • phi-3-medium:拥有14亿参数的中型模型,在更多数据上进行了训练,并且在多数测试中超越了GPT-3.5和Mixtral 8x7b MoE。该模型在MMLU测试中的得分达到78.2%,显示了其强大的语言处理能力。

    Phi-3的训练方法

    • 高质量数据集:Phi-3模型的训练使用了3.3万亿至4.8万亿tokens的大规模数据集,这些数据集经过了严格的筛选和过滤,以确保数据的教育水平和质量。
    • 合成数据生成:利用大型语言模型(LLM)生成合成数据,这些合成数据用于教授模型逻辑推理和多种专业技能。
    • 分阶段训练:训练过程分为两个阶段,第一阶段主要使用网络数据,目的是让模型掌握通用知识和语言理解;第二阶段则进一步筛选网络数据,并结合合成数据进行训练。
    • 数据优化:训练数据被校准以接近“数据最优”状态,这意味着在数据选择上,会优先考虑能够提升模型推理能力的网页数据。
    • 后训练优化:模型在预训练之后,还经过了监督指令微调和偏好调整(DPO),以及红队测试和自动化测试,以提高模型的安全性、鲁棒性和对话格式的适应性。
    • 安全性和对齐:Phi-3-mini的开发遵循了微软的负责任AI原则,通过后训练阶段的安全性对齐,使用帮助性和无害性偏好数据集进行训练,并通过独立红队的迭代审查来进一步识别改进领域。
    • 量化处理:为了使模型能够在手机上运行,Phi-3-Mini可以进行4-bit量化,显著减少了模型的内存占用。
    • 多语言支持:尽管Phi-3-Mini主要针对英语,但微软也在探索小型语言模型的多语言能力,Phi-3-Small模型就通过包含更多的多语言数据进行了训练。

    Phi-3的性能表现

    • 基准测试得分phi-3-mini 在MMLU(Massive Multitask Language Understanding)基准测试中得分为69%,在MT-bench上得分为8.38。phi-3-small 和 phi-3-medium 分别在MMLU上取得了75.3%和78.2%的得分,显示了模型规模增长带来的性能提升。
    • 性能对比其他模型Phi-3系列在性能上与参数量更大的模型如Mixtral 8x7B和GPT-3.5相媲美。特别是phi-3-mini,尽管只有3.8亿参数,却在多项基准测试中超过了8B参数的Llama 3。在与Meta的Llama-3-8B-Instruct模型的对比中,phi-3-small(7B参数)在MMLU上得分更高(75.3% vs 66%),显示了Phi-3系列在较小模型尺寸下的性能优势。
      Phi-3基准测试得分对比
    • 移动设备上的运行phi-3-mini 特别设计为能够在移动设备上运行,经过4-bit量化后,能够在iPhone 14 Pro和iPhone 15使用的A16芯片上达到每秒12个token的速度,这在之前的大型模型中是难以实现的。
      Phi-3-mini手机上运行
    • 多语言能力phi-3-small 通过使用tiktoken分词器和增加10%的多语种数据,增强了模型的多语言处理能力,这在对比中是一个重要的优势。

    Phi-3的局限与不足

    • 知识存储限制:由于模型大小的限制,特别是phi-3-mini,它在存储大量事实知识方面的能力有限,这在需要广泛背景知识的测试中表现得尤为明显,例如在TriviaQA测试中的低分表现。
    • 对搜索功能的依赖:为了缓解知识存储的限制,微软提出可以通过与搜索引擎的结合来增强模型的性能。这表明在没有外部搜索支持的情况下,模型可能无法独立提供最佳的答案或信息。
    • 多语言能力的限制:尽管phi-3-small通过增加多语言数据进行了优化,但Phi-3系列模型的主要语言能力仍然主要集中在英语上。对于需要广泛多语言支持的应用场景,这可能是一个限制。
    • 特定任务的性能:在某些特定的任务或数据集上,Phi-3模型可能还没有达到最佳性能,这可能需要进一步的训练数据优化和模型调整。
    • 安全性挑战:尽管模型在安全性方面进行了优化,但像大多数大型语言模型一样,Phi-3系列模型可能仍然存在产生幻觉、不适当内容、偏见放大或安全性问题的挑战。
    • 硬件部署限制:虽然Phi-3-Mini能够在智能手机上运行,但对于一些需要极高计算资源的任务,即使是小型化的模型也可能面临硬件性能的限制。
  • FunClip – 阿里达摩院开源的AI自动视频剪辑工具

    FunClip是什么

    FunClip是阿里达摩院通义实验室推出的一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室的FunASR Paraformer系列模型实现视频的自动化语音识别。用户可以根据识别结果,选择文本片段或特定说话人,快速裁剪出所需视频片段。FunClip的特色包括集成高精度的中文ASR模型、支持热词定制化、说话人识别,以及提供Gradio交互界面,使得视频剪辑变得简单方便。此外,它还支持多段剪辑,并能自动生成SRT字幕文件。

    FunClip

    FunClip的主要功能

    • 自动化语音识别:利用阿里巴巴通义实验室的FunASR Paraformer系列模型,对视频进行语音识别,将语音转换成文字。
    • 热词定制化:通过集成的SeACo-Paraformer模型,用户可以指定一些实体词、人名等作为热词,以提升特定词汇的识别准确率。
    • 说话人识别:集成CAM++说话人识别模型,允许用户根据自动识别的说话人ID裁剪出特定说话人的视频段落。
    • 视频裁剪:用户可以选择识别结果中的文本片段或指定说话人,通过点击裁剪按钮获取对应视频片段。
    • Gradio交互界面:通过Gradio实现的交互界面,简化了视频剪辑的操作流程,用户可以在服务端搭建服务并通过浏览器进行剪辑。
    • 多段剪辑支持:FunClip支持用户对视频进行多段剪辑,提供了灵活的编辑能力。
    • 自动生成字幕:剪辑后的视频可以自动生成全视频和目标段落的SRT字幕文件,方便用户添加或编辑字幕。
    • 命令行调用:除了图形界面,FunClip还支持通过命令行进行视频识别和裁剪,提供了更灵活的使用方式。

    FunClip的官网入口

    如何使用FunClip

    方法一:本地部署Gradio版本

    首先确定电脑上已安装Python和Git,然后打开终端依次输入并运行以下命令

    git clone https://github.com/alibaba-damo-academy/FunClip.git

    cd FunClip && pip install -r ./requirements.txt

    python funclip/launch.py

    最后浏览器访问localhost:7860即可体验FunClip

    方法二:在线体验魔搭社区Demo

    访问魔搭社区提供的在线Demo,然后按照下方的步骤操作:

    1. 上传视频或音频文件(或使用下方的用例体验),点击「识别」按钮
    2. 复制识别结果中所需的文字至右上方,或者右设置说话人标识,设置偏移与字幕配置(可选)
    3. 点击「裁剪」按钮或「裁剪并添加字幕」按钮获得结果

    方法三:命令行运行相关指令

    打开终端依次输入并运行以下命令

    # 1. 克隆GitHub源代码
    git clone https://github.com/alibaba-damo-academy/FunClip.git
    # 2. 安装Python依赖
    cd FunClip && pip install -r ./requirments.txt
    # 3. 添加视频进行识别
    python funclip/videoclipper.py --stage 1 \
    --file examples/2022云栖大会_片段.mp4 \
    --output_dir ./output
    # ./output/目录下将输出识别结果和.srt字幕文件
    # 4. 裁剪命令
    python funclip/videoclipper.py --stage 2 \
    --file examples/2022云栖大会_片段.mp4 \
    --output_dir ./output \
    --dest_text '我们把它跟乡村振兴去结合起来,利用我们的设计的能力' \
    --start_ost 0 \
    --end_ost 100 \
    --output_file './output/res.mp4'
  • Llama 3 – Meta开源推出的新一代大语言模型

    Llama 3是什么

    Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。

    Llama 3

    Llama 3的系列型号

    Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。

    • Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有80亿个参数。专为需要快速推理和较少计算资源的应用场景设计,同时保持了较高的性能标准。
    • Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。

    后续,Llama 3 还会推出 400B 参数规模的模型,目前还在训练中。Meta 还表示等完成 Llama 3 的训练,还将发布一份详细的研究论文。

    Llama 3的官网入口

    Llama 3的改进地方

    • 参数规模:Llama 3提供了8B和70B两种参数规模的模型,相比Llama 2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
    • 训练数据集:Llama 3的训练数据集比Llama 2大了7倍,包含了超过15万亿个token,其中包括4倍的代码数据,这使得Llama 3在理解和生成代码方面更加出色。
    • 模型架构:Llama 3采用了更高效的分词器和分组查询注意力(Grouped Query Attention, GQA)技术,提高了模型的推理效率和处理长文本的能力。
    • 性能提升:通过改进的预训练和后训练过程,Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
    • 安全性:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增强了模型的安全性和可靠性。
    • 多语言支持:Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
    • 推理和代码生成:Llama 3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂任务处理上更加精准和高效。

    Llama 3的性能评估

    根据Meta的官方博客,经指令微调后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型(Gemma 7B、Mistral 7B),而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。

    Meta Llama 3的性能

    此外,Meta还开发了一套新的高质量人类评估集,包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较,人类评估者基于该评估集进行了偏好排名,结果显示Llama 3在真实世界场景中的性能非常出色,最低都有52.9%的胜出率。

    Llama 3人类评估对比

    Llama 3的技术架构

    • 解码器架构:Llama 3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。
    • 分词器和词汇量:Llama 3使用了具有128K个token的分词器,这使得模型能够更高效地编码语言,从而显著提升性能。
    • 分组查询注意力(Grouped Query Attention, GQA):为了提高推理效率,Llama 3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。
    • 长序列处理:Llama 3支持长达8,192个token的序列,使用掩码(masking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。
    • 预训练数据集:Llama 3在超过15TB的token上进行了预训练,这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。
    • 多语言数据:为了支持多语言能力,Llama 3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。
    • 数据过滤和质量控制:Llama 3的开发团队开发了一系列数据过滤管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保训练数据的高质量。
    • 扩展性和并行化:Llama 3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。
    • 指令微调(Instruction Fine-Tuning):Llama 3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。

    如何使用Llama 3

    开发人员

    Meta已在GitHub、Hugging Face、Replicate上开源其Llama 3模型,开发人员可使用torchtune等工具对Llama 3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。

    普通用户

    不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:

  • VASA-1 – 微软推出的静态照片对口型视频生成框架

    VASA-1是什么

    VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。该技术通过精确的唇音同步、丰富的面部表情细节和自然的头部动作,创造出高度真实感和活力的虚拟角色。VASA-1的核心创新在于其全貌面部动态和头部运动生成模型,该模型在面部潜在空间中工作,能够高效地生成高分辨率的视频,同时支持在线生成和低延迟。

    VASA-1

    VASA-1的功能特性

    • 逼真的唇音同步:VASA-1能够生成与输入语音音频精确同步的唇部动作,提供高度逼真的说话效果。
    • 丰富的面部表情:除了唇部动作,VASA-1还能捕捉并再现一系列复杂的面部表情和微妙的情感细节,增加动画的真实感。
    • 自然头部运动:模型能够模拟自然的头部动作,如转动和倾斜,使得生成的说话面部视频更加生动。
    • 高效视频生成:VASA-1支持在线生成高达40 FPS的512×512分辨率视频,且具有极低的初始延迟,适合实时应用。
    • 灵活可控生成:通过接受可选信号作为条件,如主要目光方向、头部距离和情感偏移,VASA-1能够控制生成过程,提高输出的多样性和适应性。
    • 处理不同输入:VASA-1能够处理训练分布之外的照片和音频输入,如艺术照片、歌唱音频和非英语语音。

    VASA-1的官网入口

    VASA-1的工作原理

    VASA-1的工作原理

    • 输入准备:VASA-1接受两个主要输入:一张任意个体的静态面部图像和一个来自任何个人的语音音频剪辑。
    • 面部特征提取:使用面部编码器从输入的静态面部图像中提取3D外观体积、身份代码、头部姿态和面部动态代码等特征。
    • 面部潜在空间建模:构建一个面部潜在空间,该空间能够高度解耦面部动态和其他因素(如身份和外观),并具有丰富的表情细节和动态细微差别的表达能力。
    • 扩散模型训练:训练一个基于扩散的模型(Diffusion Transformer),该模型能够在面部潜在空间中生成全面的面部动态和头部运动,条件是给定的音频和可选的控制信号。
    • 条件信号整合:将主要目光方向、头部距离和情感偏移等控制信号作为条件,输入到扩散模型中,以指导面部动态的生成。
    • 面部动态和头部运动生成:利用训练好的扩散模型,根据输入的音频特征和条件信号,生成面部动态和头部运动的潜在代码序列。
    • 视频帧生成:使用面部解码器和从编码器中提取的外观及身份特征,根据生成的面部动态和头部运动潜在代码,产生最终的视频帧。
  • Parler-TTS – Hugging Face开源的文本转语音模型

    Parler-TTS是什么

    Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定说话者的风格(性别、音调、说话风格等),生成高质量、听起来自然的语音。该轻量级的TTS模型是完全开源的,包括所有数据集、预处理、训练代码和权重都公开,旨在促进高质量、可控制的TTS模型的创新发展。Parler-TTS的架构基于MusicGen,包含文本编码器、解码器和音频编解码器,通过集成文本描述和添加嵌入层优化了声音生成。

    Parler-TTS

    Parler-TTS的官网入口

    Parler-TTS的功能特性

    • 高质量语音生成:Parler-TTS能够根据文本输入生成高质量、自然听起来的语音,模仿不同的说话风格,如性别、音高和表达方式等。
    • 风格多样的语音输出:通过详细的文本描述,用户可以控制生成的语音风格,包括说话者的年龄、情感、速度和环境等特征。
    • 开源架构:Parler-TTS基于MusicGen架构,包含文本编码器、解码器和音频编解码器,允许研究者和开发者自由访问和修改代码,以适应不同的需求和应用。
    • 易于安装和使用:Parler-TTS提供了简单的安装指令,用户可以通过一行命令安装,并提供了易于理解的代码示例,使得即使是初学者也能快速上手使用。
    • 自定义训练和微调:用户可以根据自己的数据集对Parler-TTS进行训练和微调,以生成特定风格或口音的语音。
    • 伦理和隐私保护:Parler-TTS避免了使用可能侵犯隐私的声音克隆技术,而是通过文本提示来控制语音生成,确保了技术的伦理性和合规性。

    如何体验Parler-TTS

    1. 访问Parler-TTS的Hugging Face Demo,然后在Input Text处输入你想要转录的文字
    2. 在Description处输入对声音的提示描述
    3. 最后点击Generate Audio即可生成声音

    Parler-TTS Demo

    Parler-TTS的技术架构

    Parler-TTS的架构是一个高度灵活和可定制的系统,基于MusicGen架构进行了一些关键的改进和调整:

    1. 文本编码器
      • 文本编码器的作用是将文本描述映射到一系列隐藏状态表示。
      • Parler-TTS使用的是一个冻结的文本编码器,该编码器完全初始化自Flan-T5模型。这意味着编码器的参数在训练过程中不会改变,它仅仅用于将输入的文本转换为模型可以理解的内部表示。
    2. Parler-TTS解码器
      • 解码器是一个语言模型,它基于编码器的隐藏状态表示自回归地生成音频标记(或称为代码)。
      • 这个过程中,解码器会逐步生成语音的音频表示,每一步都会考虑到之前的输出和文本描述,从而生成连贯且符合描述的语音。
    3. 音频编解码器
      • 音频编解码器的作用是将解码器预测的音频标记转换回可听的音频波形。
      • Parler-TTS使用的是Descript提供的DAC模型,但也可以选择使用其他编解码器模型,例如EnCodec。
    4. 架构的改进
      • Parler-TTS在MusicGen架构的基础上做了一些细微的调整,以提高模型的性能和灵活性。
      • 文本描述不仅通过文本编码器处理,还用于解码器的交叉注意力层,这使得解码器能够更好地结合文本描述和音频生成。
      • 文本提示通过嵌入层处理后与解码器输入的隐藏状态进行拼接,这样可以将文本提示的语义信息直接融入到语音生成的过程中。
      • 音频编码器选择DAC而不是Encodec,因为DAC在质量上表现更佳。
  • CodeGemma – 谷歌开源推出的代码生成大模型

    CodeGemma是什么

    CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型,该系列包含三种不同规模的模型,分别是2B预训练模型、7B预训练模型和7B指令微调模型,旨在提供智能代码补全、生成和自然语言理解等功能。基于谷歌此前发布的Gemma模型,CodeGemma经过大量英语编程、数学数据的训练,以增强逻辑和数学推理能力,支持多种编程语言,并能够集成到开发环境中,简化代码编写流程,提高开发效率。

    Google CodeGemma

    CodeGemma的官网入口

    Google CodeGemma

    CodeGemma的功能特性

    • 代码补全:CodeGemma能够自动补全代码片段,包括函数、方法以及整个代码块,帮助开发者提高编码效率。
    • 代码生成:基于给定的上下文和指令,CodeGemma可以生成新的代码,这对于快速原型设计和解决编程问题非常有用。
    • 自然语言理解:CodeGemma结合了自然语言处理能力,可以理解和解释自然语言指令,使得与模型的交互更加直观和自然。
    • 多语言支持:支持多种编程语言,包括但不限于Python、JavaScript、Java等,使其能够服务于更广泛的开发者群体。
    • 高准确性:CodeGemma 模型基于 Web 文档、数学和代码中的 5000 亿个词元(主要是英语)数据训练而成,生成的代码不仅语法正确,而且语义上也更有意义,从而减少错误并缩短调试时间。
    • 集成开发环境:CodeGemma可以集成到各种开发环境中,减少编写样板代码的工作量,让开发者能够更专注于创新和核心代码的编写。

    CodeGemma的模型系列

    • CodeGemma 2B基础模型:20亿参数的模型专门针对代码填充进行了训练,旨在提供快速的代码补全和生成功能,尤其适用于对延迟和隐私要求较高的环境。
    • CodeGemma 7B基础模型:70亿参数模型的训练数据包含80%的代码填充数据以及20%的自然语言数据,使其不仅能够进行代码补全,还能理解和生成代码及语言。
    • CodeGemma 7B Instruct模型:在CodeGemma 7B的基础上,CodeGemma 7B Instruct模型经过了进一步的微调,以优化指令遵循能力,适合用于对话场景,特别是在讨论代码、编程或数学推理等主题时。

    CodeGemma模型系列

    CodeGemma的性能评估

    除了DeepSeek-Coder-7B,CodeGemma-7B在HumanEval基准测试中的表现超越了多数同类的7B模型,该基准测试广泛用于评估Python代码模型的性能。此外,在评估Java、JavaScript和C++等其他编程语言时,CodeGemma-7B也显示出卓越的性能,这些评估是基于MultiPL-E完成的,MultiPL-E是HumanEval基准测试的一个多语言扩展版本。根据技术报告,CodeGemma-7B在GSM8K测试中表现最为出色,位列所有7B模型之首。这些性能评估结果凸显了CodeGemma-7B在代码理解和生成方面的先进能力。

    CodeGemma性能对比

  • DesignEdit – 微软等开源的AI图像分层处理编辑框架

    DesignEdit是什么

    DesignEdit是由来自微软亚洲研究院和北京大学的研究人员共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合的技术,实现了无需额外训练即可进行精确的空间感知图像编辑和处理。通过关键掩码自注意力机制和伪影抑制方案,DesignEdit能够灵活处理图像中的各个对象,并执行诸如移动、调整大小、移除等复杂操作。

    DesignEdit

    DesignEdit的官网入口

    DesignEdit的主要功能

    • 对象移除:DesignEdit可以从图像中精确移除指定的对象,无论是单个还是多个对象。通过多层潜在分解,框架能够独立处理每个对象,并在移除后自然地修复背景。
    • 对象移动:框架允许用户将图像中的一个或多个对象移动到新的位置。通过指令引导的潜在融合,对象可以在画布上重新定位,同时保持与周围环境的和谐。
    • 对象调整大小和翻转:DesignEdit能够对图像中的对象进行缩放和翻转操作,用户可以改变对象的尺寸或方向,而不会影响图像的其他部分。
    • 相机平移和缩放:模拟相机视角的变化,DesignEdit可以在图像中实现平移和缩放效果,允许用户调整图像的构图,就像通过相机镜头观察时移动或调整焦距一样。
    • 跨图像组合:DesignEdit支持将来自不同图像的元素组合在一起,创建全新的图像。这项功能特别适合于创意工作,可以结合多个图像的元素来创作新的视觉内容。
    • 设计图像编辑:特别针对设计图像/海报,DesignEdit能够处理文本、装饰和其他设计元素的编辑任务。它能够理解设计图像的特殊需求,如排版和样式的调整,提供更加精细的编辑控制。

    DesignEdit的工作原理

    DesignEdit的工作原理基于两个核心子任务的结合:多层潜在分解(Multi-Layered Latent Decomposition)和多层潜在融合(Multi-Layered Latent Fusion)。

    DesignEdit的工作原理

    1. 多层潜在分解
      • 概念:DesignEdit将源图像的潜在表示(latent representation)分割成多个层次,每个层次代表图像中的不同对象或背景部分。
      • 关键掩码自注意力:为了在不破坏图像其他区域的情况下编辑特定区域,DesignEdit采用了一种特殊的自注意力机制,称为关键掩码(key-masking)自注意力。这种机制允许模型在处理图像时忽略或修改掩码区域内的像素,同时保留周围区域的上下文信息。
      • 背景修复:在移除对象后,DesignEdit利用自注意力机制中的内在修复能力来填补背景中的空白区域,确保图像的连贯性和自然过渡。
    2. 多层潜在融合
      • 指令引导的融合:在分解步骤之后,DesignEdit根据用户的编辑指令,将编辑后的多个潜在表示层融合到一个新的画布上。这个过程是按照特定的图层顺序和用户指定的布局安排进行的。
      • 伪影抑制:为了提高编辑质量,DesignEdit在潜在空间中引入了伪影抑制方案。这个方案有助于减少编辑过程中可能出现的视觉瑕疵,使图像看起来更加自然和真实。
      • 和谐化处理:在融合过程中,DesignEdit通过额外的去噪步骤来协调融合后的多层潜在表示,进一步优化图像边缘的整合和界面的平滑过渡。

    整个编辑过程是免训练的,意味着不需要针对特定任务进行额外的训练或微调。DesignEdit利用先进的深度学习模型,如GPT-4V,来辅助生成精确的编辑指令和布局安排,从而实现高效、准确的图像编辑。

  • InstantStyle – 开源的个性化文本到图像生成框架,保留风格一致性

    InstantStyle是什么

    InstantStyle是小红书的InstantX团队(该团队也是InstantID框架背后的开发团队)开源的保留风格一致性的个性化文本到图像生成框架,旨在解决文本到图像生成中的一个关键问题:如何在保持风格一致性的同时生成图像。InstantStyle通过两个核心策略实现风格与内容的有效解耦:一是在特征空间内分离参考图像的风格和内容;二是将风格特征注入特定的风格块,避免风格泄露,以实现更好的风格迁移。

    InstantStyle

    InstantStyle有效地解决了文本到图像生成中的风格一致性问题,通过其独特的特征空间解耦和风格特定块注入策略,能够在不牺牲内容完整性的前提下,精确地迁移和应用各种复杂的艺术风格,同时避免了传统图像生成方法中常见的风格退化和内容泄露问题,极大地简化了风格迁移的过程,并提高了生成图像的视觉质量和创作灵活性。

    InstantStyle的官网入口

    InstantStyle生成的图像

    InstantStyle的功能特性

    • 图像风格迁移:InstantStyle允许用户将一种特定的艺术风格应用到任意目标图像上,从而创造出全新的视觉作品。
    • 多风格支持:InstantStyle能够处理和迁移多种不同的艺术风格,包括传统绘画风格(如印象派、表现主义)、现代艺术风格(如抽象、超现实主义)以及流行文化中的视觉风格(如漫画、动画)。
    • 内容保持:在应用新风格的同时,InstantStyle能够保持目标图像的原始内容不变。这意味着即使风格发生了变化,图像中的对象、场景和细节仍然与原图保持一致。
    • 风格强度调整:创作者可以根据需要调整风格迁移的强度,用户可以选择从微妙的风格变化到完全的风格转换,以适应不同的创作需求。
    • 文本描述控制:通过文本提示,用户可以指导InstantStyle生成符合特定描述的图像,为操作提供了额外的控制层,使得风格迁移更加精确和个性化。
    • 高效性能:InstantStyle的设计优化了计算效率,使得风格迁移过程快速且资源消耗较低,用户可以在较短的时间内获得结果。
    • 易于使用:InstantStyle的用户界面简洁直观,使得即使是没有深度技术背景的用户也能够轻松地进行风格迁移实验和创作。
    • 无需繁琐调整:与其他风格迁移方法相比,InstantStyle无需复杂的权重调整或参数设置,大大简化了风格迁移的过程。
    • 模型兼容性:InstantStyle可以与多种现有的文本到图像生成模型兼容,使其能够灵活地应用于不同的生成场景和任务中。

    InstantStyle的工作机制

    InstantStyle的工作原理基于两个核心策略,旨在解决文本到图像生成中的一致性风格问题。以下是这两个策略的详细介绍:

    1. 风格与内容的解耦
      • 特征空间中的操作:InstantStyle使用CLIP模型的图像编码器来提取参考图像的风格特征,同时,也使用CLIP的文本编码器来提取与内容相关的文本特征。CLIP是一个多模态模型,能够将图像和文本映射到一个共享的特征空间中。
        InstantStyle IP-Adapter
      • 减法操作:通过从参考图像的特征中减去内容文本的特征,InstantStyle能够分离出纯粹的风格特征。这种方法假设特征空间中的元素可以相互加减,从而有效地提取出风格信息,同时减少内容特征的干扰。
    2. 风格特定块的注入
      • 识别风格相关层:在扩散模型中,InstantStyle识别出负责风格信息的特定层(例如,上层注意力块负责捕捉风格,下层注意力块负责空间布局)。
      • 有选择性的特征注入:确定风格相关层后,InstantStyle将风格特征仅注入到这些层中。这样做可以确保风格特征被有效地应用到生成过程中,同时避免内容特征的泄露,从而保持生成图像的内容与文本描述的一致性。

    通过这两个策略,InstantStyle实现了风格和内容的有效分离,并在生成图像时保持了风格的一致性。这种方法的优势在于它的简单性和高效性,无需复杂的权重调整或额外的模块,就能够实现高质量的风格迁移。

    InstantStyle的应用场景

    • 艺术风格迁移:将特定的艺术风格应用到任意图像上,例如将梵高的画风应用到一张普通的风景照片上,生成具有类似笔触和色彩风格的艺术作品。
    • 图像内容定制:根据用户的文本描述生成图像,同时保持图像的特定风格,如将描述的场景以卡通、写实、未来主义等风格呈现。
    • 设计元素应用:在产品设计、广告创意、社交媒体图像等方面,根据设计指南或风格要求生成具有一致视觉元素的图像。
    • 个性化图像创作:为个人或品牌创建独特的视觉内容,如定制头像、社交媒体封面、个性化表情包等。
  • AniPortrait – 腾讯开源的照片对口型视频生成框架

    AniPortrait是什么

    AniPortrait是腾讯开源的照片对口型AI视频生成框架,类似于此前阿里推出的EMO,能够通过音频和一张参考肖像图片生成高质量的动画。AniPortrait的工作原理分为两个阶段:首先从音频中提取3D面部特征,并将其转换为2D面部标记点;然后,利用扩散模型和运动模块,将这些标记点转换成连贯且逼真的动画。该框架的优势在于其生成的动画具有高度的自然性和多样性,同时提供了编辑和再现面部动作的灵活性。

    AniPortrait

    AniPortrait的官网入口

    AniPortrait的功能特性

    • 音频驱动的动画生成AniPortrait能够根据输入的音频文件自动生成与语音同步的面部动画,包括嘴唇的运动、面部表情和头部姿势。
    • 高质量的视觉效果通过使用扩散模型和运动模块,AniPortrait能够产生高分辨率、视觉上逼真的肖像动画,提供出色的视觉体验。
    • 时间一致性该框架确保动画在时间上的连贯性,使得动画中的角色动作流畅自然,没有突兀的跳跃或不一致。
    • 灵活性和可控性利用3D面部表示作为中间特征,AniPortrait提供了对动画编辑的灵活性,允许用户对生成的动画进行进一步的定制和调整。
    • 面部表情和嘴唇动作的精确捕捉通过改进的PoseGuider模块和多尺度策略,AniPortrait能够精确捕捉和再现嘴唇的微妙动作和复杂的面部表情。
    • 与参考图像的一致性框架通过整合参考图像的外观信息,确保生成的动画在视觉上与原始肖像保持一致,避免了身份不匹配的问题。

    AniPortrait的工作机制

    AniPortrait主要由两个模块组成:Audio2Lmk和Lmk2Video。

    AniPortrait的工作机制

    1. Audio2Lmk模块(音频到2D面部标记点)

    Audio2Lmk模块的目标是从音频输入中提取一系列面部表情和嘴唇动作的3D面部网格和头部姿势信息。首先,使用预训练的wav2vec模型来提取音频特征,这个模型能够准确识别音频中的发音和语调,对于生成逼真的面部动画至关重要。然后,利用这些音频特征,通过两个全连接层转换成3D面部网格。对于头部姿势的预测,也使用wav2vec网络作为骨干,但不共享权重,因为姿势与音频中的节奏和语调更为相关。此外,使用变压器解码器来解码姿势序列,并通过交叉注意力机制将音频特征整合到解码器中。最终,通过透视投影将3D网格和姿势信息转换为2D面部标记点序列。

    2. Lmk2Video模块(2D面部标记点到视频)

    Lmk2Video模块负责根据参考肖像图像和一系列面部标记点生成时间上一致的高质量肖像视频,参考了AnimateAnyone的网络架构作为灵感来源,采用Stable Diffusion 1.5作为骨干,结合时间运动模块,将多帧噪声输入转换为一系列视频帧。此外,引入了一个与SD1.5结构相同的ReferenceNet,用于从参考图像中提取外观信息,并将其整合到骨干网络中,确保视频中的面部身份保持一致。为了提高对嘴唇动作的捕捉精度,增强了PoseGuider模块的设计,采用了ControlNet的多尺度策略,并将参考图像的标记点作为额外输入,通过交叉注意力模块促进参考标记点与每一帧目标标记点之间的交互,帮助网络更好地理解面部标记点与外观之间的关系。

  • DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架

    DreaMoving是什么

    DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。该框架的目标是生成高质量的定制化人类视频,特别是能够根据给定的目标身份和姿势序列生成目标身份移动或跳舞的视频内容。

    DreaMoving

    DreaMoving的官网入口

    DreaMoving的功能特性

    • 定制化视频生成:DreaMoving能够根据用户提供的目标身份和姿势序列,生成相应的人物移动或跳舞的视频,满足个性化视频内容的制作需求。
    • 高度可控性:通过视频控制网络(Video ControlNet),DreaMoving可以精确控制视频中人物的动作细节,确保生成的视频具有高度的时间一致性和运动真实性。
    • 身份保持:利用内容引导器(Content Guider),框架能够保持视频中人物的身份特征,如面部和服装,确保生成的视频与目标身份高度吻合。
    • 多样化的输入方式:用户可以通过文本提示、图像提示或二者结合的方式来指导视频的生成,提供了灵活的创作方式。
    • 易于使用和适配:DreaMoving设计简洁,易于操作,并且可以适配多种风格化的扩散模型,以生成风格多样的视频结果。

    DreaMoving的技术架构

    DreaMoving的架构建立在Stable Diffusion模型的基础上,主要由三个核心部分组成,每个部分承担着不同的功能和任务,共同实现高质量的人类视频生成。

    DreaMoving的架构

    1. 去噪U-Net:作为DreaMoving的基础网络,负责视频的生成过程。去噪U-Net通过迭代去噪的方式,逐步从噪声中恢复出清晰的视频帧。在每个U-Net块之后,插入了运动块(Motion Block),以增强视频的时间一致性和运动真实性。
    2. 视频控制网络(Video ControlNet):该网络专门负责控制视频中人物的运动。它作为一个插件模块,与去噪U-Net结合使用,通过处理姿势或深度序列来控制人物的动作。Video ControlNet使得生成的视频能够根据输入的控制序列展现出精确的运动模式。
    3. 内容引导器(Content Guider):内容引导器的目的是保持视频中人物的身份特征,如面部和服装。它使用图像编码器来精确地引导人物的外观,同时结合文本提示来生成背景内容。内容引导器通过交叉注意力机制,将输入的文本提示和图像特征结合起来,生成具有特定身份特征的视频内容。

    这三个网络协同工作,使得DreaMoving能够生成既具有个性化身份特征又具有精确运动控制的高质量人类视频。此外,DreaMoving的架构设计使其易于使用和适配,能够与多种风格化的扩散模型结合,以产生多样化的视频生成结果。

    DreaMoving的应用场景

    • 电影和电视制作:在影视制作中,DreaMoving可以用来创建复杂的动作场景,特别是当需要特定人物表演或舞蹈动作时。它可以帮助制作团队在预算和时间有限的情况下,快速生成高质量的视频内容。
    • 游戏开发:游戏设计师可以利用DreaMoving生成逼真的角色动画,为玩家提供更加丰富和真实的游戏体验。这在角色扮演游戏或动作游戏中尤为重要,可以增强游戏的沉浸感。
    • 个性化视频创作:内容创作者可以使用DreaMoving制作个性化视频,例如社交媒体上的舞蹈挑战、模仿秀或其他创意视频。用户可以通过简单的文本或图像输入,快速生成具有个人特色的视频内容。
    • 广告和营销:营销人员可以使用DreaMoving制作吸引人的广告视频,通过定制化的人物动作和场景来吸引目标受众,提高广告的传播效果和品牌认知度。