Category: AI项目和框架

  • ColorFlow – 清华和腾讯共同推出的图像序列着色模型

    ColorFlow是什么

    ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术,ColorFlow确保黑白图像序列着色与参考图像颜色一致性,适用于漫画、动画制作等工业应用。ColorFlow在图像序列着色领域基于提升CLIP-IS、降低FID、增加PSNR和SSIM得分及提高AS,展现超越现有技术的卓越性能,为艺术行业提供新的着色标准。

    ColorFlow

    ColorFlow的主要功能

    • 检索增强管道(Retrieval-Augmented Pipeline, RAP):从参考图像池中提取与输入黑白图像最相关的彩色图像块,指导着色过程。
    • 上下文着色管道(In-context Colorization Pipeline, ICP):基于强大的上下文学习来准确检索颜色身份,采用双分支设计进行着色。
    • 引导超分辨率管道(Guided Super-Resolution Pipeline, GSRP):上采样低分辨率的着色输出,产生高分辨率的彩色图像,增强细节恢复并提高输出质量。

    ColorFlow的技术原理

    • 检索增强(Retrieval-Augmented):基于预训练的CLIP图像编码器生成输入图像和参考图像的嵌入,计算余弦相似度识别最相似的参考图像块,用在后续的着色训练。
    • 上下文着色(In-context Colorization):引入辅助分支“Colorization Guider”整合条件信息,基于U-Net扩散模型逐步整合特征,实现像素级的条件嵌入。用轻量级LoRA(Low-Rank Adaptation)方法对预训练的扩散模型进行微调,保留其着色能力。
    • 超分辨率增强(Super-Resolution):处理着色过程中的下采样问题,减少结构失真。将高分辨率黑白图像与低分辨率彩色输出结合,增强细节恢复,提升输出质量。
    • 自我注意力机制(Self-Attention):在扩散模型中用自我注意力机制,将参考图像和灰度图像放在同一个画布上,提取特征,逐层输入到扩散模型中进行着色。
    • 时间步采样策略(Timestep Shifted Sampling):调整采样策略,强调在更高时间步长上的采样,增强着色过程的效果。
    • 屏幕风格增强(Screenstyle Augmentation):对灰度图像和ScreenVAE输出进行随机线性插值,增强输入图像的风格适应性,提升着色性能。

    ColorFlow的项目地址

    ColorFlow的应用场景

    • 漫画和卡通着色:将黑白漫画或卡通图像转换为彩色版本,适合漫画家和动画制作者在创作过程中快速给线稿上色。
    • 老照片修复:为历史上的黑白照片提供颜色,帮助恢复旧时代的照片原貌,增加历史图片的观赏价值。
    • 电影和视频后期制作:用在黑白电影的彩色化,或为现代电影制作提供特定的颜色分级效果。
    • 艺术创作:艺术家为黑白艺术作品添加颜色,或在创作过程中探索不同的颜色方案。
    • 教育和学习:在教育领域,作为工具帮助学生理解颜色对图像的影响,及学习图像处理和计算机视觉的基本概念。
  • Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

    Ivy-VL是什么

    Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显著降低计算资源需求,能在AI眼镜、智能手机等资源受限设备上高效运行。Ivy-VL在视觉问答、图像描述、复杂推理等多模态任务中展现卓越的性能,在OpenCompass评测中取得4B以下模型最佳成绩。

    Ivy-VL

    Ivy-VL的主要功能

    • 视觉问答(Visual Q&A):理解和回答与图像内容相关的问题。
    • 图像描述(Image Description):模型能生成描述图像内容的文本。
    • 复杂推理(Complex Reasoning):处理涉及多步骤推理的视觉任务。
    • 多模态数据处理:在智能家居和物联网(IoT)设备中,处理和理解来自不同模态(如视觉和语言)的数据。
    • 增强现实(AR)体验:在智能穿戴设备中,支持实时视觉问答,增强AR体验。

    Ivy-VL的技术原理

    • 轻量化设计:Ivy-VL仅有3B参数,在资源受限的设备上更加高效。
    • 多模态融合技术:Ivy-VL结合先进的视觉编码器和强大的语言模型,实现不同模态之间的有效信息融合。
    • 视觉编码器:用Google的google/siglip-so400m-patch14-384视觉编码器处理和理解图像信息。
    • 语言模型:结合Qwen2.5-3B-Instruct语言模型理解和生成文本信息。
    • 优化的数据集训练:基于精心选择和优化的数据集进行训练,提高模型在多模态任务中的表现。

    Ivy-VL的项目地址

    Ivy-VL的应用场景

    • 智能穿戴设备:提供实时视觉问答功能,辅助用户在增强现实(AR)环境中获取信息。
    • 手机端智能助手:提供更智能的多模态交互能力,如图像识别和语音交互,提升用户体验。
    • 物联网(IoT)设备:在智能家居和IoT场景中实现高效的多模态数据处理,如用图像和语音控制家居设备。
    • 移动端教育与娱乐:在教育软件中增强图像理解与交互能力,推动移动学习和沉浸式娱乐体验。
    • 视觉问答系统:在博物馆、展览中心等场所,用户用拍照提问,系统提供相关信息。
  • Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图

    Manga Image Translator是什么

    Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本,结合机器翻译将文字转换成目标语言。工具支持多种语言,能将翻译后的文本无缝嵌入原图,保持漫画风格。Manga Image Translator提供批量处理和在线/离线翻译功能,适用于漫画爱好者和需要翻译图像中文字的用户。

    Manga Image Translator

    Manga Image Translator的主要功能

    • 文本识别与翻译:自动识别漫画图片中的文字,翻译成用户选择的目标语言。
    • 多语言支持:主要设计用于翻译日文,同时支持中文、英文和韩文。
    • 图像合成:将翻译后的文本无缝合成回原图,保持漫画的原始风格和布局。
    • 批量处理:支持多张图片的批量处理,提高翻译效率。
    • 在线与离线翻译:提供在线和离线翻译选项,增加使用的灵活性。
    • 高级配置:用户根据需要调整翻译、渲染、颜色化等设置。

    Manga Image Translator的技术原理

    • OCR技术:基于光学字符识别技术提取图像中的文字信息。
    • 深度学习模型:基于深度学习模型来提高文字识别的准确性和翻译的质量。
    • 图像处理:基于图像处理技术,如inpainting(图像修复技术),合成翻译后的文本,避免遮挡漫画图像的重要部分。
    • 文本渲染:将翻译后的文本用视觉上和谐的方式渲染到原始图像上。
    • 颜色化技术:对翻译后的文本进行颜色化处理,与原漫画的风格相匹配。

    Manga Image Translator的项目地址

    Manga Image Translator的应用场景

    • 跨语言漫画阅读:漫画爱好者轻松阅读非母语的漫画,无需等待官方翻译。
    • 教育与学习:语言学习者辅助学习新语言,用阅读漫画提高语言水平。
    • 国际交流:帮助不同语言背景的人更好地交流和理解彼此的文化。
    • 漫画本地化:出版商和翻译团队加速漫画的本地化过程,减少翻译成本。
    • 个人娱乐:个人用户翻译自己喜欢的漫画、图片或任何包含文字的视觉内容,获得更好的娱乐体验。
  • Lyra – SmartMore联合多所高校推出的增强多模态交互能力

    Lyra是什么

    Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器,减少训练成本和数据需求。Lyra构建大规模的多模态数据集,包括长语音样本,处理复杂的长语音输入,实现强大的全模态认知能力。在多种模态理解和推理任务中,Lyra达到最先进的性能,同时在计算资源和训练数据的使用上更为高效。

    Lyra

    Lyra的主要功能

    • 多模态理解与推理:Lyra能理解和处理图像、视频、音频和文本等多种模态的数据,执行复杂的理解和推理任务。
    • 语音中心能力:模型特别强化对语音的理解,包括长语音的识别和处理,在语音交互方面表现出色。
    • 高效处理:Lyra在训练和推理时更加高效,用更少的数据和计算资源,适合实时和长上下文的多模态应用。
    • 流式生成:支持同时生成文本和语音输出,在对话和交互中实时响应。
    • 跨模态交互:基于潜在的多模态正则化器和提取器,加强不同模态之间的信息交互,提升模型性能。

    Lyra的技术原理

    • 多模态LoRA(Low-Rank Adaptation):基于了LoRA技术适配多模态输入,模型在保留原有视觉能力的同时,发展在语音模态中的能力,减少训练数据的需求。
    • 潜在跨模态正则化器:基于动态时间弯曲(Dynamic Time Warping, DTW)算法,将语音令牌与对应的文本令牌对齐,让语音模态的输入在语义上与文本模态保持一致。
    • 潜在多模态提取器:基于评估不同模态令牌与文本查询的相关性,动态选择和保留与任务最相关的令牌,提高训练和推理的效率。
    • 长语音能力集成:构建专门的长语音SFT数据集,基于压缩技术处理长语音令牌,让模型处理长达数小时的音频输入。
    • 流式文本-语音生成:集成流式生成机制,支持模型在生成文本的同时输出对应的语音,实现无缝的多模态交互体验。
    • 数据集构建:为训练和优化Lyra,研究者构建包含150万多个多模态样本和1.2万多个长语音样本的高质量数据集,数据覆盖丰富的场景和领域。

    Lyra的项目地址

    Lyra的应用场景

    • 智能助手:作为智能助手,理解和响应用户的语音指令,提供信息查询、日程管理、提醒设置等服务。
    • 客户服务:在客户服务领域,基于语音和文本交互,处理客户咨询、投诉和技术支持等问题。
    • 教育和培训:作为教育辅助工具,提供语音讲解、课程内容理解和问答,以及语言学习中的发音和听力训练。
    • 健康医疗:在医疗领域,帮助患者通过语音咨询健康问题,或作为医生的辅助工具,理解和总结患者的医疗记录。
    • 内容审核:分析图像、视频和文本内容,进行内容审核,识别和过滤不当内容。
  • LatentLM – 微软联合清华推出的多模态生成模型

    LatentLM是什么

    LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。LatentLM基于因果Transformer架构实现不同模态间信息共享,提高模型在多模态任务中的性能和可扩展性。LatentLM推出σ-VAE解决方差崩溃问题,增强自回归建模的鲁棒性,在图像生成、多模态大型语言模型和文本到语音合成等多个领域展现出卓越性能。

    LatentLM

    LatentLM的主要功能

    • 多模态数据处理:同时处理离散数据(如文本和代码)和连续数据(如图像、音频、视频)。
    • 统一的生成与理解接口:提供一个接口,统一多模态数据的生成和理解,例如,可以生成文本、图像、音频和视频的任意组合。
    • 自回归生成:基于next-token diffusion技术,模型自回归地生成连续数据的潜在向量。
    • 高性能图像生成:在图像生成任务中,与基于扩散或离散标记的模型相媲美。
    • 多模态大型语言模型集成:集成到多模态大型语言模型中,提升语言模型在多模态任务中的表现。
    • 文本到语音合成:在文本到语音合成领域,用更少的解码步骤实现优于现有最先进模型的性能。

    LatentLM的技术原理

    • 变分自编码器(VAE):用VAE将连续数据编码为潜在向量,向量随后被解码器重构为原始数据。
    • 下一个词扩散(Next-Token Diffusion):一种自回归生成潜在向量的方法,其中扩散头根据每个Transformer隐藏状态产生潜在向量。
    • 因果Transformer:用因果Transformer处理离散和连续数据,支持模型自回归地预测序列中的下一个元素。
    • σ-VAE:为解决方差崩溃问题,LatentLM提出了σ-VAE,基于在潜在空间中保持固定方差提高模型在自回归建模中的鲁棒性。
    • 混合模态训练:在训练中处理不同类型的数据,包括纯文本数据、图像-文本对数据和交错的图像-文本数据。
    • 高效的推理过程:在推理时,基于Transformer主干的单次传递和轻量级扩散头的多次去噪步骤,实现高效的解码过程。

    LatentLM的项目地址

    LatentLM的应用场景

    • 图像生成:根据用户提供的文本描述自动创作出相应的图像,适用于广告设计和游戏开发中快速原型设计。
    • 智能客服:在客户服务中,理解用户的自然语言查询,提供包含图像、文本和链接的多模态回答。
    • 语音助手:将用户的语音指令转换成文字,提供语音回复,适用于智能家居控制和个人助理设备。
    • 自动字幕生成:在视频内容中,实时生成与视频内容匹配的字幕,提高内容的可访问性。
    • 虚拟主播:基于LatentLM生成的语音和图像,创建虚拟新闻主播或教学视频的虚拟讲师。
  • Leffa – Meta 开源的图像生成框架,精确控制人物的外观和姿势

    Leffa是什么

    Leffa(Learning Flow Fields in Attention)是 Meta AI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基于正则化损失函数,指导模型在训练时让目标查询聚焦于参考图像中的正确区域,减少细节失真,提升图像质量。Leffa不增加额外参数和推理成本,且适用于多种扩散模型,展现了良好的模型无关性和泛化能力。

    Leffa

    Leffa的主要功能

    • 外观控制(虚拟试穿):根据参考图像(如服装图片)生成穿着该服装的人物图像,保持人物原有特征不变。
    • 姿势控制(姿势转移):L将一个人物的姿势从一个图像转移到另一个图像,保持人物的外观细节。
    • 细节保留:减少生成图像中的细节失真,如纹理、文字和标志等。
    • 质量维持:在控制细节的同时,保持生成图像的整体高质量。

    Leffa的技术原理

    • 注意力机制:基于注意力机制,用注意力层将目标图像(待生成的人物图像)与参考图像(提供外观或姿势的图像)关联起来。
    • 流场学习:基于学习注意力层中的流场(flow fields),显式指导目标查询(target query)关注于参考键(reference key)的正确区域。
    • 正则化损失:在注意力图上施加正则化损失,将参考图像变形以更紧密地与目标图像对齐,鼓励模型在训练期间正确关注参考区域。
    • 空间一致性:基于转换注意力图到流场,用网格采样操作将参考图像变形,确保目标查询与参考图像之间的空间一致性。
    • 模型无关性:作为正则化损失函数,集成到不同的扩散模型中,无需额外参数或复杂的训练技术。
    • 渐进式训练:在训练的最后阶段应用,避免早期性能退化,基于结合传统的扩散损失和Leffa损失进行微调,优化模型性能。

    Leffa的项目地址

    Leffa的应用场景

    • 虚拟试穿:在电子商务和时尚行业中,创建虚拟试衣间,让消费者在线上看到自己穿上不同服装的样子,无需实际试穿。
    • 增强现实(AR):在AR应用中,实时改变或添加用户的外观和服装,提供更加沉浸式的体验。
    • 游戏和娱乐:在游戏开发中,用在角色定制,玩家根据自己的喜好调整角色的外观和姿态。
    • 电影和视频制作:在电影后期制作中,生成或修改人物形象,比如改变演员的服装或姿态,无需重新拍摄。
    • 个性化广告:在广告行业中,生成个性化的广告图像,根据目标受众的特征定制模特的形象。
  • Large Action Models – 微软推出的行动大模型开发框架

    Large Action Models是什么

    Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large Language Models,大型语言模型)的文本生成能力。LAMs能理解用户意图,在物理和数字环境中自动执行复杂任务。LAMs集成数据收集、模型训练、环境交互和评估等阶段,将语言理解转化为可执行的行动,推动AI向具有实际影响力的自动化和增强人类能力方向发展。LAMs被视为实现人工通用智能(AGI)的重要一步。

    LAMs

    Large Action Models的主要功能

    • 用户意图解读:从多种输入形式(如自然语言、语音、图像等)中准确理解用户的意图,转化为可执行的计划和行动步骤。
    • 行动生成:将用户意图转化为具体的行动指令,包括图形用户界面(GUI)操作、API调用、机器人物理操作等。
    • 动态规划与适应:将复杂任务分解为多个子任务,根据环境变化动态调整计划和行动,应对执行过程中的意外情况。
    • 专业化与效率:针对特定环境或任务,LAMs基于专业化训练,提高在特定领域的准确性和适应性,同时减少计算开销,提升响应速度。
    • 环境交互:与代理系统集成,能与外部工具互动,维持记忆,并与环境进行接口交互,实现对物理世界的实际影响。
    • 自主执行:自主执行任务,包括理解任务、规划行动步骤、执行行动,根据反馈进行调整。

    Large Action Models的技术原理

    • 数据收集与准备:收集用户请求、环境状态和对应行动的数据,数据经过清洗和预处理,为模型训练提供基础。
    • 模型训练:用收集的数据,基于监督式微调、强化学习等技术,训练LAMs执行特定行动。
    • 环境集成:将训练好的LAMs集成到代理系统中,与环境互动,包括收集观察数据、使用工具、维持记忆和实施反馈循环。
    • 基础构建:确保LAMs执行行动并根据实时反馈和情境变化调整行为,增强在特定环境中完成任务的能力。
    • 评估:在实际部署前,对LAMs进行严格的可靠性、鲁棒性和安全性评估,确保在不同环境和任务中的表现,并有效处理意外情况。

    Large Action Models的项目地址

    Large Action Models的应用场景

    • 自动化软件任务:执行文档编辑、数据录入和表格处理等办公自动化任务。
    • 智能家居管理:控制智能家居设备,如调节灯光、温度和安全监控。
    • 客户服务与支持:基于聊天机器人提供实时帮助和技术支持,自动诊断问题并提供解决方案。
    • 电子商务:自动化在线购物流程,包括产品搜索、下单和支付处理。
    • 教育与培训:作为虚拟助教,提供个性化学习计划和教学内容。
  • Ruyi – 图森未来推出的图生视频大模型

    Ruyi是什么

    Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,用在视频数据压缩和生成。Ruyi能降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。目前图森未来将Ruyi-Mini-7B版本正式开源。

    Ruyi

    Ruyi的主要功能

    • 多分辨率、多时长生成:Ruyi支持从最小384×384到最大1024×1024分辨率的视频生成,能处理任意长宽比,最长生成120帧/5秒的视频。
    • 首帧、首尾帧控制生成:基于最多5个起始帧和最多5个结束帧生成视频,用循环叠加生成任意长度的视频。
    • 运动幅度控制:提供4档运动幅度控制,方便用户对整体画面的变化程度进行控制。
    • 镜头控制:提供了上、下、左、右、静止共5种镜头控制,增加视频生成的灵活性。

    Ruyi的技术原理

    • 模型架构:Ruyi基于DiT(Diffusion Model with Transformers)架构,由两部分组成:
      • Casual VAE模块:负责视频数据的压缩和解压。
      • Diffusion Transformer:负责压缩后的视频生成。
    • 压缩与编码:Casual VAE模块将空间分辨率压缩至1/8,时间分辨率压缩至1/4,压缩后每个像素由16位的BF16进行表示。
    • 位置编码:DiT部分用3D full attention,在空间上使用2D RoPE(Rotary Positional Encoding)进行位置编码,时间上用sin_cos进行位置编码。
    • 训练损失函数:最终的loss选用DDPM(Denoising Diffusion Probabilistic Models)进行训练。
    • 参数量与训练数据:模型的总参数量约为7.1B,用约200M视频片段进行训练。
    • 训练阶段:整个训练分为四个阶段,从低分辨率预训练到高分辨率微调,逐步提升模型性能。

    Ruyi的项目地址

    Ruyi的应用场景

    • 动画预制:快速生成动画角色和场景的动态演示,评估动画设计和故事流程。
    • 游戏CG生成:在游戏开发中,自动生成游戏宣传视频或游戏内的动态背景。
    • 电影特效预览:在电影制作中,帮助导演和特效团队预览特效场景,优化后期特效制作。
    • 虚拟主播:生成虚拟主播的动态视频,用于直播、新闻播报或在线教育。
    • 社交媒体内容:为社交媒体平台创建吸引人的动态视频内容,提高用户参与度和品牌曝光。
  • Bocha Semantic Reranker – 博查推出的语义排序模型

    Bocha Semantic Reranker是什么

    Bocha Semantic Reranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义,对初步排序的搜索结果进行二次优化,用评估查询语句与文档内容的深层语义匹配,给出排序得分,改善用户搜索体验。Bocha Semantic Reranker适用于RAG应用,确保检索文档与查询意图高度匹配,提高问答系统的整体效果。

    Bocha Semantic Reranker

    Bocha Semantic Reranker的主要功能

    • 语义相关性评估:评估查询语句与文档内容之间的语义相关性,判断文档是否能有效回答用户的查询或与查询意图高度匹配。
    • 二次排序:在初步的BM25排序或RRF排序之后,用语义信息对文档进行二次排序,优化搜索结果。
    • Rerank Score分配:为每个文档分配一个0到1之间的rerankScore,分数越高,表示文档与查询的语义相关性越强。
    • 改善搜索体验:基于语义排序改善用户的搜索体验,特别是在复杂的查询和RAG应用中,确保检索到的文档与查询意图高度匹配。
    • 支持多种模型:提供不同的语义排序模型,目前已支持 bocha-semantic-reranker-cn、bocha-semantic-reranker-en、gte-rerank 3种模型,适应不同的语言和应用场景。

    Bocha Semantic Reranker的技术原理

    • 深度学习与自然语言处理:Bocha Semantic Reranker用深度学习技术和自然语言处理技术,理解查询的真实意图和文档内容的深层语义。
    • Transformer架构:模型基于Transformer架构,捕捉长距离依赖关系和复杂的语义信息。
    • 语义嵌入:将查询语句和文档内容转换成高维空间中的向量(语义嵌入),基于计算向量之间的相似度评估语义相关性。
    • 排序算法:基于先进的排序算法,根据语义嵌入的相似度分数对文档进行排序,确保最相关的文档排在最前面。
    • 参数优化:基于优化实现接近更大模型(如280M、560M参数)的效果,同时保持更快的推理速度和更低的成本。

    Bocha Semantic Reranker的项目地址

    Bocha Semantic Reranker的应用场景

    • 搜索引擎优化:提高搜索引擎结果的相关性和准确性,让用户更快地找到所需信息。
    • 问答系统(QA Systems):在问答系统中,对检索到的答案进行语义排序,确保提供的答案与问题高度相关。
    • 推荐系统:在内容推荐系统中,根据用户的历史行为和偏好,提供更精准的个性化内容推荐。
    • 智能客服:改善智能客服系统的理解能力,更准确地理解客户的问题,提供合适的解决方案。
    • 内容分析:在内容分析和内容审核中,对大量文档进行语义分析,识别关键信息或敏感内容。
  • BrushEdit – 腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复

    BrushEdit是什么

    BrushEdit是腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型(MLLMs)和双分支图像修复模型,实现基于指令引导的图像编辑和修复,支持用户用自然语言指令进行自由形式的、多轮交互式的编辑操作。BrushEdit能处理添加、移除物体等大幅度修改,同时保持背景的连贯性和编辑效果的自然性,显著提升图像编辑的灵活性和用户体验。

    BrushEdit

    BrushEdit的主要功能

    • 指令引导的图像编辑:用户用自然语言指令指导图像编辑任务,如添加、删除或修改图像中的物体。
    • 多轮交互式编辑:支持用户在编辑过程中进行多轮交互,逐步调整和完善编辑结果。
    • 自由形式掩码编辑:用户自由绘制掩码指定编辑区域,无需精确的分割工具。
    • 背景和前景处理:框架能区分编辑区域(前景)和非编辑区域(背景),确保编辑操作不影响图像的非目标部分。
    • 图像修复:自动填充和修复图像中的缺失或指定区域,如去除不需要的物体或填补空洞。

    BrushEdit的技术原理

    • 多模态大型语言模型(MLLMs):用预训练的MLLMs解析用户的自由形式编辑指令,识别编辑类型和目标对象。
    • 双分支图像修复模型:框架用双分支架构,一个分支负责处理掩码区域的图像生成,另一个分支处理未掩码区域的背景信息。
    • 代理协作框架:基于代理(代理指导者和代理指挥者)之间的协作,实现编辑类别分类、主要对象识别、掩码获取和编辑区域修复。
    • 特征融合:将用户指令和掩码信息融合到图像修复模型中,指导模型在掩码区域内生成与指令相符的内容。
    • 零卷积层和特征插入:用零卷积层将冻结的预训练模型与可训练的BrushEdit模型连接,减轻早期训练阶段的噪声,逐层集成特征实现精细的控制。
    • 混合微调策略:结合随机掩码和分割掩码的微调策略,让模型处理多种掩码任务,不受特定掩码类型限制。

    BrushEdit的项目地址

    BrushEdit的应用场景

    • 内容创作与编辑:艺术家和设计师进行创意图像编辑,快速实现复杂的视觉效果和艺术创作。
    • 媒体和娱乐:在电影和视频制作中,修复老旧或损坏的影像资料,或在后期制作中移除不需要的元素。
    • 广告和营销:广告制作人快速更改广告图像中的产品或背景,适应不同的营销策略。
    • 社交媒体:用户在社交媒体上分享编辑过的图片,如节日装饰、虚拟试穿服装等。
    • 电子商务:电商平台编辑产品图片,如更换产品背景、调整产品颜色或添加促销标签。