Blog

  • DesignEdit – 微软等开源的AI图像分层处理编辑框架

    DesignEdit是什么

    DesignEdit是由来自微软亚洲研究院和北京大学的研究人员共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合的技术,实现了无需额外训练即可进行精确的空间感知图像编辑和处理。通过关键掩码自注意力机制和伪影抑制方案,DesignEdit能够灵活处理图像中的各个对象,并执行诸如移动、调整大小、移除等复杂操作。

    DesignEdit

    DesignEdit的官网入口

    DesignEdit的主要功能

    • 对象移除:DesignEdit可以从图像中精确移除指定的对象,无论是单个还是多个对象。通过多层潜在分解,框架能够独立处理每个对象,并在移除后自然地修复背景。
    • 对象移动:框架允许用户将图像中的一个或多个对象移动到新的位置。通过指令引导的潜在融合,对象可以在画布上重新定位,同时保持与周围环境的和谐。
    • 对象调整大小和翻转:DesignEdit能够对图像中的对象进行缩放和翻转操作,用户可以改变对象的尺寸或方向,而不会影响图像的其他部分。
    • 相机平移和缩放:模拟相机视角的变化,DesignEdit可以在图像中实现平移和缩放效果,允许用户调整图像的构图,就像通过相机镜头观察时移动或调整焦距一样。
    • 跨图像组合:DesignEdit支持将来自不同图像的元素组合在一起,创建全新的图像。这项功能特别适合于创意工作,可以结合多个图像的元素来创作新的视觉内容。
    • 设计图像编辑:特别针对设计图像/海报,DesignEdit能够处理文本、装饰和其他设计元素的编辑任务。它能够理解设计图像的特殊需求,如排版和样式的调整,提供更加精细的编辑控制。

    DesignEdit的工作原理

    DesignEdit的工作原理基于两个核心子任务的结合:多层潜在分解(Multi-Layered Latent Decomposition)和多层潜在融合(Multi-Layered Latent Fusion)。

    DesignEdit的工作原理

    1. 多层潜在分解
      • 概念:DesignEdit将源图像的潜在表示(latent representation)分割成多个层次,每个层次代表图像中的不同对象或背景部分。
      • 关键掩码自注意力:为了在不破坏图像其他区域的情况下编辑特定区域,DesignEdit采用了一种特殊的自注意力机制,称为关键掩码(key-masking)自注意力。这种机制允许模型在处理图像时忽略或修改掩码区域内的像素,同时保留周围区域的上下文信息。
      • 背景修复:在移除对象后,DesignEdit利用自注意力机制中的内在修复能力来填补背景中的空白区域,确保图像的连贯性和自然过渡。
    2. 多层潜在融合
      • 指令引导的融合:在分解步骤之后,DesignEdit根据用户的编辑指令,将编辑后的多个潜在表示层融合到一个新的画布上。这个过程是按照特定的图层顺序和用户指定的布局安排进行的。
      • 伪影抑制:为了提高编辑质量,DesignEdit在潜在空间中引入了伪影抑制方案。这个方案有助于减少编辑过程中可能出现的视觉瑕疵,使图像看起来更加自然和真实。
      • 和谐化处理:在融合过程中,DesignEdit通过额外的去噪步骤来协调融合后的多层潜在表示,进一步优化图像边缘的整合和界面的平滑过渡。

    整个编辑过程是免训练的,意味着不需要针对特定任务进行额外的训练或微调。DesignEdit利用先进的深度学习模型,如GPT-4V,来辅助生成精确的编辑指令和布局安排,从而实现高效、准确的图像编辑。

  • InstantStyle – 开源的个性化文本到图像生成框架,保留风格一致性

    InstantStyle是什么

    InstantStyle是小红书的InstantX团队(该团队也是InstantID框架背后的开发团队)开源的保留风格一致性的个性化文本到图像生成框架,旨在解决文本到图像生成中的一个关键问题:如何在保持风格一致性的同时生成图像。InstantStyle通过两个核心策略实现风格与内容的有效解耦:一是在特征空间内分离参考图像的风格和内容;二是将风格特征注入特定的风格块,避免风格泄露,以实现更好的风格迁移。

    InstantStyle

    InstantStyle有效地解决了文本到图像生成中的风格一致性问题,通过其独特的特征空间解耦和风格特定块注入策略,能够在不牺牲内容完整性的前提下,精确地迁移和应用各种复杂的艺术风格,同时避免了传统图像生成方法中常见的风格退化和内容泄露问题,极大地简化了风格迁移的过程,并提高了生成图像的视觉质量和创作灵活性。

    InstantStyle的官网入口

    InstantStyle生成的图像

    InstantStyle的功能特性

    • 图像风格迁移:InstantStyle允许用户将一种特定的艺术风格应用到任意目标图像上,从而创造出全新的视觉作品。
    • 多风格支持:InstantStyle能够处理和迁移多种不同的艺术风格,包括传统绘画风格(如印象派、表现主义)、现代艺术风格(如抽象、超现实主义)以及流行文化中的视觉风格(如漫画、动画)。
    • 内容保持:在应用新风格的同时,InstantStyle能够保持目标图像的原始内容不变。这意味着即使风格发生了变化,图像中的对象、场景和细节仍然与原图保持一致。
    • 风格强度调整:创作者可以根据需要调整风格迁移的强度,用户可以选择从微妙的风格变化到完全的风格转换,以适应不同的创作需求。
    • 文本描述控制:通过文本提示,用户可以指导InstantStyle生成符合特定描述的图像,为操作提供了额外的控制层,使得风格迁移更加精确和个性化。
    • 高效性能:InstantStyle的设计优化了计算效率,使得风格迁移过程快速且资源消耗较低,用户可以在较短的时间内获得结果。
    • 易于使用:InstantStyle的用户界面简洁直观,使得即使是没有深度技术背景的用户也能够轻松地进行风格迁移实验和创作。
    • 无需繁琐调整:与其他风格迁移方法相比,InstantStyle无需复杂的权重调整或参数设置,大大简化了风格迁移的过程。
    • 模型兼容性:InstantStyle可以与多种现有的文本到图像生成模型兼容,使其能够灵活地应用于不同的生成场景和任务中。

    InstantStyle的工作机制

    InstantStyle的工作原理基于两个核心策略,旨在解决文本到图像生成中的一致性风格问题。以下是这两个策略的详细介绍:

    1. 风格与内容的解耦
      • 特征空间中的操作:InstantStyle使用CLIP模型的图像编码器来提取参考图像的风格特征,同时,也使用CLIP的文本编码器来提取与内容相关的文本特征。CLIP是一个多模态模型,能够将图像和文本映射到一个共享的特征空间中。
        InstantStyle IP-Adapter
      • 减法操作:通过从参考图像的特征中减去内容文本的特征,InstantStyle能够分离出纯粹的风格特征。这种方法假设特征空间中的元素可以相互加减,从而有效地提取出风格信息,同时减少内容特征的干扰。
    2. 风格特定块的注入
      • 识别风格相关层:在扩散模型中,InstantStyle识别出负责风格信息的特定层(例如,上层注意力块负责捕捉风格,下层注意力块负责空间布局)。
      • 有选择性的特征注入:确定风格相关层后,InstantStyle将风格特征仅注入到这些层中。这样做可以确保风格特征被有效地应用到生成过程中,同时避免内容特征的泄露,从而保持生成图像的内容与文本描述的一致性。

    通过这两个策略,InstantStyle实现了风格和内容的有效分离,并在生成图像时保持了风格的一致性。这种方法的优势在于它的简单性和高效性,无需复杂的权重调整或额外的模块,就能够实现高质量的风格迁移。

    InstantStyle的应用场景

    • 艺术风格迁移:将特定的艺术风格应用到任意图像上,例如将梵高的画风应用到一张普通的风景照片上,生成具有类似笔触和色彩风格的艺术作品。
    • 图像内容定制:根据用户的文本描述生成图像,同时保持图像的特定风格,如将描述的场景以卡通、写实、未来主义等风格呈现。
    • 设计元素应用:在产品设计、广告创意、社交媒体图像等方面,根据设计指南或风格要求生成具有一致视觉元素的图像。
    • 个性化图像创作:为个人或品牌创建独特的视觉内容,如定制头像、社交媒体封面、个性化表情包等。
  • AniPortrait – 腾讯开源的照片对口型视频生成框架

    AniPortrait是什么

    AniPortrait是腾讯开源的照片对口型AI视频生成框架,类似于此前阿里推出的EMO,能够通过音频和一张参考肖像图片生成高质量的动画。AniPortrait的工作原理分为两个阶段:首先从音频中提取3D面部特征,并将其转换为2D面部标记点;然后,利用扩散模型和运动模块,将这些标记点转换成连贯且逼真的动画。该框架的优势在于其生成的动画具有高度的自然性和多样性,同时提供了编辑和再现面部动作的灵活性。

    AniPortrait

    AniPortrait的官网入口

    AniPortrait的功能特性

    • 音频驱动的动画生成AniPortrait能够根据输入的音频文件自动生成与语音同步的面部动画,包括嘴唇的运动、面部表情和头部姿势。
    • 高质量的视觉效果通过使用扩散模型和运动模块,AniPortrait能够产生高分辨率、视觉上逼真的肖像动画,提供出色的视觉体验。
    • 时间一致性该框架确保动画在时间上的连贯性,使得动画中的角色动作流畅自然,没有突兀的跳跃或不一致。
    • 灵活性和可控性利用3D面部表示作为中间特征,AniPortrait提供了对动画编辑的灵活性,允许用户对生成的动画进行进一步的定制和调整。
    • 面部表情和嘴唇动作的精确捕捉通过改进的PoseGuider模块和多尺度策略,AniPortrait能够精确捕捉和再现嘴唇的微妙动作和复杂的面部表情。
    • 与参考图像的一致性框架通过整合参考图像的外观信息,确保生成的动画在视觉上与原始肖像保持一致,避免了身份不匹配的问题。

    AniPortrait的工作机制

    AniPortrait主要由两个模块组成:Audio2Lmk和Lmk2Video。

    AniPortrait的工作机制

    1. Audio2Lmk模块(音频到2D面部标记点)

    Audio2Lmk模块的目标是从音频输入中提取一系列面部表情和嘴唇动作的3D面部网格和头部姿势信息。首先,使用预训练的wav2vec模型来提取音频特征,这个模型能够准确识别音频中的发音和语调,对于生成逼真的面部动画至关重要。然后,利用这些音频特征,通过两个全连接层转换成3D面部网格。对于头部姿势的预测,也使用wav2vec网络作为骨干,但不共享权重,因为姿势与音频中的节奏和语调更为相关。此外,使用变压器解码器来解码姿势序列,并通过交叉注意力机制将音频特征整合到解码器中。最终,通过透视投影将3D网格和姿势信息转换为2D面部标记点序列。

    2. Lmk2Video模块(2D面部标记点到视频)

    Lmk2Video模块负责根据参考肖像图像和一系列面部标记点生成时间上一致的高质量肖像视频,参考了AnimateAnyone的网络架构作为灵感来源,采用Stable Diffusion 1.5作为骨干,结合时间运动模块,将多帧噪声输入转换为一系列视频帧。此外,引入了一个与SD1.5结构相同的ReferenceNet,用于从参考图像中提取外观信息,并将其整合到骨干网络中,确保视频中的面部身份保持一致。为了提高对嘴唇动作的捕捉精度,增强了PoseGuider模块的设计,采用了ControlNet的多尺度策略,并将参考图像的标记点作为额外输入,通过交叉注意力模块促进参考标记点与每一帧目标标记点之间的交互,帮助网络更好地理解面部标记点与外观之间的关系。

  • DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架

    DreaMoving是什么

    DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。该框架的目标是生成高质量的定制化人类视频,特别是能够根据给定的目标身份和姿势序列生成目标身份移动或跳舞的视频内容。

    DreaMoving

    DreaMoving的官网入口

    DreaMoving的功能特性

    • 定制化视频生成:DreaMoving能够根据用户提供的目标身份和姿势序列,生成相应的人物移动或跳舞的视频,满足个性化视频内容的制作需求。
    • 高度可控性:通过视频控制网络(Video ControlNet),DreaMoving可以精确控制视频中人物的动作细节,确保生成的视频具有高度的时间一致性和运动真实性。
    • 身份保持:利用内容引导器(Content Guider),框架能够保持视频中人物的身份特征,如面部和服装,确保生成的视频与目标身份高度吻合。
    • 多样化的输入方式:用户可以通过文本提示、图像提示或二者结合的方式来指导视频的生成,提供了灵活的创作方式。
    • 易于使用和适配:DreaMoving设计简洁,易于操作,并且可以适配多种风格化的扩散模型,以生成风格多样的视频结果。

    DreaMoving的技术架构

    DreaMoving的架构建立在Stable Diffusion模型的基础上,主要由三个核心部分组成,每个部分承担着不同的功能和任务,共同实现高质量的人类视频生成。

    DreaMoving的架构

    1. 去噪U-Net:作为DreaMoving的基础网络,负责视频的生成过程。去噪U-Net通过迭代去噪的方式,逐步从噪声中恢复出清晰的视频帧。在每个U-Net块之后,插入了运动块(Motion Block),以增强视频的时间一致性和运动真实性。
    2. 视频控制网络(Video ControlNet):该网络专门负责控制视频中人物的运动。它作为一个插件模块,与去噪U-Net结合使用,通过处理姿势或深度序列来控制人物的动作。Video ControlNet使得生成的视频能够根据输入的控制序列展现出精确的运动模式。
    3. 内容引导器(Content Guider):内容引导器的目的是保持视频中人物的身份特征,如面部和服装。它使用图像编码器来精确地引导人物的外观,同时结合文本提示来生成背景内容。内容引导器通过交叉注意力机制,将输入的文本提示和图像特征结合起来,生成具有特定身份特征的视频内容。

    这三个网络协同工作,使得DreaMoving能够生成既具有个性化身份特征又具有精确运动控制的高质量人类视频。此外,DreaMoving的架构设计使其易于使用和适配,能够与多种风格化的扩散模型结合,以产生多样化的视频生成结果。

    DreaMoving的应用场景

    • 电影和电视制作:在影视制作中,DreaMoving可以用来创建复杂的动作场景,特别是当需要特定人物表演或舞蹈动作时。它可以帮助制作团队在预算和时间有限的情况下,快速生成高质量的视频内容。
    • 游戏开发:游戏设计师可以利用DreaMoving生成逼真的角色动画,为玩家提供更加丰富和真实的游戏体验。这在角色扮演游戏或动作游戏中尤为重要,可以增强游戏的沉浸感。
    • 个性化视频创作:内容创作者可以使用DreaMoving制作个性化视频,例如社交媒体上的舞蹈挑战、模仿秀或其他创意视频。用户可以通过简单的文本或图像输入,快速生成具有个人特色的视频内容。
    • 广告和营销:营销人员可以使用DreaMoving制作吸引人的广告视频,通过定制化的人物动作和场景来吸引目标受众,提高广告的传播效果和品牌认知度。
  • Archetype AI获1300万美元种子轮融资,打造理解物理世界的基础模型

    Archetype AI

    2024年4月5日,总部位于美国的加利福尼亚州帕洛阿尔托的开发理解物理世界的AI基础模型初创公司 Archetype AI 宣布筹集了 1300 万美元的种子资金。本轮融资由 Venrock 领投,亚马逊工业创新基金、Hitachi Ventures、Buckley Ventures、Plug and Play Ventures 和几位天使投资人跟投。

    Archetype AI 由 Ivan Poupyrev、Brandon Barbello、Leonardo Giusti、Jaime Lien 和 Nicholas Gillian 于 2023 年联合创立,推出一种理解物理世界的基础模型Newton,可将多模态时态数据(包括来自加速度计、陀螺仪、雷达、摄像头、麦克风、温度计和其他环境传感器的信号)与自然语言相结合,以实时解锁有关物理世界的见解。

    Archetype AI 的早期客户包括英飞凌和财富全球 500 强品牌,涉及汽车、消费电子、建筑、物流和零售等领域,Archetype AI 的技术允许任何用户提出有关物理环境的开放式问题并采取进一步行动。

    (消息来源:BusinessWire

  • AI芯片初创公司SiMa.ai获7000万美元新一轮融资

    Sima.ai

    2024年4月4日,总部位于美国圣何塞的边缘AI芯片初创公司 SiMa.ai 宣布筹集了7000 万美元的新一轮融资,本轮融资由 Maverick Capital 领投, Point72 和 Jericho 以及现有投资者 Amplify Partners、Fidelity Management、Dell Technologies Capital、Lip-Bu Tan 等参投。

    该公司计划将筹集的资金用于加速其下一代人工智能/机器学习芯片的发布。

    SiMa.ai 成立于 2018 年,是一家以软件为中心的嵌入式边缘机器学习片上系统(MLSoC)公司,为工业制造、零售、航空航天、国防、农业和医疗健康等领域的组织提供边缘 AI SoC。SiMa.ai 的硬件到软件堆栈可在一个平台上灵活调整以适应任何框架、网络、模型、传感器或模态(音频、语音、文本、图像等)。

    (消息来源:TechCrunch

  • AI视频创作初创公司Higgsfield AI获800万美元种子轮融资

    Higgsfield AI

    2024年4月3日,总部位于美国旧金山的AI视频生成初创公司 Higgsfield AI 宣布筹集了 800 万美元的种子轮融资,由 Menlo Ventures 领投。该公司目前已推出了 Diffuse APP 使用户能够通过单张自拍照创建高度个性化和逼真的人物角色,从而为视频内容提供了新的参与度和创造力。

    Higgsfield AI 由 Snap 前生成式AI主管 Alex Mashrabov 创立,该公司主要专注于社交媒体视频创作方向,通过利用生成式人工智能,使用户能够轻松、精确地将他们的创意愿景变为现实。该公司已经在印度、南非、菲律宾、加拿大和中亚等特定市场推出了其首款移动应用程序 Diffuse,并计划逐步在全球推广。

    (消息来源:BusinessWire

  • AI安全平台TrojAI获575万美元种子轮融资

    TrojAI

    2024年4月3日,总部位于加拿大新不伦瑞克省的AI安全解决方案初创公司 TrojAI 宣布筹集了575万美元的种子资金,本轮融资由 Flying Fish 领投,现有投资者 Build Ventures 和 Techstars 以及新投资者 Alteryx Ventures 和 Flybridge Capital Partners 参投。

    该公司计划利用筹集的资金扩大业务,并加强其产品开发、销售和营销力度。

    TrojAI 成立于 2019 年,由首席执行官 Lee Weiner 和首席技术官 James Stewart 领导,提供全面的 AI 安全平台来保护 AI/ML 应用程序和基础设施,使企业能够利用其防火墙保护应用程序免受实时威胁。部署前提供的渗透测试模型和补救指导进一步降低了风险。

    (消息来源:PR Newswire

  • 泰国AI医疗初创公司HD获560万美元A轮融资

    泰国HD

    2024年4月3日,总部位于泰国曼谷的 AI 医疗初创公司 HD 宣布筹集了560万美元的 A 轮融资,本轮融资由日本金融巨头 SBI 集团旗下子公司 SBI Ven Capital 领投,M Venture Partners、FEBE Ventures、Partech Partners、Ratio Ventures、Orvel Ventures 和 TA Ventures 参投。

    该公司计划利用筹集的资金在 3 个月内为东南亚市场推出聊天机器人,并在今年年底前开放该技术供第三方使用。

    HD 成立于 2019 年,正在开发一款专注于医疗领域的人工智能对话聊天机器人,可以处理常规的客户问题,使员工能够处理复杂的问题,同时帮助确保全天候提供客户服务。该初创公司已与亚洲约 2000 家医疗保健提供商合作,以针对医疗保健领域微调其基础的语言模型。

    (消息来源:Tech in Asia

  • SWE-agent – 普林斯顿开源的AI程序员智能体

    SWE-agent是什么

    SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub存储库中的问题。SWE-agent通过智能体-计算机接口(ACI)与代码库交互,能够执行代码的浏览、编辑、测试和执行等任务。该系统在SWE-bench测试集上展现出与闭源AI程序员Devin相似的准确度,平均93秒解决一个问题,实现了SOTA 性能。

    在25%的SWE-bench测试集上,SWE-agent 实现了与 Devin 相似的准确度—— 解决了12.29%的问题。SWE-agent目前已在GitHub上开源,研究论文将于4月10日发布。

    SWE-agent

    SWE-agent的官网入口

    SWE-agent的主要功能

    • Pull Request问题解决:SWE-agent能够理解GitHub存储库中的问题,并尝试通过创建拉取请求(pull request)来修复这些问题。
    • 代码编辑与修复:SWE-agent能够浏览和编辑代码库中的文件,自动修复代码中的错误和漏洞。
    • 自动语法检查:在代码编辑过程中,SWE-agent可以运行linter(代码检查工具),确保代码符合语法规范。
    • 文件查看器:提供了一个专门构建的文件查看器,能够在每轮显示100行代码,支持上下滚动和搜索功能,以便更有效地查看和编辑代码。
    • 全目录字符串搜索:SWE-agent具备全目录字符串搜索功能,能够简洁地列出所有匹配搜索条件的文件和代码片段。
    • 命令与反馈:通过智能体-计算机接口(ACI),SWE-agent能够接收和执行以自然语言形式给出的命令,并提供相应的反馈。
    • 测试编写与执行:SWE-agent能够编写并执行测试代码,验证修复的有效性。

    SWE-agent Demo

    SWE-agent的工作流程

    • 理解问题:首先,SWE-agent通过自然语言处理(NLP)技术理解GitHub存储库中的问题描述。这一步骤依赖于其内部集成的大型语言模型(如GPT-4),该模型能够解析和理解人类编写的问题报告。
    • 智能体-计算机接口(ACI):SWE-agent使用ACI与代码库进行交互。ACI是一套设计用来简化大模型与计算机系统交互的命令和反馈格式。通过ACI,SWE-agent可以浏览代码库、搜索文件、查看和编辑代码,甚至执行代码。
    • 代码分析与修复:在理解了问题之后,SWE-agent会分析相关的代码,定位可能的错误或漏洞,并生成修复方案。这可能包括修改现有代码、添加缺失的代码或者重构代码结构。
    • 自动化测试:为了确保修复有效,SWE-agent能够自动编写和执行测试用例。这些测试用例旨在验证代码更改是否解决了原始问题,并且没有引入新的错误。
    • 性能反馈:SWE-agent执行的每一步操作都会产生反馈,这些反馈用于评估其工作的效果。特别是在SWE-bench基准测试中,SWE-agent会评估其生成的拉取请求是否真正解决了问题。
    • 迭代与优化:SWE-agent的设计允许不断的迭代和优化。研究团队通过收集使用中的反馈和性能数据,不断改进ACI设计,提高SWE-agent的问题解决能力和代码修复的准确性。