Category: AI项目和框架

  • SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术

    SmartEraser是什么

    SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创新的“掩码区域引导”(Masked-Region Guidance)范式,与传统的“掩码和修复”(mask-and-inpaint)方法不同,SmartEraser保留掩码区域作为移除过程的引导,能更准确地识别和移除目标对象,同时有效保留周围上下文。SmartEraser基于Syn4Removal大规模高质量数据集进行训练,引入掩码增强技术和基于CLIP的视觉引导,SmartEraser在对象移除任务中展现出卓越的性能。

    SmartEraser

    SmartEraser的主要功能

    • 目标对象识别与移除:准确识别用户基于掩码指定的目标对象,将其从图像中移除。
    • 上下文保留:在移除目标对象的同时,保留周围环境的细节和结构,确保图像的视觉连贯性。
    • 高质量图像生成:生成的图像在视觉上与原始图像保持一致,没有明显的失真或 artifacts。
    • 鲁棒性:对用户提供的不同形状和大小的掩码具有较高的鲁棒性,适应各种输入条件。
    • 适用于复杂场景:在复杂的场景中,如包含多个对象和复杂背景的图像中,有效地移除目标对象。

    SmartEraser的技术原理

    • 掩码区域引导范式
      • 保留掩码区域:与传统的“掩码和修复”方法不同,SmartEraser保留掩码区域在输入中的位置,将其作为移除过程的引导。模型能准确识别需要移除的对象,减少在掩码区域重新生成对象的风险。
      • 上下文信息:用户定义的掩码通常会超出目标对象本身,有助于模型在最终结果中保留周围上下文,使生成的图像更加自然和真实。
    • Syn4Removal数据集
      • 合成数据生成:训练符合新范式的模型,用合成方法构建训练数据。该方法涉及将不同图像中的对象实例粘贴到不同的背景图像上,形成输入图像。粘贴对象的掩码作为输入掩码,原始背景图像作为真实值。
      • 大规模数据集:Syn4Removal数据集包含100万对图像三元组,涵盖多样的场景和对象类型,为模型训练提供丰富的数据支持。
    • 基于文本到图像扩散模型的框架
      • 掩码增强:为增强模型对用户输入不同掩码形状的鲁棒性,在训练过程中应用多种掩码变形方法,模拟用户输入掩码的形状。这些方法包括原始掩码、腐蚀掩码、膨胀掩码、凸包掩码、椭圆掩码和边界框与贝塞尔曲线掩码。
      • 基于CLIP的视觉引导:用预训练的CLIP模型提取移除目标的视觉特征,映射到文本编码器的特征空间中。
      • 损失函数:模型的训练损失函数基于标准的扩散过程,最小化预测噪声和实际噪声之间的差异优化模型参数。

    SmartEraser的项目地址

    SmartEraser的应用场景

    • 个人照片编辑:用在移除旅游照片中的路人、家庭照片中的不希望出现的人物或物体,及清理证件照和社交媒体头像的背景。
    • 专业图像处理:在广告和营销中,移除产品摄影中的干扰元素,优化广告设计的背景。
    • 平面设计:协助平面设计师在海报和封面设计中突出焦点,移除不必要的背景元素。
    • 文物修复:在文物修复中,如古画修复,移除污渍和破损。
    • 医疗和科研:在医学影像处理中,如X光和CT图像,移除设备伪影和标记;在科研图像处理中,如显微镜和卫星图像,清理背景噪声和干扰,提高图像分析价值。
  • SHMT – 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术

    SHMT是什么

    SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学等机构联合研发的先进自监督化妆转移技术。技术通过潜在扩散模型实现,能在无需成对训练数据的情况下,将各种化妆风格自然地应用到目标面部图像上。SHMT采用“解耦-重建”策略,结合拉普拉斯金字塔和迭代双重对齐模块,实现了对不同化妆风格下纹理细节的灵活控制和对齐误差的动态校正,显著提升了化妆转移的效果和保真度。主要优点在于能处理复杂的面部特征和表情变化,提供高质量的迁移效果。

    SHMT的主要功能

    • 高效迁移:在处理多种化妆风格时保持高效和高质量,能将多样化的妆容风格自然且精准地应用于给定的面部图像。
    • 动态对齐校正:通过迭代双重对齐(IDA)模块,在每个去噪步骤中动态调整注入条件,纠正由内容和化妆表示之间的域间隙引起的对齐错误。
    • 多样化应用:适用于图像处理、风格迁移、计算机视觉等多个领域,如电商平台的线上试妆等。

    SHMT的技术原理

    • 自监督学习:SHMT采用自监督策略进行模型训练,遵循“解耦-重建”范式,不依赖质量欠佳的伪造参考数据,避免了错误指导模型的问题。通过解耦和重构的方式,使模型能在没有标注数据的情况下进行有效学习。
    • 层次化纹理细节处理:该技术将化妆过程分解为多个层次,包括底妆、眼妆、唇妆等。不同妆容细节通过拉普拉斯金字塔的方法分层分解,再选择性地融入到人脸的内容表示中,这样能更灵活地适应各种妆容风格。
    • 动态校正对齐误差:通过迭代双重对齐模块(IDA),动态调整扩散模型中的妆容注入过程,逐步修正人脸内容和妆容风格之间的“对不上”的问题。在每个去噪步骤中,IDA利用噪声中间结果,动态调整注入条件,修正对齐误差。

    SHMT的项目地址

    SHMT的应用场景

    • 社交媒体美容滤镜:SHMT可以应用于社交媒体平台,为用户提供实时的美容滤镜效果,让用户在发布照片前预览不同的化妆风格。增加了用户的互动性和趣味性,提升平台的用户体验。
    • 虚拟试妆应用:在电子商务领域,SHMT技术可以集成到虚拟试妆应用中,让顾客在线上试戴各种化妆品,提高购物体验。用户可以通过上传自己的照片,选择不同的妆容风格,实时预览效果。
    • 电影和游戏角色设计:在娱乐产业,SHMT可以用于快速更换或设计电影和游戏中角色的妆容,提高制作效率。这不仅节省了时间和成本,还能为角色设计提供更多的创意和灵活性。
    • 个性化广告制作:广告行业可以用SHMT技术,根据目标受众的偏好定制模特的妆容,使广告更加吸引人。通过个性化的妆容设计,广告能更好地吸引目标受众,提高广告的转化率。
  • AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架

    AnyStory是什么

    AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段,AnyStory结合强大的ReferenceNet和CLIP视觉编码器,对主体特征进行高保真度的编码,捕捉丰富的细节和语义信息。ReferenceNet支持高分辨率输入,与去噪U-Net的特征空间对齐,为生成图像提供坚实的细节基础;CLIP视觉编码器则负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。在路由阶段,解耦的实例感知主体路由器能准确感知并预测主体在潜在空间中的位置,引导主体条件的注入,有效避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。

    AnyStory的主要功能

    • 高保真度单主体个性化:AnyStory能生成具有特定主体的高保真度图像,捕捉到丰富的细节和语义信息,使生成的图像与文本描述紧密对齐。
    • 多主体个性化:在涉及多个主体的场景中,AnyStory能准确地感知和预测每个主体在潜在空间中的位置,引导主体条件的注入,避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。
    • 文本描述对齐:AnyStory确保生成的图像与文本描述紧密对齐,通过CLIP视觉编码器提取主体的粗略概念,确保生成的图像与文本描述的一致性。
    • 细节保留:基于ReferenceNet,AnyStory能保留主体的精细细节,提供高质量的图像生成支持。
    • 灵活的主体条件注入:通过解耦的实例感知主体路由器,AnyStory能灵活地将主体条件注入到潜在空间中,实现对生成图像的精确控制。

    AnyStory的技术原理

    • 编码阶段
      • ReferenceNet:是通用且强大的图像编码器,支持高分辨率输入,能提取主体的精细细节。ReferenceNet的特征空间与去噪U-Net对齐,便于U-Net直接提取不同深度和尺度的主体特征。ReferenceNet通过变分自动编码器(VAE)对参考图像进行编码,然后通过一个与U-Net相同架构的网络提取其特征。
      • CLIP视觉编码器:CLIP视觉编码器负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。CLIP的特征主要是语义的,虽然分辨率较低,能提供与文本嵌入良好对齐的特征,触发主体生成。
    • 路由阶段
      • 解耦路由机制:通过独立分支预测主体在潜在空间中的位置。给定一系列分割后的主体图像,分别通过CLIP图像编码器和一个额外的单查询QFormer获取路由特征。这些特征通过图像分割解码器建模路由器,生成粗略的路由图,再通过掩码交叉注意力模块细化路由图,最终用于指导主体信息的注入。
      • 实例感知路由正则化损失:为了促进路由器学习并区分不同主体实例,引入了实例感知路由正则化损失。这一损失函数确保路由器能准确地将主体特征路由到相应区域,减少对无关区域的影响。
      • 路由引导的主体信息注入:对于CLIP编码的主体表示,使用解耦交叉注意力将它们整合到U-Net中,增加路由引导的定位约束。对于ReferenceNet编码的主体特征,采用原始的参考注意力,增加由路由图引起的注意力掩码,确保主体特征准确注入到目标区域。
    • 训练阶段
      • 主体编码器训练:训练主体QFormer、ReferenceNet以及注意力块中相应的键、值矩阵。使用预训练的U-Net权重初始化ReferenceNet,收集大量保持主体身份一致但在背景、姿势和视角上显示变化的配对数据进行训练,防止主体过拟合。
      • 路由器训练:固定主体编码器,训练路由器。主要训练数据包括额外的未配对多人图像,路由器能够有效地泛化到一般主体,归因于CLIP模型的强大泛化能力和高度压缩的单令牌路由特征。

    AnyStory的项目地址

    AnyStory的应用场景

    • 创意绘画:艺术家可以用AnyStory将脑海中的创意转化为视觉作品。为特定的客户定制个性化的肖像,AnyStory能提供高质量的图像生成支持,缩短创作周期。
    • 概念设计:在设计初期,AnyStory可以帮助艺术家和设计师快速生成概念图,为后续的详细设计提供参考。
    • 角色概念图:游戏设计师可以用AnyStory根据游戏背景故事和角色设定,快速生成多个角色的概念图。
    • 漫画创作:为漫画创作者提供快速生成角色和场景的工具,加速创作过程,提高作品的视觉效果。
    • 个性化广告:根据不同的目标受众和营销主题,快速生成包含特定产品或品牌元素的图像,提高广告的吸引力和效果。
  • Uni-AdaFocus – 清华大学推出通用的高效视频理解框架

    Uni-AdaFocus是什么

    Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频内容的高效处理。具体而言,Uni-AdaFocus能根据视频帧的重要性进行智能筛选,优先处理包含关键信息的帧,对其他帧则采用简化处理或跳过处理,大幅减少了不必要的计算开销。

    Uni-AdaFocus的主要功能

    • 降低时间冗余性:能动态定位和聚焦于任务相关的关键视频帧,将计算资源集中在这些关键帧上,避免对所有帧进行同等处理,减少时间维度上的冗余计算,提高处理效率。
    • 降低空间冗余性:在每一帧视频中,只有一部分空间区域与任务相关。Uni-AdaFocus可以动态定位和聚焦于视频帧中的任务相关空间区域,仅对这些区域进行重点处理,降低空间冗余,进一步提升效率。
    • 降低样本冗余性:将计算资源更多地分配给更为困难的样本,在不同样本间差异化分配计算资源,对于相对“容易”的视频则减少计算投入,实现样本维度的冗余性建模,提升整体处理效果。
    • 高效端到端训练:使用一些数学方法处理了时空动态计算不可微分的问题,可以方便地进行高效端到端训练,无需强化学习等更为复杂的方法。
    • 兼容性强:兼容多种现成的高效骨干网络,如TSM和X3D,能够显著提升这些骨干网络的推理效率。
    • 推理成本可灵活调整:Uni-AdaFocus的推理成本可以在线调整,无需额外训练,通过修改样本条件计算的标准即可,能充分利用不稳定的计算资源,或灵活地以最小功耗达到期望的性能水平。

    Uni-AdaFocus的技术原理

    • 全局编码器:使用轻量化的特征提取网络(如MobileNet-V2等)对均匀采样的视频帧进行粗略处理,获取视频整体的时空分布信息,即全局特征。
    • 策略网络:基于全局编码器提取的全局特征,自适应地采样关键帧以及其中的关键区域,得到值得关注的patches。patch的形状和大小根据视频帧的具体特性自适应地决定。
    • 局部编码器:参数量大、准确率高的大容量神经网络,仅处理策略网络选择出的patches,即局部特征。
    • 分类器:逐帧聚合全局特征和局部特征以得到最优的视频理解结果,同时通过早退机制实现对样本维度计算冗余性的建模。

    Uni-AdaFocus的项目地址

    Uni-AdaFocus的应用场景

    • 视频推荐系统:Uni-AdaFocus能通过高效识别视频内容中的关键信息,为用户提供更加个性化的推荐服务。
    • 视频监控与安全预警:通过实时监测视频流中的异常行为和突发事件,Uni-AdaFocus能快速响应并发出警报,帮助相关部门及时采取措施。
    • 智能编辑与创作:对于视频创作者来说,能自动识别视频中的关键场景和精彩瞬间,帮助创作者快速完成剪辑和后期制作。
    • 教育与培训:Uni-AdaFocus可以准确捕捉教师的教学动作和学生的学习反应,提升教学质量和学习效果。
    • 健康医疗:使用脑部磁共振成像(MRI)诊断阿尔兹海默症和帕金森综合征时,Uni-AdaFocus可以高效地识别和分析MRI图像中的关键特征,辅助医生进行更准确的诊断。
  • T2A-01-HD – 海螺AI海外版推出新的语音模型

    T2A-01-HD是什么

    T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。T2A-01-HD支持17种以上语言,能自然呈现地区特色口音。用户通过高级参数控制自定义音调、速度和情感基调,添加专业效果,打造录音室级输出。

    T2A-01-HD的主要功能

    • 语音克隆:只需输入10秒的音频,能精准克隆出该声音,保留每一个细微差别和情感底色,高度还原说话者的音色和语调等特征,让用户轻松获得与原声高度相似的语音效果。
    • 智能情感系统:能捕捉并复制语音中微妙的情感细微差别,使生成的语音不再是单调生硬的机械声,具有丰富情感色彩的生动语音,让语音表达更具感染力。
    • 情绪控制方式:用户可以选择自动情绪检测,模型会根据文本内容自动匹配相应的情感表达;也可以手动控制情绪,用户可根据自身需求精准调整语音的情感基调,以实现完美表达。
    • 多语言支持:支持17种以上的语言,涵盖英语(美国、英国、澳大利亚、印度)、中文(普通话和粤语)、日语、韩语、法语、德语、西班牙语、葡萄牙语(包括巴西葡萄牙语)、意大利语、阿拉伯语、俄语、土耳其语、荷兰语、乌克兰语、越南语和印尼语等,这些语言的口音自然,能反映出地道的地区性特色,满足不同用户在多语言场景下的语音合成需求。
    • 预建声音库:提供按语言、性别、口音、年龄和风格分类的300多个预建声音库,用户可根据自己的喜好和需求快速选择合适的声音模板,为语音合成提供丰富的基础素材。
    • 高级参数控制:用户可以自定义音调、速度和情感基调等参数,对声音进行细致调整,获得更具个性和动态效果的语音。
    • 专业效果添加:支持添加室内声学和电话滤波器等专业效果,模拟不同的录音环境和传输方式,进一步提升语音的真实感和专业度,用户能轻松打造出录音室级的语音效果。

    如何使用T2A-01-HD

    • 访问官网:访问海螺AI海外版官网
    • 进入音频页面:登录后,找到并进入音频相关页面。
    • 选择模型:在音频页面右上角,可以看到模型选择选项,选择“T2A-01-HD”模型。
    • 准备音频:准备好一段10秒左右的音频,该音频将用于克隆声音。
    • 上传音频:按照页面提示,将音频文件上传至平台。
    • 等待克隆:上传完成后,等待模型对声音进行克隆,克隆后的声音会保留原音频的细微差别和情感底色。

    T2A-01-HD的应用场景

    • 有声读物制作:可以将文本内容快速转换为高质量的语音,生成有声读物,支持多语言和情感控制,让听众获得更好的听觉体验。
    • 影视配音:用语音克隆功能,为影视作品中的角色配音,只需少量原声样本就能克隆出相似的声音,且能通过情感控制使配音更贴合角色情绪。
    • 在线教育课程:为在线教育平台生成课程讲解语音,支持多种语言,方便不同地区的学生学习,能根据教学内容调整情感和语速,提高教学效果。
    • 语言学习:提供多语言支持,帮助学习者练习发音和听力,通过情感控制模拟不同语境下的语言表达,增强语言学习的趣味性和实用性。
    • 语音助手定制:用户可以根据自己的声音或喜欢的声音,定制个性化的语音助手,通过情感控制和音效定制,让语音助手更符合个人喜好。
    • 社交媒体内容创作:为社交媒体平台创作音频内容,如语音博客、音频故事等,用多语言和情感控制功能,吸引更广泛的听众。
  • OmAgent – Om AI联合浙大开源的多模态语言代理框架

    OmAgent是什么

    OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可重用的代理组件,助力开发者构建复杂的多模态代理,处理文本、图像、视频和音频等多种输入形式。OmAgent赋能各种硬件设备,如智能手机、智能可穿戴设备、IP摄像头等,基于抽象不同设备类型,简化连接到先进多模态模型和算法的过程。OmAgent优化了计算流程,提供实时交互体验,具备易连接多样设备、集成前沿多模态模型、支持复杂问题解决算法等关键特点,提供直观的接口构建可扩展的代理,适应各种应用需求。

    OmAgent

    OmAgent的主要功能

    • 多设备连接:OmAgent让连接物理设备变得非常简单,比如手机、眼镜等,能构建直接在设备上运行的应用,提供智能手机应用和对应的后端,用户无需担心复杂的设备连接问题,可以专注于代理功能的开发。
    • 高效模型集成:集成SOTA模型整合最先进的商业和开源基础模型,为应用开发者提供了最强大的智能支持。
    • 提供算法实现接口:为研究人员和开发者提供易于使用的流程编排接口,方便他们实现最新的代理算法,如ReAct、DnC等。让OmAgent能够支持更复杂的任务和问题解决,拓展代理的功能边界。

    OmAgent的技术原理

    • 视频预处理与存储
      • 场景检测:将视频分割成独立的视频块,记录每个块的开始和结束时间戳,并从中均匀采样帧。
      • 视觉提示:用面部识别等算法标注视频帧,提供额外的视觉信息。
      • 音频文本表示:基于ASR算法将视频中的语音转换为文本,并区分不同的说话者。
      • 场景描述:用MLLMs生成每个视频段的详细描述,包括时间、地点、人物、事件等信息。
      • 编码和存储:将生成的场景描述向量化并存储在知识数据库中,同时保存原始文本和时间戳信息。
    • 分治循环(DnC Loop)
      • 任务分解:将复杂任务递归分解为可执行的子任务,直到子任务足够简单直接处理。
      • 工具调用:在处理过程中,根据需要调用外部工具(如视频回放工具“rewinder”)补充信息,解决信息丢失问题。
      • 任务执行:基于递归树结构存储任务执行路径,确保任务的顺利执行和结果的合并。
    • 工具调用机制
      • 自主调用:根据任务信息自主生成工具调用请求参数,调用外部工具(如互联网搜索、面部识别、文件处理等)完成复杂任务。
      • 视频回放工具:特别提供“rewinder”工具,在需要时回放特定时间段的视频,提取详细信息。
    • 查询处理与检索
      • 时间戳提取:从查询中提取时间信息,用在过滤检索结果。
      • 文本编码与检索:将查询文本编码为嵌入向量,用在从知识数据库中检索相关的视频段信息。
      • 任务传递:将检索到的视频段信息和原始任务传递给DnC Loop进行处理。
    • 结果合成与输出
      • 子任务执行:DnC Loop递归执行子任务,处理复杂任务,在必要时调用工具补充信息。
      • 结果合成:将所有子任务的执行结果合成最终答案,基于专门的节点输出最终结果。

    OmAgent的项目官网

    OmAgent的应用场景

    • 视频监控:实时分析监控视频,检测异常事件并发出警报,提高安全性和响应速度。
    • 内容推荐:为用户推荐个性化视频内容,结合多模态信息提供更全面的推荐。
    • 教育:解析教育视频,生成总结和笔记,通过互动学习提升用户体验。
    • 娱乐与影视:分析影视内容,提供剧情总结和角色介绍,增强观众的观影体验。
    • 智能客服与支持:通过自然语言查询视频内容,提供详细答案和多模态交互服务。
  • Seaweed APT – 字节跳动推出的单步图像和视频生成项目

    Seaweed APT是什么

    Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。Seaweed APT基于预训练的扩散模型,直接对真实数据进行对抗性训练,而非用预训练模型作为教师来生成目标,在单步生成中实现高质量的图像和视频输出。Seaweed APT引入多项改进,包括确定性蒸馏初始化的生成器、增强的判别器架构及近似R1正则化目标,提高训练的稳定性和生成质量。实验表明,Seaweed APT能在单步中生成1024px的图像和2秒、1280×720、24fps的视频,且在视觉保真度上超越传统的多步扩散模型。

    Seaweed APT

    Seaweed APT的主要功能

    • 单步高质量图像生成:能生成 1024px 分辨率的图像,且在视觉保真度、细节和结构完整性方面与多步扩散模型相当。
    • 单步高分辨率视频生成:首次实现 1280×720、24fps、2 秒长的视频生成,显著提高视频生成的效率和质量。
    • 实时生成能力:在单个 H100 GPU 上,Seaweed APT 能在 6.03 秒内生成一个 2 秒的 1280×720 24fps 视频,基于 8 个 H100 GPU 并行化,整个生成过程实现实时处理。
    • 超越预训练模型:直接在真实数据上进行对抗性训练,Seaweed APT 避免预计算视频样本的高昂成本,在某些评估标准上超越预训练的扩散模型,特别是在真实感、细节和曝光问题上。

    Seaweed APT的技术原理

    • 预训练扩散模型初始化:用预训练的扩散变换器(DiT)作为初始化,避免预计算视频样本的高昂成本,且在某些评估标准上超越预训练模型。
    • 对抗性训练:基于对抗性训练目标对真实数据进行训练,直接在真实数据上进行训练,生成更接近真实分布的样本,提高生成质量和真实感。
    • 生成器设计:采用确定性蒸馏初始化生成器,用离散时间一致性蒸馏(discrete-time consistency distillation)和均方误差损失进行初始化。生成器在训练过程中主要关注单步生成能力,始终输入最终时间步 T。
    • 判别器设计:判别器用预训练的扩散网络进行初始化,在潜空间中直接操作。判别器包含 36 层 Transformer 块,总参数量为 80 亿。基于在多个时间步引入新的交叉注意力块,判别器能更好地区分真实样本和生成样本。
    • 近似 R1 正则化:为解决大规模 Transformer 模型中 R1 正则化的高阶梯度计算问题,推出一种近似方法。在真实数据上添加小方差的高斯噪声,减少判别器在真实数据上的梯度,实现与原始 R1 正则化一致的目标。
    • 训练细节:首先在图像上进行训练,然后在视频上进行训练。用大量的 H100 GPU 和梯度累积达到较大的批量大小,提高训练的稳定性和结构完整性。采用指数移动平均(EMA)衰减率来稳定训练过程,在训练过程中调整学习率确保训练的稳定性。

    Seaweed APT的项目地址

    Seaweed APT的应用场景

    • 视频广告制作:快速生成高质量、风格多样的视频广告,减少制作成本和时间。
    • 影视内容创作:为电影和电视剧生成特定风格的视频片段,提升创作效率和内容多样性。
    • 社交媒体内容:生成个性化、高质量的视频和图像,增强用户参与度和内容吸引力。
    • 游戏开发:快速生成游戏中的角色、场景和道具图像,加速游戏开发流程。
    • 教育与培训:生成教育视频和培训材料,提高教学效果和培训质量。
  • XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

    XMusic是什么

    XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和序列建模技术,可将提示词内容解析至符号音乐要素空间,以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。XMusic适用于视频剪辑配乐、商超会场环境音乐选择以及互动娱乐、辅助创作、音乐教育、音乐治疗等诸多场景,能大幅降低音乐创作门槛,随时随地实现AI辅助创作,打造个人专属的“行走的音乐库”。

    XMusic的主要功能

    • 多模态输入生成音乐:支持图片、文字、视频、标签、哼唱等多种模态内容作为提示词,生成情感可控的高质量音乐。例如输入“逗趣横生,让人捧腹大笑”的描述,XMusic就会生成一段节奏俏皮、旋律欢快的音乐。
    • 情绪、曲风、节奏可控:用户可以根据自己的需求,生成具有特定情绪、曲风、节奏的音乐,满足不同场景下的音乐使用需求。
    • 商用级音乐生成能力:基于自研的多模态和序列建模技术,XMusic可以将提示词内容解析至符号音乐要素空间,并以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。

    XMusic的技术原理

    • 核心框架:基于本地化部署的Transformers算法框架,该框架具有强大的自然语言处理能力和跨模态学习能力,为音乐生成提供了坚实基础。
    • 核心组件
      • XProjector:将各种形式的提示(如图像、视频、文本、标签和哼唱)解析为符号音乐元素(如情感、流派、节奏和音符)在投影空间内生成匹配的音乐。
      • XComposer:包含生成器和选择器。生成器基于创新的符号音乐表示生成可控制情感且旋律优美的音乐;选择器通过构建涉及质量评估、情感识别和流派识别任务的多任务学习方案来识别高质量的符号音乐。
    • 运行机制:分为解析、生成、筛选三个阶段。解析阶段基于自然语言处理和图像识别技术,对用户输入的提示词进行分析并映射至符号音乐要素投影空间;生成阶段,生成器将音乐要素映射至符号音乐表征序列,解码器根据这些表征序列生成匹配的音乐旋律和节奏;筛选阶段,筛选器对生成的批量音乐进行质量评估,筛选出质量最高、最符合用户需求的音乐。

    XMusic的的项目地址

    XMusic的的应用场景

    • 互动娱乐:在互动娱乐场景中,可根据用户的互动行为或输入生成相应的音乐,增强互动体验。
    • 辅助创作:为音乐创作者提供灵感和辅助,帮助其快速生成音乐素材,提高创作效率。
    • 音乐教育:音乐课的老师可使用XMusic生成多样的节拍、节奏、音高练习曲目,并结合实际教学场景,发挥AI生成音乐的教学辅助能力。
    • 音乐治疗:根据治疗需求生成相应的音乐,辅助音乐治疗过程。
  • MatterGen – 微软推出的无机材料生成模型

    MatterGen是什么

    MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多样化的无机材料。MatterGen能被微调,满足广泛的性能约束,如化学组成、对称性、磁性、电子和机械性能等。与以往的材料生成模型相比,MatterGen在生成稳定、独特且新颖的材料方面表现出色,其生成的结构更接近DFT局部能量最小值。MatterGen能在给定的DFT属性计算预算内,找到更多满足极端性能约束的材料。

    MatterGen

    MatterGen的主要功能

    • 生成稳定、多样化的无机材料:跨越周期表生成各种无机材料,且生成的材料具有较高的稳定性、独特性和新颖性。
    • 满足广泛性能约束:基于微调,生成满足特定化学组成、对称性、磁性、电子和机械性能等约束条件的材料,如高磁性密度的磁性材料、特定带隙的半导体材料、高体模量的超硬材料等。
    • 逆向材料设计:直接根据目标性能约束生成材料结构,突破传统基于已知材料筛选方法的限制,大大提高寻找新型材料的效率。

    MatterGen的技术原理

    • 扩散模型:基于扩散模型生成晶体材料。扩散模型基于逆转固定的破坏过程生成样本,该过程用学习到的分数网络实现。对于晶体材料,定义考虑其独特周期结构和对称性的定制化扩散过程,分别对原子类型、坐标和周期晶格进行破坏和去噪。
    • 分数网络:预训练等变分数网络,在大型稳定材料结构数据集上联合去噪原子类型、坐标和晶格。分数网络输出等变分数,用在去除噪声,无需从数据中学习对称性。
    • 适配器模块:引入适配器模块,在具有性能标签的额外数据集上对分数模型进行微调。适配器模块是注入基础模型每一层的可调组件,能根据给定的性能标签改变模型输出,实现对目标性能约束的引导生成。
    • 数据集:用大型多样化数据集Alex-MP-20进行预训练,该数据集包含从Materials Project和Alexandria数据集中重新计算的607,683个稳定结构。

    MatterGen的项目地址

    MatterGen的应用场景

    • 能源存储:用在设计新型电池材料,如高比容量的锂离子电池正极材料和高性能的固态电解质,提高电池的能量密度和功率密度。
    • 催化:开发高选择性催化剂,用在石油化工和精细化工中的特定化学品合成,及环境催化中的汽车尾气处理,提高反应效率和环境友好性。
    • 碳捕获:设计高效吸附二氧化碳的材料和将二氧化碳转化为有用化学品的催化材料,实现碳的循环利用,助力环境保护。
    • 电子材料:研发新型半导体材料和高性能磁性材料,用在制造高性能的电子器件,推动电子技术的发展。
    • 超硬材料:开发用在切削工具和耐磨涂层的超硬材料,提高机械部件的耐磨性和抗腐蚀性,应用于航空航天、汽车等领域。
  • ParGo – 字节与中山大学联合推出的多模态大模型连接器

    ParGo是什么

    ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

    ParGo的主要功能

    • 高效连接视觉与语言模态:ParGo采用全局+局部视角联合的方式,通过Partial-Global Perception Block(PGP)和Cascaded Partial Perception Block(CPP)两个关键模块,将视觉特征映射为Partial token和Global token,分别提取图像的局部和全局信息,实现了视觉特征和大语言模型(LLM)的高效连接,克服了传统方法对显著区域的过度聚焦问题。
    • 提升多模态大语言模型效果:在多个MLLM基准测试中表现出色,如在MME基准测试中相比传统的Q-Former投影器提升了259.96。特别是在强调细节感知能力的任务中,ParGo显著优于其他投影器,能够更准确地进行文字识别、更好地描述图像细节以及更有效地识别局部元素。
    • 自监督学习增强上下文理解:在训练阶段引入自监督学习策略,通过预测遮挡部分的内容来增强模型对上下文的理解能力,提高了模型的泛化性能,减少了对大规模标注数据的依赖。

    ParGo的技术原理

    • 全局+局部视角联合:ParGo采用两种类型的可学习token,基于attention机制,同时从局部和全局视角将视觉特征映射到大语言模型(LLM)中。
    • Partial-Global Perception Block (PGP):在ParGo中,视觉编码器的特征被映射为两种不同类型的token:Partial token和Global token,能够分别提取图像的局部和全局信息。
      • Partial tokens:每个token仅与部分视觉特征进行交互,专注于图像的局部信息。
      • Global tokens:全局token则与所有视觉特征进行交互,捕捉图像的全局信息。
    • Cascaded Partial Perception Block (CPP):ParGo在Partial-Global Perception模块之前引入了Cascaded Partial Perception (CPP)模块。CPP模块的核心是带有特殊设计掩码的自注意力机制,随着层数的增加,每个Partial token能访问到更多的相邻token,逐步扩展其感知范围。
    • 自监督学习策略:在训练阶段,ParGo引入了自监督学习策略,即通过预测遮挡部分的内容来增强模型对上下文的理解能力。

    ParGo的项目地址

    ParGo的应用场景

    • 视觉问答系统:ParGo能理解图像中的视觉线索,解析文本中的语义信息,在视觉问答任务中表现出色。
    • 图像字幕生成:ParGo在COCO Caption等任务上表现尤为突出,能生成高质量的图像字幕。能描述图像的全局信息,还能捕捉到图像中的局部细节,生成更加准确和丰富的字幕。
    • 跨模态检索:ParGo可以用于跨模态检索任务,帮助用户通过文本查询找到相关的图像,或者通过图像查询找到相关的文本。
    • 情感分析:ParGo能理解图像和文本中的情感信息,在情感分析任务中提供更准确的结果。 图像内容理解:ParGo可以用于图像内容理解任务,帮助系统更好地理解图像中的细节和全局信息。