Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • SWE-1 – Windsurf推出的首个软件工程 AI 模型系列

    SWE-1是什么

    SWE-1是Windsurf团队推出的首个软件工程 AI 模型系列,专为整个软件开发流程优化,涵盖代码生成、测试、调试、资料查找等开发环节,提升开发效率和用户体验。SWE-1包含三款模型,SWE-1性能接近Claude 3.5 Sonnet,SWE-1-lite是小型替代模型,质量更优,SWE-1-mini是极小且快速的模型,三款模型分别面向不同用户群体。自研模型让Windsurf能更好地满足开发者需求,形成独特的技术壁垒和产品体验。

    SWE-1

    SWE-1模型家族

    • SWE-1:推理能力接近Claude 3.5 Sonnet的工具体验,同时服务成本更低。在推广期间,所有付费用户免费使用。
    • SWE-1-lite:取代Cascade Base的优质轻量版模型,所有用户(含免费用户)均能无限次使用。
    • SWE-1-mini:极速响应的小型模型,为全体用户(含免费用户)提供Windsurf Tab支持。

    SWE-1的主要功能

    • 流程感知:理解软件开发中的多种状态和上下文,支持在复杂场景下持续推进任务,如人机协作、任务中断与恢复等。
    • 代码生成与优化:生成高质量的代码,提供代码优化建议,提升开发效率。
    • 测试与调试辅助:帮助开发者进行测试用例生成、调试问题定位,减少测试和调试时间。
    • 文档生成与理解:自动生成代码文档,帮助开发者快速理解代码功能和结构。
    • 任务规划与管理:协助开发者规划和管理开发任务,提供任务进度跟踪和提醒功能。

    SWE-1的技术原理

    • 共享时间线:基于共享时间线,实现“流感知”(Flow Awareness),即AI对用户操作的实时感知和响应。让AI在用户操作的任何阶段介入。
    • 流感知(Flow Awareness):将Windsurf Editor中的各种功能(如代码编辑、终端输出、剪贴板内容等)整合到共享时间线中,实时感知用户的操作,据此调整自己的行为。
    • 训练方法:基于全新的数据模型,专门针对软件工程的复杂性和长期任务进行优化。模型能处理不完整状态和模糊结果,模拟真实的软件开发过程。SWE-1的训练过程关注代码的正确性,注重任务的完整性和长期目标的实现。基于大量的实际开发数据和用户反馈,不断优化自己的行为,更好地适应不同的开发场景。

    SWE-1的官方评测

    • 评测方式:Windsurf团队将SWE-1与Anthropic系列模型、及Deepseek和Qwen等领先的开源编码模型进行比较,进行离线评测(如对话式任务、端到端任务)和真实用户盲测。
    • 评测结果:SWE-1在“用户采纳代码行数”“模型贡献率”等指标上,达到或接近行业前沿水平。很多用户反馈AI建议准确且提升了开发效率。

    SWE-1

    SWE-1的项目地址

    SWE-1的应用场景

    • 代码生成与优化:快速生成高质量代码,提供优化建议。
    • 测试与调试辅助:生成测试用例,辅助定位调试问题。
    • 文档自动生成:根据代码生成详细文档,便于理解维护。
    • 任务规划与管理:协助规划任务,跟踪进度,提高项目管理效率。
    • 人机协作开发:支持团队协作,实现流畅的人机交互。
  • Sketch2Anim – 爱丁堡大学等机构推出的2D草图转3D动画框架

    Sketch2Anim是什么

    Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架,能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术,用3D关键姿势、关节轨迹和动作词精确控制动画的生成。框架包含两个核心模块,多条件运动生成器和2D、3D神经映射器。Sketch2Anim能生成自然流畅的3D动画,支持交互式编辑,极大地提高动画制作的效率和灵活性。

    Sketch2Anim

    Sketch2Anim的主要功能

    • 自动转换:将2D草图故事板快速转换为3D动画,减少手动制作的繁琐步骤。
    • 高质量动画:生成流畅、自然的3D动画,支持多个片段的平滑过渡。
    • 交互编辑:用户能实时调整生成的动画,如修改关键姿势或轨迹,提升设计灵活性。
    • 提高效率:自动化流程显著提高动画制作效率,支持快速迭代设计。

    Sketch2Anim的技术原理

    • 多条件运动生成器:基于运动扩散模型(motion diffusion model),结合轨迹ControlNet和关键姿势适配器(keypose adapter)。轨迹ControlNet负责将关节轨迹嵌入到运动扩散模型中,控制全局动态运动。关键姿势适配器在轨迹ControlNet的基础上,进一步细化局部静态姿势,确保生成的动画精确符合输入的关键姿势。
    • 2D-3D神经映射器:包含2D和3D的关键姿势和轨迹编码器。在共享嵌入空间中对齐2D草图和3D运动约束,实现直接的2D到3D动画控制。
    • 运动融合与优化:基于确定性DDIM逆过程和引导去噪,将多个动画片段平滑过渡,生成完整的动画。用分类器自由引导和二阶优化方法,进一步优化生成的动画,更符合输入的2D条件。
    • 数据处理与增强:用HumanML3D数据集进行训练,包含14,646个动作和44,970个对应的运动注释。基于相机视图增强、关节扰动和身体比例扰动,生成多样化的2D关键姿势和轨迹,提高模型的泛化能力。

    Sketch2Anim的项目地址

    Sketch2Anim的应用场景

    • 影视动画:用在影视制作的前期预览,提高效率。
    • 游戏开发:加快游戏动作设计和剧情动画制作。
    • 广告宣传:把创意草图变成3D动画广告,增强视觉效果,吸引观众。
    • 教育培训:帮助学生更好地理解复杂知识。
    • VR/AR应用:将2D草图直接转换为沉浸式3D动画,丰富虚拟场景。
  • LBM – AI图像转换框架,实现可控阴影生成

    LBM是什么

    LBM(Latent Bridge Matching)是Jasper Research团队推出的新型图像到图像转换框架,基于在潜在空间中构建桥匹配实现快速高效的图像转换。LBM仅需单步推理完成任务,适用多种图像转换场景,如目标移除、重打光、深度和法线估计等。LBM用布朗桥在源图像和目标图像之间建立随机路径,增加样本多样性。条件框架能实现可控的阴影生成和图像重光照。LBM在多项任务中达到或超越现有方法的最佳性能,展现出强大的通用性和高效性。

    LBM

    LBM的主要功能

    • 目标移除:从图像中移除指定对象及其相关阴影,保持背景的完整性。
    • 图像重光照:根据给定的背景或光照条件重新照亮前景对象,去除现有阴影和反射。
    • 图像修复:将退化图像转换为干净图像,恢复图像的原始质量。
    • 深度/法线图生成:将输入图像转换为深度图或法线图,用在3D重建等任务。
    • 可控阴影生成:根据光源的位置、颜色和强度生成阴影,增强图像的真实感。

    LBM的技术原理

    • 潜在空间编码:将源图像和目标图像编码到一个低维的潜在空间,减少计算成本提高模型的可扩展性。
    • 布朗桥(Brownian Bridge):在潜在空间中构建一条随机路径(布朗桥),连接源图像和目标图像的潜在表示。随机性支持模型生成多样化的样本。
    • 随机微分方程(SDE):基于求解随机微分方程(SDE)预测路径上的潜在表示,实现从源图像到目标图像的转换。
    • 条件框架:引入额外的条件变量(如光照图),LBM能实现可控的图像重光照和阴影生成。
    • 像素损失:在训练过程中,用像素损失(如LPIPS)优化模型,确保生成的图像与目标图像在视觉上的一致性。

    LBM的项目地址

    LBM的应用场景

    • 普通用户:日常照片编辑,移除多余物体、修复老照片、调整光照。
    • 摄影爱好者:后期处理,增强照片真实感,添加或调整阴影。
    • 平面设计师:创意设计,生成深度/法线图,快速修复和调整图像。
    • 视频编辑师:视频制作,修复视频帧,调整对象光照和阴影。
    • 3D建模师:从照片生成深度/法线图,辅助3D建模。
  • Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型

    Stable Audio Open Small是什么

    Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型,参数量从11亿减少到3.41亿,生成速度更快,能在移动设备上快速生成音频,如鼓点循环、音效等。模型基于 Arm 的 KleidiAI 技术,优化在边缘设备上的运行效率,降低计算成本,无需复杂硬件支持。模型适用实时音频生成场景,如智能手机和边缘设备。

    Stable Audio Open Small

    Stable Audio Open Small的主要功能

    • 文本到音频生成:根据用户输入的文本提示生成相应的音频内容,例如生成特定乐器的声音、环境音效或简单的音乐片段。
    • 快速音频生成:支持在移动设备在8秒内生成音频,适合实时应用。
    • 轻量化设计:参数量从11亿减少到3.41亿,模型更轻量,适合在资源受限的设备上运行。
    • 高效运行:模型能在边缘设备上运行效率更高,降低计算成本。
    • 多样化音频生成:支持生成短音频样本、音效、乐器片段和环境纹理等,适合创意音频制作和实时音频应用。

    Stable Audio Open Small的技术原理

    • 基于深度学习的生成模型:基于深度学习架构,用大量的音频数据训练模型,理解文本描述生成相应的音频。基于先进的神经网络技术,如 Transformer 架构,对文本和音频进行编码和解码。
    • 参数优化:基于减少模型参数量(从11亿到3.41亿),降低模型的复杂度和计算需求,保持较高的输出质量。用模型压缩技术,如量化和剪枝,进一步优化模型的运行效率。
    • 边缘计算优化:基于 Arm 的 KleidiAI 库,针对 Arm CPU 进行优化,让模型能在移动设备和边缘设备上高效运行。基于优化算法和硬件加速,减少音频生成的时间和计算成本。
    • 高效的推理引擎:优化模型的推理过程,让模型在移动设备上快速完成音频生成任务,适合实时应用。基于改进的推理算法和硬件适配,提高模型的响应速度和用户体验。

    Stable Audio Open Small的项目地址

    Stable Audio Open Small的应用场景

    • 移动音乐创作:在手机上快速生成音乐片段和音效,方便随时随地进行音乐创作。
    • 游戏音效生成:为游戏实时生成背景音乐和音效,增强游戏的沉浸感。
    • 视频配乐:帮助视频创作者快速生成合适的背景音乐和音效,提高创作效率。
    • 智能设备音频:在智能音箱等设备上生成自定义音效,提升设备的智能化体验。
    • 教育辅助:生成教学音效和背景音乐,增强教育内容的趣味性和吸引力。
  • Speech-02 – MiniMax 推出的新一代文本转语音模型

    Speech-02是什么

    Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。Speech-02提供两种版本,Speech-02-HD 专为高保真应用设计,如配音和有声读物,能消除节奏不一致问题,保持音质清晰, Speech-02-Turbo 针对实时性能优化,平衡超低延迟与卓越音质,适用于交互式应用。Speech-02模型已在MiniMax Audio平台及MiniMax API平台上线。

    Speech-02

    Speech-02的主要功能

    • 零样本语音克隆:仅需几秒参考语音,生成高度相似的目标语音。
    • 高质量语音合成:生成自然流畅的语音,支持多种语言和方言。
    • 多语言支持:支持 32 种语言,擅长中英、粤语等语种,可跨语言切换。
    • 个性化语音生成:用户提供示范音频,模型学习后生成个性化语音。
    • 情感控制:支持多种情感(如快乐、悲伤等),基于文字描述指导语音生成。

    Speech-02的技术原理

    • 自回归 Transformer 架构:基于自回归 Transformer 架构,生成韵律、语调和整体自然度更好的语音。自回归模型在生成过程中逐个生成语音特征,确保生成的语音更加自然和连贯。
    • 零样本语音克隆:引入可学习的 speaker 编码器,编码器专门学习对合成语音最有用的声音特征,如说话人的独特发音习惯。模型仅需几秒的参考语音生成高度相似的目标语音。
    • Flow-VAE 架构:基于可逆映射变换潜在空间,更准确地捕捉数据中的复杂模式。Flow-VAE 架构能增强语音生成过程中的信息表征能力,提升合成语音的整体质量和相似度。
    • T2V 框架:T2V 框架结合开放式自然语言描述与结构化标签信息,实现高度灵活且可控的音色生成。用户基于文字描述指导模型生成特定音色和情感的语音。

    Speech-02的项目地址

    Speech-02的应用场景

    • 智能语音助手:为智能设备提供自然流畅的人机交互体验,提升用户满意度。
    • 有声读物与配音:制作高质量的有声读物、广告配音等。
    • 社交媒体与娱乐:在社交媒体、直播、唱聊等场景中,提供个性化语音生成,增强用户互动性和娱乐性。
    • 教育与儿童玩具:应用在教育学习机、儿童玩具等,提供更加生动有趣的学习体验。
    • 智能硬件集成:与智能音箱、汽车智能座舱等硬件设备集成,提升设备的智能化水平。
  • MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

    MT-Color是什么

    MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题,用多实例采样策略增强实例感知效果。MT-Color构建了GPT-Color数据集,提供高质量的实例级注释,支持更精细的图像着色任务。MT-Color在色彩准确性和视觉质量上优于现有方法,生成的图像更符合人类视觉感知。

    MT-Color

    MT-Color的主要功能

    • 精确的实例级着色:根据用户提供的实例掩码和文本描述,对图像中的不同对象进行精确着色,确保每个对象的颜色与其描述一致。
    • 防止色彩溢出:基于像素级掩码注意力机制,有效避免色彩在不同对象之间的错误扩散,保持颜色的边界清晰。
    • 高质量的色彩生成:生成的彩色图像色彩丰富、自然,且分辨率高(512×512),细节更清晰。
    • 灵活的用户控制:支持用户用文本描述和掩码对图像着色过程进行精细控制,满足不同的着色需求。
    • 数据集支持:构建专门的GPT-Color数据集,提供高质量的实例级注释,支持更精细的图像着色任务。

    MT-Color的技术原理

    • 像素级掩码注意力机制:将ControlNet提取的灰度图像特征与Stable Diffusion的潜在特征通过像素级交叉注意力机制对齐,防止不同实例间的像素信息交换,缓解色彩溢出问题。用分割掩码构建交叉注意力掩码,确保像素信息在不同实例间不会相互干扰。
    • 实例掩码和文本引导模块:提取每个实例的掩码和文本表示,与潜在特征基于自注意力机制融合,基于实例掩码形成自注意力掩码,防止实例文本引导其他区域的着色,减少色彩绑定错误。
    • 多实例采样策略:在采样过程中,对每个实例区域分别进行采样,将结果融合,进一步增强实例感知的着色效果。
    • GPT-Color数据集:基于预训练的视觉语言模型(如GPT-4和BLIP-2)在现有的图像数据集上自动生成高质量的实例级注释,包括细粒度的文本描述和对应的分割掩码,为模型训练提供丰富的训练数据。

    MT-Color的项目地址

    MT-Color的应用场景

    • 历史照片修复:为黑白历史照片添加生动色彩,增强观赏性和历史感。
    • 影视后期制作:修复和增强黑白或低质量彩色镜头,提升视觉效果。
    • 艺术创作:帮助艺术家为黑白草图或插画添加色彩,实现创意。
    • 医学图像处理:为医学图像添加色彩,提高诊断价值。
    • 教育领域:为教学材料中的黑白图像添加色彩,增强学习体验。
  • FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架

    FaceShot是什么

    FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱动视频,或作为插件与任何地标驱动的动画模型兼容,显著提升整体性能。

    FaceShot

    FaceShot的主要功能

    • 角色动画生成:为各种类型的角色生成流畅且自然的面部动画,保持角色的原始特征。
    • 跨领域动画:支持从人类视频驱动非人类角色(如玩具、动物等)的动画,扩展肖像动画的应用范围。
    • 无需训练:无需针对每个角色或驱动视频进行额外的训练或微调,直接生成高质量的动画。
    • 兼容性:作为插件与任何地标驱动的动画模型无缝集成。

    FaceShot的技术原理

    • 外观引导的地标匹配模块:基于潜在扩散模型的语义对应关系,结合外观先验知识,为任意角色生成精确的面部地标。用DDIM逆过程从参考图像和目标图像中提取扩散特征,基于图像提示减少不同领域之间的外观差异。用余弦距离进行地标匹配,确保地标在语义上的一致性,引入外观画廊进一步优化匹配效果。
    • 基于坐标的地标重定位模块:基于坐标系变换捕捉驱动视频中的细微面部动作,生成与之对齐的地标序列。模块分为全局运动和局部运动两个阶段,全局运动负责计算面部的整体平移和旋转,局部运动则分别对眼睛、嘴巴、鼻子、眉毛和面部边界等部分进行相对运动和点运动的重定位。基于简单的坐标变换公式,模块能精确捕捉面部的全局和局部运动,生成稳定的地标序列。
    • 地标驱动的动画模型:模块将生成的地标序列输入预训练的动画模型(如MOFA-Video),生成最终的动画视频。将地标序列作为额外条件输入到动画模型的U-Net中,确保模型能精确跟踪地标序列中的运动。基于这种方式,动画模型能用地标序列生成与驱动视频一致的动画效果,保持角色的视觉身份,实现高质量的肖像动画生成。

    FaceShot的项目地址

    FaceShot的应用场景

    • 影视娱乐:为电影、电视剧中的角色生成生动动画,提升视觉效果。
    • 游戏开发:快速生成游戏角色动画,增强表现力和趣味性。
    • 教育领域:使教育内容更生动,提高学生学习兴趣和教学互动性。
    • 广告营销:生成品牌吉祥物动画,提升品牌形象和用户参与感。
    • VR/AR应用:生成虚拟角色动画,提升沉浸感和交互体验。
  • ChatUI – 阿里推出的开源智能对话式 UI 组件库

    ChatUI是什么

    ChatUI 是阿里团队推出的开源智能对话式 UI 组件库,能帮助开发者快速构建高质量的聊天应用,提供响应式设计、国际化、主题定制等功能。ChatUI 基于阿里巴巴 Alime Chatbot 的最佳实践,用 TypeScript 编写,支持无障碍功能,兼容多种浏览器。ChatUI 提供丰富的组件,如气泡、输入框等,满足不同场景需求。开发者基于简单配置实现多语言支持,打造符合品牌需求的聊天界面。

    ChatUI

    ChatUI的主要功能

    • 响应式设计:自动适应各种设备,包括桌面浏览器、移动设备等,确保用户在不同设备上都能获得一致的体验。
    • 国际化支持:支持多种语言的国际化,开发者基于简单配置将应用翻译成多种语言,满足不同地区用户的需求。
    • 主题定制:提供强大的主题定制功能,开发者在每个细节上自定义界面的样式,根据品牌需求或用户偏好调整应用的外观。
    • 无障碍支持:获得无障碍研究协会认证,支持无障碍功能,提升应用的包容性,更好地服务于残障用户。
    • TypeScript 支持:用 TypeScript 编写,提供可预测的静态类型,有助于代码的可维护性,在开发过程中提供更好的类型检查和代码提示。

    ChatUI的技术原理

    • 基于 React 框架:ChatUI 是基于 React 框架开发的,用 React 的组件化和虚拟 DOM 技术,实现高效的界面渲染和更新。
    • TypeScript 编写:用 TypeScript 编写代码,基于其静态类型系统,提高代码的可维护性和开发效率,提供更好的类型检查和代码提示。
    • CSS 变量与样式定制:通基于 CSS 变量实现主题定制功能,开发者能修改 CSS 变量调整界面的样式,实现高度的自定义。
    • 国际化处理:基于配置文件和语言包实现国际化支持,开发者轻松地将应用翻译成多种语言,满足不同地区用户的需求。
    • 无障碍功能:遵循无障碍标准,基于 ARIA 属性和键盘导航等技术,确保聊天应用对残障用户友好,提升应用的包容性。
    • 响应式布局:基于响应式设计技术,如媒体查询和弹性布局,确保界面在不同设备上都能自动调整布局,提供一致的用户体验。

    ChatUI的项目地址

    ChatUI的应用场景

    • 在线客服系统:提供实时聊天功能,支持多种消息类型,确保客服与客户高效沟通。
    • 智能助手应用:构建自然语言交互的智能助手,支持语音输入和文本回复,提供个性化服务。
    • 社交媒体平台:用在平台内的私信和群聊功能,支持消息发送和展示,与平台设计风格保持一致。
    • 企业内部沟通工具:构建企业内部即时通讯工具,支持团队协作和文件共享,确保无障碍使用。
    • 教育平台:用在在线教育平台的师生互动模块,支持实时问答和作业反馈,满足不同地区学生需求。
  • Skywork-VL Reward – Skywork AI开源的多模态奖励模型

    Skywork-VL Reward是什么

    Skywork-VL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构,基于添加奖励头结构,用成对偏好数据进行训练,输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩,在RewardBench上表现出色,达到90.1的高分。Skywork-VL Reward基于混合偏好优化(MPO)显著提升多模态推理能力,为多模态强化学习领域带来新的突破。

    Skywork-VL Reward

    Skywork-VL Reward的主要功能

    • 评估多模态输出:对视觉-语言模型(VLM)生成的输出进行质量评估,判断是否符合人类偏好。
    • 提供奖励信号:输出标量奖励分数,反映生成内容的质量或与人类偏好的对齐程度。
    • 支持多模态任务:适用多种多模态任务,如图像描述、复杂推理等,具有广泛的适用性。
    • 提升模型性能:基于生成高质量的偏好数据,支持混合偏好优化(MPO),显著提升多模态推理能力。

    Skywork-VL Reward的技术原理

    • 模型架构:基于 Qwen2.5-VL-7B-Instruct 架构,架构包含视觉编码器(Vision Transformer)、视觉-语言适配器和语言模型解码器。在基础模型的基础上,添加一个奖励头结构,用在输出标量奖励分数。奖励头基于全连接层处理最终隐藏状态,生成奖励分数。
    • 数据集构建:整合多个开源偏好数据集(如 LLaVA-Critic-113k、Skywork-Reward-Preference-80K-v0.2、RLAIF-V-Dataset)及内部标注的复杂推理任务数据。基于去重、相似性过滤和偏好判断过滤等步骤,确保数据的高质量和一致性。用高级 VLM 推理器生成高质量的偏好数据,增强模型的泛化能力。
    • 训练方法:基于成对偏好损失函数,比较两个候选响应的优劣训练模型,让模型能学习到相对排名。两阶段微调,第一阶段用多模态偏好数据进行训练,第二阶段加入纯文本偏好数据,进一步提升模型在纯文本场景下的性能。

    Skywork-VL Reward的项目地址

    Skywork-VL Reward的应用场景

    • 内容生成评估:评估多模态内容生成的质量,如图像描述、视频字幕等,判断生成内容是否准确且符合人类偏好。
    • 推理任务优化:在复杂多模态推理任务中,如视觉问答、几何问题等,评估推理过程和结果的合理性,帮助优化推理模型。
    • 模型对齐:确保多模态模型的输出与人类价值观和道德标准对齐,避免生成有害或误导性内容。
    • 混合偏好优化(MPO):作为MPO训练的关键组件,提供高质量偏好数据,提升多模态模型的推理能力和泛化性能。
    • 基准测试:作为多模态任务的基准测试工具,评估和比较不同模型的性能,推动多模态技术的发展。
  • GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

    GPDiT是什么

    GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型,模型结合扩散模型和自回归模型的优势,基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制,减少计算成本,推出一种无参数的旋转基时间条件策略,有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色,展示了在多种视频建模任务中的多功能性和适应性。

    GPDiT

    GPDiT的主要功能

    • 高质量视频生成:生成具有高时间一致性和运动连贯性的长序列视频。
    • 视频表示学习:基于自回归建模和扩散过程,学习视频的语义和动态表示,用在下游任务。
    • 少样本学习:够快速适应多种视频处理任务,如风格转换、边缘检测等。
    • 多任务学习:支持多种视频处理任务,如灰度转换、深度估计、人物检测等。

    GPDiT的技术原理

    • 自回归扩散框架:基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。
    • 轻量级因果注意力:引入种轻量级因果注意力机制,消除训练期间干净帧之间的注意力计算,减少计算成本,不降低生成性能。
    • 旋转基时间条件机制:推出一种无参数的旋转基时间条件策略,将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转,去除adaLN-Zero及相关参数,有效编码时间信息。
    • 连续潜在空间:在连续潜在空间中进行建模,增强了生成质量和表示能力。

    GPDiT的项目地址

    GPDiT的应用场景

    • 视频创作:生成高质量视频,用在广告、影视、动画等。
    • 视频编辑:实现风格转换、色彩调整、分辨率提升等。
    • 少样本学习:快速适应人物检测、边缘检测等任务。
    • 内容理解:自动标注、分类和检索视频内容。
    • 创意生成:激发艺术家和设计师的创意,生成艺术风格视频。