Category: AI项目和框架

  • 万相2.1 – 通义万相最新推出的视频生成模型

    万相2.1是什么

    万相2.1是阿里推出的通义万相升级版本。基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现中文文字视频生成功能。升级后的通义万相在VBench榜单上荣登第一。万相2.1能稳定展现复杂人物运动,逼真还原现实物理规律,一键生成中英文视频特效,具备强大的影视质感与艺术风格转换能力。万相2.1支持文生组图,采用IC-LoRA图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。

    wangxiang2.1

    万相2.1的主要功能

    • 视频生成
      • 复杂动作展现:稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,及镜头的移动,让视频内容更加生动和真实。
      • 物理规律还原:逼真还原真实世界的物理规律,如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景,让视频更具真实感。
      • 中英文视频特效生成:提供多种视频特效选项,如过渡、粒子效果、模拟等,能一键生成中英文视频特效,增强视频的视觉表现力。
      • 艺术风格转换:具备强大的艺术风格表现力,能一键转换视频的影视质感与艺术风格,如电影色调、印象笔触、抽象表现等,生成各种风格的视频。
    • 图生成
      • 分镜效果还原:还原电影级的分镜效果,确保角色、相貌、动作、环境、灯光等元素连贯,将故事情节、视觉效果和氛围营造完美结合。
      • 四格漫画创作:根据用户描述的漫画剧情与风格,生成四格漫画,快速讲述一个小故事。
      • 创意头像定制:根据用户的喜好、风格、特点,定制专属的情侣头像、个人头像等。提供卡通风格、写实风格、创意风格等多种风格选择,满足用户的不同需求。

    万相2.1的技术原理

    • VAE架构:变分自编码器(VAE)是生成模型,用编码器将输入数据映射到一个潜在空间,再用解码器将潜在空间的表示映射回数据空间,实现数据的生成和重建。
    • DiT架构:DiT(Diffusion in Time)架构是基于扩散模型的生成模型,在时间维度上逐步引入噪声,逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构,支持高效编解码和生成高质量的视频。
    • IC-LoRA:IC-LoRA是一种图像生成训练方法,基于结合图像内容和文本描述,增强文本到图像的上下文能力,让生成的图像更加符合用户的文本描述和期望。
    • 上下文建模:基于增强时空上下文建模能力,更好地理解和生成具有连贯性和一致性的视频内容,让视频中的动作、场景和风格等元素更加自然和协调。

    万相2.1的项目地址

    万相2.1视频案例

    文字特效

    • 提示词1:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。

    • 提示词2:远景拍摄,塞纳河畔,绚烂的烟花在空中绽放,烟花形成了粉色数字“2025”时镜头拉近特写,然后逐渐消散。

    运动

    • 提示词1:一辆汽车在被雪覆盖的公路上高速飞驰。镜头从空中俯拍,展现了公路两旁的树木和远处的山脉。汽车在笔直的道路上行驶,周围的雪地和树木形成了鲜明的对比。整个场景在自然光下显得格外清晰,具有纪录片风格的写实感。

    • 提示词2:超大海水浪尖,冲浪者在浪尖起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

    特效

    • 提示词1:一条巨龙在一座燃烧的城市上空盘旋,火焰的余光映照在它的鳞片上,摄像机从下方仰视,捕捉到龙的身影在火焰和烟雾中若隐若现,它的翅膀在空中拍打,掀起狂风,将火焰吹向四面八方。

    写实

    • 提示词1:特写镜头聚焦于一双布满老茧的手,正细致地在木头上雕刻。手握刻刀,刀锋在飞舞的木屑中闪烁,木纹清晰,指尖轻盈游走在刀刃间,勾勒出精致的花纹与图案。背景虚化,仅见工作台与散落的木工工具,强调手部精妙动作与匠艺之精髓。

    • 提示词2:45度俯视固定镜头,中景,浅景深,晨光穿过梧桐斑驳洒落。画面中央的橘猫穿着围裙,稳稳举刀切黄瓜,尾巴随着切菜节奏轻晃。背景灶台炊烟缭绕上升,阳光斜射在木案与老铁锅上泛起温暖光晕。

    人物特写

    • 提示词1:一位女性特写镜头:起初她在笑,随后变得悲伤,接着开始哭泣,最后用双手捂住脸。

    多人场景/大场面/多镜头

    • 提示词1:黎明时分,中世纪风格,两支大军正在混战。

    万相2.1的应用场景

    • 影视制作:为古装剧生成古代战争特效,如千军万马冲锋、箭雨纷飞等,增强视觉效果。
    • 广告视频制作:为运动饮料制作广告,生成年轻人运动后畅饮的场景,突出产品功能。
    • 教学辅助:教室在历史课上生成赤壁之战视频,帮助学生理解历史事件。
    • 文化创作:制作书法艺术纪录片,生成书法家创作过程视频,展示书法技巧。
    • 新闻报道:报道交通事故,生成事故现场模拟视频,清晰展示事故经过。
  • 星火人设 – 科大讯飞推出的专为情感交互设计的独立模型

    星火人设是什么

    星火人设是科大讯飞推出的专为情感交互而设计的独立模型(角色模拟API),具备人物设定、剧情演绎与语言风格等控制选项,支持模型精调。在规模C端用户的双盲体验测试中,星火人设的效果已处于行业领先。通过调用星火人设,智能体可以实现“智商情商”双在线,在与用户的交互中提供更加人性化和富有情感的体验。

    星火人设

    星火人设的主要功能

    • 人物设定
      • 定制虚拟角色特征:用户可以定制虚拟角色的世界观、社会身份、背景经历、性格特征和兴趣爱好等,打造个性鲜明的虚拟人格。越是丰富详尽的人设定义,就能呈现越立体饱满的互动体验。
      • 形成个性化AI人设:根据性格模拟、情绪理解、表达风格形成初始人设,再结合特定知识学习、对话记忆学习,形成更个性化的AI人设。
    • 剧情演绎
      • 主动发起对话:角色不仅能被动响应用户的发言,还能模拟主动发起对话。开发者只需设计主动对话的触发时机,即可让用户感受超出意料的互动惊喜。
      • 贴合场景回应:精准理解用户语义,生成高度贴合设定场景和角色设定的自然回应,使对话更加真实、自然。
    • 语言风格控制
      • 多样语言风格:支持多种语言风格的控制选项,如正式、幽默、亲切等,以适应不同场景和用户需求,使交互更加符合用户的期望和偏好。
      • 语音可控表达:在语音交互方面,能够实现语音的可控表达,让语音的语调、语速、音色等更符合角色设定和情感表达。
    • 模型精调:支持模型精调,用户可以根据具体的应用场景和需求,对星火人设模型进行进一步的优化和调整,以提升其在特定领域的表现和适应性。
    • 记忆与推理能力
      • 保持会话记忆:记录角色与用户的对话历史,支持保持多段会话的情景记忆,确保互动的一致性和连贯性。即使用户暂时中断,再次访问时,角色也能无缝拾起之前的记忆,让体验更加沉浸和流畅。
      • 具备推理能力:融合了强大的推理能力,能够基于用户意图执行指令,并在处理文本、图像和语音等多类型数据、实现交互等过程中更自然。

    如何使用星火人设

    • 注册与登录:进入科大讯飞的官网,点击申请注册登录。绑定手机号后,进入体验申请表格,填写相关信息并提交申请。审核通过后即可使用。
    • 创建应用:登录讯飞开放平台,点击进入控制台-我的应用,创建应用。
    • 开通服务:应用创建完成后,点击应用名称,再点击左侧导航切换到“星火认知大模型”-“角色模拟 API”,点击“立即购买”,领取试用包配额。
    • 获取身份凭证:角色模拟 API 通过 AK/SK 进行认证鉴权。您可以在控制台“星火认知大模型”-“角色模拟 API”获得应用的 API key 和 API secret。
    • 定制人设
      • 定义角色特征:根据需要为虚拟角色设定世界观、社会身份、背景经历、性格特征和兴趣爱好等。
      • 形成个性化人设:基于性格模拟、情绪理解、表达风格形成初始人设,再结合特定知识学习、对话记忆学习,形成更个性化的AI人设。
    • 调用 API
      • 将角色模拟集成到第三方系统后,通过调用 API 与星火人设进行交互。
      • 用户输入自己的发言,星火人设服务会即时生成贴合场景和角色设定的回应。
    • 查看服务使用信息:在控制台“星火认知大模型”-“角色模拟 API”查看消耗字数,以及剩余可用配额。

    星火人设的应用场景

    • 医疗咨询:星火人设可以模拟医生的角色,为用户提供一些基本的医疗咨询和建议,帮助用户了解自身的健康状况。
    • 健康管理:在健康管理方面,星火人设可以提醒用户按时服药、定期体检,并根据用户的健康数据提供个性化的健康管理建议。
    • 虚拟角色互动:用户可以创建或选择不同的虚拟角色,与星火人设进行互动,享受沉浸式的娱乐体验。
    • 社交聊天:星火人设可以作为虚拟的社交伙伴,与用户进行聊天和交流,提供陪伴和社交互动的乐趣。
    • 客户服务:在企业客户服务中,星火人设可以模拟客服人员的角色,为用户提供专业的咨询服务,解答用户的疑问和问题。
    • 产品介绍:星火人设可以用于产品介绍和推广,通过模拟销售人员的角色,向用户详细介绍产品的功能和特点。
  • STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

    STAR是什么

    STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频(T2V)扩散模型增强视频的空间细节和时间建模能力。STAR引入局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。STAR推出动态频率(DF)损失,引导模型在不同扩散步骤中关注不同频率成分,提高恢复保真度。

    STAR

    STAR的主要功能

    • 现实世界视频超分辨率:将现实世界中的低分辨率视频提升为高分辨率,同时恢复视频中的细节,如清晰的面部特征和准确的文字结构等。
    • 增强空间细节:基于文本到视频(T2V)扩散模型的强大生成能力,生成具有丰富空间细节的视频,让视频内容更加逼真和清晰。
    • 保持时间一致性:在提升视频分辨率的过程中,有效保持视频帧之间的时间一致性,避免出现运动模糊或不连贯的现象,让视频播放更加流畅自然。
    • 减轻退化伪影:针对现实世界视频中存在的复杂退化问题,如噪声、模糊和压缩等,STAR能有效减轻退化引入的伪影,提高视频的视觉质量。

    STAR的技术原理

    • T2V模型整合:将大规模预训练的文本到视频扩散模型融入视频超分辨率任务中。T2V模型具备强大的生成能力和丰富的时空先验知识,从文本描述生成高质量视频,为视频超分辨率提供有力的模型基础。
    • 局部信息增强模块(LIEM):在全局注意力机制之前引入LIEM,弥补T2V模型在处理局部细节方面的不足。LIEM基于局部注意力机制关注视频中的局部区域,增强局部信息的表达,更好地捕获和恢复视频中的细节,减轻复杂退化带来的伪影问题。
    • 动态频率(DF)损失:STAR推出DF损失优化模型的训练过程。损失函数根据扩散步骤动态调整对低频和高频成分的约束,使模型在早期阶段优先恢复视频的结构和大体轮廓(低频信息),在后期阶段再细化细节(高频信息)。

    STAR的项目地址

    STAR的应用场景

    • 影视制作:对经典电影或电视剧进行超分辨率处理,在现代高清电视或流媒体平台上呈现更佳的视觉效果,吸引更多观众重温经典。
    • 安防监控:在安防监控视频中,对低分辨率的人脸图像进行超分辨率处理,清晰呈现人脸细节,有效辅助犯罪侦查和安全管理。
    • 运动员动作分析:对体育赛事直播视频进行超分辨率处理,让运动员的动作细节更加清晰可见,方便教练和分析师进行动作分析,提高比赛成绩。
    • 医疗影像处理:对病理切片图像进行超分辨率处理,清晰呈现细胞和组织的细微结构,辅助医生进行更准确的病理诊断。
    • 科研:在科研实验中,对显微镜拍摄的低分辨率图像进行超分辨率处理,为科研人员提供更准确的实验数据和图像资料。
  • TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

    TransPixar是什么

    TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视频。TransPixar基于扩散变换器(DiT)架构,基于引入alpha特定的token和基于LoRA的微调,实现RGB和alpha通道的联合生成,保持高度一致性。TransPixar优化注意力机制,保留原始RGB模型的优势,在有限的训练数据下,能生成多样化且对齐度高的RGBA视频。TransPixar支持创建包含烟雾、反射、等透明元素的视频,且提供高度逼真的视觉效果。TransPixar在娱乐、广告和教育等领域的应用前景广阔,为视觉效果(VFX)和交互式内容创作提供了新的可能性。

    Adobe

    TransPixar的主要功能

    • RGBA视频生成:从文本描述生成包含RGB颜色通道和alpha透明度通道的视频,实现复杂视觉效果的创建。
    • 透明效果处理:支持生成具有透明属性的元素,如烟雾、反射等,无缝融入背景场景,适用于视觉效果(VFX)等应用。
    • 高质量视频生成:在生成RGBA视频的同时,保留原始RGB视频生成模型的高质量,确保视频的清晰度和细节表现。
    • 多场景适应性:适用于各种场景和对象类型的视频生成,包括人物动作、自然景观、动态效果等,具有良好的泛化能力。
    • 文本驱动内容创作:根据输入的文本描述,生成与之匹配的视频内容,实现文本到视频的自动化创作,提高内容生产的效率和创意性。

    TransPixar的技术原理

    • 扩散变换器(DiT)架构:基于DiT模型,用自注意力机制捕捉视频帧之间的长程依赖关系,实现对视频内容的精细建模和生成。
    • alpha通道生成:在DiT模型中引入alpha特定的token,与RGB token的联合生成,实现alpha通道的生成,支持RGBA视频的输出。
    • LoRA微调:基于LoRA(Low-rank Adaptation)的微调方案,对alpha token的投影进行微调,保持RGB生成质量的同时,优化alpha通道的生成。
    • 注意力机制优化:系统分析并优化RGBA生成过程中的注意力机制,包括Text-attend-to-RGB、RGB-attend-to-Text、RGB-attend-to-Alpha等,基于调整注意力计算,实现RGB和alpha通道之间的强对齐和高质量生成。
    • 数据集扩展与训练策略:在有限的RGBA视频数据集上进行训练,基于合理的数据预处理和训练策略,提高模型对多样化场景和对象类型的适应能力,增强生成内容的多样性和一致性。

    TransPixar的项目地址

    TransPixar的应用场景

    • 娱乐领域:快速生成星球爆炸特效片段,助力科幻电影后期制作。
    • 广告领域:制作展示新款电动车外观和行驶动态的广告视频,吸引消费者关注。
    • 教育领域:生成物体受力运动视频,辅助讲解物理定律,提高学生理解。
    • 增强现实(AR):生成逼真巴黎全景视频,为VR旅游应用提供沉浸式体验。
    • 创意产业:创作奇幻世界视频,拓展数字艺术表现形式和创意空间.
  • Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

    Aria-UI是什么

    Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

    Aria-UI

    Aria-UI的主要功能

    • GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。
    • 多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。
    • 多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。
    • 动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。
    • 高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

    Aria-UI的技术原理

    • 纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。
    • 多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。
    • 数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。
    • 上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。
    • 超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

    Aria-UI的项目地址

    Aria-UI的应用场景

    • 自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。
    • 用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。
    • 智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。
    • 教育行业:自动操作代码编辑器,演示编程过程和结果。
    • 自动化办公:自动操作财务软件,生成报表,提高工作效率。
  • MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

    MultiBooth是什么

    MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示,基于LoRA技术提高概念保真度。在多概念整合阶段,用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,基于基础提示确保不同概念之间的准确交互。MultiBooth在保持高图像保真度和文本对齐能力的同时,实现高效的多概念图像生成,且在训练和推理阶段具有较低的成本。

    MultiBooth

    MultiBooth的主要功能

    • 多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
    • 高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示具有高度的对齐性,确保图像内容与用户意图一致。
    • 高效推理:在多概念生成过程中,推理成本较低,不会随着概念数量的增加而显著增加推理时间,让多概念图像生成更加高效。
    • 插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型,提高模型的灵活性和可扩展性。

    MultiBooth的技术原理

    • 单概念学习阶段
      • 多模态图像编码器:用QFormer编码器,输入图像和概念名称(如“dog”),基于自注意力层和交叉注意力层的交互,生成与文本对齐的定制化嵌入表示,为每个概念学习一个简洁且具有区分性的嵌入。
      • 自适应概念归一化(ACN):调整定制化嵌入的L2范数,与提示中的其他词嵌入具有可比性,解决嵌入空间中的域间差异问题,提高多概念生成的能力。
      • 高效概念编码技术:用LoRA技术对U-Net中的注意力层进行低秩分解,避免因微调U-Net导致的语言漂移,提高单概念学习的概念保真度,减少额外的参数存储需求。
    • 多概念整合阶段
      • 区域定制化模块(RCM):在交叉注意力层中,根据用户定义或自动化过程得到的边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念,基于基础提示确保不同区域概念之间的交互,实现多个概念在同一图像中的准确融合。
      • 并行生成与交互:在RCM中,多个单概念模块能同时进行生成,基于交叉注意力机制实现概念之间的并行交互,避免概念融合和推理成本的增加。

    MultiBooth的项目地址

    MultiBooth的应用场景

    • 娱乐与创意产业:为冒险游戏快速生成神秘古墓场景图,展示内部机关和壁画,丰富游戏探索元素。
    • 广告与营销:制作化妆品面膜广告海报,展示年轻女性使用后面部肌肤焕然一新,传达产品功效和品牌定位。
    • 教育与学习:生成中世纪城堡图像,清晰展示塔楼和城墙结构,帮助学生理解城堡特点,加深历史知识记忆。
    • 电子商务:为夏季连衣裙生成搭配图,展示碎花连衣裙搭配草编凉鞋和草帽的效果,吸引顾客购买。
    • 科研与工程:生成新型纳米材料结构示意图,展示其超轻重量和高强度特性,帮助公众理解科研成果创新性。
  • Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合

    Ingredients是什么

    Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频生成:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。基于精心设计的多阶段训练协议,Ingredients能在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。

    Ingredients

    Ingredients的主要功能

    • 保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。
    • 灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。
    • 高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。
    • 无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。

    Ingredients的技术原理

    • 面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。
    • 多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。
    • ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。

    Ingredients的项目地址

    Ingredients的应用场景

    • 娱乐创作:为虚拟偶像制作一段多场景的音乐视频,保持其面部特征和风格一致,增强粉丝互动。
    • 广告行业:为时尚品牌定制不同风格的广告,展示目标受众在校园、街头等场景下的时尚造型,提高品牌吸引力。
    • 教育教学:在语言学习应用中,创建国际会议场景视频,学习者观看不同国家代表的交流,学习商务英语和跨文化沟通。
    • 社交媒体:用户制作家族历史视频,结合老照片和口述故事,展现家族成员在不同年代的生活场景,分享在社交媒体上引发共鸣。
    • 虚拟现实:在虚拟现实旅游应用中,生成用户与虚拟导游在景点游览的视频,导游详细介绍景点历史和文化,增强旅游体验的真实感。
  • ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架

    ArtCrafter是什么

    ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCrafter基于嵌入重构架构实现,包含三个关键组件:基于注意力的风格提取模块,用多层架构和感知器注意力机制从参考图像中提取细腻的风格特征;文本-图像对齐增强模块,基于注意力交互将图像和文本嵌入映射到共享特征空间,使生成图像更贴近文本提示内容;显式调制组件,基于线性插值和拼接融合原始与多模态嵌入,生成多样化且与文本相关的图像。

    ArtCrafter

    ArtCrafter的主要功能

    • 风格迁移:将参考图像的风格特征迁移到生成图像中,实现多样化的艺术风格表现。
    • 文本引导:根据文本提示生成与之内容一致的图像,满足个性化创作需求。
    • 增强多样性:生成具有丰富视觉表现和风格变化的图像,避免结果过于单一。
    • 保持一致性:在风格迁移过程中,保持生成图像与文本提示和参考图像内容的高度一致性。
    • 兼容性强:与现有的可控工具兼容,灵活应用于不同的创作场景和需求。

    ArtCrafter的技术原理

    • 基于扩散模型:基于扩散模型的生成能力,逐步去噪生成图像。
    • 嵌入重构架构:基于嵌入重构设计,将文本和图像嵌入映射到共享特征空间,实现跨模态的融合与交互。
    • 基于注意力的风格提取:采用多层架构和感知器注意力机制,从参考图像中提取局部和全局的风格特征,确保风格编码的准确性和丰富性。
    • 文本-图像对齐增强:用精心设计的注意力交互,动态调整文本提示中不同部分的重要性,使生成图像更好地反映文本内容。
    • 显式调制:基于线性插值和拼接等方法,将原始图像和文本嵌入与多模态嵌入融合,增强模型的适应性和生成结果的多样性。

    ArtCrafter的项目地址

    ArtCrafter的应用场景

    • 个性化创作:帮助艺术家快速实现创作想法,探索更多艺术可能性。
    • 娱乐与游戏:游戏开发者在设计中生成符合风格设定的形象,为游戏增添独特的视觉元素。
    • 艺术教育:美术老师在给学生讲解印象派艺术风格时,生成几幅具有印象派特点的风景画,让学生直观地感受印象派对光影、色彩的独特处理方式,加深对艺术风格的理解。
    • 广告创意:运动品牌设计师生成充满活力、阳光气息的运动场景图像,用在广告制作,吸引年轻消费者的注意力。
    • 艺术风格分析:艺术史研究者对比分析生成的图像,研究者能更深入地探讨特定艺术时期艺术家对人体比例、光影处理等方面的共同特点和创新之处。
  • Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型

    Seer是什么

    Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如语言指令),预测未来时刻的状态,用逆动力学模型生成动作信号。Seer基于Transformer的结构,处理多模态输入数据,有效融合视觉、语言和机器人本体信号。在真实机器人任务中,Seer的操作成功率较当前Sota提升43%,且在多种复杂场景下表现出优异的泛化能力。Seer在控制算法测试基准CALVIN ABC-D Benchmark中,Seer的平均任务完成长度达4.28,综合领先同类模型。

    Seer

    Seer的主要功能

    • 动作预测:根据当前的视觉状态和目标,预测出合适的机器人动作。基于逆动力学模型估计实现目标所需的中间动作序列。
    • 视觉预测:Seer具备条件视觉预测功能,能预测未来一定时间步内的RGB图像。让机器人“预见”未来的视觉状态,更好地规划和调整动作。
    • 多模态融合:融合视觉、语言和机器人状态等多种模态的信息,实现对复杂任务的理解和执行。基于多模态编码器将不同模态的特征进行整合,为动作预测和视觉预测提供全面的上下文信息。
    • 泛化能力:经过在大规模机器人数据集上的预训练,Seer展现出强大的泛化能力,在未见场景、新物体、不同光照条件下以及面对高强度干扰时,依然保持稳定的性能。
    • 数据效率:Seer在预训练阶段用大量数据学习到丰富的先验知识,因此在下游任务中仅需要少量的微调数据即可达到较好的性能,降低数据采集和标注的成本。

    Seer的技术原理

    • 端到端架构:基于端到端的架构设计,将视觉预测和逆动力学预测紧密结合在一起。在训练过程中,视觉预测模块和逆动力学模块协同优化,让模型能充分利用视觉和动作信息,实现更准确的动作预测。
    • Transformer架构:基于Transformer架构处理视觉状态和动作信息。Transformer能捕捉到视觉和动作序列中的复杂依赖关系,为模型提供强大的特征提取和表示能力。
    • 先见令牌和动作令牌:Seer引入先见令牌(foresight token)和动作令牌(action token)。先见令牌预测未来的RGB图像,动作令牌估计当前和预测未来观察之间的中间动作。两个令牌基于多模态编码器与输入的RGB图像、机器人状态和语言令牌进行融合,用单向注意力掩码实现深度的信息整合。
    • 单向注意力掩码:Seer设计特殊的单向注意力掩码,让动作令牌充分整合过去和未来的预测信息,有助于模型在多层网络中实现更深层次的信息融合,提高动作预测的准确性和鲁棒性。
    • 大规模预训练与微调:Seer首先在大规模机器人数据集(如DROID)上进行预训练,学习到丰富的视觉和动作先验知识。在下游任务中,基于少量的微调数据对模型进行调整,适应具体的任务场景和目标。

    Seer的项目地址

    Seer的应用场景

    • 工业自动化:指导机器人精准安装汽车部件,提高装配效率和质量。
    • 服务机器人:帮助服务机器人按需将物品准确送达客房,提升客户体验。
    • 医疗健康:作为虚拟手术机器人的核心,辅助医学生学习和练习手术技能。
    • 物流与仓储:自动化分拣系统快速准确地将包裹分拣到指定通道,提高分拣效率。
    • 教育行业:作为教学案例,帮助学生深入理解机器人编程的高级技术和算法。
  • EnerVerse – 智元机器人推出的首个机器人4D世界模型

    EnerVerse是什么

    EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏记忆机制(Sparse Memory)和自由锚定视角(Free Anchor View, FAV),显著提升4D生成能力和动作规划性能。实验结果表明,EnerVerse在机器人动作规划任务中达到了当前最优水平。EnerVerse的项目主页和论文已经上线,模型与数据集即将开源。

    EnerVerse的主要功能

    • 未来空间生成:通过自回归扩散模型,EnerVerse 能生成未来的具身空间,帮助机器人在任务指引和实时观测的基础上规划未来动作。
    • 高效动作规划:EnerVerse 在生成网络下游加入了由多层Transformer组成的Diffusion策略头,能在逆扩散的第一步即输出未来动作序列,确保动作预测的实时性。

    EnerVerse的技术原理

    • 自回归扩散模型
      • 逐块生成:EnerVerse 采用逐块生成的自回归扩散模型(chunk-wise autoregressive diffusion),通过扩散模型为未来具身空间建模。这种模型通过逐步生成每个时刻的空间信息,使得机器人能够在执行复杂任务时,不仅依赖局部信息,还能整合来自多个时刻的环境数据。
      • 扩散模型架构:基于结合时空注意力的UNet结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑保持时间一致性。
    • 稀疏记忆机制(Sparse Memory)
      • 记忆管理:借鉴大语言模型的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码处理,在推理阶段以较大时间间隔更新记忆队列。这种机制有效降低了计算开销,同时显著提升了长程任务的生成能力。
    • 自由锚定视角(Free Anchor View, FAV)
      • 视角灵活性:FAV 允许机器人根据场景灵活调整视角,克服了固定多视角在狭窄或遮挡环境中的局限性。例如,在厨房等场景中,FAV可以轻松适应动态的遮挡环境。
      • 空间一致性:基于光线投射原理,EnerVerse 使用视线方向图作为视角控制条件,并将2D空间注意力扩展为跨视角的3D空间注意力,确保生成视频的几何一致性。
    • Diffusion策略头
      • 高效动作预测:在生成网络下游加入了由多层Transformer组成的Diffusion策略头,能够在逆扩散的第一步即输出未来动作序列,确保动作预测的实时性。
      • 稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的FAV观测结果,用于提升模型对于长程任务的规划能力。

    EnerVerse的项目地址

    EnerVerse应用场景

    • 环境感知与决策:在自动驾驶领域,EnerVerse 可以通过生成未来空间来辅助车辆进行环境感知和决策。
    • 机器人操作与装配:在工业生产线上,EnerVerse 可以指导机器人完成复杂的装配任务。通过生成未来空间,机器人能够更好地理解零件之间的空间关系和装配顺序,从而提高装配效率和精度。
    • 质量检测与维护:EnerVerse 还可以应用于工业设备的质量检测和维护。机器人可以利用生成的未来空间对设备进行更全面的检查,及时发现潜在的故障和问题。
    • 家庭服务:在家庭环境中,EnerVerse 可以帮助服务机器人更好地理解和规划任务。例如,在整理房间、搬运物品等任务中,机器人能通过生成未来空间来预测物品的摆放位置和移动路径。
    • 医疗辅助:在医疗领域,EnerVerse 可以辅助医疗机器人进行手术操作或康复训练。通过生成未来空间,机器人能够更准确地规划手术步骤或康复动作。