Blog

  • Vidu – 生数科技发布的视频大模型,可生成16秒1080P的视频

    Vidu是什么

    Vidu是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构,结合Diffusion与Transformer技术,能够一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具备丰富的想象力,支持多镜头生成,保持时空一致性,效果接近Sora,代表了中国在视频大模型领域的技术突破。

    Vidu

    Vidu的主要功能

    • 文本到视频生成:用户可以通过输入简单的文本提示,快速生成长达16秒的高清视频内容,大大降低了视频制作的技术门槛,使得非专业用户也能轻松制作出高质量的视频。
    • 高分辨率输出:Vidu支持生成分辨率高达1080P的视频,生成的视频具有非常清晰的画质,适合在各种高清显示设备上播放。
    • 多镜头生成能力:Vidu支持同时生成多个镜头视角的视频,能够制作出类似于电影或电视剧中常见的多镜头切换效果,增加了视频的动态感和观赏性。
    • 模拟真实世界:Vidu能够模拟真实世界的物理特性,如物体的运动、光影的变化等,使得生成的视频内容更加逼真。
    • 保持时空一致性:在生成多镜头视频时,Vidu能够保证不同镜头之间的时空关系是连贯的,避免了不同镜头之间出现时空错乱的情况。
    • 丰富的想象力:除了模拟现实世界,Vidu还具备丰富的想象力,能够创造出新颖的视频内容,满足用户在创意表达上的需求。
    • 多模态融合能力:虽然目前Vidu主要聚焦于视频内容的生成,但基于其多模态大模型的特性,未来它有望整合文本、图像等多种模态的信息,生成更加丰富和立体的视频内容。

    Vidu

    Vidu的技术架构

    • Diffusion技术:Diffusion是一种生成模型技术,它通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。
    • Transformer架构:Transformer是一种深度学习模型,最初用于自然语言处理任务,因其强大的性能和灵活性,后来被广泛应用于计算机视觉等领域。Vidu结合了Transformer架构来处理视频数据。
    • U-ViT架构:U-ViT是Vidu技术架构的核心,是一种将Diffusion与Transformer融合的创新架构。U-ViT由生数科技团队提出,是全球首个此类融合架构,它结合了Diffusion模型的生成能力和Transformer模型的感知能力。
    • 多模态扩散模型UniDiffuser:UniDiffuser是生数科技基于U-ViT架构开发的多模态扩散模型,它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。
    • 长视频表示与处理技术:Vidu在U-ViT架构的基础上,进一步突破了长视频表示与处理的关键技术,这使得Vidu能够生成更长、更连贯的视频内容。
    • 贝叶斯机器学习:贝叶斯机器学习是一种统计学习方法,它通过贝叶斯定理来更新模型的概率估计。Vidu在开发过程中,团队利用了贝叶斯机器学习的技术来优化模型性能。

    如何使用Vidu

    Vidu目前仅处于发布阶段,还没有提供正式访问和使用的入口,感兴趣的公司或机构可以申请加入其合作伙伴计划https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

    Vidu的适用人群

    • 视频创作者:Vidu为视频制作人员提供了一个强大的工具,可以快速生成高质量的视频内容,适用于独立视频制作人、电影制作人、动画师等。
    • 游戏开发者:游戏开发团队可以利用Vidu生成逼真的游戏环境和动态背景,提升游戏的视觉效果和玩家体验。
    • 广告和营销专业人士:广告创意人员和营销团队可以使用Vidu来制作吸引人的视频广告,以更低的成本和更高的效率吸引目标客户。
    • 教育工作者:教师和培训师可以利用Vidu制作教育视频,如模拟实验、历史重现等,使学习过程更加直观和有趣。
    • 新闻工作者:新闻机构和记者可以使用Vidu生成新闻报道中的动态背景或模拟场景,提高报道的真实性和观赏性。
  • AI药物化学初创公司Yoneda Labs获400万美元的种子轮融资

    Yoneda Labs

    2024年4月26日,总部位于美国旧金山的从事利用人工智能辅助药物发现的初创公司Yoneda Labs宣布筹集了400万美元的种子轮融资。本轮融资由Khosla Ventures领投,500 Emerging Europe、468 Capital和Y Combinator等投资方参投。

    该公司计划将筹集的资金用于购买所需的机器人自动化设备,以便在其实验室内运行化学反应,从而为公司的模型创造训练数据。

    Yoneda Labs由Michal Mgeladze-Arciuch、Daniel Vlasits和Jan Oboril于2023年创立,旨在开发化学制造的基础模型。该公司利用人工智能告诉化学家如何制造新药,以加快新药的创造并降低化学制造的成本。

    (消息来源:VentureBeat

  • VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

    VideoGigaGAN是什么

    VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节和时间连贯性的高清视频。该模型基于大规模图像上采样器GigaGAN,通过创新的技术手段,如流引导的特征传播、抗锯齿处理和高频穿梭,解决了传统VSR方法中存在的模糊和闪烁问题,显著提升了视频上采样后的时间一致性和高频细节表现。

    VideoGigaGAN

    VideoGigaGAN的功能特色

    • 高效视频超分辨率:VideoGigaGAN能够将标准或低分辨率视频内容转换为高分辨率格式,显著提升视频的清晰度和观赏性。
    • 细节增强保持:在提升分辨率的同时,该模型注重保留视频的高频细节,如细小纹理和锐利边缘,避免传统放大方法中常见的模糊和失真现象。
    • 帧间连贯性优化:通过先进的技术手段,VideoGigaGAN确保视频中连续帧之间的过渡平滑自然,有效避免了时间闪烁和不一致性问题,提供连贯的观影体验。
    • 快速渲染能力:该模型具备快速处理能力,能够在短时间内完成视频的超分辨率处理,适合需要快速转换或实时处理的应用场景。
    • 高倍率视频放大:支持高达8倍的视频放大比例,对于需要大幅度提升视频分辨率的专业应用,如影像编辑和视觉效果制作,提供了强有力的技术支持。
    • 全面提升视频质量:不仅提升分辨率,VideoGigaGAN还改善视频的整体画质,包括色彩、对比度和细节层次,使得视频内容更加生动和真实。
    • 生成高真实感视频:利用强大的生成对抗网络架构,VideoGigaGAN能够生成接近自然拍摄效果的高分辨率视频,满足高端视频制作的需求。

    VideoGigaGAN的官网入口

    VideoGigaGAN的技术原理

    VideoGigaGAN的工作原理

    • 基础架构:VideoGigaGAN建立在GigaGAN图像上采样器的基础上,GigaGAN是一个大规模的生成对抗网络(GAN),能够对图像进行高质量的上采样。
    • 时间模块扩展:为了将GigaGAN应用于视频处理,研究者将2D图像模块扩展到3D时间模块,通过在解码器中添加时间卷积层和时间自注意力层,以处理视频序列。
    • 流引导特征传播:为了提高视频帧之间的时间一致性,VideoGigaGAN采用了流引导特征传播模块。该模块使用双向循环神经网络(RNN)和图像反变形层,基于光流信息对特征进行对齐和传播。
    • 抗锯齿处理:为了减少高频细节区域的时间闪烁,VideoGigaGAN在编码器的下采样层中使用了抗锯齿块(BlurPool),代替传统的步幅卷积,以减少别名效应。
    • 高频特征穿梭(HF Shuttle):为了补偿在上采样过程中可能丢失的高频细节,VideoGigaGAN通过跳跃连接将高频特征直接传输到解码器层。
    • 损失函数:在训练过程中,VideoGigaGAN使用了包括标准GAN损失、R1正则化、LPIPS损失和Charbonnier损失在内的多种损失函数,以优化模型性能。
    • 训练与推理:VideoGigaGAN在训练时联合优化流引导特征传播模块和扩展的GigaGAN模型。在推理时,首先使用流引导模块生成帧特征,然后将特征输入到GigaGAN块中进行上采样。
    • 数据集和评估:使用标准的VSR数据集进行训练和测试,如REDS和Vimeo-90K,并通过PSNR、SSIM、LPIPS等指标评估模型的上采样质量。

    VideoGigaGAN的应用场景

    • 视频画质增强:对于旧电影、家庭录像或任何低分辨率的视频材料,VideoGigaGAN可以提升其分辨率,改善画质,使其更适合现代播放设备。
    • 视频安全监控:在安全监控领域,VideoGigaGAN可以帮助提高视频的清晰度,从而更好地识别和分析视频中的对象或事件。
    • 视频编辑与后期制作:在视频编辑和后期制作中,VideoGigaGAN可以用来提升原始视频的分辨率,以满足高质量输出的需求。
    • 视频传输与存储:在带宽有限的情况下,通过降低视频的传输分辨率可以减少数据传输量。VideoGigaGAN可以在接收端将视频上采样到高分辨率,以改善观看体验。
    • 视频安全与认证:在需要验证视频内容真实性的场景下,VideoGigaGAN可以帮助恢复视频细节,辅助进行内容的真伪鉴定。
  • AI驱动的环保数据平台Treefera获1200万美元A轮融资

    Treefera

    2024年4月25日,总部位于英国伦敦的从事碳抵消业务的AI环保数据平台 Treefera 宣布筹集了1200万美元的A轮融资,本轮融资由 AlbionVC 领投。

    该公司计划将筹集的资金用于增强其平台能力,扩大其全球团队,并巩固其在基于自然资产数据领域的关键参与者地位。

    Treefera由Jonathan Horn(前摩根大通董事总经理)和Caroline Grey(前UiPath首席客户官)于2022年创立,提供AI驱动的环保数据管理平台,专注于为碳信用和供应链可持续性等基于自然的资产报告带来透明度和准确性。通过整合卫星、无人机和地面真实数据,并结合AI算法,Treefera平台为客户提供持续的监控、保证和风险评估。

    (消息来源:Tech.eu

  • AI安全分析初创公司Dropzone AI获1685万美元A轮融资

    Dropzone AI

    2024年4月25日,总部位于美国西雅图的AI安全分析初创公司 Dropzone AI 宣布筹集了1685万美元的A轮融资。本轮融资由Theory Ventures领投,Decibel Partners、Pioneer Square Ventures和In-Q-Tel (IQT)等现有投资者和多位天使投资人也参与了投资。

    该公司计划将筹集的资金用于继续扩大其市场推广和工程团队的规模。

    Dropzone AI成立于2023年,提供经过预训练的自主AI分析师,与安全操作团队中的人类分析师一起工作,处理来自安全系统的大量警报。使用尖端的大型语言模型,Dropzone的AI分析师可执行端到端的调查,复制精英分析师的技术,使人类分析师能够专注于真正的威胁和更高价值的工作。

    (消息来源:BusinessWire

  • IDM-VTON – 逼真的开源AI虚拟试穿框架

    IDM-VTON是什么

    IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。该技术包含两个关键组件:一是视觉编码器,用于提取服装图像的高级语义信息;二是GarmentNet,一个并行UNet网络,用于捕捉服装的低级细节特征。IDM-VTON还引入了详细的文本提示,以增强模型对服装特征的理解,从而提升生成图像的真实度。

    IDM-VTON

    IDM-VTON的功能特色

    • 虚拟试穿图像生成:根据用户和服装的图像,生成用户穿戴特定服装的虚拟图像。
    • 服装细节保留:通过GarmentNet提取服装的低级特征,确保服装的图案、纹理等细节在生成的图像中得到准确反映。
    • 支持文本提示理解:利用视觉编码器和文本提示,使模型能够理解服装的高级语义信息,如款式、类型等。
    • 个性化定制:允许用户通过提供自己的图像和服装图像,定制化生成更符合个人特征的试穿效果。
    • 逼真的试穿效果:IDM-VTON能够生成视觉上逼真的试穿图像,不仅在视觉上与服装图像保持一致,而且能够自然地适应人物的姿态和体型。

    IDM-VTON

    IDM-VTON的官网入口

    IDM-VTON的工作原理

    IDM-VTON

    1. 图像编码:首先,将人物(xp)和服装(xg)的图像编码成模型可以处理的潜在空间表示。
    2. 高级语义提取:使用图像提示适配器(IP-Adapter),这是一个利用图像编码器(如CLIP模型)来提取服装图像的高级语义信息的组件。
    3. 低级特征提取:通过GarmentNet,一个专门设计的UNet网络,来提取服装图像的低级细节特征,如纹理、图案等。
    4. 注意力机制
      • 交叉注意力:将高级语义信息与文本条件结合,通过交叉注意力层进行融合。
      • 自注意力:将低级特征与来自TryonNet的特征结合,并通过自注意力层进行处理。
    5. 详细文本提示:为了增强模型对服装细节的理解,提供详细的文本提示,描述服装的具体特征,如“短袖圆领T恤”。
    6. 定制化:通过微调TryonNet的解码器层,可以使用特定的人物-服装图像对来定制化模型,以适应不同的人物和服装特征。
    7. 生成过程:利用扩散模型的逆过程,从加入噪声的潜在表示开始,逐步去噪生成最终的虚拟试穿图像。
    8. 评估与优化:在不同的数据集上评估模型的性能,使用定量指标(如LPIPS、SSIM、CLIP图像相似性得分和FID得分)和定性分析来优化模型。
    9. 泛化测试:在In-the-Wild数据集上测试模型的泛化能力,该数据集包含真实世界的场景,以验证模型在未见过的服装和人物姿态上的表现。

    IDM-VTON的应用场景

    • 电子商务:在线上购物平台中,IDM-VTON可以让用户在不实际穿上衣物的情况下,预览服装穿在自己身上的效果,从而提高购物体验和满意度。
    • 时尚零售:时尚品牌可以利用IDM-VTON来增强顾客的个性化体验,通过虚拟试穿展示最新款式,吸引顾客并促进销售。
    • 个性化推荐:结合用户的身材和偏好数据,IDM-VTON可以用于个性化推荐系统,为用户推荐适合其身材和风格的服装。
    • 社交媒体:用户可以在社交媒体上使用IDM-VTON来尝试不同的服装风格,分享试穿效果,增加互动和娱乐性。
    • 时尚设计和展示:设计师可以使用IDM-VTON来展示他们的设计作品,通过虚拟模特展示服装,而无需制作实体样衣。
  • ID-Animator – 腾讯等推出的个性化人物视频生成框架

    ID-Animator是什么

    ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图像生成个性化视频,同时保留图像中的人物身份特征,并能够根据文本提示调整视频内容。该框架通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现了高效的视频生成,且无需针对特定身份进行额外的训练。ID-Animator通过构建专门的数据集和采用随机面部参考训练方法,提高了视频的身份保真度和生成质量。

    ID-Animator

    ID-Animator的主要功能

    • 修改视频角色(Recontextualization): ID-Animator能够根据提供的参考图像和文本,改变视频中角色的上下文信息。例如,可以通过文本提示调整角色的发型、服装、背景,甚至执行特定动作,从而创造出全新的角色背景故事。
    • 年龄和性别修改(Age and Gender Alteration): 该模型能够根据需要对视频中角色的年龄和性别进行调整,以适应不同的视频内容和风格需求。如生成年轻人像变老、男生变女生的视频。
    • 身份混合(Identity Mixing): ID-Animator能够混合两个不同身份的特征,按照不同的比例生成具有综合特征的视频,这在创造新的角色或混合现实中的人物特征时非常有用。
    • 与ControlNet的结合: ID-Animator可与ControlNet等现有精细条件模块兼容,通过提供单帧或多帧控制图像,可以生成与控制图像紧密结合的视频序列,这在生成特定动作或场景的视频时非常有用。
    • 社区模型集成: ID-Animator还能够与社区模型(如Civitai上的模型)集成,即使没有在这些模型上进行过训练,也能有效地工作,保持了面部特征和动态生成的稳定性。

    ID-Animator

    ID-Animator的官网入口

    ID-Animator的工作原理

    ID-Animator的工作原理

    1. 预训练的文本到视频扩散模型:ID-Animator使用一个预训练的文本到视频(Text-to-Video, T2V)扩散模型作为基础,该模型能够根据文本提示生成视频内容。
    2. 面部适配器(Face Adapter):为了生成与特定身份一致的视频,ID-Animator引入了一个轻量级的面部适配器。这个适配器通过学习面部潜在查询来编码与身份相关的嵌入信息。
    3. 身份导向的数据集构建:研究者构建了一个面向身份的数据集,这包括解耦的人类属性和动作字幕技术,以及从构建的面部图像池中提取的面部特征。
    4. 随机面部参考训练方法:ID-Animator采用随机采样的面部图像进行训练,这种方法有助于将与身份无关的图像内容与与身份相关的面部特征分离,从而使适配器能够专注于学习与身份相关的特征。
    5. 文本和面部特征的融合:ID-Animator将文本特征和面部特征结合在一起,通过注意力机制(Attention Mechanism)进行融合,以生成既符合文本描述又保留身份特征的视频。
    6. 生成过程:在生成视频时,ID-Animator首先接收一个参考面部图像和相应的文本提示。面部适配器将参考图像的特征编码为嵌入,然后将这些嵌入与文本特征一起输入到扩散模型中,最终生成视频。
    7. 优化和训练:为了提高模型的性能,ID-Animator的训练过程包括使用随机面部图像作为参考,以减少参考图像中与身份无关特征的影响,并通过分类器自由引导(Classifier-Free Guidance)等技术优化视频生成质量。
    8. 兼容性和扩展性:ID-Animator设计为与多种预训练的T2V模型兼容,如AnimateDiff,这使得它可以轻松地集成到现有的系统中,并在不同的应用中进行扩展。
  • 韩国B2B AI初创公司DALPHA获120亿韩元Pre-A轮融资

    DALPHA

    2024年4月24日,总部位于韩国首尔的B2B AI解决方案初创公司 DALPHA 宣布筹集了120亿韩元(约870万美元)的PreA轮融资。本轮融资由Mirae Asset Venture Investment领投,新投资者包括Intervest、DSC Investment、IMM Investment和Partners Investment,现有投资者Primer Saze partners和Springcamp也参与了本轮融资。

    该公司计划将筹集的资金用于推出新的SaaS(软件即服务)产品,以促进B2B定制AI解决方案的更易采用。

    Dalpha成立于2023年1月,公司主要业务是创建和提供定制的AI解决方案,帮助企业最大化收入、降低成本并提升客户体验。Dalpha已在电子商务、时尚美妆、市场营销和内容等多个行业开发并提供了超过100种定制AI解决方案,并与超过150家企业在各种AI项目上进行了合作,包括KT Commerce、LG Uplus、Daehong Planning和CJ Olive Networks等大型企业以及My Real Trip、NRISE(Wippy运营商)和MAKEUS(Dingo运营商)等初创公司。

    (消息来源:WOWTALE

  • AI编程初创公司Augment获2.27亿美元B轮融资

    Augment

    2024年4月25日,总部位于美国加利福尼亚州的AI编程助手初创公司 Augment 宣布已经从隐秘模式中退出,并完成了 2.27 亿美元的 B 轮融资,投后估值接近独角兽(9.77 亿美元)。本轮融资的投资方包括 Sutter Hill Ventures、Index Ventures 和 Innovation Endeavors 、Lightspeed Venture Partners 和 Meritech Capital等风险投资公司。加上此前 Sutter Hill Ventures 领投的 2500 万美元 A 轮融资,Augment 的总融资额达到了 2.52 亿美元。

    该公司计划将筹集的资金用于开发与GitHub Copilot竞争的产品,即一个AI编程助手。

    Augment 由前微软和PureStorage工程师 Igor Ostrovsky 和前 Google 人工智能研究科学家 Guy Gur-Ari 联合成立于 2022 年,其人工智能平台旨在对代码库有专业的理解,以思考的速度运行,支持团队而不仅仅是个人,并仔细保护知识产权。该公司的目标是为软件团队提供人工智能支持,并颠覆当今软件开发的方式。

    (消息来源:TechCrunchAugment

  • OpenELM – 苹果开源的高效语言模型系列

    OpenELM是什么

    OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

    苹果OpenELM

    OpenELM的基本信息

    • 参数规模:OpenELM总共有八个模型,其中四个是预训练的,四个是指令微调的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数规模(270M、450M、1.1B和3B)。
    • 技术架构:OpenELM采用了基于Transformer的架构,使用了层间缩放(layer-wise scaling)策略,通过调整注意力头数和前馈网络(FFN)的乘数来实现参数的非均匀分配。该模型采用了分组查询注意力(Grouped Query Attention, GQA)代替多头注意力(Multi-Head Attention, MHA),使用SwiGLU激活函数代替传统的ReLU,以及RMSNorm作为归一化层。
    • 预训练数据:OpenELM使用了多个公共数据集进行预训练,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,总计约1.8万亿个token。
    • 开源许可:OpenELM的代码、预训练模型权重和训练指南都是在开放源代码许可证下发布的。此外,苹果还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。

    OpenELM的官网入口

    OpenELM模型

    OpenELM的技术架构

    • Transformer架构:OpenELM采用了仅解码器(decoder-only)的Transformer模型架构,这是一种在自然语言处理中广泛使用的架构,特别适用于处理序列数据。
    • 层间缩放(Layer-wise Scaling):OpenELM通过层间缩放技术有效地在模型的每一层分配参数。这意味着模型的早期层(接近输入端)使用较小的注意力维度和前馈网络维度,而接近输出端的层则逐渐增加这些维度的大小。
    • 分组查询注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替传统的多头注意力(Multi-Head Attention, MHA)。GQA是一种注意力机制的变体,旨在提高模型处理长距离依赖的能力。
    • RMSNorm归一化:OpenELM使用了RMSNorm作为其归一化层,一种有助于稳定训练过程的技术。
    • SwiGLU激活函数:在前馈网络(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函数,一种门控激活函数,有助于模型捕捉复杂的模式。
    • RoPE位置编码:为了编码位置信息,OpenELM使用了旋转位置编码(Rotary Positional Embedding, RoPE),一种可以处理序列中元素顺序的编码方式。
    • Flash注意力:在计算缩放点积注意力(scaled dot-product attention)时,OpenELM使用了Flash注意力,这是一种快速且内存高效的注意力计算方法。

    OpenELM的性能表现

    研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

    OpenELM基准测试得分