Author: Chimy

  • Unique3D – 清华大学团队开源的图像到3D生成模型

    Unique3D是什么

    Unique3D是清华大学团队开源的一个单张图像到3D模型转换的框架,通过结合多视图扩散模型和法线扩散模型,以及一种高效的多级上采样策略,能够从单张图片中快速生成具有高保真度和丰富纹理的3D网格。Unique3D结合ISOMER算法进一步确保了生成的3D模型在几何和色彩上的一致性和准确性,仅需30秒即可完成从单视图图像到3D模型的转换,生成效果优于InstantMesh、CRM、OpenLRM等图像转3D模型。

    Unique3D

    Unique3D的功能特色

    • 单图像3D网格生成:Unique3D能够从单个2D图像自动生成3D网格模型,将平面图像转换为具有空间深度的三维形态。
    • 多视角视图生成:系统使用多视图扩散模型生成同一物体的四个正交视图图像,这些视图从不同方向捕捉物体的特征,为3D重建提供全面的视角信息。
    • 法线贴图生成:Unique3D为每个多视角图像生成对应的法线贴图,这些贴图记录了物体表面的朝向信息,对于后续的3D模型渲染至关重要,能够模拟光线如何与表面相互作用,增强模型的真实感。
    • 多级分辨率提升:通过多级上采样过程逐步提高生成图像的分辨率,从低分辨率到高分辨率(如从256×256到2048×2048),使得3D模型的纹理和细节更加清晰。
    • 几何和纹理细节整合:在重建过程中,Unique3D将颜色信息和几何形状紧密结合,确保生成的3D模型在视觉上与原始2D图像保持一致,同时具有复杂的几何结构和丰富的纹理细节。
    • 高保真度输出:生成的3D模型在形状、纹理和颜色上与输入的2D图像高度一致,无论是在几何形态的准确性还是纹理的丰富性上都达到了高保真度的标准。

    Unique3D

    Unique3D的官网入口

    Unique3D的技术原理

    Unique3D的工作原理

    • 多视图扩散模型:利用扩散模型从单视图图像生成多视角(通常是四个正交视图)图像。这些模型通过训练学习2D图像的分布,并将其扩展到3D空间,生成具有不同视角的图像。
    • 法线扩散模型:与多视图扩散模型协同工作,为每个生成的视图图像生成对应的法线贴图,这些法线贴图包含了表面法线的方向信息,对后续的3D重建至关重要。
    • 多级上采样过程:采用多级上采样策略逐步提高生成图像的分辨率。初始生成的图像分辨率较低,通过上采样技术逐步提升至更高的分辨率,以获得更清晰的细节。
    • ISOMER网格重建算法:一种高效的网格重建算法,用于从高分辨率的多视图RGB图像和法线图中重建3D网格。ISOMER算法包括:
      • 初始网格估计:快速生成3D对象的粗糙拓扑结构和初始网格。
      • 粗糙到精细的网格优化:通过迭代优化过程,逐步改善网格的形状,使其更接近目标形状。
      • 显式目标优化:为每个顶点指定一个优化目标,解决由于视角不一致导致的问题,提高几何细节的准确性。
    • 颜色和几何先验整合:在网格重建过程中,将颜色信息和几何形状的信息整合到网格结果中,以提高最终模型的视觉真实性和准确性。
    • 显式目标(ExplicitTarget):为每个顶点定义一个优化目标,这是一个从顶点集合到颜色集合的映射函数,用于指导顶点颜色的优化,提高模型的多视图一致性。
    • 扩展正则化(Expansion Regularization):在优化过程中使用的一种技术,通过在顶点的法线方向上移动顶点来避免表面塌陷,确保模型的完整性。
    • 颜色补全算法:针对不可见区域的颜色补全,使用一种高效的算法,将可见区域的颜色平滑地传播到不可见区域,确保整个模型颜色的一致性。
  • AI搜索初创公司Genspark获6000万美元种子轮融资,由原小度科技CEO景鲲、CTO朱凯华创立

    Genspark

    AI工具集 6月19日消息,由前百度高管(原小度科技CEO景鲲和CTO朱凯华)创立的人工智能搜索初创公司Genspark已在一笔超额认购的种子轮融资中筹集了6000万美元,加入了Perplexity、You.com等挑战谷歌搜索引擎主导地位的AI搜索公司的行列。

    本轮融资由新加坡基金Lanchi Ventures领投,对这家目前尚未盈利的初创企业的估值为2.6亿美元。Lanchi Ventures(蓝驰创投)的前身是BlueRun Ventures China,去年更名,以区别于硅谷出身的BlueRun Ventures。

    更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库

    Genspark总部位于美国加利福尼亚州帕洛阿尔托,该公司表示,其搜索引擎使用各种 AI 模型提供商来索引和汇总信息。与其他搜索引擎不同之处在于使用多个专门的 AI 智能体为每个查询生成新的定制页面,以在一个页面上提供有用的结果。

    Genspark

    Genspark由原小度科技CEO景鲲(Eric Jing)、CTO朱凯华(Kay Zhu)联合创立。景鲲曾担任百度集团副总裁、百度智能生活事业群组(SLG)总经理,百度人工智能产品委员会主席。全面负责小度系列硬件、小度助手和小度对话式人工智能操作系统(DuerOS)的产品、研发、运营、商务等工作。 朱凯华本科与硕士均就读于上海交通大学,早年任职于谷歌,是 Google panda 等一系列核心算法的创造者。2013 年回国后,朱凯华进入百度工作,与景鲲从 2014 年便开始搭档合作。2020 年 9 月,小度科技正式成立,由景鲲担任 CEO,朱凯华担任 CTO。

    景鲲表示,Genspark公司20人的团队分布在加利福尼亚州帕洛阿尔托和新加坡,并计划在西雅图开设新办事处。

    Genspark专注于服务美国市场,免费向用户提供使用,未来可能探索付费订阅。其AI搜索引擎使用各种大型语言模型来处理任务,从开源模型(如 Meta 的 Llama)到 OpenAI 的 GPT 模型。

    (消息来源:Reuters

  • 谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效

    DeepMind V2A

    在人工智能领域,谷歌旗下的DeepMind公司再次取得突破性进展,推出了一款名为V2A(Video-to-Audio,视频到音频)的AI模型。该项技术能够将视频像素与文本提示相结合,为无声视频生成包含对话、音效和音乐的详细音频轨道。

    V2A技术不仅可以与DeepMind自家的视频生成模型Veo配合使用,还能与Sora可灵Gen 3等竞争对手的视频生成模型相结合,为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。当然,这项技术同样适用于为传统影像资料,如档案影像和无声电影添加声音。V2A的强大之处在于,能够为每个视频输入创造无限数量的音轨。

    DeepMind团队表示,V2A模型基于扩散模型,在同步视频和音频方面提供了最逼真和令人满意的结果。V2A系统首先将视频输入编码为压缩表示,然后扩散模型在视觉输入和文本提示的指导下,从随机噪声中逐渐细化音频。最终,音频输出被解码、转换为音频波形,并与视频数据结合。

    V2A的工作原理

    为了提高音频质量,DeepMind在训练过程中增加了额外信息,包括AI生成的声音描述和对话的转录。这样,V2A学会了将某些音频事件与不同的视觉场景联系起来,并响应描述或转录中包含的信息。

    然而,V2A技术也存在一些限制。例如,音频输出的质量取决于视频输入的质量。视频中的伪影或失真,如果超出了模型的训练分布,可能会导致音频质量显著下降。此外,视频中的唇形同步仍然不够稳定。

    目前,V2A尚未公开发布。DeepMind正在收集来自顶尖创意人士和电影制作人的反馈,以确保V2A能够对创意社区产生积极影响。公司表示,在考虑更广泛的访问之前,V2A将经过严格的安全评估和测试。

    (更多信息:Google DeepMind – Generating audio for video

  • 企业AI安全平台Aim Security完成1800万美元A轮融资

    Aim Security

    2024年6月17日,总部位于以色列特拉维夫的企业AI安全平台Aim Security宣布筹集了1800万美元的A轮融资。本轮融资由Canaan Partners领投,该公司种子轮投资者YL Ventures也参与了投资。

    该公司计划将筹集的资金用于推动其平台的发展,其平台旨在保护企业在采用和使用生成式人工智能(GenAI)时的安全。

    更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库

    Aim Security成立于2022年,由网络安全领域的资深人士Matan Getz(CEO)和Adir Gruss(CTO)创立,专注于为企业提供全面的AI使用安全解决方案,以应对AI带来的敏感数据暴露、供应链漏洞、有害或操纵输出以及越狱和提示注入等攻击方法。该公司致力于解决AI技术带来的独特数据、隐私和安全挑战,并帮助企业在不牺牲安全性的前提下,充分利用AI技术的潜力。

    (消息来源:BusinessWire

  • AI风险管理初创公司Trustwise筹集了400万美元的种子轮融资

    TrustWise

    2024年6月18日,总部位于美国奥斯汀的生成式AI应用性能和风险管理初创公司Trustwise宣布筹集了400万美元的种子轮融资。本轮融资由Hitachi Ventures领投,Firestreak Ventures和Grit Ventures参与投资。

    该公司计划将筹集的资金用于加速开发成本和风险优化的生成式人工智能模型及加快其市场推广和合作伙伴战略,并进一步推动其研究计划。

    更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库

    Trustwise成立于2022年,由IBM Watson的首任总经理、连续创业者Manoj Saxena创立。该公司的主营业务是提供Trustwise Optimize:ai,一种首创的生成式人工智能应用性能和风险管理API,用于在高风险的企业环境中执行红队测试并提供强大的AI安全、成本和风险优化层。Trustwise得到了各行业领先投资者的支持,总部位于德克萨斯州奥斯汀,在剑桥、英国和纽约设有研究实验室。

    (消息来源:BusinessWire

  • AI驱动的电商会计平台Finaloop完成3500万美元A轮融资

    Finaloop

    2024年6月17日,总部位于美国纽约的AI驱动的电商会计平台Finaloop宣布筹集了3500万美元的A轮融资。本轮融资由Lightspeed Venture Partners领投,Vesey Ventures、Commerce Ventures以及现有投资者Accel和Aleph参与投资。

    该公司公司计划将筹集的资金用于进一步投资其AI驱动的电子商务会计软件自动化、库存管理能力,并扩大其市场推广和与会计公司及数据驱动型营销代理机构的合作努力。

    更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库

    Finaloop成立于2020年,由Lioran Pinchevski担任CEO和创始人。该公司提供了一个人工智能驱动的自动化电子商务会计平台,提供簿记和会计服务,可实时全面核对所有财务数据自动化会计和记账服务。Finaloop是首个为在Shopify、亚马逊、沃尔玛等众多在线商店和市场上销售的直接面向消费者(DTC)品牌量身定制的实时、AI驱动的会计服务,以及批发和多渠道业务。

    (消息来源:PR Newswire

  • Gen-3 Alpha – Runway公司最新推出的AI视频生成模型

    Gen-3 Alpha是什么

    Gen-3 Alpha是AI视频初创公司Runway最新发布的新一代AI视频生成模型,通过大规模多模态训练基础设施,显著提升了视频的保真度、一致性和动态表现。该模型能够生成10秒长、细节丰富、动作流畅的高逼真视频片段,支持文本到视频、图像到视频的转换,并提供精细的时间控制和多种高级控制模式,为艺术家和创意工作者提供了强大的工具。

    Gen-3 Alpha

    Gen-3 Alpha的功能特色

    • 高保真视频生成:Gen-3 Alpha模型能够生成长达10秒的视频片段,这些视频不仅在视觉上具有极高的清晰度和细节层次,而且在动态表现上也非常逼真。这意味着从纹理到光线反射,再到物体和角色的运动,每一个细节都被精心渲染,以达到接近现实的视觉效果。
    • 多模态输入支持:该模型支持多种输入方式,将文本描述、静态图像或现有视频转化为动态视频内容。用户可以通过文本描述来设定视频的主题和风格,或上传图片作为视频的起点,Gen-3 Alpha能够据此生成连贯且符合用户意图的视频序列。
    • 精细时间控制:Gen-3 Alpha通过训练学习了大量具有时间序列信息的描述性字幕,这使得它能够精确控制视频中的时间流动和关键帧设置。用户可以细致地调整场景转换和元素出现的时间点,创造出平滑且富有创意的视频过渡效果。
    • 逼真人物角色生成:该模型在生成具有丰富表情、动作和情感反应的人类角色方面表现出色。无论是细微的面部表情变化还是复杂的身体语言,Gen-3 Alpha都能够真实地呈现出来,极大地增强了视频的叙事力和观众的沉浸感。
    • 高级控制模式:Gen-3 Alpha提供了多种高级控制工具,使用户能够对视频的各个方面进行微调。运动画笔(Motion Brush)允许用户手动调整视频中的运动轨迹;高级相机控制(Advanced Camera Controls)提供了对摄像机视角和运动的精细调节;导演模式(Director Mode)则为用户提供了全面的镜头语言和场景调度能力。
    • 风格化控制和角色定制:用户可以根据自己的艺术愿景,对视频的风格和角色进行定制。这包括调整角色的外观、服装、表情以及场景的色调、光线和氛围,确保最终的视频作品能够符合特定的艺术风格或叙事要求。
    • 全新视觉审核系统:为了确保生成的视频内容安全、合规,Gen-3 Alpha配备了先进的视觉审核系统。该系统遵循C2PA(Content Credentials)标准,对视频内容进行自动审核,以防止不当内容的产生,保障作品的质量和合法性。

    Gen-3 Alpha

    如何使用Gen-3 Alpha

    目前,Runway已经发布Gen-3 Alpha模型,并且会在接下来的几天内对付费Runway订阅者、创意合作伙伴计划成员以及企业用户开放使用。后续,用户可通过Runway官网(runwayml.com)进行使用。如有微调、定制,或者其他类似需求,可访问定制模型页面进行申请:runwayml.com/custom-model-inquire

    Gen-3 Alpha的应用场景

    • 电影和电视制作:在电影和电视剧的前期制作中,Gen-3 Alpha可以快速生成概念视频,帮助导演和制片人预览场景和故事情节,节省实际拍摄的成本和时间。
    • 广告创意:广告行业可以利用Gen-3 Alpha快速制作吸引人的广告视频,通过逼真的人物和场景吸引观众的注意力,提高广告的吸引力和传播效果。
    • 游戏开发:在游戏设计中,Gen-3 Alpha可以用于生成游戏内的动画和过场动画,提供更加丰富和逼真的视觉体验。
    • 社交媒体内容创作:内容创作者可以使用Gen-3 Alpha生成独特的视频内容,用于社交媒体平台,吸引更多关注和互动。
    • 艺术创作:艺术家和设计师可以利用Gen-3 Alpha探索新的艺术表现形式,创作出独特的视觉作品。
    • 企业宣传:企业可以利用Gen-3 Alpha制作高质量的宣传视频,展示产品特点、企业文化或服务优势。
    • 个人娱乐:普通用户可以使用Gen-3 Alpha进行个人娱乐,如创作个人音乐视频、制作家庭影片等。
  • Hallo – 复旦百度等开源的AI对口型肖像视频生成框架

    Hallo是什么

    Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的肖像图像视频。该框架采用了基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度。Hallo的网络架构整合了UNet去噪器、时间对齐技术和参考网络,以增强动画的质量和真实感,不仅提升了图像和视频的质量,还显著增强了唇动同步的精度,并增加了动作的多样性。

    Hallo

    Hallo的功能特色

    • 音频同步动画:Hallo利用先进的音频分析技术,将输入的语音音频与肖像图像相结合,生成动态的面部动画。通过精确的唇动同步算法,确保视频动画中的嘴唇动作与音频中的声音同步,从而创造出逼真的说话效果。
    • 面部表情生成:根据音频信号中的情感和语调变化,Hallo能够自动识别并生成相应的面部表情,包括微笑、皱眉、惊讶等表情,使视频动画角色的“表演”更加自然和富有情感。
    • 头部姿态控制:Hallo允许对视频动画中的头部姿态进行细致的调整,如头部的倾斜、转动等,使得视频动画能够更好地反映音频内容的意图和情感,增强视觉与听觉的协调性。
    • 个性化动画定制:用户可以根据不同的应用场景和个人特征,对动画的风格、表情和动作进行定制。Hallo的个性化定制功能支持用户创造出独一无二的角色,满足特定的视觉和情感表达需求。
    • 时间一致性维护:Hallo通过时间对齐技术,确保动画中的动作和表情在时间上流畅过渡,避免突兀和不自然的变化。
    • 动作多样性:除了同步音频的基本动作外,Hallo还支持生成多样化的动作和风格。用户可以根据需要选择不同的动作库,为动画角色添加更多动态元素,如手势、眨眼等,从而丰富视频的表现力。

    Hallo

    Hallo的官网入口

    Hallo的技术原理

    Hallo

    • 分层音频驱动视觉合成:Hallo采用分层的方法来处理音频和视觉信息。这种分层结构允许模型分别处理嘴唇动作、面部表情和头部姿态,然后通过自适应权重将这些元素融合在一起。
    • 端到端扩散模型:Hallo使用基于扩散的生成模型,一种从潜在空间生成数据的方法。在训练阶段,数据逐渐被加入噪声,然后在逆过程中去除噪声以重建清晰的图像。
    • 交叉注意力机制:通过交叉注意力机制,Hallo能够在音频特征和视觉特征之间建立联系。该机制使得模型能够集中注意力于与当前音频输入最相关的面部区域。
    • UNet去噪器:Hallo利用基于UNet的去噪器来逐步去除图像中的噪声,生成清晰的动画帧。UNet结构因其在图像分割任务中的有效性而闻名,通过跳跃连接使用低层特征图来提高生成质量。
    • 时间对齐技术:为了保持动画在时间上的连贯性,Hallo采用了时间对齐技术,这有助于确保连续帧之间的平滑过渡和一致性。
    • 参考网络(ReferenceNet):ReferenceNet用于编码全局视觉纹理信息,以实现一致且可控的角色动画,可帮助模型在生成过程中参考现有的图像,以增强输出的视觉质量。
    • 面部和音频编码器:Hallo使用预训练的面部编码器来提取肖像的身份特征,同时使用音频特征编码器(如wav2vec)来将音频信号转换为可以驱动动画运动的信息。
    • 自适应权重调整:Hallo允许调整不同视觉组件(如嘴唇、表情、姿态)的权重,以控制动画的多样性和细节。
    • 训练与推理:在训练阶段,Hallo通过优化面部图像编码器和空间交叉注意力模块的参数来提高单帧生成能力。在推理阶段,模型结合参考图像和驱动音频来生成动画视频序列。
  • 消息称Sakana AI计划在本月进行新一轮融资,估值将超10亿美元

    AI工具集 6月15日消息,据日经新闻报道,由前谷歌研究员联合创立的日本人工智能初创公司Sakana AI,计划在本月进行一轮融资,其估值将超过10亿美元,成为日本公司最快跻身独角兽行列的公司。

    受益于生成式人工智能的蓬勃发展,该初创公司正在与美国风险投资公司New Enterprise Associates、Khosla Ventures和Lux Capital进行谈判,计划以超过11亿美元的估值筹集1.25亿美元的新资金。

    Sakana AI

    Sakana AI由David Ha、Llion Jones、Ren Ito于2023年7月创立,David Ha和Llion Jones之前在谷歌从事AI研究工作,其中Llion Jones是《Attention is All You Need》论文的作者之一。Ren Ito曾是日本外务省官员,也是电商平台Mercari的前高管。

    今年1月,该公司从Khosla Ventures、Lux Capital和其他包括NTT集团、KDDI和索尼集团在内的投资者那里筹集了3000万美元。新一轮融资所得资金将用于加速生成式AI研究。

    更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库

    相较于OpenAI和谷歌等投入巨额资金来创建和完善大规模人工智能系统,Sakana AI采取了不同的策略,从生物进化中汲取灵感,模仿生物进化系统。该公司在3月份表示,已经开发出一种进化模型技术,可以将多个小型AI模型合并,以高效地创建更复杂的系统。这种方法因其相对较低的成本和能源需求,吸引了全球投资者的兴趣。

    自2022年ChatGPT发布以来,生成式AI领域迅速增长,风险资本正在向这一领域的参与者靠拢。根据CB Insights的数据,OpenAI的估值在2月份达到了800亿美元。今年,全球前10名生成式AI独角兽中有6家进行了融资。就在本月,法国的Mistral AI和加拿大的Cohere的估值分别增长了三倍和两倍多。

    (消息来源:日经新闻

  • 阶跃星辰推出移动端AI智能问答助手跃问APP

    AI工具集 6月14日消息,由微软前全球副总裁姜大昕所创办的人工智能初创公司阶跃星辰日前宣布上线其AI智能问答助手跃问的移动端APP,用户可在苹果App Store和各大安卓应用商店进行下载使用。

    跃问APP

    跃问背后,由阶跃星辰 Step 系列通用大模型提供强大支持,包括 Step-1 千亿参数语言大模型和 Step-1V 千亿参数多模态大模型。两个千亿模型加持,让跃问可以精准描述和理解图像中的文字、数据、图表等信息,出色地完成内容创作、逻辑推理、数据分析等多项任务。

    过去2个月,阶跃星辰在联网搜索、文档解析、推理速度等许多方面进行了性能优化。同时,跃问已支持拍照识图、语音输入,pdf、doc/docx、csv、png、jpg等多种格式的文档分析。

    跃问APP的主要功能

    • 智能问答:无论是文字还是图像,跃问都能快速理解并给出最佳的答案,智能全网搜索并总结,让您轻松获取所需信息。
    • 高效阅读:长篇报告、复杂合同还是学术文献,只需上传文档,即可进行文档问答,帮助您快速理解文档内容,为您提供深入的洞察和分析。跃问也支持多数网站链接的内容读取。
    • 写作翻译:撰写文章、制作方案、跨语言沟通,跃问都能根据您的要求,生成高质量的内容,并提供多种语言的翻译服务。让您的创作更加流畅。
    • 拍照识图:随手拍建筑地标、汽车、动物、日常物品并提问,跃问能准确识别解读并给出所需解答。无论是寻找相似图片、获取图片信息还是进行图片搜索。
    • 多端同步:APP和网页端数据同步,工作生活高效加倍。

    跃问图像识别

    跃问APP的下载地址