Skip to main content

Author: Chimy

LATTE3D – 英伟达推出的文本快速生成3D对象的模型

LATTE3D是什么

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。该技术的核心在于采用了一种称为“摊销优化(amortized)”的方法,即在大量文本提示上同时优化一个共享的文本条件模型,以此提高模型对新提示的泛化能力,从而减少了生成每个3D对象所需的时间。

LATTE3D

LATTE3D的官网入口

LATTE3D的主要功能

  • 文本到3D合成: 能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示,如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”,来生成具有特定特征和风格的3D对象。
  • 快速生成: LATTE3D可以在大约400毫秒内生成3D对象,这使得它能够实时地响应用户的输入,为用户提供即时的视觉反馈。
  • 高质量渲染: 通过结合神经场和纹理表面生成,LATTE3D能够产生具有高细节水平的纹理网格,提供视觉上令人信服的3D渲染结果。
  • 3D风格化: LATTE3D还可以作为3D风格化工具,允许用户在现有的3D资产上应用新的风格或主题,从而创造出多样化的视觉表现。

LATTE3D的架构方法

LATTE3D 的训练包含两个阶段:首先,使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性,训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后,使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。

LATTE3D的架构

LATTE3D 的方法使用两个网络:纹理网络 T 和几何网络 G,两者均由 triplanes 和 U-Net 的组合组成。在第一阶段,两个网络的编码器共享相同的权重集。在第二阶段,冻结几何网络 G 并更新纹理网络 T,并使用输入文本嵌入的 MLP 进一步对 triplanes 进行上采样。

Proxy Foods获230万美元融资,利用AI研发食品和饮料配方

Proxy Foods

3月21日,总部位于美国华盛顿马萨诸塞州的人工智能初创公司 Proxy Foods 宣布筹集了 230 万美元的种子轮融资,该公司为食品和饮料公司提供了一种使用人工智能创建配方的方法。

本轮融资由多位天使投资人参与,包括亿万富翁 Leonsis(Monumental Sports & Entertainment 的创始人兼 CEO、NBA 华盛顿奇才队的老板)、Cava Group Inc. 的三位联合创始人——Ike Grigoropoulos、Ted Xenohristos 和 Dimitri Moshovitis——以及风险投资公司 SWaN & Legend Venture 的两位合伙人 Anthony Nader 和 Fredrick Schaufeld,RGH Capital董事长兼首席执行官Robert G. Hisaoka。

Proxy Foods 由首席执行官兼联合创始人 Panos Kostopulos 于 2022 年创立,该公司使用机器学习算法和人工智能为食品和饮料公司更快地制作配方。

(消息来源:The Business Journals

AI/ML工作负载云平台Foundry获8000万美元种子轮和A轮融资

Foundry

3 月 22 日,总部位于加利福尼亚州帕洛阿尔托的 AI/ML 工作负载公共云提供商 Foundry 宣布在种子轮和 A 轮融资中共筹集了 8000 万美元。本轮融资由红杉资本和 Lightspeed Venture Partners 共同领投,Redpoint、Microsoft Ventures (M12)、Conviction、NEA 和多位天使投资人参投。

该公司计划利用筹集的资金扩大业务、改善产品供应并建立更多的战略合作伙伴关系。

Foundry 成立于 2022 年,由首席执行官 Jared Quincy Davis 领导,是一个公共云平台,旨在满足人工智能/机器学习工作负载的需求。Foundry 通过提供具有高性价比的可扩展 GPU 实例,解决人工智能和深度学习领域的核心经济和技术挑战。早期采用者包括 KKR 和 LG 等大型企业,斯坦福大学和麻省理工学院等学术机构,以及通过与 Lightspeed 和 Pear VC 投资合作的人工智能初创公司。

(消息来源:BusinessWire

Arc浏览器开发商The Browser Company融资5000万美元,估值5.5亿美元

Arc浏览器 - The Browser Company

3 月 21 日消息,据 TechCrunch 报道,Arc浏览器的开发商 The Browser Company 在由 Pace Capital 领投的最新一轮融资中筹集了 5000 万美元,估值为 5.5 亿美元。

The Browser Company 由 Josh Miller 于 2019 年创立,已通过多轮融资总计筹集了 1.28 亿美元,投资方包括 LinkedIn 的 Jeff Weiner、Medium 的 Ev Williams、Figma 的 Dylan Field、Notion 的 Akshay Kothari 和 GitHub 的 Jason Warner 等天使投资人。

Arc浏览器凭借其高颜值和便捷的功能而广受用户的欢迎,该浏览器还内置了多组 AI 功能,如重命名下载文件、重命名选项卡、轻松访问ChatGPT、预览链接摘要、Browse for Me生成摘要页面等。今年一月,该公司在 iOS 上发布了 Arc Search 应用程序,专注于将人工智能驱动的搜索置于其中心。

(消息来源:TechCrunch

AI生物技术初创公司Profluent获3500万美元融资,利用AI进行蛋白质设计

Profluent Bio

总部位于美国加利福尼亚州伯克利的人工智能进行蛋白质设计的生物技术初创公司 Profluent 今天宣布完成新一轮 3500 万美元融资,由 Spark Capital 领投,现有投资者 Insight Partners 和 Air Street Capital 以及来自 OpenAI、Salesforce、Octant Bio 和 Google 的天使投资者参投,其中包括 Google DeepMind 首席科学家 Jeff Dean。该公司此前从 Insight Partners、Air Street Capital、AIX Ventures 和 Convergent Ventures 筹集了 900 万美元的种子轮融资。

本轮筹集的资金将用于扩展生物医学的基础人工智能模型并首先解决基因编辑该垂直领域的难题。

Profluent 于 2022 年由曾领导 Salesforce Research 机器学习研究计划的 Madani 和华盛顿大学医学院微生物学助理教授 Alexander Meeske 共同创立。该公司致力于开发深度生成模型来设计和验证新颖的功能性蛋白质,从而彻底改变生物医学。

(消息来源:BusinessWire

Borderless AI融资2700万美元,将生成式AI引入全球招聘

Borderless AI

总部位于加拿大多伦多的AI驱动的全球招聘平台 Borderless AI 今天宣布已筹集 2700 万美元的种子资金,以利用生成式人工智能的力量来自动化和加速国际团队成员的入职、管理和薪酬流程。本轮融资由 Susquehanna 和 Aglaé Ventures 领投,后者是目前世界首富 Bernard Arnault 的风投公司。

该公司计划将筹集的资金用于扩展到新的市场并进一步完善其现有的人工智能产品套件。

Borderless AI 由连续创业者 Willson Cross 和 Lyft 的创始投资者 Sean Aggarwal 于 2023 年创立,是全球首家将 AI 智能体引入人力资源行业的公司。Borderless AI 的新型 AI 智能体 Alberni 可以快速解决复杂的HR问题并实现全球任何国家/地区流程自动化,如国际团队成员的入职、管理和薪酬支付流程,应对国际劳动法挑战,同时加速地域扩张并确保招聘流程合规。

(消息来源:Reuters

Mora – 微软等推出的可生成12秒视频的多AI智能体框架

Mora是什么

Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频内容,Mora通过分解视频生成过程为多个子任务,并为每个子任务分配一个专门的智能体,从而实现了各种视频生成的功能。

Mora框架

根据论文中的实验结果显示,Mora在生成高分辨率(1024×576)且时间持续12秒的视频方面表现出色,总共包含75帧。但当涉及大量物体运动的场景时,Mora与Sora相比存在显著的性能差距。此外,尝试生成超过12秒的视频会导致视频质量显著下降。

Mora的主要功能

  • 文本到视频生成:Mora可以根据用户提供的文本描述自动生成相应的视频内容,能适用于从简单的场景描述到复杂故事情节的视频创作。
  • 图像到视频生成:除了直接从文本生成视频,Mora还能够结合用户提供的初始图像和文本提示,生成与之相匹配的视频序列,增强内容的丰富性和细节。
  • 扩展生成视频:Mora不仅可以从头开始生成视频,还能够对现有的视频内容进行扩展和编辑,增加新的元素或延长视频的持续时间。
  • 视频到视频编辑:Mora具备高级编辑功能,能够根据用户的文本指令对视频进行编辑,如改变场景、调整对象属性或添加新元素。
  • 连接视频:Mora能够将两个或多个视频片段无缝连接起来,创造出流畅的过渡效果,适用于制作视频合集或剪辑。
  • 模拟数字世界:Mora还能够创建和模拟数字世界,可根据文本描述创造出具有数字世界风格的视频序列,如游戏场景或虚拟环境。

Mora的官网入口

Mora的工作原理

Mora的工作原理基于一个多智能体框架,该框架通过协同多个专门化的AI智能体来完成视频生成任务。每个智能体都负责处理特定的子任务,这些子任务共同构成了完整的视频生成流程。

Mora的工作原理

以下是Mora工作流程的详细步骤:

  1. 任务分解:Mora将复杂的视频生成任务分解为多个子任务,每个子任务都由一个专门的智能体来处理。
  2. 智能体角色定义:Mora定义了以下五种基本角色的智能体:
    • 提示选择与生成智能体:使用大型语言模型(如GPT-4或Llama)来优化和选择文本提示,以提高生成图像的相关性和质量。
    • 文本到图像生成智能体:将文本提示转换为高质量的初始图像。
    • 图像到图像生成智能体:根据文本指令修改给定的源图像。
    • 图像到视频生成智能体:将静态图像转换成动态视频序列。
    • 视频连接智能体:基于两个输入视频创建平滑过渡的视频。
  3. 工作流程:Mora根据任务需求,自动组织智能体按照特定的顺序执行子任务。例如,文本到视频的生成任务可能包括以下步骤:
    • 首先,提示选择与生成智能体处理文本提示。
    • 接着,文本到图像生成智能体根据优化后的文本提示生成初始图像。
    • 然后,图像到视频生成智能体将初始图像转换成视频序列。
    • 最后,如果需要,视频连接智能体可以将多个视频片段连接成一个连贯的视频。
  4. 多智能体协作:智能体之间通过预定义的接口和协议进行通信和协作,确保整个视频生成过程的连贯性和一致性。
  5. 生成与评估:每个智能体完成其子任务后,会将结果传递给下一个智能体,直至完成整个视频生成流程。生成的视频可以根据预定义的评估标准进行质量评估。
  6. 迭代与优化:Mora框架允许通过迭代和优化来改进视频生成的质量。智能体可以根据反馈调整其参数,以提高生成视频的质量和与文本提示的一致性。

智能戒指初创公司Ultrahuman获3500万美元B轮融资

Ultrahuman

总部位于印度班加罗尔的智能戒指和人工智能健康检测初创公司 Ultrahuman 宣布在 B 轮融资中通过债务和股权混合方式筹集了 3500 万美元,投资方包括 Blume Ventures、Steadview Capital、Nexus Venture Partners、Alpha Wave 和 Zomato 创始人 Deepinder Goyal。

该公司计划将筹集的资金用于进一步扩展其制造能力和更深入的健康追踪研究。

UltraHuman 由 Mohit Kumar 和 Vatsal Singhal 于 2019 年创立,提供名为 Ring Air 的智能戒指、血糖监测可穿戴设备 M1 Live 以及名为 Blood Vision 的血液检测产品等。据 Ultrahuman 称,该公司已成为智能戒指市场的第二大厂商,已扩展到全球 150 多个零售店,同时在过去 12 个月内保持盈利能力。

(消息来源:Entrackr

StreamMultiDiffusion – 实时生成和编辑图像的交互式框架

StreamMultiDiffusion是什么

StreamMultiDiffusion是一个开源的实时交互式的图像生成框架,结合了扩散模型的高质量图像合成能力和区域控制的灵活性,可根据用户指定的区域文本提示生成实时、交互式、多文本到图像。该框架的目的是提高图像生成的速度和用户交互性,使得用户能够实时地生成和编辑图像。

StreamMultiDiffusion

StreamMultiDiffusion的官网入口

StreamMultiDiffusion的功能特性

  • 实时图像生成:StreamMultiDiffusion能够实现快速的图像生成,使得用户可以实时地看到由文本描述转换成的图像。这种实时性大大提高了用户体验,并允许即时的迭代和修改。
  • 指定区域文本到图像生成:用户可以通过指定的文本提示和手绘区域来生成图像的特定部分。这意味着用户可以控制图像的特定区域,如指定某个区域应包含“鹰”或“女孩”,而其他区域则由模型根据上下文自动生成。
  • Semantic Palette(语义画板)允许用户通过直观的方式与模型交互,类似于使用画笔在画布上绘制。用户可以通过输入文本提示和绘制区域来“绘制”图像,从而实现高度个性化的图像创作。
  • 高质量图像输出:利用强大的扩散模型,StreamMultiDiffusion能够生成高分辨率和高质量的图像,满足专业级图像生成的需求。
  • 直观的用户交互界面:StreamMultiDiffusion提供了一个直观的用户界面,使得用户可以通过简单的操作来控制图像生成过程,包括上传背景图像、输入文本提示、绘制区域以及实时查看生成结果。

SteamMultiDiffusion Semantic Palette

StreamMultiDiffusion的工作原理

  1. 多提示流批处理架构:StreamMultiDiffusion将模型重构为一个新的流批处理架构,可同时处理多个文本提示和对应的区域掩码(masks)。该架构通过在每个时间步输入新的图像和上一批处理过的图像,使得模型能够在不同的时间步处理不同阶段的图像生成任务,从而提高整体的生成速度和效率。
  2. 快速推理技术:为了实现实时生成,StreamMultiDiffusion采用了快速推理技术,如Latent Consistency Models(LCM)和其LoRA(Low-rank Adaptation)扩展,减少了从扩散模型生成图像所需的推理步骤,从而加快了生成速度。
  3. 区域控制:StreamMultiDiffusion允许用户通过手绘区域和文本提示来控制图像的特定部分。这些区域掩码指导模型在指定区域内生成与文本提示相对应的内容,从而实现对图像细节的精细控制。
  4. 稳定化技术:为了确保在快速推理的同时保持图像质量,StreamMultiDiffusion引入了几种稳定化技术:
    • Latent Pre-Averaging:在进行区域合成之前,先对潜在表示进行预平均,以减少不同区域间的突兀感。
    • Mask-Centering Bootstrapping:在生成过程的早期阶段,将区域的中心引导到图像的中心位置,以确保模型不会在后续步骤中忽略这些区域。
    • Quantized Masks:通过量化掩码来平滑区域边界,使得不同区域之间的过渡更加自然。
  5. Semantic Palette(语义画板):这是StreamMultiDiffusion提出的一个新的交互式图像生成范式,允许用户通过文本提示和手绘区域来“绘制”图像。用户可以实时地调整这些输入,模型将根据这些输入生成相应的图像。
  6. 实时反馈和迭代:StreamMultiDiffusion提供了一个实时反馈机制,用户可以通过观察生成的图像流来评估模型的输出,并根据需要实时调整文本提示和区域掩码。这种实时反馈机制使得用户可以快速迭代和优化生成的图像。

如何使用StreamMultiDiffusion

  1. 访问StreamMultiDiffusion的Hugging Face空间
  2. 点击Background输入画面背景提示,若绘制整个画板,则不需要输入背景提示
  3. 选择语义画板中的画笔并编辑画笔的提示词,然后开始绘制
  4. 绘制完成后点击右侧的Generate按钮等待图像生成

AI电网基础设施检查平台Buzz Solutions获500万美元融资

Buzz Solutions

总部位于美国加利福尼亚州帕洛阿尔托的人工智能公司 Buzz Solutions 宣布筹集了新一轮 500 万美元的融资,该公司利用AI技术检查和保护关键能源/电网基础设施。本轮融资由 GoPoint Ventures 领投,Blackhorn Ventures 和 Mac Venture Capital 跟投。

筹集的资金将用于扩展其 PowerAI 检测解决方案和 PowerGUARD 状态监测解决方案到新的地区和关键电力基础设施领域。

Buzz Solutions 由 Kaitlyn Albertoli 和 Vikhyat Chaudhry于 2017 年创立,通过人工智能驱动的预测分析平台进行可视化基础设施检查,保护能源/电力基础设施。该平台使现场团队能够及时确定优先级并进行维护,减少因电网基础设施故障而导致野火、强制关闭和停电的可能性。

(消息来源:PRWeb