Author: Chimy

Buddywise获350万欧元种子轮融资，利用AI检测工作场所安全

2024年3月25日消息，总部位于瑞典斯德哥尔摩的利用AI检测工作场所安全的初创公司 Buddywise 筹集了350万欧元的种子资金，本轮融资由 J12 和 Kvanted 共同领投，现有投资者 Aligned 和 Antler 跟投，Soundcloud创始人 Eric Quidenus-Wahlforss 也参与其中。

该公司计划将筹集的资金用于将加速招募顶尖商业和技术人才，并进一步扩大其现有的国际工业企业客户群，以启动公司在欧洲的商业扩张。

Buddywise 成立于 2020 年，使用机器学习和计算机视觉来检测工作场所的安全风险，然后整理这些风险数据以防止进一步发生事故。工业客户将其现有的摄像头基础设施连接到 Buddywise 平台，该平台使用对镜头的算法分析来标记潜在风险。

（消息来源：EU-Startups）

March 25, 2024
AI数据管理平台Foundational获800万美元种子轮融资

2024年3月25日消息，总部位于美国加利福尼亚州旧金山的 AI 数据管理初创公司 Foundational 宣布已筹集 800 万美元种子资金，由 Viola Ventures 和 Gradient Ventures（谷歌专注于人工智能的投资基金）领投，Asymmetry Capital Partners 以及来自 Datadog、Intuit、Meta、Wiz 等公司的创始人和高管参投。

该公司计划将筹集的资金用于推动进一步的产品开发和市场扩张。

Foundational 由 Alon Nafta（首席执行官）、Barak Gargoun（首席技术官）、Omri Ildis（研发副总裁）于 2022 年联合创立，该公司的数据管理平台可自动映射和分析数据团队的代码，以识别潜在问题、提出修复建议并帮助为人工智能应用程序准备数据。

（消息来源：BusinessWire）

March 25, 2024
AI投资会计平台FundGuard获1亿美元C轮融资

2024年3月25日消息，以色列 AI 投资会计初创公司 FundGuard 宣布完成了 1 亿美元的 C 轮融资，该公司开发了云原生、人工智能驱动的多资产类别投资会计平台。本轮融资由 Key1 Capital 领投，新投资者包括 Euclidean Capital 和 Hamilton Lane 管理的基金。现有投资者以及该公司最早的财务投资者：Blumberg Capital 和 Team8 也参与了本轮融资。

该公司计划将本轮筹集的资金用于加速新产品能力并进一步扩大公司的市场覆盖范围。

FundGuard 由 Lior Yogev（首席执行官）、Yaniv Zecharya（首席技术官）和 Uri Katz（研发副总裁）于 2018 年创立。该公司利用云原生技术和人工智能功能来实现投资运营的转型，以实现投资会计运营和工作流程的现代化和简化。FundGuard 帮助资产管理者及其服务提供商管理共同基金、ETF、对冲基金、保险产品和养老基金，支持数字化转型、运营自动化、基于人工智能的见解和迁移到云。

（消息来源：CTech）

March 25, 2024
VoiceCraft – 开源的语音编辑和文本转语音模型
VoiceCraft是什么

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型，专注于零样本语音编辑和文本到语音（TTS）任务。该模型采用Transformer架构，通过创新的token重排过程，结合因果掩蔽和延迟叠加技术，可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能，生成的语音自然甚至难以与原声区分。

VoiceCraft的官网入口
- 官方项目主页：https://jasonppy.github.io/VoiceCraft_web/
- GitHub源码库：https://github.com/jasonppy/VoiceCraft
- 研究论文：https://jasonppy.github.io/assets/pdfs/VoiceCraft.pdf
VoiceCraft的功能特性
- 语音编辑：VoiceCraft能够在不需要针对性训练的情况下，对现有的语音录音进行编辑，如插入、删除或替换其中的词语，而编辑后的语音听起来自然，与原录音难以区分。
- 文本到语音转换：该模型能够仅根据文本和简短的声音样本，生成与目标声音相似的语音，无需在训练过程中接触过目标声音。
- 高质量语音合成：VoiceCraft在合成语音时，能够保持语音的自然度和清晰度，使得合成语音在听觉上与真实人声相近。
- 多样化数据适应性：模型在多种口音、说话风格、录音条件以及背景噪音和音乐的挑战性数据集上进行了评估，显示出良好的适应性和一致的性能。
VoiceCraft的工作原理
1. 神经编解码器架构：VoiceCraft采用了Transformer架构，一种依赖于自注意力机制的深度学习模型，能够处理序列数据并捕捉序列中的长距离依赖关系。Transformer架构在自然语言处理（NLP）领域已经证明了其高效性，VoiceCraft将其应用于语音信号的处理。
2. Token重排过程：VoiceCraft引入了一种特殊的token重排过程，该过程包括两个主要步骤——因果掩蔽和延迟叠加。这个过程允许模型在生成语音时考虑到前后文信息，从而生成更加自然和连贯的语音序列。
  - 因果掩蔽：这一步骤涉及将输入语音信号量化为一系列编码器token，并将这些token按照因果关系（即不影响未来输出）进行掩蔽。这意味着模型在预测被掩蔽的token时，只能依赖于未被掩蔽的token。
  - 延迟叠加：在因果掩蔽的基础上，延迟叠加步骤进一步调整了编码器token的时间维度，以确保模型在预测当前时间步的编码器token时，能够有效地利用之前时间步的信息。
3. 自回归序列预测：VoiceCraft在训练和推理过程中使用自回归序列预测方法。这意味着模型会一次生成一个token，并在每个时间步使用之前生成的所有token作为上下文信息来预测下一个token。
4. 多码本建模：为了提高效率和生成质量，VoiceCraft使用了残差向量量化（RVQ）技术，将语音信号编码为多个码本的序列。这些码本捕捉了语音的不同特征，使得模型能够更精细地建模语音信号。
5. 推理和生成：在推理阶段，VoiceCraft根据输入的文本和音频信息（对于零样本TTS任务，还包括目标声音的简短参考录音），自回归地生成对应的语音序列。对于语音编辑任务，模型会根据原始音频和编辑后的文本目标，生成与目标文本匹配的语音，同时保持未编辑部分的原始特征。
VoiceCraft的应用场景
- 有声读物制作：VoiceCraft可以用来创建高质量的有声读物，通过生成自然流畅的语音来讲述故事或书籍内容，为听众提供沉浸式的听觉体验。
- 视频内容创作：在互联网视频制作中，VoiceCraft可以用于快速生成旁白或角色对话，特别是在动画、教育视频或广告中，可以节省配音成本并提高制作效率。
- 播客音频编辑：对于播客制作者，VoiceCraft提供了强大的音频编辑工具，可以轻松修正错误或更改内容，而无需重新录制整个播客，从而加快内容发布流程。
- 多语言内容生产：VoiceCraft的跨语言能力使其能够为不同语言的听众生成内容，有助于跨越语言障碍，实现全球化的内容分发。
March 25, 2024
StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
StreamingT2V是什么

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型，旨在解决现有模型仅能生成16帧或24帧的高质量短视频，而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块（CAM）和外观保持模块（APM）以及随机混合方法，实现了长视频（最长达1200帧、时长2分钟）的流畅生成，确保了时间上的连贯性和与文本描述的紧密对齐。该方法不仅提高了视频的质量，还使得视频内容更加丰富和动态，从而在长视频生成领域取得了显著进步。

StreamingT2V的官网入口
- 官方项目主页：https://streamingt2v.github.io/
- GitHub代码库：https://github.com/Picsart-AI-Research/StreamingT2V（模型和源码待上线）
- arXiv研究论文：https://arxiv.org/abs/2403.14773
StreamingT2V的功能特性
- 长视频生成：StreamingT2V能够根据文本描述生成长视频（80, 240, 600, 1200帧或更多），远超传统模型通常生成的短视频长度。
- 时间连贯性：生成的视频帧之间具有平滑的过渡和一致性，避免了生成长视频时常见的硬切换或不连贯现象。
- 高质量图像帧：该模型注重帧级别的图像质量，保证即使在视频较长的情况下，每一帧的图像也能保持清晰和细腻。
- 文本对齐：StreamingT2V生成的视频紧密对齐于输入的文本提示描述，确保视频内容与用户的文本指导保持一致。
- 视频增强：利用随机混合方法，StreamingT2V可以在不引入块间不一致性的情况下，对生成的视频进行质量增强，提高视频的分辨率和视觉效果。
StreamingT2V的工作流程

StreamingT2V的工作流程可以分为以下几个主要阶段：
1. 初始化阶段（Initialization Stage）：
  - 在这一阶段，首先使用预训练的文本到视频模型（例如Modelscope）来合成一个初始的视频块，通常是一个短的16帧的视频序列。
2. 流式生成阶段（Streaming T2V Stage）：
  - 接下来，模型进入自回归的长视频生成过程。在这个阶段，StreamingT2V使用条件注意模块（CAM）和外观保持模块（APM）来生成长视频的后续帧。
  - CAM利用短期记忆，通过注意力机制关注前一个视频块的特征，从而实现块之间的平滑过渡。
  - APM则利用长期记忆，从初始视频块中提取关键的视觉特征，确保在整个视频生成过程中保持场景和对象的一致性。
3. 流式细化阶段（Streaming Refinement Stage）：
  - 在生成了足够长的视频（例如80, 240, 600, 1200帧或更多）后，模型进入细化阶段。
  - 在这一阶段，使用高分辨率的文本到视频模型（例如MS-Vid2Vid-XL）对生成的视频进行自回归增强。
  - 通过随机混合方法，对连续的24帧视频块进行增强，同时保持块之间的平滑过渡，从而提高视频的整体质量和分辨率。
March 25, 2024
SUPIR – 高保真的AI图像修复和画质增强模型
SUPIR是什么

SUPIR（Scaling-UP Image Restoration）是一个突破性的图像修复和画质增强方法，利用了大规模的生成模型StableDiffusion-XL（SDXL）和模型扩展技术，通过深度学习和多模态方法，实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制，能够根据用户的输入调整恢复的各个方面，如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的研究人员共同推出。

SUPIR的官网入口
- 官方项目主页：https://supir.xpixel.group/
- GitHub源码库：https://github.com/Fanghua-Yu/SUPIR
- arXiv研究论文：https://arxiv.org/abs/2401.13627
SUPIR的主要功能
- 高质量图像修复：SUPIR能够将低质量的图像恢复到接近原始状态的高质量版本，可以处理由于各种原因（如压缩、噪点、模糊等）导致的图像退化。
- 修复多种类型的图像：SUPIR能够有效修复多种类型的退化图像，包括风景、人脸、动物、游戏画面、老电影和老照片，可增强图像细节，恢复清晰度和真实感，让图像焕发新生。
- 文本提示引导修复：SUPIR允许用户通过文本提示来指导图像恢复的过程，可以指定恢复的特定方面，例如修复图像中的某个模糊物体、改变物体的材质纹理，或者根据高级语义调整图像的恢复效果。
- 负质量提示：SUPIR使用负质量提示来提高图像的感知质量，通过告诉模型哪些图像特征是不期望的（例如“油画效果、卡通化、模糊、脏乱、低质量”等），模型可以在恢复过程中避免这些特征，从而提升图像的整体质量。
SUPIR的工作原理
1. 生成性先验：SUPIR使用StableDiffusion-XL（SDXL）作为其生成性先验（Generative Prior），一个包含26亿参数大型的预训练图像生成模型。生成性先验是模型学习到的图像数据分布的知识，用于指导图像的生成和恢复过程。
2. 数据集和文本注释：为了训练SUPIR，研究者收集了一个包含2000万张高分辨率、高质量的图像的数据集，每张图像都有详细的描述性文本注释。这些注释提供了图像内容的额外信息，使得模型能够更好地理解和恢复图像。
3. 适配器：为了有效地应用SDXL模型，研究者设计并训练了一个适配器，该适配器具有超过6亿参数。适配器的作用是识别低质量图像中的内容，并在像素级别上精细控制生成过程。
4. 文本提示控制：SUPIR能够根据用户提供的文本提示来指导图像的恢复，提示词可以是关于图像内容的具体描述，也可以是关于期望图像质量的高级语义描述。
5. 负质量提示和训练样本：为了提高图像的感知质量，SUPIR引入了负质量提示，帮助模型理解不希望出现的图像特征。研究者通过使用SDXL生成对应于负质量提示的图像，并将这些图像纳入训练数据中，以确保模型能够学习到这些负质量概念。
6. 恢复引导采样：为了防止生成过程中的图像失真，SUPIR采用了一种新颖的恢复引导采样方法，在扩散过程中有选择性地引导预测结果接近低质量图像，以保持恢复的一致性。
7. 模型训练和采样设置：SUPIR在训练过程中使用了合成退化模型，并在64个Nvidia A6000 GPU上进行了为期10天的训练。测试时，模型能够处理1024×1024像素大小的图像。
SUPIR的应用场景
- 老照片修复：SUPIR可以用于修复老化、损坏或褪色的老照片，恢复其原始的色彩和细节，使珍贵的记忆得以保存和传承。
- 模糊图像增强：对于因手抖、对焦错误或运动模糊导致的照片，SUPIR能够通过先进的算法提高图像的清晰度，使得原本模糊的图像变得更加锐利。
- 噪点去除：在高ISO或低光照条件下拍摄的照片往往会有噪点。SUPIR能够有效地识别并去除这些噪点，同时保留图像的重要细节。
- 色彩校正和增强：SUPIR能够识别和修正色彩失真问题，如过度饱和或色彩偏差，使图像的色彩更加真实和生动。
March 25, 2024
BrushNet – 腾讯推出的高质量图像照片修复模型
BrushNet是什么

BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复（Inpainting）模型，通过分解的双分支架构来有效处理图像中的遮罩区域。该模型的一个分支专注于提取遮罩图像的像素级特征，而另一个分支则负责图像的生成。这种设计使得BrushNet能够将关键的遮罩信息以分层的方式精细地融入到修复过程中，从而在保持原有图像内容连贯性的同时，生成高质量的修复结果。

与以前的图像修复方法相比（如Blended Latent Diffusion、Stable Diffusion Inpainting、HD-Painter、PowerPaint等），BrushNet的图像还原修复能力无论是在风格、内容，还是颜色和提示对齐等方面都表现出了优越的连贯性。

BrushNet的官网入口
- 官方项目主页：https://tencentarc.github.io/BrushNet/
- GitHub代码库：https://github.com/TencentARC/BrushNet
- arXiv研究论文：https://arxiv.org/abs/2403.06976
BrushNet的功能特性
- 修复不同类型的图像：BrushNet可修复不同场景的图像，如人类、动物、室内和室外场景，还可以修复不同风格的图像，如自然图像、铅笔画、动漫、插图、水彩等。
- 像素级修复：BrushNet能够识别和处理图像中的遮罩区域，对每个像素进行精确的修复，确保修复区域与原始图像在视觉上的无缝对接。
- 保留未遮罩区域：通过分层控制和特定的模糊融合策略，BrushNet能够在修复过程中保留未被遮罩的区域，避免对原始图像内容的不必要改动。
- 与预训练模型的兼容性：作为一个即插即用的模型，BrushNet可以与各种预训练的扩散模型（如DreamShaper、epiCRealism、MeinaMix等）结合，利用这些模型的强大生成能力来完成修复任务。
- 灵活性和控制性：用户可以通过调整模型的参数来控制修复的规模和细节，包括修复区域的大小和修复内容的详细程度。
BrushNet的工作原理

BrushNet 基于扩散模型通过一个创新的双分支架构来执行图像修复任务。

以下是BrushNet工作原理的简要概述：
1. 双分支架构：BrushNet的核心是一个分解的双分支架构，其中一个分支专注于处理遮罩图像的特征，而另一个分支负责生成图像的其余部分。
2. 遮罩图像特征提取：在遮罩分支中，模型使用变分自编码器（VAE）对遮罩图像进行编码，以提取其潜在特征。这些特征随后被用来指导图像的修复过程。
3. 预训练扩散模型：在生成分支中，模型利用预训练的扩散模型来生成图像内容。这个模型已经学会了如何从噪声中恢复出清晰的图像。
4. 特征融合：提取的遮罩图像特征被逐步融合到预训练的扩散模型中，这样可以通过层级的方式细致地控制修复过程。
5. 去噪和生成：在反向扩散过程中，模型通过迭代去噪步骤，逐步从噪声中恢复出清晰的图像。每一步都会考虑遮罩图像的特征，以确保修复区域与原始图像的其余部分在视觉上保持一致。
6. 模糊融合策略：为了更好地保留未遮罩区域的细节，BrushNet采用了模糊融合策略。这意味着在融合遮罩区域和生成区域时，会使用模糊的遮罩来减少硬边缘和不自然的过渡。
7. 输出修复图像：最终，模型输出一个修复后的图像，其中遮罩区域被自然而连贯地填充，同时未遮罩区域的原始内容得到保留。
March 23, 2024
AI个人财务跟踪应用Copilot Money获600万美元A轮融资

2024年3月22日，总部位于美国纽约的个人财务跟踪应用初创公司 Copilot Money 获 600 万美元的 A 轮融资，由 Adjacent 领投。

该公司计划将筹集的资金用于将 Copilot 引入所有平台并加速人工智能和产品的开发工作。

Copilot Money 由 Andres Ugarte 于 2019 年创立，2020 年推出同名的个人财务跟踪应用，该应用设计精美，提供 Mac、iPhone、iPad 版，曾多次获苹果App Store编辑推荐以及上榜2023年度最佳App。该应用利用人工智能和机器学习，可帮助用户更好地管理个人财务，如跟踪支出、预算、投资和净资产。Copilot 目前已经采用机器学习来个性化支出分类，通过将需要手动重新分类的交易次数减少一半，从而节省用户的时间。

（消息来源：TechCrunch）

March 22, 2024
LATTE3D – 英伟达推出的文本快速生成3D对象的模型
LATTE3D是什么

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型，能够从文本提示描述快速生成高质量的3D内容（仅需400毫秒）。该技术的核心在于采用了一种称为“摊销优化（amortized）”的方法，即在大量文本提示上同时优化一个共享的文本条件模型，以此提高模型对新提示的泛化能力，从而减少了生成每个3D对象所需的时间。

LATTE3D的官网入口
- 官方项目主页：https://research.nvidia.com/labs/toronto-ai/LATTE3D/
- 研究论文：https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view
LATTE3D的主要功能
- 文本到3D合成： 能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示，如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”，来生成具有特定特征和风格的3D对象。
- 快速生成： LATTE3D可以在大约400毫秒内生成3D对象，这使得它能够实时地响应用户的输入，为用户提供即时的视觉反馈。
- 高质量渲染： 通过结合神经场和纹理表面生成，LATTE3D能够产生具有高细节水平的纹理网格，提供视觉上令人信服的3D渲染结果。
- 3D风格化： LATTE3D还可以作为3D风格化工具，允许用户在现有的3D资产上应用新的风格或主题，从而创造出多样化的视觉表现。
LATTE3D的架构方法

LATTE3D 的训练包含两个阶段：首先，使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性，训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后，使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。

LATTE3D 的方法使用两个网络：纹理网络 T 和几何网络 G，两者均由 triplanes 和 U-Net 的组合组成。在第一阶段，两个网络的编码器共享相同的权重集。在第二阶段，冻结几何网络 G 并更新纹理网络 T，并使用输入文本嵌入的 MLP 进一步对 triplanes 进行上采样。
March 22, 2024
Proxy Foods获230万美元融资，利用AI研发食品和饮料配方

3月21日，总部位于美国华盛顿马萨诸塞州的人工智能初创公司 Proxy Foods 宣布筹集了 230 万美元的种子轮融资，该公司为食品和饮料公司提供了一种使用人工智能创建配方的方法。

本轮融资由多位天使投资人参与，包括亿万富翁 Leonsis（Monumental Sports & Entertainment 的创始人兼 CEO、NBA 华盛顿奇才队的老板）、Cava Group Inc. 的三位联合创始人——Ike Grigoropoulos、Ted Xenohristos 和 Dimitri Moshovitis——以及风险投资公司 SWaN & Legend Venture 的两位合伙人 Anthony Nader 和 Fredrick Schaufeld，RGH Capital董事长兼首席执行官Robert G. Hisaoka。

Proxy Foods 由首席执行官兼联合创始人 Panos Kostopulos 于 2022 年创立，该公司使用机器学习算法和人工智能为食品和饮料公司更快地制作配方。

（消息来源：The Business Journals）

March 22, 2024