Author: Chimy

Expedera筹集了2000万美元的B轮融资，提供边缘推理AI半导体IP

2024年5月21日，总部位于美国加州圣克拉拉的边缘推理人工智能（AI）半导体IP初创公司Expedera宣布筹集了2000万美元的B轮融资，本轮融资由indie Semiconductor领投，新投资者和现有投资者参与其中。

更多AI公司融资情况请查看👉：800+ AI初创公司融资数据库

该公司计划将筹集的资金用于推进公司的Origin™设备上AI处理器IP产品与服务，并扩大其全球工程足迹。

Expedera成立于2018年，总部位于美国加州圣克拉拉，在英国、中国、日本、中国台湾和新加坡设有工程开发中心和客户支持办公室。公司提供可定制的神经引擎半导体IP，显著提高边缘AI推理应用中的性能、功耗和延迟，同时降低成本和复杂性。该公司的神经处理单元（NPU）解决方案已成功部署在超过1000万台消费设备中，并且是可扩展的，在从边缘节点、智能手机到汽车等领域的应用中产生优越的结果。

（消息来源：PR Newswire）

May 22, 2024
AI安全治理平台WitnessAI完成2750万美元A轮融资

2024年5月21日，总部位于美国加州圣马特奥的AI安全和治理平台初创公司WitnessAI宣布筹集了2750万美元的A轮融资，本轮融资由GV和Ballistic Ventures共同领投。

更多AI公司融资情况请查看👉：800+ AI初创公司融资数据库

该公司计划将筹集的资金用于加速开发新的AI监管措施，并扩大团队规模建立一个全球销售和支持组织。

WitnessAI成立于2023年，由Ballistic Ventures孵化。公司创始人为Rick Caccia，并由他担任CEO。WitnessAI提供一个安全的AI使用平台，通过为公共和私有大型语言模型(LLMs)提供安全性和治理保障，帮助企业安全有效地采用AI。其平台提供员工AI使用情况的可见性、通过AI导向的政策控制使用情况，并通过数据和主题安全性保护使用。

（消息来源：PR Newswire）

May 22, 2024
法国AI初创公司H获2.2亿美元种子轮融资

2024年5月21日，总部位于法国巴黎的通用人工智能初创公司H（原名Holistic AI）宣布筹集了2.2亿美元的种子轮融资。本轮融资的投资方包括多位亿万富翁（或其家族办公室）、一些知名风险投资公司以及几家战略支持者，如Eric Schmidt、Xavier Niel、Yuri Milner、Bernard Arnault（通过Aglaé Ventures）和Motier Ventures（Lafayette集团所有者的家族办公室），以及风险投资公司Accel、Bpifrance的Large Venture基金、Creandum Partners、Eurazeo、FirstMark Capital和Visionaries Club，还有企业投资者如Amazon和Samsung、UiPath等。

更多AI公司融资情况请查看👉：800+ AI初创公司融资数据库

该公司计划将筹集的资金用于支付计算和电力成本，以及推动公司快速发展。

H公司，之前被称为Holistic AI，是一家在几个月前成立的人工智能初创公司。该公司的创始人团队包括曾在斯坦福大学担任研究员的Charles Kantor，以及四位之前在DeepMind工作的联合创始人：Tuyls，曾任研究总监，专注于博弈论和多智能体研究；Laurent Sifre，曾是主要科学家，为DeepMind的旗舰项目如AlphaGo、AlphaFold和AlphaStar做出贡献；Daan Wierstra，DeepMind的创始成员，将成为H公司的首席科学家；Julien Perolat，也在DeepMind有大量博弈论和多智能体研究经验。H公司目前拥有25名工程师和科学家组成的团队，并计划快速行动。该公司表示希望实现全面的通用人工智能（AGI）。

（消息来源：TechCrunch）

May 22, 2024
数据标注初创公司Scale AI完成10亿美元的F轮融资，估值138亿美元

2024年5月21日，总部位于美国旧金山的数据标注初创公司Scale AI宣布筹集了10亿美元的F轮融资，估值翻倍达138亿美元。本轮融资由Accel领投，投资方包括亚马逊、Meta、思科、英特尔、AMD、ServiceNow、DFJ Growth、WCM、Elad Gil、Nvidia、Coatue、Y Combinator (YC)、Index Ventures、Founders Fund、Tiger Global Management、Thrive Capital、Spark Capital、Greenoaks、Wellington Management以及GitHub前首席执行官Nat Friedman等知名机构和企业投资者。

更多AI公司融资情况请查看👉：800+ AI初创公司融资数据库

该公司表示将筹集的新资金用于加速“前沿数据的丰富性，为通向通用人工智能铺平道路”。

Scale AI成立于2016年，由Alexandr Wang创立，专注于为希望训练机器学习模型的公司提供数据标注服务。Scale AI结合机器学习和人工监督，管理和注释大量数据，这对于训练跨行业的AI系统至关重要，如自动驾驶汽车。该公司的客户包括微软、丰田、通用汽车、Meta、美国国防部，以及自去年8月以来的ChatGPT制造商OpenAI。Scale AI提供正确标注并准备好用于训练模型的数据，并针对不同行业提供专业化服务，例如自动驾驶汽车公司可能需要来自摄像头和激光雷达的标注数据，而自然语言处理(NLP)用例则需要标注文本。

（消息来源：TechCrunch）

May 21, 2024
AI药物研发初创公司LabGenius获3500万英镑B轮融资

2024年5月21日，总部位于英国伦敦的AI生命科学和药物研发初创公司LabGenius宣布筹集了3500万英镑的B轮融资，本轮融资的投资方包括M Ventures、Octopus Ventures、LG集团以及现有投资者Atomico、Kindred Capital、Lux Capital和Obvious Ventures。

更多AI公司融资情况请查看👉：800+ AI初创公司融资数据库

该公司计划将筹集的资金用于加速其机器学习驱动的药物发现平台EVA的开发以及产品管线的推进。

LabGenius成立于2012年，由Dr James Field担任首席执行官。公司主要业务是开发其EVA药物发现平台，该平台利用机器学习技术设计、执行并从实验中学习，以识别高性能的抗体。目前，公司正利用该平台开发针对实体肿瘤的解决方案，这些肿瘤可能对治疗性抗体具有抵抗力。

（消息来源：UKTN）

May 21, 2024
Universal-1 – AssemblyAI推出的多语种语音识别和转换模型
Universal-1是什么

Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型，经过超过1250万小时的多语种音频数据训练，支持英语、西班牙语、法语和德语等。该模型在多种环境下都能提供高准确率的语音转文字服务，包括嘈杂背景、不同口音和自然对话等，还具备快速响应时间和改进的时间戳准确性。Universal-1的设计注重于提高每一处语音识别的准确性，能够满足客户对语音数据细微差别的需求，是构建下一代AI产品和服务的强大工具。

Universal-1的主要特点
- 多语种支持：Universal-1能够处理包括英语、西班牙语、法语和德语在内的多种语言，并且针对这些语言进行了优化，以提高语音识别的准确性。
- 高准确率：在不同条件下，如背景噪音、口音多样性、自然对话和语言变化等，Universal-1都能保持出色的语音到文本的转换准确率。
- 减少幻觉率：与Whisper Large-v3相比， Universal-1将语音数据的幻觉率降低了 30%，即减少了模型在没有声音输入的情况下错误生成文本的情况。
- 快速响应：Universal-1设计了高效的并行推理能力，能够快速处理长音频文件，提供快速的响应时间。批处理能力相比Whisper Large-v3的速度提高了5倍。
- 精确的时间戳估计：模型能够提供精确到单词级别的时间戳，这对于音频和视频编辑、会议记录等应用至关重要。Universal-1的时间戳准确性比Whisper Large-v3 提高了26%。
- 用户偏好：在用户偏好测试中，用户71%的时间更倾向于Universal-1的输出，表明其在实际使用中更能满足用户的需求。
Universal-1的性能对比
- 英语语音转文字准确性：Universal-1在11个数据集中的5个数据集中实现了最低的词错误率（WER），与OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon和Google Latest-long等模型相比。
- 非英语语音转文字准确性：在西班牙语、法语和德语的测试中，Universal-1在15个数据集中的5个上WER更低，显示了其在这些语言上的竞争力。
- 时间戳准确性：Universal-1在时间戳准确性方面，相比于Whisper Large-v3，将预测时间戳在100毫秒内的单词比例提高了25.5%，从67.2%提升到84.3%。
- 推理效率：在NVIDIA Tesla T4机器上，Universal-1在没有并行化的情况下比更快的whisper后端快3倍，且在64个并行化推理时，仅需21秒即可转录1小时的音频。
- 幻觉减少：Universal-1相比于Whisper Large-v3，在转录音频时的幻觉率降低了30%。
- 人类偏好测试：在人类偏好测试中，评估者在60%的情况下更倾向于Universal-1的输出，而Conformer-2只有24%。
- 声纹分割聚类：Universal-1在声纹分割聚类（Speaker Diarization）准确性方面，相比于Conformer-2，实现了以下改进：
  - Diarization Error Rate (DER) 相对减少了7.7%。
  - 联合测量WER和演讲者标记准确性的cpWER相对减少了13.6%。
  - 演讲者数量估计的准确性相对提高了71.3%。
如何使用Universal-1

目前，Universal-1已推出英语和西班牙语版本，德语和法语版本即将推出。后续，AssemblyAI还将在未来的通用模型中添加额外的语言支持。感兴趣的用户可以在Playground或通过API试用。
1. 通过Playground试用：最简单的尝试Universal-1的方式是通过AssemblyAI的Playground。在Playground中，用户可以直接上传音频文件或者输入YouTube链接，然后模型会快速生成文字转录。
2. 免费API试用：用户可以免费注册并获取一个API令牌（API token）。注册后，前往AssemblyAI的文档（Docs）或Welcome Colab，这些资源可帮助快速开始使用API。
更多关于Universal-1的信息，详见AssemblyAI的官方技术报告：https://www.assemblyai.com/discover/research/universal-1

Universal-1的应用场景
- 对话智能平台：能够快速、准确地分析大量客户数据，提供关键的客户声音洞察和分析，无论口音、录音条件或说话人数如何。
- AI记事本：生成高度准确、无幻觉的会议记录，为基于大型语言模型的摘要、行动项和其他元数据生成提供基础，包括准确的专有名词、发言者和时间信息。
- 创作者工具：为最终用户构建AI驱动的视频编辑工作流程，利用多种语言的精确语音转文字输出，低错误率和可靠的单词时间信息。
- 远程医疗平台：自动化临床记录输入和索赔提交流程，利用准确和忠实的语音转文字输出，包括处方名称和医学诊断等罕见词汇，在对抗性和远场录音条件下也具有高成功率。
May 21, 2024
空间人工智能初创公司SpatialGPT获340万美元种子轮融资

2024年5月20日，总部位于澳大利亚墨尔本的空间人工智能初创公司SpatialGPT.AI宣布筹集了510万澳元（约合340万美元）的种子轮融资。本轮融资的投资方为InnovateGPT，由两位微软澳大利亚公司的员工George Stavrakakis和Rupert Walsh创立。

该公司计划将筹集的资金用于重新定义建筑、教育、医疗保健和零售行业的空间环境，通过其人工智能技术提高运营效率。

SpatialGPT是一家空间+生成式人工智能初创公司，由Robert Marolda创立，他也是微软公司和VMware的高级员工，并在澳大利亚推出微软E5安全产品中发挥了关键作用。该公司专注于使用微软Azure OpenAI服务和微软Copilot，以及苹果Vision Pro、JigSpace等技术构建AI驱动的解决方案，帮助组织转变空间的构建、管理和使用方式。公司最初专注于建筑行业的项目，并提供一系列AI驱动的Copilot解决方案以优化施工工作流程。随着时间的推移，SpatialGPT计划扩展到教育、医疗保健和零售领域，重新构想这些行业的空间环境如何被使用。

（消息来源：SiliconANGLE）

May 21, 2024

CogVLM2 – 智谱AI推出的新一代多模态大模型

CogVLM2是什么

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块，通过深度融合策略，优化了视觉与语言模态的交互，确保了在增强视觉理解的同时，语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语，模型大小为19亿参数，但实际推理时激活的参数量约为120亿，展现了在多模态任务中的高效性能。

CogVLM2

CogVLM2的改进点

CogVLM2模型相比前代的改进点主要包括以下几个方面：

性能提升：在OCRbench和TextVQA等多个关键基准测试上，CogVLM2的性能有了显著提升，例如在OCRbench上性能提升了32%，在TextVQA上性能提升了21.9%。
文档图像理解：CogVLM2增强了对文档图像的理解和问答能力，特别是在DocVQA基准测试中表现出色。
支持高分辨率图像：模型支持高达1344*1344像素的图像分辨率，能够处理更高清晰度的图像。
支持长文本：CogVLM2支持长达8K的文本输入，这使得模型能够处理更长的文档和更复杂的语言任务。
双语支持：CogVLM2提供了支持中英文双语的开源模型版本，增强了模型的多语言能力。

CogVLM2的模型信息

CogVLM2开源了两款以Meta-Llama-3-8B-Instruct为语言基座模型的CogVLM2，分别是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B，感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。

模型名称	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
语言	英文	中文、英文
模型大小	19B	19B
任务	图像理解，对话模型	图像理解，对话模型
模型链接	🤗 Huggingface 🤖 ModelScope 💫 始智AI 🐙GitHub	🤗 Huggingface 🤖 ModelScope 💫 始智AI
体验链接	📙 官方页面	📙 官方页面 🤖 ModelScope
Int4模型	暂未推出	暂未推出
文本长度	8K	8K
图片分辨率	1344 * 1344	1344 * 1344

CogVLM2的模型架构

CogVLM2的模型架构在继承上一代模型的基础上进行了优化和创新，具体特点如下：

视觉编码器：CogVLM2采用了一个拥有50亿参数的视觉编码器，负责对输入图像进行特征提取和编码。
视觉专家模块：在大语言模型中整合了一个70亿参数的视觉专家模块，这一模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。
深度融合策略：CogVLM2采用了深度融合策略，使得视觉模态与语言模态能够更加紧密地结合，从而增强了模型在视觉理解能力的同时，保持了在语言处理上的优势。
MLP Adapter：模型中使用了MLP（多层感知器）Adapter，用于调整和适配不同模态之间的特征。
降采样模块：为了更好地处理和理解高分辨率的文档或网页图片，CogVLM2在视觉编码器后引入了一个专门的降采样模块，有效提取关键信息，减少输入到语言模型中的序列长度。
Word Embedding：模型包含了Word Embedding层，用于将文本转换为模型可以理解的数值型向量。
多专家模块结构：CogVLM2设计了多专家模块结构，使得在进行推理时，实际激活的参数量仅约120亿，这种设计既保证了模型的性能，又提高了推理效率。
语言基座模型：CogVLM2使用了Meta-Llama-3-8B-Instruct作为语言基座模型，为模型提供了强大的语言理解和生成能力。

CogVLM2的架构

CogVLM2的模型性能

CogVLM2的团队在一系列多模态基准上进行了定量评估，这些基准包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。从下表可以看出CogVLM2 的两个模型，尽管具有较小的模型尺寸，但在多个基准中取得 SOTA性能；而在其他性能上，也能达到与闭源模型（例如GPT-4V、Gemini Pro等）接近的水平。
CogVLM2的基准测试得分

模型	是否开源	模型规模	TextVQA	DocVQA	ChartQA	OCRbench	MMMU	MMVet	MMBench
LLaVA-1.5	✅	13B	61.3	–	–	337	37.0	35.4	67.7
Mini-Gemini	✅	34B	74.1	–	–	–	48.0	59.3	80.6
LLaVA-NeXT-LLaMA3	✅	8B	–	78.2	69.5	–	41.7	–	72.1
LLaVA-NeXT-110B	✅	110B	–	85.7	79.7	–	49.1	–	80.5
InternVL-1.5	✅	20B	80.6	90.9	83.8	720	46.8	55.4	82.3
QwenVL-Plus	❌	–	78.9	91.4	78.1	726	51.4	55.7	67.0
Claude3-Opus	❌	–	–	89.3	80.8	694	59.4	51.7	63.3
Gemini Pro 1.5	❌	–	73.5	86.5	81.3	–	58.5	–	–
GPT-4V	❌	–	78.0	88.4	78.5	656	56.8	67.7	75.0
CogVLM1.1 (Ours)	✅	7B	69.7	–	68.3	590	37.3	52.0	65.8
CogVLM2-LLaMA3 (Ours)	✅	8B	84.2	92.3	81.0	756	44.3	60.4	80.5
CogVLM2-LLaMA3-Chinese (Ours)	✅	8B	85.0	88.4	74.7	780	42.8	60.5	78.9

May 21, 2024

AI软件测试初创公司QA.tech获300万欧元种子轮融资

2024年5月20日，总部位于瑞典斯德哥尔摩的AI驱动的软件测试初创公司QA.tech宣布筹集了300万欧元的种子轮融资，本轮融资由英国风险投资公司PROfounders领投，其他投资方包括阿姆斯特丹的Curiosity和北欧的byFounders，以及包括Mads Johnsen、Jon Åslund、Robert Lagerström、Sven Perkmann和Jens Saltin在内的天使投资者。

更多AI公司融资情况请查看👉：800+ AI初创公司融资数据库

该公司计划将筹集的资金用于继续产品开发和扩大其现有的11人团队。

QA.tech成立于2023年，由经验丰富的企业家Daniel Mauno Pettersson、Patrick Lef、Marcus Carloni和Vilhelm von Ehrenheim共同创立。该公司专注于开发基于AI的应用程序和SaaS服务的测试工具。QA.tech的平台自动化了传统上需要大量手动努力的质量保证（QA）测试，例如测试网站功能，如登录、账户创建和购物车功能。QA.tech的解决方案针对希望简化其QA流程或完全没有QA测试人员的公司。目前有近40个客户正在使用QA.tech的测试版，预计在夏季之后将发布公开版本。

（消息来源：Silicon Canals）

May 20, 2024
AI财务助手初创公司Numra获150万欧元种子轮融资

2024年5月16日，总部位于爱尔兰的AI财务自动化平台初创公司Numra宣布筹集了150万欧元的种子轮融资。本轮融资由Elkstone Partners领投。

该公司计划将筹集的资金用于扩大其产品和工程团队的规模，并考虑向美国市场扩张以扩大其业务。

Numra由David Kearney和Conor Digan于2023年联合创立，公司主要提供基于人工智能的财务自动化平台，利用AI技术来简化财务和会计团队的复杂工作流程，包括数据输入、对账和错误调查等任务，旨在帮助公司节省时间并减少错误。Numra此前被称为Autonifai，其AI助手旨在通过允许团队管理收款、三方匹配、支付、发票、对账和成本分配来提高团队生产力，最高可达50%。用户可以通过电子邮件、Microsoft Teams和Slack等平台与该工具进行交互。

（消息来源：Silicon Republic）

May 17, 2024

Author: Chimy

Universal-1是什么

Universal-1的主要特点

Universal-1的性能对比

如何使用Universal-1

Universal-1的应用场景

CogVLM2是什么

CogVLM2的改进点

CogVLM2的模型信息

CogVLM2的模型架构

CogVLM2的模型性能