Blog

GPT-4o mini – OpenAI 推出全新 AI 模型替代GPT-3.5
GPT-4o mini是什么

GPT-4o mini 是 OpenAI 最新推出的一款AI大模型，提供更高效、更具成本效益的解决方案。这款新模型替代 GPT-3.5，成为市场上最具成本效益的小型模型。GPT-4o mini 在 MMLU 基准测试中取得了 82% 的高分，并且在 LMSYS 的聊天偏好测试中表现优于 GPT-4。这款模型的定价极具竞争力，每百万输入标记仅需 15 美分，每百万输出标记 60 美分，相比之前的前沿模型，价格降低了一个数量级，比 GPT-3.5 Turbo 便宜超过 60%。

GPT-4o mini 不仅支持文本输入，还支持视觉输入，并计划未来扩展到图像、视频和音频输入输出。该模型拥有 128K 标记的上下文窗口，每次请求最多可处理 16K 的输出标记，知识覆盖范围直至 2023 年 10 月。除此之外，改进的标记器使其在处理非英语文本时更具成本效益。

在文本智能和多模态推理方面，GPT-4o mini 表现卓越，支持多种语言，并在函数调用、数学推理和编码任务上表现出色。从7月19日起，免费用户、Plus 用户和 Team 用户将能够访问 GPT-4o mini，取代 GPT-3.5，企业用户也将在下周开始体验这款新模型。

GPT-4o mini的功能特色
- 文本智能：GPT-4o mini 在文本理解和生成方面表现出色，能处理复杂的文本任务，如自然语言理解、文本摘要、内容创作等。
- 多模态推理：支持文本和视觉输入，未来将扩展到图像、视频和音频输入输出，模型能理解和处理多种类型的数据。
- 数学推理：在数学问题解决和逻辑推理方面表现优异，能处理复杂的数学问题和逻辑推理任务。
- 编码任务：编码性能测试表现出色，能理解和生成代码，辅助软件开发和编程任务。
- 成本效益：价格极具竞争力，每百万输入标记 15 美分，每百万输出标记 60 美分，降低了 AI 应用的开发和运行成本。
- 易于访问：免费用户、Plus 用户和 Team 用户均可访问 GPT-4o mini，用户能很方便地使用最先进的 AI 技术。
如何使用GPT-4o mini

GPT-4o mini可以免费使用，要使用GPT-4o mini，你只需要访问他们的官方网站（https://chat.openai.com/chat），无需下载但需要魔法，去ChatGPT页面登录即可，你可以选择邮箱注册或用你的谷歌或微软账户登录。

ChatGPT的网页界面对所有用户来说都很容易使用，显示界面包括一个供用户输入查询的文本框和一个显示结果的区域。输入你的文字提示后，然后你就会收到ChatGPT返回的回应信息。
July 19, 2024
Chameleon – Meta推出的图文混合多模态开源模型
Chameleon是什么

Chameleon 是 Meta（Facebook 的母公司）的人工智能研究团队 FAIR（Facebook AI Research）发布的一个能理解和生成任意序列的图像和文本的混合多模态开源模型。拥有 34B 参数，能生成文本和图像内容。早期融合技术将不同模态信息映射到统一表示空间，实现跨模态无缝处理。在多项基准测试中，Chameleon 表现出色，性能接近 GPT-4V，引领多模态 AI 技术的新浪潮。

Chameleon的核心能力
- 多模态处理：Chameleon 能够在单一神经网络中无缝处理文本和图像，生成多模态内容。
- 参数规模：模型拥有高达 34B（340 亿）参数，经过大规模训练，具备强大的学习和生成能力。
- 训练数据：使用了包括纯文本、文本-图像对以及文本和图像交错出现的多模态文档在内的大量数据进行训练。
- 技术创新：
  - 早期融合：通过将不同模态的信息在输入阶段就映射到同一个表示空间中，实现跨模态的无缝处理。
  - 图像分词器：开发了一种新的图像分词器，将图像编码为离散的 token，以便模型处理。
- 性能表现：
  - 在多种基准测试中表现出色，特别是在常识推理、阅读理解、数学问题和世界知识领域。
  - 在视觉问答和图像标注任务中刷新了 SOTA（State of the Art），性能接近 GPT-4V。
- 开源资源：Chameleon 的 GitHub 仓库提供了模型的独立推理代码、输入输出查看工具以及用于人类评估的混合模态和纯文本提示。
Chameleon的项目地址
- GitHub仓库：https://github.com/facebookresearch/chameleon
- Hugging Face模型库：https://huggingface.co/papers/2405.09818
- arXiv技术论文：https://arxiv.org/abs/2405.09818
Chameleon的应用场景
- 图像和文本生成：Chameleon 能生成与文本描述相匹配的图像，适用于创意写作、教育材料制作、游戏设计等领域。
- 视觉问答（Visual Question Answering）：在给定图像和相关问题的情况下，Chameleon 可以提供准确的答案，适用于图像内容理解、辅助视觉障碍人士等。
- 图像标注：Chameleon 可以为图像生成描述性标签，适用于图像数据库管理、图像检索系统等。
- 多模态文档生成：能生成包含文本和图像的复杂文档，适用于自动化报告生成、教育材料、营销内容创作等。
July 18, 2024
Adaptive获1900万美元A轮融资，为建筑业提供AI驱动的财务自动化平台

2024年7月16日，总部位于美国纽约的面向建筑行业的财务自动化平台Adaptive宣布筹集了1900万美元的A轮融资。本轮融资由Emergence Capital领投，Andreessen Horowitz、Definition、Exponent、3kvc、Box Group、Gokul Rajaram等参投。

该公司计划将筹集的资金用于扩大其工程和产品团队，增强在美国各地推广其平台的努力。

更多AI公司融资情况请查看👉：1000+ AI初创公司融资数据库

Adaptive公司由Matt Calvano和Francisco Enriquez共同创立，成立于2023年2月。该公司主要为建筑行业提供先进的自动化和人工智能技术，通过消除后台瓶颈和简化支付流程，使各种规模的建筑公司能够改善现金流、盈利能力和项目效率。Adaptive的愿景是成为建筑支付的标准网络，为建筑行业带来更透明、高效和盈利的变革。

（消息来源：PR Newswire）

July 17, 2024
去中心化AI基础设施平台Mira获900万美元种子轮融资

2024年7月16日，总部位于新加坡的去中心化人工智能基础设施平台Mira宣布筹集了900万美元的种子轮融资。本轮融资由BITKRAFT Ventures和Framework Ventures领投，其他投资方包括Accel、Crucible、Folius Ventures、Mechanism Capital、SALT Fund以及一些知名天使投资者。

该公司计划将筹集的资金用于全球范围内扩大团队规模，支持Mira网络及其首批生态系统应用的开发。

更多AI公司融资情况请查看👉：1000+ AI初创公司融资数据库

Mira公司成立于2024年，由一支具有在包括Accel、亚马逊人工智能、BCG、Uber、Stader等大型科技公司工作经验的团队创立并运营。该公司提供一套用户友好的软件开发工具包（SDKs），为应对当今人工智能基础设施的复杂性提供解决方案。Mira通过区块链技术保护人工智能模型的基础数据，确保所有资源得到合理分配，并使开发者能够创建兼容Web2和Web3的资源。

（消息来源：PR Newswire）

July 17, 2024
生成式AI平台Vectara获2500万美元A轮融资，为企业提供RAG解决方案

2024年7月16日，总部位于美国加州帕洛阿尔托的企业生成式AI平台Vectara宣布完成了2500万美元的A轮融资。本轮融资由FPV Ventures和Race Capital领投，其他投资者包括Alumni Ventures、WVV Capital、Samsung Next、Fusion Fund、Green Sands Equity和Mack Ventures。

Vectara公司计划将筹集的资金用于推进检索增强生成（Retrieval Augmented Generation, RAG）技术，加强内部创新，提高市场推广资源，并扩展其它地区的业务。

更多AI公司融资情况请查看👉：1000+ AI初创公司融资数据库

Vectara成立于2023年，由Amr Awadallah担任联合创始人兼首席执行官。该公司提供一个端到端的生成式人工智能（Generative AI）平台，专注于检索增强生成（RAG）技术。该平台旨在为受监管行业（如健康、法律、金融和制造业）提供一种安全、可靠、可信赖的AI解决方案。通过其RAG-as-a-Service模式，Vectara使各种规模的企业能够更高效地部署具有实际价值的用例。

此外，Vectara还推出了名为Mockingbird的新型大型语言模型（LLM），专门为RAG应用设计的，旨在减少幻觉（hallucinations）并提高结构化输出的质量，提供低延迟和成本效率的可靠性能。

（消息来源：BusinessWire）

July 17, 2024
FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型
FunAudioLLM是什么

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目，包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言，特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成，能够控制音色和情感，支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能
- SenseVoice模型：
  - 专注于多语言的高精度语音识别。
  - 支持超过50种语言，特别是在中文和粤语上识别效果优于现有模型。
  - 具备情感识别功能，能够辨识多种人机交互事件。
  - 提供轻量级和大型两个版本，适应不同应用场景。
- CosyVoice模型：
  - 专注于自然语音生成，支持多语言、音色和情感控制。
  - 能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节。
  - 支持跨语种语音生成和细粒度的情感控制。
FunAudioLLM的项目地址
- 项目官网：https://fun-audio-llm.github.io/
- CosyVoice 在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M
- SenseVoice 在线体验：https://www.modelscope.cn/studios/iic/SenseVoice
- GitHub仓库：https://github.com/FunAudioLLM
- arXiv技术论文：https://arxiv.org/abs/2407.04051
FunAudioLLM的应用场景
- 开发者和研究人员：使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。
- 企业用户：在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM，提高效率和用户体验。
- 内容创作者：使用FunAudioLLM生成有声读物或播客，丰富内容形式，吸引更多听众。
- 教育领域：用于语言学习、听力训练等教育应用，提高学习效率和兴趣。
- 残障人士：帮助视障人士通过语音交互获取信息，提升生活便利性。
July 14, 2024
MimicMotion – 腾讯联合上海交大推出的AI视频生成框架
MimicMotion是什么

MimicMotion是腾讯与上海交通大学合作推出的AI视频生成框架。用户只需提供一张图片和一段参考视频，即可一键生成逼真的人类动作视频，适用于舞蹈、运动等多种场景。MimicMotion具备多样化视频生成、精确控制动作和高细节处理能力，大幅提升视频内容的质量和可控性，为视频制作和社交媒体创作带来便利。

MimicMotion的主要功能
- 多样化视频生成：能够根据用户上传的图片和参考视频，生成各种逼真的人类动作视频。
- 精确控制：用户可以对视频中的动作、姿势和风格进行精确控制，并且可以指定视频的持续时间。
- 高细节处理：特别在手部等容易失真的区域，使用置信度感知的姿态引导技术，减少图像失真，提升视频的视觉效果。
MimicMotion的技术原理
- 图像识别：MimicMotion使用先进的图像识别技术来分析用户提供的静态图片，识别出图片中的人物和关键特征点。
- 动作捕捉：工具会分析用户提供的参考视频，捕捉视频中的动作序列和运动轨迹。
- 姿态估计：通过深度学习算法，MimicMotion估计图片中人物的姿态，将静态图片中的人物与参考视频中的动作进行匹配。
- 动作合成：基于生成对抗网络（GANs）或其他深度学习模型，MimicMotion将捕捉到的动作应用到静态图片上，生成动态视频。
- 细节优化：对于容易出现失真的区域，如手部和面部，MimicMotion采用置信度感知的姿态引导技术，确保动作的自然流畅和高保真度。
- 渲染输出：经过合成和优化后的动作序列会被渲染成视频格式，用户可以下载并使用生成的视频。
- 用户交互：MimicMotion提供了用户友好的界面，允许用户上传素材、选择参数和控制生成过程，使得非专业人士也能轻松使用。
- 性能优化：为了提高处理速度和视频质量，MimicMotion还会使用GPU加速计算，以及CUDA等技术进行性能优化。
MimicMotion的项目地址
- 项目官网：https://tencent.github.io/MimicMotion/
- Github仓库：https://github.com/tencent/MimicMotion
- arXiv技术论文：https://arxiv.org/abs/2406.19680
MimicMotion的应用场景
- 专业视频制作：在影视制作、广告制作等行业，MimicMotion可用于生成高质量的动作视频，提升视频内容的创意性和观赏性。
- 社交媒体内容创作：普通用户可以用MimicMotion创作有趣的视频内容，发布在社交媒体平台，吸引关注和互动。
- 舞蹈教学：舞蹈教师或爱好者可以使用MimicMotion生成舞蹈动作视频，用于教学或个人练习。
- 运动训练：运动员或教练可以用MimicMotion生成标准动作视频，帮助运动员学习和纠正动作。
- 虚拟现实和游戏开发：在虚拟现实或游戏开发中，MimicMotion可用来生成逼真的人类动作，增强用户体验。
July 12, 2024
EchoMimic – 阿里推出的开源数字人项目，赋予静态图像以生动语音和表情
EchoMimic是什么

EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目，赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频，还能将两者结合，实现更自然、流畅的对口型效果。EchoMimic支持多语言，包括中文和英语，适用于唱歌等多种场景，为数字人技术带来革命性的进步，广泛应用于娱乐、教育和虚拟现实等领域。

EchoMimic的诞生，不仅仅是阿里在数字人领域的一次尝试，更是对现有技术的一次革新。传统的肖像动画技术，要么依赖音频驱动，要么依赖面部关键点驱动，各有利弊。而EchoMimic则巧妙地结合了这两种驱动方式，通过音频和面部关键点的双重训练，实现了更加逼真、自然的动态肖像生成。

EchoMimic的功能特色
- 音频同步动画：通过分析音频波形，EchoMimic能够精确地生成与语音同步的口型和面部表情，为静态图像赋予生动的动态表现。
- 面部特征融合：项目采用面部标志点技术，捕捉并模拟眼睛、鼻子、嘴巴等关键部位的运动，增强动画的真实感。
- 多模态学习：结合音频和视觉数据，EchoMimic通过多模态学习方法，提升了动画的自然度和表现力。
- 跨语言能力：支持中文普通话和英语等多种语言，不同语言区域的用户都能利用该技术制作动画。
- 风格多样性：EchoMimic能够适应不同的表演风格，包括日常对话、歌唱等，为用户提供广泛的应用场景。
EchoMimic的官网入口
- 项目官网：https://badtobest.github.io/echomimic.html
- GitHub仓库：https://github.com/BadToBest/EchoMimic
- Hugging Face模型库：https://huggingface.co/BadToBest/EchoMimic
- arXiv技术论文：https://arxiv.org/html/2407.08136
- EchoMimicV2：EchoMimicV2 在前代 EchoMimicV1 生成逼真人头动画的基础上，效果得到进一步提升，现在能生成完整的数字人半身动画，实现从中英文语音到动作的无缝转换。
EchoMimic的技术原理
- 音频特征提取：EchoMimic首先对输入的音频进行深入分析，利用先进的音频处理技术提取出语音的节奏、音调、强度等关键特征。
- 面部标志点定位：通过高精度的面部识别算法，EchoMimic能够精确地定位面部的关键区域，包括嘴唇、眼睛、眉毛等，为后续的动画生成提供基础。
- 面部动画生成：结合音频特征和面部标志点的位置信息，EchoMimic运用复杂的深度学习模型来预测和生成与语音同步的面部表情和口型变化。
- 多模态学习：项目采用多模态学习策略，将音频和视觉信息进行深度融合，生成的动画不仅在视觉上逼真，而且在语义上与音频内容高度一致。
- 深度学习模型应用：
  - 卷积神经网络（CNN）：用于从面部图像中提取特征。
  - 循环神经网络（RNN）：处理音频信号的时间动态特性。
  - 生成对抗网络（GAN）：生成高质量的面部动画，确保视觉效果的逼真性。
- 创新训练方法：EchoMimic采用了创新的训练策略，允许模型独立地或结合地使用音频和面部标志点数据，以提高动画的自然度和表现力。
- 预训练和实时处理：项目使用了在大量数据上预训练的模型，EchoMimic能够快速适应新的音频输入，并实时生成面部动画。
July 12, 2024
Kimi浏览器插件 – 月之暗面推出的官方Kimi浏览器助手
Kimi浏览器插件是什么

Kimi浏览器插件是月之暗面科技有限公司推出的一款官方工具，集成了即时问答、全文摘要和划线互动等实用功能。用户可以轻松划线提问，获取上下文相关答案，或一键生成文章摘要，节省阅读时间。划线互动允许用户查看其他用户对特定文本的疑问和解答，增加社区互动。Kimi网页插件助手支持侧边栏和全局浮窗模式，适用于多种浏览器，以简约风格提升用户的网页浏览体验。

Kimi浏览器插件的主要功能
- 点问笔：用户可以划选网页上的文字，Kimi插件会提供基于上下文的解释，帮助用户更好地理解术语、名字或句子。
- 总结器：位于网页右下角的工具，帮助用户快速总结全文内容，同时支持进一步的答疑和讨论。
- 侧边栏模式：在写文档或创作时，Kimi插件可以以侧边栏的形式存在，支持持续对话和边写边搜，提高创作效率。
- 快捷键召唤：用户可以通过快捷键（Mac为Command + K，Windows为Alt + K）快速召唤Kimi，进行即时互动。
如何使用Kimi浏览器插件
- 获取插件：访问Kimi官方网站或浏览器扩展商店，搜索并下载Kimi浏览器插件。
- 安装插件：
  - 在Chrome中，访问 chrome://extensions/，打开开发者模式，拖入.crx文件安装。
  - 其他浏览器可能有不同安装流程，根据提示操作。
- 启动插件：安装后，点击浏览器工具栏上的Kimi图标或使用快捷键（如Command⌘/Alt + K）启动。
- 进行设置：初次使用时，根据个人喜好设置快捷键，选择侧边栏或全局浮窗模式。
- 即时问答：在网页上划线有疑问的文本，通过图标或快捷键唤起Kimi，获取答案。
- 全文摘要：浏览完文章后，使用Kimi的全文摘要功能快速把握文章要点。
- 划线互动：对感兴趣的文本划线，查看其他用户的问题和答案，或者分享你的见解。
Kimi浏览器插件的应用场景
- 学生：需要进行学术研究、资料查询和学习新知识的在校学生。
- 研究人员：在学术或专业领域内需要深入分析和快速获取信息的研究人员。
- 专业人士：如律师、医生、工程师等，需要快速访问专业信息以支持决策。
- 内容创作者：包括博客作者、记者、编辑等，需要灵感和资料支持内容生成。
- 技术开发者：程序员和技术开发人员，需要查找技术解决方案或学习新技术。
- 语言学习者：正在学习第二语言的用户，需要即时翻译和语言点解释。
- 教育工作者：教师和讲师，需要准备教学材料或辅助学生学习。
July 8, 2024
Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型
Moshi是什么

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型，拥有听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。作为平替GPT-4o的开源模型，Moshi在普通笔记本上即可运行，具有低延迟特性，支持本地设备使用，保护用户隐私。Moshi的开发和训练流程简单高效，由8人团队在6个月内完成，将很快开源模型的代码、权重和技术论文，免费供全球用户使用和进一步研究开发。

Moshi的功能特色
- 多模态交互：Moshi作为一个多模态AI模型，不仅能够处理和生成文本信息，还能够理解和生成语音，使得Moshi可以与用户进行更加自然和直观的交流，就像与真人对话一样。
- 情绪和风格表达：Moshi可以模拟70种不同的情绪和风格进行对话，让AI对话更加生动和真实。无论是表达喜悦、悲伤还是严肃，Moshi都能够通过语音的变化来传达相应的情感，增强交流的体验。
- 实时响应低延迟：Moshi的响应具备低延迟特性，能够快速地处理用户的输入，并几乎0延迟地给出回应。对于需要即时反馈的应用场景非常有帮助，比如客户服务或实时翻译。
- 语音理解与生成：Moshi能够同时处理听和说的任务，可以在听用户说话的同时生成回答，提高了交互的效率和流畅性，提供了一个自然无缝的对话体验。
- 文本和音频混合预训练：Moshi通过结合文本和音频数据进行预训练，使得模型在理解和生成语言时能够更好地捕捉到语义和语境信息，提高了模型的准确性和可靠性。
- 本地设备运行：作为一款完全端到端的音频模型，Moshi可以在用户的本地设备上运行，普通笔记本电脑或消费级GPU即可满足运行要求。
如何使用Moshi
1. 访问Moshi平台：访问Moshi的官方网站https://moshi.chat/?queue_id=talktomoshi。
2. 提供邮箱：进入网站后只需要提供一个邮箱地址，点击Join queue即可免费开始使用。
3. 检查设备兼容性：确保你的设备（无论是手机还是电脑）配备有麦克风和扬声器，因为Moshi的交互主要依赖语音输入和输出。
4. 开始语音交互：提供邮箱后即可开始与Moshi进行语音交互，系统会提示你使用麦克风进行语音输入。
5. 提问或发出指令：对着麦克风提出问题或发出指令，Moshi将通过语音识别技术理解您的问题或指令。
6. 听取回答：Moshi会根据你的提问生成回答，并通过语音合成技术将文本转换为语音，然后通过设备的扬声器播放出来。
目前，Moshi主要支持英语和法语，暂不支持中文普通话。此外，Kyutai团队表示后续很快将开源Moshi，公布代码、模型权重和论文。

Moshi的应用场景
- 虚拟助手：Moshi可以作为个人或企业的虚拟助手，提供语音交互服务，帮助用户完成日常任务，如设置提醒、搜索信息等。
- 客户服务：在客户服务领域，Moshi可以作为智能客服，通过语音与客户进行交流，解答咨询，提供即时帮助。
- 语言学习：Moshi能够模拟不同口音和情绪，有助于语言学习者练习听力和口语，提高语言能力。
- 内容创作：Moshi可以生成不同风格和情绪的语音，为视频、播客或动画制作提供配音服务。
- 辅助残障人士：对于视力或听力有障碍的人士，Moshi可以提供语音到文本或文本到语音的服务，帮助他们更好地获取信息。
- 研究和开发：研究人员可以使用Moshi进行语音识别、自然语言处理和机器学习等领域的研究。
- 娱乐和游戏：在游戏和娱乐应用中，Moshi可以作为角色与用户进行互动，提供更加丰富的用户体验。
July 4, 2024