Category: AI工具

AI工具集介绍和收录了当前最新的AI产品，紧跟最新AI领域的进展，介绍了AI产品的主要功能、如何使用和主要应用场景，快速了解最新AI产品发展趋势。

Kimi PPT助手 – Kimi联合AiPPT推出一键生成PPT服务
Kimi PPT助手是什么

Kimi PPT助手是月之暗面联合AiPPT推出的一键生成PPT服务。用户只需通过语音或文字指令，Kimi就能理解需求，自动生成幻灯片，提供布局和色彩搭配建议，帮助用户快速创建和设计PPT。Kimi还能根据用户反馈进行多轮对话，优化演示内容，确保PPT既专业又个性化。使用Kimi PPT助手，用户可以节省大量时间，同时提高演示的专业度和吸引力。

Kimi PPT助手的主要功能
- 内容生成：Kimi PPT助手具备一键自动生成PPT内容的能力，包括文本、图表和图像等。
- 模板应用：Kimi PPT助手提供多种PPT模板，用户可根据需要选择合适的模板快速制作演示文稿。
- 智能排版：Kimi PPT助手具备智能排版功能，帮助用户优化页面布局，PPT看起来更加专业和美观。
如何使用Kimi PPT助手
- 访问官网：打开Kimi官网（kimi.com），注册登录账号。
- 找到PPT助手：在Kimi+中可以看到PPT助手或者直接在对话框中 @PPT助手 唤起。
- 生成PPT大纲：按照需求输入你想要的PPT内容，Kimi自动帮你构思整理好PPT大纲。
- 一键生成PPT：Kimi生成好完整大纲之后，点击一键生成PPT就开始调用AiPPT服务快速生成，整个过程大概1-2分钟。
Kimi PPT助手的适用人群
- 学生：学生在准备学术报告、课堂演讲或项目展示时，可以使用Kimi PPT助手来快速制作专业且有吸引力的PPT。
- 教师：教师在准备教学课件时，可以利用Kimi PPT助手的智能排版和内容生成功能，提高课件制作效率。
- 商务人士：商务人士在准备商业计划书、市场分析报告或产品演示时，Kimi PPT助手可以帮助他们制作更具说服力的演示文稿。
- PPT小白用户：对于不擅长使用复杂PPT软件的用户，Kimi PPT助手可以简化制作过程，让他们也能制作出高质量的演示文稿。
July 30, 2024
智谱清影 – 智谱推出的免费AI视频生成工具
智谱清影是什么

智谱清影是智谱AI推出的免费AI视频生成工具，用户只需输入文本或上传图片，30秒内即可生成10秒、4K、60帧视频。支持多种风格和背景音乐，适用于个人创作和专业制作。清影基于CogVideoX模型，融合文本、时间、空间，提升视频连贯性和逻辑一致性。目前免费开放，支持API调用。

智谱清影已升级至：清影2.0，一手实测体验请看：清影2.0评测

智谱清影的主要功能
- AI文生视频：用户输入文本描述，清影根据描述自动生成相应内容的视频。
- AI图生视频：用户上传图片，清影分析图像内容后，生成动态视频。
- 风格选择：提供多种视频风格选项，如卡通3D、黑白、油画、电影感等。
- 背景音乐：允许用户为生成的视频添加不同风格的背景音乐，清影提供了安静、轻松欢快、伤感、史诗、搞怪几种类型背景音乐
- 老照片动起来：通过“老照片动起来”小程序，让静态的老照片通过AI技术动起来。
- API支持：企业和开发者可以通过API调用清影的功能，实现文生视频和图生视频的生成。
- 快速生成：10秒视频的生成时间仅需30秒，满足用户对效率的需求。
如何使用智谱清影
- 访问官网：打开智谱清言官网 chatglm.cn/video ，注册登录账号。
- 打开清影智能体：找到清影-AI生视频，进入视频生成页面。
- AI视频生成：在清影智能体中选择AI文生视频/AI图生视频功能，输入你想要生成视频的指令。
- 设置视频参数：主要包括视频风格、情感氛围、运镜方式，支持自定义调整。
- 生成视频：点击生成视频预计1分钟左右，即可获得AI生成视频结果。
智谱清影的适用人群
- 内容创作者：视频博主、自媒体作者等，需要快速生成视频内容的个人或团队。
- 广告和营销专业人士：需要制作广告视频或营销材料的企业或个人。
- 教育工作者：利用视频作为教学辅助材料的教师或教育机构。
- 影视制作人员：电影、电视剧或短片制作中的导演、编剧等专业人士。
- 设计师和艺术家：需要将创意视觉化，进行艺术表达的设计师和艺术家。
July 26, 2024
PixVerse V2 – 爱诗科技最新发布的AI视频大模型
PixVerse V2是什么

PixVerse V2是爱诗科技最新发布的AI视频生成产品，基于Diffusion+Transformer（DiT）架构，提供更长、更一致、更有趣的视频生成体验。引入自研时空注意力机制，增强空间和时间感知，实现文本与视频信息的精准对齐。用户可一键生成1-5段主题一致的视频片段，支持二次编辑，灵活调整视频内容。PixVerse V2助力提升AI视频创作生产力，让创意表达更加便捷。

PixVerse V2的主要功能
- 长视频生成：PixVerse V2能够生成更长的视频内容，单片段可达8秒，多片段则可达到40秒。
- 一致性保持：支持一键生成1-5段连续视频，保证片段间的主体形象、画面风格和场景元素的一致性。
- 技术创新：采用Diffusion+Transformer（DiT）基础架构，引入自研的时空注意力机制，提升对复杂场景的处理能力。
- 文本理解强化：利用多模态模型提取文本信息，实现文本与视频信息的精准对齐，增强模型的理解和表达能力。
- 二次编辑功能：用户可以对生成的视频进行智能识别和自动联想的二次编辑，灵活替换调整视频内容。
- 训练效率优化：通过加权损失优化传统flow模型，提升模型训练效率和收敛速度。
如何使用PixVerse V2

详见：如何使用PixVerse生成视频

PixVerse V2的适用人群
- 创意专业人士：如视频制作人、广告创意师、动画师等，可以用PixVerse V2快速生成创意视频内容。
- 社交媒体用户：希望在社交平台上分享有趣或个性化视频内容的个人用户。
- 企业营销人员：需要制作产品介绍、广告宣传片等营销材料的企业市场部门。
- 独立艺术家：进行艺术创作，需要视频元素来丰富其艺术表达。
- 内容创作者：如博主、Vlogger等，可以用AI生成的视频内容来增加自己作品的多样性。
July 24, 2024
STORM AI – 斯坦福大学推出的开源AI写作工具
STORM AI 是什么

STORM AI 是斯坦福大学推出的开源AI写作工具，可在几秒钟内将一个主题转换为长篇文章/研究论文，完全免费，是 Perplexity Pages 的一种 替代品 。STORM AI 利用大语言模型（LLM）进行多角度提问和模拟专家对话，生成深入且准确的内容。STORM AI 特别适合需要大量研究和引用的写作任务，可以自动收集资料、生成大纲，并最终形成完整的文章。用户可通过STORM AI 的网站免费体验服务，或者使用API密钥在本地部署，享受便捷的自动化写作辅助。

STORM AI 的主要功能
- 基于互联网搜索撰写文章：STORM AI 能利用互联网上的资源，从零开始撰写详细的文章，类似维基百科的条目。
- 多角度提问：STORM AI 通过分析类似主题的现有文章，发现不同视角，自动生成深入的问题。
- 模拟专家对话：STORM AI 模拟维基百科作者与主题专家之间的对话，能更新对主题的理解并提出跟进问题。
- 生成研究大纲：在写作前阶段，STORM AI 会基于收集的资料生成文章大纲。
- 引用和参考资料：在生成文章的过程中，STORM AI 会引用多个来源，并在文章中标注参考资料。
- 自动化研究过程：STORM AI 自动化地进行研究，收集和整理信息，为写作阶段提供支持。
如何使用 STORM AI
- 访问官方网站：首先，需要访问 STORM AI 的官方网站（storm.genie.stanford.edu）。
- 注册账户：如果需要保存使用记录或体验个性化功能，需要注册一个账户。
- 输入主题：在提供的界面中输入您想要生成文章的主题或关键词。
- 生成大纲：STORM AI 将基于输入的主题自动进行研究，并生成一个包含关键点的大纲。
- 细化问题：STORM AI 会提示您提出更具体的问题或提供更多的指导，更精确地定位研究的方向。
- 生成文章：根据大纲和问题，STORM AI 开始撰写文章。这个过程包括从互联网上抓取信息、整合资料和引用来源。
STROM AI 的适用人群
- 研究人员：需要撰写学术论文或进行深入研究的学者，使用 STORM AI 快速收集资料和生成初稿。
- 作家和编辑：从事写作和编辑工作的人员，可用 STORM AI 辅助创作，提高工作效率。
- 维基百科编辑：维基百科的编辑者用 STORM AI 收集资料和撰写条目，确保内容的准确性和全面性。
- 学生：需要撰写论文或进行学术研究的学生，可通过 STORM AI 获取参考资料和撰写初稿。
July 21, 2024
盘盘单词 – 百度网盘推出的AI英语学习小程序
盘盘单词是什么

盘盘单词是百度网盘推出的AI英语学习微信小程序。采用生成式AI技术，分析用户百度网盘的照片，提取关键元素，自动生成与用户生活紧密相关的英语单词和例句，帮助加深记忆。应用提供个性化学习路径、名人语音智能体、智能复习计划等功能，云端存储影像资料，不占手机内存。普通用户每日可使用20张照片，会员则无限制，月卡9.9元，年卡39.9元。”盘盘单词”通过创新方式提升用户学习英语的生动性、趣味性和效率。

盘盘单词的功能特色
- 个性化学习：根据用户百度网盘的影像资料，AI技术提取关键元素，生成与用户生活紧密相关的英语单词和例句。
- 名人带学：开发了语音智能体，包括多位知名人物的语音，为用户带来独特的语言学习体验。
- 智能复习：根据用户的学习进度和反馈，动态调整复习计划和背词模式，确保学习效率和效果。
- 云端学习：所有学习资料存储在云端，不占用手机存储空间，随时随地进行学习。
如何使用盘盘单词
- 微信小程序搜索：打开微信，使用搜索功能输入“盘盘单词”，找到对应的小程序。
- 授权登录：进入小程序后，根据提示进行授权登录，以便应用访问你的百度网盘账户。
- 上传或选择照片：根据需要，你可以上传新的照片到百度网盘，或者从已有的网盘照片中选择。
- AI分析生成：应用会利用AI技术分析你的照片，提取关键元素，并自动生成相关的英语单词和例句。
- 个性化学习：根据生成的单词和例句，你可以开始个性化的学习过程，将单词与实际生活场景联系起来，加深记忆。
- 使用语音智能体：选择你喜欢的名人语音智能体，跟随其语音进行学习。
盘盘单词的适用人群
- 英语学习者：所有希望提高英语词汇量和语言能力的人士，无论是初学者还是进阶学习者。
- 学生群体：小学生、中学生、大学生等，他们可以通过这个工具来增强记忆和学习效率。
- 职场人士：需要在工作中使用英语或希望提升职业竞争力的职场人士。
- 语言爱好者：对英语或其他外语有浓厚兴趣，希望以新颖方式学习语言的人群。
- 备考人士：准备参加各类英语考试，如雅思、托福、GRE等的考生。
July 20, 2024
GPT-4o mini – OpenAI 推出全新 AI 模型替代GPT-3.5
GPT-4o mini是什么

GPT-4o mini 是 OpenAI 最新推出的一款AI大模型，提供更高效、更具成本效益的解决方案。这款新模型替代 GPT-3.5，成为市场上最具成本效益的小型模型。GPT-4o mini 在 MMLU 基准测试中取得了 82% 的高分，并且在 LMSYS 的聊天偏好测试中表现优于 GPT-4。这款模型的定价极具竞争力，每百万输入标记仅需 15 美分，每百万输出标记 60 美分，相比之前的前沿模型，价格降低了一个数量级，比 GPT-3.5 Turbo 便宜超过 60%。

GPT-4o mini 不仅支持文本输入，还支持视觉输入，并计划未来扩展到图像、视频和音频输入输出。该模型拥有 128K 标记的上下文窗口，每次请求最多可处理 16K 的输出标记，知识覆盖范围直至 2023 年 10 月。除此之外，改进的标记器使其在处理非英语文本时更具成本效益。

在文本智能和多模态推理方面，GPT-4o mini 表现卓越，支持多种语言，并在函数调用、数学推理和编码任务上表现出色。从7月19日起，免费用户、Plus 用户和 Team 用户将能够访问 GPT-4o mini，取代 GPT-3.5，企业用户也将在下周开始体验这款新模型。

GPT-4o mini的功能特色
- 文本智能：GPT-4o mini 在文本理解和生成方面表现出色，能处理复杂的文本任务，如自然语言理解、文本摘要、内容创作等。
- 多模态推理：支持文本和视觉输入，未来将扩展到图像、视频和音频输入输出，模型能理解和处理多种类型的数据。
- 数学推理：在数学问题解决和逻辑推理方面表现优异，能处理复杂的数学问题和逻辑推理任务。
- 编码任务：编码性能测试表现出色，能理解和生成代码，辅助软件开发和编程任务。
- 成本效益：价格极具竞争力，每百万输入标记 15 美分，每百万输出标记 60 美分，降低了 AI 应用的开发和运行成本。
- 易于访问：免费用户、Plus 用户和 Team 用户均可访问 GPT-4o mini，用户能很方便地使用最先进的 AI 技术。
如何使用GPT-4o mini

GPT-4o mini可以免费使用，要使用GPT-4o mini，你只需要访问他们的官方网站（https://chat.openai.com/chat），无需下载但需要魔法，去ChatGPT页面登录即可，你可以选择邮箱注册或用你的谷歌或微软账户登录。

ChatGPT的网页界面对所有用户来说都很容易使用，显示界面包括一个供用户输入查询的文本框和一个显示结果的区域。输入你的文字提示后，然后你就会收到ChatGPT返回的回应信息。
July 19, 2024
FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型
FunAudioLLM是什么

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目，包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言，特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成，能够控制音色和情感，支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能
- SenseVoice模型：
  - 专注于多语言的高精度语音识别。
  - 支持超过50种语言，特别是在中文和粤语上识别效果优于现有模型。
  - 具备情感识别功能，能够辨识多种人机交互事件。
  - 提供轻量级和大型两个版本，适应不同应用场景。
- CosyVoice模型：
  - 专注于自然语音生成，支持多语言、音色和情感控制。
  - 能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节。
  - 支持跨语种语音生成和细粒度的情感控制。
FunAudioLLM的项目地址
- 项目官网：https://fun-audio-llm.github.io/
- CosyVoice 在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M
- SenseVoice 在线体验：https://www.modelscope.cn/studios/iic/SenseVoice
- GitHub仓库：https://github.com/FunAudioLLM
- arXiv技术论文：https://arxiv.org/abs/2407.04051
FunAudioLLM的应用场景
- 开发者和研究人员：使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。
- 企业用户：在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM，提高效率和用户体验。
- 内容创作者：使用FunAudioLLM生成有声读物或播客，丰富内容形式，吸引更多听众。
- 教育领域：用于语言学习、听力训练等教育应用，提高学习效率和兴趣。
- 残障人士：帮助视障人士通过语音交互获取信息，提升生活便利性。
July 14, 2024
EchoMimic – 阿里推出的开源数字人项目，赋予静态图像以生动语音和表情
EchoMimic是什么

EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目，赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频，还能将两者结合，实现更自然、流畅的对口型效果。EchoMimic支持多语言，包括中文和英语，适用于唱歌等多种场景，为数字人技术带来革命性的进步，广泛应用于娱乐、教育和虚拟现实等领域。

EchoMimic的诞生，不仅仅是阿里在数字人领域的一次尝试，更是对现有技术的一次革新。传统的肖像动画技术，要么依赖音频驱动，要么依赖面部关键点驱动，各有利弊。而EchoMimic则巧妙地结合了这两种驱动方式，通过音频和面部关键点的双重训练，实现了更加逼真、自然的动态肖像生成。

EchoMimic的功能特色
- 音频同步动画：通过分析音频波形，EchoMimic能够精确地生成与语音同步的口型和面部表情，为静态图像赋予生动的动态表现。
- 面部特征融合：项目采用面部标志点技术，捕捉并模拟眼睛、鼻子、嘴巴等关键部位的运动，增强动画的真实感。
- 多模态学习：结合音频和视觉数据，EchoMimic通过多模态学习方法，提升了动画的自然度和表现力。
- 跨语言能力：支持中文普通话和英语等多种语言，不同语言区域的用户都能利用该技术制作动画。
- 风格多样性：EchoMimic能够适应不同的表演风格，包括日常对话、歌唱等，为用户提供广泛的应用场景。
EchoMimic的官网入口
- 项目官网：https://badtobest.github.io/echomimic.html
- GitHub仓库：https://github.com/BadToBest/EchoMimic
- Hugging Face模型库：https://huggingface.co/BadToBest/EchoMimic
- arXiv技术论文：https://arxiv.org/html/2407.08136
- EchoMimicV2：EchoMimicV2 在前代 EchoMimicV1 生成逼真人头动画的基础上，效果得到进一步提升，现在能生成完整的数字人半身动画，实现从中英文语音到动作的无缝转换。
EchoMimic的技术原理
- 音频特征提取：EchoMimic首先对输入的音频进行深入分析，利用先进的音频处理技术提取出语音的节奏、音调、强度等关键特征。
- 面部标志点定位：通过高精度的面部识别算法，EchoMimic能够精确地定位面部的关键区域，包括嘴唇、眼睛、眉毛等，为后续的动画生成提供基础。
- 面部动画生成：结合音频特征和面部标志点的位置信息，EchoMimic运用复杂的深度学习模型来预测和生成与语音同步的面部表情和口型变化。
- 多模态学习：项目采用多模态学习策略，将音频和视觉信息进行深度融合，生成的动画不仅在视觉上逼真，而且在语义上与音频内容高度一致。
- 深度学习模型应用：
  - 卷积神经网络（CNN）：用于从面部图像中提取特征。
  - 循环神经网络（RNN）：处理音频信号的时间动态特性。
  - 生成对抗网络（GAN）：生成高质量的面部动画，确保视觉效果的逼真性。
- 创新训练方法：EchoMimic采用了创新的训练策略，允许模型独立地或结合地使用音频和面部标志点数据，以提高动画的自然度和表现力。
- 预训练和实时处理：项目使用了在大量数据上预训练的模型，EchoMimic能够快速适应新的音频输入，并实时生成面部动画。
July 12, 2024
Kimi浏览器插件 – 月之暗面推出的官方Kimi浏览器助手
Kimi浏览器插件是什么

Kimi浏览器插件是月之暗面科技有限公司推出的一款官方工具，集成了即时问答、全文摘要和划线互动等实用功能。用户可以轻松划线提问，获取上下文相关答案，或一键生成文章摘要，节省阅读时间。划线互动允许用户查看其他用户对特定文本的疑问和解答，增加社区互动。Kimi网页插件助手支持侧边栏和全局浮窗模式，适用于多种浏览器，以简约风格提升用户的网页浏览体验。

Kimi浏览器插件的主要功能
- 点问笔：用户可以划选网页上的文字，Kimi插件会提供基于上下文的解释，帮助用户更好地理解术语、名字或句子。
- 总结器：位于网页右下角的工具，帮助用户快速总结全文内容，同时支持进一步的答疑和讨论。
- 侧边栏模式：在写文档或创作时，Kimi插件可以以侧边栏的形式存在，支持持续对话和边写边搜，提高创作效率。
- 快捷键召唤：用户可以通过快捷键（Mac为Command + K，Windows为Alt + K）快速召唤Kimi，进行即时互动。
如何使用Kimi浏览器插件
- 获取插件：访问Kimi官方网站或浏览器扩展商店，搜索并下载Kimi浏览器插件。
- 安装插件：
  - 在Chrome中，访问 chrome://extensions/，打开开发者模式，拖入.crx文件安装。
  - 其他浏览器可能有不同安装流程，根据提示操作。
- 启动插件：安装后，点击浏览器工具栏上的Kimi图标或使用快捷键（如Command⌘/Alt + K）启动。
- 进行设置：初次使用时，根据个人喜好设置快捷键，选择侧边栏或全局浮窗模式。
- 即时问答：在网页上划线有疑问的文本，通过图标或快捷键唤起Kimi，获取答案。
- 全文摘要：浏览完文章后，使用Kimi的全文摘要功能快速把握文章要点。
- 划线互动：对感兴趣的文本划线，查看其他用户的问题和答案，或者分享你的见解。
Kimi浏览器插件的应用场景
- 学生：需要进行学术研究、资料查询和学习新知识的在校学生。
- 研究人员：在学术或专业领域内需要深入分析和快速获取信息的研究人员。
- 专业人士：如律师、医生、工程师等，需要快速访问专业信息以支持决策。
- 内容创作者：包括博客作者、记者、编辑等，需要灵感和资料支持内容生成。
- 技术开发者：程序员和技术开发人员，需要查找技术解决方案或学习新技术。
- 语言学习者：正在学习第二语言的用户，需要即时翻译和语言点解释。
- 教育工作者：教师和讲师，需要准备教学材料或辅助学生学习。
July 8, 2024
Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型
Moshi是什么

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型，拥有听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。作为平替GPT-4o的开源模型，Moshi在普通笔记本上即可运行，具有低延迟特性，支持本地设备使用，保护用户隐私。Moshi的开发和训练流程简单高效，由8人团队在6个月内完成，将很快开源模型的代码、权重和技术论文，免费供全球用户使用和进一步研究开发。

Moshi的功能特色
- 多模态交互：Moshi作为一个多模态AI模型，不仅能够处理和生成文本信息，还能够理解和生成语音，使得Moshi可以与用户进行更加自然和直观的交流，就像与真人对话一样。
- 情绪和风格表达：Moshi可以模拟70种不同的情绪和风格进行对话，让AI对话更加生动和真实。无论是表达喜悦、悲伤还是严肃，Moshi都能够通过语音的变化来传达相应的情感，增强交流的体验。
- 实时响应低延迟：Moshi的响应具备低延迟特性，能够快速地处理用户的输入，并几乎0延迟地给出回应。对于需要即时反馈的应用场景非常有帮助，比如客户服务或实时翻译。
- 语音理解与生成：Moshi能够同时处理听和说的任务，可以在听用户说话的同时生成回答，提高了交互的效率和流畅性，提供了一个自然无缝的对话体验。
- 文本和音频混合预训练：Moshi通过结合文本和音频数据进行预训练，使得模型在理解和生成语言时能够更好地捕捉到语义和语境信息，提高了模型的准确性和可靠性。
- 本地设备运行：作为一款完全端到端的音频模型，Moshi可以在用户的本地设备上运行，普通笔记本电脑或消费级GPU即可满足运行要求。
如何使用Moshi
1. 访问Moshi平台：访问Moshi的官方网站https://moshi.chat/?queue_id=talktomoshi。
2. 提供邮箱：进入网站后只需要提供一个邮箱地址，点击Join queue即可免费开始使用。
3. 检查设备兼容性：确保你的设备（无论是手机还是电脑）配备有麦克风和扬声器，因为Moshi的交互主要依赖语音输入和输出。
4. 开始语音交互：提供邮箱后即可开始与Moshi进行语音交互，系统会提示你使用麦克风进行语音输入。
5. 提问或发出指令：对着麦克风提出问题或发出指令，Moshi将通过语音识别技术理解您的问题或指令。
6. 听取回答：Moshi会根据你的提问生成回答，并通过语音合成技术将文本转换为语音，然后通过设备的扬声器播放出来。
目前，Moshi主要支持英语和法语，暂不支持中文普通话。此外，Kyutai团队表示后续很快将开源Moshi，公布代码、模型权重和论文。

Moshi的应用场景
- 虚拟助手：Moshi可以作为个人或企业的虚拟助手，提供语音交互服务，帮助用户完成日常任务，如设置提醒、搜索信息等。
- 客户服务：在客户服务领域，Moshi可以作为智能客服，通过语音与客户进行交流，解答咨询，提供即时帮助。
- 语言学习：Moshi能够模拟不同口音和情绪，有助于语言学习者练习听力和口语，提高语言能力。
- 内容创作：Moshi可以生成不同风格和情绪的语音，为视频、播客或动画制作提供配音服务。
- 辅助残障人士：对于视力或听力有障碍的人士，Moshi可以提供语音到文本或文本到语音的服务，帮助他们更好地获取信息。
- 研究和开发：研究人员可以使用Moshi进行语音识别、自然语言处理和机器学习等领域的研究。
- 娱乐和游戏：在游戏和娱乐应用中，Moshi可以作为角色与用户进行互动，提供更加丰富的用户体验。
July 4, 2024