Author: Chimy

  • Chameleon – Meta推出的图文混合多模态开源模型

    Chameleon是什么

    Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本混合多模态开源模型。拥有 34B 参数,能生成文本和图像内容。早期融合技术将不同模态信息映射到统一表示空间,实现跨模态无缝处理。在多项基准测试中,Chameleon 表现出色,性能接近 GPT-4V,引领多模态 AI 技术的新浪潮。

    Chameleon

    Chameleon的核心能力

    • 多模态处理:Chameleon 能够在单一神经网络中无缝处理文本和图像,生成多模态内容。
    • 参数规模:模型拥有高达 34B(340 亿)参数,经过大规模训练,具备强大的学习和生成能力。
    • 训练数据:使用了包括纯文本、文本-图像对以及文本和图像交错出现的多模态文档在内的大量数据进行训练。
    • 技术创新
      • 早期融合:通过将不同模态的信息在输入阶段就映射到同一个表示空间中,实现跨模态的无缝处理。
      • 图像分词器:开发了一种新的图像分词器,将图像编码为离散的 token,以便模型处理。
    • 性能表现
      • 在多种基准测试中表现出色,特别是在常识推理、阅读理解、数学问题和世界知识领域。
      • 在视觉问答和图像标注任务中刷新了 SOTA(State of the Art),性能接近 GPT-4V。
    • 开源资源:Chameleon 的 GitHub 仓库提供了模型的独立推理代码、输入输出查看工具以及用于人类评估的混合模态和纯文本提示。

    Chameleon的项目地址

    Chameleon的应用场景

    • 图像和文本生成Chameleon 能生成与文本描述相匹配的图像,适用于创意写作、教育材料制作、游戏设计等领域。
    • 视觉问答(Visual Question Answering)在给定图像和相关问题的情况下,Chameleon 可以提供准确的答案,适用于图像内容理解、辅助视觉障碍人士等。
    • 图像标注Chameleon 可以为图像生成描述性标签,适用于图像数据库管理、图像检索系统等。
    • 多模态文档生成能生成包含文本和图像的复杂文档,适用于自动化报告生成、教育材料、营销内容创作等。
  • Adaptive获1900万美元A轮融资,为建筑业提供AI驱动的财务自动化平台

    Adaptive

    2024年7月16日,总部位于美国纽约的面向建筑行业的财务自动化平台Adaptive宣布筹集了1900万美元的A轮融资。本轮融资由Emergence Capital领投,Andreessen Horowitz、Definition、Exponent、3kvc、Box Group、Gokul Rajaram等参投。

    该公司计划将筹集的资金用于扩大其工程和产品团队,增强在美国各地推广其平台的努力。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    Adaptive公司由Matt Calvano和Francisco Enriquez共同创立,成立于2023年2月。该公司主要为建筑行业提供先进的自动化和人工智能技术,通过消除后台瓶颈和简化支付流程,使各种规模的建筑公司能够改善现金流、盈利能力和项目效率。Adaptive的愿景是成为建筑支付的标准网络,为建筑行业带来更透明、高效和盈利的变革。

    (消息来源:PR Newswire

  • 去中心化AI基础设施平台Mira获900万美元种子轮融资

    Mira

    2024年7月16日,总部位于新加坡的去中心化人工智能基础设施平台Mira宣布筹集了900万美元的种子轮融资。本轮融资由BITKRAFT Ventures和Framework Ventures领投,其他投资方包括Accel、Crucible、Folius Ventures、Mechanism Capital、SALT Fund以及一些知名天使投资者。

    该公司计划将筹集的资金用于全球范围内扩大团队规模,支持Mira网络及其首批生态系统应用的开发。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    Mira公司成立于2024年,由一支具有在包括Accel、亚马逊人工智能、BCG、Uber、Stader等大型科技公司工作经验的团队创立并运营。该公司提供一套用户友好的软件开发工具包(SDKs),为应对当今人工智能基础设施的复杂性提供解决方案。Mira通过区块链技术保护人工智能模型的基础数据,确保所有资源得到合理分配,并使开发者能够创建兼容Web2和Web3的资源。

    (消息来源:PR Newswire

  • 生成式AI平台Vectara获2500万美元A轮融资,为企业提供RAG解决方案

    Vectara

    2024年7月16日,总部位于美国加州帕洛阿尔托的企业生成式AI平台Vectara宣布完成了2500万美元的A轮融资。本轮融资由FPV Ventures和Race Capital领投,其他投资者包括Alumni Ventures、WVV Capital、Samsung Next、Fusion Fund、Green Sands Equity和Mack Ventures。

    Vectara公司计划将筹集的资金用于推进检索增强生成(Retrieval Augmented Generation, RAG)技术,加强内部创新,提高市场推广资源,并扩展其它地区的业务。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    Vectara成立于2023年,由Amr Awadallah担任联合创始人兼首席执行官。该公司提供一个端到端的生成式人工智能(Generative AI)平台,专注于检索增强生成(RAG)技术。该平台旨在为受监管行业(如健康、法律、金融和制造业)提供一种安全、可靠、可信赖的AI解决方案。通过其RAG-as-a-Service模式,Vectara使各种规模的企业能够更高效地部署具有实际价值的用例。

    此外,Vectara还推出了名为Mockingbird的新型大型语言模型(LLM),专门为RAG应用设计的,旨在减少幻觉(hallucinations)并提高结构化输出的质量,提供低延迟和成本效率的可靠性能。

    (消息来源:BusinessWire

  • FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型

    FunAudioLLM是什么

    FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

    FunAudioLLM

    FunAudioLLM的主要功能

    • SenseVoice模型
      • 专注于多语言的高精度语音识别。
      • 支持超过50种语言,特别是在中文和粤语上识别效果优于现有模型。
      • 具备情感识别功能,能够辨识多种人机交互事件。
      • 提供轻量级和大型两个版本,适应不同应用场景。
    • CosyVoice模型
      • 专注于自然语音生成,支持多语言、音色和情感控制。
      • 能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节。
      • 支持跨语种语音生成和细粒度的情感控制。

    FunAudioLLM

    FunAudioLLM的项目地址

    FunAudioLLM的应用场景

    FunAudioLLM

    • 开发者和研究人员:使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。
    • 企业用户:在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM,提高效率和用户体验。
    • 内容创作者:使用FunAudioLLM生成有声读物或播客,丰富内容形式,吸引更多听众。
    • 教育领域:用于语言学习、听力训练等教育应用,提高学习效率和兴趣。
    • 残障人士:帮助视障人士通过语音交互获取信息,提升生活便利性。
  • MimicMotion – 腾讯联合上海交大推出的AI视频生成框架

    MimicMotion是什么

    MimicMotion是腾讯与上海交通大学合作推出的AI视频生成框架。用户只需提供一张图片和一段参考视频,即可一键生成逼真的人类动作视频,适用于舞蹈、运动等多种场景。MimicMotion具备多样化视频生成、精确控制动作和高细节处理能力,大幅提升视频内容的质量和可控性,为视频制作和社交媒体创作带来便利。

    MimicMotion

    MimicMotion的主要功能

    • 多样化视频生成:能够根据用户上传的图片和参考视频,生成各种逼真的人类动作视频。
    • 精确控制:用户可以对视频中的动作、姿势和风格进行精确控制,并且可以指定视频的持续时间。
    • 高细节处理:特别在手部等容易失真的区域,使用置信度感知的姿态引导技术,减少图像失真,提升视频的视觉效果。

    MimicMotion的技术原理

    • 图像识别:MimicMotion使用先进的图像识别技术来分析用户提供的静态图片,识别出图片中的人物和关键特征点。
    • 动作捕捉:工具会分析用户提供的参考视频,捕捉视频中的动作序列和运动轨迹。
    • 姿态估计:通过深度学习算法,MimicMotion估计图片中人物的姿态,将静态图片中的人物与参考视频中的动作进行匹配。
    • 动作合成:基于生成对抗网络(GANs)或其他深度学习模型,MimicMotion将捕捉到的动作应用到静态图片上,生成动态视频。
    • 细节优化:对于容易出现失真的区域,如手部和面部,MimicMotion采用置信度感知的姿态引导技术,确保动作的自然流畅和高保真度。
    • 渲染输出:经过合成和优化后的动作序列会被渲染成视频格式,用户可以下载并使用生成的视频。
    • 用户交互:MimicMotion提供了用户友好的界面,允许用户上传素材、选择参数和控制生成过程,使得非专业人士也能轻松使用。
    • 性能优化:为了提高处理速度和视频质量,MimicMotion还会使用GPU加速计算,以及CUDA等技术进行性能优化。

    MimicMotion

    MimicMotion的项目地址

    MimicMotion的应用场景

    • 专业视频制作:在影视制作、广告制作等行业,MimicMotion可用于生成高质量的动作视频,提升视频内容的创意性和观赏性。
    • 社交媒体内容创作:普通用户可以用MimicMotion创作有趣的视频内容,发布在社交媒体平台,吸引关注和互动。
    • 舞蹈教学:舞蹈教师或爱好者可以使用MimicMotion生成舞蹈动作视频,用于教学或个人练习。
    • 运动训练:运动员或教练可以用MimicMotion生成标准动作视频,帮助运动员学习和纠正动作。
    • 虚拟现实和游戏开发:在虚拟现实或游戏开发中,MimicMotion可用来生成逼真的人类动作,增强用户体验。
  • EchoMimic – 阿里推出的开源数字人项目,赋予静态图像以生动语音和表情

    EchoMimic是什么

    EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频,还能将两者结合,实现更自然、流畅的对口型效果。EchoMimic支持多语言,包括中文和英语,适用于唱歌等多种场景,为数字人技术带来革命性的进步,广泛应用于娱乐、教育和虚拟现实等领域。

    EchoMimic

    EchoMimic的诞生,不仅仅是阿里在数字人领域的一次尝试,更是对现有技术的一次革新。传统的肖像动画技术,要么依赖音频驱动,要么依赖面部关键点驱动,各有利弊。而EchoMimic则巧妙地结合了这两种驱动方式,通过音频和面部关键点的双重训练,实现了更加逼真、自然的动态肖像生成。

    EchoMimic的功能特色

    • 音频同步动画:通过分析音频波形,EchoMimic能够精确地生成与语音同步的口型和面部表情,为静态图像赋予生动的动态表现。
    • 面部特征融合:项目采用面部标志点技术,捕捉并模拟眼睛、鼻子、嘴巴等关键部位的运动,增强动画的真实感。
    • 多模态学习:结合音频和视觉数据,EchoMimic通过多模态学习方法,提升了动画的自然度和表现力。
    • 跨语言能力:支持中文普通话和英语等多种语言,不同语言区域的用户都能利用该技术制作动画。
    • 风格多样性:EchoMimic能够适应不同的表演风格,包括日常对话、歌唱等,为用户提供广泛的应用场景。

    EchoMimic

    EchoMimic的官网入口

    EchoMimic的技术原理

    EchoMimic

    • 音频特征提取:EchoMimic首先对输入的音频进行深入分析,利用先进的音频处理技术提取出语音的节奏、音调、强度等关键特征。
    • 面部标志点定位:通过高精度的面部识别算法,EchoMimic能够精确地定位面部的关键区域,包括嘴唇、眼睛、眉毛等,为后续的动画生成提供基础。
    • 面部动画生成:结合音频特征和面部标志点的位置信息,EchoMimic运用复杂的深度学习模型来预测和生成与语音同步的面部表情和口型变化。
    • 多模态学习:项目采用多模态学习策略,将音频和视觉信息进行深度融合,生成的动画不仅在视觉上逼真,而且在语义上与音频内容高度一致。
    • 深度学习模型应用
      • 卷积神经网络(CNN):用于从面部图像中提取特征。
      • 循环神经网络(RNN):处理音频信号的时间动态特性。
      • 生成对抗网络(GAN):生成高质量的面部动画,确保视觉效果的逼真性。
    • 创新训练方法:EchoMimic采用了创新的训练策略,允许模型独立地或结合地使用音频和面部标志点数据,以提高动画的自然度和表现力。
    • 预训练和实时处理:项目使用了在大量数据上预训练的模型,EchoMimic能够快速适应新的音频输入,并实时生成面部动画。
  • Kimi浏览器插件 – 月之暗面推出的官方Kimi浏览器助手

    Kimi浏览器插件是什么

    Kimi浏览器插件是月之暗面科技有限公司推出的一款官方工具,集成了即时问答、全文摘要和划线互动等实用功能。用户可以轻松划线提问,获取上下文相关答案,或一键生成文章摘要,节省阅读时间。划线互动允许用户查看其他用户对特定文本的疑问和解答,增加社区互动。Kimi网页插件助手支持侧边栏和全局浮窗模式,适用于多种浏览器,以简约风格提升用户的网页浏览体验。

    Kimi

    Kimi浏览器插件的主要功能

    • 点问笔:用户可以划选网页上的文字,Kimi插件会提供基于上下文的解释,帮助用户更好地理解术语、名字或句子。
    • 总结器:位于网页右下角的工具,帮助用户快速总结全文内容,同时支持进一步的答疑和讨论。
    • 侧边栏模式:在写文档或创作时,Kimi插件可以以侧边栏的形式存在,支持持续对话和边写边搜,提高创作效率。
    • 快捷键召唤:用户可以通过快捷键(Mac为Command + K,Windows为Alt + K)快速召唤Kimi,进行即时互动。

    Kimi

    如何使用Kimi浏览器插件

    • 获取插件:访问Kimi官方网站或浏览器扩展商店,搜索并下载Kimi浏览器插件
    • 安装插件
      • 在Chrome中,访问 chrome://extensions/,打开开发者模式,拖入.crx文件安装。
      • 其他浏览器可能有不同安装流程,根据提示操作。
    • 启动插件:安装后,点击浏览器工具栏上的Kimi图标或使用快捷键(如Command⌘/Alt + K)启动。
    • 进行设置:初次使用时,根据个人喜好设置快捷键,选择侧边栏或全局浮窗模式。
    • 即时问答:在网页上划线有疑问的文本,通过图标或快捷键唤起Kimi,获取答案。
    • 全文摘要:浏览完文章后,使用Kimi的全文摘要功能快速把握文章要点。
    • 划线互动:对感兴趣的文本划线,查看其他用户的问题和答案,或者分享你的见解。

    Kimi浏览器插件的应用场景

    • 学生:需要进行学术研究、资料查询和学习新知识的在校学生。
    • 研究人员:在学术或专业领域内需要深入分析和快速获取信息的研究人员。
    • 专业人士:如律师、医生、工程师等,需要快速访问专业信息以支持决策。
    • 内容创作者:包括博客作者、记者、编辑等,需要灵感和资料支持内容生成。
    • 技术开发者:程序员和技术开发人员,需要查找技术解决方案或学习新技术。
    • 语言学习者:正在学习第二语言的用户,需要即时翻译和语言点解释。
    • 教育工作者:教师和讲师,需要准备教学材料或辅助学生学习。
  • Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型

    Moshi是什么

    Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为平替GPT-4o的开源模型,Moshi在普通笔记本上即可运行,具有低延迟特性,支持本地设备使用,保护用户隐私。Moshi的开发和训练流程简单高效,由8人团队在6个月内完成,将很快开源模型的代码、权重和技术论文,免费供全球用户使用和进一步研究开发。

    Kyutai Moshi

    Moshi的功能特色

    • 多模态交互:Moshi作为一个多模态AI模型,不仅能够处理和生成文本信息,还能够理解和生成语音,使得Moshi可以与用户进行更加自然和直观的交流,就像与真人对话一样。
    • 情绪和风格表达:Moshi可以模拟70种不同的情绪和风格进行对话,让AI对话更加生动和真实。无论是表达喜悦、悲伤还是严肃,Moshi都能够通过语音的变化来传达相应的情感,增强交流的体验。
    • 实时响应低延迟:Moshi的响应具备低延迟特性,能够快速地处理用户的输入,并几乎0延迟地给出回应。对于需要即时反馈的应用场景非常有帮助,比如客户服务或实时翻译。
    • 语音理解与生成:Moshi能够同时处理听和说的任务,可以在听用户说话的同时生成回答,提高了交互的效率和流畅性,提供了一个自然无缝的对话体验。
    • 文本和音频混合预训练:Moshi通过结合文本和音频数据进行预训练,使得模型在理解和生成语言时能够更好地捕捉到语义和语境信息,提高了模型的准确性和可靠性。
    • 本地设备运行:作为一款完全端到端的音频模型,Moshi可以在用户的本地设备上运行,普通笔记本电脑或消费级GPU即可满足运行要求。

    Moshi.chat

    如何使用Moshi

    1. 访问Moshi平台:访问Moshi的官方网站https://moshi.chat/?queue_id=talktomoshi
    2. 提供邮箱:进入网站后只需要提供一个邮箱地址,点击Join queue即可免费开始使用。
    3. 检查设备兼容性:确保你的设备(无论是手机还是电脑)配备有麦克风和扬声器,因为Moshi的交互主要依赖语音输入和输出。
    4. 开始语音交互:提供邮箱后即可开始与Moshi进行语音交互,系统会提示你使用麦克风进行语音输入。
    5. 提问或发出指令:对着麦克风提出问题或发出指令,Moshi将通过语音识别技术理解您的问题或指令。
    6. 听取回答:Moshi会根据你的提问生成回答,并通过语音合成技术将文本转换为语音,然后通过设备的扬声器播放出来。

    目前,Moshi主要支持英语和法语,暂不支持中文普通话。此外,Kyutai团队表示后续很快将开源Moshi,公布代码、模型权重和论文。

    Moshi的应用场景

    • 虚拟助手:Moshi可以作为个人或企业的虚拟助手,提供语音交互服务,帮助用户完成日常任务,如设置提醒、搜索信息等。
    • 客户服务:在客户服务领域,Moshi可以作为智能客服,通过语音与客户进行交流,解答咨询,提供即时帮助。
    • 语言学习:Moshi能够模拟不同口音和情绪,有助于语言学习者练习听力和口语,提高语言能力。
    • 内容创作:Moshi可以生成不同风格和情绪的语音,为视频、播客或动画制作提供配音服务。
    • 辅助残障人士:对于视力或听力有障碍的人士,Moshi可以提供语音到文本或文本到语音的服务,帮助他们更好地获取信息。
    • 研究和开发:研究人员可以使用Moshi进行语音识别、自然语言处理和机器学习等领域的研究。
    • 娱乐和游戏:在游戏和娱乐应用中,Moshi可以作为角色与用户进行互动,提供更加丰富的用户体验。
  • Fish Speech – 开源的高效文本到语音合成TTS工具

    Fish Speech是什么

    Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成效果,目前已更新到1.2版本。该工具特点包括低显存需求(仅需4GB)、快速推理速度、高自定义性和灵活性,用户可快速进行语音克隆而无需复杂训练。Fish Speech还支持多种语音生成模型,如VITS2、Bert-VITS2等,适用于智能助手、自动客服、语言学习等场景。

    Fish Speech

    Fish Speech的功能特色

    • 高效的文本到语音转换: Fish Speech利用先进的算法,能够迅速将输入的文本信息转换成听起来自然、流畅的语音。通过优化的声学模型和语言模型,确保语音的自然度和准确性,使其在多种场景下都能提供高质量的语音输出。
    • 多语言支持:支持中文、英文和日文,Fish Speech的多语言能力可以跨越语言障碍,为不同国家和地区的用户提供服务,为全球化的应用场景提供了便利。
    • 语音克隆能力:用户可以上传自己或他人的一段语音作为参考,Fish Speech通过深度学习技术,学习并模仿该语音的特征,实现个性化的语音克隆。该功能在个性化语音助手、有声读物制作等领域具有广泛的应用潜力。
    • 低显存需求:仅需4GB显存即可运行,大大降低了硬件门槛,使得更多的用户能够在自己的电脑上使用Fish Speech,而不必投资昂贵的硬件设备。
    • 快速推理速度: Fish Speech优化了推理过程,减少了等待时间,提高了语音合成的效率。用户可以在短时间内获得所需的语音输出,提升了整体的使用体验。
    • 多种语音生成模型: Fish Speech支持包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast和GPT-SoVITS等多种模型,用户可以根据自己的需求选择合适的模型,以获得最佳的语音合成效果。
    • 易于使用: Fish Speech的设计注重用户体验,简化了安装和配置流程。用户无需深入了解技术细节,即可通过一键启动程序快速开始使用,大大降低了使用门槛。
    • 微调能力: LORA微调技术允许用户对模型进行细致的调整,以适应特定的语音风格或表达方式,为用户提供了更多的创造性空间。
    • 性能优化: 通过采用gradient checkpointing、causal sampling和flash-attn等先进技术,Fish Speech在模型训练和推理过程中实现了性能的显著提升,确保了处理大规模数据时的高效性和稳定性。

    Fish Audio

    Fish Speech的官网入口

    如何安装和使用Fish Speech

    运行要求

    • GPU 内存:4GB (用于推理)、16GB (用于微调)
    • 系统:Linux、Windows

    Windows配置

    Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

    Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即 torch.compile):

    1. 解压项目压缩包。
    2. 点击 install_env.bat 安装环境。
      • 可以通过编辑 install_env.bat 的 USE_MIRROR 项来决定是否使用镜像站下载。
      • USE_MIRROR=false 使用原始站下载最新稳定版 torch 环境。USE_MIRROR=true 为从镜像站下载最新 torch 环境。默认为 true
      • 可以通过编辑 install_env.bat 的 INSTALL_TYPE 项来决定是否启用可编译环境下载。
      • INSTALL_TYPE=preview 下载开发版编译环境。INSTALL_TYPE=stable 下载稳定版不带编译环境。
    3. 若第2步 INSTALL_TYPE=preview 则执行这一步(可跳过,此步为激活编译模型环境)
      1. 使用如下链接下载 LLVM 编译器。
      2. 下载安装 Microsoft Visual C++ 可再发行程序包,解决潜在 .dll 丢失问题。
      3. 下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。
          • Visual Studio 下载
          • 安装好Visual Studio Installer之后,下载Visual Studio Community 2022
          • 如下图点击修改按钮,找到使用C++的桌面开发项,勾选下载

        Visual Studio设置

    4. 双击 start.bat, 进入 Fish-Speech 训练推理配置 WebUI 页面。
      • (可选) 想直接进入推理页面?编辑项目根目录下的 API_FLAGS.txt, 前三行修改成如下格式:
        --infer
        # --api
        # --listen ...
        ...
      • (可选) 想启动 API 服务器?编辑项目根目录下的 API_FLAGS.txt, 前三行修改成如下格式:
        --infer
        # --api
        # --listen ...
        ...
    5. (可选)双击 run_cmd.bat 进入本项目的 conda/python 命令行环境

    Linux配置

    # 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
    conda create -n fish-speech python=3.10
    conda activate fish-speech
    
    # 安装 pytorch
    pip3 install torch torchvision torchaudio
    
    # 安装 fish-speech
    pip3 install -e .
    
    # (Ubuntu / Debian 用户) 安装 sox
    apt install libsox-dev