Author: Chimy

  • Tektonic AI获1000万美元种子轮融资,为企业提供AI业务运营智能体

    Tektonic AI

    2024年6月6日,总部位于美国西雅图的企业流程自动化GenAI智能体开发初创公司Tektonic AI宣布筹集了1000万美元的种子轮融资,本轮融资由Madrona和Point72 Ventures领投。

    该公司计划将筹集的资金用于扩大公司规模和加速公司发展。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Tektonic AI成立于2023年,由行业资深人士和企业家Nic Surpatanu和David Hsu共同创立,两人认识到了业务操作的复杂性,并看到了通过结合神经和符号AI的服务层重新思考业务流程的机会。Tektonic AI的主要业务是为企业运营提供GenAI智能体,使企业能够消除重复且效率低下的任务。公司得到了Point72 Ventures、Madrona Ventures和Madrona Venture Labs的支持。

    (消息来源:BusinessWire

  • Sixfold完成1500万美元A轮融资,提供AI承保风险分析解决方案

    Sixfold

    2024年6月6日,总部位于美国纽约的AI承保风险分析解决方案初创公司Sixfold宣布筹集了1500万美元的A轮融资,本轮融资由Salesforce Ventures领投,Scale Venture Partners以及包括Bessemer Venture Partners和Crystal Venture Partners在内的投资者参与。

    该公司计划将筹集的资金用于继续构建其卓越的AI/ML工程师团队,进一步增强产品能力,并加速研发工作。此外,资金还将帮助Sixfold从北美市场扩展到英国和欧盟。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Sixfold成立于2023年,由Brian Moseley(CTO)、Jane Tran(COO)和Alex Schmelkin(CEO)共同创立,是一家专注于为保险承保提供端到端风险分析的生成性AI解决方案的公司。其平台简化了承保流程,使承保人能够专注于决策而非手动任务,从而提高了决策的准确性和透明度,同时增加了承保能力。

    (消息来源:PRWeb

  • Seed-TTS – 字节跳动推出的高质量文本到语音生成模型

    Seed-TTS是什么

    Seed-TTS是由字节跳动开发的高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。Seed-TTS支持对情感、语调、说话风格等语音属性的精细控制,适用于有声读物、视频配音等多种场景。此外,该模型还具备零样本学习能力,即使在没有训练数据的情况下也能生成高质量语音,并且支持内容编辑和多语种翻译功能。

    Seed-TTS

    Seed-TTS的主要功能

    • 高质量语音生成: Seed-TTS采用了先进的自回归模型和声学声码器技术,能够生成接近人类自然语音的高质量语音。模型在大量数据上进行训练,学习到丰富的语音特征和语言模式,从而能够合成清晰、流畅、自然的语音输出。
    • 上下文学习: 该模型具备出色的上下文学习能力,可以在理解给定文本的上下文基础上,生成与上下文风格和语义相匹配的语音。无论是连续的对话还是单独的句子,Seed-TTS都能够保持语音的连贯性和一致性。
    • 情感控制: Seed-TTS能够根据文本内容或额外的情感标签,控制生成语音的情感色彩。用户可以指定语音中应表达的情感,如愤怒、快乐、悲伤或惊讶等,模型会相应地调整语音的音调、强度和节奏,以匹配所选情感。
    • 语音属性可控: 除了情感,Seed-TTS还允许用户控制其他语音属性,包括语调、节奏和说话风格。用户可以根据应用场景的需求,调整语音使其更正式或非正式,或者更具戏剧化效果。
    • 零样本学习能力(Zero-shot Learning): 即使没有特定说话者的训练数据,Seed-TTS也能够利用其在大量数据上训练得到的泛化能力,生成高质量的语音。此能力使得Seed-TTS能够快速适应新的说话者或语言,而无需额外的训练过程。
    • 语音编辑: Seed-TTS支持对生成的语音进行编辑,包括内容编辑和说话速度编辑。用户可以根据需要修改语音中的特定部分,或调整语速以适应不同的听众或应用场景。
    • 多语种支持: 模型设计支持多种语言的文本输入,能够生成相应语言的语音,使得Seed-TTS可以服务于全球化的应用,满足不同语言用户的需求。
    • 语音分解: Seed-TTS通过自我蒸馏方法实现了语音的属性分解,例如可以将语音的音色与其他属性(如内容和情感)分离,为语音合成提供了更高的灵活性和控制力,允许用户独立地修改和重组语音的不同组成部分。

    Seed-TTS的官网入口

    Seed-TTS的工作原理

    Seed-TTS的系统架构

    1. 语音分词(Speech Tokenization): 首先,Seed-TTS使用一个语音分词器将输入的语音信号转换成一系列离散的语音标记(tokens)。这些标记是语音合成的基础,类似于文本中的字符或单词。
    2. 条件文本和语音处理: 接下来,Seed-TTS的自回归语言模型根据输入的文本和语音标记生成目标语音的标记序列。这个过程依赖于模型对语言结构和语音特性的理解,确保生成的语音标记序列在语义和语法上与输入文本相匹配。
    3. 语音表示生成: 生成的语音标记序列随后被送入一个扩散变换器(diffusion transformer)模型。这个模型负责将离散的语音标记转换成连续的语音表示,这个过程是逐步细化的,从粗糙到精细,以生成平滑且自然的语音波形。
    4. 声学声码器(Acoustic Vocoder): 最后,连续的语音表示被送入声学声码器,该组件负责将这些表示转换成可听的高质量语音。声码器通常使用深度学习技术来模拟人类声道产生语音的过程。
    5. 训练和微调: Seed-TTS模型在大量数据上进行预训练,以学习语言和语音的基本规律。之后,可以通过微调来适应特定的说话者或语音风格,进一步提升语音的自然度和表现力。
    6. 自我蒸馏和强化学习: Seed-TTS还采用了自我蒸馏方法来实现语音属性的分解,如音色分离,以及使用强化学习技术来增强模型的鲁棒性、说话者相似性和可控性。
    7. 端到端处理: 对于非自回归的变体Seed-TTSDiT,它采用完全基于扩散的架构,直接从文本到语音的端到端处理,不依赖预先估计的音素持续时间。

    如何使用Seed-TTS

    Seed-TTS目前只提供了技术论文和官方Demo,暂未开放使用地址,感兴趣的用户可以前往官网查看官方演示。

    Seed-TTS的应用场景

    • 虚拟助手:Seed-TTS可以为虚拟助手提供自然、流畅的语音交互能力,提升用户体验。
    • 有声读物和音频书籍:利用Seed-TTS生成高质量语音,可以将电子书籍转换成有声读物,供用户聆听。
    • 视频配音:Seed-TTS可以用于视频内容的配音,特别是在需要特定情感表达或语调的场景下。
    • 客户服务自动化:在客户服务领域,Seed-TTS可以提供自动语音回复功能,处理常规咨询和信息查询。
    • 电影和游戏配音:在电影制作和视频游戏开发中,Seed-TTS可以用于角色配音,提供多样化的声音选择。
    • 新闻和播客制作:Seed-TTS可以自动将文本新闻或播客稿件转换成语音,快速制作音频内容。
    • 辅助残障人士:Seed-TTS可以为有语言障碍的人士提供语音合成服务,帮助他们更好地进行沟通。
  • AI待办任务管理软件初创公司Hoop获500万美元种子轮融资

    Hoop

    2024年6月5日,总部位于美国纽约的AI待办任务管理软件初创公司Hoop宣布筹集了500万美元的种子轮融资,本轮融资由Index Ventures领投,Origin Ventures、Divergent Capital和Chingona Ventures参与投资。

    该公司计划将筹集的资金用于深化其AI能力,扩展平台集成,并开发协作功能。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Hoop由Trello前高管Garber、Brian Schmidt和Justin Gallagher于2022年创立的,该公司的应用可通过自动从Google Meet、Slack、Zoom和电子邮件等平台聚合任务,创建一个自动更新的待办事项列表。与其他加入会议以提供大量转录的AI平台不同,Hoop能够识别并帮助优先排序任务,使与会者能够保持专注和响应,而不必记下行动项目。Hoop目前可供个人使用,后续将推出团队版本。

    (消息来源:BusinessWire

  • AI自动化测试平台Testsigma获820万美元A轮融资

    Testsigma

    2024年6月5日,总部位于印度班加罗尔的自动化测试初创公司Testsigma宣布筹集了820万美元的A轮融资,本轮融资由MassMutual Ventures领投,该公司是总部位于美国的Massachusetts Mutual Life Insurance Company的风险投资部门。此外,现有投资者Accel、STRIVE和BoldCap也参与了此轮融资。

    Testsigma公司计划将筹集的资金用于产品工程的投资,并加速推进公司内部正在开展的多个项目,其中包括生成式人工智能的开发。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Testsigma成立于2019年,由Rukmangada Kandyala、Pratheep Velicherla、Vikram Chaitanya和Rajesh Reddy共同创立。该公司为网站、原生Android和iOS应用程序以及API提供端到端的自动化测试服务,使用简单的英语即可进行操作。Testsigma在开发企业级SaaS应用程序方面拥有丰富的经验,曾与Zoho、Freshworks、Oracle和HPE等公司合作。该公司致力于通过集成生成式人工智能和为Salesforce生态系统定制的新产品,朝着构建质量工程团队操作系统的愿景迈进。

    (消息来源:Inc42

  • Twelve Labs完成5000万美元A轮融资,提供多模态模型进行AI视频理解和搜索

    Twelve Labs

    2024年6月4日,总部位于美国旧金山的AI视频理解和搜索初创公司Twelve Labs宣布筹集了5000万美元的A轮融资。本轮融资由新投资者New Enterprise Associates (NEA)和NVIDIA的风险投资部门NVentures共同领投,此前的投资方包括Index Ventures、Radical Ventures、WndrCo和Korea Investment Partners也参与了这一轮融资。

    该公司计划将筹集的资金用于持续的研发工作和扩大员工规模。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Twelve Labs成立于2021年,该公司开发了如Marengo 2.6这样的多模态嵌入模型,以及Pegasus-1视频-语言模型,可使视频变得智能且易于搜索和理解,帮助用户更有效地进行视频内容的分析和利用。自推出平台以来,Twelve Labs 已拥有 30000 名用户利用其 API 执行语义视频搜索和摘要等任务,服务对象包括体育、媒体和娱乐、广告、汽车和安全领域的知名组织。

    (消息来源:PR Web

  • AI音视频基础设施平台LiveKit获2250万美元A轮融资

    LiveKit

    2024年6月4日,AI音视频基础设施平台初创公司LiveKit宣布筹集了2250万美元的A轮融资。本轮融资由Altimeter领投,Redpoint以及包括Jeff Dean、Elad Gil、Aravind Srinivas、Amjad Masad、Guillermo Rauch、Logan Kilpatrick、Mati Staniszewski、Erik Bernhardsson、Rohan Anil、Mckay Wrigley、Demi Guo和Matt Shumer等专注于AI领域的杰出人士提供支持。

    LiveKit公司计划将筹集的资金用于巩固其作为构建实时语音和视频应用的默认技术栈的地位,扩展其AI基础设施服务,并开发新产品以服务于新的用例。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    LiveKit成立于2021年,旨在构建一个类似于人体神经系统的实时平台,以支持人工智能模型的语音和视频输入输出。该公司的主营业务是提供灵活、开源的技术栈,使任何开发者都能够构建任何类型的实时语音或视频基础的应用程序。LiveKit已经被超过20000名开发者采用,包括一些最有价值的私人公司、财富50强企业、911紧急调度、AI助手、支持和服务代理、视频游戏中的NPC、用于遥测和观察的自动驾驶汽车、卡车、拖拉机和太空船、安全摄像头和门锁,以及手术室中的外科机器人和人类外科医生。此外,LiveKit还与OpenAI和Character.ai团队合作,向他们的AI模型提供视觉、听觉和语言能力。

    (消息来源:LiveKit Blog

  • AI视频生成初创公司Pika完成8000万美元新一轮融资,估值达4.7亿美元

    Pika

    2024年6月4日,总部位于美国旧金山的AI视频生成初创公司Pika宣布筹集了8000万美元的新一轮融资,使得其估值达到4.7亿美元。本轮融资的投资方包括Spark Capital、Lightspeed Venture Partners和Greycroft。

    该公司计划将筹集的资金用于继续训练其AI模型,同时改进产品特性,并扩大团队规模。

    Pika成立于2023年,由斯坦福大学的前AI博士生Demi Guo和Chenlin Meng联合创立。该公司致力于开发能够根据文本提示生成短视频的工具,允许用户调整视频比例、延长视频长度、剪辑特定部分以及改变角色的服装等细节。Pika的团队由来自Google、Meta和Uber等知名科技公司的前AI研究人员组成,拥有强大的技术背景和专业知识。

    (消息来源:The Washington Post

  • 消息称AI视频生成初创公司Pika正筹集新一轮融资,寻求估值7亿美元

    据Business Insider报道,AI视频生成初创公司Pika正在筹集新一轮资金。知情人士透露,此轮融资可能会使Pika的估值超过5亿美元,甚至高达7亿美元。

    Pika

    根据两位了解情况的消息人士,这家初创公司正在接近完成一轮新的融资,该轮融资对Pika的估值超过5亿美元。其中一位消息人士表示,Pika在这轮融资中可能会达到7亿美元的估值。该人士还表示,Pika在这轮融资中正在寻求筹集约7000万美元。

    细节尚未最终确定,涉及的数字可能会有所变化。Pika没有回应评论请求。

    Pika正在利用投资者对使用技术进行媒体创作到医疗计费等一切事务的生成式AI初创公司的兴趣浪潮。该公司的生成式AI平台允许用户输入几个单词、一张图片或一个短视频片段,以创建和编辑视频。

    投资者们正争先恐后地支持文本到视频领域的AI初创公司。Pika正在与其他AI媒体生成初创公司竞争,比如Runway,该公司已经从包括Alphabet和Nvidia在内的投资者那里筹集了超过2.5亿美元的资金,以及像Google和OpenAI这样的大型科技公司和AI巨头,他们都在开发AI视频产品。

    Pika由斯坦福大学AI实验室的两位博士生(Demi Guo和Chenlin Meng)联合创立,其投资者包括Quora创始人Adam D’Angelo、Github前CEO Nat Friedman、Color联合创始人Elad Gil和Giphy联合创始人Alex Chung。该公司在去年5月从隐身模式中出现后,筹集了5500万美元的资金,其中包括由Lightspeed Venture Partners领导的3500万美元的A轮融资。

    Pika的两位创始人

    (消息来源:Business Insider

  • ChatTTS – 开源的用于对话的生成式语音合成模型

    ChatTTS是什么

    ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。ChatTTS针对对话式任务进行了优化,实现了更自然、流畅的语音合成,同时支持多说话人,还具备细粒度控制能力,能够预测和控制韵律特征,如笑声、停顿等,超越了大部分开源TTS模型。

    ChatTTS

    ChatTTS的功能特色

    • 文本转语音:ChatTTS能够将用户输入的文本信息实时转换成自然流畅的语音输出,适用于多种语言环境。
    • 多语言支持:除了支持中文,ChatTTS还能够处理英文文本,使其能够服务于更广泛的用户群体。
    • 情感和韵律调整:ChatTTS不仅能够转换文本,还能够根据文本内容调整语音的情感色彩和韵律特征,如语速、语调、停顿等,使得语音更加贴近真实人类说话的自然节奏。
    • 语音角色选择:用户可以根据应用场景的需要,从多个预设的语音角色中选择最合适的声音,增加语音的个性化和表现力。
    • 交互式Web界面:通过直观的Web界面,用户可以直接在浏览器中输入文本并获取语音输出,无需编写代码。
    • 实时语音交互:ChatTTS支持实时语音合成,非常适合需要即时反馈的对话系统和交互式应用。
    • 语音文件导出:用户可以将合成的语音导出为常见的音频文件格式,方便进行后续的编辑、分享或作为多媒体内容的一部分。
    • 集成与兼容性:ChatTTS支持集成到各种平台和应用中,可以无缝集成到Web应用、移动应用、桌面软件等多种环境中。
    • 情感标记系统:ChatTTS支持在文本中嵌入情感标记,允许用户精细控制语音输出的情感表达,如在文本中插入[laugh]标记来模拟笑声。

    ChatTTS WebUI

    ChatTTS的官网入口

    如何运行ChatTTS

    方法一、在线体验Demo

    普通用户可以在ModelScope和Hugging Face上运行社区提供的在线ChatTTS WebUI版的Demo直接体验

    方法二、本地部署运行

    1. 安装环境:确保你的计算机上安装了Python和Git。
    2. SDK下载:安装ModelScope和SDK模型下载
      #安装ModelScope
      pip install modelscope
      #SDK模型下载
      from modelscope import snapshot_download
      model_dir = snapshot_download('pzc163/chatTTS')
    3. 获取源码:通过Git版本控制系统,从ModelScope的代码仓库克隆ChatTTS的源码到本地。
      #Git模型下载
      git clone https://www.modelscope.cn/pzc163/chatTTS.git
    4. 安装依赖:进入到项目目录,使用pip命令安装所需的Python依赖包。
      pip install -r requirement.txt
      pip install Ipython
      pip install soundfile
      
    5. 模型推理:可使用魔搭社区免费算力,完成模型推理
      from ChatTTS import Chat
      from IPython.display import Audio
      #下载模型
      from modelscope import snapshot_download
      
      model_dir = snapshot_download('pzc163/chatTTS')
      
      chat = Chat()
      chat.load_models(source='local', local_path=model_dir)
      
      texts = ["你好,我是ChatTTS,很高兴认识大家",]
      
      wavs = chat.infer(texts, use_decoder=True)
      Audio(wavs[0], rate=24_000, autoplay=True)
      
      # save audio
      import soundfile as sf
      audio_data = wavs[0]
      if len(audio_data.shape) > 1:  
          audio_data = audio_data.flatten()
      
      output_file = './output_audio2.wav'
      sf.write(output_file, audio_data, 24000)
      print(f"Audio saved to {output_file}")
    6. 搭建WebUI并运行
      git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
      cd ChatTTS
      pip install -r requirements.txt
      python app.py

    ChatTTS的应用场景

    • 虚拟助手和客服机器人:ChatTTS可以为虚拟助手和在线客服机器人提供自然、流畅的语音输出,提升用户体验。
    • 有声读物和电子书:将文本内容转换为语音,为有声书和电子书提供语音朗读功能,方便用户在通勤或做家务时收听。
    • 社交媒体和内容创作:在社交媒体平台或内容创作中,ChatTTS可以生成吸引人的语音内容,增加互动性和趣味性。
    • 新闻和播客:自动将新闻稿或博客文章转换成语音,用于播客或新闻广播。
    • 无障碍辅助:为视障人士或有阅读困难的用户提供语音辅助,使他们能够通过听来获取信息。