Blog

  • Parler-TTS – Hugging Face开源的文本转语音模型

    Parler-TTS是什么

    Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定说话者的风格(性别、音调、说话风格等),生成高质量、听起来自然的语音。该轻量级的TTS模型是完全开源的,包括所有数据集、预处理、训练代码和权重都公开,旨在促进高质量、可控制的TTS模型的创新发展。Parler-TTS的架构基于MusicGen,包含文本编码器、解码器和音频编解码器,通过集成文本描述和添加嵌入层优化了声音生成。

    Parler-TTS

    Parler-TTS的官网入口

    Parler-TTS的功能特性

    • 高质量语音生成:Parler-TTS能够根据文本输入生成高质量、自然听起来的语音,模仿不同的说话风格,如性别、音高和表达方式等。
    • 风格多样的语音输出:通过详细的文本描述,用户可以控制生成的语音风格,包括说话者的年龄、情感、速度和环境等特征。
    • 开源架构:Parler-TTS基于MusicGen架构,包含文本编码器、解码器和音频编解码器,允许研究者和开发者自由访问和修改代码,以适应不同的需求和应用。
    • 易于安装和使用:Parler-TTS提供了简单的安装指令,用户可以通过一行命令安装,并提供了易于理解的代码示例,使得即使是初学者也能快速上手使用。
    • 自定义训练和微调:用户可以根据自己的数据集对Parler-TTS进行训练和微调,以生成特定风格或口音的语音。
    • 伦理和隐私保护:Parler-TTS避免了使用可能侵犯隐私的声音克隆技术,而是通过文本提示来控制语音生成,确保了技术的伦理性和合规性。

    如何体验Parler-TTS

    1. 访问Parler-TTS的Hugging Face Demo,然后在Input Text处输入你想要转录的文字
    2. 在Description处输入对声音的提示描述
    3. 最后点击Generate Audio即可生成声音

    Parler-TTS Demo

    Parler-TTS的技术架构

    Parler-TTS的架构是一个高度灵活和可定制的系统,基于MusicGen架构进行了一些关键的改进和调整:

    1. 文本编码器
      • 文本编码器的作用是将文本描述映射到一系列隐藏状态表示。
      • Parler-TTS使用的是一个冻结的文本编码器,该编码器完全初始化自Flan-T5模型。这意味着编码器的参数在训练过程中不会改变,它仅仅用于将输入的文本转换为模型可以理解的内部表示。
    2. Parler-TTS解码器
      • 解码器是一个语言模型,它基于编码器的隐藏状态表示自回归地生成音频标记(或称为代码)。
      • 这个过程中,解码器会逐步生成语音的音频表示,每一步都会考虑到之前的输出和文本描述,从而生成连贯且符合描述的语音。
    3. 音频编解码器
      • 音频编解码器的作用是将解码器预测的音频标记转换回可听的音频波形。
      • Parler-TTS使用的是Descript提供的DAC模型,但也可以选择使用其他编解码器模型,例如EnCodec。
    4. 架构的改进
      • Parler-TTS在MusicGen架构的基础上做了一些细微的调整,以提高模型的性能和灵活性。
      • 文本描述不仅通过文本编码器处理,还用于解码器的交叉注意力层,这使得解码器能够更好地结合文本描述和音频生成。
      • 文本提示通过嵌入层处理后与解码器输入的隐藏状态进行拼接,这样可以将文本提示的语义信息直接融入到语音生成的过程中。
      • 音频编码器选择DAC而不是Encodec,因为DAC在质量上表现更佳。
  • AI数据标注初创公司Sapien获500万美元种子轮融资

    Sapien

    2024年4月10日,总部位于美国旧金山的AI数据标注初创公司 Sapien 宣布筹集了 500 万美元的种子资金,本轮融资的投资者包括 Primitive Ventures、Animoca、Artichoke Capital 和 Yield Guild Games 等。

    该公司计划将筹集的资金用于增强其人工智能平台和扩大其区块链基础设施以建立人工标注团队。

    Sapien 成立于 2023 年,正在构建世界上最大、最多样化的人类数据标注网络,人工智能行业依靠该网络来为其高性能模型提供动力。Sapien 通过游戏化和区块链激励来进行人类数据标记的新颖方法创建了积极的强化循环,确保标注者的高度参与和客户的最佳数据质量。

    (消息来源:PR Newswire

  • AI数据安全访问平台PVML获800万美元种子轮融资

    PVML

    2024年4月10日,总部位于以色列特拉维夫的AI数据安全隐私初创公司 PVML 宣布筹集了 800 万美元的种子资金,本轮融资由 NFX 领投,FJ Labs 和 Gefen Capital 跟投。

    PVML 由 Shachar Schnapp 和 Rina Galperin 成立于 2021 年,该公司提供一个数据访问平台,为企业数据提供值得信赖的人工智能接口,并通过差分隐私保护。PVML 将差分隐私(一种密码学手段)与先进的 RAG(检索增强生成)相结合,不仅可以安全、可靠地访问结构化数据,还可以提供对非结构化数据的额外可选支持。

    (消息来源:CTech

  • FloQast获1亿美元E轮融资,以增强AI自动化财务和会计运营

    FloQast

    2024年4月10日,总部位于美国洛杉矶的财务和会计运营初创公司 FloQast 宣布筹集了 1 亿美元的 E 轮融资,希望通过更多人工智能功能来增强其平台。本轮融资由现有投资者 ICONIQ Growth 领投,BDT & MSD Partners 和 World Innovation Lab 等新投资者以及 Meritech Capital 和 Sapphire Ventures 参投。此次融资使 FloQast 的估值超过 16 亿美元,成为金融软件行业最有价值的私企之一。

    该公司计划将筹集的资金用于研发新技术、集成更强的AI功能以及全球市场扩张。

    FloQast 成立于 2013 年,其财务会计平台引入了大量人工智能驱动的自动化,简化了劳动密集型任务,如对账、文档请求和其他影响月末结算、财务报告和工资运营的工作流程。FloQast 目前被全球 2600 多个会计团队使用,包括 Zoom、Snoflake 和洛杉矶湖人队。

    (消息来源:SiliconANGLE

  • CodeGemma – 谷歌开源推出的代码生成大模型

    CodeGemma是什么

    CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型,该系列包含三种不同规模的模型,分别是2B预训练模型、7B预训练模型和7B指令微调模型,旨在提供智能代码补全、生成和自然语言理解等功能。基于谷歌此前发布的Gemma模型,CodeGemma经过大量英语编程、数学数据的训练,以增强逻辑和数学推理能力,支持多种编程语言,并能够集成到开发环境中,简化代码编写流程,提高开发效率。

    Google CodeGemma

    CodeGemma的官网入口

    Google CodeGemma

    CodeGemma的功能特性

    • 代码补全:CodeGemma能够自动补全代码片段,包括函数、方法以及整个代码块,帮助开发者提高编码效率。
    • 代码生成:基于给定的上下文和指令,CodeGemma可以生成新的代码,这对于快速原型设计和解决编程问题非常有用。
    • 自然语言理解:CodeGemma结合了自然语言处理能力,可以理解和解释自然语言指令,使得与模型的交互更加直观和自然。
    • 多语言支持:支持多种编程语言,包括但不限于Python、JavaScript、Java等,使其能够服务于更广泛的开发者群体。
    • 高准确性:CodeGemma 模型基于 Web 文档、数学和代码中的 5000 亿个词元(主要是英语)数据训练而成,生成的代码不仅语法正确,而且语义上也更有意义,从而减少错误并缩短调试时间。
    • 集成开发环境:CodeGemma可以集成到各种开发环境中,减少编写样板代码的工作量,让开发者能够更专注于创新和核心代码的编写。

    CodeGemma的模型系列

    • CodeGemma 2B基础模型:20亿参数的模型专门针对代码填充进行了训练,旨在提供快速的代码补全和生成功能,尤其适用于对延迟和隐私要求较高的环境。
    • CodeGemma 7B基础模型:70亿参数模型的训练数据包含80%的代码填充数据以及20%的自然语言数据,使其不仅能够进行代码补全,还能理解和生成代码及语言。
    • CodeGemma 7B Instruct模型:在CodeGemma 7B的基础上,CodeGemma 7B Instruct模型经过了进一步的微调,以优化指令遵循能力,适合用于对话场景,特别是在讨论代码、编程或数学推理等主题时。

    CodeGemma模型系列

    CodeGemma的性能评估

    除了DeepSeek-Coder-7B,CodeGemma-7B在HumanEval基准测试中的表现超越了多数同类的7B模型,该基准测试广泛用于评估Python代码模型的性能。此外,在评估Java、JavaScript和C++等其他编程语言时,CodeGemma-7B也显示出卓越的性能,这些评估是基于MultiPL-E完成的,MultiPL-E是HumanEval基准测试的一个多语言扩展版本。根据技术报告,CodeGemma-7B在GSM8K测试中表现最为出色,位列所有7B模型之首。这些性能评估结果凸显了CodeGemma-7B在代码理解和生成方面的先进能力。

    CodeGemma性能对比

  • AI数据安全初创公司Cyera已筹集3亿美元C轮融资

    Cyera AI

    2024年4月9日,总部位于美国纽约的AI数据安全初创公司 Cyera 确认已筹集 3 亿美元的 C 轮融资,估值达 14 亿美元。本轮的投资方包括 Coatue、Spark Capital、Georgian、AT&T Ventures、红杉资本、Accel、Redpoint 和 Cyber​​starts。

    Cyera 成立于 2021 年,该公司构建了一个基于人工智能的数据安全平台,帮助企业了解其网络中所有数据的位置和移动,以保护企业数据免受网络攻击或防止数据无意中泄漏到大型语言模型中。简而言之,Cyera 构建了一个平台,可以对组织的数据、数据的创建位置、存储位置以及使用位置进行全面评估。

    (消息来源:TechCrunch

  • AI大模型初创公司Symbolica获3300万美元融资

    Symolica AI

    2024年4月9日,总部位于美国旧金山的AI大模型初创公司 Symbolica 宣布已筹集了 3300 万美元的总资金(A 轮 + 种子轮),由 Khosla Ventures 领投,Day One Ventures、General Catalyst、Abstract Ventures 和 Buckley Ventures 参投。

    Symolica AI 由特斯拉前高级自动驾驶工程师 George Morgan 于 2022 年成立,该公司正在构建一个新颖的结构化模型(符号人工智能模型),通过采用该模型,可以在不依赖大量数据和计算资源的情况下实现更高效、更可控的人工智能发展。

    (消息来源:TechCrunch

  • AI销售支持平台GTM Buddy获800万美元A轮融资

    GTM Buddy

    2024年4月9日,总部位于美国北卡罗来纳州达勒姆的AI销售支持平台 GTM Buddy 宣布已在 A 轮融资中筹集了 800 万美元,本轮融资由 Archerman Capital 和 Leo Capital 共同领投,Neon Fund 和 Stellaris Venture Partners 参投。

    GTM Buddy 成立于 2020 年,是一家致力于利用AI解决B2B销售转化挑战的,通过AI提供实时、针对性的指导,帮助销售代表提高成交效率和闭环更多交易。该公司的解决方案旨在优化销售过程,减少销售漏斗中的“泄漏”,并利用人工智能技术提升销售团队的整体表现。GTM Buddy的服务已被Lean Data、Kandji、Sayari Analytics、Bizzabo、Lob 等多家企业采用,以推动收入增长。

    (消息来源:VentureBeat

  • DesignEdit – 微软等开源的AI图像分层处理编辑框架

    DesignEdit是什么

    DesignEdit是由来自微软亚洲研究院和北京大学的研究人员共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合的技术,实现了无需额外训练即可进行精确的空间感知图像编辑和处理。通过关键掩码自注意力机制和伪影抑制方案,DesignEdit能够灵活处理图像中的各个对象,并执行诸如移动、调整大小、移除等复杂操作。

    DesignEdit

    DesignEdit的官网入口

    DesignEdit的主要功能

    • 对象移除:DesignEdit可以从图像中精确移除指定的对象,无论是单个还是多个对象。通过多层潜在分解,框架能够独立处理每个对象,并在移除后自然地修复背景。
    • 对象移动:框架允许用户将图像中的一个或多个对象移动到新的位置。通过指令引导的潜在融合,对象可以在画布上重新定位,同时保持与周围环境的和谐。
    • 对象调整大小和翻转:DesignEdit能够对图像中的对象进行缩放和翻转操作,用户可以改变对象的尺寸或方向,而不会影响图像的其他部分。
    • 相机平移和缩放:模拟相机视角的变化,DesignEdit可以在图像中实现平移和缩放效果,允许用户调整图像的构图,就像通过相机镜头观察时移动或调整焦距一样。
    • 跨图像组合:DesignEdit支持将来自不同图像的元素组合在一起,创建全新的图像。这项功能特别适合于创意工作,可以结合多个图像的元素来创作新的视觉内容。
    • 设计图像编辑:特别针对设计图像/海报,DesignEdit能够处理文本、装饰和其他设计元素的编辑任务。它能够理解设计图像的特殊需求,如排版和样式的调整,提供更加精细的编辑控制。

    DesignEdit的工作原理

    DesignEdit的工作原理基于两个核心子任务的结合:多层潜在分解(Multi-Layered Latent Decomposition)和多层潜在融合(Multi-Layered Latent Fusion)。

    DesignEdit的工作原理

    1. 多层潜在分解
      • 概念:DesignEdit将源图像的潜在表示(latent representation)分割成多个层次,每个层次代表图像中的不同对象或背景部分。
      • 关键掩码自注意力:为了在不破坏图像其他区域的情况下编辑特定区域,DesignEdit采用了一种特殊的自注意力机制,称为关键掩码(key-masking)自注意力。这种机制允许模型在处理图像时忽略或修改掩码区域内的像素,同时保留周围区域的上下文信息。
      • 背景修复:在移除对象后,DesignEdit利用自注意力机制中的内在修复能力来填补背景中的空白区域,确保图像的连贯性和自然过渡。
    2. 多层潜在融合
      • 指令引导的融合:在分解步骤之后,DesignEdit根据用户的编辑指令,将编辑后的多个潜在表示层融合到一个新的画布上。这个过程是按照特定的图层顺序和用户指定的布局安排进行的。
      • 伪影抑制:为了提高编辑质量,DesignEdit在潜在空间中引入了伪影抑制方案。这个方案有助于减少编辑过程中可能出现的视觉瑕疵,使图像看起来更加自然和真实。
      • 和谐化处理:在融合过程中,DesignEdit通过额外的去噪步骤来协调融合后的多层潜在表示,进一步优化图像边缘的整合和界面的平滑过渡。

    整个编辑过程是免训练的,意味着不需要针对特定任务进行额外的训练或微调。DesignEdit利用先进的深度学习模型,如GPT-4V,来辅助生成精确的编辑指令和布局安排,从而实现高效、准确的图像编辑。

  • InstantStyle – 开源的个性化文本到图像生成框架,保留风格一致性

    InstantStyle是什么

    InstantStyle是小红书的InstantX团队(该团队也是InstantID框架背后的开发团队)开源的保留风格一致性的个性化文本到图像生成框架,旨在解决文本到图像生成中的一个关键问题:如何在保持风格一致性的同时生成图像。InstantStyle通过两个核心策略实现风格与内容的有效解耦:一是在特征空间内分离参考图像的风格和内容;二是将风格特征注入特定的风格块,避免风格泄露,以实现更好的风格迁移。

    InstantStyle

    InstantStyle有效地解决了文本到图像生成中的风格一致性问题,通过其独特的特征空间解耦和风格特定块注入策略,能够在不牺牲内容完整性的前提下,精确地迁移和应用各种复杂的艺术风格,同时避免了传统图像生成方法中常见的风格退化和内容泄露问题,极大地简化了风格迁移的过程,并提高了生成图像的视觉质量和创作灵活性。

    InstantStyle的官网入口

    InstantStyle生成的图像

    InstantStyle的功能特性

    • 图像风格迁移:InstantStyle允许用户将一种特定的艺术风格应用到任意目标图像上,从而创造出全新的视觉作品。
    • 多风格支持:InstantStyle能够处理和迁移多种不同的艺术风格,包括传统绘画风格(如印象派、表现主义)、现代艺术风格(如抽象、超现实主义)以及流行文化中的视觉风格(如漫画、动画)。
    • 内容保持:在应用新风格的同时,InstantStyle能够保持目标图像的原始内容不变。这意味着即使风格发生了变化,图像中的对象、场景和细节仍然与原图保持一致。
    • 风格强度调整:创作者可以根据需要调整风格迁移的强度,用户可以选择从微妙的风格变化到完全的风格转换,以适应不同的创作需求。
    • 文本描述控制:通过文本提示,用户可以指导InstantStyle生成符合特定描述的图像,为操作提供了额外的控制层,使得风格迁移更加精确和个性化。
    • 高效性能:InstantStyle的设计优化了计算效率,使得风格迁移过程快速且资源消耗较低,用户可以在较短的时间内获得结果。
    • 易于使用:InstantStyle的用户界面简洁直观,使得即使是没有深度技术背景的用户也能够轻松地进行风格迁移实验和创作。
    • 无需繁琐调整:与其他风格迁移方法相比,InstantStyle无需复杂的权重调整或参数设置,大大简化了风格迁移的过程。
    • 模型兼容性:InstantStyle可以与多种现有的文本到图像生成模型兼容,使其能够灵活地应用于不同的生成场景和任务中。

    InstantStyle的工作机制

    InstantStyle的工作原理基于两个核心策略,旨在解决文本到图像生成中的一致性风格问题。以下是这两个策略的详细介绍:

    1. 风格与内容的解耦
      • 特征空间中的操作:InstantStyle使用CLIP模型的图像编码器来提取参考图像的风格特征,同时,也使用CLIP的文本编码器来提取与内容相关的文本特征。CLIP是一个多模态模型,能够将图像和文本映射到一个共享的特征空间中。
        InstantStyle IP-Adapter
      • 减法操作:通过从参考图像的特征中减去内容文本的特征,InstantStyle能够分离出纯粹的风格特征。这种方法假设特征空间中的元素可以相互加减,从而有效地提取出风格信息,同时减少内容特征的干扰。
    2. 风格特定块的注入
      • 识别风格相关层:在扩散模型中,InstantStyle识别出负责风格信息的特定层(例如,上层注意力块负责捕捉风格,下层注意力块负责空间布局)。
      • 有选择性的特征注入:确定风格相关层后,InstantStyle将风格特征仅注入到这些层中。这样做可以确保风格特征被有效地应用到生成过程中,同时避免内容特征的泄露,从而保持生成图像的内容与文本描述的一致性。

    通过这两个策略,InstantStyle实现了风格和内容的有效分离,并在生成图像时保持了风格的一致性。这种方法的优势在于它的简单性和高效性,无需复杂的权重调整或额外的模块,就能够实现高质量的风格迁移。

    InstantStyle的应用场景

    • 艺术风格迁移:将特定的艺术风格应用到任意图像上,例如将梵高的画风应用到一张普通的风景照片上,生成具有类似笔触和色彩风格的艺术作品。
    • 图像内容定制:根据用户的文本描述生成图像,同时保持图像的特定风格,如将描述的场景以卡通、写实、未来主义等风格呈现。
    • 设计元素应用:在产品设计、广告创意、社交媒体图像等方面,根据设计指南或风格要求生成具有一致视觉元素的图像。
    • 个性化图像创作:为个人或品牌创建独特的视觉内容,如定制头像、社交媒体封面、个性化表情包等。