Author: Chimy

  • AI蛋白质生成公司EvolutionaryScale完成超1.42亿美元种子轮融资

    EvolutionaryScale

    2024年6月25日,总部位于美国纽约的AI生命科学和蛋白质生成初创公司EvolutionaryScale宣布筹集了超过1.42亿美元的种子轮融资。本轮融资由Nat Friedman & Daniel Gross以及Lux Capital领投,参与方包括亚马逊、NVentures(NVIDIA的风险投资部门)和多位天使投资者。

    该公司计划将筹集的资金用于进一步扩展其模型的能力。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    EvolutionaryScale是一家成立于2023年7月的前沿人工智能研究实验室和公益公司,致力于开发生命科学领域的人工智能。EvolutionaryScale的创始团队在Meta的FAIR(基础人工智能研究)部门工作期间构建了ESM1,这是被广泛认可的第一个蛋白质大型语言模型(LLM)。2023年4月,创始团队离开Meta,开始EvolutionaryScale以开发和推出下一代模型ESM3。公司致力于通过开放、安全和负责任的研究,以及与科学社区的合作,为人类健康和社会发展人工智能。

    (消息来源:BusinessWire

  • AI监管合规平台Norm Ai获2700万美元A轮融资

    Norm Ai

    2024年6月25日,总部位于美国纽约的AI驱动的监管合规平台Norm Ai宣布筹集了2700万美元的A轮融资。本轮融资由Coatue领投,Bain Capital Ventures、Blackstone Innovations Investments、New York Life Ventures、Citi Ventures、TIAA Ventures以及Jefferson River Capital等参投。

    该公司计划将筹集的资金用于扩展其平台并增长其客户基础,并计划招聘包括软件工程、AI工程、法律工程、销售等多个领域的职位。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    Norm Ai成立于2023年,由John Nay创立,他同时也是公司的首席执行官。Norm Ai构建了一个将法规转换为计算机代码的AI平台,其团队开发了一种专有语言,将政府法规和公司政策表示为决策树,这些决策树通过利用强大的大型语言模型转化为可执行的计算机程序。这些程序被称为Regulatory AI Agents,可进行自动化合规分析,使分析更加高效、全面和准确。此外,Norm Ai的方法还为将AI更深入地整合到企业中奠定了基础,确保AI驱动的行动和内容生成系统的输出遵守政策。

    (消息来源:PR Newswire

  • AI芯片初创公司Etched获1.2亿美元A轮融资,挑战英伟达

    Etched

    2024年6月25日,总部位于美国加州库比蒂诺的AI芯片初创公司Etched宣布筹集了1.2亿美元的A轮融资,本轮融资由Primary Venture Partners和Positive Sum Ventures领投,得到了包括Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma(战略投资方)和Skybox Data Centers(战略投资方)等机构投资者以及Peter Thiel、Thomas Dohmke、Cruise、Kyle Vogt、Charlie Cheever等天使投资者的支持。

    该公司计划将筹集的资金用于设计和开发一种名为Sohu的新型AI芯片。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    Etched由三位哈佛辍学生Robert Wachen、Gavin Uberti和Chris Zhu于2022年创立,设计和制造专用于Transformer模型的AI芯片Sohu。该芯片专注于处理AI推理中的Transformer架构,旨在打造世界上最强大的Transformer推理服务器。公司声称Sohu是迄今为止最快的Transformer芯片,并且将挑战Nvidia在AI芯片领域的领导地位。该公司认为,随着AI模型规模的不断扩大,专用芯片将成为AI领域最大的市场。Etched的愿景是推动AI模型的规模化发展,以实现超级智能,并在这一过程中成为领先的AI芯片供应商。

    (消息来源:VentureBeat

  • MOFA-Video – 腾讯开源的可控性AI图生视频模型

    MOFA-Video是什么

    MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型,该技术利用生成运动场适应器对图像进行动画处理以生成视频。MOFA-Video能够在预训练的Stable Video Diffusion模型基础上,通过稀疏控制信号如手动轨迹、面部标记序列或音频等,实现对视频生成过程中动作的精细控制。MOFA-Video不仅能够单独使用这些控制信号,还能将它们组合使用,以零样本(zero-shot)的方式进行更复杂的动画制作,提供了一种全新的、高度可控的图像动画视频解决方案。

    MOFA-Video

    MOFA-Video的功能特色

    • 轨迹控制动画:用户通过在图像上手动绘制轨迹,指导MOFA-Video生成相应的视频动画。这种功能特别适合需要精确控制物体或相机运动的场景。
    • 面部关键点动画:系统利用面部关键点数据,如通过面部识别技术获得的标记,来生成逼真的面部表情和头部动作动画。
    • 混合控制动画:MOFA-Video能够将轨迹控制和面部关键点控制相结合,实现面部表情和身体动作的同步动画,创造出复杂的多部分动画效果。
    • 音频驱动面部动画:通过分析音频信号,MOFA-Video能够生成与语音或音乐同步的面部动画,例如口型同步。
    • 视频驱动面部动画:使用参考视频,MOFA-Video能够使静态图像中的面部动作模仿视频中的动作,实现动态的面部表情再现。
    • 零样本多模态控制:MOFA-Video支持零样本学习,即不同控制信号可以无需额外训练即可组合使用,这大大提高了动画生成的灵活性和多样性。
    • 长视频生成能力:通过采用周期性采样策略,MOFA-Video能够生成比传统模型更长的视频动画,突破了帧数限制。
    • 用户界面操作:MOFA-Video提供了基于Gradio的简单易用的用户界面,用户可以通过这个界面直观地进行动画生成,无需具备专业的编程技能。

    MOFA-Video

    MOFA-Video的官网入口

    MOFA-Video的工作原理

    MOFA-Video的工作原理

    1. 稀疏控制信号生成:在训练阶段,系统通过稀疏运动采样技术生成稀疏控制信号。这些信号可能是基于轨迹的动画控制点,面部关键点序列,或者是其他形式的运动指示。
    2. MOFA-Adapter设计:MOFA-Adapter是系统的核心,它是一个专门设计的网络结构,用于将稀疏控制信号转换为密集的运动场。这一组件包括:
      • S2D网络:将稀疏的运动提示转换为密集的运动场。
      • 参考图像编码器:提取参考图像的多尺度特征,用于后续的运动场生成。
      • 特征融合编码器:将S2D网络生成的运动场与参考图像编码器的特征结合。
    3. 多尺度特征提取:参考图像编码器对输入的参考图像进行处理,提取出多尺度的特征表示,这些特征将用于后续的视频帧生成过程中的引导和变形。
    4. 运动场的生成与应用:S2D网络根据稀疏控制信号生成密集的运动场,这些运动场随后用于对多尺度特征进行空间变形,以模拟视频中的运动效果。
    5. 预训练的SVD模型:MOFA-Adapter与预训练的Stable Video Diffusion模型(SVD)结合,利用从MOFA-Adapter获得的条件特征来引导视频帧的生成。
    6. 空间变形:利用生成的运动场,系统对参考图像的多尺度特征进行空间变形,确保视频帧中的物体和场景元素按照预定的运动轨迹进行移动。
    7. 视频帧生成:在特征空间中经过变形的特征被用于生成视频帧。这一过程涉及到从潜在空间中采样并逐步去除噪声,以重建清晰的视频帧。
    8. 多模态控制信号集成:MOFA-Video能够处理来自不同源的控制信号,并将它们融合到统一的生成过程中,实现复杂的动画效果。
    9. 零样本学习:MOFA-Adapter训练完成后,可以在不同控制域中无需额外训练即可联合工作,实现对视频生成的精细控制。
    10. 长视频生成策略:为了生成更长的视频,MOFA-Video采用了周期性采样策略,通过在潜在空间中对帧进行分组和重叠采样,解决了长视频生成中的连贯性和计算复杂性问题。
  • 凌川科技获北京市人工智能产业基金投资,打造AI芯片和软硬件算力底座

    凌川科技

    6月24日消息,北京凌川科技有限公司近期完成了工商变更,新增股东为北京市人工智能产业投资基金。此次变更后,公司的注册资本由约743.12万人民币增加至约935.78万人民币。

    天眼查APP显示,北京凌川科技有限公司成立于2023年3月,法定代表人为刘凌志。据LinkedIn的简介,刘凌志是快手异构计算的负责人兼首席架构师,是快手异构计算中心的第一位员工,在硅谷和国内多个城市从零开始组建团队,负责全公司FPGA/ASIC/GPU/CPU异构计算平台的战略和Roadmap规划。

    更多AI公司融资情况请查看👉:1000+ AI初创公司融资数据库

    凌川科技的官网信息显示,凌川智能科技由硅谷和国内半导体,智能视频和AI大模型领域顶尖人才组建。团队具有从产品定义,芯片设计,流片制造,板卡服务器集成,AI软件生态到Infra运维的丰富实战经验,是中国极少数有成功从0到1在大规模数据中心自研落地近十万颗大算力芯片的团队。

    该公司目标是打造面向多模态大模型和视频生成式AI的芯片和软硬件算力底座,致力于解决下一个AI时代所面临的落地成本和算力需求爆炸的问题,加速AGI普惠人类。凌川科技自称其不是一家半导体硬件公司,而是一家Hardware-based Software Company。

  • Toucan TTS – 免费开源的文本转语音工具,支持超7000种语言

    Toucan TTS是什么

    Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体。Toucan TTS基于Python和PyTorch构建,易于使用且功能强大,提供多说话人语音合成、语音风格克隆和人机交互编辑功能,适用于语音模型教学、文字朗读和多语言应用开发等场景。ToucanTTS作为一个开源项目,基于Apache 2.0许可,允许用户和开发者自由使用和修改代码,以适应不同的应用需求。

    Toucan TTS

    Toucan TTS的主要功能

    • 多语言语音合成:Toucan TTS能够处理和生成超过7000种不同语言的语音,包括各种方言和语言变体,使其成为全球语言支持最广泛的TTS项目之一。
    • 多说话人支持:该工具箱支持多说话人语音合成,允许用户选择或创建具有不同语音特征的说话人模型,实现个性化的语音输出。
    • 人机交互编辑:Toucan TTS提供了人机交互编辑功能,用户可以对合成的语音进行细致的调整,以适应不同的应用场景,如文学朗诵或教育材料。
    • 语音风格克隆:用户可以利用Toucan TTS克隆特定说话人的语音风格,包括节奏、重音和语调等,使得合成语音更加贴近原说话人的声音特征。
    • 语音参数调整:ToucanTTS允许用户调整语音的持续时间、音调变化和能量变化等参数,以控制语音的流畅度、情感表达和声音特征。
    • 发音清晰度和性别特征调整:用户可以根据需要调整语音的清晰度和性别特征,使得合成语音更加自然和符合特定角色或场景的需求。
    • 交互式演示:Toucan TTS提供了在线交互式演示,用户可以通过网页界面实时体验和测试语音合成效果,这有助于用户快速理解和使用工具箱的功能。

    Toucan TTS Demo

    如何使用Toucan TTS

    对于普通用户可以前往Hugging Face体验Toucan TTS的在线文本转语音和语音克隆Demo,开发人员可以访问其GitHub项目库,克隆其代码到本地进行部署和运行。

    Toucan TTS的应用场景

    • 文学朗诵:合成诗歌、文学作品、网页内容的语音,供朗诵欣赏或作为有声读物。
    • 多语言应用开发:为需要多语言支持的应用程序提供语音合成服务,如国际化软件和游戏。
    • 辅助技术:为视障人士或阅读困难者提供文本到语音的服务,帮助他们更好地获取信息。
    • 客户服务:在客户服务系统中使用,提供多语言的自动语音回复或交互式语音响应系统。
    • 新闻与媒体:自动将新闻文章转换为语音,为忙碌的听众提供便捷的新闻获取方式。
    • 电影和视频制作:为电影、动画或视频内容生成配音,尤其是当原始音频不可用或需要特定语言版本时。
    • 有声书制作:将电子书或文档转换为有声书,提供给偏好听书的用户。
  • ExVideo – 阿里和华东师大推出的AI视频长度扩展调优技术

    ExVideo是什么

    ExVideo是由阿里巴巴和华东师大的研究人员推出的一种视频合成模型的后调优技术,能够扩展现有视频合成模型的时间尺度,以生成更长和帧数更多的视频。该团队基于Stable Video Diffusion模型,训练了一个能够生成长达128帧连贯视频的扩展模型,同时保留了原始模型的生成能力。ExVideo通过优化3D卷积、时间注意力和位置嵌入等时间模块,使模型能够处理更长时间跨度的内容,在保持原始模型生成能力的同时,显著增加了视频帧数,且训练成本较低,特别适合计算资源有限的情况。

    阿里ExVideo

    ExVideo的功能特点

    • 时间尺度扩展:ExVideo的核心功能之一是扩展视频合成模型的时间尺度,可以处理和生成比原始模型设计时更长的视频序列。通过这种扩展,ExVideo能够生成具有更多帧的视频,从而讲述更完整的故事或展示更长时间的动态场景。
    • 后调优策略:ExVideo的后调优策略是其技术的关键部分,通过对Stable Video Diffusion等模型的特定部分进行再训练,ExVideo能够使这些模型生成更长的视频,达到128帧或更多。不仅提高了视频的长度,还保持了模型对各种输入的泛化能力,使得生成的视频多样化且适应性强。
    • 参数高效:与传统的训练方法相比,ExVideo采用后调优策略,无需从头开始训练一个全新的模型,而是在现有模型的基础上进行优化,显著减少了所需的参数数量和计算资源,使得模型的扩展更加高效和实用。
    • 保持生成能力:在对视频长度进行扩展的同时,ExVideo注重保持视频的质量,生成的视频不仅在时间上有所延长,而且在视觉连贯性、清晰度和整体质量上也能满足高标准。
    • 兼容性和通用性:ExVideo的设计考虑到了与多种视频合成模型的兼容性,使其能够广泛应用于不同的视频生成任务。无论是3D卷积、时间注意力还是位置嵌入,ExVideo都能够提供相应的扩展策略,以适应不同的模型架构。

    ExVideo AI视频扩展

    ExVideo的官网入口

    ExVideo的技术原理

    • 参数后调优(Post-Tuning):ExVideo采用参数后调优的方法,对现有的视频合成模型进行改进。这包括对模型的特定部分进行再训练,而不是重新训练整个模型,从而提高效率。
    • 时间模块扩展:针对视频合成模型中的时间模块,ExVideo提出了扩展策略。这些策略包括对3D卷积层、时间注意力机制和位置嵌入层的优化,以适应更长的视频序列。
      ExVideo的架构
    • 3D卷积层:3D卷积层在视频合成中用于捕捉时间维度上的特征。ExVideo保留了原始模型中的3D卷积层,因为它们能够适应不同的时间尺度,而无需额外的微调。
    • 时间注意力机制:为了提高模型处理长时间序列的能力,ExVideo对时间注意力模块进行了微调。这有助于模型更好地理解视频内容的时间连贯性。
    • 位置嵌入:传统的视频合成模型可能使用静态或可训练的位置嵌入来表示视频中的帧顺序。ExVideo通过引入可训练的位置嵌入,并通过循环模式初始化,来适应更长的视频序列。
    • 身份3D卷积层(Identity 3D Convolution):在位置嵌入层之后,ExVideo引入了一个额外的身份3D卷积层,用于学习长期视频特征。这个层在训练前初始化为单位矩阵,确保不会改变视频表示,保持与原始模型的一致性。
    • 工程优化:为了在有限的计算资源下进行有效的训练,ExVideo采用了多种工程优化技术,如参数冻结、混合精度训练、梯度检查点技术和Flash Attention,以及使用DeepSpeed库来分片优化器状态和梯度。
    • 训练过程:ExVideo使用了一个公开可用的数据集OpenSoraPlan2进行训练,该数据集包含大量视频,以此来增强模型生成多样化视频的能力。
    • 损失函数和噪声调度:在训练过程中,ExVideo保持了与原始模型一致的损失函数和噪声调度策略,确保了模型训练的稳定性和效率。
  • Diffutoon – 阿里推出的AI将视频转卡通风格的框架

    Diffutoon是什么

    Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架,基于扩散模型的可编辑卡通着色技术,能够将真实感视频转换成动漫风格。该技术通过分解为风格化、一致性增强、结构引导和着色等子任务,实现了对视频的高分辨率和长时间渲染。Diffutoon还具备内容编辑功能,可以根据文本提示调整视频细节,在处理视频时保持了高度的视觉效果和一致性,实现了对视频动画的高效、高质量处理。

    Diffutoon

    Diffutoon的功能特色

    • 卡通视频渲染:Diffutoon利用扩散模型将现实风格的视频转换成具有卡通或动漫风格的视频,实现视觉上的平面化和风格化效果。转换不仅包括颜色和纹理的变化,还涉及对光影、轮廓等元素的艺术化处理,以模仿手绘动画的视觉效果。
    • 高分辨率支持:Diffutoon能够处理高分辨率视频,支持至少1536×1536像素的分辨率,确保在放大或高清显示设备上也能保持清晰度和细节,适合高质量的视频制作和展示需求。
    • 视频编辑:用户可以通过文本提示对视频内容进行编辑,Diffutoon能够识别并根据这些提示调整视频的特定部分。编辑功能支持对角色、场景元素的外观和属性进行修改,如更换服装颜色、调整角色表情等。
    • 帧间一致性:通过特定的算法和技术,Diffutoon确保视频序列中的每一帧在风格和内容上保持一致性,避免了视频播放时可能出现的闪烁、颜色突变或内容不连贯的问题,提高了观看体验。
    • 结构保持:在视频风格化的过程中,Diffutoon能够识别并保留视频的关键结构信息,如角色的轮廓和物体的边缘,确保了即使在风格化之后,视频的主要内容和形状仍然清晰可辨。
    • 自动着色:Diffutoon具备自动着色功能,能够根据视频内容和风格要求自动选择合适的颜色进行填充。自动着色不仅提高了生产效率,还能确保颜色的协调性和视觉吸引力,使得最终视频在色彩上更加和谐。

    Diffutoon

    Diffutoon的官网入口

    Diffutoon的技术原理

    Diffutoon的技术架构

    1. 扩散模型的应用:Diffutoon利用扩散模型作为图像合成的核心技术,通过学习数据集中的图像和视频的分布特性,实现从高维潜在空间到图像数据的转换。
    2. 多模块去噪:Diffutoon构建了一个多模块去噪模型,该模型结合了ControlNet和AnimateDiff等技术,用于处理视频中的可控性和一致性问题。
    3. 风格化、一致性增强、结构引导和着色:Diffutoon将卡通着色问题分解为四个子问题,每个子问题由特定的模型解决:
      • 风格化:使用个性化的Stable Diffusion模型实现动漫风格化。
      • 一致性增强:通过在UNet中插入基于AnimateDiff的运动模块,保持视频帧之间的内容一致性。
      • 结构引导:使用ControlNet模型提取和保留视频的结构信息,如轮廓。
      • 着色:另一个ControlNet模型用于上色,提高视频质量,即使输入视频分辨率较低。
    4. 滑动窗口方法:采用滑动窗口方法迭代更新每一帧的潜在嵌入,这种方法有助于处理长视频并保持帧间的连贯性。
    5. 编辑分支:除了主卡通着色管道外,Diffutoon还包含一个编辑分支,用于根据文本提示生成编辑信号,这些信号以彩色视频的形式提供给主管道。
    6. 高效率的注意力机制:通过引入Flash Attention,减少GPU内存使用,提高处理高分辨率视频的效率。
    7. 分类器自由引导:使用分类器自由引导机制,通过文本提示进行视觉质量的优化。
    8. DDIM调度器:使用DDIM(Denoising Diffusion Implicit Models)去噪扩散隐式模型调度器控制视频生成过程,平衡了生成质量和速度。
    9. 后期处理方法:采用如FastBlend等后期处理技术,进一步增强视频的长期一致性和视觉效果。
  • 国内外11个AI生成图片的软件和网站,智能创作图像和绘画

    人工智能使生成式AI模型有了快速发展,可以创建真实和精美的图像。AI图片生成、AI绘画工具使用深度学习算法分析和复制图像的模式和风格,生成令人惊叹、逼真甚至超现实的图片、插画和艺术作品,而无需任何绘画或艺术技能的要求。本文将介绍一些用于生成图像和创意艺术作品的最佳AI生成图片的软件和工具,包括他们的主要功能、产品价格、优缺点以及如何帮助你为各种目的创建惟妙惟肖的视觉内容。

    🔢 测试软件数量 20+
    💻 系统使用环境 浏览器在线网页
    ✅ 软件和工具类型 开源、免费和商业付费软件
    🏅 最佳推荐 国内:吐司TusiArt即梦AI
    国外:Midjourney、Stable Diffusion、DALL·E 3

    1. 吐司TusiArt

    吐司TusiArt 是上海必有回响智能科技推出的在线AI绘画模型社区和生图平台。吐司TusiArt支持用户在线体验和生成各种风格的AI绘画,无需安装任何额外软件或硬件。平台提供简单直观的操作界面,丰富的模型库,以及社区分享功能,支持用户上传图像进行个性化AI模型训练。无论是新手还是专业艺术家,都能在这个平台上找到适合自己的创作工具,享受AI绘画的乐趣。

    吐司TusiArt

    💵 产品价格
    • 免费版:每日赠送100算力,用户可以进行和排队生图任务1个,单次最多生成2张图片,高清修复分辨率上限为207万像素,高清/采样步数上限为30步,LoRA+ControlNet上限为3个,历史记录保存14天,模型需公开,每日发帖10个,每日并行训练任务1个。
    • 付费会员版:根据会员时长不同,价格和额外赠送算力也不同:
      • 1日体验3元,额外赠送100算力
      • 30日24.9元,额外赠送1000算力
      • 90日39.9元,额外赠送5000算力
      • 付费会员可享受更多算力,更高的并行生图任务数,单次生成图片数量增加,更高的高清修复分辨率,更多的高清/采样步数,更多的LoRA+ControlNet上限,更长的历史记录保存时间。
    👍 产品优点
    • 吐司AI 每日赠送免费体验额度,新手玩家完全足够了
    • 生态强大,支持Stable Diffusion、FLUX、Kolors等热门AI绘画模型
    • 线上网页端直接用,无需高配置电脑
    • 图片生成质量高,模型、风格可选择范围很广

    2. 即梦AI

    即梦AI是字节跳动推出的一站式AI创作平台,支持免费AI生成图片、音乐和视频、提供图片编辑工具、智能画布以及多语言优化等功能,帮助用户轻松创作个性化内容,同时通过社区互动和会员服务,鼓励创意分享和提升创作体验,满足从创意爱好者到专业人士的多样化需求。

    💵 产品价格
    • 免费版:每天可以获得60-100积分,满足日常生成图片需求。(即梦不开会员,免费去水印
    • 基础会员:¥79元/月,提供更多的积分以生成更多的图片和视频。适合需要更频繁使用即梦AI功能的用户。
    • 标准会员:¥239元/月,提供更多的积分和其他特权。适合对即梦AI有较高使用频率和需求的用户。
    • 高级会员:¥649元/月,提供最多的积分和高级功能。适合专业用户或需要大量使用即梦AI服务的用户。
    👍 产品优点
    • AI图片创作:用户可以通过自然语言描述自己的想法,即梦AI将根据这些描述生成独特的图片。如果用户对生成的图片不满意,还可以使用编辑功能进行调整,达到更完美的创意效果。
    • 智能画布:即梦AI提供了一站式智能画布,集成了AI拼图生成能力,并提供局部重绘、一键扩图、图像消除和抠图等多功能操作。用户可以在同一个画布上实现多元素的无缝拼接,确保AI绘画的创作风格统一和谐。
    • 多图AI融合:即梦AI的智能画布支持多图AI融合,支持用户在同一画布上进行多元素的组合,创造出更加丰富和复杂的艺术作品。
    • 创意社区:即梦AI拥有一个活跃的创意社区,用户可以在这里探索其他用户的创作,获取灵感,甚至使用他人的提示词来创作出自己的作品。
    • 风格化创作:即梦AI上线了风格化创作功能,用户可以自由掌控插画风格,为艺术创作提供了更多的可能性和个性化的选择。

    3. Stable Diffusion

    Stable Diffusion 是于 2022 年发布的一个基于深度学习的文本到图像生成模型,由 StabilityAI 与 RunwayML 和其它学术研究和非营利组织 LMU Munich、LAION及EleutherAI 合作开发而成。你可以使用该免费开源的模型生成美观的图像,既可以像相机拍摄的写实逼真,也可以像艺术家创作的插画风格。

    如果你在Google Colab Notebook或你的本地机器上使用Stable Diffusion,你可以完全免费使用。如果你不想安装任何软件或本地部署,可以在StabilityAI推出的 DreamStudio 中使用 Stable Diffusion。Dream Studio 提供一定数量的免费生成积分,消耗完之后则需要付费。

    Stable Diffusion Dream Studio

    💵 产品价格
    • 自己部署或本地运行,完全免费
    • DreamStudio版本,新用户注册后可获得 25免费积分,大概可以生成默认选项的 30张图片,购买或充值积分的话,10美元可购买 1000积分(大约可生成 5000张图像),更加详细的定价可查看Stability.ai Credits + Billing
    👍 产品优点
    • 免费开源,生态强大
    • 可本地部署,运行免费或便宜
    • 图片生成质量较高
    👎 产品缺点
    • 上手存在一定的难度

    4. Midjourney

    Midjourney 是近年来最火爆的AI图片生成工具,用户只需输入简单的文本描述,便可以创建高质量的图像。无需专门的硬件或软件来使用,该工具通过 Discord 聊天应用程序实现指令输入和生成。

    你可以将Midjourney AI图片生成软件应用在各行各业,比如市场营销广告领域创建社交媒体帖子、游戏开发领域创建物品和资源、电影和动画领域创建背景布景、道具和角色设计等。

    在网上引起轩然大波的AI中国情侣、身着时尚羽绒服的教皇、特朗普被捕等图像,都是由网友使用Midjourney生成而来,这足以可说明其生成图片的质量之高。

    Midjourney Discord

    💵 产品价格

    Midjourney 提供有三个订阅计划,可按月支付,或全年支付可享受 20% 的折扣。每个订阅计划都包括访问 Midjourney 成员图库、官方 Discord。

    • Basic Plan – 按月支付 10美元/月,按年支付 96美元/年
    • Standard Plan – 按月支付 30美元/月,按年支付 288美元/年
    • Pro Plan – 按月支付 60美元/月,按年支付 576美元/年
    👍 产品优势
    • 图片生成质量最高
    • 生态完善,有很多相关的prompt和教程
    • 目前中文版QQ频道在内测中
    👎 产品缺点
    • 新用户免费试用25次,之后需要付费订阅

    5. DALL·E 3

    DALL·E 3 是由 OpenAI 公司开发的基于生成式AI帮助用户智能从文本到图像生成的技术,于 2021 年 1 月 首次推出。该技术应用了深度学习GPT大语言模型作为理解自然语言输入的提示词以生成高质量图像。

    DALL·E 3 有着广泛可能的应用场景,无论你是个人用户还是企业组织,你都可以发挥你的创意,使用它帮助你生成你想要的图片。如教师可以使用 DALL·E 3 生成图像来解释复杂的教学概念、设计师可以使用其进行产品设计、营销人员可以使用其创作推广和广告物料等。

    DALL E 2网站

    💵 产品价格

    用户注册 DALL·E 之后,可以获得免费的 50 个积分用于创建图像,用完所有的积分之后,接下来每个月可以获得 15 个免费积分。你也可以付费购买更多的积分,以免消耗用完。不同图片的分辨率价格不同:

    • 256 x 256 像素的图片花费约 0.016 美元;
    • 512 x 512 像素的图片花费约 0.018 美元
    • 1024 x 1024 像素的图片花费约 0.02 美元;
    👍 产品优点
    • 生成速度快,通常不到一分钟
    • 灵活和可定制,用户可任意输入和定制文本提示以创建不同的图像
    • 由 OpenAI 团队开发,可期待其后续迭代
    👎 产品缺点
    • 国内无法直接访问其网站
    • 生成写实风格的图片质量还有待提高

    6. 文心一格

    文心一格是由百度推出的依托其文心大模型和飞桨技术的文本生成图片的 AI 艺术和创意辅助平台,于2022年8月正式发布。作为国内第一梯队的AI图片生成的工具和平台,文心一格可以进行国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成。

    文心一格面向的用户人群非常广泛,既能启发画师、设计师、艺术家等专业视觉内容创作者的灵感,辅助其进行艺术创作,还能为媒体、作者等文字内容创作者提供高质量、高效率的配图。

    文心一格生成图像

    💵 产品价格

    目前文心一格是采用的免费增值模式,新用户注册登录后可以获得 50 的电量用以生成图像,签到、分享和公开自己的画作可以获得额外免费的电量。你也可以采用付费充值电量,9.9 元 80 个电量、15.9 元 200 个电量、49.9 元 800 个电量、599 元 1 万个电量。

    👍 产品优点
    • 由国内公司百度推出,访问速度快
    • 中文支持友好,操作使用简单
    • 付费电量的价格不算贵,有一定的性价比
    👎 产品缺点
    • 更适合艺术创作风格的图片生成,写实/真人风格的图片质量还有待提高

    7. Bing Image Creator

    Bing Image Creator 是由微软于2023年3月推出的AI文本创建图像的工具,该工具由 OpenAI 提供的高级版 DALL∙E 模型提供支持。用户只需输入描述性的文本,便可以快速创建想要的图片。

    目前用户可以通过3种方式使用Bing Image Creator

    1. 直接在新版Bing的聊天的上下文中输入对应的指令创建图像;
    2. 也可以访问其独立提供的网页(https://bing.com/create)中进行操作;
    3. 在 Microsoft Edge 浏览器的右边栏中点击对应的图标即可创建图像

    Bing Image Creator官网

    💵 产品价格

    目前 Bing Image Creator 是免费使用的,用户首次注册登录后可获得25个充电boosts(类似积分,目前已增加到100个),当 boosts 用完后,生成图片的花费时间将变得更长(从10~30秒变为最多需要5分钟)。用户可以选择兑换微软的奖励和积分以获取更多的boosts。

    👍 产品优点
    • 免费使用,生成速度快
    • 基于更高级的DALL∙E模型,图片生成效果好
    👎 产品缺点
    • 目前仅支持英语
    • 生成人像和写实风格的图片质量有待提高

    8. Flag Studio

    Flag Studio 是由北京智源人工智能研究院(简称智源研究院)推出的AI文本图像绘画生成工具,用户只需输入一句话,便能生成精美的画作。

    Flag Studio 支持文生图和图生图模式,你可以使用该工具生成任何你感兴趣的风格,如国画、写实主义、虚幻引擎、low poly、动漫风格、涂鸦、赛博朋克等。

    Flag Studio 生成图片

    💵 产品价格

    目前Flag Studio是免费使用的,网页版用户每天可生成500张图片!

    👍 产品优点
    • 由智源研究院推出,国内可直接访问
    • 生成速度快,且单次可一次性生成最多8张图片
    • 除开网页端之外,还支持微信小程序端使用
    👎 产品缺点
    • 生成的图片质量和精细度还有提升空间

    9. 6pen Art

    6pen Art 是一个基于 AI 驱动的技术,利用文本生成绘画作品的工具。用户可以通过文字描述画面内容和风格,就可以得到和生成天马行空,令人惊艳的作品和画面(最高支持4K分辨率)。用户可以通过在线网站、iOS或Android应用程序访问并使用6pen Art。

    6pen Art 生成图片

    💵 产品价格

    6pen Art 目前提供两个通道——免费通道和Pro付费通道。

    对于免费通道,用户可以每天免费使用西瓜模型(无论大小)5次,南瓜模型和Stable Diffusion模型次数无限制,其中大西瓜模型因过于耗时而限制了生成图片的尺寸,小西瓜不受影响。

    对于Pro付费通道,用户的等待时间较短,每次生成图片则会消耗对应的点数(5 元 20点数,30 元 200点数,100 元 800点数,500 元 5000 点数),不同模型和不同分辨率的图片会消耗不同的点数,

    👍 产品优点
    • 由国内公司推出,国内可直接快速访问
    • 除网页端外,支持手机端 iOS 和 Android App 使用
    • 生成出来的图片版权,完全授权给生成者本人
    👎 产品缺点
    • 付费版的价格相对于文心一格等国内产品稍贵一点

    10. 造梦日记

    造梦日记是一款基于AI算法、输入文字或图片即可生成高质量图片的平台,由西湖大学深度学习实验室和西湖心辰(Friday AI 写作助手背后的团队)联合出品,超强算力,超快出图,目前支持微信小程序和网页端等。

    造梦日记支持生成海量不同风格的图像和插画,包括油画、水彩、哑光画、儿童画、素描、中国风、电影感、摄影、动漫风、游戏场景、吉卜力、低聚艺术、像素艺术、CG渲染、赛博朋克、蒸汽波、虚幻引擎、印象主义、未来主义、超现实主义、浮世绘、室内设计等风格。

    造梦日记生成图片

    💵 产品价格

    新用户注册造梦日记后可免费获得平台赠送的100颗造梦星,每日签到同样可以领取一定数量的星星。造梦日记的付费VIP会员可以享受更快速度和更多尺寸的出图,VIP分为月卡会员、季卡会员和年卡会员三个等级:

    • 月卡会员,每月50元,可以获得600颗造梦星
    • 季卡会员,3个月128元,可以获得2000颗造梦星
    • 年卡会员,12个月388元,可以获得8000颗造梦星
    👍 产品优点
    • 由国内公司推出,国内可直接快速访问
    • 除网页端外,提供微信小程序使用
    • 提供重绘笔、消除笔、抠图笔等细节修改功能
    • 上传对应要求的图像后,用户可定制自己的专属模型
    👎 产品缺点
    • 免费版只能生成1:1尺寸和单次2张的生成数量,其他尺寸和数量需开通VIP

    11. Adobe Firefly

    Adobe 于2023年3月21日推出了名为 Adobe Firefly 的创意生成AI模型,类似于 DALL-E 和 Midjourney,可以仅使用文本提示即可按需生成图像。Adobe 表示,该模型仅针对获得许可或不受版权保护的内容进行训练,而不是来自互联网艺术家的作品。

    Adobe Firefly 目前将作为独立测试版提供以获得用户反馈,根据后续的反馈,Adobe 接下来打算将 Firefly引入 Adobe Express和 Adobe Creative Cloud,并推出更多创意应用程序。

    Adobe Firefly Beta

    💵 产品价格

    目前,Firefly 测试版可免费使用和访问。但是,由于 Firefly 旨在集成到 Adob​​e 提供的系列产品中,因此无法保证 Adob​​e Firefly 将一直没有付费版本。作为参考,Adobe 提到的将集成 Firefly 的服务包括Creative Cloud(付费服务)和Adob​​e Express(免费应用程序)。

    👍 产品优点
    • 由Adobe推出,非常适合使用Adobe全家桶的创意设计人员
    • 依托于Adobe多年的积累,图片生成和合成的效果好
    👎 产品缺点
    • 还处于Beta测试中,仅支持英语
    • Adobe官方指明不提供Firefly给中国地区的用户

    以上便是AI工具集为各位盘点的11款值得一试的AI图片生成、AI绘画工具和软件,如果你希望获得更好的图片生成质量,那么Midjourney和Stable Diffusion是更好的选择;而如果你希望获得更快的访问和生成速度,那么国内的AI生成图片、AI绘画工具,如吐司TusiArt和即梦AI是更好的选择。

  • 琴乐大模型 – 腾讯推出的AI音乐创作大模型

    琴乐大模型是什么

    琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型,该模型通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。琴乐大模型支持自动编辑,如续写、重新生成指定音轨或小节,以及修改乐器类型和节奏。目前,琴乐大模型的技术已经上线腾讯音乐启明星平台,用户可以免费注册体验。未来,研究团队还计划在模型中加入人声、歌词等要素的生成能力,以更好地服务音乐创作需求。

    琴乐大模型

    琴乐大模型的功能特色

    • 音乐生成:模型能够根据用户提供的中英文关键词、描述性语句或音频输入,智能生成音乐。这种生成不仅基于文本描述,还能够理解音频内容,实现音乐的自动创作。
    • 乐谱生成:除了生成音频,「琴乐大模型」还能生成详细的乐谱,这些乐谱包含旋律、和弦、伴奏和打击乐等多个轨道,为用户提供了丰富的音乐结构。
    • 自动编辑:模型支持对生成的乐谱进行一系列自动编辑操作,包括但不限于续写乐谱、重新生成特定的音轨或小节、调整配器、修改乐器类型和节奏,这大大提高了创作的灵活性和效率。
    • 音频文本对齐:通过对比学习技术,模型构建了一个共享特征空间,将音频标签或文本描述与音频本身进行对齐,为生成模型提供条件控制信号,增强了音乐生成的相关性和准确性。
    • 乐谱/音频表征提取:模型能够将乐谱或音频转换成一系列离散的特征(token)序列,这些序列为大语言模型的预测提供了基础。
    • 大语言模型预测:使用decoder-only结构,模型通过特征预测(next token prediction)训练,预测出的序列可以转换回乐谱或音频,实现了从文本到音乐的转换。
    • 音频恢复:通过流匹配和声码器技术,模型能够将预测出的音频表征序列恢复成可听音频,增强了音频的真实感和质量。
    • 音乐理论遵循:在生成音乐的过程中,「琴乐大模型」遵循音乐理论,确保旋律、和弦、节拍等元素符合音乐逻辑和人类审美。

    琴乐大模型

    如何体验和使用琴乐大模型

    1. 注册与登录:访问腾讯音乐启明星平台(https://y.qq.com/venus/#/venus/aigc/ai_compose),并注册一个账户或使用现有账户登录。
    2. 输入创作条件:在体验页面上,输入音乐关键词、语句或描述,这些将作为模型生成音乐的依据。
    3. 选择音乐模型:目前仅有琴乐音乐生成大模型v1.0供选择。
    4. 选择音乐时长:可选择10秒至30秒的音乐时长
    5. 生成音乐:点击开始生成,等待1分钟左右音乐即可生成,生成后的音乐可以进行播放和下载

    琴乐大模型的技术原理

    • 音频文本对齐模型:这一模块使用对比学习构建音频标签或文本描述与音频之间的共享特征空间。通过这种方式,模型能够理解文本和音频之间的语义关系,并在生成过程中使用这些信息作为条件控制信号。
    • 乐谱/音频表征提取:模型将乐谱或音频转换为离散的特征序列,这些序列可以是MIDI属性的表征,也可以是预先训练的音频频谱的编码和压缩后的表征。
    • 大语言模型:使用decoder-only结构的大语言模型,进行特征预测(next token prediction)训练。这种模型能够根据输入的特征序列预测下一个特征,从而生成连续的音乐元素。
    • 流匹配与声码器技术:在生成音频的过程中,模型使用流匹配技术与声码器模块,将预测出的音频表征序列转换为可听音频,增强音频的真实感。
    • 多模块协同工作:「琴乐大模型」包含了多个模块,这些模块协同工作以实现音乐生成的效果。例如,音频文本对齐模型在训练过程中提供条件控制信号,而在推理过程中则使用文本表征作为控制信号。
      琴乐大模型的模块
    • 音乐理论遵循:在生成音乐的过程中,模型需要遵循音乐理论,包括旋律、和弦、节奏等元素的合理性,以确保生成的音乐符合人类的听觉习惯和审美标准。
    • 自动编辑与调整:模型支持对生成的乐谱进行自动编辑操作,如续写、重新生成指定轨或小节,以及修改乐器类型和节奏,这使得音乐创作过程更加灵活。
    • 端到端的生成流程:从文本输入到音频输出,「琴乐大模型」实现了端到端的生成流程,减少了人工干预,提高了音乐创作的效率。
    • 大规模双盲听测:通过大规模双盲听测,模型的生成质量得到了验证,其多维度主观评分超越了业内标准。