Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • 国内外13个AI生成图片的软件和网站,智能创作图像和绘画

    人工智能让生成式AI模型有了快速发展,可以创建真实和精美的图像。AI图片生成、AI绘画工具使用深度学习算法分析和复制图像的模式和风格,生成令人惊叹、逼真甚至超现实的图片、插画和艺术作品,而无需任何绘画或艺术技能的要求。本文将介绍13个用于生成图像和创意艺术作品的最佳AI生成图片的软件和工具,包括他们的主要功能、产品价格、优缺点以及如何帮助你为各种目的创建惟妙惟肖的视觉内容。

    🔢 测试软件数量 20+
    💻 系统使用环境 浏览器在线网页
    ✅ 软件和工具类型 开源、免费和商业付费软件
    🏅 最佳推荐 国内:堆友AI反应堆即梦AI
    国外:Midjourney、Stable Diffusion、DALL·E 3

    1. 堆友AI反应堆

    堆友AI反应堆是阿里堆友推出的AI绘画生成工具。基于Stable Diffusion XL优化模型,结合风格嵌入技术,支持15+固定风格模板及自定义风格融合,如怀旧日漫、厚涂插画、赛博朋克等。用户输入文字描述或上传参考图,选择风格后,AI可在20秒左右生成4K分辨率图像。堆友AI反应堆具备图生图与智能拓展功能,通过CLIP图像编码器提取参考图特征,支持局部重绘、人脸修复等二次创作。内置1000+免费商用3D模型,涵盖头像、场景、图标等,支持在线调整材质、光照与构图角度。

    堆友AI反应堆

    💵 产品价格
    • 个人会员:年卡:¥299;连续包月:¥39;半年卡:¥179;季卡:¥109。每月赠送240堆币(可兑换2400堆豆),共12次,赠送堆币每月重置,最多可生成约11630张图。
      • 年卡权益:低至0.1元/堆币;个性化专属模型训练;在线工作流即开即用。
      • 基础权益:畅享AI视频及专属会员功能;专属优质会员模型商用无忧;全站图片/作品下载无水印;免堆豆流量一键抠图;畅享自由扩图/细节修复;海量商拍/营销海报爆款模版。
    • 团队会员:团队人数2人起,¥399。
      • 团队专属权益:畅享个人版年卡会员权益,灵活调整成员校色和权限;共享团队算力值,按需使用;设计资产统一管理,实时在线调用;可视化数据分析,追踪成员创作成果。
    • 个人加油包:堆币可用于堆友平台内生成图片、生成视频、模型训练、VIP功能等使用时进行抵扣。堆豆不足时,可使用堆币进行兑换,1堆币可兑换10堆豆。
      • 300堆币:¥39.9;有效期为60天
      • 850堆币:¥99.9;有效期为90天
      • 2600堆币:¥299.9;有效期为365天
      • 6000堆币:¥599.9;有效期为365天
    • 堆豆任务:新用户首次登录/注册后堆友会免费赠送50堆豆,有效期一年;每日登录会赠送80堆豆;关注公众号【堆友创意】赠送20堆豆;收藏网址赠送50堆豆;完成反应堆/AI工具箱生图发布各赠送25堆豆;完善个人信息赠送20堆豆。
    👍 产品优点
    • 高效创作:快速生成高质量绘画作品,节省时间和精力。
    • 多样化风格:提供多种绘画风格选择,满足不同创作需求。
    • 零门槛使用:无需绘画技能,适合所有用户。
    • 社区互动:活跃的社区生态,方便用户分享和交流作品。
    • 3D资源丰富:提供大量3D模型资源,支持在线编辑和渲染。
    • 持续更新:团队不断优化模型,提升生成质量和效率。
    • 二次创作支持:支持图生图和智能拓展,方便用户进行二次创作。

    2. 即梦AI

    即梦AI是字节跳动推出的一站式AI创作平台,支持免费AI生成图片、音乐和视频、提供图片编辑工具、智能画布以及多语言优化等功能,帮助用户轻松创作个性化内容,同时通过社区互动和会员服务,鼓励创意分享和提升创作体验,满足从创意爱好者到专业人士的多样化需求。

    💵 产品价格
    • 免费版:每天可以获得60-100积分,满足日常生成图片需求。(即梦不开会员,免费去水印
    • 基础会员:¥79元/月,提供更多的积分以生成更多的图片和视频。适合需要更频繁使用即梦AI功能的用户。
    • 标准会员:¥239元/月,提供更多的积分和其他特权。适合对即梦AI有较高使用频率和需求的用户。
    • 高级会员:¥649元/月,提供最多的积分和高级功能。适合专业用户或需要大量使用即梦AI服务的用户。
    👍 产品优点
    • AI图片创作:用户可以通过自然语言描述自己的想法,即梦AI将根据这些描述生成独特的图片。如果用户对生成的图片不满意,还可以使用编辑功能进行调整,达到更完美的创意效果。
    • 智能画布:即梦AI提供了一站式智能画布,集成了AI拼图生成能力,并提供局部重绘、一键扩图、图像消除和抠图等多功能操作。用户可以在同一个画布上实现多元素的无缝拼接,确保AI绘画的创作风格统一和谐。
    • 多图AI融合:即梦AI的智能画布支持多图AI融合,支持用户在同一画布上进行多元素的组合,创造出更加丰富和复杂的艺术作品。
    • 创意社区:即梦AI拥有一个活跃的创意社区,用户可以在这里探索其他用户的创作,获取灵感,甚至使用他人的提示词来创作出自己的作品。
    • 风格化创作:即梦AI上线了风格化创作功能,用户可以自由掌控插画风格,为艺术创作提供了更多的可能性和个性化的选择。

    3. 哩布哩布AI

    哩布哩布AI(LiblibAI)是国内领先的AI图像生成平台,致力于通过AI技术改变传统创作方式,成为内容创意行业的新质生产力。该平台在一年内完成了数亿元人民币的融资,成为国内AI图像赛道的最大融资案例。LiblibAI由来自清华大学、北京大学、卡内基梅隆大学等名校的团队创立,团队成员具备AI、互联网和设计产业的丰富经验。平台已积累近1000万专业AI图像创作者,拥有超过10万个原创模型,生产并分享了超过2.3亿张AI图片,构建起涵盖AI内容创作、分享、版权、售卖的完整生态链。

    LiblibAI哩布哩布AI

    💵 产品价格
    • 免费用户每天登录获取300点算力,大约可生图300张、3GB存储空间。
    • 基础版VIP:连续包月¥39;12个月¥336;每月15000点算力、20GB存储空间、每月800次生图加速、会员专属模型、生图高级功能、无水印。
    • 专业版VIP:连续包月¥70;12个月¥672;每月35000点算力、50GB存储空间、每月5000次生图加速、会员专属模型、生图高级功能、训练XL模型、无水印。
    👍 产品优点
    • 多样化的AI创作模型哩布哩布AI提供丰富的AI模型资源,涵盖动漫、游戏、摄影等多个领域,满足不同用户的创作需求。
    • 个性化创作体验:支持用户根据需求筛选不同的创作模型,提供会员专属模型,享受更高质量的设计资源。
    • 多种设计风格:支持3D立体、扁平抽象等多种设计风格,适应不同艺术创作的需求。
    • 高分辨率修复和图像编辑:支持高分辨率修复、图像涂鸦和重绘等功能,提供对生成图像的编辑和优化。

    4. 吐司TusiArt

    吐司TusiArt 是上海必有回响智能科技推出的在线AI绘画模型社区和生图平台。吐司TusiArt支持用户在线体验和生成各种风格的AI绘画,无需安装任何额外软件或硬件。平台提供简单直观的操作界面,丰富的模型库,以及社区分享功能,支持用户上传图像进行个性化AI模型训练。无论是新手还是专业艺术家,都能在这个平台上找到适合自己的创作工具,享受AI绘画的乐趣。

    吐司TusiArt

    💵 产品价格
    • 免费版:每日赠送100算力,用户可以进行和排队生图任务1个,单次最多生成2张图片,高清修复分辨率上限为207万像素,高清/采样步数上限为30步,LoRA+ControlNet上限为3个,历史记录保存14天,模型需公开,每日发帖10个,每日并行训练任务1个。
    • 付费会员版:根据会员时长不同,价格和额外赠送算力也不同:
      • 1日体验3元,额外赠送100算力
      • 30日24.9元,额外赠送1000算力
      • 90日39.9元,额外赠送5000算力
      • 付费会员可享受更多算力,更高的并行生图任务数,单次生成图片数量增加,更高的高清修复分辨率,更多的高清/采样步数,更多的LoRA+ControlNet上限,更长的历史记录保存时间。
    👍 产品优点
    • 吐司AI每日赠送免费体验额度,新手玩家完全足够了
    • 生态强大,支持Stable Diffusion、FLUX、Kolors等热门AI绘画模型
    • 线上网页端直接用,无需高配置电脑
    • 图片生成质量高,模型、风格可选择范围很广

    5. Stable Diffusion

    Stable Diffusion 是于 2022 年发布的一个基于深度学习的文本到图像生成模型,由 StabilityAI 与 RunwayML 和其它学术研究和非营利组织 LMU Munich、LAION及EleutherAI 合作开发而成。你可以使用该免费开源的模型生成美观的图像,既可以像相机拍摄的写实逼真,也可以像艺术家创作的插画风格。

    如果你在Google Colab Notebook或你的本地机器上使用Stable Diffusion,你可以完全免费使用。如果你不想安装任何软件或本地部署,可以在StabilityAI推出的 DreamStudio 中使用 Stable Diffusion。Dream Studio 提供一定数量的免费生成积分,消耗完之后则需要付费。

    Stable Diffusion Dream Studio

    💵 产品价格
    • 自己部署或本地运行,完全免费
    • DreamStudio版本,新用户注册后可获得 25免费积分,大概可以生成默认选项的 30张图片,购买或充值积分的话,10美元可购买 1000积分(大约可生成 5000张图像),更加详细的定价可查看Stability.ai Credits + Billing
    👍 产品优点
    • 免费开源,生态强大
    • 可本地部署,运行免费或便宜
    • 图片生成质量较高
    👎 产品缺点
    • 上手存在一定的难度

    6. Midjourney

    Midjourney 是近年来最火爆的AI图片生成工具,用户只需输入简单的文本描述,便可以创建高质量的图像。无需专门的硬件或软件来使用,该工具通过 Discord 聊天应用程序实现指令输入和生成。

    你可以将Midjourney AI图片生成软件应用在各行各业,比如市场营销广告领域创建社交媒体帖子、游戏开发领域创建物品和资源、电影和动画领域创建背景布景、道具和角色设计等。

    在网上引起轩然大波的AI中国情侣、身着时尚羽绒服的教皇、特朗普被捕等图像,都是由网友使用Midjourney生成而来,这足以可说明其生成图片的质量之高。

    Midjourney Discord

    💵 产品价格

    Midjourney 提供有三个订阅计划,可按月支付,或全年支付可享受 20% 的折扣。每个订阅计划都包括访问 Midjourney 成员图库、官方 Discord。

    • Basic Plan – 按月支付 10美元/月,按年支付 96美元/年
    • Standard Plan – 按月支付 30美元/月,按年支付 288美元/年
    • Pro Plan – 按月支付 60美元/月,按年支付 576美元/年
    👍 产品优势
    • 图片生成质量最高
    • 生态完善,有很多相关的prompt和教程
    • 目前中文版QQ频道在内测中
    👎 产品缺点
    • 新用户免费试用25次,之后需要付费订阅

    7. DALL·E 3

    DALL·E 3 是由 OpenAI 公司开发的基于生成式AI帮助用户智能从文本到图像生成的技术,于 2021 年 1 月 首次推出。该技术应用了深度学习GPT大语言模型作为理解自然语言输入的提示词以生成高质量图像。

    DALL·E 3 有着广泛可能的应用场景,无论你是个人用户还是企业组织,你都可以发挥你的创意,使用它帮助你生成你想要的图片。如教师可以使用 DALL·E 3 生成图像来解释复杂的教学概念、设计师可以使用其进行产品设计、营销人员可以使用其创作推广和广告物料等。

    DALL E 2网站

    💵 产品价格

    用户注册 DALL·E 之后,可以获得免费的 50 个积分用于创建图像,用完所有的积分之后,接下来每个月可以获得 15 个免费积分。你也可以付费购买更多的积分,以免消耗用完。不同图片的分辨率价格不同:

    • 256 x 256 像素的图片花费约 0.016 美元;
    • 512 x 512 像素的图片花费约 0.018 美元
    • 1024 x 1024 像素的图片花费约 0.02 美元;
    👍 产品优点
    • 生成速度快,通常不到一分钟
    • 灵活和可定制,用户可任意输入和定制文本提示以创建不同的图像
    • 由 OpenAI 团队开发,可期待其后续迭代
    👎 产品缺点
    • 国内无法直接访问其网站
    • 生成写实风格的图片质量还有待提高

    8. 文心一格

    文心一格是由百度推出的依托其文心大模型和飞桨技术的文本生成图片的 AI 艺术和创意辅助平台,于2022年8月正式发布。作为国内第一梯队的AI图片生成的工具和平台,文心一格可以进行国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成。

    文心一格面向的用户人群非常广泛,既能启发画师、设计师、艺术家等专业视觉内容创作者的灵感,辅助其进行艺术创作,还能为媒体、作者等文字内容创作者提供高质量、高效率的配图。

    文心一格生成图像

    💵 产品价格

    目前文心一格是采用的免费增值模式,新用户注册登录后可以获得 50 的电量用以生成图像,签到、分享和公开自己的画作可以获得额外免费的电量。你也可以采用付费充值电量,9.9 元 80 个电量、15.9 元 200 个电量、49.9 元 800 个电量、599 元 1 万个电量。

    👍 产品优点
    • 由国内公司百度推出,访问速度快
    • 中文支持友好,操作使用简单
    • 付费电量的价格不算贵,有一定的性价比
    👎 产品缺点
    • 更适合艺术创作风格的图片生成,写实/真人风格的图片质量还有待提高

    9. Bing Image Creator

    Bing Image Creator 是由微软于2023年3月推出的AI文本创建图像的工具,该工具由 OpenAI 提供的高级版 DALL∙E 模型提供支持。用户只需输入描述性的文本,便可以快速创建想要的图片。

    目前用户可以通过3种方式使用Bing Image Creator

    1. 直接在新版Bing的聊天的上下文中输入对应的指令创建图像;
    2. 也可以访问其独立提供的网页(https://bing.com/create)中进行操作;
    3. 在 Microsoft Edge 浏览器的右边栏中点击对应的图标即可创建图像

    Bing Image Creator官网

    💵 产品价格

    目前 Bing Image Creator 是免费使用的,用户首次注册登录后可获得25个充电boosts(类似积分,目前已增加到100个),当 boosts 用完后,生成图片的花费时间将变得更长(从10~30秒变为最多需要5分钟)。用户可以选择兑换微软的奖励和积分以获取更多的boosts。

    👍 产品优点
    • 免费使用,生成速度快
    • 基于更高级的DALL∙E模型,图片生成效果好
    👎 产品缺点
    • 目前仅支持英语
    • 生成人像和写实风格的图片质量有待提高

    10. Flag Studio

    Flag Studio 是由北京智源人工智能研究院(简称智源研究院)推出的AI文本图像绘画生成工具,用户只需输入一句话,便能生成精美的画作。

    Flag Studio 支持文生图和图生图模式,你可以使用该工具生成任何你感兴趣的风格,如国画、写实主义、虚幻引擎、low poly、动漫风格、涂鸦、赛博朋克等。

    Flag Studio 生成图片

    💵 产品价格

    目前Flag Studio是免费使用的,网页版用户每天可生成500张图片!

    👍 产品优点
    • 由智源研究院推出,国内可直接访问
    • 生成速度快,且单次可一次性生成最多8张图片
    • 除开网页端之外,还支持微信小程序端使用
    👎 产品缺点
    • 生成的图片质量和精细度还有提升空间

    11. 6pen Art

    6pen Art 是一个基于 AI 驱动的技术,利用文本生成绘画作品的工具。用户可以通过文字描述画面内容和风格,就可以得到和生成天马行空,令人惊艳的作品和画面(最高支持4K分辨率)。用户可以通过在线网站、iOS或Android应用程序访问并使用6pen Art。

    6pen Art 生成图片

    💵 产品价格

    6pen Art 目前提供两个通道——免费通道和Pro付费通道。

    对于免费通道,用户可以每天免费使用西瓜模型(无论大小)5次,南瓜模型和Stable Diffusion模型次数无限制,其中大西瓜模型因过于耗时而限制了生成图片的尺寸,小西瓜不受影响。

    对于Pro付费通道,用户的等待时间较短,每次生成图片则会消耗对应的点数(5 元 20点数,30 元 200点数,100 元 800点数,500 元 5000 点数),不同模型和不同分辨率的图片会消耗不同的点数,

    👍 产品优点
    • 由国内公司推出,国内可直接快速访问
    • 除网页端外,支持手机端 iOS 和 Android App 使用
    • 生成出来的图片版权,完全授权给生成者本人
    👎 产品缺点
    • 付费版的价格相对于文心一格等国内产品稍贵一点

    12. 造梦日记

    造梦日记是一款基于AI算法、输入文字或图片即可生成高质量图片的平台,由西湖大学深度学习实验室和西湖心辰(Friday AI 写作助手背后的团队)联合出品,超强算力,超快出图,目前支持微信小程序和网页端等。

    造梦日记支持生成海量不同风格的图像和插画,包括油画、水彩、哑光画、儿童画、素描、中国风、电影感、摄影、动漫风、游戏场景、吉卜力、低聚艺术、像素艺术、CG渲染、赛博朋克、蒸汽波、虚幻引擎、印象主义、未来主义、超现实主义、浮世绘、室内设计等风格。

    造梦日记生成图片

    💵 产品价格

    新用户注册造梦日记后可免费获得平台赠送的100颗造梦星,每日签到同样可以领取一定数量的星星。造梦日记的付费VIP会员可以享受更快速度和更多尺寸的出图,VIP分为月卡会员、季卡会员和年卡会员三个等级:

    • 月卡会员,每月50元,可以获得600颗造梦星
    • 季卡会员,3个月128元,可以获得2000颗造梦星
    • 年卡会员,12个月388元,可以获得8000颗造梦星
    👍 产品优点
    • 由国内公司推出,国内可直接快速访问
    • 除网页端外,提供微信小程序使用
    • 提供重绘笔、消除笔、抠图笔等细节修改功能
    • 上传对应要求的图像后,用户可定制自己的专属模型
    👎 产品缺点
    • 免费版只能生成1:1尺寸和单次2张的生成数量,其他尺寸和数量需开通VIP

    13. Adobe Firefly

    Adobe 于2023年3月21日推出了名为 Adobe Firefly 的创意生成AI模型,类似于 DALL-E 和 Midjourney,可以仅使用文本提示即可按需生成图像。Adobe 表示,该模型仅针对获得许可或不受版权保护的内容进行训练,而不是来自互联网艺术家的作品。

    Adobe Firefly 目前将作为独立测试版提供以获得用户反馈,根据后续的反馈,Adobe 接下来打算将 Firefly引入 Adobe Express和 Adobe Creative Cloud,并推出更多创意应用程序。

    Adobe Firefly Beta

    💵 产品价格

    目前,Firefly 测试版可免费使用和访问。但是,由于 Firefly 旨在集成到 Adob​​e 提供的系列产品中,因此无法保证 Adob​​e Firefly 将一直没有付费版本。作为参考,Adobe 提到的将集成 Firefly 的服务包括Creative Cloud(付费服务)和Adob​​e Express(免费应用程序)。

    👍 产品优点
    • 由Adobe推出,非常适合使用Adobe全家桶的创意设计人员
    • 依托于Adobe多年的积累,图片生成和合成的效果好
    👎 产品缺点
    • 还处于Beta测试中,仅支持英语
    • Adobe官方指明不提供Firefly给中国地区的用户

    以上便是AI工具集为各位盘点的13款值得一试的AI图片生成、AI绘画工具和软件,如果你希望获得更好的图片生成质量,那么Midjourney和Stable Diffusion是更好的选择;而如果你希望获得更快的访问和生成速度,那么国内的AI生成图片、AI绘画工具,如吐司TusiArt和即梦AI是更好的选择。

  • 琴乐大模型 – 腾讯推出的AI音乐创作大模型

    琴乐大模型是什么

    琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型,该模型通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。琴乐大模型支持自动编辑,如续写、重新生成指定音轨或小节,以及修改乐器类型和节奏。目前,琴乐大模型的技术已经上线腾讯音乐启明星平台,用户可以免费注册体验。未来,研究团队还计划在模型中加入人声、歌词等要素的生成能力,以更好地服务音乐创作需求。

    琴乐大模型

    琴乐大模型的功能特色

    • 音乐生成:模型能够根据用户提供的中英文关键词、描述性语句或音频输入,智能生成音乐。这种生成不仅基于文本描述,还能够理解音频内容,实现音乐的自动创作。
    • 乐谱生成:除了生成音频,「琴乐大模型」还能生成详细的乐谱,这些乐谱包含旋律、和弦、伴奏和打击乐等多个轨道,为用户提供了丰富的音乐结构。
    • 自动编辑:模型支持对生成的乐谱进行一系列自动编辑操作,包括但不限于续写乐谱、重新生成特定的音轨或小节、调整配器、修改乐器类型和节奏,这大大提高了创作的灵活性和效率。
    • 音频文本对齐:通过对比学习技术,模型构建了一个共享特征空间,将音频标签或文本描述与音频本身进行对齐,为生成模型提供条件控制信号,增强了音乐生成的相关性和准确性。
    • 乐谱/音频表征提取:模型能够将乐谱或音频转换成一系列离散的特征(token)序列,这些序列为大语言模型的预测提供了基础。
    • 大语言模型预测:使用decoder-only结构,模型通过特征预测(next token prediction)训练,预测出的序列可以转换回乐谱或音频,实现了从文本到音乐的转换。
    • 音频恢复:通过流匹配和声码器技术,模型能够将预测出的音频表征序列恢复成可听音频,增强了音频的真实感和质量。
    • 音乐理论遵循:在生成音乐的过程中,「琴乐大模型」遵循音乐理论,确保旋律、和弦、节拍等元素符合音乐逻辑和人类审美。

    琴乐大模型

    如何体验和使用琴乐大模型

    1. 注册与登录:访问腾讯音乐启明星平台(https://y.qq.com/venus/#/venus/aigc/ai_compose),并注册一个账户或使用现有账户登录。
    2. 输入创作条件:在体验页面上,输入音乐关键词、语句或描述,这些将作为模型生成音乐的依据。
    3. 选择音乐模型:目前仅有琴乐音乐生成大模型v1.0供选择。
    4. 选择音乐时长:可选择10秒至30秒的音乐时长
    5. 生成音乐:点击开始生成,等待1分钟左右音乐即可生成,生成后的音乐可以进行播放和下载

    琴乐大模型的技术原理

    • 音频文本对齐模型:这一模块使用对比学习构建音频标签或文本描述与音频之间的共享特征空间。通过这种方式,模型能够理解文本和音频之间的语义关系,并在生成过程中使用这些信息作为条件控制信号。
    • 乐谱/音频表征提取:模型将乐谱或音频转换为离散的特征序列,这些序列可以是MIDI属性的表征,也可以是预先训练的音频频谱的编码和压缩后的表征。
    • 大语言模型:使用decoder-only结构的大语言模型,进行特征预测(next token prediction)训练。这种模型能够根据输入的特征序列预测下一个特征,从而生成连续的音乐元素。
    • 流匹配与声码器技术:在生成音频的过程中,模型使用流匹配技术与声码器模块,将预测出的音频表征序列转换为可听音频,增强音频的真实感。
    • 多模块协同工作:「琴乐大模型」包含了多个模块,这些模块协同工作以实现音乐生成的效果。例如,音频文本对齐模型在训练过程中提供条件控制信号,而在推理过程中则使用文本表征作为控制信号。
      琴乐大模型的模块
    • 音乐理论遵循:在生成音乐的过程中,模型需要遵循音乐理论,包括旋律、和弦、节奏等元素的合理性,以确保生成的音乐符合人类的听觉习惯和审美标准。
    • 自动编辑与调整:模型支持对生成的乐谱进行自动编辑操作,如续写、重新生成指定轨或小节,以及修改乐器类型和节奏,这使得音乐创作过程更加灵活。
    • 端到端的生成流程:从文本输入到音频输出,「琴乐大模型」实现了端到端的生成流程,减少了人工干预,提高了音乐创作的效率。
    • 大规模双盲听测:通过大规模双盲听测,模型的生成质量得到了验证,其多维度主观评分超越了业内标准。
  • Unique3D – 清华大学团队开源的图像到3D生成模型

    Unique3D是什么

    Unique3D是清华大学团队开源的一个单张图像到3D模型转换的框架,通过结合多视图扩散模型和法线扩散模型,以及一种高效的多级上采样策略,能够从单张图片中快速生成具有高保真度和丰富纹理的3D网格。Unique3D结合ISOMER算法进一步确保了生成的3D模型在几何和色彩上的一致性和准确性,仅需30秒即可完成从单视图图像到3D模型的转换,生成效果优于InstantMesh、CRM、OpenLRM等图像转3D模型。

    Unique3D

    Unique3D的功能特色

    • 单图像3D网格生成:Unique3D能够从单个2D图像自动生成3D网格模型,将平面图像转换为具有空间深度的三维形态。
    • 多视角视图生成:系统使用多视图扩散模型生成同一物体的四个正交视图图像,这些视图从不同方向捕捉物体的特征,为3D重建提供全面的视角信息。
    • 法线贴图生成:Unique3D为每个多视角图像生成对应的法线贴图,这些贴图记录了物体表面的朝向信息,对于后续的3D模型渲染至关重要,能够模拟光线如何与表面相互作用,增强模型的真实感。
    • 多级分辨率提升:通过多级上采样过程逐步提高生成图像的分辨率,从低分辨率到高分辨率(如从256×256到2048×2048),使得3D模型的纹理和细节更加清晰。
    • 几何和纹理细节整合:在重建过程中,Unique3D将颜色信息和几何形状紧密结合,确保生成的3D模型在视觉上与原始2D图像保持一致,同时具有复杂的几何结构和丰富的纹理细节。
    • 高保真度输出:生成的3D模型在形状、纹理和颜色上与输入的2D图像高度一致,无论是在几何形态的准确性还是纹理的丰富性上都达到了高保真度的标准。

    Unique3D

    Unique3D的官网入口

    Unique3D的技术原理

    Unique3D的工作原理

    • 多视图扩散模型:利用扩散模型从单视图图像生成多视角(通常是四个正交视图)图像。这些模型通过训练学习2D图像的分布,并将其扩展到3D空间,生成具有不同视角的图像。
    • 法线扩散模型:与多视图扩散模型协同工作,为每个生成的视图图像生成对应的法线贴图,这些法线贴图包含了表面法线的方向信息,对后续的3D重建至关重要。
    • 多级上采样过程:采用多级上采样策略逐步提高生成图像的分辨率。初始生成的图像分辨率较低,通过上采样技术逐步提升至更高的分辨率,以获得更清晰的细节。
    • ISOMER网格重建算法:一种高效的网格重建算法,用于从高分辨率的多视图RGB图像和法线图中重建3D网格。ISOMER算法包括:
      • 初始网格估计:快速生成3D对象的粗糙拓扑结构和初始网格。
      • 粗糙到精细的网格优化:通过迭代优化过程,逐步改善网格的形状,使其更接近目标形状。
      • 显式目标优化:为每个顶点指定一个优化目标,解决由于视角不一致导致的问题,提高几何细节的准确性。
    • 颜色和几何先验整合:在网格重建过程中,将颜色信息和几何形状的信息整合到网格结果中,以提高最终模型的视觉真实性和准确性。
    • 显式目标(ExplicitTarget):为每个顶点定义一个优化目标,这是一个从顶点集合到颜色集合的映射函数,用于指导顶点颜色的优化,提高模型的多视图一致性。
    • 扩展正则化(Expansion Regularization):在优化过程中使用的一种技术,通过在顶点的法线方向上移动顶点来避免表面塌陷,确保模型的完整性。
    • 颜色补全算法:针对不可见区域的颜色补全,使用一种高效的算法,将可见区域的颜色平滑地传播到不可见区域,确保整个模型颜色的一致性。
  • 谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效

    DeepMind V2A

    在人工智能领域,谷歌旗下的DeepMind公司再次取得突破性进展,推出了一款名为V2A(Video-to-Audio,视频到音频)的AI模型。该项技术能够将视频像素与文本提示相结合,为无声视频生成包含对话、音效和音乐的详细音频轨道。

    V2A技术不仅可以与DeepMind自家的视频生成模型Veo配合使用,还能与Sora可灵Gen 3等竞争对手的视频生成模型相结合,为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。当然,这项技术同样适用于为传统影像资料,如档案影像和无声电影添加声音。V2A的强大之处在于,能够为每个视频输入创造无限数量的音轨。

    DeepMind团队表示,V2A模型基于扩散模型,在同步视频和音频方面提供了最逼真和令人满意的结果。V2A系统首先将视频输入编码为压缩表示,然后扩散模型在视觉输入和文本提示的指导下,从随机噪声中逐渐细化音频。最终,音频输出被解码、转换为音频波形,并与视频数据结合。

    V2A的工作原理

    为了提高音频质量,DeepMind在训练过程中增加了额外信息,包括AI生成的声音描述和对话的转录。这样,V2A学会了将某些音频事件与不同的视觉场景联系起来,并响应描述或转录中包含的信息。

    然而,V2A技术也存在一些限制。例如,音频输出的质量取决于视频输入的质量。视频中的伪影或失真,如果超出了模型的训练分布,可能会导致音频质量显著下降。此外,视频中的唇形同步仍然不够稳定。

    目前,V2A尚未公开发布。DeepMind正在收集来自顶尖创意人士和电影制作人的反馈,以确保V2A能够对创意社区产生积极影响。公司表示,在考虑更广泛的访问之前,V2A将经过严格的安全评估和测试。

    (更多信息:Google DeepMind – Generating audio for video

  • Gen-3 Alpha – Runway公司最新推出的AI视频生成模型

    Gen-3 Alpha是什么

    Gen-3 Alpha是AI视频初创公司Runway最新发布的新一代AI视频生成模型,通过大规模多模态训练基础设施,显著提升了视频的保真度、一致性和动态表现。该模型能够生成10秒长、细节丰富、动作流畅的高逼真视频片段,支持文本到视频、图像到视频的转换,并提供精细的时间控制和多种高级控制模式,为艺术家和创意工作者提供了强大的工具。

    Gen-3 Alpha

    Gen-3 Alpha的功能特色

    • 高保真视频生成:Gen-3 Alpha模型能够生成长达10秒的视频片段,这些视频不仅在视觉上具有极高的清晰度和细节层次,而且在动态表现上也非常逼真。这意味着从纹理到光线反射,再到物体和角色的运动,每一个细节都被精心渲染,以达到接近现实的视觉效果。
    • 多模态输入支持:该模型支持多种输入方式,将文本描述、静态图像或现有视频转化为动态视频内容。用户可以通过文本描述来设定视频的主题和风格,或上传图片作为视频的起点,Gen-3 Alpha能够据此生成连贯且符合用户意图的视频序列。
    • 精细时间控制:Gen-3 Alpha通过训练学习了大量具有时间序列信息的描述性字幕,这使得它能够精确控制视频中的时间流动和关键帧设置。用户可以细致地调整场景转换和元素出现的时间点,创造出平滑且富有创意的视频过渡效果。
    • 逼真人物角色生成:该模型在生成具有丰富表情、动作和情感反应的人类角色方面表现出色。无论是细微的面部表情变化还是复杂的身体语言,Gen-3 Alpha都能够真实地呈现出来,极大地增强了视频的叙事力和观众的沉浸感。
    • 高级控制模式:Gen-3 Alpha提供了多种高级控制工具,使用户能够对视频的各个方面进行微调。运动画笔(Motion Brush)允许用户手动调整视频中的运动轨迹;高级相机控制(Advanced Camera Controls)提供了对摄像机视角和运动的精细调节;导演模式(Director Mode)则为用户提供了全面的镜头语言和场景调度能力。
    • 风格化控制和角色定制:用户可以根据自己的艺术愿景,对视频的风格和角色进行定制。这包括调整角色的外观、服装、表情以及场景的色调、光线和氛围,确保最终的视频作品能够符合特定的艺术风格或叙事要求。
    • 全新视觉审核系统:为了确保生成的视频内容安全、合规,Gen-3 Alpha配备了先进的视觉审核系统。该系统遵循C2PA(Content Credentials)标准,对视频内容进行自动审核,以防止不当内容的产生,保障作品的质量和合法性。

    Gen-3 Alpha

    如何使用Gen-3 Alpha

    目前,Runway已经发布Gen-3 Alpha模型,并且会在接下来的几天内对付费Runway订阅者、创意合作伙伴计划成员以及企业用户开放使用。后续,用户可通过Runway官网(runwayml.com)进行使用。如有微调、定制,或者其他类似需求,可访问定制模型页面进行申请:runwayml.com/custom-model-inquire

    Gen-3 Alpha的应用场景

    • 电影和电视制作:在电影和电视剧的前期制作中,Gen-3 Alpha可以快速生成概念视频,帮助导演和制片人预览场景和故事情节,节省实际拍摄的成本和时间。
    • 广告创意:广告行业可以利用Gen-3 Alpha快速制作吸引人的广告视频,通过逼真的人物和场景吸引观众的注意力,提高广告的吸引力和传播效果。
    • 游戏开发:在游戏设计中,Gen-3 Alpha可以用于生成游戏内的动画和过场动画,提供更加丰富和逼真的视觉体验。
    • 社交媒体内容创作:内容创作者可以使用Gen-3 Alpha生成独特的视频内容,用于社交媒体平台,吸引更多关注和互动。
    • 艺术创作:艺术家和设计师可以利用Gen-3 Alpha探索新的艺术表现形式,创作出独特的视觉作品。
    • 企业宣传:企业可以利用Gen-3 Alpha制作高质量的宣传视频,展示产品特点、企业文化或服务优势。
    • 个人娱乐:普通用户可以使用Gen-3 Alpha进行个人娱乐,如创作个人音乐视频、制作家庭影片等。
  • Hallo – 复旦百度等开源的AI对口型肖像视频生成框架

    Hallo是什么

    Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的肖像图像视频。该框架采用了基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度。Hallo的网络架构整合了UNet去噪器、时间对齐技术和参考网络,以增强动画的质量和真实感,不仅提升了图像和视频的质量,还显著增强了唇动同步的精度,并增加了动作的多样性。

    Hallo

    Hallo的功能特色

    • 音频同步动画:Hallo利用先进的音频分析技术,将输入的语音音频与肖像图像相结合,生成动态的面部动画。通过精确的唇动同步算法,确保视频动画中的嘴唇动作与音频中的声音同步,从而创造出逼真的说话效果。
    • 面部表情生成:根据音频信号中的情感和语调变化,Hallo能够自动识别并生成相应的面部表情,包括微笑、皱眉、惊讶等表情,使视频动画角色的“表演”更加自然和富有情感。
    • 头部姿态控制:Hallo允许对视频动画中的头部姿态进行细致的调整,如头部的倾斜、转动等,使得视频动画能够更好地反映音频内容的意图和情感,增强视觉与听觉的协调性。
    • 个性化动画定制:用户可以根据不同的应用场景和个人特征,对动画的风格、表情和动作进行定制。Hallo的个性化定制功能支持用户创造出独一无二的角色,满足特定的视觉和情感表达需求。
    • 时间一致性维护:Hallo通过时间对齐技术,确保动画中的动作和表情在时间上流畅过渡,避免突兀和不自然的变化。
    • 动作多样性:除了同步音频的基本动作外,Hallo还支持生成多样化的动作和风格。用户可以根据需要选择不同的动作库,为动画角色添加更多动态元素,如手势、眨眼等,从而丰富视频的表现力。

    Hallo

    Hallo的官网入口

    Hallo的技术原理

    Hallo

    • 分层音频驱动视觉合成:Hallo采用分层的方法来处理音频和视觉信息。这种分层结构允许模型分别处理嘴唇动作、面部表情和头部姿态,然后通过自适应权重将这些元素融合在一起。
    • 端到端扩散模型:Hallo使用基于扩散的生成模型,一种从潜在空间生成数据的方法。在训练阶段,数据逐渐被加入噪声,然后在逆过程中去除噪声以重建清晰的图像。
    • 交叉注意力机制:通过交叉注意力机制,Hallo能够在音频特征和视觉特征之间建立联系。该机制使得模型能够集中注意力于与当前音频输入最相关的面部区域。
    • UNet去噪器:Hallo利用基于UNet的去噪器来逐步去除图像中的噪声,生成清晰的动画帧。UNet结构因其在图像分割任务中的有效性而闻名,通过跳跃连接使用低层特征图来提高生成质量。
    • 时间对齐技术:为了保持动画在时间上的连贯性,Hallo采用了时间对齐技术,这有助于确保连续帧之间的平滑过渡和一致性。
    • 参考网络(ReferenceNet):ReferenceNet用于编码全局视觉纹理信息,以实现一致且可控的角色动画,可帮助模型在生成过程中参考现有的图像,以增强输出的视觉质量。
    • 面部和音频编码器:Hallo使用预训练的面部编码器来提取肖像的身份特征,同时使用音频特征编码器(如wav2vec)来将音频信号转换为可以驱动动画运动的信息。
    • 自适应权重调整:Hallo允许调整不同视觉组件(如嘴唇、表情、姿态)的权重,以控制动画的多样性和细节。
    • 训练与推理:在训练阶段,Hallo通过优化面部图像编码器和空间交叉注意力模块的参数来提高单帧生成能力。在推理阶段,模型结合参考图像和驱动音频来生成动画视频序列。
  • 阶跃星辰推出移动端AI智能问答助手跃问APP

    AI工具集 6月14日消息,由微软前全球副总裁姜大昕所创办的人工智能初创公司阶跃星辰日前宣布上线其AI智能问答助手跃问的移动端APP,用户可在苹果App Store和各大安卓应用商店进行下载使用。

    跃问APP

    跃问背后,由阶跃星辰 Step 系列通用大模型提供强大支持,包括 Step-1 千亿参数语言大模型和 Step-1V 千亿参数多模态大模型。两个千亿模型加持,让跃问可以精准描述和理解图像中的文字、数据、图表等信息,出色地完成内容创作、逻辑推理、数据分析等多项任务。

    过去2个月,阶跃星辰在联网搜索、文档解析、推理速度等许多方面进行了性能优化。同时,跃问已支持拍照识图、语音输入,pdf、doc/docx、csv、png、jpg等多种格式的文档分析。

    跃问APP的主要功能

    • 智能问答:无论是文字还是图像,跃问都能快速理解并给出最佳的答案,智能全网搜索并总结,让您轻松获取所需信息。
    • 高效阅读:长篇报告、复杂合同还是学术文献,只需上传文档,即可进行文档问答,帮助您快速理解文档内容,为您提供深入的洞察和分析。跃问也支持多数网站链接的内容读取。
    • 写作翻译:撰写文章、制作方案、跨语言沟通,跃问都能根据您的要求,生成高质量的内容,并提供多种语言的翻译服务。让您的创作更加流畅。
    • 拍照识图:随手拍建筑地标、汽车、动物、日常物品并提问,跃问能准确识别解读并给出所需解答。无论是寻找相似图片、获取图片信息还是进行图片搜索。
    • 多端同步:APP和网页端数据同步,工作生活高效加倍。

    跃问图像识别

    跃问APP的下载地址

  • MimicBrush – 阿里等开源的AI图像编辑融合框架

    MimicBrush是什么

    MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含期望效果的参考图像进行图片编辑。MimicBrush能够自动识别和模仿参考图像中的视觉元素,将其应用到源图像的相应区域,支持如对象替换、样式转换、纹理调整等图像编辑操作。该技术特别适用于产品定制、角色设计和特效制作等场景,极大地简化了传统图像编辑的复杂流程,提高了编辑效率和灵活性。

    MimicBrush

    MimicBrush的功能特色

    • 参考图像模仿:用户在源图像上圈定希望编辑的特定区域,提供一张包含所需样式或对象的参考图像。MimicBrush便能分析并模仿参考图像中的特定视觉特征,将这些特征无缝应用到源图像的指定区域,实现风格或内容的一致性。
    • 自动区域识别:MimicBrush利用先进的图像识别技术可自动检测和确定编辑区域。用户无需手动绘制遮罩或进行繁琐的选择,简化了编辑前的准备工作。
    • 一键编辑应用:用户只需点击一个按钮,即可启动编辑过程。MimicBrush将自动执行从区域识别到特征模仿的整个编辑流程,编辑操作变得快速且用户友好,无需多步操作。
    • 多样化编辑效果:支持对象替换,如将一种物体替换为另一种物体;可实现样式转换,比如改变服装的图案或颜色。还能进行纹理调整,如将一种材质的纹理应用到另一物体表面。
    • 实时反馈:在编辑过程中,MimicBrush提供即时的预览功能。用户可以实时看到编辑效果,及时进行调整和优化,确保了编辑结果更符合用户的预期和需求。
    • 灵活性和适应性:MimicBrush能够适应不同的图像内容,包括复杂场景和多样风格,提供多种编辑选项,使用户能够根据个人喜好进行个性化调整。

    MimicBrush的官网入口

    MimicBrush的技术原理

    MimicBrush的工作原理

    • 自我监督学习:MimicBrush通过自我监督的方式进行训练,利用视频帧之间的自然一致性和视觉变化。在训练过程中,系统随机选择视频中的两帧,一帧作为源图像,另一帧作为参考图像,学习如何使用参考图像的信息来补全源图像中被遮罩的部分。
    • 双扩散UNets结构:MimicBrush采用了两个UNet网络,即“imitative U-Net”和“reference U-Net”。这两个网络分别处理源图像和参考图像,并通过共享注意力层中的键(keys)和值(values)进行信息交互,帮助系统定位参考图像中与源图像编辑区域相对应的部分。
    • 注意力机制:在MimicBrush中,参考U-Net提取的注意力键和值被注入到模仿U-Net中,这种机制有助于模仿U-Net更准确地完成遮罩区域的生成,确保生成的区域与源图像的背景和其他元素和谐地融合。
    • 数据增强:为了增加源图像和参考图像之间的变化性,MimicBrush在训练过程中应用了强烈的数据增强技术,包括颜色抖动、旋转、缩放和翻转等,以提高模型对不同姿态、光照和视角下图像的泛化能力。
    • 遮罩策略:MimicBrush采用了一种智能的遮罩策略,通过SIFT特征匹配来确定源图像中的关键区域,并增加这些区域被遮罩的可能性,从而促使模型学习如何从参考图像中找到并模仿更有意义的视觉元素。
    • 深度模型:MimicBrush还利用深度模型来预测源图像的深度图,作为形状控制的可选条件,这使得MimicBrush能够在纹理转移任务中保持源对象的形状,同时仅将参考图像的纹理或图案应用到源对象上。
    • 评估基准:为了全面评估MimicBrush的性能,研究人员构建了一个包含部分合成和纹理转移任务的高质量基准,涵盖了多种实际应用场景,如时尚、产品设计等。

    MimicBrush的应用场景

    • 产品设计:设计师可以使用MimicBrush快速修改产品设计图,例如改变产品的颜色、纹理或形状,以匹配设计概念或满足特定需求。
    • 时尚和服装:在时尚界,MimicBrush可以用来改变服装的图案、颜色或风格,帮助设计师和营销人员快速预览不同设计选项。
    • 美容和肖像编辑:个人用户可以利用MimicBrush来美容肖像,例如改变发型、妆容或肤色,而无需专业的图像编辑技能。
    • 广告和营销材料:营销人员可以快速调整广告图像,以适应不同的市场或促销活动,例如更改产品展示或背景元素。
    • 社交媒体内容创作:社交媒体用户可以利用MimicBrush来增强或个性化他们的照片和视频,使其内容更加吸引眼球。
    • 电子商务:在线零售商可以使用MimicBrush来定制产品图像,展示不同选项或变化,为客户提供更丰富的视觉体验。
  • Stability AI开源Stable Diffusion 3 Medium文生图模型

    6月12日晚间消息,人工智能初创公司Stability AI宣布正式开源发布其最新的文本到图像生成模型——Stable Diffusion 3 Medium(SD3 Medium)。Stable Diffusion 3 Medium 包含 20 亿个参数,是 Stability AI 迄今为止最先进的文本到图像开放模型,更小的 VRAM 占用空间旨在使其更适合在消费级 GPU 以及企业级 GPU 上运行。

    Hugging Face模型地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

    Stable Diffusion 3 Medium

    Stable Diffusion 3 Medium的基本信息

    • 先进性:SD3 Medium 拥有20亿参数,是Stability AI 迄今为止最为复杂的图像生成模型,代表了生成式AI进化的重要里程碑。
    • 适用性:这一模型的尺寸适中,使其成为在消费级PC、笔记本电脑以及企业级GPU上运行的理想选择,有望成为文本到图像模型的新标准。
    • 开放性:SD3 Medium 的权重现已在非商业许可和低成本创作者许可下开放,鼓励专业艺术家、设计师、开发者和AI爱好者进行商业使用。
    • 多平台支持:支持API试用,可在Stability平台、Stable Assistant(免费三天试用)和通过Discord的Stable Artisan上尝试。

    Stable Diffusion 3 Medium生成的图片

    Stable Diffusion 3 Medium的改进

    • 照片级真实感:SD3 Medium 通过减少手部和面部的常见伪影,提供无需复杂工作流程即可生成的高质量图像。
    • 提示遵循:模型能够理解并生成涉及空间关系、构图元素、动作和风格的复杂提示。
    • 排版能力:借助Diffusion Transformer架构,SD3 Medium 在生成文本时实现了无伪影和拼写错误。
    • 资源效率:模型设计考虑了资源效率,即使在标准消费级GPU上也能保持高性能,不牺牲性能。
    • 微调能力:SD3 Medium 能够从小数据集中吸收细节,为定制化提供了强大支持。

    Stable Diffusion 3 Medium图片

    合作伙伴

    • NVIDIA:Stability AI 与NVIDIA 的合作,通过NVIDIA® RTX™ GPU和TensorRT™,为所有Stable Diffusion模型,包括SD3 Medium,提供了性能上的显著提升。
    • AMD:AMD 对SD3 Medium 进行了优化,确保在AMD的最新APU、消费级GPU和MI-300X企业级GPU上提供高效推理。

    开放与安全

    • Stability AI 坚定地致力于开放的生成性AI,SD3 Medium 在Stability NonCommercial Research Community License下发布,同时推出了新的Creator License,以支持商业用途。
    • 公司采取了全面的安全措施,从模型训练到部署,确保了SD3 Medium 的安全和负责任的使用。

    未来计划

    Stability AI 计划根据用户反馈持续改进SD3 Medium,扩展其功能,提高性能。公司的目标是为AI生成艺术设定新的标准,使SD3 Medium 成为专业人士和爱好者的重要工具。

    (消息来源:Stability AI

  • 国家网信办发布第六批深度合成服务算法备案信息,腾讯混元等492个算法在列

    第六批深度合成算法备案

    6月12日消息,国家网信办今日发布公告,根据《互联网信息服务深度合成管理规定》,现公开发布第六批境内深度合成服务算法备案信息。

    《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照履行备案和变更、注销备案手续。请尚未履行备案手续的深度合成服务提供者和技术支持者尽快申请备案。

    AI工具集从《境内深度合成服务算法备案清单(2024 年 6 月)》文件获悉,本次共有 492 个算法通过备案,其中包括腾讯混元大模型多模态算法(应用产品为腾讯元宝)、零一万物大模型多模态生成算法、天翼数字生活智能应用算法、kreadoAI生成内容算法、PSAI内容深度合成类算法(虹软科技)、浪潮海岳大模型算法、科沃斯机器人大模型算法、喜马拉雅语音识别算法、腾讯音乐未伴虚拟人合成算法、理想汽车MindDiffusion图像生成算法、蝉镜数字人算法(应用产品为蝉镜)、天工图生文算法、影石Insta360-人工智能生成式算法、有道小P大模型算法、出门问问数字人合成算法、快手快意大模型生成合成算法、商汤V-ME视频合成算法、钉钉AI助理智能生成算法等、绘蛙电商模特试装图像合成算法。

    更多已备案的算法请查看AI工具集推出的:深度合成服务算法备案清单和在线查询

    (消息来源:中国网信网