Author: Chimy

  • Veo – 谷歌推出的可生成1分钟1080P的视频模型

    Veo是什么

    Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解,能够准确捕捉和执行各种电影制作术语和效果,如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致,而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制作更加普及,无论是专业电影制作人、新兴创作者还是教育工作者,都能够利用这一工具来探索新的叙事和教学方式。

    Google Veo

    Veo的主要功能

    • 高分辨率视频输出:Veo 能够生成高质量的 1080p 分辨率视频,这些视频的时长可以超过一分钟,满足长视频内容的制作需求。
    • 深入的自然语言处理:Veo 对自然语言有深刻的理解,能够准确解析用户的文本提示,包括复杂的电影制作术语,如“延时摄影”、“航拍”、“特写镜头”等,从而生成与用户描述相符的视频内容。
    • 广泛的风格适应性:该模型支持多种视觉和电影风格,从现实主义到抽象风格,都能根据用户的提示进行创作。
    • 创意控制与定制:Veo 提供了前所未有的创意控制层级,用户可以通过具体的文本提示来精细调控视频的各个方面,包括场景、动作、色彩等。
    • 遮罩编辑功能:允许用户对视频的特定区域进行编辑,如添加或移除物体,实现更精准的视频内容修改。
    • 参考图像与风格应用:用户可以提供一张参考图像,Veo 会根据该图像的风格和用户的文本提示生成视频,确保生成的视频在视觉上与参考图像保持一致。
    • 视频片段的剪辑与扩展:Veo 能够接收一个或多个提示,将视频片段剪辑并流畅地扩展到更长的时长,甚至通过一系列提示讲述一个完整的故事。
    • 视频帧间的视觉连贯性:通过使用先进的潜在扩散变换器技术,Veo 能够减少视频帧之间的不一致性,确保视频中的人物、物体和场景在转换过程中保持连贯和稳定。

    Veo生成的视频

    Veo的技术原理

    Veo 的开发不是一蹴而就的,而是基于谷歌多年在视频生成领域的研究和实验,这包括了对多个先前模型和技术的深入分析和改进。

    Veo的技术

    • 先进的生成模型:Veo建立在一系列先进的生成模型之上,如 Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等。这些模型为 Veo 提供了生成高质量视频内容的技术基础。
    • Transformer架构:Veo采用了Transformer架构,这是一种在自然语言处理和其他序列任务中表现出色的模型架构。Transformer架构通过自注意力机制能够更好地捕捉文本提示中的细微差别。
    • Gemini模型:Veo还整合了Gemini模型的技术,该模型在理解视觉内容和生成视频方面具有先进的能力。
    • 高保真度视频表示:Veo使用高质量的压缩视频表示(latents),这种表示方式能够以较小的数据量捕捉视频的关键信息,从而提高视频生成的效率和质量。
    • 水印和内容识别:Veo生成的视频会使用 SynthID 这样的先进工具进行水印标记,以帮助识别 AI 生成的内容,并通过安全过滤器和记忆检查过程来减少隐私、版权和偏见风险。

    如何使用和体验Veo

    Veo技术仍处于实验阶段,目前仅对选定的创作者开放。普通用户若想要体验的话,需要在VideoFX的网站上注册并加入等待名单,以获得早期尝试 Veo 的机会。此外,Google 计划将 Veo 的一些功能集成到 YouTube Shorts 中,这意味着未来用户可以在制作短视频时使用 Veo 的高级视频生成技术。

    若想要了解更多关于Veo的信息请查看其官方网站介绍:https://deepmind.google/technologies/veo/

    Veo的应用场景

    • 电影制作:Veo 可以辅助电影制作人快速生成场景预览,帮助他们规划实际拍摄,或者在预算和资源有限的情况下模拟高成本的拍摄效果。
    • 广告创意:广告行业可以利用 Veo 生成吸引人的视频广告,快速迭代创意概念,以更低的成本和更高的效率测试不同的广告场景。
    • 社交媒体内容:内容创作者可以使用 Veo 生产用于社交媒体平台的引人入胜的视频内容,增加粉丝互动和提高观看率。
    • 教育和培训:在教育领域,Veo 可以用来创建教育视频,模拟复杂的概念或历史事件,使学习过程更加直观和有趣。
    • 新闻报道:新闻机构可以利用 Veo 快速生成新闻故事的视频摘要,提高报道的吸引力和观众的理解度。
    • 个性化视频:Veo 可以用于生成个性化的视频内容,如生日祝福、纪念视频等,为个人提供定制化的体验。
  • 混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT

    混元DiT是什么

    混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模型中的领先水平。

    混元DiT

    混元DiT的主要功能

    • 双语文本到图像生成:混元DiT能够根据中文或英文的文本提示生成图像,这使得它在跨语言的图像生成任务中具有广泛的应用潜力。
    • 细粒度中文元素理解:模型特别针对中文进行了优化,可以更好地理解和生成与中国传统文化相关的元素,如中国古诗、中国传统服饰、中国节日等。
    • 长文本处理能力:支持长达256个标记的文本输入,使得DiT能够理解和生成与复杂长文本描述相匹配的图像。
    • 多尺寸图像生成:Hunyuan-DiT能够在多种尺寸比例下生成高质量的图像,满足从社交媒体帖子到大尺寸打印等不同用途的需求。
    • 多轮对话和上下文理解:通过与用户进行多轮对话,混元DiT能够根据对话历史和上下文信息生成和迭代图像,这增强了交互性和创造性。
    • 图像与文本的高一致性:Hunyuan-DiT生成的图像在内容上与输入的文本提示高度一致,确保了图像能够准确反映文本的意图和细节。
    • 艺术性和创意性:混元DiT不仅能够生成常见的图像,还能够捕捉文本中的创意描述,生成具有艺术性和创意性的图像作品。

    混元DiT生成的图片

    混元DiT的官网入口

    混元DiT的技术架构

    混元DiT的架构

    • 双文本编码器:混元DiT结合了双语CLIP和多语言T5编码器,以增强对输入文本的理解和编码能力。CLIP模型因其强大的图像和文本之间的关联能力而被选用,而T5模型则因其在多语言和文本理解方面的能力。
    • 变分自编码器(VAE):使用预训练的VAE将图像压缩到低维潜在空间,这有助于扩散模型学习数据分布。VAE的潜在空间对生成质量有重要影响。
    • 扩散模型:基于扩散Transformer,混元DiT使用扩散模型来学习数据分布。该模型通过交叉注意力机制将文本条件与扩散模型结合。
    • 改进的生成器:扩散Transformer相比于基线DiT有若干改进,例如使用自适应层归一化(AdaNorm)来加强细粒度文本条件的执行。
    • 位置编码:混元DiT采用旋转位置嵌入(RoPE)来同时编码绝对位置和相对位置依赖性,支持多分辨率训练和推理。
    • 多模态大型语言模型(MLLM):用于图像-文本对的原始标题的重构,以提高数据质量。MLLM经过微调,能够生成包含世界知识的结构化标题。
    • 数据管道:包括数据获取、解释、分层和应用。通过一个称为“数据车队”的迭代过程来检查新数据的有效性。
    • 后训练优化:在推理阶段进行优化,以降低部署成本,包括ONNX图优化、内核优化、操作融合等。

    混元DiT与其他文生图模型的比较

    为了全面比较HunyuanDiT与其他模型的生成能力,混元团队构建了4个维度的测试集,超过50名专业评估人员进行评估,包括文本图像一致性、排除AI伪影、主题清晰度、审美。

    模型 开源 文图一致性(%) 排除 AI 伪影(%) 主题清晰度(%) 审美(%) 综合得分(%)
    SDXL 64.3 60.6 91.1 76.3 42.7
    PixArt-α 68.3 60.9 93.2 77.5 45.5
    Playground 2.5 71.9 70.8 94.9 83.3 54.3
    SD 3 77.1 69.3 94.6 82.5 56.7
    Midjourney v6 73.5 80.2 93.5 87.2 63.3
    DALL-E 3 83.9 80.3 96.5 89.4 71.0
    Hunyuan-DiT 74.2 74.3 95.4 86.6 59.0
  • GPT-4o – OpenAI最新发布的多模态AI大模型

    GPT-4o是什么

    GPT-4o是OpenAI最新推出的一款先进的人工智能模型,具备强大的多模态推理能力,能够处理语音、文本和视觉信息。模型能实时响应用户输入,在音频交互中检测和表达情感,提供了更加自然和富有表现力的交流体验。GPT-4o的设计注重提高运算速度和降低成本,速度是之前模型的两倍,成本仅为一半。GPT-4o在多语言处理、音频和视觉理解上表现突出,同时在安全性设计上进行了强化,确保交互的安全性。支持在ChatGPT和Sora中生成和编辑图像,可以通过文本指令生成高质量、逼真的图像,进行多轮对话修改,逐步优化图像。能处理包含多达10至20个不同物体的复杂指令。模型会结合聊天上下文和知识库生成图像,确保在多轮生成中角色和元素的一致性。已向ChatGPT的Plus、Pro、Team和免费用户开放。

    GPT-4o

    GPT-4o的主要功能

    • 原生图像生成功能:GPT-4o现可直接在ChatGPT和Sora中生成和编辑图像,取代了之前的DALL-E 3模型。用户可以通过文本指令生成高质量、逼真的图像,进行多轮对话修改,逐步优化图像。
    • 精准呈现文本内容:能精确渲染图像中的文字,生成如菜单、邀请函等包含文本的图像,解决了以往AI图像生成中文字处理的难题。
    • 复杂指令理解与执行:GPT-4o能处理包含多达10至20个不同物体的复杂指令,远超其他模型的5至8个物体限制。
    • 上下文关联与一致性保持:模型会结合聊天上下文和知识库生成图像,确保在多轮生成中角色和元素的一致性。
    • 内容安全:所有生成图像都带有C2PA元数据标识,OpenAI构建了内部搜索工具,验证内容来源,阻止违反内容政策的图像请求。
    • 真人图像限制:对生成真人图像有更严格的限制,防止冒犯性内容。
    • 多模态交互:GPT-4o能处理文本,语音和视觉信息,能理解和回应更广泛的用户输入,包括实时视频分析。
    • 实时对话反馈:模型能提供即时的响应,在文本对话、语音交互或视频内容分析中,能快速给出反馈。对音频输入的响应时间极短,平均为320毫秒,与人类对话反应时间相近。
    • 情感识别与模拟:GPT-4o能识别用户的情感状态,在语音输出中模拟相应的情感,对话更加贴近人与人之间的自然交流。
    • 编程代码辅助:GPT-4o能分析和理解编程语言中的代码片段,帮助用户理解代码的功能和逻辑。用户可以通过语音向GPT-4o提出关于代码的问题,模型会以语音形式回应,解释代码的工作原理或指出潜在的问题。
    • 多语言支持:GPT-4o支持超过50种语言,满足不同语言环境的需求。支持多种语言的实时同声传译,如英语口译为意大利语。

    GPT-4o的技术原理

    • 自回归模型:与DALL-E的扩散模型不同,GPT-4o采用自回归模型,能更好地理解和生成图像。
    • 训练数据:为支持新的图像功能,OpenAI使用了公开数据以及与Shutterstock等公司合作获得的专有数据来训练GPT-4o。

    GPT-4o的性能表现

    • 文本性能评估:GPT-4o在多语言理解均值(MMLU)基准测试中创下了87.2%的最高得分,GPQA得分为53.6%排名第一、MATH得分76.6%排名第一、HumanEval得分90.2%排名第一、MGSM得分90.5%排名第二(略低于Claude 3 Opus)。这显示了其在常识问题上的强大推理能力和文本处理能力。
      GPT-4o的性能
    • 音频 ASR 性能:GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
      GPT-4o ASR性能
    • 音频翻译性能:GPT-4o 在语音翻译方面达到了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3,超越Meta的SeamlessM4T-v2和谷歌的Gemini。
      GPT-4o音频翻译
    • 视觉理解评估:GPT-4o 在视觉感知基准上实现了SOTA最先进的性能,超过Gemini 1.0 Ultra、Gemini 1.5 Pro和Claude 3 Opus。
      GPT-4o视觉理解

    GPT-4o与GPT-4 Turbo的对比

    • 价格:GPT-4o的价格比GPT-4 Turbo便宜50%,具体来说,输入和输出的标记(tokens)价格分别为每百万(M)输入5美元和每百万输出15美元。
    • 速率限制:GPT-4o的速率限制是GPT-4 Turbo的5倍,每分钟可以处理高达1000万个token。
    • 视觉能力:在与视觉能力相关的评估和测试中,GPT-4o的表现优于GPT-4 Turbo。
    • 多语言支持:GPT-4o在非英语语言的支持上有所改进,比GPT-4 Turbo提供更好的性能。

    目前,GPT-4o的上下文窗口为128k,知识截止日期是2023年10月。

    如何使用GPT-4o

    GPT-4o的文本和图像功能已经开始在ChatGPT中逐步推出,用户可以在ChatGPT平台上免费体验到GPT-4o的相关功能,但免费版有使用次数限制。 Plus用户的消息限制将比免费用户高出5倍。

    同时,OpenAI还计划在未来几周内推出基于GPT-4o的Voice Mode的新版本,这将作为ChatGPT Plus的一个alpha版本提供给Plus用户。 此外,GPT-4o也将通过API提供给开发者,作为文本和视觉模型。开发者可以利用API来集成GPT-4o到他们自己的应用程序中,而且GPT-4o在API中相比GPT-4 Turbo更快、更便宜,并且有更高的速率限制。

    至于GPT-4o的音频和视频功能,OpenAI将在未来的几周和几个月内继续开发技术基础设施、通过训练后提高可用性以及确保安全性,之后才会发布这些功能,并逐步向公众提供。

    官方博客介绍:Hello GPT-4o

    GPT-4o的应用场景

    • 创意设计:设计师和艺术家可以快速生成创意图像,提高创作效率。
    • 教育和演示:教育工作者可以生成教学材料,如科学图表和历史场景重现。
    • 游戏开发:游戏开发者可以生成游戏资产,如角色设计和环境背景。
  • AI模型治理平台Monitaur获600万美元A轮融资

    Monitaur2024年5月13日,总部位于美国波士顿的AI模型治理和合规的初创公司Monitaur宣布筹集了600万美元的A轮融资。本轮融资由Cultivation Capital领投,Rockmont Partners和其他投资者如Defy VC、Techstars和Studio VC参与。

    该公司计划将筹集的资金用于加速公司增长,招募各职能领域的人才。

    Monitaur成立于2019年,由Anthony Habayeb担任首席执行官和联合创始人。公司的主营业务是为高度受监管的企业提供模型治理软件,帮助这些企业及其合作伙伴构建更好的人工智能和模型,以赢得商业、监管和消费者的信任。Monitaur提供的解决方案帮助企业和合作伙伴在整个建模项目生命周期中定义、管理和自动化基本的最佳实践,以确保模型系统的透明度、性能、公平性、安全性和合规性。

    (消息来源:BusinessWire

  • AniTalker – 上海交大开源的对口型说话视频生成框架

    AniTalker是什么

    AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。该框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控制的面部动画,可实现类似阿里EMO和腾讯AniPortrait的效果。

    AniTalker

    AniTalker的主要功能

    • 静态肖像动画化:AniTalker能够将任何单张人脸肖像转换成动态视频,其中人物能够进行说话和表情变化。
    • 音频同步:该框架能够将输入的音频与人物的唇动和语音节奏同步,实现自然的对话效果。
    • 面部动态捕捉:不仅仅是唇动同步,AniTalker还能模拟一系列复杂的面部表情和微妙的肌肉运动。
    • 多样化动画生成:利用扩散模型,AniTalker能够生成具有随机变化的多样化面部动画,增加了生成内容的自然性和不可预测性。
    • 实时面部动画控制:用户可以通过控制信号实时指导动画的生成,包括但不限于头部姿势、面部表情和眼睛运动。
    • 语音驱动的动画生成:框架支持直接使用语音信号来生成动画,无需额外的视频输入。
    • 长视频连续生成:AniTalker能够连续生成长时间的动画视频,适用于长时间的对话或演讲场景。

    AniTalker说话视频生成

    AniTalker的官网入口

    AniTalker的工作原理

    AniTalker的工作原理

    • 运动表示学习:AniTalker使用自监督学习方法来训练一个能够捕捉面部动态的通用运动编码器。这个过程涉及到从视频中选取源图像和目标图像,并通过重建目标图像来学习运动信息。
    • 身份与运动解耦:为了确保运动表示不包含身份特定的信息,AniTalker采用了度量学习和互信息最小化技术。度量学习帮助模型区分不同个体的身份信息,而互信息最小化确保运动编码器专注于捕捉运动而非身份特征。
    • 分层聚合层(HAL):引入HAL( Hierarchical Aggregation Layer)来增强运动编码器对不同尺度运动变化的理解能力。HAL通过平均池化层和加权和层整合来自图像编码器不同阶段的信息。
    • 运动生成:在训练好运动编码器之后,AniTalker可以基于用户控制的驱动信号生成运动表示。这包括视频驱动和语音驱动的管道。
      • 视频驱动管道:使用驱动演讲者的视频序列来为源图像生成动画,从而准确复制驱动姿势和面部表情。
      • 语音驱动管道:与视频驱动不同,语音驱动方法根据语音信号或其他控制信号来生成视频,与输入的音频同步。
    • 扩散模型和方差适配器:在语音驱动方法中,AniTalker使用扩散模型来生成运动潜在序列,并使用方差适配器引入属性操作,从而产生多样化和可控的面部动画。
    • 渲染模块:最后,使用图像渲染器根据生成的运动潜在序列逐帧渲染最终的动画视频。
    • 训练和优化:AniTalker的训练过程包括多个损失函数,如重建损失、感知损失、对抗损失、互信息损失和身份度量学习损失,以优化模型性能。
    • 控制属性特征:AniTalker允许用户控制头部姿态和相机参数,如头部位置和面部大小,以生成具有特定属性的动画。

    AniTalker的应用场景

    • 虚拟助手和客服:AniTalker可以生成逼真的虚拟面孔,用于虚拟助手或在线客服,提供更加自然和亲切的交互体验。
    • 电影和视频制作:在电影后期制作中,AniTalker可以用来生成或编辑演员的面部表情和动作,尤其是在捕捉原始表演时无法实现的场景。
    • 游戏开发:游戏开发者可以利用AniTalker为游戏角色创建逼真的面部动画,增强游戏的沉浸感和角色的表现力。
    • 视频会议:在视频会议中,AniTalker可以为参与者生成虚拟面孔,尤其是在需要保护隐私或增加趣味性的场合。
    • 社交媒体:用户可以利用AniTalker创建个性化的虚拟形象,在社交媒体上进行交流和分享。
    • 新闻播报:AniTalker可以生成虚拟新闻主播,用于自动化新闻播报,尤其是在需要多语言播报时。
    • 广告和营销:企业可以利用AniTalker生成吸引人的虚拟角色,用于广告宣传或品牌代言。
  • IC-Light – ControlNet作者开源的AI图片打光工具

    IC-Light是什么

    IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具,可以对图片进行光源操纵和光影重构,实现与不同背景的完美融合。用户只需上传图片,选择光源方向并输入提示词,IC-Light便能自动抠图并生成融合了新光源和背景的新图片。该工具支持文本条件和背景条件下的图像重照明,适用于多种场景,包括日常照片编辑、电商商品海报制作等,目前已开源,可通过GitHub获取相关模型和代码。

    IC-Light

    IC-Light的主要功能

    • 图像重打光:IC-Light能够改变图片的光源效果,使得图片在视觉上与新的背景或环境融合得更加自然。
    • 文本条件重照明:用户可以通过输入描述性的文字提示,如“左侧光线”、“月光”等,来指导IC-Light生成具有特定光照效果的图像。
    • 背景条件模型:IC-Light还可以根据背景图片的提示信息,对前景物体进行不同风格的光照变化,而无需复杂的文字描述。
    • 光源方向选择:用户可以指定光源的方向,比如从左侧、右侧或上方照射,以创造出更加逼真的光照效果。
    • 自动抠图:IC-Light具备自动抠图功能,能够将上传的图片中的主体与背景分离,进而进行光照效果的调整。
    • 风格化融合:IC-Light支持将图片与不同风格的背景进行融合,如赛博朋克风格、科幻风格等,增加了图片编辑的创意空间。
    • 一致性保证:通过潜在空间的一致性,IC-Light确保在不同光源组合下,模型输出的光照效果具有高度的一致性。

    IC-Light Demo

    IC-Light的项目入口

    如何使用IC-Light

    1. 运行Gradio:下载GitHub源码本地运行或者访问Hugging Face的在线版Gradio Demo
    2. 上传图片:上传一张你想要编辑的图片。这张图片将作为前景主体,IC-Light会在此基础上进行光照效果的调整。
    3. 选择光源位置:根据你想要实现的光照效果,选择光源的方向。IC-Light允许用户指定光源是从左侧、右侧、顶部或任何其他方向照射。
    4. 输入提示词:对于文本条件重照明模型,你需要输入描述性的提示词,比如“温暖的阳光”、“昏暗的灯光”等,这些提示词将指导IC-Light生成相应的光照效果。
    5. 选择背景(可选):如果需要,你可以选择一张背景图片,IC-Light会将前景图片与所选背景进行融合,创造出新的光照和背景效果。
    6. 调整参数:根据需要,你可能需要调整一些额外的参数,如光源的大小、模糊度或颜色等,以获得最佳的视觉效果。
    7. 生成新图片:完成上述步骤后,IC-Light将自动处理图片,并生成一张新的图片,其中包含了你所指定的光照效果。

    IC-Light的应用场景

    • 个人照片编辑:用户可以上传个人照片,通过IC-Light改变光照效果,使得照片看起来更具艺术感或适应不同的背景环境。
    • 专业摄影后期:摄影师可以使用IC-Light对拍摄的照片进行光照调整,以获得更加理想的光照效果,提升作品的专业品质。
    • 电商产品展示:电商平台可以利用IC-Light将产品图片与各种背景融合,创造出更具吸引力的商品展示效果。
    • 广告和海报设计:设计师可以借助IC-Light快速实现广告或海报中的光影效果,提高设计效率和创意表现。
    • 模拟真实环境光照:在3D建模和渲染领域,IC-Light可以用来模拟真实世界的光照条件,提升模型的真实感。
  • PuLID – 字节跳动开源的个性化文本到图像生成框架

    PuLID是什么

    PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。PuLID支持个性化编辑,允许用户通过简单提示调整人物属性,且易于大规模应用,适用于艺术创作、虚拟形象定制和影视制作等多个领域。

    PuLID

    PuLID的功能特色

    • 高度逼真的面部定制:用户只需提供目标人物的面部图像,PuLID便能精准地将该面部特征应用到各种风格的图像中,生成极具真实感的定制化肖像。
    • 原始风格保留:在进行面部替换的过程中,PuLID精心设计算法以最大程度地保留原始图像的风格元素,如背景、光照和整体艺术风格,确保生成的图像与原图风格一致。
    • 灵活的个性化编辑:PuLID支持通过简单的文本提示对生成的图像进行细致的编辑,包括但不限于人物的表情、发型、配饰等,赋予用户更大的创作自由度。
    • 快速出图能力:利用先进的快速采样技术,PuLID能够在极短的时间内生成高质量的图像,大幅提升了图像生成的效率。
    • 无需精细调整:用户在使用PuLID时,无需进行繁琐的模型调整或参数优化,即可快速获得理想的图像结果,极大降低了技术门槛。
    • 兼容性与灵活性:PuLID与多种现有的基础模型和身份编码器具有良好的兼容性,使其能够轻松集成到不同的应用平台中。

    PuLID

    PuLID的官网入口

    PuLID的工作原理

    PuLID的工作原理

    • 双分支训练框架:PuLID采用一个结合了标准扩散模型和快速Lightning T2I分支的双分支训练框架。这种设计允许模型在生成图像时同时优化身份定制和原始图像风格的保持。
    • 对比对齐:通过构建具有相同文本提示和初始潜在条件的两条生成路径(一条包含ID插入,另一条不包含),PuLID使用对比对齐损失来语义上对齐这两条路径的UNet特征,指导模型如何在不干扰原始模型行为的情况下嵌入ID信息。
    • 快速采样:PuLID利用快速采样技术,从纯噪声状态快速生成高质量的图像,这为精确计算ID损失提供了条件,因为生成的图像更接近真实世界数据的分布。
    • 精确ID损失:在ID插入后,PuLID使用生成的高质量初始图像(x0)来提取面部嵌入,并与真实面部嵌入计算准确的ID损失,确保生成的图像在身份特征上的高保真度。
    • 校准损失:包括语义校准损失和布局校准损失,确保模型对文本提示的响应在两条路径中保持一致,从而保持风格、布局的一致性,并允许个性化编辑。
    • 端到端优化:PuLID的训练目标是联合优化扩散损失、对齐损失和ID损失,以训练出一个既能够生成高质量图像,又能保持高ID保真度的模型。

    PuLID的应用场景

    • 艺术创作:艺术家和设计师可以利用PuLID快速生成具有特定身份特征的人物肖像,用于绘画、插图和数字艺术作品。
    • 虚拟形象定制:在游戏和虚拟现实应用中,用户可以通过PuLID创建或修改虚拟角色的面部特征,打造个性化的虚拟形象。
    • 影视制作:电影和电视剧的后期制作可以采用PuLID技术进行角色面部替换或特效制作,提高制作效率并降低成本。
    • 广告和营销:企业可以在广告中使用PuLID技术,将模特或名人的面部特征融入不同的场景和风格中,以吸引目标客户群。
    • 社交媒体:社交媒体用户可以利用PuLID生成具有个性化特征的图像,用于个人头像或内容创作。
  • AI聊天助手初创公司Luzia获1900万美元新一轮融资

    Luzia

    2024年5月8日,总部位于西班牙马德里的AI聊天助手初创公司Luzia宣布筹集了大约1900万美元的新一轮融资。本轮融资的投资方包括Monashees、Khosla Ventures、Endeavor Catalyst、前NBA篮球运动员保罗·加索尔(Pau Gasol)以及A*等投资者和合作伙伴。

    该公司计划将筹集的资金用于改进其AI产品并扩大团队规模。

    Luzia公司成立于2023年,由Álvaro Martínez Higes、Javier Andrés和Carlos Pérez领导。Luzia是一个AI聊天机器人,能够理解和响应简单的语音或文本命令,帮助用户处理日常任务、工作、学习甚至聊天。该平台通过WhatsApp和Telegram免费提供服务,利用人工智能技术,Luzia作为一个多功能助手,可以满足从回答问题到管理日常任务以及激发创造力的各种需求。

    (消息来源:Silicon Canals

  • AI教程与玩法

    AI工具集提供各种AI工具的详细使用教程,帮你安装、运行、测试和使用各大热门AI工具。

  • Sift Healthcare获2000万美元B轮融资,提供AI驱动的医疗支付解决方案

    Sift Healthcare

    2024年5月9日,总部位于美国密尔沃基的AI驱动的医疗支付解决方案初创公司Sift Healthcare宣布筹集了2000万美元的B轮融资。本轮融资由B Capital领投,并得到了包括Allos Ventures、First Trust Capital Partners和Rock River Capital在内的现有投资者的持续支持。

    该公司计划将筹集的资金用于团队扩张和技术投资,特别是在人工智能领域,以支持公司增长其行业首创的医疗支付智能平台。

    Sift Healthcare成立于2017年,是一家医疗支付分析和数据科学公司,由创始人和首席执行官Justin Nicols领导。Sift Healthcare的主营业务是提供医疗保健支付智能平台和AI解决方案,以及先进的数据分析服务。其支付智能平台、AI解决方案和先进的分析使医疗保健提供者能够充分利用其支付数据,减少注销,加快保险报销,改善患者支付策略,并优化收入周期效率。

    (消息来源:PR Newswire