Author: Chimy

  • Screenshot to Code – AI将截图转换为网页代码的开源项目

    Screenshot to Code是什么

    Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL-E 3)将用户的屏幕截图转换为前端网页代码,已在GitHub上斩获3.4万星标。项目的核心功能是自动化网页设计的编码过程,使得开发者能够通过提供网页的截图,快速生成相应的HTML、CSS和JavaScript代码,节省前端开发人员的时间和精力。

    Screenshot to Code

    官网入口:https://screenshottocode.com/

    GitHub代码库:https://github.com/abi/screenshot-to-code

    Screenshot to Code的主要功能

    • 智能代码生成:利用GPT-4 Vision模型,项目能够分析用户提供的屏幕截图,并自动生成相应的HTML、CSS 和 JavaScript 代码,可以快速将设计稿转换为可运行的网页代码。
    • 相似图像生成:项目还结合了DALL-E 3的图像生成能力,能够根据生成的HTML代码中的<img>标签,自动创建与原始截图相似的图像,并将这些图像嵌入到网页中,以保持页面的视觉一致性。
    • 实时代码更新:用户可以在应用程序中实时查看生成的代码,并且可以通过与AI的交互来调整样式或更新代码中缺失的部分,以满足特定的设计要求。
    • 灵活的配置选项:应用程序提供了配置选项,允许用户选择使用的前端技术(如HTML + Tailwind、React + Tailwind、Bootstrap、Vue + Tailwind)以及是否启用DALL-E图像生成和功能
    • URL网页克隆:除开手动上传截图外,允许用户输入 URL 自动截图以克隆在线网站。
    • 编辑生成的代码:Screenshot to Code 内置了代码编辑器允许开发者对生成的代码进行修改,可以微调输出、纠正任何异常或添加个人代码风格
    • 效果预览和代码导出:该工具提供实时预览功能,用户能够实时查看编辑和修改的效果,并支持下载或复制最终代码
    • 支持本地部署:用户可以选择将该项目在本地电脑上部署,以便在自己的计算机上运行,这为那些希望在本地环境中使用该工具的用户提供了便利。

    Screenshot to Code

    如何使用Screenshot to Code

    方法一:在线托管版运行Screenshot to Code

    1. 访问Screenshot to Code的官网(screenshottocode.com),然后注册/登录
    2. 点击左侧的设置图标,输入OpenAI API key
    3. 选择你要生成的代码所用的技术/框架,上传或粘贴你的截图
    4. 等待识别和生成代码,生成后的代码可以更新修改和下载

    方法二:本地部署运行Screenshot to Code

    1. 克隆GitHub项目库到本地电脑:git clone https://github.com/abi/screenshot-to-code.git
    2.  配置后端和API密钥:
      1. 安装Poetry包管理器:pip install poetry
      2. 定位到项目的后端目录:cd backend
      3. 设置OpenAI API密钥:echo "OPENAI_API_KEY=your-key" > .env
      4. 安装后端依赖项:运行poetry install命令安装所有Python依赖项
      5. 启动后端服务器:poetry run uvicorn main:app --reload --port 7001
    3. 安装前端依赖项:cd frontend切换到前端目录,然后使用yarn安装依赖项,并使用yarn dev命令运行
    4. 浏览器访问该应用:使用任何浏览器访问http://localhost:5173即可开始使用Screenshot to Code

    Screenshot to Code的产品价格

    • 免费版:Screenshot to Code提供免费开源的版本,用户可以自行在本地进行部署,也可以使用官方的在线托管版,输入自己的OpenAI API密钥使用
    • 付费版本:对于没有API密钥的用户,Screenshot to Code官网托管版也提供了付费订阅版,Hobby计划15美元每月(提供100积分/月)、Pro计划40美元每月(提供300积分每月),年付的话免费2个月。

    Screenshot to Code的价格

    常见问题

    Screenshot to Code是免费的吗?
    Screenshot to Code是免费开源的,可以输入自己的OpenAI API密钥免费使用。
    Screenshot to Code基于什么大模型?
    Screenshot to Code使用GPT-4 Vision生成代码,使用DALL-E 3生成相似图像。
    Screenshot to Code可以将截图转换成什么代码?
    Screenshot to Code可以将截图转换成HTML + Tailwind、React + Tailwind、Bootstrap、Vue + Tailwind、Ionic + Tailwind 代码以及 SVG 格式。
  • 讯飞星火 -科大讯飞推出的AI智能助手

    讯飞星火是科大讯飞推出的免费AI智能助手,集成了文本生成、语言理解、知识问答等多个功能。最新V4.0版本在多个国际测试中超越GPT-4 Turbo,排名第一。提供个性化服务,如智能批阅机减轻教师负担,晓医APP的个人数字健康空间提升健康管理。星火还突破语音技术,支持74个语种/方言免切换对话,优化强干扰下的语音识别。企业智能体平台助力企业AI场景应用,推动人机交互和行业智能化发展。

  • VideoCrafter2 – 腾讯推出的高质量视频生成模型

    VideoCrafter2 是什么?

    VideoCrafter2是一个由腾讯AI实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出能够生成高质量视频的模型。该模型的核心思想是将视频的生成过程分解为两个主要部分:运动(motion)和外观(appearance)。通过这种方法,VideoCrafter2 能够在没有高质量视频数据的情况下,利用低质量视频来保证运动的一致性,同时使用高质量的图像来确保生成视频的画面质量和概念组合能力。

    VideoCrafter2

    项目主页:https://ailab-cvc.github.io/videocrafter2/

    论文地址:https://arxiv.org/abs/2401.09047

    GitHub代码库:https://github.com/AILab-CVC/VideoCrafter

    Hugging Face Demo:https://huggingface.co/spaces/VideoCrafter/VideoCrafter2

    VideoCrafter2 的功能特色

    • 文本到视频的转换:用户可以提供一段描述性的文本,VideoCrafter2 即可根据这段文本生成相应的视频
    • 高质量视频生成:VideoCrafter2 能够生成具有高分辨率和良好视觉效果的视频,能够创造出具有丰富细节和自然运动的视频。
    • 美学效果:通过将运动和外观信息分开处理,VideoCrafter2 能够在保证视频运动连贯性的同时,提升视频的美学质量,例如清晰度、色彩饱和度和整体视觉效果。
    • 概念组合:VideoCrafter2 能够理解和组合复杂的概念,可以生成包含多个现实或虚拟的元素和场景的视频
    • 风格和艺术性:VideoCrafter2 可以模拟不同的艺术风格,如赛博朋克、新波普风格等,从而为视频创作提供更多的创意可能性。

    VideoCrafter2 Hugging Face

    VideoCrafter2 的工作原理

    VideoCrafter2 的工作原理基于深度学习和扩散模型(Diffusion Models)的原理,通过以下几个关键步骤来实现从文本到视频的生成:

    1. 数据解耦:VideoCrafter2 将视频内容的生成分解为两个主要部分:运动(motion)和外观(appearance)。运动部分负责视频中物体的移动和动画效果,而外观部分则关注图像的清晰度、颜色和细节。
    2. 运动学习:使用低质量的视频数据集(如 WebVid-10M)来训练模型的运动部分。这些视频虽然质量不高,但能够提供足够的运动信息,确保生成的视频在运动上是连贯的。
    3. 外观学习:使用高质量的图像数据集(如 JDB,即 Journey Database,由 Midjourney 生成的图像)来训练模型的外观部分。这些图像具有高分辨率和复杂的概念组合,有助于提升生成视频的视觉质量。
    4. 模型训练:首先,使用低质量视频和高分辨率图像联合训练一个基础的视频模型。这个模型包含了空间(外观)和时间(运动)两个模块。然后,通过微调空间模块,使用高质量的图像来进一步提升视频的视觉效果。
    5. 概念组合能力提升:为了增强模型在概念组合方面的能力,VideoCrafter2 使用合成的图像数据集,这些图像包含了复杂的概念组合,帮助模型学习如何将不同的元素和场景融合在一起。
    6. 生成过程:在训练完成后,VideoCrafter2 可以根据文本提示生成视频。它首先从文本中提取关键信息,然后结合运动和外观的知识,逐步生成每一帧图像,最终拼接成完整的视频序列。
    7. 评估和优化:通过定量和定性评估,如使用 EvalCrafter 基准测试,来评估生成视频的质量,并根据评估结果进行模型的进一步优化。

    如何使用 VideoCrafter2

    1. 访问VideoCrafter2的官方项目主页或VideoCrafter2的Hugging Face空间,然后在 User Input 处输入简短的文本
    2. 点击 Expand Prompt 按钮生成更加丰富的提示描述
    3. 然后点击Generate Videos,将分别根据原始用户输入和丰富后的提示生成两个视频
    4. 生成高清视频需要2-3分钟。
  • InstantID – 高保真的个性化图像合成框架

    InstantID是一种基于扩散模型的图像生成技术,专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。该技术允许用户仅使用一张面部图像,就能在多种风格中生成个性化的图像,同时确保高保真度,类似于PhotoMaker的生成效果。InstantID的设计旨在解决现有个性化图像合成方法在实际应用中的一些限制,例如高存储需求、漫长的微调过程以及需要多张参考图像。

    InstantID

    项目主页:https://instantid.github.io/

    论文地址:https://arxiv.org/abs/2401.07519

    GitHub代码库:https://github.com/InstantID/InstantID

    InstantID的功能特色

    • 个性化图像合成:用户可以基于一张面部图像生成具有不同姿势或风格的个性化图像,同时保持高保真度。
    • 身份特征保留:在生成新图像时,InstantID能够精确地保留原始图像中的人脸特征,如表情、年龄和身份等。
    • 风格迁移:InstantID可以将一个人的面部特征转移到不同的艺术风格或背景中,例如将现实风格的面部特征融入到动漫风格的图像中。
    • 新视角合成:通过InstantID,可以生成同一人物的新视角图像,即使原始图像中没有这些视角。
    • 身份插值:InstantID能够实现不同人物特征的平滑过渡,例如在两个不同人物之间进行面部特征的插值。
    • 多身份合成:在复杂的场景中,InstantID可以同时处理多个人物,生成包含多个角色的图像。
    • 兼容预训练模型:InstantID作为一个插件,可以无缝集成到流行的预训练文本到图像扩散模型中,如SD1.5和SDXL,而不需要额外的微调。

    InstantID的生成效果

    InstantID的工作原理

    InstantID包含了三个关键的组成部分,ID嵌入、图像适配器和IdentityNet。

    InstantID的工作原理

    1. ID嵌入:首先,InstantID使用一个预训练的面部模型来提取参考面部图像的身份嵌入,包含了丰富的语义信息,如身份、年龄和性别等,由此来保持生成图像中的人脸细节。
    2. 图像适配器:InstantID引入了一个轻量级的图像适配器,这个适配器使用解耦的交叉注意力机制来支持图像作为视觉提示。该适配器可以将参考图像作为条件输入,而不影响其他模型参数。
    3. IdentityNet:一个专门设计的网络,用于编码参考面部图像的详细特征,并结合额外的空间控制。IdentityNet通过将面部特征与文本提示结合起来,引导图像生成过程,确保在生成过程中保持面部身份的细节。
    4. 训练和推理策略:在训练过程中,InstantID只优化图像适配器和IdentityNet的参数,而保持预训练的扩散模型参数不变。这样,即使在没有额外微调的情况下,InstantID也能在推理时保持灵活性。
    5. 生成过程:在生成图像时,InstantID首先使用ID嵌入作为条件,然后通过图像适配器和IdentityNet的引导,将这些条件传递给扩散模型,扩散模型随后在这些条件下生成图像。
  • AnyText – 阿里开源的视觉图像文字生成和编辑模型

    AnyText是什么

    AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码,这些编码与来自分词器的图像标题嵌入结合,生成与背景无缝融合的文本。该技术解决了在生成图像中的文本区域时合成文本模糊、不可读或错误的挑战,提高了图像中文本书写的准确性。

    AnyText模型

    GitHub项目:https://github.com/tyxsspa/AnyText

    论文地址:https://arxiv.org/abs/2311.03054

    ModelScope:https://modelscope.cn/studios/damo/studio_anytext

    Hugging Face:https://huggingface.co/spaces/modelscope/AnyText

    AnyText的功能特色

    • 多语言支持AnyText能够生成多种语言的文本,包括中文、英文、日文、韩文等。
    • 多行文本生成用户可以指定在图像的多个位置生成文本。
    • 变形区域书写AnyText能够生成水平、垂直甚至曲线或不规则区域内的文本。
    • 文本编辑能力AnyText提供了修改图像中指定位置文本内容的功能,同时保持与周围文本风格的一致性。
    • 即插即用AnyText可以无缝集成到现有的扩散模型中,提供生成文本的能力。

    AnyText

    AnyText的工作原理

    AnyText的工作原理

    AnyText通过以下模块的协同工作,AnyText能够在图像中准确地生成和编辑多语言文本,同时保持与背景的无缝融合,具体如下:

    1. 文本控制扩散管道
      • AnyText使用变分自编码器(VAE)对输入图像进行编码,生成一个潜在表示。
      • 然后,通过扩散算法逐步向这个潜在表示中添加噪声,生成一系列时间步骤的噪声潜在图像。
      • 在每个时间步骤,AnyText应用一个网络(TextControlNet)来预测应该添加到噪声潜在图像上的噪声,以控制文本的生成。
    2. 辅助潜在模块
      • 该模块接收文本字形(glyph)、位置(position)和蒙版图像(masked image)作为输入,生成一个辅助潜在特征图。
      • 字形信息通过渲染文本到图像上生成,位置信息标记文本在图像中的位置,掩膜图像指示在扩散过程中应保留的图像区域。
    3. 文本嵌入模块
      • 该模块使用预训练的OCR模型(如PP-OCRv3)来提取文本的笔画信息,并将其编码为嵌入。
      • 这些嵌入与来自分词器的图像标题嵌入结合,生成一个融合的中间表示,然后通过交叉注意力机制映射到UNet的中间层。
    4. 文本感知损失
      • 在训练过程中,AnyText使用文本感知损失来进一步提高文本生成的准确性。
      • 这种损失通过比较生成图像和原始图像中的文本区域来实现,只关注文本本身的正确性,排除背景、字符位置偏差、颜色或字体样式等因素。
    5. 训练和优化
      • AnyText的训练目标是最小化文本控制扩散损失和文本感知损失的加权和。
      • 在训练过程中,模型通过调整权重比(λ)来平衡这两种损失。

    如何使用AnyText生成文字

    1. 访问AnyText的ModelScope空间Hugging Face demo
    2. 输入Prompt提示词,然后选择指定文字位置
    3. 最后点击Run运行,等待图片和文字生成即可
  • Motionshop – 阿里推出的AI角色动画项目,可替换视频人物为3D

    Motionshop是什么

    Motionshop是阿里巴巴智能计算研究院(XR实验室和TIDE三维渲染团队)推出的一个AI角色动画框架,可将视频中的人物角色替换为3D化身,同时不改变视频中的其他场景和人物。该框架利用视频处理、角色检测/分割/追踪、姿态分析、模型提取和动画渲染等多种技术,使得动态视频中的主角能够轻松跨越现实与虚拟的界限,一键变身为有趣的3D角色模型。

    Motionshop

    官方项目主页:https://aigc3d.github.io/motionshop/

    在线体验入口:https://www.modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

    Motionshop的功能特色

    • 视频人物替换为3D化身:用户只需上传视频,AI便能智能识别视频中的主要人物,并将其无缝转换为生动的3D角色模型。
    • 动作同步与真实感:Motionshop不仅替换人物,还能精确复刻原视频中人物的动作细节,确保3D角色的动作流畅自然,提供高度逼真的视觉效果。
    • 现实与虚拟的无缝融合:通过Motionshop,现实世界的人物与3D虚拟角色得以完美融合,创造出跨越现实与虚拟界限的全新体验,为视频内容增添无限可能。

    Motionshop Demo

    Motionshop的工作原理

    Motionshop框架由两部分构成,一个是用于提取修复背景视频序列的视频处理流程,另一个是用于生成3D虚拟角色视频序列的姿态估计和渲染流程。通过并行两条线并使用高性能光线追踪渲染器TIDE ,整个视频替换过程可以在几分钟内完成。

    Motionshop的技术架构

    具体的技术如下:

    1. 角色检测:首先,Motionshop利用先进的算法精确识别视频中的角色,确保后续处理的准确性。
    2. 视频对象分割和跟踪:在角色检测的基础上,系统进一步对视频对象进行像素级的分割和跟踪,为后续的修复和替换做好准备。
    3. 视频修复:采用先进的视频修复技术,将背景视频序列中的瑕疵和不完美之处进行修复
    4. 姿态估计:通过应用CVFFS等高精度姿态估计方法,系统能够稳定地捕捉角色的动作姿态,为动画重定向奠定基础
    5. 动画映射:在估计出角色的姿态后,Motionshop将这些姿态重新映射到选定的3D模型上,使新模型能够自然地模拟原始角色的动作
    6. 光影估计:为了确保新模型与原始视频的光影效果一致,系统会进行精细的光影估计,以实现无缝的视觉融合。
    7. 3D渲染:利用TIDE渲染引擎,Motionshop将3D模型渲染成逼真的图像序列,同时结合运动模糊、时间抗锯齿等算法,提升渲染质量
    8. 视频合成:最后,将新生成的3D渲染图像与修复后的视频背景进行合成,创造出与原始视频无缝对接的全新视频序列。

    如何使用Motionshop

    1. 访问Motionshop的ModelScope魔搭社区Demo体验地址:https://www.modelscope.cn/studios/Damo_XR_Lab/motionshop/summary
    2. 准备一段视频,确保视频中的人物主体完整,且视频时长不超过15秒。
    3. 上传视频后,系统将自动选择视频中的人物
    4. 选择你想要用于替换的虚拟角色模型
    5. 最后点击生成视频按钮,等待一会儿即可生成结果
  • MagicVideo-V2:字节跳动推出的AI视频生成模型

    MagicVideo-V2是什么

    MagicVideo-V2 是字节跳动公司团队开发的一款AI视频生成模型和框架,通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频生成流程中,可以生成高保真和美观的视频,并实现高分辨率视觉质量与流畅运动的一致性。

    MagicVideo-V2
    项目主页:https://magicvideov2.github.io/

    Arxiv论文:https://arxiv.org/abs/2401.04468

    MagicVideo-V2的功能特色

    • 文本到高保真视频生成:用户只需输入文本描述,MagicVideo-V2 就能根据这些描述生成高保真度的视频内容。
    • 生成的视频质量高:经过测试,MagicVideo-V2 在视频质量上表现出色,与市场上的其他AI视频生成工具和模型相比,如 MoonValley、Pika 1.0Morph、Runway Gen-2、SVD-XT 等,MagicVideo-V2 的效果更优。
    • 创新性地集成了多个模块:MagicVideo-V2 采用了多阶段的模块生成方法,这种集成方式提高了视频生成的效率和质量。
    • 视频画面流畅平滑:生成的视频具有连贯、流畅、平滑、逼真和高分辨率的特点,为用户提供了极佳的观看体验。

    MagicVideo-V2的工作原理

    MagicVideo-V2的工作原理

    MagicVideo-V2视频生成的原理在于将多个生成模块集成到一个流程中,以保证视频的高保真和时间连续,具体流程如下:

    1. 首先T2I(Text-to-Image)模块根据文字描述生成1024*1024的图像
    2. 然后I2V(Image-to-Video)模块对生成的静态图像进行动画处理,生成600*600*32的帧序列
    3. V2V(Video-to-Video)模块再对视频进行增强和内容完善,生成1048*1048*32的帧序列
    4. 最后再用VFI视频插值模块将视频序列扩展到94帧

    如何体验MagicVideo-V2

    目前MagicVideo-V2只上线了研究论文和项目主页介绍,是否开源暂未可知,未推出代码库和在线体验运行地址,后续上线后AI工具集会第一时间更新。

  • I2VGen-XL:阿里推出的图像到视频生成模型

    I2VGen-XL是什么

    I2VGen-XL 是阿里巴巴达摩院推出的一款开源的图像到视频的生成模型,通过创新的级联扩散方法,将文本视频数据与视频结构解耦,同时利用静态图像作为关键指导形式,确保了输入数据的对齐性,将静态图像合成为高质量的动态视频。这种方法有效解决了AI视频合成过程中的语义准确性、清晰度和时空连续性的挑战。

    I2VGen-XL

    I2VGen-XL的功能特色

    • 静态图像转视频:用户只需提供静态图像和相应的文本描述,模型就能生成与输入图像内容和语义高度一致的动态视频。
    • 生成宽屏高清视频:I2VGen-XL 能够生成分辨率为1280*720、16:9宽屏比例的高清视频,为用户提供了高质量的视觉体验。
    • 时序连贯:模型生成的视频在时间序列上连贯,保证了视频内容的流畅性和观看的舒适度。
    • 质感好、细节丰富:I2VGen-XL 在视频合成过程中注重细节的保留和质感的呈现,使得生成的视频具有较高的真实感和艺术性。

    I2VGen-XL Hugging Face Demo

    如何使用I2VGen-XL

    I2VGen-XL的项目主页为:https://i2vgen-xl.github.io/,GitHub代码库为:https://github.com/ali-vilab/i2vgen-xl,研究论文地址为:https://arxiv.org/abs/2311.04145,普通用户可以通过Hugging Face或ModelScope魔搭社区的Demo进行在线体验:

    1. 访问I2VGen-XL的Demo主页(Hugging Face版:https://huggingface.co/spaces/modelscope/I2VGen-XL;ModelScope版:https://www.modelscope.cn/studios/damo/I2VGen-XL-Demo/summary
    2. 选择合适的图片进行上传(建议图片比例为1:1),然后点击「生成视频」
    3. 待初步生成的视频完成后,进入下一步添加对视频内容的英文文本描述
    4. 点击「生成高分辨率视频」,等待2分钟左右,视频便能生成好了
  • FaceChain – 阿里推出的人物写真和个人形象生成框架

    FaceChain是阿里巴巴达摩院推出的一个开源的人物写真和个人数字形象的AI生成框架(类似于免费开源版的妙鸭相机),用户仅需要提供最少一张照片即可生成独属于自己的个人形象数字替身。该AI框架利用了Stable Diffusion模型的文生图功能并结合人像风格化LoRA模型训练及人脸相关感知理解模型,将输入的图片进行训练后推理输出生成为个人写真图像。

    FaceChain

    FaceChain的功能特色

    • 形象定制化训练:用户只需要提供至少一张个人头肩照,就可以用于LoRA风格化训练,生成具有个性化风格的数字形象。
    • 生成各种风格的个人写真:FaceChain 能够生成多种风格的个人写真,包括汉服风、工作照、芭比娃娃、校服风、圣诞风、绅士风、漫画风等,满足用户多样化的个性化需求。
    • 支持SD WebUI插件调用:FaceChain 支持通过SD WebUI插件进行调用,可以通过SD界面与AI模型进行交互,方便地生成和编辑个人形象。
    • 支持姿态控制:用户可以控制生成的数字形象的姿态,为创造动态或特定动作的个人形象提供了可能。
    • 自定义prompt提示词:用户可通过输入特定的提示词来改变数字形象的服装、配饰等,实现更加个性化的定制。

    FaceChain的官网入口

    FaceChain Agent

    如何使用FaceChain

    FaceChain支持在Gradio的界面中使用模型训练和推理能力、支持资深开发者使用Python脚本进行训练推理,也支持在SD WebUI中安装插件使用。本文以ModelScope魔搭社区在线运行Gradio版进行体验和使用FaceChain:

    1. 访问FaceChain的ModelScope demo 页面,在「人物形象训练」标签页下,选择1-10张个人的人脸/头像照片(避免图片中出现多人脸、脸部遮挡等情况)上传
    2. 上传后点击「开始训练」,启动形象定制化训练,每张图片约需要1分半
    3. 待训练完成后,切换至右侧的「形象写真」标签,调整和设置相关参数即可生成你的风格照片
    4. 此外,你也可以直接使用FaceChain Agent版本,无需复杂操作,只需通过对话即可得到各类写真照片,更推荐该方法
  • PhotoMaker – 腾讯等推出的AI人物生成和图片风格化工具

    PhotoMaker是由来自腾讯PCG部门的ARC实验室、南开大学和东京大学的研究人员最新推出的一款逼真的AI人物生成和照片风格化的开源模型和框架,可以帮助用户将上传的参考图片生成任何风格的照片/绘画/头像。该个性化的文本到图像生成方法将输入的 ID 图像编码成一个堆叠 ID 嵌入,以保留 ID 信息,然后在推理过程中合并/创建新的定制 ID,借此来生成各种风格的人物照片。

    PhotoMaker Hugging Face

    PhotoMaker生成的钢铁侠版牛顿

    PhotoMaker的功能特色

    • 快速定制:用户只需上传一张图片,输入描述性文本,即可迅速生成符合描述风格的个性化照片。
    • 生成逼真的人物:PhotoMaker 能够生成高度逼真的人物图像,无论是面部特征还是整体造型,都能达到令人信服的效果。
    • 多样的图片风格化:除了逼真的人物照片,PhotoMaker 还能将输入的图片转换为草图、漫画、动画等多种艺术风格。
    • 无需LoRA训练:与传统的AI模型不同,PhotoMaker 不需要进行LoRA训练,降低了使用门槛,使得更多用户能够轻松上手。
    • 混合不同人物特征:PhotoMaker 允许用户混合不同人物的特征,创造出全新的人物形象,为艺术创作和个性化表达提供了无限可能。
    • 改变人物的年龄和性别:用户可以调整照片中人物的年龄和性别,例如生成年轻版或女性版的有趣形象
    PhotoMaker生成的梵高

    PhotoMaker生成的梵高

    如何使用PhotoMaker

    PhotoMaker的项目主页为:https://photo-maker.github.io/,论文全文:https://huggingface.co/papers/2312.04461。用户可以通过Hugging Face的demo在线运行和体验:

    1. 访问PhotoMaker的Hugging Face项目地址https://huggingface.co/spaces/TencentARC/PhotoMaker(让照片风格化则访问PhotoMaker-Style https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
    2. 上传你要个性化的人物照片(或选择示例图片)
    3. 输入文本提示,确保在要自定义的类单词后面加上触发词:img,例如:man img或woman img或girl img
    4. 选择你喜欢的风格样式模板
    5. 最后点击“Submit”按钮提交等待图片生成即可