Category: AI项目和框架

  • SynthLight – 耶鲁大学联合 Adobe 推出的人像重照明技术

    SynthLight是什么

    SynthLight 是耶鲁大学和 Adobe Research 联合推出的基于扩散模型的人像重照明技术,通过模拟不同光照条件下的合成数据进行训练,能将人像照片重新渲染为具有全新光照效果的图像,比如添加高光、阴影或调整整体光照氛围。核心在于基于物理基础的渲染引擎生成合成数据集,通过多任务训练和分类器引导的扩散采样策略,弥合合成数据与真实图像之间的差异,实现对真实人像的高质量重照明。

    SynthLight

    SynthLight的主要功能

    • 肖像重光照:通过环境光照图对肖像进行重光照处理,生成逼真的光照效果,如自然的高光、投影和漫反射。
    • 多任务训练:基于无光照标签的真实人像进行多任务训练,提升模型的泛化能力,能处理各种真实场景。
    • 推理时间采样:采用基于无分类器指导的扩散采样程序,在推理阶段保留输入肖像的细节,确保生成的光照效果自然且细腻。
    • 物理渲染引擎:使用物理渲染引擎生成合成数据集,模拟不同光照条件下的光照转换,提供高质量的光照效果。
    • 通用性:尽管仅使用合成数据进行训练,SynthLight 能很好地泛化到真实场景,包括半身像和全身像。

    SynthLight的技术原理

    • 将重光照视为重新渲染问题:SynthLight 将图像重光照定义为一个重新渲染的过程,通过改变环境光照条件来调整像素的渲染效果。
    • 基于物理的渲染引擎与合成数据集:技术基于物理的渲染引擎(Physically-Based Rendering Engine)生成合成数据集。通过在不同光照条件下对3D头部模型进行渲染,模拟真实光照条件下的像素变化。
    • 多任务训练策略:SynthLight 采用了多任务训练方法,利用没有光照标签的真实人像进行训练。通过结合真实图像和合成图像的训练,帮助模型更好地适应真实场景,减少合成数据与真实图像之间的域差距。
    • 基于无分类器指导的扩散采样:在推理阶段,SynthLight 使用基于无分类器指导的扩散采样程序(Classifier-Free Guidance)。利用输入的人像细节来更好地保留图像的纹理和特征,同时生成逼真的光照效果。
    • 扩散模型的优势:扩散模型通过逐步添加噪声并学习去噪过程来生成图像。SynthLight 基于这一特性,生成高质量的光照效果,包括镜面高光、阴影和次表面散射等。

    SynthLight的项目地址

    SynthLight的应用场景

    • 人像摄影后期处理:SynthLight 可以对真实人像照片进行重光照处理,生成逼真的光照效果,如自然的高光、阴影和漫反射。
    • 虚拟场景渲染与合成:通过模拟不同的光照条件,SynthLight 可以将真实人像与虚拟场景无缝融合,生成高质量的合成图像。
    • 游戏开发与角色设计:在游戏开发中,SynthLight 可以用于快速调整角色的光照效果,适应不同的场景和环境,节省时间和成本。
    • 广告与商业图像制作:在广告和商业图像制作中,SynthLight 能快速生成多种光照条件下的图像,帮助设计师快速探索不同的视觉效果,提升工作效率。
  • LineArt – 吉林大学等机构推出的设计绘图外观迁移框架

    LineArt是什么

    LineArt是吉林大学、瑞典皇家理工学院、东京工业大学等机构推出的,无需训练的高质量设计绘图外观迁移框架,能将复杂外观特征转移到详细的设计图纸上,辅助设计和艺术创作。LineArt基于模拟人类层次化的视觉认知过程,整合艺术经验指导扩散模型,生成高保真度的图像,同时精准保留设计图纸的结构细节。LineArt包含两个核心阶段:首先是多频线融合模块,补充输入设计图纸的详细结构信息;其次是分为基础层塑造和表层着色的两部分绘画过程,分别处理光照和纹理特征。LineArt框架无需精确的3D建模或网络训练,便于设计任务的执行,在实验中展现出优于现有最先进方法的性能。

    LineArt

    LineArt的主要功能

    • 高保真度外观转移:将参考照片中的复杂外观特征(如材质、纹理、光照等)准确地转移到设计图纸上,让生成的图像在视觉上与参考照片高度一致。
    • 保持结构细节:在转移外观特征的过程中,精准保留设计图纸的细部结构,避免细节丢失或变形,确保设计图纸的原有意图得到充分体现。
    • 无需精确3D建模和网络训练:省去传统方法中所需的精确3D建模、物理属性规范或大规模网络训练过程,降低设计任务的复杂性和成本,提高设计效率。
    • 支持设计和艺术创作:为设计师和艺术家提供强大的工具,快速生成具有特定外观效果的设计图纸预览,帮助他们直观地评估设计效果,选择最合适的材料组合,加速设计迭代过程。

    LineArt的技术原理

    • 多频线融合模块:受视觉表示理论的启发,将输入的设计图纸补充为包含三个层次信息的理想草图。三个层次分别是:连续的单线用于区域划分,双线强调局部细节,及离散的软边缘点集表示隐含的空间梯度和纹理信息。多层次的视觉信息补充,为后续的扩散模型提供了丰富的结构细节,有助于生成更准确、真实的图像。
    • 基础层塑造和表层着色的两部分绘画过程
      • 基础层塑造:从参考图像中分解出亮度控制因子,模拟油画中的底涂过程。基于亮度控制因子提供初始的明暗对比和结构形状,为后续的光照效果和纹理生成奠定基础。基于影响初始噪声分布的均值和方差,控制生成结果的整体亮度,建立生成图像与参考图像之间的软链接,让生成图像的光照属性与参考图像相匹配。
      • 表层着色:将参考图像分解得到的纹理图进行全局编码,然后选择性地注入到U – net架构的特定注意力层中,模拟油画中的透明层着色过程。这一过程基于解耦的交叉注意力机制整合文本特征、内容特征和外观特征,让合成的纹理图像引导外观生成,用软边缘作为高频引导,确保生成结果与纹理模式对齐,促进自然的布局变化,实现精确的材质嵌入和外观特征转移。
    • 知识引导的结构保持和外观转移:LineArt将人类绘画知识和视觉认知过程融入到图像生成中。分析输入草图的三个层次,将突出特征处理为双线,物体块的划分和几何边缘作为单线视觉表示,离散的低级视觉特征(软边缘)用在引导空间梯度表示和后续纹理生成,准确再现空间关系并适配物体的高频纹理。在外观转移方面,借鉴古典油画的“Imprimatura”技法,将绘画过程分为底涂和罩染两个阶段,分别处理隐含的图像信息(如光照、照明和阴影反射)及与纹理和颜色相关的特征,实现高保真度的外观转移效果。

    LineArt的项目地址

    LineArt的应用场景

    • 工业设计:用在产品外观设计预览和设计迭代加速,与不同材质纹理结合,快速生成逼真效果,优化产品设计。
    • 室内设计:实现家具材质搭配和空间效果模拟,帮助设计师选择合适材质,提升室内设计整体风格和质感。
    • 服装设计:展示服装面料效果和款式与材质搭配,为面料选择和图案设计提供参考,增强服装设计创新性和竞争力。
    • 建筑设计:模拟建筑外观材质和细节设计,评估建筑与环境协调性,优化建筑设计方案,提升建筑品质。
    • 动画与游戏设计:应用于角色设计和场景设计,生成逼真角色形象和场景效果预览,提升视觉体验和沉浸感。
  • 百聆 – AI语音对话助手,端到端时延低至800ms

    百聆是什么

    百聆(Bailing)是开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术实现与用户的自然语音对话,实现类GPT-4o的对话效果。百聆无需GPU即可运行,端到端时延低至800ms,适用于各种边缘设备和低资源环境。百聆具备高效开源模型、无需GPU、模块化设计、支持记忆功能、支持工具调用、支持任务管理等项目特点,提供高质量的语音对话体验。

    Bailing

    百聆的主要功能

    • 语音输入与识别:准确地将用户的语音输入转换为文本,为后续的对话处理提供基础。
    • 语音活动检测:过滤掉无效的音频片段,对有效的语音部分进行处理,提高语音识别的效率和准确性,避免对背景噪音等非目标语音的误识别。
    • 智能对话生成:对用户输入的文本进行深度理解和处理,生成自然、流畅且富有逻辑的文本回复,为用户提供智能、贴心的对话体验。
    • 语音输出与合成:将生成的文本回复转换为自然、逼真的语音,播放给用户,让用户基于听觉获取信息,实现完整的语音交互闭环。
    • 支持打断:具备灵活的打断策略,识别用户的关键字和语音打断行为,及时响应用户的即时反馈和控制指令。
    • 记忆功能:拥有持续学习的能力,能记忆用户的偏好、历史对话等信息,为用户提供个性化的互动体验。
    • 工具调用:支持灵活集成外部工具,用户用语音指令直接请求信息或执行操作,如查询天气、搜索新闻、设置提醒等。
    • 任务管理:高效地管理用户的任务,包括跟踪任务进度、设置提醒及提供动态更新等。

    百聆的技术原理

    • 语音识别(ASR):基于FunASR技术,将用户的语音信号转换为文本数据。涉及到对语音信号的采集、预处理、特征提取及模式匹配等步骤,用深度学习算法等技术手段,识别出语音中的词汇和语义信息,为后续的对话处理提供文本输入。
    • 语音活动检测(VAD):基于silero-vad技术,对语音信号进行实时监测和分析,判断语音片段中是否包含有效的语音活动。分析语音信号的特征,如能量、过零率等,区分出语音和非语音部分,只对有效的语音片段进行后续处理,提高系统的效率和准确性。
    • 大语言模型(LLM):deepseek作为核心的大语言模型,对ASR模块输出的文本进行处理。模型基于大量的文本数据进行训练,具备强大的语言理解和生成能力。理解用户输入文本的语义,结合上下文信息,运用自然语言处理技术,生成准确、自然且富有逻辑的文本回复,为用户提供智能的对话内容。
    • 语音合成(TTS):用edge-tts等技术,将LLM生成的文本回复转换为语音信号。这一过程包括文本分析、韵律预测、语音合成等步骤,基于深度学习模型等技术,模拟人类的语音发音特点,生成自然、流畅且富有表现力的语音,让用户用听觉获取信息,实现语音交互的输出。

    百聆的项目地址

    百聆的应用场景

    • 智能家居控制:用语音指令操控家电设备,如开关灯、调节空调温度等,能切换预设的家居场景模式,如“观影模式”“睡眠模式”,提升家居生活的便捷性和舒适度。
    • 个人助理服务:帮助用户管理日程,提醒会议、约会等安排;查询天气、新闻、股票等信息,进行整理总结。
    • 汽车智能交互:作为车载语音助手,实现导航设置、音乐播放、电话拨打等操作,提高驾驶安全性和便利性;查询车辆信息,如油量、里程,控制车辆功能,如座椅加热、空调风速调节等。
    • 教育辅助工具:为学生提供在线学习辅导,解答学习问题,帮助理解知识;在语言教学中模拟场景进行对话练习,提供发音和语调反馈,增强学习效果。
    • 办公辅助应用:在会议中记录和整理会议内容,生成关键信息总结和待办事项清单。
  • FramePainter – 哈工大联合华为诺亚推出的交互式图像编辑AI工具

    FramePainter是什么

    FramePainter 是基于 AI 的交互式图像编辑工具,通过结合视频扩散模型和直观的草图控制,让用户能通过简单的绘制、点击或拖动操作来指示编辑意图,实现对图像的精确修改。FramePainter 的核心优势在于其高效的训练机制和强大的泛化能力,即使在少量样本的情况下,也能生成高质量的编辑结果。

    FramePainter的主要功能

    • 直观的草图控制:用户可以通过在图像上绘制草图、点击点或拖动区域来指示编辑意图,FramePainter 能够将这些简单指令转化为精确的图像编辑。
    • 强大的 AI 技术:借助视频扩散模型(Video Diffusion Models),FramePainter 提供了前所未有的编辑能力,能够实现复杂且自然的图像变换。
    • 高质量输出:支持实时预览和智能处理,确保编辑结果的专业性和高质量。
    • 低训练成本与高效泛化:通过将图像编辑重新定义为图像到视频的生成问题,FramePainter 继承了视频扩散模型的强大先验,显著减少了训练数据需求,并在未见过的场景中表现出色。
    • 匹配注意力机制:为解决视频扩散模型在处理大运动时的局限性,FramePainter 引入了匹配注意力机制,通过扩大感受野并鼓励编辑图像与源图像之间的密集对应关系,进一步提升编辑的精确性和一致性。

    FramePainter的技术原理

    • 图像到视频生成任务的重新定义:FramePainter 将交互式图像编辑任务重新定义为图像到视频的生成问题。具体来说,源图像作为视频的第一帧,编辑信号(如草图、点击点或拖动区域)指导生成包含源图像和目标图像的两帧视频。
    • 视频扩散模型的应用:FramePainter 基于视频扩散模型的强大能力,模型通过捕捉真实世界中的动态变化(如物体运动、姿态变化等),为图像编辑提供了更自然和连贯的结果。与传统的基于文本到图像扩散模型的方法相比,FramePainter 不需要大量的训练样本和额外的参考编码器。
    • 匹配注意力机制:为了解决视频扩散模型在处理大运动时的局限性,FramePainter 引入了匹配注意力机制。机制通过扩展空间注意力到时间轴,扩大了感受野,并鼓励编辑图像与源图像之间的密集对应关系。
    • 轻量级稀疏控制编码器:FramePainter 使用轻量级稀疏控制编码器来注入编辑信号(如草图或拖动点),避免对源图像重建产生影响。

    FramePainter的项目地址

    FramePainter的应用场景

    • 概念艺术创作: FramePainter 支持艺术家通过直观的草图控制来实现复杂的图像变换。艺术家可以简单地在图像上绘制草图,FramePainter 将草图转化为精确的编辑,创造出概念艺术作品。
    • 产品展示: FramePainter 可以用于创建更加动态和吸引人的产品展示图像。通过模拟不同的物理交互,如改变产品的角度、光线或背景,生成更加真实和引人注目的产品图像,提升广告的吸引力。
    • 社交媒体内容: FramePainter 提供的直观编辑功能使内容创作者可以轻松地对图像进行个性化编辑,如添加创意元素、调整颜色和光线等,制作出独特且引人注目的社交媒体帖子。
    • 表情和姿态: FramePainter 基于视频扩散模型的强大先验,可以生成自然的表情变化和姿态调整,人像看起来更加生动和真实。
    • 光线和阴影: FramePainter 可以用于调整人像的光线和阴影,增强图像的立体感和深度。可以在后期制作中实现更加专业的效果。
  • Step-2 mini – 阶跃星辰推出的轻量级极速大模型

    Step-2 mini是什么

    Step-2 mini 是阶跃星辰推出的轻量级极速大模型,基于新一代自研 Attention 架构 MFA 开发。仅用 3% 的参数量就保留了 Step-2 超过 80% 的性能,显著提升了生成速度和性价比。模型在输入 4000 tokens 时,平均首字时延仅为 0.17 秒,展现出极快的响应能力。Step-2 mini 采用 MFA 架构,相比传统多头注意力架构,节省了近 94% 的 KV 缓存开销,大幅降低了推理成本。

    Step-2 mini

    Step-2 mini的主要功能

    • 通用任务处理:能处理多种通用语言任务,如文本生成、问答、翻译等。
    • 代码生成与优化:在代码生成方面表现突出,能够理解用户需求并生成可执行代码。
    • 逻辑推理与数学问题解决:具备较强的逻辑推理能力,能解决复杂的数学问题。

    Step-2 mini的技术原理

    • 多矩阵分解注意力机制(MFA)架构:MFA 架构是阶跃星辰与清华大学等机构共同研发的新型注意力机制。通过矩阵分解的方式,显著减少了传统注意力机制中的键值缓存(KV Cache)使用量,降低了内存消耗。MFA 架构采用了激进的低秩分解策略,成功地在扩展模型注意力头的数量和维度时保持了极高的参数效率。
    •  强化学习技术:Step-2 mini 通过大规模的强化学习训练,使用 On-Policy(同策略)强化学习算法,实现了模型的“文理兼修”。
    • 高性价比与快速响应:Step-2 mini 在保持低计算成本的同时,响应速度极快,适合对效率和成本有较高要求的场景。

    Step-2 mini的项目地址

    Step-2 mini的模型价格

    • 价格:输入 1 元/百万 token;输出 2 元/百万 token。

    Step-2 mini的应用场景

    • 数学问题解答:Step-2 mini 能构建合理的推理链,对复杂数学问题进行规划和逐步求解。
    • 逻辑推理:在逻辑推理任务中,Step-2 mini 能自主尝试多种解题思路,在得到初步答案后,自我反问尝试有没有其他可能性,确保枚举出所有效果良好的解决方案。
    • 数据分析:Step-2 mini 能帮助科研人员进行逻辑推理、数据分析,整合跨学科知识,推动科研项目进展。
    • 文献理解:模型能理解和总结科研文献,提供关键信息和研究方向的建议。
    • 代码开发:Step-2 mini 协助程序员高效开发代码,提供代码示例和逻辑分析。
    • 商业决策:为管理者提供商业决策的逻辑分析和建议,优化办公流程。
  • GameFactory – 香港大学和快手联合推出的可泛化游戏场景框架

    GameFactory是什么

    GameFactory 是香港大学和快手科技联合提出的创新框架,解决游戏视频生成中的场景泛化难题。框架基于预训练的视频扩散模型,结合开放域视频数据和小规模高质量的游戏数据集,通过多阶段训练策略,实现动作可控的游戏视频生成。

    GameFactory的主要功能

    • 场景泛化能力:GameFactory 能生成多样化的游戏场景,不局限于单一风格或预设的场景。使生成的视频更具真实感和多样性。
    • 动作可控性:通过动作控制模块,GameFactory 可以实现对生成视频中角色或物体动作的精确控制。
    • 高质量数据集支持:为了支持动作可控的视频生成,GameFactory 采用了 GF-Minecraft 数据集。该数据集包含 70 小时的《我的世界》游戏视频,具有多样化的场景和详细的动作标注。
    • 交互式视频生成:GameFactory 支持生成无限长度的交互式游戏视频。用户可以通过输入指令或交互信号来控制视频内容的变化。

    GameFactory的技术原理

    • 预训练视频扩散模型:GameFactory 基于在开放域视频数据上预训练的视频扩散模型,能生成多样化的游戏场景,突破了传统方法对特定游戏风格和场景的限制。
    • 三阶段训练策略
      • 第一阶段:使用 LoRA(Low-Rank Adaptation)对预训练模型进行微调,使其适应目标游戏领域,同时保留大部分原始参数。确保模型在开放域的泛化能力得以保留。
      • 第二阶段:冻结预训练参数和 LoRA,专注于训练动作控制模块,避免风格与控制信号之间的纠缠。目标是确保生成的视频能根据用户输入进行准确的动作控制。
      • 第三阶段:移除 LoRA 权重,保留动作控制模块参数,使系统能在各种开放域场景中生成受控的游戏视频,不局限于特定的游戏风格。
    • 动作控制模块:GameFactory 引入了动作控制模块,支持自回归动作控制,能生成无限长度的交互式游戏视频。
    • GF-Minecraft 数据集:为了支持动作可控的视频生成,研究团队发布了高质量的动作标注视频数据集 GF-Minecraft。数据集包含 70 小时的《我的世界》游戏视频,具有多样化的场景和详细的动作标注。数据集的设计满足了以下三个关键需求:
      • 可定制的动作:支持大规模、低成本的数据收集。
      • 无偏的动作序列:确保动作组合的多样性和低概率事件的覆盖。
      • 多样化的场景:通过预设的环境配置(如不同的生物群落、天气条件和时间段)增强场景多样性。

    GameFactory的项目地址

    GameFactory的应用场景

    • 游戏开发:GameFactory 通过预训练的视频扩散模型和动作控制模块,能生成多样化的游戏场景和交互式视频内容。
    • 游戏内容创新:GameFactory 的开放域生成能力使其能够突破传统游戏引擎的限制,创造出全新的游戏风格和场景。
    • 自动驾驶:其动作控制模块和场景生成能力可以用于模拟自动驾驶环境,生成多样化的驾驶场景。
    • 具身智能(Embodied AI):通过生成多样化的交互场景,为具身智能的研究提供支持。
  • Wear-Any-Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架

    Wear-Any-Way是什么

    Wear-Any-Way是阿里巴巴拍立淘团队推出的创新的虚拟试穿框架。通过稀疏对应对齐机制,实现了高保真度且可定制的虚拟试穿效果。用户可以生成逼真的试穿图像,通过简单的点击和拖动操作,精准操控服装的穿着方式,如卷起袖子、调整大衣开合等,为虚拟试穿带来了全新的交互体验。Wear-Any-Way支持多种输入类型,包括单件试穿和多件搭配试穿,可应用于模特到模特、模特到街道等多种场景。

    Wear-Any-Way的主要功能

    • 自由定制试穿:用户可以根据自己的喜好和需求,对虚拟模特身上的服装进行自由定制,包括调整服装的尺寸、颜色、款式以及细节元素,如袖长、领型、腰身等。可以尝试不同的搭配方式,如内搭、外套、配饰等,以创造出独一无二的穿搭效果。
    • 高保真度渲染:基于先进的图像渲染技术,确保虚拟试穿的效果接近真实穿着体验。通过高精度的模型构建和光影处理,系统能呈现出服装的材质质感、纹理细节以及穿着后的形态变化,使用户在试穿过程中感受到更加真实、生动的视觉效果。
    • 多件服装搭配试穿:支持单件服装的虚拟试穿,支持同时提供上衣和下衣,实现整套搭配的试穿效果。
    • 多场景试穿:能支持各种子任务。模特到模特的试衣,多件服装的搭配试衣,或是街拍、坐姿等复杂情景。
    • 智能推荐与搭配:基于阿里巴巴的大数据分析和AI技术,Wear-Any-Way能根据用户的购物历史、浏览记录以及个人偏好,智能推荐适合的服装款式和搭配方案。

    Wear-Any-Way的技术原理

    • 稀疏对应对齐机制:通过学习一系列可置换的点嵌入,注入到模型中,实现了对服装细节的精确控制。用户可以通过简单的点击和拖动操作来定制服装的上身效果,比如拖动袖子卷起、拖动外套打开、通过点击控制褶子的款式等。
    • 双U-Net结构:整个框架由两个U-Nets组成。Reference U-Net以服装图像为输入,提取细粒度特性;Main U-Net负责生成试穿结果,需要人物图像(蒙面)、服装蒙面和潜在噪声作为输入,并由姿态控制通过一个额外的姿态编码器。
    • 基于点的控制:由一个点嵌入网络和稀疏对应对齐模块实现,火焰和雪花的符号分别表示可训练参数和冻结参数。

    Wear-Any-Way的项目地址

    Wear-Any-Way的应用场景

    • 虚拟试衣室:消费者可以在虚拟试衣室中看到衣服穿在模特身上的效果,并且可以通过交互操作将衣服调整到自己喜欢的样式。
    • 时尚设计与展示:设计师和品牌可以更灵活地展示不同模特穿着同一服装的效果,更好地评估服装的适应性和多样性。
    • 个性化定制:用户可以根据自己的喜好和需求,调整服装的穿着方式,如卷起袖子、打开外套、调整褶皱等。
    • 电商与零售:商家可以更直观地展示服装在模特身上的效果,用户可以在虚拟环境中看到服装在不同场景下的效果,,提升消费者的购物体验。
  • PSHuman – 开源的单图像3D人像重建技术,仅需一张照片

    PSHuman是什么

    PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视图扩散模型,仅需一张照片,能生成高度逼真的3D人像模型,包括精细的面部表情和全身姿态。核心优势在于能同时建模全局形状和局部细节的联合概率分布,避免几何失真,还能保持不同视图下身体形状的一致性。PSHuman通过显式人体雕刻技术,高效恢复逼真的纹理人体网格。在多个数据集上表现出色,具有出色的几何细节、纹理保真度和泛化能力。

    PSHuman的主要功能

    • 单图像3D人像重建:用户只需提供一张人像照片,PSHuman能快速生成详细的3D模型,大大提高了3D人体建模的效率。
    • 多视图扩散技术:基于先进的多视角扩散模型,从单一视角的照片中生成多个角度的人体图像,确保每个角度都尽可能真实地反映原始对象,解决了单视角图像重建的难题。
    • 高保真度面部细节:通过跨尺度扩散方法,同时兼顾整体身体形状和局部面部特征的细节,避免了几何变形的问题,最终生成的3D模型在面部特征上表现出色,具有高度的真实感和细腻度。
    • 结合SMPL-X人体模型:结合了SMPL-X参数化人体模型,能表示不同姿态和体型的人体,生成更加自然和真实的人体动作和形态,进一步提升了3D模型的逼真度。
    • 背景移除:支持使用Clipdrop或rembg工具移除人像照片的背景,简化后续处理流程。
    • 结构化输出:生成的3D模型和渲染视频以结构化文件形式保存,便于用户查看和分享。
    • SMPL-free版本:无需SMPL条件即可进行多视图生成,适用于一般姿态的人像,拓展了其应用场景。

    PSHuman的技术原理

    • 身体+面部增强和多视角生成:系统首先将输入的照片和一个预测的人体骨架模型(SMPL-X)送入一个多视角图像扩散模型。模型能生成6个不同角度的全身图片以及高精度的局部面部图片,确保全身和脸部细节都尽可能真实。
    • 跨尺度扩散方法:能同时建模全局全身形状和局部面部特征的联合概率分布,避免了几何变形的问题,使得最终生成的3D模型在面部特征上表现出色,具有高度的真实感和细腻度。
    • 基于SMPL-X的显式人物雕刻:基于生成的法线图(显示3D形状细节)和颜色图(纹理细节),通过可微分的渲染技术来调整、变形和重新细化SMPL-X模型。这一步骤结合了多视角生成和3D雕刻技术,使PSHuman能高效地从一张照片中“雕刻”出带真实纹理的3D人物模型。
    • 多视图图像融合:使用可微分渲染技术融合多视图颜色图像,减少生成不一致性,将融合后的纹理投影到重建的3D网格上,实现纹理映射。
    • 优化和重建模块:通过优化SMPL-X参数来对齐多视图图像,进行几何优化。使用可微分光栅化技术对网格进行雕刻,匹配观察到的正常图。

    PSHuman的项目地址

    PSHuman的应用场景

    • 影视制作与游戏开发:在影视特效和游戏场景中,PSHuman可以快速生成逼真的3D角色模型,提高制作效率,降低制作成本,为影视和游戏增添更多真实感和细腻度。
    • 虚拟现实与增强现实:在VR和AR领域,通过PSHuman生成的3D人体模型,用户可以在虚拟环境中与虚拟角色进行交互,获得沉浸式体验。此外,还可应用于虚拟试衣、虚拟美妆等,为用户提供便捷和个性化的服务。
    • 时尚设计:时尚行业可利用PSHuman技术快速生成服装试穿效果,进行服装设计和展示,加速设计流程,提升用户体验。
    • 个性化定制:通过单张照片生成个性化的3D模型,可用于定制个性化产品,如定制人偶或游戏角色,满足用户对个性化和定制化内容的需求。
  • Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力

    Video Alchemist是什么

    Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型基于Diffusion Transformer模块,通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。Video Alchemist还引入了自动数据构建管道和多种数据增强技术,以增强模型对主体身份的关注,避免“复制粘贴效应”。为评估其性能,还提出了MSRVTT-Personalization新的视频个性化基准。

    Video Alchemist的主要功能

    • 个性化视频生成:具备内置的多主体、开放集合个性化能力,能同时对前景对象和背景进行个性化生成,无需在测试时进行优化。
    • 基于文本提示和参考图像的条件生成:给定一个文本提示以及一组参考图像来概念化提示中的实体词,Video Alchemist能根据文本和参考图像生成相应的视频。
    • Diffusion Transformer模块应用:模型基于新的Diffusion Transformer模块构建,通过额外的交叉注意力层将每个条件参考图像及其对应的主体级文本提示进行融合,实现多主体条件的生成,将每个主体的文字描述与其图像表示绑定在一起。

    Video Alchemist的技术原理

    • 多主体开放集合个性化:Video Alchemist具备内置的多主体、开放集合个性化能力,能同时对前景对象和背景进行个性化生成,无需在测试时进行优化。可以处理各种新颖的主体和背景概念,不需要对每个新主体或背景进行单独的优化。
    • Diffusion Transformer模块:Video Alchemist基于新的Diffusion Transformer模块构建,模块通过额外的交叉注意力层将每个条件参考图像及其对应的主体级文本提示进行融合。具体来说,模型通过以下步骤实现多主体条件生成:
      • 输入处理:给定一个文本提示和一组参考图像,模型首先将这些输入进行编码。
      • 交叉注意力层:通过双重交叉注意力层,将参考图像嵌入和主体级文本提示融入视频生成过程,使生成的视频能够自然地保留主体身份和背景保真度。
      • 主体级融合:引入主体级融合机制,将每个主体的文字描述与其图像表示绑定在一起,确保生成的视频中主体的准确性和一致性。
    • 自动数据构建管道与图像增强:为了解决参考图像和视频配对数据集难以收集的问题,Video Alchemist设计了新的自动数据构建管道,引入了广泛的图像增强技术,以增强模型对主体身份的关注,避免“复制粘贴效应”:
      • 数据收集:从多个帧中收集主体图像,并进行数据增强处理。
      • 图像增强:通过多种数据增强技术,如旋转、缩放、颜色调整等,增强模型的泛化能力,减少过拟合现象。
    • MSRVTT-Personalization基准:为了评估Video Alchemist的性能,引入了MSRVTT-Personalization新的视频个性化基准。在准确评估主体保真度,支持多种个性化场景,包括基于面部裁剪、单个或多个任意主体以及前景对象和背景组合的条件模式。

    Video Alchemist的项目地址

    Video Alchemist的应用场景

    • 短视频创作:个人用户可以将创意故事、奇幻场景转化为视频,制作独特的短视频分享至社交平台,展现个性。
    • 动画制作:创作者可以用Video Alchemist生成动画角色和背景,快速制作动画短片,无需复杂的动画制作软件和技能。
    • 历史事件:教师可以生成历史事件的视频,帮助学生更好地理解历史背景和事件过程。
    • 剧本场景:制片人和导演可以生成剧本场景的初步视频样片,用于团队沟通和向投资方展示项目概念。
    • 角色动作:可以生成角色的动作和表情,帮助演员和导演更好地理解角色的表演要求。
  • Zerox – 开源的OCR工具,零样本识别多种格式文件

    Zerox是什么

    Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件,擅长处理扫描版文档及复杂布局文件,如含表格、图表等。Zerox工作流程是将文件转换为图像后进行OCR识别,最终输出Markdown格式文档,方便用户编辑和使用。Zerox提供API接口,便于开发者集成到应用中,实现自动化文档处理,广泛应用于企业文档管理、学术研究、法律金融以及教育等领域,极大提升文档信息提取的效率和准确性。

    Zerox

    Zerox的主要功能

    • 零样本OCR识别:无需用户提供大量样本进行训练,直接对各种类型的文档进行高精度的文本提取,节省训练模型的时间和精力。
    • 多格式文件支持:兼容PDF、DOCX、图片等多种常见格式的文件,对扫描版文档有很好的处理效果。
    • 复杂布局处理:准确识别和处理包含表格、图表等复杂布局的文件,提取出完整的文档信息,为用户提供更全面、准确的文档内容。
    • Markdown格式输出:将识别结果转换为Markdown格式,方便用户进行后续的编辑和整理,能较好地保持文档的视觉和结构完整性。
    • API接口提供:具备API接口,方便开发者集成到自己的应用程序中,实现自动化、批量化的文档处理功能,提高工作效率,拓展工具的应用范围和灵活性。

    Zerox的技术原理

    • 文件转换:将用户提交的PDF、DOCX等格式的文件转换为一系列图像。针对图像中的文字进行识别,将文件转换为图像格式是进行OCR识别的必要步骤,便于后续模型对文字内容进行准确提取。
    • GPT-4o-mini模型识别:基于GPT-4o-mini模型对转换后的图像进行OCR识别。模型基于深度学习技术,对图像中的文字进行分析和识别,理解复杂的布局和格式,准确提取出文字内容。
    • 结果转换与汇总:将每个图像的OCR识别结果转换成Markdown格式,将所有页面的Markdown结果汇总在一起,形成一个完整的Markdown文档。这一过程涉及到格式的转换,且需要对识别结果进行整合和优化,确保输出的文档内容完整、结构清晰,方便用户进行后续的查看、编辑和使用。

    Zerox的项目地址

    Zerox的应用场景

    • 企业文档管理:快速处理和整理大量PDF、扫描文档等,提高办公效率,便于资料归档和信息检索。
    • 学术研究:高效提取文献资料中的文本信息,方便研究人员整理、引用和进行数据分析,提升研究效率。
    • 法律和金融行业:准确提取合同、报告等复杂文档中的关键信息,辅助合同审核、报告生成与分析,降低风险。
    • 教育领域:助力教师制作教学资料,方便学生整理和复习学习资料,提高教学和学习效率。
    • 内容创作与编辑:为内容创作者提供便捷的文档转换工具,快速将各种格式的文档转换为Markdown格式,方便编辑和发布。