Author: Chimy

  • AI内容检测初创公司GPTZero获1000万美元A轮融资

    GPTZero检测器

    2024年6月13日,总部位于美国纽约的AI内容检测初创公司GPTZero宣布筹集了1000万美元的A轮融资,估值约5000万美元。本轮融资由Footwork的联合创始人Nikhil Basu Trivedi领投,其他投资者包括Reach Capital、Jack Altman的Alt Capital、Uncork Capital以及Neo(Ali Partovi的基金)。

    GPTZero是由24岁的Alex Cui和26岁的Tian创办的AI内容检测初创公司,两人自高中以来就是朋友。该公司成立于2022年12月,提供一种AI检测工具,用以识别内容是否由人工智能生成。GPTZero在2023年1月正式推出,并迅速获得了市场的关注和认可。GPTZero的检测技术在准确性上具有优势,基于大量人类与AI生成文本的数据,并且结合了先进的开源工具和深度学习模型。公司的客户基础不仅包括教师,还扩展到了政府采购机构、撰写资助申请的组织、招聘经理以及AI训练数据标注者等。GPTZero的长期愿景是创建一个互联网的新层面,以确保人类和AI内容的适当责任和区分。

    更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库

    (消息来源:TechCrunch

  • 什么是Apple Intelligence?详解苹果的AI系统

    在当今数字化时代,人工智能(AI)已成为推动技术进步和创新的关键力量。苹果公司,作为全球科技领域的巨头之一,一直在不断探索和创新,以提供更加智能和个性化的用户体验。2024年的WWDC大会上,苹果公司揭开了其最新力作——Apple Intelligence的神秘面纱,这是一款全新的个人智能化系统,旨在彻底改变用户与设备之间的互动方式。

    Apple Intelligence

    Apple Intelligence是什么

    Apple Intelligence是苹果公司开发的一款集成在 iPhone、iPad 和 Mac 平台上的个人智能系统,于北京时间2024年6月11日的WWDC大会(苹果全球开发者大会)上发布。该AI系统通过结合强大的生成模型和个人背景,为用户提供有用且相关的服务和体验。Apple Intelligence 的核心在于其先进的 AI 技术和隐私的重视,不仅能够理解用户的需求,还能预测用户的意图,在保护用户隐私的同时还能提供更加个性化的服务。

    Apple Intelligence的核心功能

    AI驱动的写作工具

    写作工具是 Apple Intelligence 的一项系统级功能,能够帮助用户在各种应用程序中重写、校对和总结文本。无论是撰写电子邮件、润色博客文章还是整理课堂笔记,这些工具都能让用户在写作时更加自信。用户可以调整文本的语调、检查语法错误,甚至获得文本内容的简洁摘要。

    苹果AI写作功能

    Genmoji和Image Playground

    Apple Intelligence 还为用户的图像和表情符号带来了乐趣和创造力。通过新的Image Playground,用户可以生成三种风格的有趣图像:动画、插图或草图。用户可以创建自定义的表情符号,即“Genmoji”,完美捕捉瞬间和独特的表达方式。此外,使用图像魔杖(Image Wand),用户还可以将草图转换成精致的图像。

    苹果Genmoji

    改进的照片和视频体验

    照片应用也得到了增强,新增了自然语言搜索功能,用户可以轻松找到视频中的特定时刻。新的清理工具可以去除背景中的干扰物,而不会改变主题。通过“记忆”功能,用户只需简单描述即可创建自定义的故事。

    苹果AI照片处理

    隐私和安全

    Apple Intelligence 在 AI 领域设定了新的隐私标准。首先,它拥有在设备上完全运行的小模型,以本地处理请求。当更复杂的任务需要云处理时,它们有一个新的私有云计算功能,同时确保用户的数据不会被保留或暴露。

    Apple Intelligence的隐私

    Siri的全面升级

    Siri 通过 Apple Intelligence 得到了全面的升级。现在,Siri 更好地理解用户,能够跟随用户的思路,保持请求之间的上下文,甚至允许用户通过打字代替说话。Siri 还可以在应用程序中执行数百种新操作,例如从朋友那里获取书籍推荐或检查父母的航班状态。

    Overhaul

    ChatGPT集成

    苹果公司还在其平台上整合了OpenAI旗下的ChatGPT。Siri 可以在用户允许的情况下,利用 ChatGPT 的专业知识来回答问题。ChatGPT 将在系统级的写作工具中提供帮助,生成内容和图像。ChatGPT 用户还可以连接他们的账户以访问付费服务。

    苹果ChatGPT

    Apple Intelligence的技术细节

    Apple Intelligence 建立在苹果公司创建的一系列生成模型之上,包括设备上的和服务器基础模型、图像生成的扩散模型和编码模型。此外,Apple Intelligence 还可以根据需要调用第三方模型,如 ChatGPT,以处理更复杂的请求。

    Apple Intelligence的模型

    设备端的模型

    设备上的模型拥有约 30 亿参数和 49K 的词汇量,采用低比特量化和分组查询注意力技术,以提高速度和效率。在 iPhone 15 Pro 上,该模型实现了每个提示token 0.6 毫秒的时间到生成第一个token的延迟和每秒 30 个token的生成速率。

    服务器端的模型

    服务器端的模型拥有 100K 的词汇量,能够使用私有云计算处理更复杂的任务,同时确保隐私和安全。该模型使用高级技术,如推测性解码和上下文修剪,以提高性能。建立在强化的 iOS 基础子集上,通过强大的加密和安全的启动过程确保用户数据的隐私。

    训练和优化

    苹果的模型是在精心策划的数据集上训练的,这些数据集不包含任何个人用户数据。训练数据包括授权数据、由 AppleBot 收集的公开可用数据和合成数据。训练后,苹果使用诸如拒绝采样微调和基于人类反馈的强化学习等新颖算法,以提高模型遵循指令的能力。

    苹果实施了一系列尖端技术,以确保在移动设备上的最优性能和效率。通过使用分组查询注意力、共享嵌入表、低位palletization和高效的键值缓存更新等方法,苹果成功创建了高度压缩的模型,这些模型在满足移动设备的内存、功率和性能限制的同时,保持了质量。

    Apple Intelligence的系统

    低秩适应(LoRA)

    与 Google 的 Gemini Nano 和 Microsoft 的 Phi 等通用模型不同,苹果的模型通过使用一种称为“低秩适应”的技术,对日常活动进行了微调,如摘要、邮件回复和校对。这种技术涉及将小型神经网络模块插入预训练模型的各个层中。这允许模型适应不同任务,同时保留其通用知识。重要的是,这些适配器可以动态加载和交换,允许基础模型针对手头的任务进行专门处理。

    如何使用Apple Intelligence

    Apple Intelligence面向用户免费提供,测试版将于今年秋季作为 iOS 18、iPadOS 18 和 macOS Sequoia 的内置功能推出,仅支持英语(美国)。部分功能、软件平台和其他语言支持将于明年陆续推出。Apple Intelligence 将仅支持 iPhone 15 Pro、iPhone 15 Pro Max 以及搭载 M1 或后续芯片的 iPad 和 Mac 设备,需将 Siri 和设备的语言设置为英语(美国)。

    常见问题

    Apple Intelligence基于什么大模型?
    Apple Intelligence 基于苹果公司开发的一系列生成模型,包括设备上的3B小型模型和服务器上的更复杂模型,以及必要时调用的第三方模型如ChatGPT。
    Apple Intelligence国内可以用吗?
    Apple Intelligence计划在秋季推出Beta版本,最初将只在美国英语中提供,暂不在国区提供服务,后续可能扩展到中国市场。
    Apple Intelligence如何保护用户隐私?
    Apple Intelligence使用在设备上运行的小模型来本地处理请求,并在需要云处理时使用Private Cloud Compute,确保数据不被保留或暴露。
    Siri在Apple Intelligence中有哪些改进?
    Siri现在能更好地理解用户,保持请求间的上下文,允许打字代替说话,并能执行跨应用的数百种新操作。

    延伸阅读

  • MimicBrush – 阿里等开源的AI图像编辑融合框架

    MimicBrush是什么

    MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含期望效果的参考图像进行图片编辑。MimicBrush能够自动识别和模仿参考图像中的视觉元素,将其应用到源图像的相应区域,支持如对象替换、样式转换、纹理调整等图像编辑操作。该技术特别适用于产品定制、角色设计和特效制作等场景,极大地简化了传统图像编辑的复杂流程,提高了编辑效率和灵活性。

    MimicBrush

    MimicBrush的功能特色

    • 参考图像模仿:用户在源图像上圈定希望编辑的特定区域,提供一张包含所需样式或对象的参考图像。MimicBrush便能分析并模仿参考图像中的特定视觉特征,将这些特征无缝应用到源图像的指定区域,实现风格或内容的一致性。
    • 自动区域识别:MimicBrush利用先进的图像识别技术可自动检测和确定编辑区域。用户无需手动绘制遮罩或进行繁琐的选择,简化了编辑前的准备工作。
    • 一键编辑应用:用户只需点击一个按钮,即可启动编辑过程。MimicBrush将自动执行从区域识别到特征模仿的整个编辑流程,编辑操作变得快速且用户友好,无需多步操作。
    • 多样化编辑效果:支持对象替换,如将一种物体替换为另一种物体;可实现样式转换,比如改变服装的图案或颜色。还能进行纹理调整,如将一种材质的纹理应用到另一物体表面。
    • 实时反馈:在编辑过程中,MimicBrush提供即时的预览功能。用户可以实时看到编辑效果,及时进行调整和优化,确保了编辑结果更符合用户的预期和需求。
    • 灵活性和适应性:MimicBrush能够适应不同的图像内容,包括复杂场景和多样风格,提供多种编辑选项,使用户能够根据个人喜好进行个性化调整。

    MimicBrush的官网入口

    MimicBrush的技术原理

    MimicBrush的工作原理

    • 自我监督学习:MimicBrush通过自我监督的方式进行训练,利用视频帧之间的自然一致性和视觉变化。在训练过程中,系统随机选择视频中的两帧,一帧作为源图像,另一帧作为参考图像,学习如何使用参考图像的信息来补全源图像中被遮罩的部分。
    • 双扩散UNets结构:MimicBrush采用了两个UNet网络,即“imitative U-Net”和“reference U-Net”。这两个网络分别处理源图像和参考图像,并通过共享注意力层中的键(keys)和值(values)进行信息交互,帮助系统定位参考图像中与源图像编辑区域相对应的部分。
    • 注意力机制:在MimicBrush中,参考U-Net提取的注意力键和值被注入到模仿U-Net中,这种机制有助于模仿U-Net更准确地完成遮罩区域的生成,确保生成的区域与源图像的背景和其他元素和谐地融合。
    • 数据增强:为了增加源图像和参考图像之间的变化性,MimicBrush在训练过程中应用了强烈的数据增强技术,包括颜色抖动、旋转、缩放和翻转等,以提高模型对不同姿态、光照和视角下图像的泛化能力。
    • 遮罩策略:MimicBrush采用了一种智能的遮罩策略,通过SIFT特征匹配来确定源图像中的关键区域,并增加这些区域被遮罩的可能性,从而促使模型学习如何从参考图像中找到并模仿更有意义的视觉元素。
    • 深度模型:MimicBrush还利用深度模型来预测源图像的深度图,作为形状控制的可选条件,这使得MimicBrush能够在纹理转移任务中保持源对象的形状,同时仅将参考图像的纹理或图案应用到源对象上。
    • 评估基准:为了全面评估MimicBrush的性能,研究人员构建了一个包含部分合成和纹理转移任务的高质量基准,涵盖了多种实际应用场景,如时尚、产品设计等。

    MimicBrush的应用场景

    • 产品设计:设计师可以使用MimicBrush快速修改产品设计图,例如改变产品的颜色、纹理或形状,以匹配设计概念或满足特定需求。
    • 时尚和服装:在时尚界,MimicBrush可以用来改变服装的图案、颜色或风格,帮助设计师和营销人员快速预览不同设计选项。
    • 美容和肖像编辑:个人用户可以利用MimicBrush来美容肖像,例如改变发型、妆容或肤色,而无需专业的图像编辑技能。
    • 广告和营销材料:营销人员可以快速调整广告图像,以适应不同的市场或促销活动,例如更改产品展示或背景元素。
    • 社交媒体内容创作:社交媒体用户可以利用MimicBrush来增强或个性化他们的照片和视频,使其内容更加吸引眼球。
    • 电子商务:在线零售商可以使用MimicBrush来定制产品图像,展示不同选项或变化,为客户提供更丰富的视觉体验。
  • Stability AI开源Stable Diffusion 3 Medium文生图模型

    6月12日晚间消息,人工智能初创公司Stability AI宣布正式开源发布其最新的文本到图像生成模型——Stable Diffusion 3 Medium(SD3 Medium)。Stable Diffusion 3 Medium 包含 20 亿个参数,是 Stability AI 迄今为止最先进的文本到图像开放模型,更小的 VRAM 占用空间旨在使其更适合在消费级 GPU 以及企业级 GPU 上运行。

    Hugging Face模型地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

    Stable Diffusion 3 Medium

    Stable Diffusion 3 Medium的基本信息

    • 先进性:SD3 Medium 拥有20亿参数,是Stability AI 迄今为止最为复杂的图像生成模型,代表了生成式AI进化的重要里程碑。
    • 适用性:这一模型的尺寸适中,使其成为在消费级PC、笔记本电脑以及企业级GPU上运行的理想选择,有望成为文本到图像模型的新标准。
    • 开放性:SD3 Medium 的权重现已在非商业许可和低成本创作者许可下开放,鼓励专业艺术家、设计师、开发者和AI爱好者进行商业使用。
    • 多平台支持:支持API试用,可在Stability平台、Stable Assistant(免费三天试用)和通过Discord的Stable Artisan上尝试。

    Stable Diffusion 3 Medium生成的图片

    Stable Diffusion 3 Medium的改进

    • 照片级真实感:SD3 Medium 通过减少手部和面部的常见伪影,提供无需复杂工作流程即可生成的高质量图像。
    • 提示遵循:模型能够理解并生成涉及空间关系、构图元素、动作和风格的复杂提示。
    • 排版能力:借助Diffusion Transformer架构,SD3 Medium 在生成文本时实现了无伪影和拼写错误。
    • 资源效率:模型设计考虑了资源效率,即使在标准消费级GPU上也能保持高性能,不牺牲性能。
    • 微调能力:SD3 Medium 能够从小数据集中吸收细节,为定制化提供了强大支持。

    Stable Diffusion 3 Medium图片

    合作伙伴

    • NVIDIA:Stability AI 与NVIDIA 的合作,通过NVIDIA® RTX™ GPU和TensorRT™,为所有Stable Diffusion模型,包括SD3 Medium,提供了性能上的显著提升。
    • AMD:AMD 对SD3 Medium 进行了优化,确保在AMD的最新APU、消费级GPU和MI-300X企业级GPU上提供高效推理。

    开放与安全

    • Stability AI 坚定地致力于开放的生成性AI,SD3 Medium 在Stability NonCommercial Research Community License下发布,同时推出了新的Creator License,以支持商业用途。
    • 公司采取了全面的安全措施,从模型训练到部署,确保了SD3 Medium 的安全和负责任的使用。

    未来计划

    Stability AI 计划根据用户反馈持续改进SD3 Medium,扩展其功能,提高性能。公司的目标是为AI生成艺术设定新的标准,使SD3 Medium 成为专业人士和爱好者的重要工具。

    (消息来源:Stability AI

  • InScope完成430万美元种子轮融资,利用AI自动化企业财务报告和审计

    InScope

    2024年6月12日,总部位于美国旧金山的AI自动化财务报告的金融科技公司InScope宣布筹集了430万美元的种子轮融资。本轮融资由Lightspeed Venture Partners和Better Tomorrow Ventures领投,以及包括Vipul Ved Prakash(Together AI的创始人兼CEO)、Jake Heller(Casetext的创始人兼CEO)、Debbie Clifford(Autodesk的首席财务官)、Justin Coulombe(Miro的首席财务官)和Nadia Asoyan(Strike的首席财务官)在内的一群个人投资者。

    该公司计划将筹集的资金用于扩大其客户基础至50家公司,扩展产品规模,增长团队,以及增强其人工智能能力。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    InScope成立于2023年,由Mary Antony和Kelsey Gootnick共同创立。两位创始人都具有会计背景,并在2018年在Flexport担任会计职能时相识。该公司利用机器学习和大型语言模型为中端市场和企业提供财务报告和审计流程。InScope的主营业务是自动化GAAP(普遍接受的会计原则)和非GAAP报告,包括现金流量表,并计划在今年晚些时候发布帮助客户起草年度和季度财务报告的功能。

    (消息来源:TechCrunch

  • AI数据安全计算平台Pyte完成500万美元的新一轮融资

    Pyte

    2024年6月12日,总部位于美国洛杉矶的AI数据安全计算平台Pyte宣布筹集了500万美元的新一轮融资,本轮融资由Myriad Venture Partners领投,Innovation Endeavors、Liberty Mutual Strategic Ventures和Pillar VC等参投。

    该公司计划将筹集的资金用于加速其安全计算平台的商业化。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Pyte成立于2020年,是一家提供数据安全协作解决方案的公司,其尖端技术允许在不解密的情况下对加密数据进行计算,使企业能够在保持隐私合规和防止数据泄露的同时,无缝地利用其数据。Pyte的专有安全多方计算(SMPC)密码技术基于公司联合创始人Sadegh Riazi和Ilya Razenshteyn十年的学术研究,可以轻松对加密数据运行简单或复杂的人工智能 (AI) 或机器学习 (ML) 计算,而无需移动或解密敏感数据。团队由六位博士组成,其中三位是安全计算领域的世界领先专家,还有三位ICPC金牌获得者。

    (消息来源:PR Newswire

  • AI软件测试平台BlinqIO完成500万美元新一轮融资

    BlinqIO

    2024年6月12日,总部位于美国特拉华州的生成式人工智能软件测试平台BlinqIO公司宣布筹集了500万美元的新一轮融资。本轮融资由Flint Capital领投,Inovia Capital Precede Fund I(由前谷歌首席财务官、前推特主席Patrick Pichette领导)、前Deliveroo首席财务官Raif Jacobs、TAL ventures和SeedIL也参与了投资。

    该公司计划将筹集的资金用于在美国扩展业务开设新的美国办事处,并计划将现有员工人数增加15人。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    BlinqIO成立于2023年,由Tal Barmeir和Guy Arieli创立,他们之前共同创立了Experitest并开发了其SeeTest SaaS数字测试自动化平台,该平台最终被TPG收购并重新品牌为Digital.ai。BlinqIO的主营业务是提供一个生成式AI软件测试平台,提供高级虚拟测试人员,帮助公司在其数字产品中实现无与伦比的质量。该公司的AI测试工程师能够理解需求并决定如何执行它们,自动创建和维护测试自动化代码(playwright),并且具有多语言能力,支持超过50种语言,提高了银行、旅游、航空公司、零售等行业的网站和应用程序的效率。

    (消息来源:SiliconANGLE

  • 国家网信办发布第六批深度合成服务算法备案信息,腾讯混元等492个算法在列

    第六批深度合成算法备案

    6月12日消息,国家网信办今日发布公告,根据《互联网信息服务深度合成管理规定》,现公开发布第六批境内深度合成服务算法备案信息。

    《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照履行备案和变更、注销备案手续。请尚未履行备案手续的深度合成服务提供者和技术支持者尽快申请备案。

    AI工具集从《境内深度合成服务算法备案清单(2024 年 6 月)》文件获悉,本次共有 492 个算法通过备案,其中包括腾讯混元大模型多模态算法(应用产品为腾讯元宝)、零一万物大模型多模态生成算法、天翼数字生活智能应用算法、kreadoAI生成内容算法、PSAI内容深度合成类算法(虹软科技)、浪潮海岳大模型算法、科沃斯机器人大模型算法、喜马拉雅语音识别算法、腾讯音乐未伴虚拟人合成算法、理想汽车MindDiffusion图像生成算法、蝉镜数字人算法(应用产品为蝉镜)、天工图生文算法、影石Insta360-人工智能生成式算法、有道小P大模型算法、出门问问数字人合成算法、快手快意大模型生成合成算法、商汤V-ME视频合成算法、钉钉AI助理智能生成算法等、绘蛙电商模特试装图像合成算法。

    更多已备案的算法请查看AI工具集推出的:深度合成服务算法备案清单和在线查询

    (消息来源:中国网信网

  • ToonCrafter – 腾讯等开源的卡通动画视频插帧工具

    ToonCrafter是什么

    ToonCrafter是由腾讯AI实验室、香港中文大学和香港城市大学的研究人员开源的卡通动画视频中间帧生成工具,突破了传统卡通动画制作中线性运动的假设限制,采用创新的生成式插值技术,仅需两张关键帧图片,即可自动生成中间动态帧,创造出流畅的动画效果。与需要逐帧绘制的传统动画制作方法相比,ToonCrafter极大地提高了动画制作的效率,减少了动画师的工作量,缩短了制作时间,同时保持了动画的质量和创意性。

    ToonCrafter

    ToonCrafter的功能特色

    • 生成式卡通插值ToonCrafter利用深度学习模型,通过给定的两张关键帧图片,自动推算并生成中间帧,实现卡通动画的平滑过渡和动态效果。该插值方法不仅填补了帧与帧之间的空白,还能够模拟复杂的运动模式,如角色动作和场景变化。
    • 细节保持与增强ToonCrafter采用先进的双参考3D解码器技术,确保在生成新帧的过程中,图像的细节得到保留甚至增强。这种机制特别适用于卡通动画,因为它们通常包含清晰的线条和鲜明的色彩,需要在插值过程中避免细节的模糊和失真。
    • 支持草图指导动画ToonCrafter提供了一个草图编码器,允许用户通过简单的草图输入来指导动画的生成。用户可以指定动画的某些方面,如角色的运动轨迹或特定风格的强调,从而实现个性化的动画效果。
    • 遮挡区域处理ToonCrafter能够有效识别和处理动画中的遮挡情况,例如当一个角色或对象部分或完全遮挡另一个时。该工具能够合理推断遮挡区域的运动和变化,生成符合视觉逻辑的帧。
    • 多应用场景ToonCrafter的应用范围广泛,不仅可以用于生成完整的卡通动画视频,还适用于从卡通素描线稿生成动画,以及对现有动画进行上色和风格化处理,提供了动画制作的多样性。

    ToonCrafter

    ToonCrafter的官网入口

    ToonCrafter的技术原理

    ToonCrafter的工作原理

    1. 生成式插值框架:ToonCrafter采用了一种新颖的生成式插值方法,与传统的基于对应关系的插值方法不同,它不依赖于显式的帧间对应关系,而是通过学习视频数据的潜在表示来进行帧的生成。
    2. 领域适配(Toon Rectification Learning)通过领域适配策略,ToonCrafter能够将真实视频的运动先验适配到卡通视频领域,解决了领域差异问题,避免了非卡通内容的意外合成。
    3. 双参考3D解码器利用双参考3D解码器,ToonCrafter能够补偿由于潜在空间压缩导致的细节丢失。这种解码器通过混合注意力残差学习机制(HAR),将输入图像的细节信息注入到生成帧的潜在表示中。
    4. 混合注意力残差学习机制(HAR)在解码过程中,HAR通过交叉注意力机制将输入图像的特征注入到解码器的浅层,同时在深层使用残差学习来增强细节的恢复。
    5. 伪3D卷积(Pseudo-3D Convolution)为了增强时间上的连贯性,ToonCrafter在解码器中引入了伪3D卷积,这有助于改善时间序列帧之间的一致性。
    6. 草图编码器(Sketch Encoder)提供了一个独立的草图编码器,允许用户通过输入草图来控制生成动画的运动和风格,增加了生成过程的交互性和可控性。
    7. 扩散模型(Diffusion Models)ToonCrafter基于扩散模型,这是一种从数据中逐步添加噪声,然后学习逆过程以去除噪声并恢复数据的生成模型。在视频生成中,这允许从随机噪声中生成连续的视频帧。
    8. 迭代去噪过程在生成每一帧时,ToonCrafter通过迭代去噪过程逐步精细化生成的图像,从噪声中恢复出清晰的帧。
    9. 端到端的训练和优化ToonCrafter的各个组件通过端到端的方式进行训练和优化,确保整个插值过程的协同工作和最终生成视频的质量。
    10. 多模态输入支持除了起始和结束帧,ToonCrafter还支持如草图、参考图像等多模态输入,以增强生成动画的表现力和控制性。

    如何使用和体验ToonCrafter

    方法一、在线版Demo体验

    1. 访问Hugging Face版的在线Demo,https://huggingface.co/spaces/Doubiiu/tooncrafter
    2. 在Input Image添加输入图像
    3. 输入提示词并调节Seed值、步长、FPS等
    4. 最后点击Generate按钮进行生成视频

    方法二、本地代码部署

    开发人员可以选择本地部署和运行ToonCrafter,具体步骤如下:

    1. 获取代码访问ToonCrafter的项目页面,或使用Git命令克隆或下载代码到本地。git clone https://github.com/ToonCrafter/ToonCrafter.git
    2. 环境准备:通过Anaconda安装所需的Python环境和依赖库
      conda create -n tooncrafter python=3.8.5
      conda activate tooncrafter
      pip install -r requirements.txt
    3. 下载预训练模型:下载预先训练好的ToonCrafter_512模型并将其model.ckpt放入checkpoints/tooncrafter_512_interp_v1/model.ckpt
    4. 命令行运行 sh scripts/run.sh
    5. 运行本地Gradio版界面:你也可以选择运行本地Gradio UI,运行指令 python gradio_app.py
    6. 然后按照上方在线版的操作步骤输入图片并设置参数进行生成即可
  • Follow-Your-Emoji – 腾讯等推出的基于扩散模型的人像动画框架

    Follow-Your-Emoji是什么

    Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动态动画效果。该技术通过表情感知标志点精确对齐表情与肖像,避免身份信息泄露,同时使用面部精细损失函数强化模型对微妙表情变化的捕捉能力。Follow-Your-Emoji支持多种风格的人像动画,包括真人、卡通、雕塑甚至动物,展现出高度的控制性和表现力。

    Follow-Your-Emoji

    Follow-Your-Emoji的功能特色

    • 动态表情同步:利用扩散模型技术,Follow-Your-Emoji能够将预定义或实时捕获的表情序列精确同步到静态参考肖像上,实现如眨眼、微笑、皱眉等复杂表情的动态变化。
    • 身份特征保持:在动画化过程中,框架特别设计了机制来确保参考肖像的关键身份特征得以保留,即使在表情变化剧烈时也能防止身份信息的失真或泄露。
    • 夸张表情表现:通过表情感知标志点技术,框架能够捕捉并再现夸张的表情动作,例如在卡通或漫画风格中常见的大幅度瞳孔扩张或收缩,增强动画的表现力。
    • 多风格适应:Follow-Your-Emoji框架不仅限于现实风格的肖像,还能够适应并动画化卡通、雕塑、动物等不同艺术风格和表现形式的肖像,显示出其广泛的适用性。
    • 时间连贯性:通过面部精细损失函数,框架在生成每一帧动画时都考虑到了与前后帧的连贯性,确保整个动画序列在时间上的自然过渡和流畅表现。
    • 长期动画生成:采用渐进式生成策略,Follow-Your-Emoji能够生成不仅在短期内连贯,而且在长期播放中也能保持稳定性和高质量的动画效果。
    • 高度控制性:用户可以细致地控制表情序列,从而对动画输出进行精确调整,允许用户根据特定需求定制动画效果,实现个性化创作。

    Follow-Your-Emoji的官网入口

    Follow-Your-Emoji的技术原理

    Follow-Your-Emoji的工作原理

    1. 基于扩散模型的框架:使用扩散模型(Stable Diffusion)作为基础,这是一种先进的深度学习模型,能够生成高质量的图像和视频内容。
    2. 表情感知标志点(Expression-Aware Landmark):利用MediaPipe等工具从动态视频中提取3D关键点,然后将其投影到2D平面,形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域,如眼睛(瞳孔点)和嘴巴,以实现更精确的表情同步。
    3. 面部精细损失(Facial Fine-Grained Loss Function):引入一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异,帮助模型学习如何更好地捕捉微妙的表情变化。
    4. 多风格适应性:框架设计为能够适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能够实现自然的动画效果。
    5. 渐进式生成策略:为了生成长期动画,采用从粗糙到精细的渐进式生成策略,首先生成关键帧,然后通过插值生成中间帧,以保持动画的连贯性和稳定性。
    6. 时间注意力机制:在UNet网络中加入时间注意力层,以保持动画帧之间的时间一致性和动态连贯性。
    7. 预训练与微调:使用大量的表达训练数据集对模型进行预训练,然后针对特定的动画任务进行微调,以提高模型的表现力和准确性。
    8. 数据集和基准建设:团队构建了EmojiBench基准,包含多种风格和表情的肖像视频,用于评估和验证模型的性能。
    9. 推理与动画生成:在推理阶段,模型结合表情感知标志点和时间注意力机制,生成动态的肖像动画,同时保持参考肖像的身份特征。
    10. 用户控制与定制:用户可以通过提供不同的输入表情序列来控制动画的输出,实现高度定制化的动画效果。

    Follow-Your-Emoji的基准