Blog

  • ToonCrafter – 腾讯等开源的卡通动画视频插帧工具

    ToonCrafter是什么

    ToonCrafter是由腾讯AI实验室、香港中文大学和香港城市大学的研究人员开源的卡通动画视频中间帧生成工具,突破了传统卡通动画制作中线性运动的假设限制,采用创新的生成式插值技术,仅需两张关键帧图片,即可自动生成中间动态帧,创造出流畅的动画效果。与需要逐帧绘制的传统动画制作方法相比,ToonCrafter极大地提高了动画制作的效率,减少了动画师的工作量,缩短了制作时间,同时保持了动画的质量和创意性。

    ToonCrafter

    ToonCrafter的功能特色

    • 生成式卡通插值ToonCrafter利用深度学习模型,通过给定的两张关键帧图片,自动推算并生成中间帧,实现卡通动画的平滑过渡和动态效果。该插值方法不仅填补了帧与帧之间的空白,还能够模拟复杂的运动模式,如角色动作和场景变化。
    • 细节保持与增强ToonCrafter采用先进的双参考3D解码器技术,确保在生成新帧的过程中,图像的细节得到保留甚至增强。这种机制特别适用于卡通动画,因为它们通常包含清晰的线条和鲜明的色彩,需要在插值过程中避免细节的模糊和失真。
    • 支持草图指导动画ToonCrafter提供了一个草图编码器,允许用户通过简单的草图输入来指导动画的生成。用户可以指定动画的某些方面,如角色的运动轨迹或特定风格的强调,从而实现个性化的动画效果。
    • 遮挡区域处理ToonCrafter能够有效识别和处理动画中的遮挡情况,例如当一个角色或对象部分或完全遮挡另一个时。该工具能够合理推断遮挡区域的运动和变化,生成符合视觉逻辑的帧。
    • 多应用场景ToonCrafter的应用范围广泛,不仅可以用于生成完整的卡通动画视频,还适用于从卡通素描线稿生成动画,以及对现有动画进行上色和风格化处理,提供了动画制作的多样性。

    ToonCrafter

    ToonCrafter的官网入口

    ToonCrafter的技术原理

    ToonCrafter的工作原理

    1. 生成式插值框架:ToonCrafter采用了一种新颖的生成式插值方法,与传统的基于对应关系的插值方法不同,它不依赖于显式的帧间对应关系,而是通过学习视频数据的潜在表示来进行帧的生成。
    2. 领域适配(Toon Rectification Learning)通过领域适配策略,ToonCrafter能够将真实视频的运动先验适配到卡通视频领域,解决了领域差异问题,避免了非卡通内容的意外合成。
    3. 双参考3D解码器利用双参考3D解码器,ToonCrafter能够补偿由于潜在空间压缩导致的细节丢失。这种解码器通过混合注意力残差学习机制(HAR),将输入图像的细节信息注入到生成帧的潜在表示中。
    4. 混合注意力残差学习机制(HAR)在解码过程中,HAR通过交叉注意力机制将输入图像的特征注入到解码器的浅层,同时在深层使用残差学习来增强细节的恢复。
    5. 伪3D卷积(Pseudo-3D Convolution)为了增强时间上的连贯性,ToonCrafter在解码器中引入了伪3D卷积,这有助于改善时间序列帧之间的一致性。
    6. 草图编码器(Sketch Encoder)提供了一个独立的草图编码器,允许用户通过输入草图来控制生成动画的运动和风格,增加了生成过程的交互性和可控性。
    7. 扩散模型(Diffusion Models)ToonCrafter基于扩散模型,这是一种从数据中逐步添加噪声,然后学习逆过程以去除噪声并恢复数据的生成模型。在视频生成中,这允许从随机噪声中生成连续的视频帧。
    8. 迭代去噪过程在生成每一帧时,ToonCrafter通过迭代去噪过程逐步精细化生成的图像,从噪声中恢复出清晰的帧。
    9. 端到端的训练和优化ToonCrafter的各个组件通过端到端的方式进行训练和优化,确保整个插值过程的协同工作和最终生成视频的质量。
    10. 多模态输入支持除了起始和结束帧,ToonCrafter还支持如草图、参考图像等多模态输入,以增强生成动画的表现力和控制性。

    如何使用和体验ToonCrafter

    方法一、在线版Demo体验

    1. 访问Hugging Face版的在线Demo,https://huggingface.co/spaces/Doubiiu/tooncrafter
    2. 在Input Image添加输入图像
    3. 输入提示词并调节Seed值、步长、FPS等
    4. 最后点击Generate按钮进行生成视频

    方法二、本地代码部署

    开发人员可以选择本地部署和运行ToonCrafter,具体步骤如下:

    1. 获取代码访问ToonCrafter的项目页面,或使用Git命令克隆或下载代码到本地。git clone https://github.com/ToonCrafter/ToonCrafter.git
    2. 环境准备:通过Anaconda安装所需的Python环境和依赖库
      conda create -n tooncrafter python=3.8.5
      conda activate tooncrafter
      pip install -r requirements.txt
    3. 下载预训练模型:下载预先训练好的ToonCrafter_512模型并将其model.ckpt放入checkpoints/tooncrafter_512_interp_v1/model.ckpt
    4. 命令行运行 sh scripts/run.sh
    5. 运行本地Gradio版界面:你也可以选择运行本地Gradio UI,运行指令 python gradio_app.py
    6. 然后按照上方在线版的操作步骤输入图片并设置参数进行生成即可
  • Follow-Your-Emoji – 腾讯等推出的基于扩散模型的人像动画框架

    Follow-Your-Emoji是什么

    Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动态动画效果。该技术通过表情感知标志点精确对齐表情与肖像,避免身份信息泄露,同时使用面部精细损失函数强化模型对微妙表情变化的捕捉能力。Follow-Your-Emoji支持多种风格的人像动画,包括真人、卡通、雕塑甚至动物,展现出高度的控制性和表现力。

    Follow-Your-Emoji

    Follow-Your-Emoji的功能特色

    • 动态表情同步:利用扩散模型技术,Follow-Your-Emoji能够将预定义或实时捕获的表情序列精确同步到静态参考肖像上,实现如眨眼、微笑、皱眉等复杂表情的动态变化。
    • 身份特征保持:在动画化过程中,框架特别设计了机制来确保参考肖像的关键身份特征得以保留,即使在表情变化剧烈时也能防止身份信息的失真或泄露。
    • 夸张表情表现:通过表情感知标志点技术,框架能够捕捉并再现夸张的表情动作,例如在卡通或漫画风格中常见的大幅度瞳孔扩张或收缩,增强动画的表现力。
    • 多风格适应:Follow-Your-Emoji框架不仅限于现实风格的肖像,还能够适应并动画化卡通、雕塑、动物等不同艺术风格和表现形式的肖像,显示出其广泛的适用性。
    • 时间连贯性:通过面部精细损失函数,框架在生成每一帧动画时都考虑到了与前后帧的连贯性,确保整个动画序列在时间上的自然过渡和流畅表现。
    • 长期动画生成:采用渐进式生成策略,Follow-Your-Emoji能够生成不仅在短期内连贯,而且在长期播放中也能保持稳定性和高质量的动画效果。
    • 高度控制性:用户可以细致地控制表情序列,从而对动画输出进行精确调整,允许用户根据特定需求定制动画效果,实现个性化创作。

    Follow-Your-Emoji的官网入口

    Follow-Your-Emoji的技术原理

    Follow-Your-Emoji的工作原理

    1. 基于扩散模型的框架:使用扩散模型(Stable Diffusion)作为基础,这是一种先进的深度学习模型,能够生成高质量的图像和视频内容。
    2. 表情感知标志点(Expression-Aware Landmark):利用MediaPipe等工具从动态视频中提取3D关键点,然后将其投影到2D平面,形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域,如眼睛(瞳孔点)和嘴巴,以实现更精确的表情同步。
    3. 面部精细损失(Facial Fine-Grained Loss Function):引入一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异,帮助模型学习如何更好地捕捉微妙的表情变化。
    4. 多风格适应性:框架设计为能够适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能够实现自然的动画效果。
    5. 渐进式生成策略:为了生成长期动画,采用从粗糙到精细的渐进式生成策略,首先生成关键帧,然后通过插值生成中间帧,以保持动画的连贯性和稳定性。
    6. 时间注意力机制:在UNet网络中加入时间注意力层,以保持动画帧之间的时间一致性和动态连贯性。
    7. 预训练与微调:使用大量的表达训练数据集对模型进行预训练,然后针对特定的动画任务进行微调,以提高模型的表现力和准确性。
    8. 数据集和基准建设:团队构建了EmojiBench基准,包含多种风格和表情的肖像视频,用于评估和验证模型的性能。
    9. 推理与动画生成:在推理阶段,模型结合表情感知标志点和时间注意力机制,生成动态的肖像动画,同时保持参考肖像的身份特征。
    10. 用户控制与定制:用户可以通过提供不同的输入表情序列来控制动画的输出,实现高度定制化的动画效果。

    Follow-Your-Emoji的基准

  • AI金融研究分析初创公司Brightwave完成600万美元种子轮融资

    Brightwave

    2024年6月11日,总部位于美国纽约的AI金融研究分析助手初创公司Brightwave宣布筹集了600万美元的种子轮融资。本轮融资由Decibel Partners领投,Point72 Ventures、Moonfire Ventures以及包括来自OpenAI、Databricks、Uber和LinkedIn的高管在内的天使投资者支持。

    Brightwave公司计划将筹集的资金用于进一步发展其AI系统,以加速金融专业人士的核心信息处理工作流程。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Brightwave成立于2024年,由在AI和金融基础设施领域拥有深厚知识的工程师Mike Conover和Brandon Kotara共同创立。Brightwave的领导团队拥有数十年的AI/ML、语义搜索、知识图构建和运营企业级金融系统的经验。该公司的AI系统能够从数以亿计的文档中综合出可信、有洞察力的分析,包括即时新闻、SEC文件、收益电话会议记录、卖方研究、市场数据、企业知识库内容以及来自公共互联网的高信号、长尾材料。Brightwave的客户包括从独立运营的注册投资顾问(RIA)到交易能够影响全球市场的200亿美元跨界对冲基金等多元化基金、公司和策略,管理的资产总额超过1200亿美元。

    (消息来源:BusinessWire

  • AI客服支持初创公司Cognigy完成1亿美元C轮融资

    Cognigy

    2024年6月11日,总部位于德国杜塞尔多夫的AI客户服务自动化初创公司Cognigy宣布已成功筹集了1亿美元的C轮融资。本轮融资由Eurazeo Growth领投,现有投资者Insight Partners、DTCP和DN Capital等参与投资。

    该公司计划将筹集的资金用于加速AI自动化的研发和全球扩张,以及增强Cognigy在对话式AI和生成式AI方面的研究与开发工作。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Cognigy成立于2016年,由Benjamin Mayr、Philipp Heltewig和Sascha Poggemann共同创立。该公司提供市场领先的企业级AI平台,用于构建、运营和分析高级AI智能体,这些AI智能体被许多主要品牌依赖于提供卓越的客户服务,包括汉莎集团、维珍脉冲、Frontier Airlines、博世、丰田、TechStyle时尚集团和梅赛德斯-奔驰等。Cognigy的AI优先方法使用对话式和生成式AI来提供预训练的AI智能体,以大规模解决高容量的客户请求。此外,Cognigy的AI智能体还作为助手,为人类客服提供即时和上下文的帮助,并自动化例行任务。

    (消息来源:BusinessWire

  • AI新闻阅读应用初创公司Particle完成1090万美元A轮融资

    Particle

    2024年6月11日,总部位于美国加利福尼亚州的AI新闻阅读应用初创公司Particle宣布筹集了1090万美元的A轮融资。本轮融资由Lightspeed Venture Partners领投,投资方还包括全球媒体公司Axel Springer,后者旗下拥有Business Insider、Politico、Welt和Bild等知名媒体。在A轮融资之前,Particle已于2023年4月筹集了440万美元的种子资金。

    该公司计划将筹集的资金用于招聘关键职位,包括后端工程师、SRE、社区领导和媒体合作伙伴关系领导等,以及进一步开发其私人测试中的iOS应用程序,并计划未来扩展到Web和Android平台。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Particle公司由前Twitter工程师创立,成立于2023年2月。公司的两位联合创始人分别是Sara Beykpour和Marcel Molina,其中Sara Beykpour曾是Twitter的高级产品管理总监,而Marcel Molina曾在Twitter和Tesla担任高级工程师。Particle开发了一款新闻阅读应用程序,该程序利用人工智能技术从多个出版商那里汇总新闻,帮助读者从不同角度理解故事,并提供新闻摘要,旨在为读者提供一个个性化的新闻体验,同时确保他们能够接触到多元的观点。

    (消息来源:TechCrunch

  • Mistral AI宣布完成6亿欧元的B轮融资,估值58亿欧元

    Mistral AI

    2024年6月11日,总部位于法国巴黎的人工智能初创公司Mistral AI宣布筹集了6亿欧元的B轮融资(4.68 亿欧元股权和1.32亿欧元债务),估值近60亿欧元(58亿欧元)。本轮融资由General Catalyst领投,Lightspeed Venture Partners、Andreessen Horowitz、Nvidia、Samsung Venture Investment Corporation、Salesforce Ventures、三星风险投资公司、Belfius、贝塔斯曼投资、法国巴黎银行、Bpifrance、思科、Eurazeo、Headline、韩华资产管理公司的风险基金、IBM、Korelya Capital、Latitude、Millennium New Horizo​​ns、Sanabil Investments、ServiceNow 和 SV Angel等参投。

    Mistral AI计划将筹集的资金用于扩大其商业化努力并购买更多计算资源。该公司还表示,这轮融资确保了公司的持续独立性,完全由创始人控制。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Mistral AI是一家相对较新的人工智能初创公司,由Meta和Google DeepMind的前员工于2023年共同创立。该公司专注于开发基础模型,目标是与当前表现最佳的模型如OpenAI的GPT-4o、Anthropic的Claude 3和Meta的Llama 3相媲美。Mistral AI还发布了一些预训练和微调的模型,这些模型在Apache 2.0许可下开源,没有使用或复制的限制。此外,公司还推出了一些专有的高级模型,如Mistral Large,这些模型设计为API优先产品进行重新打包。Mistral AI还提供了一个名为Le Chat的聊天助手,目前免费使用,并与云服务提供商如Microsoft Azure建立了分销合作伙伴关系。

    (消息来源:TechCrunchFinancial Times

  • AI法律科技初创公司Alexi完成1100万美元A轮融资

    Alexi

    2024年6月10日,总部位于加拿大多伦多的AI法律科技初创公司Alexi宣布筹集了1100万美元的A轮融资。本轮融资由Drive Capital领投,现有投资者包括Draper Associates也参与了投资。

    该公司计划将筹集的资金用于招聘工程、产品开发、品牌和设计、法律和业务发展团队,以帮助公司继续创新和扩展其技术。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    Alexi由Mark Doble和Sam Bhasin于2017年创立,是一个专有的AI驱动平台,为诉讼团队提供核心法律技能。该平台旨在简化法律研究流程和协助常规诉讼任务,为法律公司节省时间和提高生产力。Alexi致力于创新和卓越,继续引领法律知识获取方式的转型。

    (消息来源:Newswire

  • 意大利AI初创公司iGenius寻求以17亿欧元的估值融资6.5亿欧元

    iGenius

    据彭博社报道,意大利人工智能初创公司iGenius的首席执行官乌尔扬·夏尔卡(Uljan Sharka)在周一表示,该公司正在寻求筹集6.5亿欧元(约合6.98亿美元)的新资金,以实现约17亿欧元的融资后估值。

    iGenius的总部位于意大利米兰,该公司推出了一款名为“Italia”的产品,夏尔卡将其描述为一个开源的基础大型语言模型,旨在供金融服务行业等组织的使用。

    该初创公司已经从包括Angel Capital Management——安杰洛·莫拉蒂家族办公室,以及意大利银行Intesa Sanpaolo SpA的子公司Eurizon Asset Management在内的投资者那里获得了10.5亿欧元的融资前估值支持。夏尔卡表示,公司还在与其他潜在投资者进行持续的谈判。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    iGenius与包括安联保险集团(Allianz SE)、怡安保险(Aon Plc)、意大利国家电力公司(Enel SpA)和意大利联合信贷银行(Intesa Sanpaolo)在内的公司合作。夏尔卡补充说,该公司的目标是到2024年底实现2000万欧元的年度经常性收入。

    意大利的隐私监管机构在2023年因担心OpenAI公司收集用户数据而暂时禁止了其ChatGPT在该国的使用。监管机构在1月份得出结论,认为OpenAI违反了意大利用户的隐私。

    (消息来源:Bloomberg

  • FirmPilot完成500万美元A轮融资,利用AI帮助律师事务所营销

    FirmPilot

    2024年6月10日,总部位于美国迈阿密的AI律所营销初创公司FirmPilot宣布筹集了500万美元的A轮融资。本轮融资由Blumberg Capital领投,Valor Ventures、SaaS Ventures、FJ Labs和Connexa Capital等新老投资者也参与了本轮融资。2023年,FirmPilot曾筹集了200万美元的种子轮融资。

    FirmPilot成立于2023年,由营销和人工智能领域的资深人士创立。该公司的主要业务是为法律服务公司提供AI驱动的营销解决方案,帮助这些公司提高在线可见度和吸引潜在客户的兴趣。FirmPilot的AI营销引擎基于超过3000个法律案例的综合数据库构建,并已分析了超过500万份法律公司使用的内容,内嵌了100多种法律营销策略。FirmPilot的AI营销引擎通过分析竞争环境和在线市场趋势,确定最有效的营销策略,帮助客户在谷歌搜索结果、广告和社交媒体上排名超过竞争对手。

    更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库

    (消息来源:PRWeb

  • Qwen2 – 阿里云开源的新一代通义千问大模型

    Qwen2是什么

    Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。Qwen2支持最长达128K tokens的上下文长度,优化了模型的泛化性和应用潜力。该系列模型在多个评测基准上表现优异,赶超Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平台开源。

    Qwen2

    Qwen2的模型信息

    模型名称 参数量 (B) 非Embedding参数量 (B) 是否使用GQA 是否Tie Embedding 上下文长度 (tokens)
    Qwen2-0.5B 0.49 0.35 32K
    Qwen2-1.5B 1.54 1.31 32K
    Qwen2-7B 7.07 5.98 128K
    Qwen2-57B-A14B 57.41 56.32 64K
    Qwen2-72B-Instruct 72.71 70.21 128K
    • 参数量:模型总的参数数量,以B(十亿)为单位。
    • 非Embedding参数量:除去词嵌入(Embedding)部分的参数数量。
    • 是否使用GQA:模型是否采用了GQA(Generalized Query Answering)技术。
    • 是否Tie Embedding:模型是否使用了输入和输出层共享参数的技术。
    • 上下文长度:模型能够处理的最大上下文长度,以tokens为单位。

    Qwen2的官网入口

    Qwen2的模型评测

    • Qwen2系列在多个评测基准上表现出色,特别是在Qwen2-72B模型上,实现了大幅度的效果提升。
    • 在自然语言理解、知识、代码、数学和多语言等多项能力上,Qwen2-72B显著超越了当前领先的模型,如Llama-3-70B和Qwen1.5的110B模型。
    • 在16个基准测试中,Qwen2-72B-Instruct展现了在基础能力和对齐人类价值观方面的平衡,超越了Qwen1.5的72B模型,并与Llama-3-70B-Instruct相匹敌。

    Qwen2的性能

    Qwen2的模型亮点

    • 代码 & 数学:Qwen2在代码和数学方面的能力显著提升,成功融合了CodeQwen1.5的经验,并在多种编程语言上实现效果提升。数学能力通过大规模高质量数据支持,实现了解题能力的飞跃。
      Qwen2的代码数学能力
    • 长文本处理:Qwen2系列的Instruct模型在32k上下文长度上训练,并通过技术如YARN扩展至更长上下文,Qwen2-72B-Instruct能完美处理128k上下文长度的信息抽取任务。
    • 安全性:在多语言不安全查询类别中,Qwen2-72B-Instruct在安全性方面与GPT-4相当,且显著优于Mistral-8x22B模型,减少了生成有害响应的比例。
    • 多语言能力:Qwen2在多语言评测中表现优异,增强了27种语言的处理能力,并优化了语言转换问题,降低了模型发生语言转换的概率。