Blog

  • 稿定AI社区 – AI创意设计平台,提供丰富的创意设计资源

    稿定AI社区是什么

    稿定AI社区是在线AI创意灵感平台,为用户提供丰富的创意设计资源和工具。平台涵盖多种设计领域,包括形象照、电商设计、节日主题、3D插画、头像设计、小红书素材、人像设计等,满足不同用户的需求。基于AI生图功能,用户上传图片,快速生成类似风格的创意图像,提升设计效率。平台界面简洁,分类清晰,适合设计师、电商运营者、社交媒体创作者及普通用户,是激发创意、提升设计能力的优质平台。

    gaoding.art

    稿定AI社区的主要功能

    • 灵感广场:展示多种创意设计作品,涵盖形象照、电商设计、节日主题、3D插画、头像设计等,用户按需浏览。
    • AI生图:上传图片后,基于AI技术生成类似风格的创意图像,支持风格转换。
    • 创意工具:提供设计模板和丰富素材,方便用户快速生成设计作品。
    • 社区互动:支持用户分享作品、评论和点赞,促进创意交流。
    • 个性化定制:用户创建个人主页,收藏作品和关注创作者。

    如何使用稿定AI社区

    • 访问官网:访问稿定AI社区官方网站。按提示完成注册和登录。
    • 寻找灵感
      • 灵感广场:在首页的灵感广场,浏览各种热门和推荐的创意作品。
      • 滚动播放的热门风格:页面自动滚动展示热门的创意风格和作品。
      • 分类选择:点击顶部的分类标签(如“形象照”“电商”“节日主题”等),找到感兴趣的类别。
    • 开始创作
      • 方式一:直接在首页的创作区域上传图片,输入描述或提示词。
      • 方式二:基于灵感广场分类,选择具体的灵感应用,进入相应的创作页面。
    • 输入提示词和上传图片:点击“上传图片”按钮,选择想要处理的图片。在输入框中输入简短的描述或提示词。
    • 点击生成:点击“生成”按钮,AI根据上传的图片和输入的提示词生成创意图像。
    • 保存作品:生成的图片会显示在页面上,点击“下载”按钮,将图片保存到本地。或点击“复制”按钮,将图片链接复制到剪贴板,方便分享。

    稿定AI社区的应用场景

    • 电商设计:制作品牌海报和促销主视觉,提升品牌形象和吸引力。
    • 社交媒体:生成小红书封面、微博配图等,增加内容互动。
    • 个人创意:设计个性化头像和形象照,展现独特风格。
    • 节日活动:为节日和活动设计海报,营造氛围。
    • 商业推广:快速生成广告和品牌设计,提升市场竞争力。
  • HunyuanPortrait – 腾讯混元联合清华等机构推出的肖像动画生成框架

    HunyuanPortrait是什么

    HunyuanPortrait 是腾讯 Hunyuan 团队联合清华大学、中山大学和香港科技大学等机构共同推出的基于扩散模型的框架,用在生成高度可控且逼真的肖像动画。基于给定一张肖像图片作为外观参考和视频片段作为驱动模板,根据驱动视频中的面部表情和头部姿势动画化参考图片中的人物。HunyuanPortrait 在时间一致性和可控性方面优于现有方法,展现出强大的泛化性能,能有效解耦不同图像风格下的外观和运动,广泛用在虚拟现实、游戏和人机交互等领域。

    HunyuanPortrait

    HunyuanPortrait的主要功能

    • 高度可控的肖像动画生成:基于单张肖像图片作为外观参考和视频片段作为驱动模板,精确地将驱动视频中的面部表情和头部姿势转移到参考肖像中,生成自然流畅的动画。
    • 强大的身份一致性保持:在面部结构和运动强度存在显著差异的情况下,保持参考肖像的身份特征,避免身份失真。
    • 逼真的面部动态捕捉:捕捉微妙的面部表情变化,如眼神方向、嘴唇同步等,生成高度逼真的肖像动画。
    • 时间一致性优化:生成的视频在时间上具有高度的连贯性和平滑性,避免背景抖动和模糊等问题。
    • 风格泛化能力:适应不同的图像风格,包括动漫风格和真实照片风格,具有广泛的适用性。

    HunyuanPortrait的技术原理

    • 隐式条件控制:用隐式表示编码运动信息,更好地捕捉复杂的面部运动和表情变化,避免因关键点提取不准确导致伪影和失真。将编码后的运动信息作为控制信号,基于注意力机制注入到去噪 U-Net 中,实现对动画生成过程的精细控制。
    • 稳定的视频扩散模型:基于扩散模型的框架,在潜在空间中进行扩散和去噪过程,提高生成质量和训练效率。用 VAE 将图像从 RGB 空间映射到潜在空间,基于 UNet 进行去噪处理,生成高质量的视频帧。
    • 增强的特征提取器:基于估计运动强度(如面部表情的扭曲程度和头部运动的幅度)增强运动特征的表示,提高对不同运动强度的适应能力。结合 ArcFace 和 DiNOv2 背景,用多尺度适配器(IMAdapter)增强肖像的身份一致性,确保生成的动画在不同帧中保持一致的身份特征。
    • 训练和推理策略:基于颜色抖动、姿态引导等技术增强训练数据的多样性,提高模型的泛化能力。用多种增强训练策略,如随机移除某些骨骼边缘,提高模型在不同输入条件下的稳定性。
    • 注意力机制:在 UNet 中引入多头自注意力和交叉注意力机制,增强模型对空间和时间信息的感知能力,提高生成视频的细节丰富度和时间一致性。

    HunyuanPortrait的项目地址

    HunyuanPortrait的应用场景

    • 虚拟现实(VR)和增强现实(AR):创建逼真的虚拟角色,增强用户体验。
    • 游戏开发:生成个性化的游戏角色,提升玩家的沉浸感。
    • 人机交互:开发更自然的虚拟助手和客服机器人,增强交互效果。
    • 数字内容创作:用在视频制作、广告和影视特效,快速生成高质量的动画内容。
    • 社交媒体和娱乐:用户将自己的照片制作成动态表情包或虚拟形象,增加互动性。
    • 教育和培训:创建个性化的虚拟教师或培训角色,提供更生动的教学体验。
  • Jodi – 中国科学院推出的视觉理解与生成统一模型

    Jodi是什么

    Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色,展现强大的可扩展性和跨领域一致性。

    Jodi

    Jodi的主要功能

    • 联合生成:同时生成图像和多个标签,例如深度图、法线图、边缘图等,生成的图像和标签在语义和空间上保持一致。
    • 可控生成:根据给定的标签组合生成图像,用户指定某些标签作为条件输入,控制生成图像的特定属性或特征。
    • 图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析,例如同时进行深度估计、边缘检测、语义分割等任务。

    Jodi的技术原理

    • 联合建模:基于图像域和多个标签域的联合分布进行建模,基于学习联合分布p(x, y1, y2, …, yM),推导出生成任务和理解任务所需的边际分布和条件分布。
    • 角色切换机制:在训练过程中,每个域随机分配三种角色之一,生成目标([G])、条件输入([C])或被忽略([X])。模型能同时学习不同类型的概率分布,包括联合生成、可控生成和图像感知。
    • 线性扩散Transformer:用线性扩散Transformer作为主干网络,基于线性注意力机制有效降低计算复杂度,让模型能高效地处理多个视觉域。引入了掩码线性注意力和领域不变的位置嵌入,增强不同视觉域之间的一致性和对齐。
    • 数据集构建:为支持多视觉域的联合建模,Jodi构建Joint-1.6M数据集,包含20万张高质量图像以及对应的7个视觉域的自动标签,为模型训练提供丰富的数据支持。

    Jodi的项目地址

    Jodi的应用场景

    • 创意内容生成:为艺术家和设计师提供灵感,快速生成具有特定风格或元素的图像。
    • 多模态数据增强:生成高质量的多模态数据,增强机器学习模型的训练数据集。
    • 图像编辑与修复:根据用户输入修复或编辑图像,生成缺失部分或调整风格。
    • 视觉理解与分析:预测多种视觉标签,辅助图像理解任务,如医学图像分析。
    • 虚拟现实与增强现实:生成逼真的虚拟场景和标注信息,提升VR和AR应用的体验。
  • HunyuanVideo-Avatar – 腾讯混元推出的语音数字人模型

    HunyuanVideo-Avatar是什么

    HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视频。模型具有角色图像注入模块,可消除训练与推理间的条件不匹配,确保角色一致性。音频情感模块(AEM)能从情感参考图像中提取情感线索,实现情感风格控制。面部感知音频适配器(FAA)可实现多角色场景下的独立音频注入。它支持多种风格、物种和多人场景,可应用于短视频创作、电商广告等。

    HunyuanVideo-Avatar

    HunyuanVideo-Avatar的主要功能

    • 视频生成:用户只需上传一张人物图像和相应的音频,模型能自动分析音频中的情感和人物所处环境,生成包含自然表情、唇形同步及全身动作的视频。
    • 多角色互动:在多人互动场景中,模型能精准驱动多个角色,确保各角色的唇形、表情和动作与音频完美同步,实现自然的互动,可生成各种场景下的对话、表演等视频片段。
    • 多风格支持:支持多种风格、物种和多人场景,包括赛博朋克、2D动漫和中国水墨画等,创作者可以轻松上传卡通角色或虚拟形象,生成风格化的动态视频,满足动漫、游戏等领域的创作需求。

    HunyuanVideo-Avatar的技术原理

    • 多模态扩散Transformer架构(MM-DiT):架构能同时处理多种模态的数据,如图像、音频和文本,实现高度动态的视频生成。通过“双流到单流”的混合模型设计,先独立处理视频和文本数据,再将它们融合,有效捕捉视觉和语义信息之间的复杂交互。
    • 角色图像注入模块:取代传统的加法角色条件方法,解决了训练与推理之间的条件不匹配问题,确保生成视频中角色的动态运动和一致性。
    • 音频情感模块(AEM):从情感参考图像中提取情感线索,将其转移到目标生成视频中,实现情感风格的精细控制。
    • 面部感知音频适配器(FAA):通过潜在级别的面部掩码隔离音频驱动的角色,实现多角色场景下的独立音频注入,使每个角色能根据自己的音频进行独立的动作和表情生成。
    • 时空压缩的潜在空间:基于Causal 3D VAE技术,将视频数据压缩成潜在表示,再通过解码器重构回原始数据,加速了训练和推理过程,提高了生成视频的质量。
    • MLLM文本编码器:使用预训练的多模态大语言模型(MLLM)作为文本编码器,相比传统的CLIP和T5-XXL,MLLM在图像-文本对齐、图像细节描述和复杂推理方面表现更佳。

    HunyuanVideo-Avatar的项目地址

    HunyuanVideo-Avatar的应用场景

    • 产品介绍视频:企业可以根据产品特点和目标输入提示,快速生成高质量的广告视频。例如,化妆品广告可以展示产品效果,提升品牌知名度。
    • 知识可视化:将抽象知识以视频形式呈现,增强教学效果。例如,数学教学中可以生成几何图形的旋转变形视频,帮助学生理解;语文教学中可以展现诗人创作的意境。
    • 职业技能培训:生成模拟操作视频,帮助学员掌握操作要点。
    • VR游戏开发:在VR游戏中生成逼真的环境和互动场景,例如古代遗迹探险。
  • 幻舟AI – AI短片创作平台,从剧本到视频全流程一站式服务

    幻舟AI是什么

    幻舟AI是一站式AI短片创作平台,支持批量生成广告片、宣传片、动画片等。基于MidjourneyRunway等全球领先的AI模型,实现剧本创作、角色设计、分镜生成及视频制作的全流程服务。平台支持多种模型切换,满足不同风格和场景需求。幻舟AI高效整合创作资源,简化操作流程,提升创作效率,是影视创作者的有力工具。

    幻舟AI

    幻舟AI的主要功能

    • 剧本创作:自动生成故事剧本和分镜图,支持自定义编辑。
    • 角色设计:基于Midjourney模型设计角色,保持角色一致性。
    • 分镜图设计:生成静态和动态分镜图,支持多种AI模型。
    • 视频生成:支持多种视频模型生成高质量视频分镜。
    • 音乐创作:生成纯音乐和多语言歌曲,支持对口型功能。
    • 配音功能:提供多角色配音,一键导出分镜配音文件。

    如何使用幻舟AI

    • 注册与登录:访问幻舟AI的官方网站。按提示完成登录。
    • 选择创作项目:登录后,点击“创建新项目”按钮,选择创作类型(如广告片、宣传片、动画片等),输入项目基本信息。
    • 剧本创作
      • 故事生成:在项目页面,点击故事生成按钮,输入故事主题或关键词,平台自动生成故事大纲。
      • 分镜生成:根据生成的故事大纲,点击分镜生成按钮,平台自动生成静态分镜图。
      • 自定义编辑:点击“自定义编辑”按钮,对生成的剧本或分镜图进行修改和完善。
    • 视频生成
      • 选择视频模型:点击视频生成按钮,选择适合的视频模型。
      • 生成视频分镜:根据生成的动态分镜图,平台生成视频分镜。
      • 调整参数:根据需要调整视频参数,确保视频质量和角色一致性。
    • 音乐创作
      • 音乐生成:点击音乐生成按钮,选择生成纯音乐或歌曲,输入歌词(如果需要)。
      • 调整参数:根据需要调整音乐风格、节奏等参数。
    • 导出与分享
      • 一键打包下载:完成创作后,点击一键打包下载按钮,下载所有创作成果。
      • 多格式支持:支持多种格式导出,方便在不同平台发布和分享。

    幻舟AI的应用场景

    • 广告片制作:快速生成创意脚本和视频。
    • 宣传片制作:高效制作企业或产品宣传片。
    • 动画创作:支持从角色设计到视频生成的全流程动画制作。
    • MV音乐创作:生成音乐和视频分镜,制作音乐视频。
    • 纪录片制作:依据文案快速搭建视听架构。
  • 实测 Lovart 设计Agent能做什么?邀请码互助免费领

    Lovart

    最近,LiblibAI推出全球首个专业设计Agent:Lovart,在国内外疯狂刷屏,5天内,内测申请人数就超过10万。

    它宣称只要一句话,就能做出一整套品牌设计,海报、logo、插画、UI、IP、品牌VI、包装设计还有视觉延展。

    而且说是从创意拆解到专业交付,全链路设计都能搞定。

    今天咱们一起看看宣传是否属实,然后行业大佬们是如何用它实现商业化的。

    免费互助领取Lovart邀请码,扫码关注回复: Lovart

     

    从图像生成到一站式IP设计

    首先我们一起看看汗青大佬的视频,这是一个关于玛丽莲梦露这个IP商业化设计的短片:

    就连卡兹克都说:汗青的审美太牛逼了。

    普通的AI绘画工具需要你用提示词一步步指挥,而Lovart更像是你的设计师朋友,他会自主思考、规划,最后调用合适的工具来给你满意的结果

    比如,玛丽莲梦露的肖像画,我们只需要一句简单描述,各种风格都不在话下。

    提示词:Design a Marilyn Monroe portrait+各种风格的名称.

    它会根据我们的要求先做一个规划。

    随后,给出设计思路,然后再自己写prompt完成任务。

    Lovart的审美出奇的好,出来的效果都非常不错,属实是有点惊艳。

    Lovart内置了PS-Level调整工具,如果对其生成的某个细节不满意,如文字大小、颜色、图片位置,都可以直接在画布上编辑

    我们先制作一张海报:

    提示词:Make a Marilyn Monroe poster with text and images, and return an text editable version to me.

    生成之后,继续输入:

    提示词:generate an editable text version of this poster for me

    它就会将海报中的背景图和文本做分层处理,我们可以直接在画布中进行编辑。

    再也不用担心海报错字或乱码的问题了!

    Lovart几乎整合了市面上几乎所有顶级的AIGC模型。

    包括GPT image-1、Flux Pro、OpenAI-o3、Gemini Imagen 3、Kling AI、Tripo AI、Suno AI等。

    所以它不仅可以做图像设计,视频和配音也不在话下:

    我们尝试让Lovart完成从产品设计,到包装等一系列操作:

    比如,我想举办一个宠物食品的品牌线下宣传活动。

    可以让它搞定活动所需的物料设计:

    提示词:This is the logo of my pet brand “KK’s Paws”. I plan to hold an offline pet – themed carnival event in Beijing. Please help me generate a complete set of event material design, requiring a unified visual and style that showcases the brand’s cuteness, friendliness, and strong bond with pets.

    首先它会收集灵感,然后设计出4款标志让我选择:

    在我确定标志后,它又基于这个元素,做了一套完整的活动物料设计

    包含活动海报、票券、托特包、活动横幅/背景板、工牌/通行证、留言板、道路指示牌、样品包装。非常全面。

    我们还可以让它继续设计一个线上的营销网站:

    提示词:Design a marketing website for my pet brand “KK’s Paws”.

    它直接给出了网站主页、在线商店、页脚设计。

    产品的设计也可以直接交给它:

    提示词:Please help me design some pet snacks, such as biscuits, and pet accessories, such as collars.

    包装、零食、项圈、宠物碗一键搞定。

    不得不说,Lovart的设计真有点东西!

    我们再让它生成视频和音乐试试。

    提示词:Help me generate all the storyboard images needed for a 15-second advertisement for this product, then provide guidance on filming and producing a video based on these images, and create a complete video with voiceover.

    它会完成故事内容撰写,分镜制作,并且生成所需的配音和背景音乐。

    把所有的内容准备好之后,再自动剪辑,直接交付给我们完整的广告视频。

     

    玩法拓展

    Lovart的强大设计能力,可以尝试更多玩法。

    比如,设计全套表情包

    提示词:Generate 8 little – girl – themed emoticons in a cute hand – painted style, including expressions like happy, angry, confused, surprised, etc., each with short and humorous text. Base the design on the provided picture, maintaining a ratio of “1:1”.

    在生成表情包时,上传我的头像作为参考,它就会结合图片中的形象创作

    这一版更可爱了,而且更具有个人色彩:

    提示词:Generate 8 little – girl – themed emoticons in a cute hand – painted style, including expressions like happy, angry, confused, surprised, etc., each with short and humorous text. Base the design on the provided picture, maintaining a ratio of “1:1”.

     

    连环画

    Lovart既能实现多种风格,又支持批量产出,做自媒体的友友们可以用它,快速制作想要的内容。不过内容会默认生成英文的,我们可以在提示词中添加一些约束,让它直接生成中文内容。比如最近很火的像素风插画故事:

    提示词:根据我提供的故事,生成像素风的连环画,故事中的每句话作为一个单独的画面。请为我设计合适的连环画画面,并为画面配上合适的字幕,字幕显示为中文。

    故事如下:

    安徒生童话之被诅咒的公主。

    从前有位公主,她非常漂亮。

    她的美貌被巫婆所嫉妒。

    巫婆诅咒她:你双手接触到的任何东西都会被融化。

    本被臣民喜爱的公主,成了人们恐惧的对象。

    公主在屋内整日以泪洗面。

    这时一位魔法师找到了国王,献上了解决办法:只要找到一个公主摸了不会融化的物品,公主的魔法就能解除。

    国王广昭天下,并且允诺:谁能解除诅咒,我将女儿嫁给他。

    消息传出后,三位别国王子带着物品来到了国王面前。

    第一位王子拿出了24K钛合金,公主摸上去瞬间就融化了。

    第二位王子拿出了一颗钻石,可惜也没能成功公主几近绝望。

    第三位王子却来到了她身旁,说“我裤子里有个硬硬的东西,你摸摸?” 。

    公主虽然疑惑,但还是照做了。

    东西没有被融化,公主解除了诅咒。

    国王为他们举报了盛大的婚礼。

    婚房内,公主问王子,到底是什么解除了我的诅咒啊。

    王子微笑着将裤子里的东西掏了出来。

    德芙巧克力,“只溶于口,不溶于手”。

    它会先列出规划:生成17个像素艺术漫画场景,并添加中文字幕。

    随后梳理信息,确定图片尺寸、色彩搭配、布局,并生成所有的提示词。

    最后根据提示词生成图像

    大家也可以把其中的像素风格,替换成其他风格。也可以给它一个主题,让它自己设计剧情,尽情发挥。

     

    一些分享

    之前我们要做AI设计,需要尝试各种软件,充各种会员。

    Lovart的出现,就像为我们添加了一位设计搭档。

    灵感生成、思路设计、成果交付,全流程都在一个画布中呈现。

    生成效果不满意,也不用推翻重来,动动手指就能精准修改,效率直接拉满。

    现在Lovart还在内测期,感兴趣的友友们直接去官网排队申请内测资格。

    没有了专业设计软件和技能的禁锢,每个人都可以把自己的想法付诸实践。

    所以未来一定是idea>skill的时代。

    原文链接:逐帧学习,当我用大佬的视角打开Lovart

  • PxBee – 免费AI图片编辑平台,自动识别移除背景

    PxBee是什么

    PxBee 是在线AI图片编辑平台,基于先进的人工智能技术,帮助用户快速移除图片背景、增强图片质量以及生成新的背景。用户只需上传图片,PxBee 的 AI 工具能自动识别并移除背景,在复杂的图像上也能保持边缘的精确性。平台提供一键式的图片增强功能,能修复模糊的照片、减少噪点、改善光照提升分辨率,让用户快速获得高清清晰度的效果。

    PxBee

    PxBee的主要功能

    • AI背景移除:PxBee 的 AI 工具能快速、准确地从图片中移除背景,在复杂的图像上也能确保边缘的精确性。
    • AI图片增强:提供一键式的图片增强功能,能修复模糊的照片、减少噪点、改善光照并提升分辨率。
    • 背景替换:能即时生成不同种类的背景,适用于各种场景。
    • 场景生成:用户可以根据自己的需求,快速更换图片背景或添加新的背景,将创意转化为令人惊叹的视觉效果。
    • 透明背景应用:移除背景后,用户可以用透明背景进行创新展示,例如产品摄影、海报设计等。产品或设计元素能更好地融入不同的场景。

    PxBee的官网地址

    PxBee的应用场景

    • 创意设计:设计师可以用移除背景后的透明图片进行创意设计,例如制作海报、宣传册或社交媒体图像。
    •  社交媒体内容创作:社交媒体运营者可以快速编辑图片,移除背景并替换为更具吸引力的背景,提升内容的吸引力。
    • 品牌展示:企业可以用 PxBee 的图片编辑功能,快速生成高质量的品牌宣传图片,提升品牌形象。
    • 旅行摄影:移除照片中的多余元素,替换为更理想的背景,提升旅行照片的美感。
  • SOM AI – AI学术写作工具,能快速确定论文方向

    SOM AI是什么

    SOM AI 是 AI 辅助学术写作工具,帮助学生轻松完成毕业论文(Skripsi)和学术研究。工具基于自然语言交互,提供研究主题头脑风暴、段落释义、简化复杂内容等功能,帮助学生避免抄袭、快速理解学术内容。SOM AI 能作为情感支持,缓解写作压力。SOM AI 适用毕业论文和日常学术作业,是实用且高效的学习助手。

    SOM AI

    SOM AI的主要功能

    • 研究主题头脑风暴:根据用户输入的专业领域或兴趣方向,提供相关且合适的研究主题建议,帮助学生快速确定论文方向。
    • 段落释义:将用户提供的段落内容进行重新措辞和释义,在保持原意的基础上更具原创性。
    • 简化复杂内容:帮助用户理解复杂的学术概念或文章内容,将晦涩难懂的表述转化为更通俗易懂的语言。
    • 情感支持:在学生撰写论文或进行学术研究过程中,充当倾诉对象,提供情感上的支持和鼓励。
    • 写作辅助:提供论文写作的结构建议、章节大纲、论证思路等,帮助学生更高效地完成写作。
    • 资料推荐:根据用户的研究主题,推荐相关的学术资料和参考文献。
    • 对话记录保存:用户与 SOM AI 的对话记录自动保存在账户中,方便用户随时查看和回顾。

    SOM AI的官网地址

    SOM AI的应用场景

    • 毕业论文写作:辅助确定主题、梳理思路、提供写作建议,减轻写作压力。
    • 日常作业:帮助完成课程论文、研究报告等,提供写作辅助和资料推荐。
    • 学术研究:理解复杂内容,提供研究思路和方法建议,辅助开展研究。
    • 语言学习:基于释义和简化内容,提升语言表达能力。
    • 资料整理:整理学习资料,推荐相关内容,提高学习效率。
  • WonderPlay – 斯坦福联合犹他大学推出的动态3D场景生成框架

    WonderPlay 是什么

    WonderPlay 是斯坦福大学联合犹他大学推出的新型框架,支持从单张图片和用户定义的动作生成动态3D场景。基于结合物理模拟和视频生成技术,用物理求解器模拟粗略的3D动态,再驱动视频生成器合成更逼真的视频,用视频更新动态3D场景,实现模拟与生成的闭环。WonderPlay 支持多种物理材质(如刚体、布料、液体、气体等)和多种动作(如重力、风力、点力等),用户基于简单操作与场景互动,生成丰富多样的动态效果。

    WonderPlay

    WonderPlay 的主要功能

    • 单图动态场景生成:用一张图片和用户定义的动作输入,生成动态3D场景,展现动作的物理后果。
    • 多材质支持:涵盖刚体、布料、液体、气体、弹性体、颗粒等多种物理材质,满足多样化场景需求。
    • 动作响应:支持重力、风力、点力等动作输入,用户能直观操作与场景互动,生成不同动态效果。
    • 视觉与物理逼真度:结合物理模拟的精确性和视频生成的丰富性,生成符合物理规律和视觉逼真的动态场景。
    • 交互式体验:配备交互式查看器,用户能自由探索生成的动态3D场景,提升沉浸感。

    WonderPlay 的技术原理

    • 混合生成式模拟器:融合物理求解器和视频生成器,用物理求解器模拟粗略3D动态,驱动视频生成器合成逼真视频,用视频更新动态3D场景,实现模拟与生成的闭环。
    • 空间变化双模态控制:在视频生成阶段,用运动(流场)和外观(RGB)双模态信号控制视频生成器,根据场景区域动态调整生成器的责任,确保生成视频在动态和外观上更贴近物理模拟结果。
    • 3D场景重建:从输入图片中分别重建背景和物体,背景用快速分层高斯曲面(FLAGS)表示,物体构建为具有拓扑连接性的“拓扑高斯曲面”,估计物体的材质属性,为后续模拟和生成提供基础。

    WonderPlay 的项目地址

    WonderPlay 的应用场景

    • AR/VR场景构建:用在创建沉浸式虚拟环境,支持用户与场景的动态交互。
    • 影视特效制作:快速生成动态场景原型,辅助特效制作,提升视觉效果。
    • 教育与职业培训:模拟物理现象和工作环境,增强教学和培训的实践性。
    • 游戏开发:生成动态场景和交互效果,提升游戏的真实感和趣味性。
    • 广告与营销:制作动态广告内容,提供互动体验,增强观众参与度。
  • CAR – 字节联合复旦推出的自适应推理框架

    CAR是什么

    CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,能提升大型语言模型(LLM)和多模态大型语言模型(MLLM)在不同任务中的推理效率与准确性。框架基于动态地在短答案和长形式推理之间切换,根据模型对答案的置信度(通过困惑度PPL衡量)决定是否需要进行详细推理。当模型对短答案的置信度较低时,CAR会触发长形式推理提高答案的准确性,当置信度较高时,直接输出短答案,节省计算资源和时间。CAR在视觉问答(VQA)和关键信息提取(KIE)等任务中表现突出,在数学等复杂推理任务中展现出良好的性能。

    CAR

    CAR的主要功能

    • 动态推理切换:CAR能智能地在短答案和长形式推理之间进行切换。对于简单问题,直接输出短答案提高效率;对于复杂问题,触发长形式推理确保准确性。
    • 提升推理效率:CAR显著减少模型生成的token数量,降低计算成本和推理时间,提高模型在实际应用中的效率。
    • 提高推理准确性:在需要详细推理的情况下,激活长形式推理,提高模型在复杂任务中的表现,确保推理结果的准确性。
    • 适应多种任务:CAR适用视觉问答(VQA)和关键信息提取(KIE)等任务,在数学推理、常识推理等复杂任务中发挥作用,具有广泛的适用性。

    CAR的技术原理

    • 模型训练:用包含短答案和长形式推理答案的训练数据对LLM或MLLM进行训练。训练时,模型需要学习如何根据不同的提示生成相应的短答案或长形式推理答案。优化目标是交叉熵损失,用最小化预测token的概率分布与真实token的分布之间的差异训练模型。
    • 获取短答案的PPL:在训练数据上进行短答案推理,计算每个短答案的困惑度(PPL)。PPL是衡量模型对答案置信度的指标,PPL越低,表示模型对答案的置信度越高。
    • 高斯分布建模:假设正确和错误短答案的PPL分数分别服从高斯分布。基于训练数据估计分布的参数,分别计算正确和错误答案的PPL均值和方差,得到两个高斯分布模型。
    • 推理过程:对于新的输入,首先生成短答案计算PPL值。根据高斯分布模型计算该PPL值下答案正确的概率。

    CAR的项目地址

    CAR的应用场景

    • 视觉问答(VQA):CAR在简单问题上直接输出短答案,提高效率;在复杂问题上触发长形式推理,确保准确。
    • 关键信息提取(KIE):根据置信度动态选择推理方式,减少token使用量,保持高准确率。
    • 数学推理:在简单数学问题上直接输出答案,在复杂问题上进行详细推理,提升准确性和效率。
    • 常识推理:针对简单常识问题直接给出答案,复杂问题则进行长形式推理,减少token消耗。
    • 多模态任务:结合文本和图像信息,动态选择推理方式,提升多模态任务的准确性和效率。