Category: AI项目和框架

  • 通古大模型 – 华南理工大学推出的古籍大语言模型

    通古大模型是什么

    通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用24.1亿古籍语料进行无监督训练,结合400万古籍对话数据进行指令微调。模型采用冗余度感知微调(RAT)技术,有效提升了古籍任务的性能。帮助用户更便捷地理解和翻译古籍文献。通过检索增强生成(CCU-RAG)技术,减少知识密集型任务中的幻觉问题,提高生成内容的准确性和可靠性。

    通古大模型

    通古大模型的主要功能

    • 古文句读:通古大模型能自动为古文添加标点符号,解决古籍中常见的断句问题,帮助用户更好地理解古文内容。
    • 文白翻译:模型支持文言文与白话文之间的双向翻译,将晦涩的古文翻译为现代文,同时也可将现代文转换为文言文,方便用户进行古籍阅读和研究。
    • 诗词创作:通古大模型可以生成符合古诗词格律和风格的诗歌,用户可以根据需求提供主题或关键词,模型生成相应的诗词作品。
    • 古籍赏析:模型能对古籍中的经典篇章进行赏析,解读其文学价值、历史背景和文化内涵,辅助用户深入学习古籍。
    • 古籍检索与问答:结合检索增强技术,通古大模型可以快速检索古籍内容,根据用户的问题提供准确的答案,帮助用户高效获取古籍信息。
    • 辅助古籍整理:模型能识别古籍中的文字错误、缺漏等问题,提供修复建议,辅助古籍整理和数字化工作。

    通古大模型的技术原理

    • 基础模型架构:通古大模型基于百川2-7B-Base进行增量预训练。百川2-7B-Base是强大的预训练语言模型,为通古大模型提供了基础的语言理解和生成能力。
    • 无监督增量预训练:模型在24.1亿古籍语料上进行无监督增量预训练。使模型学习古籍的语言风格和结构,为后续的古籍处理任务奠定基础。
    • 多阶段指令微调:通古大模型采用了多阶段指令微调技术,提出了冗余度感知微调(RAT)方法。在提升下游任务性能的同时,保留了基座模型的能力。通过指令微调,模型能更好地适应古籍处理的具体任务,如古文翻译、句读等。
    • 检索增强生成(RAG)技术:通古大模型结合了检索增强生成(RAG)技术,减少知识密集型任务中的幻觉问题。核心是将信息检索与文本生成相结合,通过从外部知识库中检索相关信息,作为上下文输入给语言模型,生成更准确、更符合上下文的答案。

    通古大模型的项目地址

    通古大模型的应用场景

    • 古籍处理与数字化:通古大模型能高效处理古籍文献,支持文白翻译、句读标点和古籍检索等功能。辅助古籍整理工作,通过智能识别和修复古籍中的文字错误,提升古籍数字化的效率。
    • 教育支持:教师可以用来生成教案、教学PPT,设计课堂互动环节。对于学生,模型能提供文言文翻译、成语解释和诗词创作等功能,帮助他们更好地理解古文。
    • 文化传承与普及:通古大模型通过降低古籍阅读难度,让更多人接触和理解中华传统文化。
    • 学术研究:通古大模型为古籍研究提供了强大的技术支持,能帮助学者快速检索和分析古籍内容。
  • BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术

    BAG是什么

    BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术,通过结合多视图图像扩散模型和控制网络(ControlNet),运用人体形状和姿态信息,自动生成与人体完美适配的3D可穿戴资产,如服装和配饰。 BAG的核心在于基于多视图生成器和3D扩散模型。首先通过多视图图像扩散模型生成与人体对齐的多视图图像,然后基于3D扩散模型将这些图像转化为3D资产。通过物理模拟和优化,生成的资产能自然地贴合人体,避免穿透问题。

    BAG

    BAG的主要功能

    • 多视图图像生成:通过多视图图像扩散模型,基于人体的形状和姿态信息生成与人体对齐的多视图图像。
    • 3D资产生成:将多视图图像输入3D扩散模型,生成高质量的3D可穿戴资产。
    • 多样化与个性化:支持从单个资产到多个组件组合的生成,满足不同场景下的多样化需求。
    • 高效适配:能快速生成与不同人体模型适配的资产,适用于虚拟服装试穿、游戏开发、VR和AR等领域。

    BAG的技术原理

    • 视图图像扩散模型:BAG首先构建了一个从单图像到一致多视图图像的扩散模型,在大规模Objaverse数据集上进行训练,实现多样性和泛化能力。模型通过控制网络(ControlNet)引导生成与人体对齐的多视图图像,控制信号利用目标人体的多视图2D投影,其中像素值表示规范化空间中人体表面的XYZ坐标。
    • 3D形状生成:生成的多视图图像被输入到本地3D扩散模型中,生成资产的3D形状。通过多视图轮廓监督恢复相似变换(Sim3),确保生成的3D资产与人体模型在空间上对齐。
    • 物理模拟与优化:为了确保生成的3D资产能自然地贴合人体,BAG采用物理模拟技术解决资产与身体之间的穿透问题。通过代理网格保留资产的基本几何形状,作为布料模拟的代表,最终实现无穿透的对齐。

    BAG的项目地址

    BAG的应用场景

    • 虚拟服装试穿:BAG能根据用户的身体模型快速生成适配的3D服装和配饰,用户可以在虚拟环境中实时试穿不同款式和风格的服装,提升购物体验,减少因尺寸不合适导致的退货率。
    • 游戏开发:在游戏开发中,BAG可用于为游戏角色生成多样化的服装和配饰,支持个性化定制,丰富玩家的角色体验。
    • 虚拟现实(VR)和增强现实(AR):BAG生成的3D资产可以无缝集成到VR和AR应用中,为用户提供沉浸式的服装试穿和设计体验,在虚拟展厅中试穿不同风格的服装。
    • 时尚设计:设计师可以用BAG快速生成和迭代3D服装模型,加速设计流程,在虚拟环境中预览设计效果,降低设计成本。
  • WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集

    WebLI-100B是什么

    WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。WebLI-100B的规模是之前最大视觉语言数据集的十倍,用海量数据提升模型对长尾概念、文化多样性和多语言内容的理解能力。研究者在构建时仅进行基本的数据过滤,保留尽可能多的语言和文化多样性。WebLI-100B的出现为训练更具包容性的多模态模型提供了重要的基础资源。

    WebLI-100B

    WebLI-100B的主要功能

    • 支持大规模预训练:WebLI-100B提供1000亿个图像-文本对,为VLMs的预训练提供丰富的数据资源,显著提升模型在多种任务上的性能。
    • 提升文化多样性:包含来自不同文化背景的图像和文本,帮助模型更好地理解和生成与不同文化相关的视觉和语言内容。
    • 增强多语言能力:数据集中包含多种语言的文本,有助于提升模型在低资源语言上的性能,促进多语言任务的开发和应用。
    • 支持多模态任务:WebLI-100B的数据用在多种多模态任务,如图像分类、图像描述生成、视觉问答等,为多模态模型的开发提供强大的支持。

    WebLI-100B的技术原理

    • 数据收集
      • 来源:WebLI-100B的数据主要来源于互联网,通过大规模的网络爬取收集图像及其对应的文本描述(如图像的alt文本或页面标题)。
      • 规模:数据集包含1000亿个图像-文本对,是迄今为止最大的视觉语言数据集之一。
    • 数据过滤
      • 基本过滤:为了确保数据的质量和多样性,WebLI-100B仅进行了基本的数据过滤,例如移除有害图像和个人身份信息(PII),以保留尽可能多的语言和文化多样性。
      • 质量过滤(可选):研究中还探讨了使用CLIP等模型进行数据过滤,以提高数据质量,但这种过滤可能会减少某些文化背景的代表性。
    • 数据处理
      • 文本处理:将图像的alt文本和页面标题作为配对文本,使用多语言mt5分词器进行分词处理,确保文本数据的多样性和一致性。
      • 图像处理:将图像调整为224×224像素的分辨率,适应模型的输入要求。

    WebLI-100B的项目地址

    WebLI-100B的应用场景

    • 人工智能研究者:用在模型预训练,探索新算法,提升视觉语言模型性能。
    • 工程师:开发多语言和跨文化的应用,如图像描述、视觉问答和内容推荐系统。
    • 内容创作者:生成多语言的图像描述和标签,提升内容的本地化和多样性。
    • 跨文化研究者:分析不同文化背景下的图像和文本,研究文化差异。
    • 教育工作者和学生:作为教学资源,学习多模态数据处理和分析。
  • Sa2VA – 字节跳动等机构开源的多模态大语言模型

    Sa2VA是什么

    Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。Sa2VA采用解耦设计,保留SAM2的感知能力和LLaVA的语言理解能力,引入Ref-SAV数据集,用在提升复杂视频场景下的指代分割性能。

    Sa2VA

    Sa2VA的主要功能

    • 图像和视频指代分割:根据自然语言描述精确分割图像或视频中的目标对象。
    • 图像和视频对话:支持与用户进行基于图像或视频的对话,回答与视觉内容相关的问题。
    • 视觉提示理解:支持处理视觉提示(如图像中的框、点等),并结合语言描述生成对应的分割掩码或回答。
    • 基于指令的视频编辑:根据用户指令对视频内容进行编辑,
    • 密集的视觉理解:Sa2VA能理解图像和视频的整体内容,还能对像素级的视觉细节进行分析和操作,支持复杂场景下的细粒度任务,如长文本描述的视频对象分割。
    • 零样本推理:支持在未见过的视频上进行推理,根据语言描述直接生成分割掩码或回答问题,无需额外训练。

    Sa2VA的技术原理

    • 模型架构:结合SAM2和 LLaVA。SAM2负责视频的时空分割,LLaVA提供语言理解和生成能力。两者基于特殊的 [SEG] 令牌连接,LLaVA的输出作为SAM2的输入,指导其生成分割掩码。
    • 统一任务表示:将多种任务(如指代分割、视觉对话、视觉提示理解等)统一为单次指令调整过程。所有输入(图像、视频、文本)被编码为视觉令牌,输入到LLM中,输出文本或分割掩码。
    • 解耦设计:基于解耦设计,冻结SAM2的解码器和记忆模块,保留其感知和跟踪能力。
    • Ref-SAV数据集:引入Ref-SAV数据集,包含超过72k个复杂视频场景中的对象表达。数据集基于自动标注管道生成,包含长文本描述和复杂场景,提升模型在复杂环境下的性能。
    • 时空提示:基于LLaVA生成的 [SEG] 令牌作为SAM2的时空提示,指导生成精确的分割掩码。
    • 联合训练:在多个数据集上进行联合训练,包括图像QA、视频QA、图像分割和视频分割数据。

    Sa2VA的项目地址

    Sa2VA的应用场景

    • 视频编辑:根据语言指令快速移除或替换视频中的对象,提升创作效率。
    • 智能监控:基于语言描述实时识别和跟踪监控画面中的目标,助力安防监控。
    • 机器人交互:理解指令并操作,如“拿起红色杯子”,增强机器人与环境的互动。
    • 内容创作:为图像或视频生成描述和问答,辅助教育或创意写作。
    • 自动驾驶:识别和分割道路场景中的行人、车辆等,辅助驾驶决策。
  • Matrix-Zero – 昆仑万维推出的世界模型

    Matrix-Zero是什么

    Matrix-Zero是昆仑万维推出的世界模型,包含两款子模型:3D场景生成大模型和可交互视频生成大模型。Matrix-Zero能将用户输入的图片转化为可自由探索的真实3D场景,支持不同风格的图片输入和风格迁移,具备全局一致性、动态场景生成等亮点。Matrix-Zero的可交互视频生成模型以用户输入为核心,支持视角和运动轨迹的精确控制,提供流畅的交互体验。Matrix-Zero世界模型预计4月份上线,对AI游戏生产、AI短剧生产和编辑等业务进一步赋能,为用户和开发者带来新的平台和工具。

    Matrix-Zero

    Matrix-Zero的主要功能

    • 3D场景生成
      • 全局一致性:生成的3D场景在360度环视或长距离探索时保持一致,不会出现前后矛盾的现象。
      • 风格迁移:支持不同风格的图片输入(如写实、卡通),并实现风格切换。
      • 动态效果:生成的场景包含动态物理效果,如光照、水流、云雾等,符合真实物理规律。
      • 大范围探索:用户在生成的场景中进行任意方向的长距离探索,支持多种视角切换。
    • 可交互视频生成
      • 实时交互:用户可以通过键盘、鼠标等设备控制视频内容的视角和运动轨迹。
      • 精准控制:包含离散运动控制(如前进、后退、跳跃)和连续视角控制(如视角变化、方向调整)。
      • 位置追踪:基于三维空间定位技术,确保视角移动的自然性和连贯性。
      • 滑动窗口机制:引入历史输入信息,优化交互的流畅性和响应速度。

    Matrix-Zero的技术原理

    • 3D场景生成技术原理
      • 可微渲染:支持模型用反向传播学习如何从输入图像生成3D场景的几何结构。通过可微渲染,模型优化生成的3D场景,在视觉上与输入图像保持一致,确保场景的全局一致性和物理合理性。
      • 扩散模型:逐步去除噪声生成数据(如图像或3D场景),生成过程中逐渐从噪声中恢复出目标内容。用在生成高质量的3D场景布局和纹理,确保生成的场景在细节和整体结构上都符合输入图像的特征。
      • 几何生成模块与纹理生成模块
        • 几何生成模块:用可微渲染和扩散模型技术,生成与输入图像一致的3D场景布局。
        • 纹理生成模块:基于图片生成模型和视频生成模型训练,实时对场景缺失区域进行几何和纹理补全,确保用户在任何位置和角度都能看到合理、一致的场景。
      • 动态效果生成:模拟物理规律(如光照、水流、云雾等)的动态变化,生成符合真实物理规律的动态场景。让生成的3D场景更加逼真,增强沉浸感。
    • 可交互视频生成技术原理
      • 多模态交互技术:结合用户输入(如键盘、鼠标操作)和生成模型,实现对视频内容的实时交互控制。用户用简单的操作(如前进、后退、视角切换)实时调整视频内容,增强交互体验。
      • 离散运动控制与连续视角控制
        • 离散运动控制模块:解析用户输入的离散控制信号(如前进、跳跃、后退),将其转化为运动轨迹,影响视频中的对象行为。
        • 连续视角控制模块:解析鼠标或其他输入设备的连续控制信号(如视角变化、方向调整),确保视角变换的平滑性和一致性。
      • 3D场景位置追踪:基于三维空间定位技术,实时追踪用户在场景中的位置和视角变化。确保视角移动时的位置稳定性,减少画面跳转,让视频内容更加连贯。
      • 滑动窗口机制:引入时间序列中的历史输入信息,预测用户的下一步操作,优化控制响应的平滑度。提高交互的流畅性,减少输入延迟,提升用户体验。
      • 强化学习与优化:基于强化学习算法,模型能不断优化生成结果,使其更符合用户的交互意图和物理规律。提升生成内容的质量和交互的自然性,确保生成的3D场景和视频在动态变化中保持一致性和合理性。

    Matrix-Zero的应用场景

    • 影视制作:快速生成虚拟场景,模拟动态效果,提升制作效率和视觉体验。
    • 游戏开发:高效生成3D场景和动态内容,增强游戏的真实感和沉浸感。
    • 具身智能:构建逼真的虚拟环境,用于智能体的训练和测试。
    • 数字内容创作:支持AI短剧、虚拟直播等,降低创作门槛,提升效率。
    • 教育与培训:搭建虚拟教学环境,提供沉浸式模拟训练。
  • Social Media Agent – AI社交媒体内容管理工具,输入URL自动生成帖子

    Social Media Agent是什么

    Social Media Agent是智能的社交媒体内容管理工具,能帮用户收集、整理和安排发布社交媒体帖子,基于输入的URL内容生成Twitter和LinkedIn帖子。Social Media Agent用人机交互流程,处理社交媒体平台认证,支持用户修改或接受/拒绝生成的帖子。Social Media Agent支持基本和高级两种设置模式,高级模式下能处理YouTube视频内容、集成Slack和GitHub等,功能更强大。

    Social Media Agent

    Social Media Agent的主要功能

    • 内容生成:基于输入的URL内容,自动生成社交媒体帖子。
    • 多平台支持:支持Twitter和LinkedIn平台的帖子生成。
    • 认证管理:基于HITL流程处理社交媒体平台的认证。
    • 用户交互:用户能修改或接受/拒绝生成的帖子。

    Social Media Agent的技术原理

    • 自然语言处理(NLP):用大型语言模型(如Anthropic API)生成自然语言内容,能根据输入的URL内容生成高质量的帖子。基于提示词(Prompts)引导模型生成符合用户需求的帖子内容。提示词包括业务上下文、推文示例、帖子结构指导和帖子内容规则等。
    • Web 抓取:用FireCrawl API进行网页抓取,提取URL内容。抓取的内容用于生成帖子的输入数据。支持处理不同类型的URL内容,包括文本、图片和视频等。
    • 认证和授权:基于“机交互(HITL)的工作流程,处理不同社交媒体平台的认证。用户基于Arcade或自己的开发者账户进行认证。
    • 自动化和调度:支持设置Cron作业,定期从Slack频道获取链接并生成帖子。Cron作业基于定时任务自动触发内容生成流程。用LangGraph服务器进行任务调度和管理,确保生成的帖子及时生成、通知用户。

    Social Media Agent的项目地址

    Social Media Agent的应用场景

    • 企业社交媒体运营:企业快速生成基于最新博客文章或新闻的社交媒体帖子,提高内容发布效率,保持品牌在Twitter和LinkedIn上的活跃度。
    • 个人品牌建设:个人如行业专家、博主等,输入专业文章或研究成果链接,生成高质量的社交媒体分享内容,提升个人品牌影响力和行业认可度。
    • 营销活动推广:在开展营销活动时,如产品发布、促销活动等,通过输入活动页面链接,生成吸引人的推文,增强活动的曝光度和参与度。
    • 社区互动管理:社区管理者生成社区动态、活动预告等帖子,及时回应用户,提升社区的活跃度和用户粘性。
    • 自动化内容发布:结合Cron作业,实现从Slack频道自动获取链接生成帖子,适合资源有限但需定期发布内容的团队,实现内容发布的自动化和定时化。
  • OpenThinker-32B – 斯坦福、UC 伯克利等机构联合开源的推理模型

    OpenThinker-32B是什么

    OpenThinker-32B 是斯坦福、UC 伯克利、华盛顿大学等机构联合开发的开源推理模型,拥有 328 亿参数,支持 16,000 token 的上下文长度。模型仅使用 114k 数据样本进行训练,在多个基准测试中表现出色,优于 DeepSeek-R1-32B。关键在于数据规模化、严格验证和模型扩展。OpenThinker-32B 完全开源,包括模型权重、数据集、数据生成代码和训练代码,为 AI 社区提供了宝贵的资源。

    OpenThinker-32B

    OpenThinker-32B的主要功能

    • 高效推理能力:OpenThinker-32B 拥有 328 亿参数,支持 16,000 token 的上下文长度,能处理复杂的推理任务。
    • 数据利用效率高:模型仅使用了 114k 数据样本进行训练,相比之下,DeepSeek-R1-Distill 使用了 800k 数据样本。表明 OpenThinker-32B 在数据利用效率上有显著提升。
    • 开源与可扩展性:OpenThinker-32B 的模型权重、数据集、数据生成代码和训练代码全部开源。研究人员和开发者可以轻松复现该模型,在此基础上进行优化和扩展。
    • 数据验证与质量控制:研究团队通过 DeepSeek-R1 模型收集了 17.3 万个问题的推理过程和解答尝试,进行了严格验证,确保数据质量和多样性。高质量的数据策展方式使得模型在较少数据量下也能实现优异性能。
    • 多领域应用:OpenThinker-32B 可应用于多个领域,包括但不限于代码生成、数学问题解决、科学推理等。

    OpenThinker-32B的技术原理

    • 数据策展与验证:OpenThinker-32B 使用经过严格筛选和验证的 OpenThoughts-114k 数据集进行训练。
    • 模型架构与训练:OpenThinker-32B 基于 Qwen2.5-32B-Instruct 模型,采用 64 层 Transformer 架构,支持 16k 的上下文长度。训练过程中,团队使用 LLaMa-Factory 对其进行了三轮微调。

    OpenThinker-32B的项目地址

    OpenThinker-32B的应用场景

    • 数学和科学问题解决:OpenThinker-32B 在数学和科学推理方面表现出色,能处理复杂的数学问题、谜题以及科学领域的推理任务。
    • 代码生成与优化:能处理代码问题,生成高质量的代码解决方案,通过测试用例验证其正确性。OpenThinker-32B 可以作为开发者的智能助手,帮助生成和优化代码,提高开发效率。
    • 跨领域推理:OpenThinker-32B 的训练数据涵盖了代码、谜题、科学和数学等多个领域。能处理多种类型的推理任务,适用于需要综合运用不同知识的复杂场景。
    • 强化学习研究:研究人员可以用 OpenThinker-32B 的模型权重、数据集和训练代码进行强化学习研究。
  • GAS – 卡内基梅隆联合上海 AI Lab 等推出的单图生成3D人体框架

    GAS是什么

    GAS(Generative Avatar Synthesis from a Single Image)是卡内基梅隆大学、上海人工智能实验室和斯坦福大学的研究人员提出的从单张图像生成高质量、视角一致且时间连贯虚拟形象的框架。GAS的核心在于结合了回归型3D人体重建模型和扩散模型的优势。基于3D人体重建模型从单张图像生成中间视角或姿态,将其作为条件输入视频扩散模型,实现高质量的视角一致性和时间连贯性。框架引入了“模式切换器”,用于区分视角合成和姿态合成任务,进一步提升生成效果。

    GAS

    GAS的主要功能

    • 视角一致的多视角合成:从单张图像生成高质量的多视角渲染,确保不同视角下的外观和结构一致性。
    • 时间连贯的动态姿态动画:通过给定的姿态序列,生成流畅且真实的非刚性形变动画,实现动态姿态的连贯性。
    • 统一框架与泛化能力:将视角合成和姿态合成任务统一,通过共享模型参数和利用大规模真实数据(如网络视频)进行训练,提升模型对真实场景的泛化能力。
    • 密集外观提示:基于3D重建模型生成的密集信息作为条件输入,确保生成结果在外观和结构上的高保真度。

    GAS的技术原理

    • 3D人体重建与密集条件信号:GAS首先基于回归型3D人体重建模型(如单视角通用人类NeRF)从输入图像生成中间的视角或姿态。通过将输入图像映射到规范空间并重新定位,生成密集的外观提示。这些密集信息作为条件输入,为后续的扩散模型提供了丰富的细节和结构信息,确保生成结果的高质量和一致性。
    • 视频扩散模型与统一框架:生成的中间视角或姿态被用作视频扩散模型的条件输入,通过扩散模型生成高质量的视角一致性和时间连贯性动画。GAS提出了统一框架,将视角合成和姿态合成任务合并,共享模型参数,实现从姿态合成到视角合成的自然泛化。
    • 模式切换器:为了区分视角合成和姿态合成任务,GAS引入了模式切换器模块。模块支持网络在生成视角时专注于一致性,在生成姿态时专注于真实感变形。
    • 真实世界数据的泛化能力:GAS通过结合大规模真实世界视频(如网络视频)进行训练,显著提升了对真实场景的泛化能力。数据来源的多样性使得模型能够适应各种光照、服装和动作条件。
    • 训练与推理:GAS的训练分为两个阶段:首先训练3D人体重建模型,然后冻结该模型并训练视频扩散模型。推理时,根据任务性质(视角合成或姿态合成)采用不同的分类器自由引导(CFG)策略。

    GAS的项目地址

    GAS的应用场景

    • 游戏和虚拟现实(VR):GAS可以从单张图像生成高质量的虚拟形象,支持多视角和动态姿态的连贯合成。
    • 影视制作:在影视特效和动画制作中,GAS能快速生成逼真的虚拟角色,减少传统建模和动画制作的时间和成本。
    • 体育和健身:通过从单张图像生成动态虚拟形象,GAS可用于创建个性化的运动动画,帮助运动员分析动作或用于健身应用中。
    • 时尚和服装设计:GAS能生成不同姿态和视角的虚拟形象,帮助设计师快速预览服装效果,提升设计效率。
  • CineMaster – 快手推出的文本到视频生成框架,具备3D感知能力

    CineMaster是什么

    CineMaster是快手推出的具备3D感知能力的文本到视频生成框架。类似于视频版的ControlNet,支持用户通过多种控制信号精确操控视频中物体的位置和相机运动。可以使用文本提示生成视频,能结合深度图、相机轨迹和物体标签等信号进行细致调整。快手提供了一套从大规模视频中提取3D边界框和相机轨迹的流程,为CineMaster的训练和应用提供了强大的数据支持。

    CineMaster

    CineMaster的主要功能

    • 3D物体与摄像机控制:用户可以在3D空间中自由调整物体位置、大小和运动轨迹,同时定义摄像机的运动(如平移、旋转),实现精准的场景布局和镜头设计。
    • 交互式设计与实时预览:通过交互界面,用户可以实时预览3D布局效果,逐步优化设计,直到达到理想的视觉效果,类似于电影拍摄中的分镜头设计。
    • 3D感知的视频生成:基于深度图、物体标签和摄像机轨迹作为条件信号,CineMaster能生成精准符合用户设计意图的视频内容,支持复杂的物体和摄像机运动。
    • 自动化数据标注:提供一套自动化流程,从普通视频中提取3D边界框和摄像机轨迹,解决了大规模3D标注数据稀缺的问题,提升了模型的训练效果。
    • 高质量视频输出:支持生成高质量、多样化的视频内容,适用于多种创作场景,满足专业和娱乐需求。

    CineMaster的技术原理

    • 两阶段工作流程
      • 第一阶段:用户通过3D界面定义物体和摄像机的布局,生成深度图和运动轨迹作为控制信号。
      • 第二阶段:将控制信号输入扩散模型,生成符合设计意图的视频。
    • 语义布局控制网络:结合3D空间布局和语义信息,通过MLP融合深度图和物体标签,精准指导视频生成。
    • 摄像机适配器:将摄像机姿态注入生成过程,区分物体和摄像机运动,支持复杂镜头设计。
    • 自动化数据标注流水线:使用实例分割、深度估计和3D点云计算,从普通视频中提取3D边界框和摄像机轨迹,为模型训练提供数据支持。
      • 实例分割:用Grounding DINO和SAM 2获取前景实例分割结果。
      • 深度估计:用DepthAnything V2生成度量深度图。
      • 3D点云与边界框计算:通过反投影计算每个实体的3D点云,计算最小体积的3D边界框。
      • 实体跟踪与3D边界框调整:用SpatialTracker进行点跟踪,计算每帧的3D边界框并渲染深度图。
    • 扩散模型与训练策略:基于预训练的扩散模型,通过多阶段训练(包括深度图训练、语义布局训练和联合训练)提升生成质量和可控性。

    CineMaster的项目地址

    CineMaster的应用场景

    • 影视制作:用于分镜头设计、特效预览和动画制作,帮助导演和创作者快速实现创意,提升制作效率。
    • 广告和营销:制作创意视频、产品演示和虚拟场景,增强广告吸引力和用户体验。
    • 游戏开发:生成过场动画、场景设计和角色动画,提升游戏的叙事和视觉效果。
    • 教育和培训:制作教学视频、虚拟实验和安全培训内容,提升教学和培训效果。
    • 娱乐和社交媒体:制作创意视频、虚拟旅游和互动娱乐内容,增强用户参与感和沉浸感。
  • Goedel-Prover – 自动化数学问题的形式证明生成开源推理模型

    Goedel-Prover是什么

    Goedel-Prover(哥德尔证明器)是普林斯顿大学、清华大学、清华大学等机构推出的开源大型语言模型(LLM),用在自动化数学问题的形式证明生成。基于将自然语言数学问题翻译成形式语言(如Lean 4)生成形式化证明,解决形式化数学陈述和证明稀缺的问题。Goedel-Prover用专家迭代方法训练,基于不断扩展形式证明数据集,逐步提升证明能力。在多个基准测试中,Goedel-Prover表现出色,例如在miniF2F基准测试中达到57.6%的成功率,显著优于之前的开源模型。Goedel-Prover成功解决了PutnamBench中的7个问题,并为Lean Workbook生成近3万个形式证明,为自动化定理证明领域带来重大突破。

    Goedel-Prover

    Goedel-Prover的主要功能

    • 形式化翻译:将自然语言数学问题转换为形式语言,确保翻译的准确性和完整性。
    • 证明生成:自动生成完整的证明,支持复杂的数学推理。
    • 性能优化:基于专家迭代方法不断优化证明能力,提升证明成功率。
    • 大规模数据处理:处理和生成大规模的形式化陈述和证明数据集,提升模型的泛化能力。

    Goedel-Prover的技术原理

    • 形式化翻译
      • 使用两个形式化器(Formalizer A和Formalizer B)将自然语言数学问题翻译成Lean 4的形式语言。两个形式化器分别基于不同的数据集进行训练,增加形式化风格的多样性。
      • 基于编译正确性(CC)测试和忠实性与完整性(FC)测试评估形式化陈述的质量,确保其符合Lean语法且准确捕捉原始问题的含义。
    • 专家迭代(Expert Iteration):初始阶段,用现有的证明器(如DeepSeek-Prover-V1.5-RL)为每个形式化陈述生成多个证明候选,基于Lean编译器验证证明的正确性。将验证通过的证明收集起来,作为训练数据,对基础模型(如DeepSeek-Prover-V1.5-Base)进行监督微调,生成新的证明器。重复上述过程,每次迭代都用新的证明器生成更多的证明,并将其加入训练数据,逐步提升模型的证明能力。
    • 数据集扩展:除使用公开的Numina数据集外,Goedel-Prover形式化大量私人收集的数学问题,与Lean Workbook中的现有陈述合并,形成大规模的形式化陈述数据集。在训练过程中,逐步加入Mathlib4等外部数据集,增强模型对不同数学领域的适应能力。

    Goedel-Prover的项目地址

    Goedel-Prover的应用场景

    • 数学研究:帮助数学家快速验证复杂定理的证明,加速研究进程。
    • 数学教学:为教师提供详细证明过程,辅助学生理解数学概念和逻辑。
    • 软件验证:验证软件算法的逻辑正确性,提高软件的可靠性和安全性。
    • AI算法验证:验证AI算法的理论基础,确保其逻辑正确性和性能。
    • 跨学科研究:验证不同学科间理论联系,为跨学科研究提供理论支持。