Blog

  • DreamActor-M1 – 字节跳动推出的 AI 图像动画框架

    DreamActor-M1是什么

    DreamActor-M1是字节跳动推出的先进AI图像动画框架,能将静态人物照片转化为生动的动画视频。采用混合引导机制,结合隐式面部表示、3D头部球体和3D身体骨架等控制信号,实现对人物面部表情和身体动作的精准控制。支持多语言语音驱动面部动画,可生成口型同步结果。 DreamActor-M1具有高保真度和身份保持能力,生成的视频在时间上连贯性强。

    DreamActor-M1

    DreamActor-M1的主要功能

    • 静态照片转动态影像:通过结合一张静态照片和一段参考动作视频,将照片中的人物无缝替换到视频场景中,生成表情细腻、动作自然且画质高清的动态影像。
    • 精细控制:结合隐式面部表示、3D头球和3D身体骨架,实现对面部表情和身体动作的稳健控制。
    • 灵活的运动转移:支持仅传递部分运动,例如面部表情和头部运动。
    • 面部动画支持:可扩展至音频驱动的面部动画,实现多语言的口型同步。
    • 形状感知动画:通过骨骼长度调整技术,实现形状适应的动画生成。
    • 多样化风格支持:对各种角色和运动风格具有鲁棒性。
    • 多种视角支持:能在不同的头部姿态下生成动画结果。

    DreamActor-M1的技术原理

    • 混合引导机制:DreamActor-M1 采用混合引导机制,结合隐式面部表示、3D 头球和 3D 身体骨架等控制信号,实现对人物面部表情和身体动作的精准控制。这种混合引导方式能够确保生成的动画在细节上高度逼真,同时保持整体的协调性和流畅性。
    • 多尺度适应性:框架通过逐步训练策略,能处理各种身体姿势和不同分辨率的图像,支持从肖像到全身视图的转换。这种多尺度适应性使得 DreamActor-M1 可以在多种场景下生成高质量的动画内容。
    • 长期时间一致性:DreamActor-M1 通过整合连续帧的运动模式和视觉参考,确保在复杂动作中未观察区域的时间一致性。对于生成长时间的连贯动画至关重要,能避免常见的“穿帮”现象。
    • 面部动画与语音支持:框架支持音频驱动的面部动画,能实现多语言的口型同步。可以通过语音输入来驱动面部表情的变化,生成自然的口型动作,进一步增强了动画的真实感。
    • 形状感知动画:DreamActor-M1 具备形状感知动画的能力,通过骨骼长度调整技术,能实现形状适应的动画生成。使生成的动画能更好地适应不同人物的身体特征。

    DreamActor-M1的项目地址

    DreamActor-M1的应用场景

    • 虚拟角色创作:能将演员的表演无缝转移到虚拟角色上,捕捉演员的面部表情、动作节奏以及情感细节,为虚拟角色赋予生动的情感和动作。
    • 个性化动画视频生成:用户可以将自己的照片转化为生动有趣的动画视频,增加内容的趣味性和吸引力。比如将一张静态照片制作成跳舞、唱歌等有趣动作的动画视频,分享到社交媒体上。
    • 虚拟主播与网红:可用于制作虚拟主播或网红,降低制作成本和时间。虚拟主播可以 24 小时不间断地进行直播、发布内容,形象和风格可以根据需求定制。
    • 创意广告制作:广告公司可以用技术快速生成具有吸引力的广告视频,将产品与生动的人物动画相结合,提高广告的吸引力和传播效果。
  • 腾讯混元大模型应用实战课 – AI教程资料

    腾讯混元大模型应用实战课是什么

    腾讯混元大模型应用实战课是腾讯为高校师生打造的系列课程,已上线国家高等教育智慧教育平台。课程结合腾讯在大模型技术的优势,涵盖从大模型技术通识到AI工具实用技能的全方位内容。课程聚焦多模态生成、逻辑推理等核心功能,设计智慧教学、科研辅助、学科融合等应用场景案例,基于技术原理解析和案例实操演练,助力师生用大模型进行教学教研及学术创新。课程帮助高校师生规范、高效地使用大模型,加速教育教学及科研创新,推动人工智能技术在教育领域的广泛应用。

    腾讯混元大模型应用实战课程

    腾讯混元大模型应用实战课的主要功能

    • 技术展示与推广:介绍腾讯在人工智能领域的技术实力和产品,包括混元大模型、多模态生成技术、AI编程工具等,展示创新能力和技术优势。
    • 用户教育与引导:基于详细的操作指南和使用案例,帮助用户快速掌握腾讯AI工具的使用方法,引导用户探索AI技术在不同场景中的应用。
    • 行业交流与合作:分享腾讯的技术路线和实践经验,为行业提供参考,基于开源计划推动AI技术的开放和普及,促进合作与交流。
    • 促进技术创新与应用落地:展示腾讯在多模态生成、RAG技术等领域的创新成果,基于实际应用案例,推动AI技术在各行业的落地和应用。
    • 培养开发者和用户群体:提供开发工具和学习资源,帮助开发者提升技能,降低AI技术使用门槛,吸引更多用户尝试和使用腾讯的AI产品。
    • 建立品牌形象与信任:展示技术成就和产品优势,树立腾讯在AI领域的专业形象,增强用户对腾讯AI产品的信任和认可。

    腾讯混元大模型应用实战课的官网地址

    腾讯混元大模型应用实战课的课程介绍

    第一节:腾讯混元大模型全景介绍

    • 课程介绍:课介绍腾讯混元大模型的全链路自研、能力建设、行业应用和开源计划。混元基于持续迭代实现技术突破和广泛应用。在思考、感知、创造能力方面表现出色,各模态模型处于行业领先。混元助力腾讯业务提效创新,推动医疗、消费电子等行业AI变革,提升用户学习和工作效率,激发创作灵感,积极开源,让AI能力更易获取。
    • 课程内容
      • 全链路自研与技术突破:腾讯混元大模型实现从底层算法到框架平台的全链路自主研发,基于持续迭代,在大语言模型、多模态理解和3D生成等能力上取得全面突破,各模态模型稳居行业第一梯队。
      • 助力产业创新与变革:混元大模型全面接入腾讯业务场景,显著提升业务效率和创新能力,推动医疗、消费电子等千行万业的AI变革,助力企业实现模式重构。

    腾讯混元大模型应用实战课程

      • 提升用户体验与效率:混元大模型帮助用户提升学习和工作效率,激发创作灵感,为用户带来更智能、更便捷的体验。
      • 开源与开放推动普及:混元大模型积极开源,基于开放平台让AI能力更易于获取和应用,推动AI技术的普及与行业生态的发展。

    腾讯混元大模型应用实战课程

    第二节:腾讯元宝使用攻略:Hunyuan&DeepSeek双模型驱动下的AI全能助手

    • 课程介绍:介绍腾讯元宝,Hunyuan和DeepSeek双模型驱动的AI全能助手的使用攻略。具备模型切换、深度思考、联网搜索、文档阅读、智能写作、图片解析和语音对话等核心功能,讲解AI对话的技巧,如赋予角色属性、描述任务背景、规束输出范式及灵活切换功能等,帮助用户更好地使用AI助手。
    • 课程内容
      • 核心功能介绍:腾讯元宝具备多种强大功能,包括模型切换、深度思考、联网搜索、文档阅读、智能写作、图片解析和语音对话等,满足用户在不同场景下的多样化需求。
      • 模型切换与深度思考:用户根据需求场景灵活选择Hunyuan和DeepSeek模型,二者各有特点和应用。深度思考模式能基于多步骤逻辑分析、上下文关联和知识整合,生成更全面、准确且结构化的回答。

    腾讯混元大模型应用实战课

      • AI对话技巧:提供实用的AI对话技巧,如先赋予AI角色属性再提问、详细描述任务背景、规束AI回答输出的范式及灵活切换深度思考与联网搜索等,帮助用户提高与AI助手交流的效率和质量。
      • 实用性强:课程内容注重实用性,详细讲解腾讯元宝的各项功能及操作方法,让用户能快速上手,提升工作和学习效率。

    腾讯混元大模型应用实战课程

    第三节:玩转元器:手把手带你搭建专属智能体,掌握角色搭子实战技巧

    • 课程介绍:主要介绍智能体的基础知识、腾讯元器平台的使用及智能体搭建案例。智能体是基于大语言模型的智能系统,用在多种场景,如情感陪伴、知识问答等。基于腾讯元器平台,用户能创建个性化智能体,满足特定需求。案例包括构建萌AI小猫提供情感陪伴、导入游戏攻略作为知识问答助手、基于人像风格化插件的绘画助手,及实现职业介绍任务的智能工具。
    • 课程内容
      • 智能体的核心价值与应用场景:智能体基于大语言模型,具备任务规划、记忆和工具调用能力,广泛应用于情感陪伴、知识问答、代码开发、任务规划等多种场景,显著提升工作效率和用户体验。
      • 腾讯元器平台的实用性和优势:基于腾讯元器平台,用户快速创建智能体,定义基本信息、AI设定和工具配置。平台帮助用户打造个性化智能体,弥补通用AI在深度和个性化方面的不足,满足特定需求。

    腾讯混元大模型应用实战课程

      • 智能体搭建的多样化案例:用多个案例展示智能体的多样化应用,包括基于情感共鸣的萌AI小猫角色、导入游戏攻略的知识问答助手、人像风格化插件的绘画助手,及实现职业介绍任务的智能工具,体现智能体在不同领域的实用性和灵活性。
      • 个性化与定制化的实现路径:强调创建个人智能体的重要性,基于腾讯元器平台,用户根据自身需求定制智能体,提升服务精准度,满足特定场景下的个性化需求。

    腾讯混元大模型应用实战课程

    第四节:腾讯ima:会思考的知识库,轻松开启搜读写新体验

    • 课程介绍:介绍腾讯ima,会思考的知识库工具,支持提升搜读写体验。文章讲解RAG技术,指出大模型存在幻觉、知识滞后、缺乏专业深度等问题,RAG基于检索、增强、生成三个步骤克服这些局限。详细介绍腾讯ima的下载、使用方法,包括文献搜索、阅读、知识存储和写作等功能。最后基于实操任务,指导用户导入资料、生成思维导图、加入共享知识库、提问、撰写文献综述框架等操作,建议关注公众号获取更新信息。
    • 课程内容
      • RAG技术的核心价值与原理:RAG(Retrieval-Augmented Generation)技术基于“检索(Retrieve)-增强(Augment)-生成(Generate)”三个核心步骤,解决大模型在实际应用中常见的幻觉问题、知识滞后性和缺乏专业深度的局限性,精准地结合检索到的知识生成高质量内容,广泛应用于旅游、求职、法律等多个场景。

    腾讯混元大模型应用实战课程

      • 腾讯ima的高效知识管理与创作功能:腾讯ima是强大的知识库工具,支持文献搜索、阅读、知识存储和写作等多种功能。用户能快速检索优质信源、生成脑图、记录笔记、存储知识,用AI辅助写作,支持上传参考文件和切换不同模型完成回答,大幅提升知识管理和创作效率。

    腾讯混元大模型应用实战课程

    第五节:腾讯问卷:AI十分钟,调研省一周

    • 课程介绍:腾讯问卷基于混元大模型和DeepSeek技术,打造AI全流程提质增效的研究解决方案。基于AI辅助问卷设计,根据研究描述或素材自动生成问卷,支持多种生成方式和丰富题型。样本快速回收功能依托样本库优势,严格质控,高效回收仅需三步。AI一键生成报告功能快速生成专业可视化报告,降低洞察门槛。其“AI+样本数据”一站式研究解决方案具有专业Agent、整合多模态资料、校准模型误差、深度行业适配和确保数据安全等五大优势。
    • 课程内容
      • AI技术深度融入问卷设计:基于混元大模型和DeepSeek技术,用户只需提供研究描述或相关素材,AI自动生成问卷,支持多种生成方式(如自然语言、上传文档、拍照等),涵盖丰富题型和多场景应用。
      • 样本回收高效且精准:腾讯问卷依托强大的样本库,实现样本数据的快速回收。

    腾讯混元大模型应用实战课程

      • 一键生成专业可视化报告:腾讯问卷的AI一键生成报告功能是课程的一大亮点。基于AI技术,快速生成专业可视化报告,支持多种题型和复杂数据分析,大幅降低用户对数据洞察的门槛。
      • 一站式研究解决方案优势:腾讯问卷提供“AI+样本数据”的一站式研究解决方案,具备五大核心优势:专业Agent、整合多模态资料、校准模型误差、深度行业适配和确保数据安全。

    腾讯混元大模型应用实战课

    第六节:腾讯混元大模型多模态生成技术与应用探索

    • 课程介绍:介绍腾讯混元大模型的多模态生成技术与应用。混元生图基于MLLM和DIT的模型结构,实现高质量图像生成,在处理中国元素和复杂文本方面表现优异。混元生视频支持用户基于描述生成视频,具备多种功能和应用。展望2025年,混元将研发多模态统一的神经网络架构,推动技术发展。
    • 课程内容
      • 多模态生成技术的核心架构:基于MLLM和DIT的模型结构,推动从Unet框架向Transformer框架转变,提升生成图像的合理性和真实质感。
      • 应用场景与功能优势:混元生图和生视频广泛应用于广告、游戏、内容创作等领域,支持多种风格(如日漫、3D渲染等)和功能(如口型与动作驱动、背景音效)。

    腾讯混元大模型应用实战课

      • 生成平台与用户体验:提供ComfyUI、WebUI和腾讯元宝等平台,满足不同用户需求,支持文生图、图像风格迁移和精准图像编辑。
      • 未来发展与行业引领:作为开源参数量最大的视频模型,登顶HuggingFace热榜。2025年将研发多模态统一架构,推动技术发展。

    腾讯混元大模型应用实战课

    第七节:从零开始编程之旅!AI开发实战指南

    • 课程介绍:介绍腾讯云AI代码助手的产品优势、使用技巧及腾讯内部的实践效果。详细讲解如何在主流IDE和Cloud Studio IDE中体验AI代码助手,介绍Cloud Studio作为云端“AI数字编码教室”的特点与优势,包括资源即用、在线IDE、快速加载及提供主流编程语言和AI模型模板等,帮助开发者提升开发效率。
    • 课程内容
      • AI代码助手的核心功能:腾讯云AI代码助手具备强大的代码补全、生成和修复功能,显著提升代码编写效率。基于侧栏对话、内联对话和快捷指令帮助开发者快速理解代码逻辑,用RRAG技术和知识库进行精准的信息检索和问题解答。

    腾讯混元大模型应用实战课

      • 使用技巧与方法:课程提供丰富的使用技巧和方法,帮助开发者更好地利用AI代码助手。
      • 多场景体验方式:介绍两种主要的体验方式:一是在主流IDE(如VS Code、IntelliJ IDEA等)中基于扩展插件快速接入AI代码助手;二是在腾讯云Cloud Studio IDE中体验,基于云端资源和平台托管算力的优势,为开发者提供更多选择。
      • Cloud Studio的云端开发优势:腾讯云Cloud Studio打造了云端“AI数字编码教室”,基于云端资源和平台托管算力支持教学和学习。

    腾讯混元大模型应用实战课

    腾讯混元大模型应用实战课的实操演练

    基于腾讯混元、腾讯元宝、腾讯问卷等工具,用户在多模态生成、逻辑推理等方面进行实践。Cloud Studio和AI代码助手为开发者提供便捷的云端开发和编程支持,让学习和应用AI技术更加高效和直观。

    腾讯混元大模型应用实战课

    腾讯混元大模型应用实战课的适用人群

    • 高校师生:教师帮助其将大模型技术融入教学和科研,提升教学质量与科研创新能力。学生学习大模型技术,掌握AI工具技能,为未来职业发展和学术研究打基础。
    • 科研人员:从事人工智能、机器学习等领域的研究人员,基于课程了解大模型前沿知识和应用场景,推动科研进展。
    • 企业从业者:从事技术研发、产品设计、数据分析等工作的人群,了解大模型技术在实际业务中的应用,提升工作效率和创新能力。
    • 开发者和工程师:有一定编程基础的开发者,学习如何用大模型开发具体应用程序,例如智能助手、内容生成工具等,提升开发能力。
  • Augment Agent – Augment Code 推出的 AI 编程助手

    Augment Agent是什么

    Augment Agent 是Augment推出的AI编程助手,帮助软件工程师高效编写高质量代码。Augment Agent能深度理解大型代码库,随着用户工作自动学习和适应代码风格。Augment Agent支持 VS Code 和 JetBrains 开发工具,提供上下文引擎和记忆功能,支持自动更新、持续优化代码生成。Augment Agent 的上下文容量高达 20 万 tokens,支持处理复杂任务,为开发者提供强大的支持。

    Augment Agent

    Augment Agent的主要功能

    • 强大的上下文支持:支持处理多达 20 万 token 的代码上下文。
    • 插件形式集成:基于插件形式集成到 VS Code 和 JetBrains 等主流开发环境中,无需用户重新适应新的开发环境,降低了使用门槛。
    • 持久性记忆:学习用户的编码风格、记住之前的重构和代码规范,随着时间积累记忆
    • 多模态输入支持:支持截图和 Figma 文件等多模态输入方式。
    • 代码检查点(Code Checkpoints):自动跟踪更改、支持回滚,确保用户随时恢复到之前的代码状态,维护其偏好的编程风格。
    • 终端命令支持:支持在终端运行命令,如 npm install、run dev 或与 Git 交互,帮助开发者更高效地完成开发任务。
    • 自动模式(Auto Mode):用户选择让 Augment Agent 自动执行任务,无需手动确认每一步操作,提高工作效率。
    • 支持多种开发工具:支持与 GitHub、Jira、Confluence、Notion 和 Linear 等工具的集成,帮助开发者更好地管理项目和协作。
    • 中断和引导 :用户随时停止代理,纠正操作或提示不同方法,代理自动暂停重定向。

    如何使用Augment Agent

    • 注册和登录:访问Augment 的官方网站,按照提示完成注册和登录。Augment Agent目前支持VS Code和JetBrains使用。
    • 安装插件:根据使用的IDE,下载安装相应的插件。
    • 使用功能:基于IDE内的插件界面启动Augment Agent,使用功能。Augment Agent支持代码检查点、多模态输入(如截图、Figma文件等)及终端命令等多种功能。

    Augment Agent的性能表现

    在 SWE-bench verified 基准测试中,Augment Agent 结合 Anthropic 的 Claude Sonnet 3.7 和 OpenAI 的 O1 推理模型,取得最高分,达到第 1 名(在真实任务上达到 65.4%)。

    Augment Agent

    Augment Agent的产品定价

    • 社区版:免费,代理(Agents)每月限制为50个请求,额外代理请求费用每100个请求$9,提供上下文引擎,提供MCP和原生工具,支持AI训练
    • 开发者版:$30/月,代理(Agents)每月限制为550个请求(目前无限),额外代理请求费用每100个请求$11,提供上下文引擎,提供MCP和原生工具,提供聊天、指令、下一步编辑。
    • 企业版:价格定制,无限代理,自定义额外代理请求费用,提供上下文引擎,提供MCP和原生工具,提供聊天、指令、下一步编辑,提供Slack,提供团队管理,提供使用分析,提供SOC 2 Type II报告,提供定制条款。

    Augment Agent的应用场景

    • 大型代码库开发:帮助开发者在复杂代码库中快速生成和优化代码。
    • 代码风格统一:自动适应并保持团队的代码风格,减少冲突。
    • 跨工具协作:与GitHub、Jira等工具集成,提升开发协作效率。
    • 复杂任务处理:凭借强大的上下文处理能力,应对复杂的代码重构和迁移任务。
    • 日常开发辅助:运行终端命令、修复错误、实现UI设计等,提高开发效率。
  • PaperBench – OpenAI 开源的 AI 智能体评测基准

    PaperBench是什么

    PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从理论到实践的自动化能力。PaperBench包含8316个评分节点,基于层次化评分标准,用自动评分系统提高效率。评测结果显示,目前主流AI模型在复现任务中表现不如顶级机器学习专家,表明智能体在长期任务规划和执行方面仍有不足。

    PaperBench

    PaperBench的主要功能

    • 评估智能体能力:复现顶级机器学习论文,全面考核智能体的理解、编码和实验执行能力。
    • 自动评分:用自动评分系统提高评分效率,基于基准测试验证准确性。
    • 确保公平性:设置规则限制智能体的资源使用,确保评估基于其自身能力。
    • 降低门槛:提供轻量级评估变体,简化评估流程,吸引更多研究者参与。
    • 标准化测试环境:在统一的Docker容器中运行智能体,确保测试环境一致性和可重复性。

    PaperBench的技术原理

    • 任务模块:PaperBench的核心是任务模块,定义智能体需要完成的具体任务,任务包括理解论文的贡献、开发代码库以及成功执行实验,全面覆盖从理论到实践的各个环节。
    • 评分标准:评分标准用层次化的树形结构,将评分节点细分为8316个任务,确保评分过程能够深入到每一个细节。基于大模型的自动评分系统,根据评分标准自动评估智能体的复现尝试。与人类专家评分结果对比,验证自动评分系统的准确性。
    • 规则模块:规则模块规定智能体在执行任务时使用的资源,确保智能体的能力基于自身的理解和实现,不依赖现有代码或资源。
    • 测试环境:每个被测试的智能体在运行Ubuntu 24.04的Docker容器中执行任务,保证环境的一致性和可重复性。容器能访问单个A10 GPU,具备联网能力,提供HuggingFace和OpenAI API的密钥,确保智能体能够顺利操作。
    • 智能体设置:提供多种智能体设置,例如SimpleAgent和IterativeAgent,基于修改系统提示和工具配置,研究不同设置对智能体性能的影响。IterativeAgent基于修改系统提示,要求智能体每次只进行下一步操作,移除提交工具,确保智能体在整个可用时间内持续工作。

    PaperBench的项目地址

    PaperBench的应用场景

    • AI能力评测:系统评估AI智能体复现学术论文的能力,量化其多方面技能。
    • 模型优化:帮助研究人员发现不足,针对性改进模型架构和策略。
    • 学术验证:为研究人员提供标准化平台,比较不同AI模型的复现表现。
    • 教育实践:作为教学工具,帮助学生和研究人员理解AI技术实践改进。
    • 社区合作:促进AI研究社区交流,推动建立统一的智能体评测标准。
  • WorldScore – 斯坦福大学推出的世界生成模型统一评估基准

    WorldScore是什么

    WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。WorldScore 评估生成世界的三个关键方面:可控性、质量和动态性。基准包含精心策划的数据集,涵盖3000个测试样本,包括静态和动态、室内和室外、逼真和风格化的多样化世界。

    WorldScore

    WorldScore的主要功能

    • 统一评估框架:WorldScore 提供了统一的评估框架,用于衡量不同世界生成模型的性能。将世界生成任务分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。
    • 评估维度:从可控性、质量和动态性三个关键方面对生成的世界进行评估。
    • 多场景生成:WorldScore 是唯一支持多场景生成的基准测试,能评估模型在生成连续场景时的表现。
    • 统一性:能统一评估3D、4D、图像到视频(I2V)和文本到视频(T2V)模型,提供了一个全面的评估框架。
    • 长序列支持:支持生成多个场景,评估模型在长序列生成任务中的表现。
    • 图像条件:支持基于图像的条件生成,适用于图像到视频的生成任务。
    • 多风格:包含多种视觉风格的数据,能够评估模型在不同风格下的生成能力。
    • 相机控制:评估模型对相机轨迹的遵循能力,确保生成的场景符合指定的相机运动。
    • 3D一致性:评估场景在几何结构上的稳定性,确保生成的3D场景在不同视角下保持一致。

    WorldScore的技术原理

    • 多样化数据集:WorldScore 数据集包含动态和静态配置的多媒体数据,适用于图像到视频和图像到3D的任务。
      • 动态配置:包含图片、视觉运动、视觉风格、运动类型、风格、相机路径、物体和提示等字段。
      • 静态配置:包含图片、视觉运动、视觉风格、场景类型、类别、风格、相机路径、内容列表和提示列表等字段。
    • 数据集规模:数据集分为训练集和测试集,其中动态配置有1000个样本,静态配置有2000个样本。
    • 基于相机轨迹的布局规范:通过明确的基于相机轨迹的布局规范,实现不同方法的统一评估。
    • 多模态数据支持:支持多种模态的数据,包括图像、视频和3D模型,适用于多模态内容生成任务。

    WorldScore的项目地址

    WorldScore的基准测试比较

    WorldScore 在多个方面与其他现有基准测试有所不同,以下是详细的对比:

    基准测试 示例数量 多场景 统一性 长序列 图像条件 多风格 相机控制 3D一致性
    TC-Bench 150
    EvalCrafter 700
    FETV 619
    VBench 800
    T2V-CompBench 700
    Meng et al. 160
    Wang et al. 423
    ChronoMagic-Bench 1649
    WorldModelBench 350
    WorldScore 3000

    WorldScore的应用场景

    • 图像到视频生成:通过生成高质量的视频内容,应用于视频制作、动画设计等领域。
    • 图像到3D生成:将2D图像转换为3D模型,用于虚拟现实、增强现实和3D建模等场景。
    • 数据集支持:数据集包含动态和静态配置的多媒体数据,适用于多种任务,帮助研究人员优化和改进模型。
    • 研究与开发:WorldScore 数据集为研究人员提供了标准化的测试平台,用于开发和验证新的3D/4D场景生成算法。
    • 自动驾驶场景生成:通过生成逼真的3D场景,用于自动驾驶系统的训练和测试,帮助提高自动驾驶系统的安全性和可靠性。
  • Genspark – 通用 AI 智能体,提供深度搜索、自动规划和执行任务

    Genspark是什么

    Genspark 是前百度小度高管推出的通用 AI 智能体,集成 AI 搜索、极速浏览器和强大智能代理功能,支持自动完成复杂任务。Genspark的核心产品Genspark Super Agent 是全能型 AI 助手,能自主思考、规划和执行各种任务,如旅行规划、视频内容生成、数据可视化等。Genspark的AI幻灯片、AI表格等功能,大幅提升文件处理和演示制作效率与便捷性。基于多智能体混合系统,结合自建的可靠工具集和数据集,确保高效、准确且可定制化的服务,用智能化解决方案提升用户日常生活的便利性和效率。

    Genspark

    Genspark的主要功能

    • AI 搜索与浏览器:提供深度搜索和无广告极速浏览体验。
    • AI表格:基于简单的自然语言指令,自动完成数据搜索、整理、建表、分析与可视化等完整流程。
    • 复杂任务执行:自动规划和执行任务,如旅行规划、酒店预订等。
    • 内容生成:支持生成图片、视频、PPT 和 PDF 文档。
    • 交互与分享:支持分享任务执行过程,用户能指导优化输出。
    • 多语言翻译:支持网页内容翻译。
    • 自主规划与研究:具备自主规划、深度研究和事实核查能力。
    • 文件下载Agent:基于自然语言指令,快速搜索、下载文件自动化处理。
    • AI幻灯片:输入主题或上传文档,自动生成PPT,实时修改风格和内容。
    • AI网盘:支持多种数字资产存储,能对文件进行二次分析处理,支持企业集成。

    如何使用Genspark

    • 注册和登录:访问 Genspark的官方网站。根据提示完成注册和登录。
    • 使用 Genspark Super Agent
      • 输入任务描述:在平台上输入想要完成的任务,例如“规划一次去圣地亚哥的旅行”或“为我预订一家餐厅”。
      • 选择任务类型:平台提供不同的任务类别,用户根据需求选择合适的任务类型。
      • 提交任务:提交任务后,Genspark Super Agent 自动开始处理任务。
    • 任务执行与交互:Genspark Super Agent 在执行任务时提供实时反馈,例如预订进度、生成内容的预览等。
    • 查看结果:用户在平台上查看最终的输出内容,例如生成的报告、设计的海报、预订的确认信息等。

    Genspark在GAIA基准测试的表现

    • 测试结果
      • Level 1:Genspark得分为87.8%,高于Manus的86.5%和OpenAI Deep Research的74.3%,超过之前的最佳水平(SOTA)67.9%。
      • Level 2:Genspark得分为72.7%,领先于Manus的70.1%和OpenAI Deep Research的69.1%,及之前的SOTA 67.4%。
      • Level 3:Genspark得分为58.8%,高于Manus的57.7%和OpenAI Deep Research的47.6%,超过之前的SOTA 42.3%。
    • 表现分析
      • 多轮对话能力:Genspark在多轮对话和复杂任务处理上表现出色,能更好地理解和执行用户的指令。
      • 任务执行效率:Genspark在任务执行过程中错误和幻觉显著减少,表现出更高的可靠性和准确性。
      • 综合性能优势:Genspark在所有三个级别的测试中均取得最高得分,表明在处理真实世界语言场景时能更准确地反映用户需求。

    Genspark

    Genspark的产品定价

    • 免费版(Free):每月 $0 美元,每天提供 200 免费积分,有限访问 AI 模型和智能体。
    • Plus 版:每月 $24.99 美元(按月计费),每月提供 10,000 积分,
      • 优先访问所有 AI 智能体:包括 OpenAI 的 o1 和 o3-mini-high,Anthropic 的 Claude 3.7 Sonnet,Google Gemini 2.0 Flash,DeepSeek R1 等。
      • 图像生成模型:访问所有最新的图像生成模型,如 FLUX 1.1 Ultra,Ideogram 2a,Recraft V3,DALL-E 3,Gemini Imagen 3 等。
      • 视频生成模型:访问所有最新的视频生成模型,如 Kling V1.6,Gemini Veo 2,PixVerse V3.5,Lumalabs Ray 2-flash 等。

    Genspark的应用场景

    • 旅行规划:输入目的地和时间,规划行程、推荐景点、预订酒店和餐厅。
    • 内容创作:可根据用户输入的脚本生成短视频,或将视频内容转化为 PPT 文档。
    • 深度研究:在学术研究、市场调研中用户获取特定主题的详细信息。
    • 文档处理:根据用户需求生成报告、总结等,支持导出为 PDF 等格式。
    • 多语言翻译:帮助用户快速获取不同语言的信息。
  • Dolphin – 清华联合海天瑞声推出的语音识别大模型

    Dolphin是什么

    Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别不同地区的语言特点。模型训练数据总时长21.2万小时,高质量专有数据13.8万小时,开源数据7.4万小时。在性能上,Dolphin的词错率(WER)显著低于Whisper同等尺寸模型,如base版本平均WER降低63.1%,small版本降低68.2%。采用CTC-Attention架构,结合E-Branchformer编码器和Transformer解码器,通过4倍下采样层加速计算,保留关键语音信息。

    Dolphin

    Dolphin的主要功能

    • 多语言及方言识别:Dolphin 支持 40 种东方语言的语音识别,涵盖范围广泛,能满足不同语言环境下的语音识别需求。
    • 高精度语音转文字:Dolphin 能将语音信号高效准确地转换为文字内容。在多种语言和方言的语音识别任务中都能保持较高的准确率,有效减少了语音转文字过程中的错误和误解。
    • 自定义语言和地区设置:用户可以根据实际需求,灵活指定语音识别的语言和地区。Dolphin 采用两级语种标签系统,第一个标签指定语种(如 <zh> 表示中文),第二个标签指定地区(如 <CN> 表示中国)。使模型能精准捕捉同一种语言内不同方言和口音之间的差异,以及同一地区内不同语言之间的相似性,提高模型在特定语言和地区环境下的识别效果,增强其泛化能力。
    • 开源支持与二次开发:Dolphin 的 base 与 small 版本模型与推理代码全面开源,为开发者提供了极大的便利。开源特性使得开发者可以根据自身需求对模型进行二次开发和优化,例如针对特定应用场景进行模型微调、扩展模型的功能等,满足个性化需求,推动语音识别技术在更多领域的应用和创新。
    • 方便快捷的使用方式:Dolphin 提供了多种使用方式,包括命令行调用和 Python 接口调用。用户可以通过简单的命令行指令快速启动语音识别任务,也可以在 Python 环境中灵活调用模型进行语音处理和分析,方便与其他应用程序或系统进行集成,提高开发效率和应用的灵活性。

    Dolphin的技术原理

    • CTC-Attention 架构:Dolphin 采用 CTC-Attention 架构,结合了 CTC(Connectionist Temporal Classification)的序列建模能力和注意力机制的上下文捕捉能力。能在处理复杂的音频输入时,有效捕捉语音信息的细微变化,保持高效的处理速度,提升模型的识别准确性和效率。
    • E-Branchformer 编码器:E-Branchformer 编码器采用并行分支结构,能更有效地捕捉输入语音信号的局部和全局依赖关系。为模型提供了更丰富的特征表示,使模型能更好地理解语音信号中的复杂模式,提高识别的准确性。
    • Transformer 解码器:Dolphin 的解码器部分采用了 Transformer 架构。Transformer 在序列到序列任务中表现出色,能生成高质量的文本输出。通过自注意力机制,能有效地捕捉文本中的长距离依赖关系,确保最终输出的文本质量和连贯性。
    • 4 倍下采样层:为了进一步提高训练效率和性能,Dolphin 引入了 4 倍下采样层。可以减少输入特征的序列长度,加速计算过程,保留关键的语音信息,确保模型的识别效果不受影响。
    • 两级语种标签系统:Dolphin 引入了创新性的两级语种标签系统。第一个标签指定语种(例如 <zh> 表示中文),第二个标签指定地区(例如 <CN> 表示中国)。使模型能捕捉同一种语言内不同方言和口音之间的差异,以及同一地区内不同语言之间的相似性,提高了模型区分密切相关的方言的能力,增强泛化能力。

    Dolphin的项目地址

    Dolphin的应用场景

    • 会议记录:自动将会议中的语音内容转换为文字记录,提高工作效率。
    • 语音输入法:在智能设备上,用户可以通过语音输入文字,减少手动输入的麻烦,提升输入速度和便捷性。
    • 智能语音助手:支持多种语言和方言,能更好地理解用户的语音指令,提供更准确的反馈,减少因方言或口音导致的误解。
    • 智能家居:用户可以通过语音控制智能家居设备,如灯光、空调等,提升家居的智能化和便捷性。
    • 新闻媒体:快速将新闻采访、播客等语音内容转换为文字,方便编辑和发布。
    • 语言学习:支持多种语言和方言的识别,可以帮助学生练习发音和语言表达。
  • EasyControl Ghibli – 免费生成吉卜力风格图像的 AI 模型

    EasyControl Ghibli是什么

    EasyControl Ghibli 是基于 EasyControl 框架开发的 AI 模型,已上线 Hugging Face 平台,专注于将普通图像转换为吉卜力风格的图像。仅用100张亚洲人脸照片及对应的吉卜力风格图像训练而成,能精准捕捉吉卜力作品中柔和的光影、细腻的情感与温暖的色调,同时保留人物面部特征。用户只需上传照片或输入简单指令,可生成带有吉卜力风格的图像,操作简便免费。

    EasyControl Ghibli

    EasyControl Ghibli的主要功能

    • 图像风格转换:将普通照片转换为具有吉卜力动画风格的图像。吉卜力风格以柔和的光影、细腻的情感表达和温暖的色调著称,能精准捕捉这些特点,为用户生成具有艺术感的图像。
    • 保留面部特征:在风格转换过程中,能较好地保留人物的面部特征,确保生成的图像既具有吉卜力风格,能保持原图像的主体特征。
    • 免费使用:工具目前完全免费,用户无需支付任何费用。

    EasyControl Ghibli的技术原理

    • 扩散模型架构:EasyControl Ghibli 基于扩散模型(Diffusion Model)架构,通过逐步去除噪声来生成图像。扩散模型在图像生成领域表现出色,能生成高质量且多样化的图像。
    • 条件注入模块:工具引入了条件注入模块(Condition Injection LoRA Module),基于 LoRA(Low-Rank Adaptation)技术,将条件信号独立处理并注入到模型中。仅对条件分支进行低秩投影,保持文本和噪声分支的权重不变,实现条件信号的高效注入。使模型能根据输入的条件(如特定的风格要求)生成相应的图像。
    • 有限数据训练:仅使用了100张真实亚洲面孔的照片以及与之对应的 GPT-4o 生成的吉卜力风格图像进行训练,EasyControl Ghibli 能精准地捕捉吉卜力作品中柔和的光影、细腻的情感与温暖的色调。体现了模型在小数据集上的强大学习能力。
    • 风格迁移与特征保留:在将普通图像转换为吉卜力风格时,模型能成功应用吉卜力的标志性风格,较好地保留人物的面部特征。在训练过程中对风格和内容特征的有效分离与融合。
    • 高效性:通过 Position-Aware Training Paradigm 和 KV Cache 技术,显著降低了计算复杂度和推理时间。例如,采用位置感知插值(PAI)技术,使模型能学习任意宽高比和多分辨率的表示,同时优化了计算效率。
    • 灵活性:支持多种条件信号的注入,能处理不同分辨率和宽高比的图像生成任务。用户可以根据不同的需求,输入不同类型的条件(如姿态图、边缘图等),生成满足特定要求的图像。

    EasyControl Ghibli的项目地址

    EasyControl Ghibli的应用场景

    • 插画与绘画:艺术家和设计师可以用 EasyControl Ghibli 快速生成具有吉卜力风格的插画草图或灵感图。
    • 动画制作:动画工作室可以用工具快速生成吉卜力风格的角色和场景设计,为动画制作提供初步的视觉参考,节省设计时间和成本。
    • 广告与宣传:广告公司可以生成的吉卜力风格图像来吸引观众的注意力,为广告和宣传材料增添艺术感和吸引力,适合针对年轻受众的市场推广。
    • 照片风格转换:普通用户可以将自己的照片转换为吉卜力风格,体验创作的乐趣。
    • 社交媒体分享:用户可以将生成的吉卜力风格图像分享到社交媒体上,吸引更多关注和互动。
  • DeepSite – 基于 DeepSeek 开源的 AI 前端开发工具

    DeepSite是什么

    DeepSite 是基于 DeepSeek-V3 模型的在线开发工具,用户无需配置环境或安装软件,在网页上直接输入需求,快速生成游戏、应用或网页的代码,支持实时预览效果。DeepSite 支持多种任务,包括生成简单游戏(如贪吃蛇、打砖块)、特效(如烟花、代码雨)及功能型网页(如上传图片抠图、个人网站等)。DeepSite 开箱即用,为开发者和爱好者提供全新的快速开发体验。

    DeepSite

    DeepSite的主要功能

    • 快速生成代码:用户输入简单的提示词或需求描述,DeepSite 自动生成相应的代码,支持生成游戏、网页、应用等多种类型的项目。
    • 实时预览效果:在代码生成过程中,用户实时查看预览效果,所见即所得,方便及时调整需求。
    • 支持多种任务类型:涵盖游戏开发(如贪吃蛇、马里奥等)、网页制作(如公司网站、个人博客)、特效生成(如烟花、代码雨)及其他功能型应用。
    • 无需配置环境:用户无需安装复杂的开发环境或工具,直接在浏览器中使用,降低开发门槛。

    DeepSite的技术原理

    • 深度学习模型:基于强大的深度学习模型(如 DeepSeek-V3),模型经过大量代码数据的训练,支持理解自然语言描述生成对应的代码。模型基于学习代码的结构、逻辑和模式,实现从文本到代码的高效转换。
    • 自然语言处理(NLP):基于自然语言处理技术,解析用户输入的提示词,转换为模型能理解的指令。让用户用简单的语言描述需求,无需具备专业的编程知识。
    • 实时代码生成与渲染:DeepSite 在用户输入提示词后,模型快速生成代码,基于前端技术(如 HTML、CSS、JavaScript)实时渲染到预览区域,让用户即时看到生成效果。

    DeepSite的项目地址

    DeepSite的应用场景

    • 快速原型开发:帮助开发者快速生成应用或游戏原型,验证想法,节省时间和精力。
    • 教育与学习:辅助编程教学,降低学习门槛,帮助初学者快速理解代码逻辑。
    • 创意实现:让设计师和创意人员快速将创意转化为实际代码或应用,无需专业编程技能。
    • 小型项目开发:适合个人或小型团队快速开发简单网页、工具或小游戏,降低开发成本。
    • 代码教学与演示:用在技术分享或编程课程,直观展示代码生成和运行效果,增强互动性。
  • OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

    OThink-MR1是什么

    OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色,在同任务验证中超越传统的监督微调(SFT)方法,在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径,有望在更多领域发挥重要作用。

    OThink-MR1

    OThink-MR1的主要功能

    • 提升多模态任务性能:基于动态强化学习优化模型,显著提高多模态任务(如视觉计数、几何推理等)的准确性和泛化能力。
    • 跨任务泛化能力:让模型在一种多模态任务上训练后,有效迁移到其他不同类型的多模态任务,减少对特定任务数据的依赖。
    • 动态平衡探索与利用:在训练过程中,动态调整探索新策略和用已有经验的平衡,提升模型的全局优化能力。
    • 增强模型的推理能力:基于奖励模型,引导模型生成准确、符合格式要求的输出,提升整体推理能力。

    OThink-MR1的技术原理

    • 动态KL散度策略(GRPO-D):GRPO-D策略受经典强化学习中的ϵ-greedy策略启发,遵循“早期探索,后期利用”的原则。基于动态调整KL散度的权重,平衡模型在训练过程中的探索(尝试新策略)和利用(利用已有经验)。在训练初期,KL散度权重较小,鼓励模型进行广泛探索;随着训练的进行,权重逐渐增加,引导模型利用积累的经验,避免过早收敛到次优解。
    • 奖励模型:评估模型输出的准确性,例如在视觉计数任务中,模型输出与真实计数的匹配程度。确保模型输出符合特定格式要求,例如在几何推理任务中,模型输出的格式是否正确。将验证准确性奖励和格式奖励结合起来,为模型提供更全面的反馈,指导其学习过程。
    • 强化学习优化:基于最大化奖励函数,优化模型的策略,在每个训练步骤中,模型根据当前策略生成输出,奖励模型评估输出的质量,模型根据奖励信号调整策略,逐步提升性能。

    OThink-MR1的项目地址

    OThink-MR1的应用场景

    • 智能视觉问答:准确理解图像内容并生成答案,如识别复杂场景中的物体数量。
    • 图像描述生成:生成丰富且准确的图像描述,提供更详细的视觉信息。
    • 几何问题求解:分析图像中的几何图形,计算角度、长度等几何属性。
    • 多模态内容审核:结合图像和文本信息,判断内容是否符合规定,提高审核效率。
    • 虚拟现实与增强现实:为用户提供智能交互体验,如实时场景解读和导航建议。