Category: AI项目和框架

  • MIDI – AI 3D场景生成技术,能将单张图像转化为360度3D场景

    MIDI是什么

    MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先进的3D场景生成技术,能在短时间内将单张图像转化为高保真度的3D场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。具有强大的全局感知能力和细节表现力,能在40秒内完成生成,对不同风格的图像具有良好的泛化能力。

    MIDI

    MIDI的主要功能

    • 2D图像转3D场景:能将单张2D图片转化为360度的3D场景,为用户带来沉浸式体验。
    • 多实例同步扩散:可同时对场景中的多个物体进行3D建模,避免了逐个生成再组合的复杂过程。
    • 智能分割与识别:对输入图像进行智能分割,准确识别出场景中的各种独立元素。

    MIDI的技术原理

    • 智能分割:MIDI首先对输入的单张图像进行智能分割,能准确识别出场景中的各种独立元素(如桌子、椅子、咖啡杯等)。这些被“拆解”开来的图像局部,连同整体的场景环境信息,成为3D场景构建的重要依据。
    • 多实例同步扩散:与其他逐个生成3D物体再进行组合的方法不同,MIDI采用多实例同步扩散的方式。能同时对场景中的多个物体进行3D建模,类似于一个乐团同时演奏不同的乐器,最终汇聚成和谐的乐章。避免了逐个生成和组合的复杂过程,大大提高了效率。
    • 多实例注意力机制:MIDI引入了一种新颖的多实例注意力机制,能有效地捕捉物体之间的相互作用和空间关系。确保生成的3D场景不仅包含独立的物体,更重要的是它们之间的摆放位置和相互影响都符合逻辑,浑然一体。
    • 全局感知与细节融合:MIDI通过引入多实例注意力层和交叉注意力层,能充分理解全局场景的上下文信息,融入到每个独立3D物体的生成过程中。保证了场景的整体协调性,丰富细节。
    • 高效训练与泛化能力:在训练过程中,MIDI用有限的场景级别数据来监督3D实例之间的交互,结合大量的单物体数据进行正则化。
    • 纹理细节优化:MIDI生成的3D场景的纹理细节非常出色,基于MV-Adapter等技术的应用,最终的3D场景看起来更加真实可信。

    MIDI的项目地址

    MIDI的应用场景

    • 游戏开发:快速生成游戏中的3D场景,降低开发成本。
    • 虚拟现实:为用户提供沉浸式的3D体验。
    • 室内设计:通过拍摄室内照片快速生成3D模型,方便设计和展示。
    • 文物数字化保护:对文物进行3D建模,便于研究和展示。

     

  • TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本

    TokenSwift是什么

    TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MHA和GQA模型。

    TokenSwift

    TokenSwift的主要功能

    • 超长文本生成加速:TokenSwift 能显著缩短超长文本的生成时间。例如,传统自回归模型生成10万Token的文本可能需要近5个小时,TokenSwift仅需90分钟,速度提升了3倍,极大地提高了生成效率。
    • 无损加速:在加速的同时,TokenSwift能保持原始模型的输出质量,确保生成文本的质量和多样性。
    • 支持多种模型:TokenSwift支持多种不同规模和架构的模型,包括1.5B、7B、8B、14B的模型,以及多头注意力(MHA)和分组查询注意力(GQA)架构。

    TokenSwift的技术原理

    • 多Token并行生成与Token复用:TokenSwift借鉴了Medusa等方法,通过引入额外的线性层,使模型在一次前向传播中能同时生成多个草稿Token。基于生成文本中的n-gram频率信息,系统会自动检索并复用高频短语,进一步减少模型重新加载的次数,提升整体效率。
    • 动态KV缓存更新策略:在KV缓存管理上,TokenSwift采用动态更新策略。系统在生成过程中将初始KV缓存保留,同时根据Token的重要性对后续缓存进行有序替换。
    • 基于树结构的多候选Token验证:为保证生成结果与目标模型预测的一致性,TokenSwift引入了树形注意力机制。通过构建包含多个候选Token组合的树形结构,采用并行验证的方式,从中随机选择最长且有效的n-gram作为最终输出,确保生成过程无损且多样性得到提升。
    • 上下文惩罚策略:为了进一步抑制重复生成问题,TokenSwift设计了一种上下文惩罚方法。在生成过程中为近期生成的Token施加惩罚,使模型在选择下一Token时更倾向于多样化输出,有效减少重复现象。

    TokenSwift的项目地址

    TokenSwift的应用场景

    • 内容创作与文案生成:TokenSwift 能在短时间内生成高质量的文本内容。对于内容创作者、广告公司和媒体机构来说,可以大幅提高工作效率。
    • 智能客服与聊天机器人:在智能客服和聊天机器人中,TokenSwift 可以快速生成详细的回答,在需要处理复杂问题或长篇解释时,能提供更高效、更连贯的对话体验。
    • 学术研究与论文撰写:对于学术研究和论文撰写,TokenSwift 可以帮助研究人员快速生成文献综述、实验报告或论文草稿,节省大量的时间和精力。
    • 代码生成与编程辅助:在编程领域,TokenSwift 可以用于生成复杂的代码片段或文档,帮助开发者快速构建和优化代码。

     

  • Gemini 2.0 Flash – Google推出的多模态 AI 模型

    Gemini 2.0 Flash是什么

    Gemini 2.0 Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,支持多轮对话式的图像编辑,保持上下文连贯性。模型擅长将文本与图像结合,例如为故事生成连贯的插图、根据对话修改图像风格,用世界知识生成更准确的图像(如食谱插图)。Gemini 2.0 Flash在长文本渲染方面表现出色,适用于广告、社交媒体或邀请函等场景。开发者目前能在 Google AI Studio 中使用 Gemini 2.0 Flash 的实验版本 ( gemini-2.0-flash-exp ) 和 Gemini API 测试这项新功能。

    Gemini 2.0 Flash

    Gemini 2.0 Flash的主要功能

    • 文本与图像结合:根据文本描述生成连贯的图像,例如为一个故事生成一系列插图,保持角色和场景的一致性。
    • 对话式图像编辑:支持多轮对话式的图像编辑。用户用自然语言指令逐步优化图像,模型根据上下文保持连贯性。
    • 基于世界知识的图像生成:Gemini 2.0 Flash用世界知识和增强推理能力生成更准确、更真实的图像。
    • 长文本渲染:Gemini 2.0 Flash在长文本渲染方面表现出色,能生成包含清晰、准确文本的图像。

    Gemini 2.0 Flash的项目地址

    如何使用Gemini 2.0 Flash

    • 访问Google AI Studio
      • 访问Google AI Studio:访问Google AI Studio官方网站
      • 选择Gemini 2.0 Flash模型:在Google AI Studio中,选择gemini-2.0-flash-exp模型进行测试。
      • 输入提示:在输入框中输入、文本提示。例如:“Generate an image of a futuristic cityscape in a cyberpunk style.”“Create a series of illustrations for a children’s story about a magical forest.”
    • 基于Gemini API集成到开发项目中
      • 获取API密钥:启用Gemini API,获取一个API密钥。
      • 安装必要的库
    pip install google-genai
      • 编写代码调用API
    from google import genai
    from google.genai import types
    
    # 初始化客户端
    client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
    
    # 调用模型生成内容
    response = client.models.generate_content(
        model="gemini-2.0-flash-exp",
        contents=(
            "Generate a story about a cute baby turtle in a 3D digital art style. "
            "For each scene, generate an image."
        ),
        config=types.GenerateContentConfig(
            response_modalities=["Text", "Image"]
        ),
    )
    
    # 输出生成的内容
    print(response)
      • 处理生成的输出:根据API返回的结果,提取生成的文本和图像数据。

    Gemini 2.0 Flash的应用场景

    • 创意插图生成:快速为故事、广告或文章生成配套插图,提升创作效率。
    • 互动故事应用:开发互动故事,用户基于对话调整故事内容和插图风格。
    • 社交媒体与广告:生成高质量的广告图像、海报或社交媒体内容,支持长文本渲染。
    • 教育工具:为教材、科普内容生成示意图,辅助教学和学习。
    • 设计与创意探索:快速生成设计概念图,用对话式反馈优化创意方向。
  • PP-TableMagic – 百度飞桨团队开源的表格识别工具

    PP-TableMagic是什么

    PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-TableMagic 用自研的轻量级表格分类模型 PP-LCNet 和业界首个开源单元格检测模型 RT-DETR,及强大的表格结构识别模型 SLANeXt,结合三阶段预训练策略,提升表格识别的精度和效率。PP-TableMagic支持快速部署和定制化开发,适用于财务报表处理、科研数据分析等复杂场景。

    PP-TableMagic

    PP-TableMagic的主要功能

    • 表格分类:自动区分有线表(有明确表格线)和无线表(无表格线,仅靠文字排版)。
    • 表格结构识别:精确识别表格的行、列、合并单元格等结构信息,将表格的视觉布局转化为结构化数据。
    • 单元格检测与内容提取:准确定位表格中的单元格,提取中的文字内容,支持复杂单元格布局和多行多列的精准识别。
    • 全场景高定制化微调:根据具体应用场景对模型进行针对性微调,优化特定表格类型的识别性能。
    • 快速部署与应用:提供简单易用的 Python API 和命令行工具,支持推理、服务化部署和端侧部署。

    PP-TableMagic的技术原理

    • 多模型串联组网:将表格识别任务拆解为多个子任务,基于多个轻量级模型协同工作,实现端到端的高精度识别。PP-LCNet 模型对表格进行有线表和无线表的分类,RT-DETR 模型对表格单元格进行精确定位。SLANeXt 模型将表格图像解析为 HTML 结构。
    • 双流架构:针对有线表和无线表分别设计独立的处理流程,用自优化结果融合算法整合最终结果,提升整体识别精度。
    • 特征表征与训练策略改进:表格结构识别模型 SLANeXt 用 Vary-ViT-B 作为视觉编码器,提取更高级的特征,结合三阶段预训练策略,提升模型的泛化能力和性能。
    • 针对性微调支持:基于多模型组网架构,用户单独微调某个或某几个模型,避免传统端到端模型微调时的性能冲突,实现高定制化优化。

    PP-TableMagic的项目地址

    PP-TableMagic的应用场景

    • 财务领域:快速提取财务报表数据,转化为结构化格式,便于分析和审计。
    • 科研领域:高效识别科研文献中的表格,助力数据整理和分析。
    • 保险行业:加速理赔表格数据提取,提升理赔效率。
    • 政务管理:处理政府统计报表,提升数据汇总和分析效率。
    • 企业运营:优化企业报表数据管理,支持高效决策。
  • Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

    Gemini Robotics是什么

    Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。Gemini Robotics 是视觉-语言-动作(VLA)模型,支持直接控制机器人完成复杂的操作任务,表现出对物体类型和位置变化的鲁棒性,执行开放词汇指令。基于进一步的微调,Gemini Robotics 能解决长时域、高灵活性的任务(如折纸或玩牌),快速适应新任务和机器人形态。

    Gemini Robotics

    Gemini Robotics的主要功能

    • 智能对话与问答复杂任务的执行
      • 高灵活性任务:如折纸、玩牌、使用工具等。
      • 长时域任务:如打包午餐盒、制作三明治等多步骤任务。
      • 精细操作:如使用镊子夹取小物体、拧紧瓶盖等。
    • 强大的视觉和语言理解能力
      • 视觉理解:识别和定位场景中的物体,支持多视角理解、3D 空间推理和物体检测。
      • 语言理解:理解自然语言指令,执行开放词汇任务。
    • 环境适应与泛化能力
      • 视觉泛化:对场景中的背景、光照和干扰物体变化具有鲁棒性。
      • 动作泛化:适应物体位置变化和不同物体实例的操作。
      • 指令泛化:理解指令的不同表达方式(如不同语言、带有拼写错误的指令)。

    Gemini Robotics的技术原理

    • Gemini 2.0 基础模型:基于 Gemini 2.0 扩展。Gemini 2.0 为 Gemini Robotics 提供强大的视觉和语言理解能力。
    • 具身推理:Gemini Robotics-ER 是 Gemini Robotics 的扩展版本,专注于具身推理能力。支持理解物理世界中的三维空间、物体关系和运动轨迹。
    • 视觉-语言-动作(VLA)模型
      • 视觉输入:通过摄像头获取场景图像,识别物体和环境。
      • 语言指令:理解自然语言指令,将其转化为具体的机器人动作。
      • 动作输出:生成机器人的动作指令,实现复杂任务的执行。
    • 数据驱动的训练
      • 机器人动作数据:基于真实机器人的操作数据,学习如何执行各种任务。
      • 非机器人数据:如网络图像、文本、视频等,提供丰富的背景知识和泛化能力。
    • 架构设计
      • 云端 VLA 主干网络:负责处理复杂的视觉和语言推理任务。
      • 本地动作解码器:运行在机器人本地,负责实时生成动作指令,确保低延迟和高响应性。

    Gemini Robotics的项目地址

    Gemini Robotics的应用场景

    • 工业制造:用在复杂装配、质量检测和修复,提高生产效率和精度。
    • 物流仓储:实现货物分拣、包装和装卸自动化,提升物流效率。
    • 家庭服务:协助家务劳动,如整理、清洁和照顾老年人或残疾人。
    • 医疗健康:辅助康复训练和手术操作,支持医疗流程。
    • 教育科研:作为教育工具和科研助手,支持教学和实验操作。
  • Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型

    Open-Sora 2.0是什么

    Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型,相比传统高性能视频生成模型大幅降低了训练成本。模型在 VBench 和用户偏好测试中表现卓越,性能媲美甚至超越 HunyuanVideo 和 30B 参数的 Step-Video 等主流闭源模型。Open-Sora 2.0 基于 3D 自编码器、3D 全注意力机制和 MMDiT 架构,结合高效的并行训练方案和高压缩比自编码器,显著提升训练效率和推理速度。

    Open-Sora 2.0

    Open-Sora 2.0的主要功能

    • 高质量视频生成:生成 720p 分辨率、24 FPS 的流畅视频,支持多种场景和风格,从自然风光到复杂动态场景都能表现出色。
    • 动作幅度可控:根据用户需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
    • 文本到视频(T2V)生成:支持用文本描述直接生成对应的视频内容,满足创意视频制作和内容生成的需求。
    • 图像到视频(I2V)生成:结合开源图像模型,基于图像生成视频,进一步提升生成效果和多样性。

    Open-Sora 2.0的技术原理

    • 模型架构:基于三维自编码器高效处理视频数据,捕捉时间维度上的动态信息。引入全注意力机制,提升视频生成的时空一致性。结合多模态扩散(MMDiT)架构,更精准地捕捉文本与视频内容的关联。
    • 高压缩比自编码器:基于 4×32×32 的高压缩比自编码器,显著降低推理成本。
    • 高效训练方法:基于多阶段、多层次的数据筛选机制,确保高质量数据输入,提升训练效率。优先在低分辨率下训练,学习关键动态特征,逐步提升分辨率,大幅降低计算开销。优先训练图生视频任务,用图像特征引导视频生成,加速模型收敛。
    • 并行训练与优化:结合 ColossalAI 和系统级优化,提升计算资源利用率。关键技术优化包括序列并行、ZeroDP、细粒度 Gradient Checkpointing、自动恢复机制、高效数据加载与内存管理等,确保训练效率最大化。
    • 模型初始化与蒸馏:借助开源图生视频模型 FLUX 进行初始化,降低训练成本。基于蒸馏的优化策略提升自编码器特征空间的表达能力,减少训练所需数据量和时间。

    Open-Sora 2.0的性能表现

    • 媲美 HunyuanVideo 和 30B Step-Video:Open-Sora 2.0 凭借仅 11B 参数规模,在 VBench 和人工偏好测试中达到与高成本开发的主流闭源大模型(如 HunyuanVideo 和 30B 参数的 Step-Video)相媲美的水平。
    • 用户偏好评测:在视觉表现、文本一致性和动作表现三大关键维度中,Open-Sora 2.0 至少在两个指标上超越开源 SOTA 模型 HunyuanVideo 和商业模型 Runway Gen-3 Alpha,用更少的资源实现更优的性能表现。
    • VBench 指标表现强势:根据视频生成权威榜单 VBench 的评测结果,Open-Sora 2.0 的性能表现极为出色。从Open-Sora 1.2升级到2.0版本后,与行业领先的 OpenAI Sora 闭源模型之间的性能差距从 4.52% 缩减至仅 0.69%,几乎实现完全的性能对齐。Open-Sora 2.0 的评测分数已超越腾讯的 HunyuanVideo,用更低的训练成本达成了更高的性能水平,为开源视频生成领域树立新的里程碑。

    Open-Sora 2.0

    Open-Sora 2.0的项目地址

    Open-Sora 2.0的生成效果

    • 提示词:A tomato surfing on a piece of lettuce down a waterfall of ranch dressing, with exaggerated surfing moves and creamy wave effects to highlight the 3D animated fun.(一颗番茄在一片生菜上冲浪,顺着牧场酱汁的瀑布而下,夸张的冲浪动作和柔滑的波浪效果凸显了 3D 动画的乐趣。)

    Open-Sora 2.0

    • 提示词:A drone camera circles a historic church on a rocky outcrop along the Amalfi Coast, highlighting its stunning architecture, tiered patios, and the dramatic coastal views with waves crashing below and people enjoying the scene in the warm afternoon light.(一架无人机摄像机围绕着阿马尔菲海岸岩石露头上的一座历史悠久的教堂飞行,突显了其令人惊叹的建筑、分层的庭院和壮观的海岸景色,海浪拍打在教堂下方,人们在温暖的午后阳光下欣赏着这美丽的景色。)

    Open-Sora 2.0

    • 提示词:A scene from disaster movie.(灾难片中的场景。)

    Open-Sora 2.0

    • 提示词:Chinese ancient style, realism. A young woman, dressed in an embroidered red qipao, walks along the ancient streets of a bustling Chinese town. The red lanterns hanging above her sway gently in the evening breeze, and her calm, confident stride contrasts with the lively atmosphere of merchants and performers around her.(中国古风写实。一位身着绣花红旗袍的年轻女子走在繁华的中国小镇的古老街道上。头顶上悬挂的红灯笼在晚风中轻轻摇曳,她从容自信的步伐与周围商贩和艺人的热闹氛围形成鲜明对比。)

    Open-Sora 2.0

    如何使用Open-Sora 2.0

    • 从源代码安装
      • 创建虚拟环境(推荐使用 Conda)
    conda create -n opensora python=3.9
    conda activate opensora
      • 克隆仓库
    git clone https://github.com/hpcaitech/Open-Sora
    cd Open-Sora
      • 安装依赖
        • 根据你的 CUDA 版本(例如 CUDA 12.1),安装基础依赖
    pip install -r requirements/requirements-cu121.txt
        • 安装项目
    pip install -v .  # 或使用开发模式:pip install -v -e .
        • 安装加速相关的依赖(可选,但推荐)
    pip install git+https://github.com/hpcaitech/TensorNVMe.git
    pip install git+https://github.com/hpcaitech/ColossalAI.git
    pip install packaging ninja
    pip install flash-attn --no-build-isolation
    pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.git
    • 使用 Docker 安装
      • 构建 Docker 镜像
    docker build -t opensora .
      • 运行 Docker 容器(确保挂载 GPU 和工作目录)
    docker run -ti --gpus all -v .:/workspace/Open-Sora opensora

    Open-Sora 2.0的应用场景

    • 频制作:快速生成广告、动画等创意视频,降低制作成本。
    • 影视后期:辅助生成特效镜头和虚拟场景,提升制作效率。
    • 教育领域:生成教育视频,增强教学的趣味性和效果。
    • 游戏开发:用在生成游戏动画和虚拟场景,丰富游戏内容。
    • VR/AR 应用:构建沉浸式虚拟场景,提升用户体验。
  • AI-Researcher – 香港大学推出的开源自动化科学研究工具

    AI-Researcher是什么

    AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的基准测试套件评估研究质量。

    AI-Researcher

    AI-Researcher的主要功能

    • 文献综述:系统自动收集和分析特定领域的现有研究文献,基于检索学术数据库(如 arXiv、IEEE Xplore 等)和代码平台(如 GitHub、Hugging Face)获取高质量的研究资源。
    • 算法验证与优化:自动进行实验设计、执行和结果分析,评估算法的性能,根据反馈进行优化,确保算法的有效性和可靠性。
    • 论文撰写:自动生成完整的学术论文,包括研究背景、方法、实验结果和讨论等内容。
    • 多领域支持与基准测试:支持计算机视觉、自然语言处理、数据挖掘等多个领域的研究,提供标准化的基准测试框架,用在评估研究质量和创新性。

    AI-Researcher的技术原理

    • 多模态数据集成与处理:系统基于自动化工具从学术数据库和代码平台收集文献、代码和数据集,用自然语言处理(NLP)技术对文本内容进行解析和分析,提取关键信息。
    • 基于LLM的智能代理:基于大型语言模型(LLM)作为核心驱动,用预训练模型(如 OpenAI 的 GPT 或 DeepSeek 的模型)生成高质量的文本内容,包括研究想法、算法设计和论文撰写。
    • 自动化实验与验证:系统基于容器化技术(如 Docker)和自动化脚本,实现算法的快速部署和实验执行。系统自动设计实验流程、收集结果,基于机器学习技术对结果进行分析和优化。
    • 多级任务处理与模块化设计:支持两种任务级别:用户提供详细想法(Level 1)和仅提供参考文献(Level 2)。系统根据任务级别调用不同的模块,实现从想法生成到论文撰写的全流程自动化。

    AI-Researcher的项目地址

    AI-Researcher的应用场景

    • 学术研究:加速研究流程,从想法到论文自动化完成,提升科研效率。
    • 跨学科研究:整合多领域知识,提供创新思路,促进跨学科合作。
    • 新手入门:为科研新手提供低门槛的工具,快速生成研究想法和实验设计。
    • 企业创新:助力企业快速探索新技术,加速产品研发和优化。
    • 教育应用:作为教学工具,帮助学生理解科研全流程,提供高质量案例。
  • Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

    Motion Anything是什么

    Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法,实现对运动序列中关键帧和动作的细粒度控制,解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和空间对齐变换器,有效整合多种模态条件,提升生成运动的连贯性和多样性。同时推出 Text-Music-Dance (TMD) 数据集,包含 2153 对文本、音乐和舞蹈的配对样本,为多模态运动生成的研究提供了新的基准。

    Motion Anything

    Motion Anything的主要功能

    • 多模态条件下的运动生成:根据文本描述、音乐或两者的组合生成高质量的人类运动。
    • 细粒度控制:基于注意力机制,对运动的关键帧和动作进行细粒度控制,实现更精准的生成效果。
    • 动态优先级调整:根据给定条件(如文本或音乐)动态调整运动生成的优先级,优先生成与条件最相关的动态帧和身体部位。
    • 跨模态对齐:将文本、音乐和运动在时间和空间维度上进行有效对齐,提升生成运动的连贯性和一致性。

    Motion Anything的技术原理

    • 基于注意力的掩码建模:基于注意力机制选择与条件(文本或音乐)最相关的运动部分进行掩码。在生成过程中,模型优先恢复被掩码的关键帧和动作,实现对动态内容的聚焦。
    • 时间自适应变换器:根据条件的模态(文本、音乐或两者的组合),动态调整注意力计算。让运动的关键帧与文本中的关键词或音乐的节拍对齐,提升时间维度上的连贯性。
    • 空间对齐变换器:将条件和运动嵌入重新排列,暴露空间维度。恢复被掩码的关键动作,确保运动与条件在空间上的一致性。
    • 多模态条件编码:同时处理文本和音乐等多种模态条件,基于自适应编码器将不同模态的信息整合到运动生成中。实现多模态条件下的可控运动生成,提升生成效果。
    • 数据集支持:提供新的 Text-Music-Dance (TMD) 数据集,包含 2153 对文本、音乐和舞蹈的配对样本,为多模态运动生成提供丰富的数据支持。

    Motion Anything的项目地址

    Motion Anything的应用场景

    • 影视动画:快速生成高质量动画,减少制作成本,提升视觉效果。
    • VR/AR:为虚拟角色生成逼真动作,增强沉浸感,实现自然交互。
    • 游戏开发:根据剧情或音乐生成角色动作,提升游戏的趣味性和流畅性。
    • 人机交互:生成自然动作,让机器人与人类交互更友好,实现语音指令驱动的动作生成。
    • 教育与培训:生成标准动作示范,辅助体育、舞蹈等教学,提升培训效果。
  • 子曰翻译2.0 – 网易有道推出的最新翻译大模型

    子曰翻译2.0是什么

    子曰翻译2.0是网易有道推出的最新翻译大模型,模型在数据、算法和评估三个关键维度进行了系统性升级,实现了翻译质量、效率和鲁棒性的质的飞跃。 在数据层面,有道收集清洗了数千万高质量翻译数据,涵盖学术、新闻、医疗等多个领域,由专业人员进行精细化标注,为模型训练提供了丰富且准确的数据资源。算法上,基于子曰教育大模型进行二次预训练,结合大模型蒸馏、融合技术及Online DPO技术,显著提升了翻译的准确性与流畅度,同时避免了大模型常见的“灾难性遗忘”问题。

    子曰翻译大模型2.0

    子曰翻译2.0的主要功能

    • 高质量的中英互译:子曰翻译大模型2.0在中英互译方面表现出色,能提供准确、流畅的翻译结果。在国际权威的WMT和Flores200测试集上均取得了优异的成绩,远超国内外通用大模型及专用翻译模型。
    • 专业领域翻译:能准确翻译学术论文中的专业术语和复杂句式,确保翻译结果符合学术规范,能将英文缩写准确翻译为计算机领域的专有词汇。
    • 多场景翻译支持:适用于日常交流场景,提供自然流畅的翻译结果。在翻译古诗等文学作品时,能保留原文意境,兼顾押韵,使译文更具文学性。

    子曰翻译2.0的技术原理

    • 数据层面
      • 高质量语料收集与清洗:精心收集并严格清洗了数千万高质量的翻译数据,涵盖学术、新闻、医疗等多个领域,确保数据的准确性与适配性,为模型训练打下牢固根基。
      • 精细化人工标注:由英语专八认证人员及职业译员进行精细化人工标注,提升数据标注质量,为模型执行翻译任务提供精准指导。
    • 算法层面
      • 二次预训练:以子曰教育大模型为基础进行二次预训练,打造更具专业性与针对性的翻译基座大模型,显著提升翻译性能。
      • 大模型蒸馏技术:精简模型参数的同时,大幅提升运行效率与推理速度。
      • 大模型融合技术:整合多个模型优势,增强翻译的准确性和稳定性。
      • Online DPO技术:动态调整模型生成策略,保证译文质量和流畅度的提升。
      • 强化学习:基于人类偏好的翻译数据自动获取并进行强化学习,进一步优化翻译结果。
      • 多任务联合学习:让模型在多个翻译任务中协同进步,增强综合翻译能力。
    • 评估层面
      • 全面标注与严格分离:人工标注覆盖各个领域的开发集和盲测集,严格分离开发集和盲测集,确保评估的客观性和准确性。
      • 自研评估模型:自主研发超越COMET准确率的翻译评估模型Reward Model,为性能评估提供可靠量化依据。
      • 完善的人工评估方案:从多维度对模型的翻译结果进行细致分析和评价,确保翻译质量。

    如何使用子曰翻译2.0

    • 访问有道翻译:访问有道翻译的官方网站
    • 选择AI翻译:就是子曰翻译大模型2.0
    • 输入文本:输入需要翻译的文本,选择翻译语言对。

    子曰翻译2.0的应用场景

    • 学术论文翻译:子曰翻译大模型2.0在学术论文翻译方面表现出色,能准确翻译专业术语和复杂句式,确保翻译结果符合学术规范。
    • 财报翻译:在翻译财务报告时,子曰翻译大模型2.0能生成符合中文表达习惯的译文,逻辑清晰,易于理解。
    • 医学翻译:子曰翻译大模型2.0在医学领域能准确翻译专业术语,避免因翻译错误导致的误解。
    • 古诗翻译:在文学翻译方面,子曰翻译大模型2.0能保留原文意境,兼顾押韵,使译文更具文学性
    • 日常对话翻译:子曰翻译大模型2.0能处理各种日常对话中的复杂句式和专业术语,确保翻译的准确性和流畅性。
  • Reka Flash 3 – Reka AI 推出的开源推理模型

    Reka Flash 3是什么

    Reka Flash 3 是 Reka AI 推出的开源推理模型,拥有 21 亿参数。支持多模态输入,包括文本、图像、视频和音频,可处理最多 32k 个令牌的上下文长度,适用于一般对话、编码辅助、指令跟随等场景。模型完全精度大小为 39GB(fp16),4 位量化后可压缩至 11GB,方便在设备上部署。

    Reka Flash 3

    Reka Flash 3的主要功能

    • 多模态输入支持:Reka Flash 3 能处理多种类型的输入数据,包括文本、图像、视频和音频。
    • 高效推理能力:Reka Flash 3 支持最多 32k 个令牌 的上下文长度,能处理较长的文档和复杂的任务,例如长篇论文、代码片段或复杂的多步骤问题。
    • 多语言支持:Reka Flash 3 在多语言方面表现出色,主要集中在英语,在 WMT’23 的 COMET 得分为 83.2,满足不同语言用户的需求。

    Reka Flash 3的技术原理

    • 模块化的编码器-解码器架构:Reka Flash 3 采用模块化的编码器-解码器架构。编码器负责处理多种输入数据类型,包括文本、图像、视频和音频,转换为高维向量表示。解码器则基于编码器的输出生成文本输出。
    • 强化学习训练:Reka Flash 3 的训练结合了公开获取的数据集和合成数据集,采用 REINFORCE Leave One-Out(RLOO)方法进行强化学习。使模型在能力与效率之间取得了平衡,能更好地理解和生成高质量的内容。
    • 预算强制机制:通过特定的 <reasoning> 标签,用户可以限制模型的推理步骤,确保模型在有限的计算资源下保持高效和一致的表现。

    Reka Flash 3的项目地址

    Reka Flash 3的应用场景

    • 一般对话:Reka Flash 3 能进行自然流畅的对话,提供陪伴、信息查询等服务。
    • 编码辅助:模型可以帮助开发者编写代码、调试代码问题,提供代码优化建议。
    • 指令跟随:Reka Flash 3 能理解和执行复杂的指令,完成各种任务,例如生成报告、分析数据等。
    • 网络搜索辅助:Reka Flash 3 可以调用网络搜索功能,获取额外的信息来辅助回答。