Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型

    Open-Sora 2.0是什么

    Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型,相比传统高性能视频生成模型大幅降低了训练成本。模型在 VBench 和用户偏好测试中表现卓越,性能媲美甚至超越 HunyuanVideo 和 30B 参数的 Step-Video 等主流闭源模型。Open-Sora 2.0 基于 3D 自编码器、3D 全注意力机制和 MMDiT 架构,结合高效的并行训练方案和高压缩比自编码器,显著提升训练效率和推理速度。

    Open-Sora 2.0

    Open-Sora 2.0的主要功能

    • 高质量视频生成:生成 720p 分辨率、24 FPS 的流畅视频,支持多种场景和风格,从自然风光到复杂动态场景都能表现出色。
    • 动作幅度可控:根据用户需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
    • 文本到视频(T2V)生成:支持用文本描述直接生成对应的视频内容,满足创意视频制作和内容生成的需求。
    • 图像到视频(I2V)生成:结合开源图像模型,基于图像生成视频,进一步提升生成效果和多样性。

    Open-Sora 2.0的技术原理

    • 模型架构:基于三维自编码器高效处理视频数据,捕捉时间维度上的动态信息。引入全注意力机制,提升视频生成的时空一致性。结合多模态扩散(MMDiT)架构,更精准地捕捉文本与视频内容的关联。
    • 高压缩比自编码器:基于 4×32×32 的高压缩比自编码器,显著降低推理成本。
    • 高效训练方法:基于多阶段、多层次的数据筛选机制,确保高质量数据输入,提升训练效率。优先在低分辨率下训练,学习关键动态特征,逐步提升分辨率,大幅降低计算开销。优先训练图生视频任务,用图像特征引导视频生成,加速模型收敛。
    • 并行训练与优化:结合 ColossalAI 和系统级优化,提升计算资源利用率。关键技术优化包括序列并行、ZeroDP、细粒度 Gradient Checkpointing、自动恢复机制、高效数据加载与内存管理等,确保训练效率最大化。
    • 模型初始化与蒸馏:借助开源图生视频模型 FLUX 进行初始化,降低训练成本。基于蒸馏的优化策略提升自编码器特征空间的表达能力,减少训练所需数据量和时间。

    Open-Sora 2.0的性能表现

    • 媲美 HunyuanVideo 和 30B Step-Video:Open-Sora 2.0 凭借仅 11B 参数规模,在 VBench 和人工偏好测试中达到与高成本开发的主流闭源大模型(如 HunyuanVideo 和 30B 参数的 Step-Video)相媲美的水平。
    • 用户偏好评测:在视觉表现、文本一致性和动作表现三大关键维度中,Open-Sora 2.0 至少在两个指标上超越开源 SOTA 模型 HunyuanVideo 和商业模型 Runway Gen-3 Alpha,用更少的资源实现更优的性能表现。
    • VBench 指标表现强势:根据视频生成权威榜单 VBench 的评测结果,Open-Sora 2.0 的性能表现极为出色。从Open-Sora 1.2升级到2.0版本后,与行业领先的 OpenAI Sora 闭源模型之间的性能差距从 4.52% 缩减至仅 0.69%,几乎实现完全的性能对齐。Open-Sora 2.0 的评测分数已超越腾讯的 HunyuanVideo,用更低的训练成本达成了更高的性能水平,为开源视频生成领域树立新的里程碑。

    Open-Sora 2.0

    Open-Sora 2.0的项目地址

    Open-Sora 2.0的生成效果

    • 提示词:A tomato surfing on a piece of lettuce down a waterfall of ranch dressing, with exaggerated surfing moves and creamy wave effects to highlight the 3D animated fun.(一颗番茄在一片生菜上冲浪,顺着牧场酱汁的瀑布而下,夸张的冲浪动作和柔滑的波浪效果凸显了 3D 动画的乐趣。)

    Open-Sora 2.0

    • 提示词:A drone camera circles a historic church on a rocky outcrop along the Amalfi Coast, highlighting its stunning architecture, tiered patios, and the dramatic coastal views with waves crashing below and people enjoying the scene in the warm afternoon light.(一架无人机摄像机围绕着阿马尔菲海岸岩石露头上的一座历史悠久的教堂飞行,突显了其令人惊叹的建筑、分层的庭院和壮观的海岸景色,海浪拍打在教堂下方,人们在温暖的午后阳光下欣赏着这美丽的景色。)

    Open-Sora 2.0

    • 提示词:A scene from disaster movie.(灾难片中的场景。)

    Open-Sora 2.0

    • 提示词:Chinese ancient style, realism. A young woman, dressed in an embroidered red qipao, walks along the ancient streets of a bustling Chinese town. The red lanterns hanging above her sway gently in the evening breeze, and her calm, confident stride contrasts with the lively atmosphere of merchants and performers around her.(中国古风写实。一位身着绣花红旗袍的年轻女子走在繁华的中国小镇的古老街道上。头顶上悬挂的红灯笼在晚风中轻轻摇曳,她从容自信的步伐与周围商贩和艺人的热闹氛围形成鲜明对比。)

    Open-Sora 2.0

    如何使用Open-Sora 2.0

    • 从源代码安装
      • 创建虚拟环境(推荐使用 Conda)
    conda create -n opensora python=3.9
    conda activate opensora
      • 克隆仓库
    git clone https://github.com/hpcaitech/Open-Sora
    cd Open-Sora
      • 安装依赖
        • 根据你的 CUDA 版本(例如 CUDA 12.1),安装基础依赖
    pip install -r requirements/requirements-cu121.txt
        • 安装项目
    pip install -v .  # 或使用开发模式:pip install -v -e .
        • 安装加速相关的依赖(可选,但推荐)
    pip install git+https://github.com/hpcaitech/TensorNVMe.git
    pip install git+https://github.com/hpcaitech/ColossalAI.git
    pip install packaging ninja
    pip install flash-attn --no-build-isolation
    pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.git
    • 使用 Docker 安装
      • 构建 Docker 镜像
    docker build -t opensora .
      • 运行 Docker 容器(确保挂载 GPU 和工作目录)
    docker run -ti --gpus all -v .:/workspace/Open-Sora opensora

    Open-Sora 2.0的应用场景

    • 频制作:快速生成广告、动画等创意视频,降低制作成本。
    • 影视后期:辅助生成特效镜头和虚拟场景,提升制作效率。
    • 教育领域:生成教育视频,增强教学的趣味性和效果。
    • 游戏开发:用在生成游戏动画和虚拟场景,丰富游戏内容。
    • VR/AR 应用:构建沉浸式虚拟场景,提升用户体验。
  • AI-Researcher – 香港大学推出的开源自动化科学研究工具

    AI-Researcher是什么

    AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的基准测试套件评估研究质量。

    AI-Researcher

    AI-Researcher的主要功能

    • 文献综述:系统自动收集和分析特定领域的现有研究文献,基于检索学术数据库(如 arXiv、IEEE Xplore 等)和代码平台(如 GitHub、Hugging Face)获取高质量的研究资源。
    • 算法验证与优化:自动进行实验设计、执行和结果分析,评估算法的性能,根据反馈进行优化,确保算法的有效性和可靠性。
    • 论文撰写:自动生成完整的学术论文,包括研究背景、方法、实验结果和讨论等内容。
    • 多领域支持与基准测试:支持计算机视觉、自然语言处理、数据挖掘等多个领域的研究,提供标准化的基准测试框架,用在评估研究质量和创新性。

    AI-Researcher的技术原理

    • 多模态数据集成与处理:系统基于自动化工具从学术数据库和代码平台收集文献、代码和数据集,用自然语言处理(NLP)技术对文本内容进行解析和分析,提取关键信息。
    • 基于LLM的智能代理:基于大型语言模型(LLM)作为核心驱动,用预训练模型(如 OpenAI 的 GPT 或 DeepSeek 的模型)生成高质量的文本内容,包括研究想法、算法设计和论文撰写。
    • 自动化实验与验证:系统基于容器化技术(如 Docker)和自动化脚本,实现算法的快速部署和实验执行。系统自动设计实验流程、收集结果,基于机器学习技术对结果进行分析和优化。
    • 多级任务处理与模块化设计:支持两种任务级别:用户提供详细想法(Level 1)和仅提供参考文献(Level 2)。系统根据任务级别调用不同的模块,实现从想法生成到论文撰写的全流程自动化。

    AI-Researcher的项目地址

    AI-Researcher的应用场景

    • 学术研究:加速研究流程,从想法到论文自动化完成,提升科研效率。
    • 跨学科研究:整合多领域知识,提供创新思路,促进跨学科合作。
    • 新手入门:为科研新手提供低门槛的工具,快速生成研究想法和实验设计。
    • 企业创新:助力企业快速探索新技术,加速产品研发和优化。
    • 教育应用:作为教学工具,帮助学生理解科研全流程,提供高质量案例。
  • Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

    Motion Anything是什么

    Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法,实现对运动序列中关键帧和动作的细粒度控制,解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和空间对齐变换器,有效整合多种模态条件,提升生成运动的连贯性和多样性。同时推出 Text-Music-Dance (TMD) 数据集,包含 2153 对文本、音乐和舞蹈的配对样本,为多模态运动生成的研究提供了新的基准。

    Motion Anything

    Motion Anything的主要功能

    • 多模态条件下的运动生成:根据文本描述、音乐或两者的组合生成高质量的人类运动。
    • 细粒度控制:基于注意力机制,对运动的关键帧和动作进行细粒度控制,实现更精准的生成效果。
    • 动态优先级调整:根据给定条件(如文本或音乐)动态调整运动生成的优先级,优先生成与条件最相关的动态帧和身体部位。
    • 跨模态对齐:将文本、音乐和运动在时间和空间维度上进行有效对齐,提升生成运动的连贯性和一致性。

    Motion Anything的技术原理

    • 基于注意力的掩码建模:基于注意力机制选择与条件(文本或音乐)最相关的运动部分进行掩码。在生成过程中,模型优先恢复被掩码的关键帧和动作,实现对动态内容的聚焦。
    • 时间自适应变换器:根据条件的模态(文本、音乐或两者的组合),动态调整注意力计算。让运动的关键帧与文本中的关键词或音乐的节拍对齐,提升时间维度上的连贯性。
    • 空间对齐变换器:将条件和运动嵌入重新排列,暴露空间维度。恢复被掩码的关键动作,确保运动与条件在空间上的一致性。
    • 多模态条件编码:同时处理文本和音乐等多种模态条件,基于自适应编码器将不同模态的信息整合到运动生成中。实现多模态条件下的可控运动生成,提升生成效果。
    • 数据集支持:提供新的 Text-Music-Dance (TMD) 数据集,包含 2153 对文本、音乐和舞蹈的配对样本,为多模态运动生成提供丰富的数据支持。

    Motion Anything的项目地址

    Motion Anything的应用场景

    • 影视动画:快速生成高质量动画,减少制作成本,提升视觉效果。
    • VR/AR:为虚拟角色生成逼真动作,增强沉浸感,实现自然交互。
    • 游戏开发:根据剧情或音乐生成角色动作,提升游戏的趣味性和流畅性。
    • 人机交互:生成自然动作,让机器人与人类交互更友好,实现语音指令驱动的动作生成。
    • 教育与培训:生成标准动作示范,辅助体育、舞蹈等教学,提升培训效果。
  • 子曰翻译2.0 – 网易有道推出的最新翻译大模型

    子曰翻译2.0是什么

    子曰翻译2.0是网易有道推出的最新翻译大模型,模型在数据、算法和评估三个关键维度进行了系统性升级,实现了翻译质量、效率和鲁棒性的质的飞跃。 在数据层面,有道收集清洗了数千万高质量翻译数据,涵盖学术、新闻、医疗等多个领域,由专业人员进行精细化标注,为模型训练提供了丰富且准确的数据资源。算法上,基于子曰教育大模型进行二次预训练,结合大模型蒸馏、融合技术及Online DPO技术,显著提升了翻译的准确性与流畅度,同时避免了大模型常见的“灾难性遗忘”问题。

    子曰翻译大模型2.0

    子曰翻译2.0的主要功能

    • 高质量的中英互译:子曰翻译大模型2.0在中英互译方面表现出色,能提供准确、流畅的翻译结果。在国际权威的WMT和Flores200测试集上均取得了优异的成绩,远超国内外通用大模型及专用翻译模型。
    • 专业领域翻译:能准确翻译学术论文中的专业术语和复杂句式,确保翻译结果符合学术规范,能将英文缩写准确翻译为计算机领域的专有词汇。
    • 多场景翻译支持:适用于日常交流场景,提供自然流畅的翻译结果。在翻译古诗等文学作品时,能保留原文意境,兼顾押韵,使译文更具文学性。

    子曰翻译2.0的技术原理

    • 数据层面
      • 高质量语料收集与清洗:精心收集并严格清洗了数千万高质量的翻译数据,涵盖学术、新闻、医疗等多个领域,确保数据的准确性与适配性,为模型训练打下牢固根基。
      • 精细化人工标注:由英语专八认证人员及职业译员进行精细化人工标注,提升数据标注质量,为模型执行翻译任务提供精准指导。
    • 算法层面
      • 二次预训练:以子曰教育大模型为基础进行二次预训练,打造更具专业性与针对性的翻译基座大模型,显著提升翻译性能。
      • 大模型蒸馏技术:精简模型参数的同时,大幅提升运行效率与推理速度。
      • 大模型融合技术:整合多个模型优势,增强翻译的准确性和稳定性。
      • Online DPO技术:动态调整模型生成策略,保证译文质量和流畅度的提升。
      • 强化学习:基于人类偏好的翻译数据自动获取并进行强化学习,进一步优化翻译结果。
      • 多任务联合学习:让模型在多个翻译任务中协同进步,增强综合翻译能力。
    • 评估层面
      • 全面标注与严格分离:人工标注覆盖各个领域的开发集和盲测集,严格分离开发集和盲测集,确保评估的客观性和准确性。
      • 自研评估模型:自主研发超越COMET准确率的翻译评估模型Reward Model,为性能评估提供可靠量化依据。
      • 完善的人工评估方案:从多维度对模型的翻译结果进行细致分析和评价,确保翻译质量。

    如何使用子曰翻译2.0

    • 访问有道翻译:访问有道翻译的官方网站
    • 选择AI翻译:就是子曰翻译大模型2.0
    • 输入文本:输入需要翻译的文本,选择翻译语言对。

    子曰翻译2.0的应用场景

    • 学术论文翻译:子曰翻译大模型2.0在学术论文翻译方面表现出色,能准确翻译专业术语和复杂句式,确保翻译结果符合学术规范。
    • 财报翻译:在翻译财务报告时,子曰翻译大模型2.0能生成符合中文表达习惯的译文,逻辑清晰,易于理解。
    • 医学翻译:子曰翻译大模型2.0在医学领域能准确翻译专业术语,避免因翻译错误导致的误解。
    • 古诗翻译:在文学翻译方面,子曰翻译大模型2.0能保留原文意境,兼顾押韵,使译文更具文学性
    • 日常对话翻译:子曰翻译大模型2.0能处理各种日常对话中的复杂句式和专业术语,确保翻译的准确性和流畅性。
  • Reka Flash 3 – Reka AI 推出的开源推理模型

    Reka Flash 3是什么

    Reka Flash 3 是 Reka AI 推出的开源推理模型,拥有 21 亿参数。支持多模态输入,包括文本、图像、视频和音频,可处理最多 32k 个令牌的上下文长度,适用于一般对话、编码辅助、指令跟随等场景。模型完全精度大小为 39GB(fp16),4 位量化后可压缩至 11GB,方便在设备上部署。

    Reka Flash 3

    Reka Flash 3的主要功能

    • 多模态输入支持:Reka Flash 3 能处理多种类型的输入数据,包括文本、图像、视频和音频。
    • 高效推理能力:Reka Flash 3 支持最多 32k 个令牌 的上下文长度,能处理较长的文档和复杂的任务,例如长篇论文、代码片段或复杂的多步骤问题。
    • 多语言支持:Reka Flash 3 在多语言方面表现出色,主要集中在英语,在 WMT’23 的 COMET 得分为 83.2,满足不同语言用户的需求。

    Reka Flash 3的技术原理

    • 模块化的编码器-解码器架构:Reka Flash 3 采用模块化的编码器-解码器架构。编码器负责处理多种输入数据类型,包括文本、图像、视频和音频,转换为高维向量表示。解码器则基于编码器的输出生成文本输出。
    • 强化学习训练:Reka Flash 3 的训练结合了公开获取的数据集和合成数据集,采用 REINFORCE Leave One-Out(RLOO)方法进行强化学习。使模型在能力与效率之间取得了平衡,能更好地理解和生成高质量的内容。
    • 预算强制机制:通过特定的 <reasoning> 标签,用户可以限制模型的推理步骤,确保模型在有限的计算资源下保持高效和一致的表现。

    Reka Flash 3的项目地址

    Reka Flash 3的应用场景

    • 一般对话:Reka Flash 3 能进行自然流畅的对话,提供陪伴、信息查询等服务。
    • 编码辅助:模型可以帮助开发者编写代码、调试代码问题,提供代码优化建议。
    • 指令跟随:Reka Flash 3 能理解和执行复杂的指令,完成各种任务,例如生成报告、分析数据等。
    • 网络搜索辅助:Reka Flash 3 可以调用网络搜索功能,获取额外的信息来辅助回答。
  • Gemma 3 – 谷歌最新推出的开源多模态 AI 模型

    Gemma 3是什么

    Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求。Gemma 3 在单 GPU 或 TPU 上的性能优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。配备了 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。开发者可以通过 Google AI Studio 快速体验,或从 Hugging Face、Kaggle 等平台下载模型进行微调和部署。

    Gemma 3

    Gemma 3的主要功能

    • 多模态处理能力:Gemma 3 支持文本、图像及短视频的混合输入,能够处理复杂的多模态任务,如图像问答、视频内容分析等。
    • 高分辨率图像支持:引入动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像,能在 20 秒内完成 1 小时视频的关键帧提取。
    • 多语言支持:支持超过 140 种语言的预训练,直接支持超过 35 种语言。
    • 单 GPU 优化:Gemma 3 被称为“全球最强的单加速器模型”,在单 GPU 或 TPU 环境下表现显著优于其他同类模型。
    • 推理速度提升:在处理短视频内容时,推理速度提升了 47%。
    • 硬件适配:针对 Nvidia GPU 和 Google Cloud TPU 进行了深度优化,确保在不同硬件平台上的高效运行。
    • 多种模型大小:提供 1B、4B、12B 和 27B 四种不同尺寸的模型,满足不同硬件和性能需求。
    • 开发工具支持:支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具和框架。
    • 部署选项多样:支持 Google AI Studio、Vertex AI、Cloud Run、本地环境等多种部署选项。

    Gemma 3的技术原理

    • 图像安全分类器:配备 ShieldGemma 2 图像安全分类器,能检测和标记危险内容、色情内容和暴力内容,进一步提升了模型的安全性。
    • 训练与微调:Gemma 3 采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升了模型在数学、编码和指令跟随方面的能力。提供了更灵活的微调工具,方便开发者根据需求进行定制。

    Gemma 3的项目地址

    Gemma 3的应用场景

    • 人脸识别:可以识别图像中的人脸特征,用于身份验证、安防监控等场景。
    • 物体检测:能检测图像中的物体,识别其类别,例如在工业生产中检测产品质量问题。
    • 智能助手与聊天机器人:Gemma 3 可以理解多种语言的自然语言指令,生成自然流畅的回复,为用户提供智能的交互体验。
    • 文本分类与情感分析:能对文本进行准确的分类,判断文本的情感倾向,例如判断评论是正面还是负面。
    • 短视频内容分析:能处理短视频内容,提取关键帧,分析视频中的场景和事件。
  • Deep Research Web UI – 开源 AI 研究助手,逐步深入挖掘研究主题

    Deep Research Web UI是什么

    Deep Research Web UI 是开源的 AI 研究助手工具,帮助用户高效地进行深度研究。通过 AI 驱动的迭代搜索,逐步深入挖掘指定主题,以树状结构可视化研究过程,让用户清晰了解 AI 的推理和信息收集路径。工具支持多语言搜索,满足全球化研究需求,支持将研究报告导出为 Markdown 或 PDF 格式,方便保存和分享。

    Deep Research Web UI

    Deep Research Web UI的主要功能

    • 深度研究:通过多轮次的搜索和推理,逐步深入挖掘研究主题,自动扩展和细化问题,提供全面的研究结果。根据已获取的信息,AI 助手会实时调整搜索方向,确保研究的深度和广度。
    • 搜索可视化:以树状图的形式展示研究过程,清晰呈现每个节点的搜索内容和推理逻辑,帮助用户追踪 AI 的研究路径。
    • 节点信息管理:用户可以查看每个节点的详细内容,包括搜索结果、引用链接等,还可以对节点进行标记、删除或重新搜索。
    • 多语言支持:支持多种语言的搜索和研究,包括但不限于英文、中文、荷兰语等,满足不同用户的需求。
    • 联网搜索与信息检索:Deep Research Web UI 能实时访问网络,从互联网上检索相关的信息,包括文本、图像、PDF 文件等。通过智能搜索算法提高信息检索的效率和准确性,支持多种搜索服务,如 Tavily 和 Firecrawl。
    • 数据分析与处理:检索到信息后,Deep Research Web UI 会对数据进行分析和处理,提取关键信息和数据。能处理多模态数据,包括文本、图像和表格等,通过自定义算法解析和理解表格、图表中的数据,进行结构化处理。
    • 报告生成与可视化:根据分析结果,Deep Research Web UI 会生成一份详细的研究报告,包括清晰的引用和对其思考过程的总结。包含文本信息,图像、表格、图表等多种形式的内容。
    • 浏览器端运行:所有配置和 API 请求均在浏览器端完成,用户数据不会上传到服务器,保障隐私安全。
    • 支持多种 AI 服务:兼容 OpenAI、DeepSeek、OpenRouter、Ollama 等多种 AI 服务,用户可以根据需要选择不同的模型。
    • 自定义部署:支持通过 Docker 在本地快速部署,用户可以根据自己的需求进行自定义配置。

    Deep Research Web UI的技术原理

    • 自然语言处理与语义理解:Deep Research Web UI 使用强大的自然语言处理(NLP)技术,基于 OpenAI 的 o3 模型,对用户输入的研究主题进行语义理解和分析。
    • 多步骤研究规划:通过强化学习技术,Deep Research Web UI 能自主规划多步骤的研究路径。会根据对问题的理解,制定详细的研究计划,包括需要搜索的信息类型、可能的信息来源以及研究的优先级等。具备根据实时信息动态调整策略的能力。
    • 端到端强化学习:Deep Research Web UI 使用端到端强化学习训练模型,使其能够在不同领域进行推理和复杂浏览任务。这种方法的核心是让模型学会自主规划和执行多步骤过程以找到相关数据,包括基于实时信息进行回溯和适应的能力。

    Deep Research Web UI的项目地址

    Deep Research Web UI的应用场景

    • 文献综述:快速生成文献综述,帮助学者和学生在短时间内了解某一研究领域的现状和发展趋势。
    • 数据分析:对海量的学术资料进行分析,提取关键信息,辅助论文写作和课题研究。
    • 市场调研:企业可以用工具进行市场调研,了解市场规模、竞争格局、消费者需求等,为商业决策提供数据支持。
    • 财务分析:对企业的财务数据进行分析,评估其财务状况和投资价值。
    • 产品比较:消费者可以用工具对比不同产品的特性和评价,做出更明智的购买决策。
  • MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架

    MM-StoryAgent是什么

    MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型(LLMs)和多种模态的生成工具(如文本、图像、音频),用多阶段写作流程和模态特定的提示修订机制,提升故事的吸引力和沉浸感。框架支持灵活的模块化设计,能替换不同的生成模型和API。MM-StoryAgent 提高了故事质量,在图像、语音、音乐和音效之间实现更好的对齐效果,为儿童故事书的自动化创作提供了高效、灵活且富有表现力的解决方案。

    MM-StoryAgent

    MM-StoryAgent的主要功能

    • 高质量故事生成:基于多智能体协作和多阶段写作流程,生成具有吸引力、教育性和情感共鸣的故事内容。
    • 多模态内容生成:结合文本、图像、语音、音乐和音效等多种模态,为用户带来丰富的沉浸式体验。
    • 角色一致性:在图像生成中,基于角色提取和提示修订,确保故事中的角色在视觉上保持一致。
    • 模态对齐:基于提示修订和对比学习模型,优化文本与图像、音频之间的对齐效果,提升整体故事的连贯性。
    • 灵活的模块化设计:支持灵活替换生成模块(如不同的文本生成模型、图像生成模型等),便于开发者根据需求进行定制和优化。

    MM-StoryAgent的技术原理

    • 多智能体协作架构:模拟业余作者与专家之间的对话,生成故事大纲和章节内容。对话过程模拟人类的头脑风暴,为故事提供更丰富的创意和吸引力。针对图像、音频等不同模态的需求,将文本故事转化为适合生成模型的提示内容。基于“修订者-审核者”的多轮协作,优化提示的质量。
    • 多模态生成技术
      • 文本生成:基于大型语言模型(LLMs)生成故事文本。
      • 图像生成:用扩散模型(如 StoryDiffusion)生成与故事内容一致的图像,并通过角色提取确保角色在多帧图像中保持一致。
      • 音频生成:基于文本到语音(TTS)模型生成旁白,用 AudioLDM2 或 MusicGen 等模型生成音效和背景音乐。
      • 视频合成:将生成的图像、音频和文本内容合成,形成完整的有声故事视频。
    • 模态对齐优化:用对比学习模型(如 CLIP、CLAP)评估生成内容与文本之间的对齐程度,基于提示修订机制优化生成效果。
    • 模块化设计:框架支持灵活替换不同的生成模型和API,开发者根据需求选择更先进的模型提升生成质量。

    MM-StoryAgent的项目地址

    MM-StoryAgent的应用场景

    • 儿童教育与娱乐:生成有趣且富有教育意义的有声故事视频,陪伴儿童学习和成长。
    • 数字内容创作:为创作者快速生成多模态故事内容,降低创作成本,提高效率。
    • 在线教育:辅助教学,用故事形式讲解知识,增强学习趣味性。
    • 多媒体出版:自动化生成有声绘本,助力出版社快速制作多媒体内容。
    • 智能设备集成:应用于智能音箱、平板等设备,提供个性化的故事生成服务。
  • BEHAVIOR Robot Suite – 李飞飞团队开源的机器人家庭任务自动化框架

    BEHAVIOR Robot Suite是什么

    BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具备的关键能力,包括双臂协调、稳定导航和广泛的末端执行器可达性。BRS 的核心创新包括:JoyLo,一种低成本的全身遥操作接口,用在高效控制机器人收集高质量数据;及 WB-VIMA,一种模仿学习算法,基于建模机器人全身动作的层次结构和多模态观测数据实现精准的全身操作。BRS 在真实世界的多样化家务任务中表现出色,展示了在机器人自主操作领域的潜力。

    BEHAVIOR Robot Suite

    BEHAVIOR Robot Suite的主要功能

    • 全身操作能力:基于双臂协调、稳定导航和广泛的末端执行器可达性,完成复杂的家务任务,如搬运重物、开门、清洁等。
    • 高效数据收集: JoyLo 提供低成本、高质量的全身遥操作接口,支持快速数据收集,为策略学习提供支持。
    • 强大的学习算法:WB-VIMA 算法用机器人的运动学层次结构,建模全身动作的依赖关系,用多模态感知数据动态调整策略。
    • 适应真实环境:在真实世界的复杂环境中,与未修改的日常物品交互,完成长时序、多阶段的任务。
    • 故障恢复能力:学习到的策略能自动检测、纠正操作中的错误,提高任务成功率。

    BEHAVIOR Robot Suite的技术原理

    • JoyLo(低成本全身遥操作接口):基于低成本硬件(如 Nintendo Joy-Con)实现对多自由度机器人的高效控制。用运动学双臂设计,结合移动基座和灵活的躯干,实现全身动作的精确控制。双边遥操作提供触觉反馈,增强用户体验。
    • WB-VIMA(全身视觉运动注意力策略):基于机器人运动学层次结构,将全身动作分解为多个相关联的部分(如躯干、基座、手臂),逐层建模动作依赖关系。用自注意力机制动态聚合视觉、触觉等多模态数据,减少对单一模态的依赖,提高策略的泛化能力。基于自回归方式对全身动作进行去噪,确保动作的连贯性和协调性。

    BEHAVIOR Robot Suite的项目地址

    BEHAVIOR Robot Suite的应用场景

    • 家务劳动自动化:完成如清理房间、将物品放到高处或低处的架子上、收拾餐具等任务,减轻家庭成员的家务负担。
    • 垃圾处理:自动将垃圾袋从室内搬运到室外的垃圾桶,包括开门、导航和丢弃垃圾等多步骤操作。
    • 衣物整理与收纳:从衣柜中取出衣物并将其放置在沙发上,或将衣物挂回衣柜。
    • 卫生间清洁:执行如清洁马桶、按下冲水按钮等任务,需要机器人具备高度的灵活性和末端执行器的精确控制。
    • 日常物品管理:在厨房中打开洗碗机、将物品放入或取出洗碗机等。
  • PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型

    PP-DocBee是什么

    PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表格、图表等多类型文档内容。PP-DocBee在学术界权威评测中达到同参数量模型的SOTA水平,在内部业务中文场景中表现优异。PP-DocBee推理性能经过优化,响应速度更快,能保持高质量输出。PP-DocBee适用于文档问答、复杂文档解析等场景,支持多种部署方式,为文档处理提供高效、智能的解决方案。

    PP-DocBee

    PP-DocBee的主要功能

    • 文档内容理解:PP-DocBee对文档图像中的文字、表格、图表等元素进行精准识别和理解,支持多模态输入,包括文本和图像。
    • 文档问答:基于文档内容提出问题,结合文档中的信息生成准确的回答。
    • 结构化信息提取:将文档中的信息(如表格、图表)转化为结构化数据,便于进一步分析和处理。

    PP-DocBee的技术原理

    • 架构设计:基于 ViT(视觉Transformer)+ MLP(多层感知机)+ LLM(大语言模型) 的架构,结合视觉和语言模型的优势,实现端到端的文档理解。
    • 数据合成与预处理:针对中文文档理解的不足,设计文档类数据智能生产方案,包括OCR小模型与LLM大模型结合、基于渲染引擎生成图像数据等。训练时设置更大的resize阈值,推理时对图像进行等比例放大,获取更全面的视觉特征。
    • 训练优化:混合多种文档理解数据(如通用VQA、OCR、图表、数学推理等),设置数据配比机制,平衡不同数据集的数量差异。基于OCR后处理辅助,将OCR识别的文字结果作为先验信息,提升模型在文字清晰的图片上的理解能力。

    PP-DocBee的项目地址

    PP-DocBee的应用场景

    • 财务领域:解析财报、发票等文档,提取关键数据,辅助财务分析和审计。
    • 法律领域:处理合同、法规等文档,快速定位条款,支持法律合规审查。
    • 学术领域:提取论文中的文字和图表信息,辅助文献检索和研究分析。
    • 企业文档管理:提取和结构化内部文档内容,优化文档检索和管理流程。
    • 教育领域:解析教材和试卷,辅助教学资源开发和个性化学习。