Author: Chimy

Docwelo – AI文档生成平台，自动生成格式完美、语言专业的文档
Docwelo是什么

Docwelo 是专为自由职业者和小型企业设计的 AI 驱动文档生成平台。用户只需选择文档类型并回答几个简单问题，AI 能快速生成格式完美、语言专业的文档，涵盖法律合同、业务提案等多种类型。平台提供银行级安全保护，确保用户隐私和文档安全。支持团队实时协作，方便多人共同编辑和修改文档。

Docwelo的主要功能
- 智能文档生成：用户选择文档类型并回答一些简单问题后，AI 会自动根据用户需求生成格式完美、语言专业的文档。支持多种文档类型，如法律合同、业务提案等。
- 银行级安全保护：提供行业领先的隐私保护和安全措施，确保用户文档的安全性和隐私性，让用户放心使用。
- 实时协作：支持团队实时协作，方便多人共同编辑和修改文档，提高团队工作效率。
- 可定制工作流程：用户可以根据自己的需求和习惯，定制文档生成的工作流程，提升使用体验。
- 即时文档创建：快速生成文档，将文档创建时间从数小时缩短到数分钟，节省用户时间。
Docwelo的官网地址
- 官网地址：docwelo.com
Docwelo的应用场景
- 法律文件：为自由职业者和小型企业生成各种法律文件，确保其业务活动符合法律要求，降低法律风险。
- 业务文档：为业务提案生成定制化的文档，帮助用户快速准备高质量的提案，提升客户信任度。
- 企业团队文档管理：企业团队可以用协作功能，共同编辑合同、报告等文档，确保文档的一致性和准确性。
- 个人项目文档：个人用户可以用 Docwelo 快速生成项目相关文档，如个人项目计划、总结等，提升个人工作效率。
- 报告生成：快速生成各种业务报告，如市场调研报告、项目进度报告等，帮助用户及时掌握业务动态。
March 12, 2025
MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架
MM-StoryAgent是什么

MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架，用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型（LLMs）和多种模态的生成工具（如文本、图像、音频），用多阶段写作流程和模态特定的提示修订机制，提升故事的吸引力和沉浸感。框架支持灵活的模块化设计，能替换不同的生成模型和API。MM-StoryAgent 提高了故事质量，在图像、语音、音乐和音效之间实现更好的对齐效果，为儿童故事书的自动化创作提供了高效、灵活且富有表现力的解决方案。

MM-StoryAgent的主要功能
- 高质量故事生成：基于多智能体协作和多阶段写作流程，生成具有吸引力、教育性和情感共鸣的故事内容。
- 多模态内容生成：结合文本、图像、语音、音乐和音效等多种模态，为用户带来丰富的沉浸式体验。
- 角色一致性：在图像生成中，基于角色提取和提示修订，确保故事中的角色在视觉上保持一致。
- 模态对齐：基于提示修订和对比学习模型，优化文本与图像、音频之间的对齐效果，提升整体故事的连贯性。
- 灵活的模块化设计：支持灵活替换生成模块（如不同的文本生成模型、图像生成模型等），便于开发者根据需求进行定制和优化。
MM-StoryAgent的技术原理
- 多智能体协作架构：模拟业余作者与专家之间的对话，生成故事大纲和章节内容。对话过程模拟人类的头脑风暴，为故事提供更丰富的创意和吸引力。针对图像、音频等不同模态的需求，将文本故事转化为适合生成模型的提示内容。基于“修订者-审核者”的多轮协作，优化提示的质量。
- 多模态生成技术：
  - 文本生成：基于大型语言模型（LLMs）生成故事文本。
  - 图像生成：用扩散模型（如 StoryDiffusion）生成与故事内容一致的图像，并通过角色提取确保角色在多帧图像中保持一致。
  - 音频生成：基于文本到语音（TTS）模型生成旁白，用 AudioLDM2 或 MusicGen 等模型生成音效和背景音乐。
  - 视频合成：将生成的图像、音频和文本内容合成，形成完整的有声故事视频。
- 模态对齐优化：用对比学习模型（如 CLIP、CLAP）评估生成内容与文本之间的对齐程度，基于提示修订机制优化生成效果。
- 模块化设计：框架支持灵活替换不同的生成模型和API，开发者根据需求选择更先进的模型提升生成质量。
MM-StoryAgent的项目地址
- GitHub仓库：https://github.com/X-PLUG/MM_StoryAgent
- arXiv技术论文：https://arxiv.org/pdf/2503.05242
- 在线体验Demo：https://huggingface.co/spaces/wsntxxn/MM-StoryAgent
MM-StoryAgent的应用场景
- 儿童教育与娱乐：生成有趣且富有教育意义的有声故事视频，陪伴儿童学习和成长。
- 数字内容创作：为创作者快速生成多模态故事内容，降低创作成本，提高效率。
- 在线教育：辅助教学，用故事形式讲解知识，增强学习趣味性。
- 多媒体出版：自动化生成有声绘本，助力出版社快速制作多媒体内容。
- 智能设备集成：应用于智能音箱、平板等设备，提供个性化的故事生成服务。
March 12, 2025
BEHAVIOR Robot Suite – 李飞飞团队开源的机器人家庭任务自动化框架
BEHAVIOR Robot Suite是什么

BEHAVIOR Robot Suite（BRS）是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动，确定机器人需要具备的关键能力，包括双臂协调、稳定导航和广泛的末端执行器可达性。BRS 的核心创新包括：JoyLo，一种低成本的全身遥操作接口，用在高效控制机器人收集高质量数据；及 WB-VIMA，一种模仿学习算法，基于建模机器人全身动作的层次结构和多模态观测数据实现精准的全身操作。BRS 在真实世界的多样化家务任务中表现出色，展示了在机器人自主操作领域的潜力。

BEHAVIOR Robot Suite的主要功能
- 全身操作能力：基于双臂协调、稳定导航和广泛的末端执行器可达性，完成复杂的家务任务，如搬运重物、开门、清洁等。
- 高效数据收集： JoyLo 提供低成本、高质量的全身遥操作接口，支持快速数据收集，为策略学习提供支持。
- 强大的学习算法：WB-VIMA 算法用机器人的运动学层次结构，建模全身动作的依赖关系，用多模态感知数据动态调整策略。
- 适应真实环境：在真实世界的复杂环境中，与未修改的日常物品交互，完成长时序、多阶段的任务。
- 故障恢复能力：学习到的策略能自动检测、纠正操作中的错误，提高任务成功率。
BEHAVIOR Robot Suite的技术原理
- JoyLo（低成本全身遥操作接口）：基于低成本硬件（如 Nintendo Joy-Con）实现对多自由度机器人的高效控制。用运动学双臂设计，结合移动基座和灵活的躯干，实现全身动作的精确控制。双边遥操作提供触觉反馈，增强用户体验。
- WB-VIMA（全身视觉运动注意力策略）：基于机器人运动学层次结构，将全身动作分解为多个相关联的部分（如躯干、基座、手臂），逐层建模动作依赖关系。用自注意力机制动态聚合视觉、触觉等多模态数据，减少对单一模态的依赖，提高策略的泛化能力。基于自回归方式对全身动作进行去噪，确保动作的连贯性和协调性。
BEHAVIOR Robot Suite的项目地址
- 项目官网：https://behavior-robot-suite.github.io/
- GitHub仓库：https://github.com/behavior-robot-suite
- HuggingFace模型库：https://huggingface.co/datasets/behavior-robot-suite
- arXiv技术论文：https://arxiv.org/pdf/2503.05652
BEHAVIOR Robot Suite的应用场景
- 家务劳动自动化：完成如清理房间、将物品放到高处或低处的架子上、收拾餐具等任务，减轻家庭成员的家务负担。
- 垃圾处理：自动将垃圾袋从室内搬运到室外的垃圾桶，包括开门、导航和丢弃垃圾等多步骤操作。
- 衣物整理与收纳：从衣柜中取出衣物并将其放置在沙发上，或将衣物挂回衣柜。
- 卫生间清洁：执行如清洁马桶、按下冲水按钮等任务，需要机器人具备高度的灵活性和末端执行器的精确控制。
- 日常物品管理：在厨房中打开洗碗机、将物品放入或取出洗碗机等。
March 12, 2025
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型
PP-DocBee是什么

PP-DocBee是百度飞桨（PaddlePaddle）团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构，具备强大的中文文档解析能力，能高效处理文字、表格、图表等多类型文档内容。PP-DocBee在学术界权威评测中达到同参数量模型的SOTA水平，在内部业务中文场景中表现优异。PP-DocBee推理性能经过优化，响应速度更快，能保持高质量输出。PP-DocBee适用于文档问答、复杂文档解析等场景，支持多种部署方式，为文档处理提供高效、智能的解决方案。

PP-DocBee的主要功能
- 文档内容理解：PP-DocBee对文档图像中的文字、表格、图表等元素进行精准识别和理解，支持多模态输入，包括文本和图像。
- 文档问答：基于文档内容提出问题，结合文档中的信息生成准确的回答。
- 结构化信息提取：将文档中的信息（如表格、图表）转化为结构化数据，便于进一步分析和处理。
PP-DocBee的技术原理
- 架构设计：基于 ViT（视觉Transformer）+ MLP（多层感知机）+ LLM（大语言模型）的架构，结合视觉和语言模型的优势，实现端到端的文档理解。
- 数据合成与预处理：针对中文文档理解的不足，设计文档类数据智能生产方案，包括OCR小模型与LLM大模型结合、基于渲染引擎生成图像数据等。训练时设置更大的resize阈值，推理时对图像进行等比例放大，获取更全面的视觉特征。
- 训练优化：混合多种文档理解数据（如通用VQA、OCR、图表、数学推理等），设置数据配比机制，平衡不同数据集的数量差异。基于OCR后处理辅助，将OCR识别的文字结果作为先验信息，提升模型在文字清晰的图片上的理解能力。
PP-DocBee的项目地址
- GitHub仓库：https://github.com/PaddlePaddle/PaddleMIX/tree/develop/deploy/ppdocbee
- 在线体验Demo：https://aistudio.baidu.com/application/detail/60135
PP-DocBee的应用场景
- 财务领域：解析财报、发票等文档，提取关键数据，辅助财务分析和审计。
- 法律领域：处理合同、法规等文档，快速定位条款，支持法律合规审查。
- 学术领域：提取论文中的文字和图表信息，辅助文献检索和研究分析。
- 企业文档管理：提取和结构化内部文档内容，优化文档检索和管理流程。
- 教育领域：解析教材和试卷，辅助教学资源开发和个性化学习。
March 12, 2025
Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型
Seedream 2.0是什么

Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型，解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型（LLM）作为文本编码器，能直接从海量数据中学习本土知识，生成具有准确文化细节和审美表达的高保真图像。Seedream 2.0 应用了 Glyph-Aligned ByT5 模型进行灵活的字符级文本渲染，通过 Scaled ROPE 技术实现对未训练分辨率的泛化。

Seedream 2.0的主要功能
- 强大的双语理解能力：支持中英文指令的高精度理解与遵循，能生成具有文化细微差别的中文或英文美学表达图像，打破不同语言与视觉的次元壁。
- 优秀的文本渲染能力：大幅降低文字崩坏率，字体变化呈现更自然、更具美感，在国风图案与元素的生成上，能输出高品质结果。
- 多分辨率生成能力：通过三重升级的 DiT 架构，实现多分辨率生成和训练稳定性提升，能生成从未训练过的图像尺寸和各种分辨率。
- 基于人类反馈的强化学习（RLHF）优化：通过自研奖励模型与反馈学习算法，提升模型在图像文本对齐、美学、结构正确性、文本渲染等方面的整体性能。
Seedream 2.0的技术原理
- 数据预处理
  - 数据组成：从高质量数据对、分布维持数据、知识注入数据和针对性补充数据四个部分精心策划预训练数据。
  - 数据清洗：通过多阶段过滤方法，确保数据质量和相关性。
  - 主动学习引擎：优化图像分类器，确保训练数据集的高质量。
  - 图像标注：生成通用标题和专业标题，涵盖多种描述类型。
  - 文本渲染数据：构建大规模视觉文本渲染数据集，用于文本渲染任务。
- 模型预训练
  - 扩散变换器（DiT）：处理图像和文本标记，采用缩放版二维旋转位置嵌入（Scaling RoPE），支持未训练分辨率的泛化。
  - 文本编码器：自研双语大语言模型（LLM），直接从海量数据中学习本土知识，支持高保真图像生成。
  - 字符级文本编码器：应用 Glyph-Aligned ByT5 模型，实现灵活的字符级文本渲染。
- 模型后训练
  - 持续训练（CT）：通过高质量数据集延长训练，提升生成图像的美感。
  - 监督微调（SFT）：使用少量高质量图像微调模型，提升艺术美感。
  - 人类反馈对齐（RLHF）：结合偏好数据、奖励模型和反馈学习算法，提升多方面性能。
  - 提示工程（PE）：利用微调的 LLM 重写用户提示，提升生成图像质量。
  - 细化器：将基础模型生成的图像放大到更高分辨率，修复结构错误。
- 指令式图像编辑对齐：Seedream 2.0 可以适应指令式图像编辑模型，如 SeedEdit，实现高质量的图像编辑，同时保留高美感和构图保真度。
- 性能表现：Seedream 2.0 在提示遵循、美感、文本渲染和结构正确性等方面表现出色，经过多轮 RLHF 优化，其输出与人类偏好高度一致，ELO 得分优异。
Seedream 2.0的项目地址
- 项目官网：https://team.doubao.com/zh/tech/seedream
- arXIv技术论文：https://arxiv.org/pdf/2503.07703
如何使用Seedream 2.0
- 访问平台使用：访问豆包的官方网站使用或访问即梦的官方网站使用。
- 注册/登录：使用账号登录豆包平台。
- 输入提示词：在图像生成界面输入详细的中英文提示词，描述你想要生成的图像内容。
- 选择生成模式：选择适合的生成模式（如普通生成、高清生成等）。
- 调整参数：根据需要调整生成参数（如分辨率、风格等）。
- 生成图像：点击生成按钮，等待模型生成图像。
- 下载或使用图像：生成的图像可以直接下载或用于进一步的编辑。
- 使用 API 接口
  - 获取 API Key：如果你是开发者，可以通过豆包或即梦平台的开发者文档获取 API Key。
  - 发送请求：使用 HTTP 请求将提示词和生成参数发送到 Seedream 2.0 的 API 接口。
  - 接收响应：API 将返回生成的图像链接，你可以下载或直接使用这些图像。
Seedream 2.0的应用场景
- 海报设计：生成具有吸引力的海报，支持复杂的文字渲染和艺术风格，能根据用户输入的提示词生成高质量的海报设计。
- 社交媒体内容：为社交媒体平台生成吸引人的图像，支持多种风格和主题，帮助用户快速生成高质量的社交媒体内容。
- 视频内容：生成视频内容的封面图、关键帧等，支持多种视频风格和场景，能根据视频内容生成相关的图像。
- 绘画创作：生成各种风格的绘画作品，支持油画、水彩画、素描等多种艺术风格，能根据用户输入的提示词生成高质量的绘画作品。
- 教学辅助：生成教学辅助图像，支持多种教学场景，能根据教学内容生成相关的图像。
- 游戏场景生成：生成游戏中的场景和背景，支持多种游戏风格，能根据游戏内容生成相关的图像。
March 12, 2025
VACE – 阿里通义推出的视频生成与编辑框架
VACE是什么

VACE（Video Creation and Editing）是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务（如参考视频生成、视频到视频编辑、遮罩编辑等）到一个统一模型中，实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit（VCU），将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元，支持多种任务的灵活组合。实验表明，VACE在多种任务上达到与特定任务模型相当的性能，提供更广泛的应用可能性，为视频内容创作开辟新的路径。

VACE的主要功能
- 文本到视频生成：根据文本提示生成视频。
- 参考到视频生成：结合文本和参考图像生成视频。
- 视频扩展：基于现有视频片段生成新的开头或结尾。
- 视频到视频编辑：对输入视频进行整体风格转换（如色彩化、风格化）。
- 遮罩视频编辑：在指定区域进行编辑，如修复（Inpainting）、扩展（Outpainting）。
- 主体移除与重建：移除视频中的特定主体并填充背景。
- 任务组合与创新：将多种任务组合，例如参考生成+主体替换、姿态控制+视频扩展等。基于姿态、深度、光流等条件控制视频生成。
VACE的技术原理
- Video Condition Unit（VCU）：VCU是VACE的核心输入接口，用在整合多种模态的输入（如文本、图像、视频、遮罩）。基于统一的格式将输入传递给模型，支持多种任务的灵活组合。
- Context Adapter结构：基于Context Adapter，将不同任务的概念（如编辑区域、参考内容）注入模型。将时间和空间维度的形式化表示，适应不同的任务需求。
- 扩散模型：基于扩散模型（如Diffusion Transformer）构建，用逐步去噪的方式生成高质量的视频内容。
- 多模态输入处理：支持文本、图像、视频和遮罩等多种输入模态，基于特定的编码器映射到统一的特征空间。例如，视频VAE（Variational Autoencoder）处理视频输入，分割和掩码操作处理局部编辑任务。
- 训练与优化策略：基于逐步训练策略，先从基础任务（如修复、扩展）开始，逐步扩展到复杂任务（如组合任务）。支持全模型微调和上下文适配器微调，后者能更快收敛支持插件式功能。
VACE的项目地址
- 项目官网：https://ali-vilab.github.io/VACE-Page/
- GitHub仓库：https://github.com/ali-vilab/VACE
- arXiv技术论文：https://arxiv.org/pdf/2503.07598
VACE的应用场景
- 创意视频生成：快速根据文本或图片生成广告、动画等创意视频内容。
- 视频修复与增强：修复老视频、填补画面缺失部分或提升视频风格。
- 高效视频编辑：实现主体替换、动画添加等复杂编辑任务。
- 视频扩展：为短视频生成新片段，延长视频内容。
- 互动视频创作：根据用户输入（如姿态、草图）生成个性化视频。
March 12, 2025
GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架
GaussianAnything是什么

GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式的点云结构化潜空间和级联的流匹配模型，实现高质量、可扩展的 3D 内容生成。GaussianAnything支持多模态条件输入，包括点云、文本和单/多视图图像，能生成具有几何-纹理解耦的 3D 资产，便于后续编辑。GaussianAnything 在文本和图像引导的 3D 生成任务中均超越现有方法，展现了更好的 3D 一致性和生成效果。

GaussianAnything的主要功能
- 多模态条件输入：支持多种输入形式，包括点云、文本描述和单/多视图图像。
- 高质量 3D 生成：生成具有丰富细节和高质量表面的 3D 模型，支持不同分辨率和细节层次的输出。
- 高效的 3D 编辑能力：支持对生成的 3D 模型进行灵活的编辑，例如形状调整、纹理替换等。
- 支持多种输出格式：生成的 3D 模型支持导出为点云、高斯表面（Surfel Gaussian）或三角网格（Mesh），满足不同应用场景的需求。
GaussianAnything的技术原理
- 3D VAE 编码器：用多视图 RGB-D（深度）和法线（Normal）渲染图作为输入，基于 3D-Attention Transformer 编码器将 3D 物体压缩到点云结构化的潜空间中，保留丰富的 3D 几何和纹理信息，降低潜空间的维度，提高训练效率。
- 点云结构化潜空间：基于 Cross Attention 将特征投影到稀疏的 3D 点云上，形成点云结构化的潜变量，保留 3D 物体的几何信息，支持高效的 3D 扩散模型训练。
- 级联扩散模型：
  - 第一阶段：生成稀疏点云，确定 3D 物体的几何布局。
  - 第二阶段：基于点云条件生成纹理细节，实现几何与纹理的解耦。
- 高质量解码器：用 3D Transformer 和上采样模块将点云潜变量逐步上采样为高分辨率的高斯表面（Surfel Gaussian），最终解码为稠密的 3D 模型。
GaussianAnything的项目地址
- 项目官网：https://nirvanalan.github.io/projects/GA/
- GitHub仓库：https://github.com/NIRVANALAN/GaussianAnything
- arXiv技术论文：https://arxiv.org/pdf/2411.08033
- 在线体验Demo：https://huggingface.co/spaces/yslan/GaussianAnything
GaussianAnything的应用场景
- 3D 游戏与影视特效：快速生成高质量的 3D 模型，简化内容创作流程。
- 虚拟现实（VR）与增强现实（AR）：创建虚拟场景和对象，提升沉浸感。
- 工业设计与产品开发：基于文本或图像快速生成和编辑 3D 设计原型。
- 文化遗产与建筑可视化：实现 3D 重建和修复，用在数字化保护和展示。
- 机器人与 AI 训练：生成 3D 数据用于机器人视觉和 AI 模型训练。
March 12, 2025
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
MHA2MLA是什么

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法，基于引入DeepSeek的多头潜在注意力机制（MLA），优化任何基于Transformer的LLM的推理效率，降低推理成本。MHA2MLA基于两个关键策略实现：一是partial-RoPE，移除对注意力分数贡献较小的查询和键的旋转位置编码（RoPE）维度；二是低秩近似，基于联合奇异值分解（SVD）对键和值进行压缩，减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调，能在大幅减少KV缓存（如92.19%）的同时，将性能损失控制在极小范围内（如LongBench性能仅下降0.5%）。

MHA2MLA的主要功能
- 显著减少KV缓存：基于低秩压缩技术，将KV缓存的大小大幅减少（最高可达96.87%），降低推理时的内存占用。
- 保持模型性能：在极低的数据量（0.3%到0.6%的原始训练数据）下进行微调，将性能损失控制在极小范围内（如LongBench性能仅下降0.5%）。
- 与现有技术兼容：与量化技术（如4-bit量化）结合使用，进一步提升推理效率。
- 数据高效性：仅需少量数据即可完成从MHA到MLA的架构转换，适合在资源受限的环境中快速部署。
MHA2MLA的技术原理
- Partial-RoPE（部分旋转位置编码）：在MHA中，旋转位置编码（RoPE）基于旋转操作将位置信息融入查询向量（Q）和键向量（K），帮助模型捕捉序列中的位置关系。基于计算每个维度对注意力分数的贡献，移除贡献较小的RoPE维度（即“不重要的”维度），减少计算量和内存占用。这一过程称为“部分RoPE”，在保留关键位置信息的同时，为低秩压缩腾出空间。
- 低秩近似（Low-Rank Approximation）：MLA基于低秩联合压缩键值（KV）减少内存占用。MHA2MLA借鉴这一思想，对MHA中的键和值参数矩阵进行奇异值分解（SVD）。将键和值矩阵分解为低秩矩阵的乘积，用更少的参数近似原始矩阵。为更好地保留键和值之间的交互信息，MHA2MLA联合SVD（SVDjoint）策略，对键和值矩阵进行联合分解，而不是分别处理。
MHA2MLA的项目地址
- GitHub仓库：https://github.com/JT-Ushio/MHA2MLA
- arXiv技术论文：https://arxiv.org/pdf/2502.14837
MHA2MLA的应用场景
- 边缘设备部署：降低模型内存占用，使其适配资源受限的智能终端和物联网设备。
- 大规模模型推理：减少KV缓存，提升推理效率，降低硬件成本和能耗。
- 结合量化技术：与量化技术结合，进一步优化推理性能，适用于实时对话和在线翻译等场景。
- 长文本处理：降低长文本任务的内存瓶颈，高效处理长文档摘要和长篇生成。
- 快速模型迁移：仅需少量数据微调，快速将MHA模型转换为MLA架构，降低迁移成本。
March 12, 2025
浙江大学DeepSeek系列专题讲座课件第三期（PDF文件） – AI教程资料
《走向数字社会：从DeepSeek到群体智慧》和《语言解码双生花：人类经验与AI算法的镜像之旅》来自浙江大学人工智能教育教学研究中心，围绕人工智能技术及其在语言理解和教育领域的应用展开讨论。主要探讨了从图灵机到大模型的发展历程，以及DeepSeek大模型的构建与应用，强调了群体智慧在应对大模型挑战中的重要性。聚焦于人类经验与AI算法的关系，探讨了语言解码的奥秘、AI语言理解的发展路径，以及大语言模型的构建与进化，特别关注了推理模型的诞生与突破及其在教育领域的应用。

获取《走向数字社会：从DeepSeek到群体智慧》

《语言解码双生花：人类经验与AI算法的镜像之旅》

PDF原文件，扫码关注回复： 20250221

《走向数字社会：从DeepSeek到群体智慧》

简述人工智能的发展历程，从图灵机到大模型的演变。人工智能在数字社会中的作用，以及群体智慧在应对大模型挑战中的重要性。
- 人工智能的诞生与符号主义
  
  讨论达特茅斯会议及其对人工智能的定义，符号主义在早期人工智能中的应用。
- 从生物神经网络到人工神经网络
  
  探讨生物神经网络的启发如何推动人工神经网络的发展，以及深度学习的兴起。
- 生成式模型与大模型
  
  介绍生成式大语言模型的原理及其在人工智能中的重要性。
- DeepSeek的意义
  
  分析DeepSeek大模型的开发背景、技术挑战及其对现有大模型的改进。
- 人工智能促进社会数字化转型
  
  探讨人工智能在网约车需求预测、机房节能、疫情传播预测和智能康复训练等领域的应用。
- SCISpace、NotebookLM和Co-Scientist
  
  这些工具如何利用人工智能技术提升科研和教育效率。
《语言解码双生花：人类经验与AI算法的镜像之旅》

强调语言对人类的重要性，以及理解语言在实现通用人工智能中的关键作用。
- 语言的奥秘：人类如何解码世界
  
  探讨人类大脑如何通过词语的组合和上下文信息理解语言。
- DeepSeek-R1：推理模型的诞生与突破
  
  介绍DeepSeek-R1推理模型的开发过程及其在复杂推理任务中的应用。
- 从符号到智能：AI的语言理解之路
  
  分析AI从符号处理到深度学习的发展路径，以及词向量和注意力机制在语言理解中的作用。
- 智能体时代：AI如何重塑教育未来
  
  探讨AI如何通过苏格拉底式教学法等方法改变教育模式，推动从知识本位向能力本位的转变。
- DeepSeek-V3：大语言模型的构建与进化
  
  详细介绍DeepSeek-V3大语言模型的架构、训练方法及其在不同领域的应用。
获取《走向数字社会：从DeepSeek到群体智慧》

《语言解码双生花：人类经验与AI算法的镜像之旅》

PDF原文件，扫码关注回复： 20250221

往期文章：

浙江大学DeepSeek系列专题讲座课件第二期（PDF文件） – AI教程资料

浙江大学DeepSeek系列专题讲座课件第一期（PDF文件） – AI教程资料
March 12, 2025
MV-MATH – 中科院推出的基准数据集，评估模型处理多视觉信息的数学推理能力
MV-MATH是什么

MV-MATH 是中科院自动化所提出的新基准数据集，评估多模态大语言模型（MLLMs）在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学问题，每个问题都结合了多个图像和文本，形成了图文交错的多视觉场景。问题分为选择题、填空题和多步问答题三种类型，覆盖了11个数学领域，包括解析几何、代数、度量几何、组合学、变换几何、逻辑、立体几何、算术、组合几何、描述性几何和统计学，分为三个难度级别。

$MV-MATH$

MV-MATH的主要功能
- 多视觉场景推理：每个问题包含多个图像（2-8张），与文本交织形成复杂场景，更接近现实中的数学问题，可全面评估模型处理多视觉信息的推理能力。
- 多样化数学领域覆盖：涵盖11个数学领域（如解析几何、代数、立体几何等）和3个难度级别，能全面评估模型在不同领域的推理表现。
- 图像关联性分析：首次引入图像相关性标签，将数据集分为相互依赖集（MD）和独立集（ID），可分别评估模型在处理相关和独立图像时的推理能力。
- 教育应用：源于真实的K-12教育场景，可用于开发智能辅导系统，帮助学生通过图文结合的方式解决复杂数学问题。
- 研究工具：为多模态学习研究提供标准化评估工具，帮助研究者识别和改进模型在数学推理中的性能差距。
- 高质量标注：每个样本经至少两名标注者交叉验证，包含问题、答案、详细分析及图像关联性标注，为模型评估提供详尽信息。
- 真实问题收集：问题均来源于真实场景，确保数据集的实用性和可靠性。
MV-MATH的技术原理
- 相互依赖集（Mutually Dependent Set，MD）：图像之间相互关联，理解一个图像需要参考其他图像。
- 独立集（Independent Set，ID）：图像之间相互独立，可以单独解释。
MV-MATH的项目地址
- 项目官网：https://eternal8080.github.io/MV-MATH.github.io/
- Github仓库：https://github.com/eternal8080/MV-MATH
- arXiv技术论文：https://arxiv.org/pdf/2502.20808
- HuggingFace数据集：https://huggingface.co/datasets/PeijieWang/MV-MATH
MV-MATH的应用场景
- 智能辅导系统：MV-MATH 数据集可以用于开发智能辅导系统，帮助学生通过图文结合的方式解决复杂数学问题。
- 多模态学习研究：MV-MATH 为多模态学习研究提供了标准化的评估工具。研究者可以用数据集评估多模态大语言模型（MLLMs）在多视觉场景中的数学推理能力，推动多模态学习技术的发展。
- 性能差距分析：通过广泛的实验，研究者可以识别和改进模型在数学推理中的性能差距。
- 多图推理任务：数据集可以用于开发和优化多图推理任务的解决方案，在复杂的数学问题中处理多个图像和文本信息。
- 自动化评估系统：数据集可以用于评估和优化自动化考试系统，确保其在处理多模态输入时的准确性和可靠性。
March 12, 2025