Blog

《Manus没有秘密》70页PPT解读AI Agent（PDF文件）

《Manus没有秘密》简介

《Manus没有秘密》由明浩老师撰写的解读 AI Agent 的70页PPT，主要介绍了 AI Agent（智能体）技术从L1到L3的过程，探讨了 AI Agent 的定义、实现原理、使用体验以及未来的发展趋势。通过对Manus等Agent产品的分析，深入讨论了AI技术的现状、挑战和未来方向。（文末附逐字稿）

February 14, 2025
通古大模型 – 华南理工大学推出的古籍大语言模型
通古大模型是什么

通古大模型是华南理工大学深度学习与视觉计算实验室（SCUT-DLVCLab）推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练，使用24.1亿古籍语料进行无监督训练，结合400万古籍对话数据进行指令微调。模型采用冗余度感知微调（RAT）技术，有效提升了古籍任务的性能。帮助用户更便捷地理解和翻译古籍文献。通过检索增强生成（CCU-RAG）技术，减少知识密集型任务中的幻觉问题，提高生成内容的准确性和可靠性。

通古大模型的主要功能
- 古文句读：通古大模型能自动为古文添加标点符号，解决古籍中常见的断句问题，帮助用户更好地理解古文内容。
- 文白翻译：模型支持文言文与白话文之间的双向翻译，将晦涩的古文翻译为现代文，同时也可将现代文转换为文言文，方便用户进行古籍阅读和研究。
- 诗词创作：通古大模型可以生成符合古诗词格律和风格的诗歌，用户可以根据需求提供主题或关键词，模型生成相应的诗词作品。
- 古籍赏析：模型能对古籍中的经典篇章进行赏析，解读其文学价值、历史背景和文化内涵，辅助用户深入学习古籍。
- 古籍检索与问答：结合检索增强技术，通古大模型可以快速检索古籍内容，根据用户的问题提供准确的答案，帮助用户高效获取古籍信息。
- 辅助古籍整理：模型能识别古籍中的文字错误、缺漏等问题，提供修复建议，辅助古籍整理和数字化工作。
通古大模型的技术原理
- 基础模型架构：通古大模型基于百川2-7B-Base进行增量预训练。百川2-7B-Base是强大的预训练语言模型，为通古大模型提供了基础的语言理解和生成能力。
- 无监督增量预训练：模型在24.1亿古籍语料上进行无监督增量预训练。使模型学习古籍的语言风格和结构，为后续的古籍处理任务奠定基础。
- 多阶段指令微调：通古大模型采用了多阶段指令微调技术，提出了冗余度感知微调（RAT）方法。在提升下游任务性能的同时，保留了基座模型的能力。通过指令微调，模型能更好地适应古籍处理的具体任务，如古文翻译、句读等。
- 检索增强生成（RAG）技术：通古大模型结合了检索增强生成（RAG）技术，减少知识密集型任务中的幻觉问题。核心是将信息检索与文本生成相结合，通过从外部知识库中检索相关信息，作为上下文输入给语言模型，生成更准确、更符合上下文的答案。
通古大模型的项目地址
- Github仓库：https://github.com/SCUT-DLVCLab/TongGu-LLM
- HuggingFace模型库：https://huggingface.co/SCUT-DLVCLab/TongGu-7B-Instruct
通古大模型的应用场景
- 古籍处理与数字化：通古大模型能高效处理古籍文献，支持文白翻译、句读标点和古籍检索等功能。辅助古籍整理工作，通过智能识别和修复古籍中的文字错误，提升古籍数字化的效率。
- 教育支持：教师可以用来生成教案、教学PPT，设计课堂互动环节。对于学生，模型能提供文言文翻译、成语解释和诗词创作等功能，帮助他们更好地理解古文。
- 文化传承与普及：通古大模型通过降低古籍阅读难度，让更多人接触和理解中华传统文化。
- 学术研究：通古大模型为古籍研究提供了强大的技术支持，能帮助学者快速检索和分析古籍内容。
February 14, 2025
涌墨 – AI文档编写平台，智能解析关键信息生成文档内容
涌墨是什么

涌墨是智能文档编写平台，为用户提供全流程、智能化、高质量的文档生成解决方案。通过一站式文档工作流，以项目为单位管理文档，覆盖全业务流程，帮助用户高效完成文档编写任务。平台提供25类符合软件行业国标的文档模板，支持智能解析功能清单树图，确保文档内容连贯性，避免信息重复和遗漏。涌墨支持灵活定制，用户可以根据项目需求修改功能清单和文档内容，满足个性化需求。

涌墨的主要功能
- 全流程文档工作流管理：涌墨以项目为中心，提供全流程、一站式文档工作流管理。用户可以将项目相关的文档集中在一个平台上进行创建、编辑、修改和更新，覆盖从项目启动到交付的全生命周期，确保文档管理的系统性和连贯性。
- 智能解析与内容生成：平台具备智能解析功能，能快速提取关键信息并生成文档内容。
- 全面覆盖的文档模板：涌墨提供25类符合软件行业国标的文档模板，涵盖项目全流程的各类文档需求。支持用户根据实际需求进行灵活定制，满足不同项目和团队的个性化要求。
- 智能关联与一致性管理：通过智能解析功能清单树图，涌墨能确保各阶段文档内容的连贯性和一致性。自动关联不同文档之间的内容，避免信息重复和遗漏，提升文档管理的整体效率。
- 可视化增强：涌墨支持插入时序图、流程图、活动图等多种可视化元素，将复杂的概念和流程以直观的图形展示。有助于用户快速理解项目的关键环节和逻辑关系。
- 灵活定制与个性化：用户可以根据项目需求，按需修改功能清单和各阶段文档内容。确保文档与项目实际需求高度契合，满足不同行业和团队的个性化需求。
- 高效文档管理：涌墨提供统一的文档管理平台，支持快速查找、修改和更新文档。方便地管理项目中的所有文档，提升文档管理的整体效率。
如何使用涌墨
- 注册与登录：访问涌墨官网 yong-mo.com，完成注册并登录平台。
- 上传文件：根据需求上传相关文件，例如招标文件、项目需求文档等。涌墨会自动解析文件内容，提取关键信息
- 一键生成文档：涌墨可在短时间内生成高质量文档。用户只需上传招标文件，系统会自动解析并生成符合要求的文档。
- 文档编辑与优化：用户可以在生成的文档基础上进行修改、扩写或重写，满足个性化需求。
- 输出与使用：生成的文档可以直接导出使用，或根据需要进一步调整优化。
涌墨的应用场景
- 招投标文件生成：涌墨能快速生成高质量的投标文件，用户只需上传招标文件，系统会自动解析关键信息，如评分表、底线项、格式要求等，生成符合要求的文档内容。
- 规范文档生成：涌墨提供了25类符合行业标准的规范文档模板，涵盖软件开发、工程管理等关键文档类型。
- 日常办公文档：涌墨适用于日常办公文档的生成，如报告、计划、总结等。通过智能生成文章目录、段落扩写和重写等功能，用户可以快速搭建文档结构并优化内容。
- 项目前期市场调研：涌墨能帮助用户快速收集和整理项目前期的市场调研信息，通过AI技术生成初步的调研报告，为项目决策提供支持。
February 14, 2025
BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术
BAG是什么

BAG（Body-Aligned 3D Wearable Asset Generation）是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术，通过结合多视图图像扩散模型和控制网络（ControlNet），运用人体形状和姿态信息，自动生成与人体完美适配的3D可穿戴资产，如服装和配饰。 BAG的核心在于基于多视图生成器和3D扩散模型。首先通过多视图图像扩散模型生成与人体对齐的多视图图像，然后基于3D扩散模型将这些图像转化为3D资产。通过物理模拟和优化，生成的资产能自然地贴合人体，避免穿透问题。

BAG的主要功能
- 多视图图像生成：通过多视图图像扩散模型，基于人体的形状和姿态信息生成与人体对齐的多视图图像。
- 3D资产生成：将多视图图像输入3D扩散模型，生成高质量的3D可穿戴资产。
- 多样化与个性化：支持从单个资产到多个组件组合的生成，满足不同场景下的多样化需求。
- 高效适配：能快速生成与不同人体模型适配的资产，适用于虚拟服装试穿、游戏开发、VR和AR等领域。
BAG的技术原理
- 视图图像扩散模型：BAG首先构建了一个从单图像到一致多视图图像的扩散模型，在大规模Objaverse数据集上进行训练，实现多样性和泛化能力。模型通过控制网络（ControlNet）引导生成与人体对齐的多视图图像，控制信号利用目标人体的多视图2D投影，其中像素值表示规范化空间中人体表面的XYZ坐标。
- 3D形状生成：生成的多视图图像被输入到本地3D扩散模型中，生成资产的3D形状。通过多视图轮廓监督恢复相似变换（Sim3），确保生成的3D资产与人体模型在空间上对齐。
- 物理模拟与优化：为了确保生成的3D资产能自然地贴合人体，BAG采用物理模拟技术解决资产与身体之间的穿透问题。通过代理网格保留资产的基本几何形状，作为布料模拟的代表，最终实现无穿透的对齐。
BAG的项目地址
- 项目官网：https://bag-3d.github.io/
- arXiv技术论文：https://arxiv.org/pdf/2501.16177
BAG的应用场景
- 虚拟服装试穿：BAG能根据用户的身体模型快速生成适配的3D服装和配饰，用户可以在虚拟环境中实时试穿不同款式和风格的服装，提升购物体验，减少因尺寸不合适导致的退货率。
- 游戏开发：在游戏开发中，BAG可用于为游戏角色生成多样化的服装和配饰，支持个性化定制，丰富玩家的角色体验。
- 虚拟现实（VR）和增强现实（AR）：BAG生成的3D资产可以无缝集成到VR和AR应用中，为用户提供沉浸式的服装试穿和设计体验，在虚拟展厅中试穿不同风格的服装。
- 时尚设计：设计师可以用BAG快速生成和迭代3D服装模型，加速设计流程，在虚拟环境中预览设计效果，降低设计成本。
February 14, 2025
WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集
WebLI-100B是什么

WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集，用在预训练视觉语言模型（VLMs）。WebLI-100B是WebLI数据集的扩展版本，基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。WebLI-100B的规模是之前最大视觉语言数据集的十倍，用海量数据提升模型对长尾概念、文化多样性和多语言内容的理解能力。研究者在构建时仅进行基本的数据过滤，保留尽可能多的语言和文化多样性。WebLI-100B的出现为训练更具包容性的多模态模型提供了重要的基础资源。

WebLI-100B的主要功能
- 支持大规模预训练：WebLI-100B提供1000亿个图像-文本对，为VLMs的预训练提供丰富的数据资源，显著提升模型在多种任务上的性能。
- 提升文化多样性：包含来自不同文化背景的图像和文本，帮助模型更好地理解和生成与不同文化相关的视觉和语言内容。
- 增强多语言能力：数据集中包含多种语言的文本，有助于提升模型在低资源语言上的性能，促进多语言任务的开发和应用。
- 支持多模态任务：WebLI-100B的数据用在多种多模态任务，如图像分类、图像描述生成、视觉问答等，为多模态模型的开发提供强大的支持。
WebLI-100B的技术原理
- 数据收集：
  - 来源：WebLI-100B的数据主要来源于互联网，通过大规模的网络爬取收集图像及其对应的文本描述（如图像的alt文本或页面标题）。
  - 规模：数据集包含1000亿个图像-文本对，是迄今为止最大的视觉语言数据集之一。
- 数据过滤：
  - 基本过滤：为了确保数据的质量和多样性，WebLI-100B仅进行了基本的数据过滤，例如移除有害图像和个人身份信息（PII），以保留尽可能多的语言和文化多样性。
  - 质量过滤（可选）：研究中还探讨了使用CLIP等模型进行数据过滤，以提高数据质量，但这种过滤可能会减少某些文化背景的代表性。
- 数据处理：
  - 文本处理：将图像的alt文本和页面标题作为配对文本，使用多语言mt5分词器进行分词处理，确保文本数据的多样性和一致性。
  - 图像处理：将图像调整为224×224像素的分辨率，适应模型的输入要求。
WebLI-100B的项目地址
- arXiv技术论文：https://arxiv.org/pdf/2502.07617
WebLI-100B的应用场景
- 人工智能研究者：用在模型预训练，探索新算法，提升视觉语言模型性能。
- 工程师：开发多语言和跨文化的应用，如图像描述、视觉问答和内容推荐系统。
- 内容创作者：生成多语言的图像描述和标签，提升内容的本地化和多样性。
- 跨文化研究者：分析不同文化背景下的图像和文本，研究文化差异。
- 教育工作者和学生：作为教学资源，学习多模态数据处理和分析。
February 14, 2025
Meetily – AI会议助手，实时转录自动生成会议总结和关键点
Meetily是什么

Meetily 是 Zackriya Solutions 推出的隐私优先的 AI 会议助手，能实时捕捉会议音频进行转录，同时自动生成会议总结和行动项。核心优势在于所有数据处理均在本地完成，确保会议内容的隐私性和安全性。Meetily 支持实时音频捕捉、区分不同说话人声音，内置知识图谱，方便跨会议的语义搜索。

Meetily的主要功能
- 实时音频捕捉与转录：Meetily 能实时捕捉会议中的音频，通过先进的语音识别技术转录为文字。支持区分不同说话人的声音，确保会议记录的清晰性和准确性。
- 自动生成会议总结：基于转录内容，Meetily 的 AI 引擎可以自动生成会议的总结和关键点，帮助用户快速回顾会议的核心内容。能提取会议中的行动项和待办事项，以清晰的格式呈现。
- 隐私保护与本地处理：所有数据处理均在本地设备上完成，确保会议内容的隐私性和安全性。用户无需担心数据泄露或被第三方访问。
- 离线功能：Meetily 支持离线使用，用户可以在无网络环境下进行会议记录和转录。
- 智能导出：用户可以将会议记录导出为 Markdown 或 PDF 格式，方便后续整理和分享。导出内容包括完整的转录文本、会议总结和待办事项。
- 自定义部署：Meetily 提供自托管选项，用户可以根据自己的需求选择 AI 模型和后端功能，实现高度定制化的会议管理。
- 实时会议检测：Meetily 能智能识别会议状态，自动启动音频捕捉和转录功能，无需手动操作，进一步提升了用户体验。
- 跨会议语义搜索：内置的知识图谱功能支持用户在不同会议记录之间进行语义搜索，快速找到所需信息，提高工作效率。
- 多语言支持：Meetily 支持多种语言的转录和总结，满足不同语言环境下的会议需求。
Meetily的官网地址
- 官网地址：meetily.zackriya.com
Meetily的应用场景
- 企业会议：Meetily 适合需要高效会议管理的企业环境，能帮助团队在会议中专注于讨论，无需手动记录笔记，同时自动生成会议纪要和行动项，减少会议后整理纪要的时间。
- 远程团队：对于分布在全球的远程团队，Meetily 可以确保每个成员都能准确获取会议内容，支持实时音频捕捉和转录，方便团队成员在会后快速回顾重点。
- 隐私敏感会议：Meetily 的所有数据处理均在本地完成，确保会议内容的隐私性和安全性。
- 个人使用：自由职业者或独立工作者可以在与客户远程会议时使用 Meetily，会后直接导出 Markdown 或 PDF 格式的会议记录，方便后续跟进。
February 14, 2025
Sa2VA – 字节跳动等机构开源的多模态大语言模型
Sa2VA是什么

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型，是SAM2和LLaVA结合而成，能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示，将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中，用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。Sa2VA采用解耦设计，保留SAM2的感知能力和LLaVA的语言理解能力，引入Ref-SAV数据集，用在提升复杂视频场景下的指代分割性能。

Sa2VA的主要功能
- 图像和视频指代分割：根据自然语言描述精确分割图像或视频中的目标对象。
- 图像和视频对话：支持与用户进行基于图像或视频的对话，回答与视觉内容相关的问题。
- 视觉提示理解：支持处理视觉提示（如图像中的框、点等），并结合语言描述生成对应的分割掩码或回答。
- 基于指令的视频编辑：根据用户指令对视频内容进行编辑，
- 密集的视觉理解：Sa2VA能理解图像和视频的整体内容，还能对像素级的视觉细节进行分析和操作，支持复杂场景下的细粒度任务，如长文本描述的视频对象分割。
- 零样本推理：支持在未见过的视频上进行推理，根据语言描述直接生成分割掩码或回答问题，无需额外训练。
Sa2VA的技术原理
- 模型架构：结合SAM2和 LLaVA。SAM2负责视频的时空分割，LLaVA提供语言理解和生成能力。两者基于特殊的 [SEG] 令牌连接，LLaVA的输出作为SAM2的输入，指导其生成分割掩码。
- 统一任务表示：将多种任务（如指代分割、视觉对话、视觉提示理解等）统一为单次指令调整过程。所有输入（图像、视频、文本）被编码为视觉令牌，输入到LLM中，输出文本或分割掩码。
- 解耦设计：基于解耦设计，冻结SAM2的解码器和记忆模块，保留其感知和跟踪能力。
- Ref-SAV数据集：引入Ref-SAV数据集，包含超过72k个复杂视频场景中的对象表达。数据集基于自动标注管道生成，包含长文本描述和复杂场景，提升模型在复杂环境下的性能。
- 时空提示：基于LLaVA生成的 [SEG] 令牌作为SAM2的时空提示，指导生成精确的分割掩码。
- 联合训练：在多个数据集上进行联合训练，包括图像QA、视频QA、图像分割和视频分割数据。
Sa2VA的项目地址
- 项目官网：https://lxtgh.github.io/project/sa2va/
- GitHub仓库：https://github.com/magic-research/Sa2VA
- HuggingFace模型库：https://huggingface.co/ByteDance/Sa2VA
- arXiv技术论文：https://arxiv.org/pdf/2501.04001
Sa2VA的应用场景
- 视频编辑：根据语言指令快速移除或替换视频中的对象，提升创作效率。
- 智能监控：基于语言描述实时识别和跟踪监控画面中的目标，助力安防监控。
- 机器人交互：理解指令并操作，如“拿起红色杯子”，增强机器人与环境的互动。
- 内容创作：为图像或视频生成描述和问答，辅助教育或创意写作。
- 自动驾驶：识别和分割道路场景中的行人、车辆等，辅助驾驶决策。
February 14, 2025
LeetTools – AI知识库管理工具，自动收集网络信息生成知识库
LeetTools是什么

LeetTools是高效的人工智能文档工作流工具，专为提升知识工作者的效率而设计。能自动从互联网收集信息生成高质量的文档，同时支持本地知识库的构建和管理。用户可以通过简单的关键词输入，快速生成分析报告、新闻聚合或专业文章，根据需求自定义文章结构和格式。

LeetTools的主要功能
- 知识库建设与管理：LeetTools 可以根据用户提供的关键词，自动从互联网搜索相关内容，转换、索引和存储到本地知识库中。自动生成关于该主题的总结文章，帮助用户快速了解主题背景。
- 文章生成与内容创作：LeetTools 提供多种文章生成工作流，支持不同类型的文档创作，如分析型文章、新闻报道等。用户可以根据需求自定义文章结构和格式，生成高质量的专业内容。
- 智能搜索与数据提取：LeetTools 支持复杂的搜索工作流，能从网络或本地知识库中查询、提取和生成内容。提供数据提取功能，可以将结构化数据存储到知识库中。
- 高度可定制化：用户可以根据自己的需求配置搜索流程、知识库管理工具和输出格式，满足不同场景下的工作需求。
- 集成与扩展：LeetTools 支持与本地文档系统（如 Notion）集成，用户可以上传 PDF、PPT、Excel 等多种格式的文件，纳入知识库管理。
LeetTools的官网地址
- 官网地址：leettools.com
LeetTools的应用场景
- 市场调研与报告生成：LeetTools 能通过关键词快速从互联网收集信息，生成包含最新市场数据和趋势分析的高质量研究报告。
- 新闻与内容创作：用户输入关键词后，LeetTools 可以从网络中抓取最新新闻或特定主题的内容，生成个性化的新闻列表或文章。
- 知识管理与知识库构建：LeetTools 提供强大的知识库管理功能，支持从本地文件、网页链接、Notion 集成等多种数据源收集文档，转换为统一格式进行管理和索引。
- 智能问答与数据分析：LeetTools 的智能问答功能通过意图识别和语义搜索技术，能从多篇文档中提取信息并生成精准回答。
February 14, 2025
Matrix-Zero – 昆仑万维推出的世界模型
Matrix-Zero是什么

Matrix-Zero是昆仑万维推出的世界模型，包含两款子模型：3D场景生成大模型和可交互视频生成大模型。Matrix-Zero能将用户输入的图片转化为可自由探索的真实3D场景，支持不同风格的图片输入和风格迁移，具备全局一致性、动态场景生成等亮点。Matrix-Zero的可交互视频生成模型以用户输入为核心，支持视角和运动轨迹的精确控制，提供流畅的交互体验。Matrix-Zero世界模型预计4月份上线，对AI游戏生产、AI短剧生产和编辑等业务进一步赋能，为用户和开发者带来新的平台和工具。

Matrix-Zero的主要功能
- 3D场景生成：
  - 全局一致性：生成的3D场景在360度环视或长距离探索时保持一致，不会出现前后矛盾的现象。
  - 风格迁移：支持不同风格的图片输入（如写实、卡通），并实现风格切换。
  - 动态效果：生成的场景包含动态物理效果，如光照、水流、云雾等，符合真实物理规律。
  - 大范围探索：用户在生成的场景中进行任意方向的长距离探索，支持多种视角切换。
- 可交互视频生成：
  - 实时交互：用户可以通过键盘、鼠标等设备控制视频内容的视角和运动轨迹。
  - 精准控制：包含离散运动控制（如前进、后退、跳跃）和连续视角控制（如视角变化、方向调整）。
  - 位置追踪：基于三维空间定位技术，确保视角移动的自然性和连贯性。
  - 滑动窗口机制：引入历史输入信息，优化交互的流畅性和响应速度。
Matrix-Zero的技术原理
- 3D场景生成技术原理：
  - 可微渲染：支持模型用反向传播学习如何从输入图像生成3D场景的几何结构。通过可微渲染，模型优化生成的3D场景，在视觉上与输入图像保持一致，确保场景的全局一致性和物理合理性。
  - 扩散模型：逐步去除噪声生成数据（如图像或3D场景），生成过程中逐渐从噪声中恢复出目标内容。用在生成高质量的3D场景布局和纹理，确保生成的场景在细节和整体结构上都符合输入图像的特征。
  - 几何生成模块与纹理生成模块：
    
    几何生成模块：用可微渲染和扩散模型技术，生成与输入图像一致的3D场景布局。
    
    纹理生成模块：基于图片生成模型和视频生成模型训练，实时对场景缺失区域进行几何和纹理补全，确保用户在任何位置和角度都能看到合理、一致的场景。
  - 动态效果生成：模拟物理规律（如光照、水流、云雾等）的动态变化，生成符合真实物理规律的动态场景。让生成的3D场景更加逼真，增强沉浸感。
- 可交互视频生成技术原理：
  - 多模态交互技术：结合用户输入（如键盘、鼠标操作）和生成模型，实现对视频内容的实时交互控制。用户用简单的操作（如前进、后退、视角切换）实时调整视频内容，增强交互体验。
  - 离散运动控制与连续视角控制：
    
    离散运动控制模块：解析用户输入的离散控制信号（如前进、跳跃、后退），将其转化为运动轨迹，影响视频中的对象行为。
    
    连续视角控制模块：解析鼠标或其他输入设备的连续控制信号（如视角变化、方向调整），确保视角变换的平滑性和一致性。
  - 3D场景位置追踪：基于三维空间定位技术，实时追踪用户在场景中的位置和视角变化。确保视角移动时的位置稳定性，减少画面跳转，让视频内容更加连贯。
  - 滑动窗口机制：引入时间序列中的历史输入信息，预测用户的下一步操作，优化控制响应的平滑度。提高交互的流畅性，减少输入延迟，提升用户体验。
  - 强化学习与优化：基于强化学习算法，模型能不断优化生成结果，使其更符合用户的交互意图和物理规律。提升生成内容的质量和交互的自然性，确保生成的3D场景和视频在动态变化中保持一致性和合理性。
Matrix-Zero的应用场景
- 影视制作：快速生成虚拟场景，模拟动态效果，提升制作效率和视觉体验。
- 游戏开发：高效生成3D场景和动态内容，增强游戏的真实感和沉浸感。
- 具身智能：构建逼真的虚拟环境，用于智能体的训练和测试。
- 数字内容创作：支持AI短剧、虚拟直播等，降低创作门槛，提升效率。
- 教育与培训：搭建虚拟教学环境，提供沉浸式模拟训练。
February 14, 2025
问小白上线DeepSeek-R1满血版，实测为官网最佳平替！

最近用DeepSeek的时候，还没提几个需求呢，就开始“服务器繁忙，请稍后再试”，真是让人着急上火！

网上有很多用API调用R1的平台，虽然体验起来也不错，但是使用起来总感觉不如官网的R1，而且用不了联网搜索、上传文件的功能…

就在刚刚，我发现用 问小白可以免费无限用满血版R1，联网搜索和上传文件功能都在！

测试了半天用下来，一点也不卡顿！

问小白官网：www.wenxiaobai.com

不夸张地说，这真的是比DeepSeek官网还好用了！效果到底如何，我们一起看看这几个实测案例就知道了。

01

实测5个case

案例一

我特别喜欢DeepSeek的深度思考过程，比答案更有价值。问小白也保留了这一亮点。

当我想用测测运势：分析这个命盘，公历2000年6月14日晚8时，性别女，考虑身强身弱，分析大运流年和十神关系，体用平衡。注意逻辑合理，综合各种信息文本判断准确的关系模型，交叉验证，多次迭代后输出最终正确的结果。

它会先思考，分析问题、推理、交叉验证，再梳理成简要的结论。

案例二

问：你是谁？

官网DeepSeek会简洁的回复：我由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1。

在问小白里，DeepSeek会在回答问题时，结合此时的时间，以确保回答的时效性和准确性。

案例三

问：帮我制定一份21天减脂计划，包含饮食和运动安排。

问小白的最强追问模型，在DeepSeek回答完问题后，自动生成3个相关的深度话题，帮助我了解更多有用的信息。

案例四

和官网一样，问小白的DeepSeek-R1也支持多模态，可以进行文档分析、图片分析等操作。

案例五

问小白的App客户端，只有41M。体验感也是相当不错，不卡顿、没有延迟，同样也是免费无限用的。

它支持语音输入，即使不会打字也能流畅使用。给出的回复结果也支持语音播放，中老年人、视障群体使用起来也很方便。

02

在哪里使用问小白

DeepSeek联网满血版

PC端

PC版的DeepSeek有两种形式。

进入首页，点击左侧列表中的DeepSeek 满血版，界面简洁、响应迅速，是丝滑的官方原版DeepSeek。

APP端

在各个应用商店，搜索问小白就可以下载到。

DeepSeek的实力毋庸置疑，现在通过问小白在PC端和移动端都能流畅使用，还完全免费！

快分享给你的好兄弟们，一起用起来。

原文链接：DeepSeek经常繁忙怎么办？这个671b满血版专线免费用！

站长推荐：DeepSeek服务器繁忙怎么解决？14个免费R1满血版平替

February 14, 2025