Blog

  • RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型

    RynnVLA-001是什么

    RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练,学习人类操作技能,并隐式迁移到机器人手臂的操控中。模型结合视频生成技术和变分自编码器(VAE),能生成连贯、平滑的动作序列,更接近人类动作。模型将“下一帧预测”和“下一动作预测”统一到一个 Transformer 架构中,显著提升机器人在复杂任务中的成功率和指令遵循能力。

    RynnVLA-001

    RynnVLA-001的主要功能

    • 理解语言指令:接收自然语言指令,例如“将红色物体移动到蓝色盒子中”。
    • 生成动作序列:根据指令和当前视觉环境,生成连贯、平滑的动作序列,驱动机器人手臂完成任务。
    • 适应复杂场景:处理复杂的抓取和放置任务,及长时域任务,提高任务成功率。
    • 模仿人类操作:通过从第一人称视角的视频中学习,生成的动作更接近人类自然操作。

    RynnVLA-001的技术原理

    • 第一阶段:第一人称视频生成模型,用大规模第一人称视角的视频数据进行预训练,学习人类操作的视觉模式和物理动态。基于 Transformer 的自回归架构,预测未来帧,模拟机器人操作的视觉推理过程。
    • 第二阶段:变分自编码器(VAE),将动作片段压缩为紧凑的嵌入向量,减少计算开销。通过 VAE 解码器将嵌入向量还原为连贯的动作序列,提高动作预测的平滑性。
    • 第三阶段:视觉-语言-动作模型,将预训练的视频生成模型微调为 VLA 模型,统一“下一帧预测”和“下一动作预测”。用 Transformer 架构,结合视觉输入和语言指令,生成动作嵌入向量,驱动机器人执行任务。

    RynnVLA-001的项目地址

    • 项目官网:https://huggingface.co/blog/Alibaba-DAMO-Academy/rynnvla-001
    • GitHub仓库:https://github.com/alibaba-damo-academy/RynnVLA-001
    • HuggingFace模型库:https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base

    RynnVLA-001的应用场景

    • 工业自动化:在工业生产中,驱动机器人完成复杂装配和质量检测任务,提高生产效率和产品质量。
    • 服务机器人:在家庭或餐饮服务中,让机器人根据自然语言指令完成日常服务任务,如整理物品、送餐等。
    • 物流与仓储:在物流仓库中,指导机器人完成货物分拣和搬运,优化库存管理流程。
    • 医疗保健:在医疗领域,辅助手术操作或康复训练,提升医疗服务的精准度和效率。
    • 人机协作:在人机协作场景中,机器人能更好地理解人类指令,实现自然流畅的人机互动。
  • Matrix-Game 2.0 – 昆仑万维推出的自研世界模型

    Matrix-Game 2.0是什么

    Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,全面开源,推动交互式世界模型领域的发展。模型采用视觉驱动的交互方案,通过 3D 因果变分自编码器和多模态扩散 Transformer 架构,实现低延迟、高帧率的长序列交互性能,能以 25 FPS 的速度生成连续视频内容,支持分钟级生成时长。具备精准的物理规律和场景语义理解能力,支持用户通过简单指令自由操控虚拟环境,适用于游戏开发、虚拟现实和影视制作等场景。

    Matrix-Game 2.0

    Matrix-Game 2.0的主要功能

    • 实时长序列生成:能以 25 FPS 的速度在多种复杂场景中稳定生成连续视频内容,生成时长可扩展至分钟级,显著提升了连贯性与实用性。
    • 精准交互控制:支持用户通过简单指令(如键盘方向键、鼠标操作)自由探索、操控虚拟环境,精准响应用户的交互操作。
    • 视觉驱动建模:采用视觉驱动的交互世界建模方案,专注于通过视觉理解和物理规律学习来构建虚拟世界,避免了语言先验带来的语义偏置。
    • 多场景泛化能力:具备出色的跨域适应性,支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。
    • 增强的物理一致性:角色在面对台阶、障碍物等复杂地形时,能展现出符合物理逻辑的运动行为,提升沉浸感与可控性。

    Matrix-Game 2.0的技术原理

    • 视觉驱动交互世界建模:Matrix-Game 2.0 采用图像为中心的感知与生成机制,专注于通过视觉理解和物理规律学习来构建虚拟世界,避免了传统依赖语言提示的生成模式,更真实、更准确地理解和生成虚拟世界。
    • 3D 因果变分自编码器(3D Causal VAE):通过三维因果变分自编码器实现空间和时间维度的高效压缩,提升建模效率与生成能力。对视频的时空特征进行编码和解码,将视频压缩到低维的潜在空间,降低计算复杂度,同时保留关键的时空信息。
    • 多模态扩散 Transformer(DiT):结合视觉编码器与用户动作指令,逐帧生成物理合理的动态视觉序列,通过 3D VAE 解码成完整视频。
    • 自回归扩散生成机制:基于 Self-Forcing 训练策略,通过创新的自回归扩散生成机制克服了传统双向扩散模型的延迟和误差累积问题。通过历史帧条件生成当前帧,减少因依赖未来帧而导致的时序延迟。
    • 分布匹配蒸馏(DMD):通过最小化与基础模型之间的分布差异,引导学生模型学习生成高质量视频帧,对齐训练与推理阶段的分布,显著缓解误差积累问题。
    • KV 缓存机制:引入键值缓存机制(KV-Cache),显著提升长视频生成的效率和一致性。通过维护固定长度的注意力上下文,实现无缝滚动生成,支持无限时长的视频输出。

    Matrix-Game 2.0的项目地址

    • 项目官网:https://matrix-game-v2.github.io/
    • GitHub仓库:https://github.com/SkyworkAI/Matrix-Game
    • HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game-2.0
    • 技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

    Matrix-Game 2.0的应用场景

    • 游戏开发:Matrix-Game 2.0 可以在多种游戏场景中生成真实感更强、符合物理逻辑的可交互视频,支持角色的动态行为和场景交互,例如在 GTA 和 Minecraft 等游戏场景中模拟车辆运作或角色移动。
    • 虚拟现实:模型能实时生成高质量的虚拟环境,支持用户通过简单指令自由探索和操控虚拟世界,为虚拟现实应用提供了强大的技术支持。
    • 影视制作:Matrix-Game 2.0 可以快速生成高质量的虚拟场景和动态内容,帮助影视制作团队高效地创建复杂的视觉效果和动画场景。
    • 具身智能:Matrix-Game 2.0 提供了具身智能体训练与数据生成的技术支持,为智能体在虚拟环境中的训练和测试提供了高效的解决方案。
    • 虚拟人和智能交互系统:Matrix-Game 2.0 的实时交互能力和对物理规则的理解使其成为虚拟人和智能交互系统的理想解决方案,能生成自然流畅的动作和响应。
  • GLM-4.5V – 智谱开源的最新一代视觉推理模型

    GLM-4.5V是什么

    GLM-4.5V是智谱推出的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础上升级而来,继承其优秀架构,结合新一代文本基座模型GLM-4.5-Air进行训练。模型在视觉理解、推理能力上表现卓越,适用网页前端复刻、grounding、图寻游戏、视频理解等场景,有望推动多模态应用的进一步发展。为帮助开发者直观体验 GLM-4.5V 的强大能力并打造专属多模态应用,团队开源了一款桌面助手应用,能实时截屏、录屏,借助 GLM-4.5V 模型处理代码辅助、视频分析、游戏解答、文档解读等多种视觉任务。

    GLM-4.5V

    GLM-4.5V的主要功能

    • 视觉理解与推理:能理解和分析图像、视频等视觉内容,进行复杂的视觉推理任务,例如识别物体、场景、人物关系等。
    • 多模态交互:支持文本与视觉内容的融合处理,例如根据文本描述生成图像,或者根据图像生成文本描述。
    • 网页前端复刻:根据网页设计图生成前端代码,实现快速的网页开发。
    • 图寻游戏:支持基于图像的搜索和匹配任务,例如在复杂场景中找到特定目标。
    • 视频理解:支持分析视频内容,提取关键信息,进行视频摘要、事件检测等任务。
    • 跨模态生成:支持从视觉内容生成文本,或者从文本生成视觉内容,实现多模态内容的无缝转换。

    GLM-4.5V的技术原理

    • 大规模预训练:模型基于106B参数的预训练架构,用海量的文本和视觉数据进行训练,学习语言和视觉的联合表示。
    • 视觉语言融合:采用Transformer架构,将文本和视觉特征进行融合,基于交叉注意力机制实现文本与视觉信息的交互。
    • 激活机制:模型设计12B激活参数,用在推理过程中动态激活相关的参数子集,提高计算效率和推理性能。
    • 结构继承与优化:继承GLM-4.1V-Thinking的优秀结构,结合新一代文本基座模型GLM-4.5-Air进行训练,进一步提升性能。
    • 多模态任务适配:基于微调和优化,模型能适应多种多模态任务,例如视觉问答、图像描述生成、视频理解等。

    GLM-4.5V的性能表现

    • General VQA:GLM-4.5V在通用视觉问答任务中表现最佳,尤其在MMBench v1.1基准测试中得分高达88.2。
    • STEM:GLM-4.5V在科学、技术、工程和数学相关任务中同样领先,例如在MathVista测试中获得84.6的高分。
    • Long Document OCR & Chart:在处理长文档和图表的OCRBench测试中,GLM-4.5V以86.5分展现卓越的性能。
    • Visual Grounding:GLM-4.5V在视觉定位任务上表现突出,RefCOCO+loc (val)测试得分为91.3。
    • Spatial Reasoning:在空间推理能力方面,GLM-4.5V在CV-Bench测试中取得87.3分的优异成绩。
    • Coding:在编程任务中,GLM-4.5V在Design2Code基准测试中得分82.2,显示其在代码生成和理解方面的能力。
    • Video Understanding:GLM-4.5V在视频理解方面同样表现出色,在VideoMME (w/o sub)测试中得分74.6。

    GLM-4.5V

    GLM-4.5V的项目地址

    • GitHub仓库:https://github.com/zai-org/GLM-V/
    • HuggingFace模型库:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
    • 技术论文:https://github.com/zai-org/GLM-V/tree/main/resources/GLM-4.5V_technical_report.pdf
    • 桌面助手应用:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

    如何使用GLM-4.5V

    • 注册与登录:访问 Z.ai 官网,用邮箱注册账号。完成注册后,登录账号。
    • 选择模型:在登录后,在模型选择下拉框中选择GLM-4.5V。
    • 体验功能
      • 网页前端复刻:上传网页设计图,模型将自动生成前端代码。
      • 视觉推理:上传图像或视频,模型将进行视觉理解、物体识别、场景分析等任务。
      • 图寻游戏:上传目标图像,模型将在复杂场景中找到匹配的图像。
      • 视频理解:上传视频文件,模型将提取关键信息,生成视频摘要或事件检测结果。

    GLM-4.5V的API 调用价格

    • 输入:2 元/M tokens
    • 输出:6 元/M tokens
    • 响应速度:达到 60-80 tokens/s

    GLM-4.5V的应用场景

    • 网页前端复刻:上传网页设计图,模型快速生成前端代码,助力开发者高效实现网页开发。
    • 视觉问答:用户上传图像并提问,模型根据图像内容生成准确答案,可用在教育、智能客服等领域。
    • 图寻游戏:在复杂场景中快速找到目标图像,适用于安防监控、智能零售及娱乐游戏开发。
    • 视频理解:分析视频内容,提取关键信息生成摘要或检测事件,优化视频推荐、编辑及监控。
    • 图像描述生成:为上传的图像生成精准描述文本,辅助视障人士理解图像,提升社交媒体分享体验。
  • Sheet0 – L4级Data Agent,将任意数据源转为结构化数据表

    Sheet0是什么

    Sheet0 是创新的 L4 级 Data Agent 产品,为用户提供高效、准确的数据收集与处理服务。通过自然语言交互,将任意数据源(如网页、文件、API)转化为结构化的数据表格,实现“100% 准确,0 幻觉” 的数据交付。Sheet0 的核心优势在于动态 Workflow 系统和 Data Environment 驱动的反馈机制,能自动修复错误优化任务执行流程。适用于营销、电商和知识工作者等场景,能为 Agent 提供实时数据支持,目标是成为 Agent 时代的“新后端”,类似于 Agent 的 Google.com。用户可以通过简单的指令让 Sheet0 完成复杂的数据任务。

    Sheet0

    Sheet0的主要功能

    • 数据收集与结构化:能将网页、文件、API 等任意数据源转化为结构化的数据表格,快速提取并整理数据。
    • 自然语言交互:用户可以通过自然语言描述需求,Sheet0 自动完成任务,无需复杂操作。
    • 高准确性与可靠性:提供“100% 准确,0 幻觉”的数据交付能力,通过可解释、可回溯的 Workflow 确保数据处理过程透明、结果可靠。
    • 实时数据交付:支持实时数据收集与交付,满足用户对数据时效性的需求。
    • 自动化任务执行:用户可开启自动化模式,Sheet0 完全自动执行数据处理任务,提高效率。
    • 动态优化与自我修复:内置动态 Workflow 系统和 Data Environment 驱动的反馈机制,能自动优化任务流程修复错误。

    Sheet0的官网地址

    • 官网地址:https://www.sheet0.com/

    Sheet0的应用场景

    • 营销与销售:分析社交媒体数据,生成销售线索,优化营销策略,帮助企业在市场中精准定位目标客户。
    • 电商运营:收集电商平台数据,分析商品表现、用户评价等,为电商运营提供决策支持,提升运营效率。
    • 知识工作:为知识工作者提供高效的数据处理和分析工具,快速整理和分析复杂数据,提升工作效率。
    • 市场研究:快速收集和整理市场数据,支持实时数据分析,帮助研究人员快速洞察市场趋势。
    • 内容创作:为内容创作者提供数据支持,快速收集相关主题的数据,辅助内容创作和选题策划。
  • MiroFlow – 多Agent系统开发框架,支持高并发处理

    MiroFlow是什么

    MiroFlow是强大的多智能体系统开发框架,专为构建复杂、高性能的AI智能体而设计,为MiroThinker等模型生成高质量的智能体轨迹数据。框架具备可复现的性能,在GAIA验证集上稳定达到72.2%的通过率。框架支持高并发和容错,内置可观测性和评估工具,方便调试和优化。MiroFlow用模块化设计,支持多轮对话、丰富的工具集成和分层子智能体架构,能灵活处理复杂任务。MiroFlow提供详细的配置系统、任务日志和输出格式化功能,方便开发者快速上手和扩展。

    MiroFlow

    MiroFlow的主要功能

    • 可复现的高性能:MiroFlow在GAIA验证集上稳定达到72.2%的通过率,提供完整脚本和配置文件,确保结果可复现。
    • 高并发与容错能力:支持高效并发处理,具备强大的容错机制,能应对限流API和不稳定网络。
    • 内置可观测性和评估工具:配备基准测试脚本和Web界面,用在可视化和调试智能体运行轨迹,同时提供全面的日志系统。
    • 模块化设计:基于多轮对话、工具集成和分层子智能体架构,支持复杂任务的灵活处理。
    • 灵活的工具接入:通过MCP服务器连接多种工具,支持代码执行、视觉感知、网页搜索等功能,兼容多种LLM提供商。
    • 配置与扩展性:用Hydra配置管理系统,支持结构化YAML配置文件,输出格式化系统能适应不同基准测试需求。

    MiroFlow的技术原理

    • 多阶段工作流:用户输入通过LLM进行意图识别和查询增强。主智能体根据增强后的查询制定执行计划,并协调整个工作流,包括调用工具、委托任务给子智能体等。子智能体独立规划、执行工具调用,并将结果返回给主智能体。主智能体汇总结果并生成符合用户指令或基准测试格式的输出。
    • 模块化架构:核心组件包括Pipeline(任务执行协调器)、Orchestrator(对话流管理器)和LLM Client(LLM接口)。工具管理器(Tool Manager)负责连接和管理MCP服务器,支持工具发现、错误处理和工具黑名单功能。子智能体(Sub-Agents)专注于特定领域任务,例如网页浏览、代码执行等,每个子智能体都有自己的工具集和定制化提示。
    • LLM与工具集成:MiroFlow基于LLM进行任务规划和对话管理,同时用MCP服务器提供的工具执行具体任务。MCP服务器基于FastMCP构建,支持多种工具,如代码执行、视觉感知、网页搜索等。
    • 高并发与容错:基于异步处理和队列管理实现高并发任务处理。内置的容错机制能处理API限流、网络不稳定等问题,确保任务的连续性。
    • 可观测性与日志系统:提供Web界面用在可视化智能体的运行轨迹。全面的日志系统记录智能体交互、工具执行、性能指标和错误信息,便于调试和优化。

    MiroFlow的项目地址

    • GitHub仓库:https://github.com/MiroMindAI/Miroflow

    MiroFlow的应用场景

    • 复杂任务自动化:MiroFlow能处理多步骤、多工具的任务,例如自动化数据处理和分析,提高企业工作效率。
    • 智能客服与支持:用在构建智能客服系统,自动回答用户问题,处理订单查询等复杂任务,提升客户体验。
    • 教育与学习辅助:为学生提供个性化学习路径和作业辅导,根据学习进度提供针对性解答,助力教育智能化。
    • 代码生成与调试:辅助软件开发,自动生成代码片段、调试代码问题,提高开发效率,减少人工干预。
    • 多模态内容创作:结合文本、图像、音频等多种模态生成内容,提升内容创作的多样性和吸引力。
  • MiroThinker – 开源的Agent模型系列,基于Qwen3构建

    MiroThinker 是什么

    MiroThinker 是开源的智能体模型系列,专为深度研究和复杂、长期问题解决设计。模型基于 Qwen3 构建,具备任务分解、多跳推理、检索增强生成、代码执行、网页浏览和文件处理等能力。MiroThinker v0.1 提供 8B、14B 和 32B 参数规模的 SFT 和 DPO 变体,在 GAIA 基准测试中表现出色。模型配备 MiroFlow 框架,支持多语言模型和灵活的工具集成,适合广泛的实际应用场景。

     MiroThinker

    MiroThinker 的主要功能

    • 任务分解(Task Decomposition):将复杂的任务分解为多个子任务,逐步解决问题,提高任务执行的效率和成功率。
    • 多跳推理(Multi-hop Reasoning):支持多步骤的逻辑推理,能处理需要多层思考和信息整合的问题。
    • 检索增强生成(Retrieval-Augmented Generation):结合检索技术,从大量数据中提取相关信息,增强生成内容的准确性和丰富性。
    • 代码执行(Code Execution):支持直接执行代码片段,能处理编程任务和数据处理等需求。
    • 网页浏览(Web Browsing):支持实时浏览网页,获取最新信息,用在回答需要最新数据的问题。
    • 文件处理(Document/File Processing):能读取和处理多种格式的文件,如 PDF、Word、Excel 等,提取关键信息用在分析和回答问题。

    MiroThinker 的技术原理

    • 基于 Qwen3 的架构:MiroThinker 是在 Qwen3 基础模型上构建的,继承其强大的语言生成和理解能力。
    • 强化学习(Reinforcement Learning):基于强化学习优化模型的行为策略,使其在复杂任务中表现更优。DPO(Direct Preference Optimization)变体特别强调这一点。
    • 长期记忆与上下文管理:集成长期记忆机制,能够存储和检索大量上下文信息,支持长文本和复杂任务的处理。
    • 工具集成框架(MiroFlow):提供一个灵活的框架,支持与外部工具(如搜索引擎、代码执行环境等)的无缝集成,扩展模型的功能。
    • 大规模数据训练:用大规模、高质量的数据集进行训练,确保模型在多种任务场景中表现出色。

    MiroThinker 的项目地址

    • GitHub仓库:https://github.com/MiroMindAI/MiroThinker
    • HuggingFace模型库:https://huggingface.co/collections/miromind-ai/mirothinker-v01-689301b6d0563321862d44a1
    • 在线体验Demohttps://dr.miromind.ai/

    MiroThinker 的应用场景

    • 科学研究:助力研究人员分解复杂科学问题,通过多跳推理和检索增强生成,提供实验设计与解决方案建议。
    • 商业智能:实时获取市场数据,分析趋势,为商业决策提供支持,帮助企业在竞争中占据优势。
    • 教育与学习:根据学生的学习进度和需求,提供个性化的学习计划与辅导,提升学习效果。
    • 医疗健康:分析患者病历和最新医学数据,为医生提供诊断和治疗建议,辅助临床决策。
    • 智能客服:处理复杂的客户咨询,通过多跳推理和检索增强生成,提供准确的解决方案,提升客户满意度。
  • Scribe – AI文档生成工具,自动捕捉生成操作指南和教程

    Scribe是什么

    Scribe 是 ScribeHow 推出的 AI 辅助工具,支持快速生成操作指南和教程。工具自动记录用户在网页或桌面应用中的操作步骤,捕捉鼠标点击和屏幕截图,能生成详细的文字说明和分步指南。Scribe 的核心优势在于简洁的操作流程和强大的兼容性,支持与多种工作平台(如 Google Workspace、Microsoft Azure 等)集成。用户能用浏览器扩展安装并使用它,轻松创建和分享操作指南,显著提升工作效率,减少重复劳动,适合需要频繁制作操作指南的团队和个人。

    Scribe

    Scribe的主要功能

    • 自动捕捉操作步骤:实时记录用户在网页或桌面应用中的操作,包括鼠标点击、键盘输入等。
    • 生成详细指南:将捕捉到的操作步骤整理成清晰的分步指南,自动生成文字说明和截图。
    • 编辑与定制:提供集成编辑器,用户能裁剪、标注截图,添加额外说明,让指南更完善。
    • 多平台集成:支持与Google Workspace、Microsoft Azure等平台集成,方便在不同环境中使用。
    • 分享与导出:支持生成链接、PDF文件,或嵌入到知识库、帮助中心等,便于分享和存档。
    • 数据保护:自动隐藏敏感信息,确保数据安全,符合多种行业合规标准。
    • 模板支持:提供多种模板,帮助用户快速创建标准化的操作手册和培训材料。

    Scribe的官网地址

    • 官网地址:https://scribehow.com/

    Scribe的产品定价

    • Basic:免费体验Scribe的基本功能,适合个人用户在浏览器中生成操作指南。
    • Pro Team:每个席位每月12美元,从5个席位起,为团队提供快速创建文档的工具,包括协作和多格式导出功能。
    • Pro Personal:每个席位每月23美元,从1个席位起,为个人提供专业级的文档制作功能,包括品牌定制和编辑重定向截图。

    Scribe的应用场景

    • 企业内部培训:快速创建新员工入职指南和操作手册,帮助员工快速熟悉工作流程和工具,减少培训时间。
    • 客户支持:为客户提供详细的操作指南和自助服务手册,减少客户咨询量,提升客户满意度和自助解决问题的能力。
    • 软件开发与测试:自动生成软件操作指南和测试流程文档,帮助用户快速上手新软件,确保测试的标准化和一致性。
    • 教育与培训:生成标准化的教学材料和在线课程操作指南,帮助学生更好地理解和操作,提高教学效率。
    • 金融与会计:创建详细的合规操作指南和财务流程手册,确保团队成员遵循行业标准和法规,提高工作效率和准确性。
  • Baichuan-M2 – 百川智能推出的开源医疗增强大模型

    Baichuan-M2是什么

    Baichuan-M2 是百川智能推出的开源医疗增强大模型。在医疗领域表现卓越,于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,登顶世界第一。通过极致轻量化,可在RTX 4090单卡上部署,成本大幅降低。其MTP版本在单用户场景下token速度提升74.9%,适用于急诊、门诊等场景。Baichuan-M2在数学、写作等核心性能不降反升。通过AI患者模拟器和强化学习,更贴近真实医疗场景,严格遵循中国医学指南,更适合中国临床诊疗需求。

    Baichuan-M2

    Baichuan-M2的主要功能

    • 卓越的医疗能力:在 HealthBench 等权威评测中表现突出,得分领先于其他开源模型,能精准处理复杂的医疗问题,为医疗诊断和治疗提供有力支持。
    • 极致轻量化部署:经过优化,可在 RTX 4090 单卡上部署,相比其他模型大幅降低了硬件成本,量化后的模型精度接近无损,适合医疗机构快速部署。
    • 速度优化:针对急诊、门诊等场景,Baichuan-M2 MTP 版本在单用户场景下实现了 74.9% 的 token 速度提升,能快速响应医疗需求。
    • 通用能力提升:在数学、指令遵循、写作等通用核心性能上不降反升,除了医疗领域,可应用于其他多个领域。
    • 符合中国临床需求:深度优化以遵循中国医学指南和医疗政策,更适合中国医疗机构和医生使用,能提供更贴合本地临床场景的解决方案。
    • 真实场景验证:在国家儿童医学中心等真实医疗场景中表现出色,展现出强大的诊断推理能力和临床思维,为医生提供专业支持。

    Baichuan-M2的技术原理

    • AI 患者模拟器:通过真实病例构建的 AI 系统,模拟千差万别的患者、症状和表达,包含错误噪声,最大程度还原真实医疗场景,为模型训练提供丰富的交互数据。
    • 端到端强化学习:采用多阶段强化学习策略(Multi-Stage RL),将复杂的强化学习任务分解为分层的训练阶段,逐步引导模型能力演变,提升模型在医疗场景中的表现。
    • 大型验证系统:构建了通用验证器和医学验证系统,从医疗正确性、完备性、安全性以及对患者的友好性等多个维度评估模型输出,引导模型改正并优化思维方式。
    • 多类型医疗数据深度推理:结合病例、论文、文献、指南等多种医疗数据,以 2:2:1 的比例搭配医学数据、通用数据和数学推理数据,引入领域自我约束训练机制,确保模型具备综合能力。
    • 极致轻量化与优化:对模型进行量化优化,使其在 RTX 4090 单卡上即可部署,同时保持接近无损的精度,大幅降低部署成本并提升运行效率。
    • 遵循中国医学指南:深度优化模型以对齐中国医学指南和医疗政策,确保其在临床诊疗场景中提供符合本地需求的解决方案。

    Baichuan-M2的项目地址

    • HuggingFace模型库:https://huggingface.co/baichuan-inc/Baichuan-M2-32B
    • 技术论文:https://www.baichuan-ai.com/blog/baichuan-M2

    Baichuan-M2的应用场景

    • 医疗诊断辅助:帮助医生快速准确地分析患者症状,提供诊断建议,尤其在复杂病例和罕见疾病诊断中表现出色。
    • 多学科会诊:在多学科会诊中,为医生团队提供综合的诊断和治疗思路,辅助制定更全面的治疗方案。
    • 急诊和门诊:针对急诊和门诊场景,快速响应,提供及时的诊断和治疗建议,提升医疗效率。
    • 医疗知识更新:为医生和医疗机构提供最新的医学知识和治疗指南,帮助医生快速掌握最新研究成果。
    • 临床教学与培训:作为教学工具,帮助医学生和年轻医生学习临床思维和诊断推理,提升专业能力。
    • 患者教育与咨询:为患者提供医学知识普及和健康咨询,帮助患者更好地理解病情和治疗方案。
  • AionUi – 开源的AI聊天界面,支持Gemini CLI命令行

    AionUi是什么

    AionUi 是基于 Electron 和 React 构建的免费、开源、跨平台桌面应用,支持将 Gemini CLI 的命令行 AI 聊天体验转化为现代化、高效的图形界面。AionUi 提供增强的聊天功能,支持多会话管理、本地持久化历史记录和自然的聊天交互。工具具备强大的文件与项目管理能力,如可视化文件树、文件上传和代码对比视图。AionUi 集成完整的 Gemini API 功能调用,支持富文本 Markdown 渲染,优化开发者的工作流程。

    AionUi

    AionUi的主要功能

    • 增强聊天体验:支持多会话管理、本地持久化聊天历史记录,并提供现代化的自然聊天界面。
    • 文件与项目管理:提供可视化文件树、文件上传功能及代码对比视图,方便文件操作和项目管理。
    • 开发者工作流优化:集成 Gemini API 功能,支持富文本 Markdown 渲染,且配置 API 密钥简单便捷。

    AionUi的技术原理

    • 桌面应用框架:用 Electron 构建跨平台桌面应用,Electron 支持用 Web 技术(HTML、CSS、JavaScript)开发桌面应用。
    • 前端框架:用 React 作为前端框架,React 是用在构建用户界面的 JavaScript 库,能高效地更新和渲染用户界面。
    • UI 组件库:用 Arco Design Web React 作为 UI 组件库,提供丰富的组件构建现代化的用户界面。
    • AI 引擎:集成 Google Gemini CLI Core 作为 AI 引擎,提供强大的 AI 聊天和处理能力。
    • 样式框架:用 UnoCSS 作为样式框架,UnoCSS 是原子化 CSS 框架,能高效地管理样式。

    AionUi的项目地址

    • GitHub仓库:https://github.com/office-sec/AionUi

    AionUi的应用场景

    • 代码开发:帮助开发者进行代码审查,提供代码优化和重构的建议,同时协助修复代码中的错误,提高开发效率和代码质量。
    • 文档写作:自动生成文档、撰写报告、总结文章等,支持富文本 Markdown 渲染,让文档内容更加美观和专业。
    • 数据分析:支持数据可视化,能够生成分析报告,帮助用户更直观地理解数据,做出更科学的决策。
    • 项目管理:协助用户进行任务规划和进度跟踪,帮助团队更好地管理项目,确保项目按时完成。
    • 学习辅助:提供知识问答和概念解释功能,能够帮助用户更好地理解和掌握新知识,是学习和研究的得力助手。
  • SkyReels-A3 – 昆仑万维推出的数字人视频生成模型

    SkyReels-A3是什么

    SkyReels-A3是昆仑万维推出的先进AI模型,基于DiT(Diffusion Transformer)视频扩散架构,结合插帧、强化学习和运镜控制技术。模型能通过音频驱动,将照片或视频中的人物“激活”,使其开口说话或表演。用户只需上传人像图片和音频,能生成自然流畅的视频内容,支持长达60秒的单分镜输出和无限时长的多分镜创作。模型在口形同步、动作自然性和运镜效果上表现出色,适用广告、直播、音乐MV等多种场景,为内容创作提供高效、低成本的解决方案。模型已上线SkyReels平台,访问Talking Avatar即可使用模型。

    SkyReels-A3

    SkyReels-A3的主要功能

    • 照片激活:上传一张人像图片并配上音频,照片中的人物就根据音频开口说话或唱歌。
    • 视频创作:输入人像图片、音频和文字提示(prompt),模型能生成符合要求的表演视频。
    • 视频台词修改:替换原视频的音频,人物自动对上新的口型、表情和表演,画面连贯。
    • 动作交互:支持自然的动作交互,如与商品互动、说话时的手势等。
    • 运镜控制:提供多种运镜效果(如推、拉、摇、升降等),用户能调节运镜强度,生成专业级视频。
    • 长视频生成:支持长达60秒的单分镜视频输出,多分镜能无限延长,满足不同场景需求。

    SkyReels-A3的技术原理

    • 基础架构:基于DiT(Diffusion Transformer)视频扩散模型,用Transformer结构替代传统U-Net,捕捉长距离依赖关系。
    • 3D-VAE编码:采用3D变分自编码器(3D-VAE)对视频数据进行空间和时间维度的压缩,编码成紧凑的潜在表示,降低计算负担。
    • 插帧与延展:通过插帧模型对视频进行延展,实现长时间视频生成。
    • 强化学习优化:引入强化学习,优化人物动作的自然度和交互性。
    • 运镜控制模块:基于ControlNet结构,提取参考图深度信息,配合相机参数,生成带有运镜效果的视频。
    • 多模态输入:支持图像、音频和文本提示等多种输入,实现高度可控的视频生成。

    SkyReels-A3的项目地址

    • 项目官网:https://skyworkai.github.io/skyreels-a3.github.io/

    SkyReels-A3的应用场景

    • 广告营销:生成动态广告视频,用名人形象或产品展示,提升品牌宣传效果。
    • 电商直播:支持虚拟直播和带货视频制作,减轻主播负担并增强观众互动。
    • 影视娱乐:制作音乐MV、电影片段或动画,提升艺术感和观众代入感。
    • 教育培训:生成虚拟教师讲解课程或演示操作的视频,提高教学趣味性和效率。
    • 新闻媒体:制作虚拟主播播报新闻或专题报道,增强新闻时效性和多样性。
    • 个人创作与娱乐:用户上传个人照片和音频,生成个性化的创意视频,如生日祝福、婚礼视频等。