Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • DreamGen – 英伟达推出的新型机器人学习技术

    DreamGen是什么

    DreamGen是英伟达推出的创新的机器人学习技术,基于AI视频世界模型生成合成数据,让机器人能在梦境中学习新技能。DreamGen仅需少量现实视频数据,能生成大规模逼真的训练数据,实现机器人在新环境中的行为泛化和环境泛化。DreamGen的四步流程包括微调视频世界模型、生成虚拟数据、提取虚拟动作以及训练下游策略。DreamGen让机器人在没有真实世界数据支持的情况下,凭文本指令完成复杂任务,显著提升学习效率和泛化能力。

    DreamGen

    DreamGen的主要功能

    • 行为泛化:让机器人学习、执行新的行为,无需为每种新行为收集大量的真实世界数据。
    • 环境泛化:让机器人在未见过的环境中执行任务。基于在单一环境中收集的数据,机器人能在多种新环境中成功执行任务。
    • 数据增强:生成大规模的合成训练数据,提升机器人在复杂任务中的成功率。
    • 多机器人系统支持:支持多种机器人系统(如Franka、SO-100等)和不同的策略架构(如Diffusion Policy、GR00T N1等),具有广泛的适用性。

    DreamGen的技术原理

    • 微调视频世界模型:用目标机器人的遥操作轨迹数据,微调视频世界模型(如Sora、Veo等),捕捉机器人的运动学和动力学特征。基于低秩适应(LoRA)技术,减少模型对原始数据的遗忘,适应新的机器人特征。
    • 虚拟数据生成:给定初始帧和语言指令,视频世界模型生成描述预期行为的大量机器人视频序列。视频不仅包含已知行为,包括新环境中的新行为。基于过滤掉不符合指令的“噩梦”视频,确保生成的数据质量。
    • 虚拟动作提取:用潜在动作模型(LAPA)或逆动力学模型(IDM)解析生成的视频序列,提取伪动作序列,形成神经轨迹。伪动作序列用在训练下游的视觉运动策略。
    • 策略训练:用生成的视频动作序列对(即神经轨迹)训练下游的视觉运动策略。基于神经轨迹,机器人在没有真实世界数据的情况下学习新任务,实现零样本泛化。

    DreamGen的项目地址

    DreamGen的应用场景

    • 工业生产:助力机器人快速掌握装配、焊接等复杂任务,提升生产效率与质量。
    • 家庭服务:使机器人适应不同家庭环境,完成清洁、整理等多样化家务。
    • 医疗护理:辅助医疗机器人精准操作,提高手术、康复等医疗环节的效率和安全性。
    • 物流仓储:帮助机器人高效处理各类物品的分拣、搬运,优化物流流程。
    • 农业生产:支持农业机器人在复杂环境里完成种植、收割等任务,提高农业产出。
  • Context7 – 为大模型和AI编辑器提供最新文档和代码示例的平台

    Context7是什么

    Context7 是 Upstash 推出的AI编程辅助工具,为大型语言模型(LLMs)和 AI 代码编辑器提供最新、版本特定的文档和代码示例。通过解析文档、丰富内容、向量化和重新排名等步骤,确保开发者能获取到准确且最新的代码示例和文档。Context7 支持多种工具,如 Cursor、Windsurf、Claude Desktop 等,通过模型上下文协议(MCP)实现集成。

    使用 Context7 时,开发者只需在提示中添加 use context7,可自动获取相关上下文,提高代码生成的准确性和可靠性。适合快速更新的框架或小众包,显著减少生成错误或过时代码的风险。Context7 的安装和配置相对简单,支持多种安装方式,包括通过 Smithery、Docker 等。

    Context7

    Context7的主要功能

    • 实时文档获取:从官方源(如 GitHub、官方文档网站)拉取最新文档和代码示例,确保开发者获取到的信息是最新的。
    • 版本特定:能根据目标库的版本匹配相应的文档和代码示例,避免因版本不一致导致的问题。
    • 无缝集成:只需在提示中添加 use context7,可触发文档注入,与多种 MCP 兼容客户端(如 Cursor、Windsurf、Claude Desktop 等)集成。
    • 减少幻觉代码:降低 AI 生成不存在 API 或过时代码的可能性,提高代码生成的准确性。
    • 多平台支持:兼容多种开发工具,如 Cursor、Windsurf、VS Code 等。
    • 精准的上下文提取:从最新文档中提取干净、相关的代码片段,仅包含代码和描述,没有多余内容。
    • 广泛的库支持:目前已支持超过 6000 个流行库,主流框架基本都能找到。
    • 免费使用:个人使用每天可免费查询多达 50 次。
    • resolve_library_id:通过提供指定库的模糊关键字,找到具体所指的包。
    • get_library_docs:获取指定包的文档内容,提供真正的文档而非搜索结果。

    Context7的工作原理

    • 解析:从文档中提取代码片段和示例。
    • 丰富:使用 LLMs 添加简短解释和元数据。
    • 向量化:嵌入内容以便进行语义搜索。
    • 重新排名:使用自定义算法对结果进行相关性评分。
    • 缓存:从 Redis 提供请求,以获得最佳性能。

    Context7的安装与配置

    • Node.js:需要 Node.js >= v18.0.0。
    • 安装方式
      • 通过 Smithery 安装
        • Claude Desktop

        npx -y @smithery/cli install @upstash/context7-mcp --client claude

      • 在 Cursor 中安装
        • 打开 Settings -> Cursor Settings -> MCP -> Add new global MCP server
        • 或者在 ~/.cursor/mcp.json 文件中添加以下配置:
        {
          "mcpServers": {
            "context7": {
              "command": "npx",
              "args": ["-y", "@upstash/context7-mcp"]
            }
          }
        }
      • 在 Windsurf 中安装
        {
          "mcpServers": {
            "context7": {
              "command": "npx",
              "args": ["-y", "@upstash/context7-mcp"]
            }
          }
        }
      • 在 VS Code 中安装
        {
          "servers": {
            "Context7": {
              "type": "stdio",
              "command": "npx",
              "args": ["-y", "@upstash/context7-mcp"]
            }
          }
        }
      • 使用 Docker 安装
        • 创建 Dockerfile
        FROM node:18-alpine
        
        WORKDIR /app
        
        # Install the latest version globally
        RUN npm install -g @upstash/context7-mcp
        
        # Expose default port if needed (optional, depends on MCP client interaction)
        # EXPOSE 3000
        
        # Default command to run the server
        CMD ["context7-mcp"]
        • 构建镜像:

        docker build -t context7-mcp .

        • 配置 MCP 客户端:
        {
             "mcpServers": {
               "Сontext7": {
               "autoApprove": [],
               "disabled": false,
               "timeout": 60,
                 "command": "docker",
                 "args": ["run", "-i", "--rm", "context7-mcp"],
                 "transportType": "stdio"
               }
             }
        }

    Context7的项目地址

    Context7的应用场景

    • 客服多轮对话管理:在客服场景中,用户咨询时多次切换话题,Context7 能保持上下文连贯并避免冗余。
    • 长文档分析:对于长文档(如法律合同),Context7 可以分段处理并整合关键条款,突破 LLM 原生上下文长度限制。
    • 实时数据分析:在电商用户行为监控等实时数据分析场景中,Context7 能结合历史行为和实时流数据生成推荐或风险预警。
    • AI 辅助编程::在使用 AI 编程助手时,如 Cursor,添加 use context7,Context7 会自动拉取相关的最新文档和代码示例,供 AI 模型生成更准确的回答。
  • Head – AI市场营销工具,自动生成跨平台营销策略

    Head是什么

    Head是全球领先的 AI 市场营销工具,基于 AI 技术自动生成秒级部署的跨平台营销策略,精准计算病毒式传播路径,帮助品牌主和创作者将市场预算转化为可量化增长。Head 已为多品牌提供服务,覆盖电商、科技、游戏和 AI 等多个领域,业务范围触及全球 200 多个国家和地区。

    Head

    Head的主要功能

    • 品牌DNA生成:一键生成品牌核心价值观、视觉元素和市场定位,确保营销信息一致。
    • 营销策略生成与执行:自动生成跨平台营销策略,快速部署并执行广告优化、影响者营销等。
    • 传播路径优化:精准计算病毒式传播路径,动态调整策略,确保营销活动高效扩散。
    • 预算优化与ROI提升:智能分配预算,提升投资回报率,降低无效预算。
    • 数据驱动的持续优化:24/7学习优化,基于实时数据调整策略,保持最佳效果。

    Head的官网地址

    Head的产品定价

    • 影响者营销:$1,500 美元,包含在 Aha 百万补贴计划内,用户无需额外支付费用。用户启动一个影响力营销活动,用 AI 技术来优化和管理营销活动。
    • 联盟营销:根据用户输入的预算和联盟数量动态计算。用户需要支付一定的费用来招募联盟合作伙伴。根据销售业绩向联盟合作伙伴支付佣金。
    • 销售拓展(Cold Email):根据用户输入的预算和潜在转化线索数量动态计算。用户支付一定的费用获取转化线索。

    Head的应用场景

    • 电商营销:为电商品牌生成营销策略,优化广告投放,提升销售额。
    • 科技推广:助力科技公司快速推广新产品,精准触达目标客户。
    • 游戏营销:帮助游戏开发者制定推广计划,吸引更多玩家。
    • 个人品牌塑造:为个人品牌打造独特形象,提升知名度和影响力。
    • 全球市场拓展:支持品牌在全球200多个国家和地区开展营销活动。
  • MedGemma – 谷歌开源的AI医疗领域模型

    MedGemma是什么

    MedGemma是谷歌推出的开源AI模型,专门用在医疗图像与文本分析。模型基于Gemma 3架构,包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像(如胸部X光、皮肤病学图像等),支持生成诊断报告或解答图像相关问题。27B模型针对医疗文本理解与临床推理,支持患者分诊和决策辅助。模型支持本地运,或基于Google Cloud的Vertex AI部署实现大规模应用,谷歌提供Colab笔记本等资源助力模型微调和集成。

    MedGemma

    MedGemma的主要功能

    • MedGemma 4B模型
      • 医疗图像分类与解读:支持生成诊断报告,为医生提供图像解读的参考依据。
      • 图像相关问题解答:解答与医疗图像相关的问题,辅助医生进行诊断决策。
    • MedGemma 27B模型
      • 医疗文本理解与临床推理:对患者的病历、症状等文本信息进行分析,进行临床推理。
      • 患者分诊:根据患者的病历和症状,初步判断病情的严重程度和可能的疾病类型,为患者提供合理的就医建议。
      • 临床决策辅助:为医生提供诊断和治疗决策的辅助,推荐可能的诊断方向和治疗方案。

    MedGemma的技术原理

    • 基于Gemma 3架构:MedGemma是基于Gemma 3架构开发的,架构为模型提供强大的多模态处理能力,能处理图像和文本数据。
    • 多模态模型设计:MedGemma 4B模型是多模态模型,图像和文本数据结合起来进行分析。模型能更全面地理解医疗场景,例如在分析一张X光图像时,参考患者的病历文本信息,提高诊断的准确性。模型基于SigLIP图像编码器,专门用在处理图像的编码器,将图像数据转化为模型理解的特征表示,为后续的分析和推理提供基础。
    • 大规模预训练:MedGemma 4B模型的预训练数据涵盖胸部X光、皮肤病学、眼科及组织病理学等多种医疗图像,让模型具备对不同类型医疗图像的识别和理解能力。MedGemma 27B模型专注于医疗文本的理解,对大量医疗文本数据的学习,掌握医疗领域的专业术语、疾病描述、治疗方案等内容,进行准确的文本分析和推理。

    MedGemma的项目地址

    MedGemma的应用场景

    • 医疗图像诊断:辅助医生解读多种医疗图像,生成诊断报告,解答图像相关问题。
    • 远程医疗支持:为远程医疗提供图像诊断辅助,优化患者就医流程,提高资源利用效率。
    • 临床决策辅助:根据病历和症状分析,为患者分诊,为医生提供诊断和治疗建议。
    • 医学研究助力:分析大量医疗数据,挖掘疾病特征,为疾病研究和药物研发提供支持。
    • 智能系统集成:与医疗设备集成,开发智能医疗系统,提升医疗服务智能化水平。
  • Graphiti – 开源AI动态知识图谱生成框架

    Graphiti是什么

    Graphiti 是为动态环境设计的 AI 知识图谱生成框架,为 AI 智能体构建能查询、具有时间感知能力的知识网络。Graphiti 能实时摄取和处理结构化与非结构化数据,支持动态数据整合、状态推理与自动化,及混合检索。Graphiti 适用于 AI 智能体记忆层、实时交互系统和企业知识管理等场景,为智能体提供强大的动态记忆和推理能力,助力实现更智能、更高效的 AI 应用。

    Graphiti

    Graphiti的主要功能

    • 动态数据整合:实时摄取结构化和非结构化数据,支持增量更新。
    • 时间感知能力:跟踪事实和关系随时间的变化,支持时间点查询。
    • 混合检索:结合语义搜索、关键词搜索和图遍历,实现低延迟查询。
    • 状态推理与自动化:支持智能体基于图谱进行任务自动化与推理。
    • 可扩展性:设计用在处理大规模数据集,支持并行化处理。
    • 自定义实体类型:支持定义特定领域的实体类型,实现更精确的知识表示。
    • 多模态搜索:支持语义、关键词及图结构的复杂查询。

    Graphiti的技术原理

    • 时间感知图谱:在图边添加时间元数据记录关系的生命周期。图谱中的每个关系都有一个时间戳,能追踪从创建到结束的整个过程。
    • 事件驱动架构:基于事件驱动架构,将数据摄取为离散事件。每个事件都包含数据来源和时间戳,支持增量处理。
    • 混合检索引擎:结合语义嵌入、关键词搜索和图遍历技术,实现低延迟的复杂查询。语义嵌入基于向量空间模型理解文本内容,关键词搜索快速定位文本片段,图遍历用图结构进行关系推理。查询结果用与中心节点的距离重新排序,进一步优化查询结果的相关性。
    • 并行化处理:Graphiti支持并行化处理,能同时处理多个数据流,提高数据处理效率。

    Graphiti的项目地址

    Graphiti的应用场景

    • AI智能体记忆层:为AI助手提供长期记忆,支持个性化服务。
    • 实时交互系统:支持动态更新和历史查询,适用智能家居、智能客服等。
    • 企业知识管理:高效管理企业数据,支持复杂查询和决策支持。
    • 医疗健康:管理病历和治疗信息,辅助医疗AI进行诊断和建议。
    • 金融分析:实时更新市场数据,支持风险评估和决策优化。
  • 凹凸工坊 – AI手写稿件生成工具,提供多种手写字体风格

    凹凸工坊是什么

    凹凸工坊是专业的在线 AI 手写稿件生成工具,支持将Word文档一键转换为真实的手写稿图片。工具提供多种手写字体、纸张背景及涂改率和凌乱度的调整功能,模拟真实的手写场景,生成的图片无水印且支持高清打印(600dpi)。工具的超级DIY功能和放宽的文件大小限制,进一步提升使用体验,适用于需要手写稿的多种场景,如作业、书信等。

    凹凸工坊

    凹凸工坊的主要功能

    • 文档转换:将Word文档一键转换为手写稿图片,支持多种格式的文档输入。
    • 字体选择:提供多种手写字体风格,用户根据需求选择不同的字体。
    • 纸张背景:支持多种纸张背景,包括实拍版和打印版,如红线信纸、普通稿纸等。
    • 涂改与凌乱度调整:支持设置随机勾画和涂改的概率(0%-100%),模拟真实手写的凌乱度。
    • 高清无水印输出:生成的图片无水印,支持高清打印(600dpi),适合多种用途。
    • 超级DIY功能:用户能自定义更多细节,满足个性化需求。
    • 快速预览与下载:实时预览转换效果,快速下载高清无水印的手写稿图片。

    如何使用凹凸工坊

    • 访问官网:访问凹凸工坊的官方网站
    • 上传文档:点击“上传文件”按钮,选择需要转换的Word文档。支持的文件大小上限为1.5MB。
    • 设置参数
      • 选择字体:从提供的手写字体中选择一种。
      • 选择纸张背景:选择喜欢的纸张类型,如红线信纸、普通稿纸等。
      • 调整涂改率和凌乱度:设置随机勾画和涂改的概率。
      • 高级设置:根据需要进行其他个性化设置。
    • 预览效果:点击“预览”按钮,查看生成的手写稿效果。
    • 下载手写稿:点击“下载文件”按钮,将生成的手写稿图片保存到本地。

    凹凸工坊的应用场景

    • 作业与学习:帮助学生快速生成手写作业,提升效率。
    • 书信与贺卡:制作手写书信、贺卡,增添情感温度。
    • 创意写作与手账:辅助创作者生成手写风格的文本,用在写作或装饰手账。
    • 教学与培训:教师将教学材料转换为手写稿,增强教学效果。
    • 商业与营销:用在商业宣传或客户沟通,传递个性化信息。
  • Stitch – 谷歌实验室推出的AI工具,能生成UI设计和前端代码

    Stitch是什么

    Stitch 是谷歌实验室(Google Labs)推出的基于生成式AI工具。能将简单的英语描述或图像迅速转化为用户界面(UI)设计以及支持运行的前端代码。Stitch 基于 Gemini 2.5 Pro 模型的多模态能力,用户可以通过自然语言描述或上传视觉素材(如草图、截图、线框图等)生成UI设计。Stitch 能识别输入,快速生成多种设计选项,方便用户调整和优化。可以将生成的设计无缝粘贴到 Figma 中,方便进一步优化、团队协作以及与现有设计系统的集成。

    Stitch

    Stitch的主要功能

    • 文本生成设计:用户可以通过简单的英语描述来生成用户界面(UI)设计。Stitch 能根据描述生成相应的设计。
    • 图像生成设计:用户可以上传草图、截图或线框图等视觉素材,Stitch 能识别这些图像生成相应的UI设计。
    • 图像识别与转换:Stitch 基于先进的图像识别技术,将图像中的元素转化为实际的UI组件,支持多种图像格式。
    • 代码生成:设计完成后,Stitch 可以生成简洁、可用的前端代码,支持HTML、CSS和JavaScript等多种编程语言。
    • 代码优化:生成的代码经过优化,确保高效运行,用户可以直接将其部署到实际项目中。
    • 与Figma集成:生成的设计可以无缝粘贴到Figma中,方便团队协作和进一步优化。
    • 文本与图像结合:用户可以同时使用文本描述和图像输入,Stitch 能综合这些信息生成更精准的设计。
    • 交互式设计:用户可以在生成的设计上进行实时编辑和调整,Stitch 会即时反馈并更新设计。

    Stitch的官网地址

    Stitch的应用场景

    • 设计师:设计师可以快速将创意转化为可视化的界面设计,通过简单的文本描述或草图即可生成初步的设计方案。有助于在早期阶段快速验证设计概念,节省时间和精力。
    • 开发者:开发者可以用 Stitch 生成的前端代码,快速搭建出可运行的原型,进行功能测试和用户反馈收集。
    • 教学工具:在设计和开发相关的课程中,Stitch 可以作为教学工具,帮助学生快速理解 UI 设计和前端开发的基本概念。通过实际操作生成设计和代码,学生可以更直观地学习和掌握相关技能。
    • 实践平台:学生和新手开发者可以用 Stitch 进行实践,快速生成项目原型,积累实际操作经验。
    • 个人开发者:个人开发者可以用 Stitch 快速生成个人项目的界面设计和代码,专注于核心功能的开发。
  • BAGEL – 字节跳动开源的多模态基础模型

    BAGEL是什么

    BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型。文本到图像生成质量与SD3相当,在图像编辑场景中也优于许多开源模型。BAGEL能进行自由形式的图像编辑、未来帧预测、三维操作和世界导航等任务。

    BAGEL

    BAGEL的主要功能

    • 图像与文本融合理解:BAGEL能深入理解图像和文本之间的关系,准确地将图像内容与文本描述相结合。
    • 视频内容理解:BAGEL能处理视频数据,理解视频中的动态信息和语义内容。能捕捉视频的关键信息并进行有效的分析。
    • 文本到图像生成:用户可以通过输入文本描述来生成相应的图像。BAGEL能根据文本内容生成高质量、与描述匹配的图像。
    • 图像编辑与修改:BAGEL支持对现有图像进行编辑和修改。BAGEL能根据指令生成修改后的图像,实现自由形式的图像编辑。
    • 视频帧预测:BAGEL能预测视频中的未来帧。基于视频的前几帧,模型可以生成后续的帧内容,恢复视频的完整性。
    • 三维场景理解与操作:BAGEL能理解和操作三维场景。可以对三维物体进行识别、定位和操作,例如在虚拟环境中移动物体、改变物体的属性等。
    • 世界导航:BAGEL具备世界导航能力,可以在虚拟或现实的三维环境中进行路径规划和导航。
    • 跨模态检索:BAGEL能实现跨模态检索功能,例如根据文本描述检索与之匹配的图像或视频,或者根据图像内容检索相关的文本信息。
    • 多模态融合任务:在多模态融合任务中,BAGEL可以将来自不同模态的数据(如图像、文本、语音等)进行有效融合,生成综合的结果。

    BAGEL的技术原理

    • 双编码器设计:BAGEL采用了混合变换器专家架构(MoT),架构包含两个独立的编码器。一个编码器负责处理图像的像素级特征,另一个编码器则专注于图像的语义级特征。双编码器设计使模型能同时捕捉图像的低层次细节和高层次语义信息。
    • 专家混合机制:在MoT架构中,每个编码器内部包含多个专家(Expert)模块。这些专家模块可以看作是小的子网络,每个专家专注于处理特定类型的特征或任务。通过在训练过程中动态选择最合适的专家组合,模型能更高效地处理复杂的多模态数据。
    • 标记化处理:BAGEL将输入的多模态数据(如图像、文本)转化为一系列标记(Token)。对于图像,模型会将其分割成多个小块(Patch),每个小块被视为一个标记;对于文本,每个单词或子词也被视为一个标记。
    • 预测任务:模型的训练目标是预测下一个标记组。在训练过程中,模型会看到一部分标记序列,尝试预测接下来的标记。
    • 压缩与学习:通过这种预测任务,模型能学习到多模态数据的内在结构和关系。预测下一个标记的过程迫使模型压缩和理解输入数据的关键信息,提高其对多模态数据的理解和生成能力。
    • 海量数据:为了训练BAGEL,字节跳动使用了来自语言、图像、视频和网络数据的数万亿个多模态标记进行预训练。数据涵盖了各种场景和领域,模型能学习到广泛的多模态特征和模式。
    • 优化策略:在训练过程中,BAGEL采用了先进的优化策略,如混合精度训练、分布式训练等,提高训练效率和模型性能。

    BAGEL的项目地址

    BAGEL的应用场景

    • 内容创作与编辑:用户可以通过输入文本描述生成高质量的图像。BAGEL能对现有图像进行编辑和修改。
    • 三维场景生成:BAGEL能生成三维场景,为VR和AR应用提供丰富的视觉内容。
    • 可视化学习:BAGEL可以将复杂的概念通过图像或视频形式展示出来,帮助学生更好地理解。
    • 创意广告生成:广告商可以用BAGEL生成吸引人的广告图像和视频。例如,根据产品特点生成创意广告海报或短视频。
    • 用户交互体验:在电商平台上,BAGEL可以生成产品的3D模型和虚拟展示,提升用户的购物体验。
  • Gemma 3n – 谷歌推出的端侧多模态AI模型

    Gemma 3n是什么

    Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。模型参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型。Gemma 3n 支持文本、图像、短视频和音频输入,可生成结构化文本输出。新增的音频处理能力,能实时转录语音、识别背景音或分析音频情感。可通过 Google AI Studio 直接在浏览器中使用。

    Gemma 3n

    Gemma 3n的主要功能

    • 多模态输入:支持文本、图像、短视频和音频输入,可生成结构化文本输出。例如,用户可上传照片并询问“图中的植物是什么?”,或通过语音指令分析短视频内容。
    • 音频理解:新增音频处理能力,能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
    • 设备端运行:无需云端连接,所有推理在本地完成,响应时间低至 50 毫秒,确保低延迟和隐私保护。
    • 高效微调:支持在 Google Colab 上进行快速微调,开发者可通过几小时的训练定制模型,适配特定任务。
    • 长上下文支持:Gemma 3n 支持最长 128K tokens 的上下文长度。

    Gemma 3n的技术原理

    • 基于 Gemini Nano 架构:Gemma 3n 继承了 Gemini Nano 的轻量化架构,专为移动设备优化。通过知识蒸馏和量化感知训练(QAT),在保持高性能的同时大幅降低资源需求。
    • 逐层嵌入技术:采用逐层嵌入(Per-Layer Embeddings,PLE)技术,显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型,只需 2GB 或 3GB 的动态内存即可运行。
    • 多模态融合:结合了 Gemini 2.0 的分词器和增强的数据混合,支持 140 多种语言的文本和视觉处理,覆盖全球用户需求。
    • 局部/全局层交错设计:采用 5:1 的局部/全局层交错机制,每 5 层局部层后接 1 层全局层,以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。

    Gemma 3n的项目地址

    Gemma 3n的应用场景

    • 语音转录与情感分析:能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
    • 内容生成:支持在手机上生成图像描述、视频摘要或语音转录,适合内容创作者快速编辑短视频或社交媒体素材。
    • 学术任务定制:开发者可用 Gemma 3n 的微调功能,在 Colab 上为学术任务定制模型,如分析实验图像或转录讲座音频。
    • 低资源设备:专为低资源设备设计,仅需 2GB RAM 即可在手机、平板和笔记本电脑上流畅运行。
  • Science Navigator – AI科研平台,覆盖“读文献-做计算-做实验-多学科协同”

    Science Navigator是什么

    Science Navigator(科学导航)是北京科学智能研究院与深势科技联合打造的新一代AI4S科研知识库与AI学术搜索平台。是全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台。通过智能技术赋能科研创新,助力科研工作者高效探索学术前沿最新动态。

    Science Navigator

    Science Navigator的主要功能

    • 全维度科研知识库:背靠覆盖中、英等多语种的全球科研知识库,收录超千万篇论文、学术数据与知识图谱,每日自动同步最新研究进展。
    • 个性化问题推荐:AI通过分析用户研究方向与领域趋势,推荐高价值科学问题,并自动补全学术提问,推送学科前沿解答链接。
    • 多模态搜索:支持图片、化学分子式、实验数据等多形式输入,拓宽科研信息获取渠道。
    • 批量文献问答:科研人员可以就某一课题提出综合性查询,平台自动从海量论文中提取整合相关内容,一次性给出汇总答案。
    • 校内资源深度整合:优先对接校内数据平台与知识库,加速本校科研成果复用,帮助师生快速建立学术联系。
    • 数据存储与管理:平台的数据基础包括2亿篇论文的元数据和300万篇arXiv论文的全文内容。通过专门开发的PDF解析工具,能够精确提取论文中的文本、图片、表格和数学公式。
    • 科研文献管理:在Science Navigator,只需将你的论文文件夹上传至平台,能帮你整理、索引,并快速定位到相关内容。

    如何使用Science Navigator

    • 访问入口:北大师生可通过校内门户或北京大学APP搜索“AI4S”来访问该平台。
    • 文献检索:用全维度科研知识库,背靠覆盖中、英等多语种的全球科研知识库,收录超千万篇论文、学术数据与知识图谱,每日自动同步最新研究进展。
    • 个性化推荐:AI通过分析用户研究方向与领域趋势,推荐高价值科学问题,自动补全学术提问,推送学科前沿解答链接。
    • 实验设计与模拟:平台可以拆解我们提出的研究目标,进行实验设计,与仪器联动进行实验模拟,通过结果进行反思推导和迭代,及时进行进一步实验设计和再验证。

    Science Navigator的应用场景

    • 跨学科问题探索:「科学导航」支持多学科协同,能帮助科研人员在不同学科领域之间建立联系,发现新的研究方向和合作机会。
    • 实验数据处理:支持对实验数据的快速处理和分析,帮助科研人员从大量的实验数据中提取有价值的信息,提高实验效率。
    • 科研项目管理:平台提供多维度实时订阅功能,支持按关键词、期刊、学者、机构等单一或组合维度定制追踪方案,动态聚合最新科研成果。
    • 高效查找文献:科研人员可以通过「科学导航」快速检索全球科研知识库中的超千万篇论文,用自然语言对话式检索功能,输入关键词或问题,平台能迅速定位到相关文献信息。