Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • EmbeddingGemma – 谷歌开源的多语言文本嵌入模型

    EmbeddingGemma是什么

    EmbeddingGemma是谷歌开源的多语言文本嵌入模型,专为端侧AI设计,支持在笔记本、手机等设备上部署。模型拥有3.08亿参数,基于Gemma 3架构打造,支持100多种语言,量化后内存占用不到200MB,能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准(MTEB)上表现优异,性能接近尺寸翻倍的Qwen-Embedding-0.6B,能生成高质量嵌入向量,支持离线运行,保护用户隐私,支持与Gemma 3n配合用在移动RAG管道、语义搜索等,是推动端侧智能普及的重要基石。

    EmbeddingGemma

    EmbeddingGemma的主要功能

    • 生成高质量文本嵌入向量:将文本转换为数值向量,在高维空间表征文本语义,精准捕捉语言细微差别与复杂特性,为后续应用提供坚实基础。
    • 支持多语言:涵盖100多种语言,满足跨语言应用需求,如多语言语义搜索、跨语言信息检索等,打破语言壁垒。
    • 灵活的输出维度:支持将输出维度从768自定义到128,开发者能根据实际需求在速度、存储和质量之间灵活权衡。
    • 端侧部署:经过量化后占用内存不到200MB,支持在EdgeTPU上快速生成嵌入向量,实现低延迟、离线运行,保护用户隐私。
    • 与多种工具集成:与sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等流行工具兼容,方便开发者快速集成到现有项目中。
    • 支持检索增强生成(RAG):支持与Gemma 3n配合构建移动优先的RAG管道,实现个性化、行业特定和离线支持的聊天机器人,提升语义搜索和问答系统的性能。

    EmbeddingGemma的技术原理

    • 基于Transformer架构:基于Gemma 3架构,一种改进的Transformer架构,能有效处理长文本序列,提供2K令牌上下文窗口,增强模型对长文本的理解能力。
    • Matryoshka表征学习(MRL):基于MRL技术,模型能生成多种维度的嵌入向量。开发者根据需求选择不同维度的向量,在性能和资源消耗之间达到最佳平衡。
    • 量化感知训练(QAT):为降低模型的内存占用和提高运行速度,EmbeddingGemma用量化感知训练技术。通过QAT,模型在保持较高性能的同时,显著降低内存使用量,在资源受限的设备上能高效运行。
    • 多语言训练:模型在训练过程中用来自100多种语言的大量文本数据,支持理解和生成多种语言的嵌入向量。
    • 端到端的文本处理:模型直接在设备硬件上生成文档嵌入,无需联网,确保用户数据的隐私和安全。模型用与Gemma 3n相同的分词器进行文本处理,进一步优化RAG应用的内存占用。

    EmbeddingGemma的项目地址

    • 项目官网:https://developers.googleblog.com/zh-hans/embeddinggemma-mobile-first-embedding-model/
    • HuggingFace模型库:https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

    EmbeddingGemma的应用场景

    • 检索增强生成(RAG):与Gemma 3n配合,构建移动优先的RAG管道,实现个性化、离线支持的聊天机器人,提升语义搜索和问答系统的性能。
    • 多语言应用:用在跨语言信息检索和多语言聊天机器人,打破语言壁垒,满足多语言环境需求。
    • 端侧AI:低内存占用和快速推理能力能在离线状态下运行,适用移动设备上的智能应用,保护用户隐私。
    • 文本分类与聚类:帮助将文本数据分类或聚类,用在数据挖掘和分析。
    • 语义相似度计算:用在文本相似度计算和推荐系统,判断文本语义相似度,提供精准推荐。
  • Fellou CE – Fellou AI推出的空间Agentic浏览器

    Fellou CE是什么

    Fellou CE是创新的AI浏览器,为全球首款空间Agentic浏览器,通过独特的Z轴空间界面,为每个任务创建独立空间,减少任务干扰,提升多任务处理效率。浏览器核心功能是代理引擎,能理解用户复杂意图、自主执行多步任务,如自动整理资料、生成报告等。Fellou CE具备深度搜索与可视化报告功能,免费为用户提供跨多源的自动化研究和个性化报告。Fellou CE基于本地优先模式,确保用户数据安全,隐私无忧。Fellou CE是一个浏览器,更是用户的智能助手,帮助用户从繁琐的操作中解放出来,专注于创造和决策。

    Fellou CE

    Fellou CE的主要功能

    • 空间界面(Spatial Interface) :引入Z轴,为每个任务创建独立空间,减少任务间的干扰,提升多任务处理效率。
    • 动态多任务(Dynamic Multitasking) :后台自动处理任务,前台操作不受影响,实现真正的并行处理。
    • 影子工作区(Shadow Workspace) :后台追踪和管理操作,方便用户找回遗忘的信息,提供实时干预功能。
    • Fellou Home :三维书桌式界面,直观组织书签、历史记录、文件和任务清单,能减轻用户认知负担。
    • 代理引擎(Agentic Engine) :支持理解用户复杂意图并自主执行多步任务,如自动整理资料、生成报告等。
    • 深度搜索与可视化报告(Deep Search & Visual Report) :免费为用户提供跨多源的自动化研究和个性化报告,信息来源可追溯。
    • 并行多代理操作(Parallel Multi – Agent Operations) :多个AI代理能同时处理不同任务,提高工作效率。
    • 无缝集成(Seamless Integration) :打破应用、数据和记忆之间的壁垒,实现本地文件与网页的无缝交互。
    • 控制与便利(Control and Convenience) :可视化整个自动化流程,让用户实时编辑、批准或修改步骤。
    • 信任与透明(Trust & Transparency) :基于本地优先、隐私优先的模式,确保用户数据安全,透明展示任务执行所需积分(Sparks)。

    如何使用Fellou CE

    • 下载与安装:访问Fellou CE官网 https://fellou.ai/。根据操作系统(如Mac或Windows)下载相应的版本并安装。
    • 注册与登录:完成账号注册和登录。
    • 输入指令:在Fellou CE的输入框中输入指令或目标,例如“帮我整理上周的研究资料”或“生成一份市场分析报告”。
    • 查看执行过程:Fellou CE将指令分解为多个步骤,在后台自动执行。用户通过界面能实时查看每个步骤的执行情况,进行干预或修改。
    • 深度搜索与报告:用Deep Search功能,输入关键词或问题,Fellou CE自动从多个来源搜索信息,生成可视化的报告。
    • 管理任务:Fellou CE自动将复杂任务分解为多个子任务,在不同的空间中并行处理。用户设置任务的执行时间,Fellou CE在指定时间自动执行任务。
    • 数据与文件管理:通过Fellou CE直接管理本地文件,如搜索、移动和组织文件。
    • 跨应用集成:用Fellou CE在不同应用之间无缝传输数据,例如从邮箱下载附件,直接导入到文档编辑器中。

    Fellou CE的应用场景

    • 工作效率提升:Fellou CE能自动执行多步任务,如“帮我整理上周的研究资料”,自动调取历史记录和本地文档,生成资料集提高工作效率。
    • 旅行规划助手:输入“三天两夜东京行程”,Fellou CE自动分解成订机票、安排酒店、生成攻略、管理预算等子任务,轻松完成旅行计划。
    • 学习资料整理:学生用Fellou CE收集学习资料,如“查找关于量子力学的入门资料”,助力学习。
    • 创意激发与实现:输入“设计一间面朝大海的木屋”,Fellou CE能生成效果图、转成3D模型,让创意快速落地。
    • 健康生活管理:用户能设置健康目标,如“制定一周的健身计划”,Fellou CE根据身体状况和目标,生成个性化健身计划和饮食建议活。
  • 小朋友知识卡片 – AI知识卡片生成工具,变成生动有趣卡片

    小朋友知识卡片是什么

    小朋友知识卡片是AI 知识卡片生成工具,能将任何知识点变成生动有趣的知识卡片,适合孩子学习。输入知识点后,工具自动生成包含详细介绍、对比、案例和总结的知识卡片。卡片语言通俗易懂,能将复杂概念简单化,帮助孩子快速理解。工具完全免费,适合孩子科普和成人快速学习新概念。

    小朋友知识卡片

    小朋友知识卡片的主要功能

    • 知识点简化与趣味化:将复杂的知识点用简单、有趣的方式呈现,帮助孩子更容易理解和接受。
    • 生成知识卡片:输入任何知识点,工具自动生成包含详细介绍、对比、案例和总结的知识卡片。
    • 语言通俗易懂:用孩子易于理解的语言,避免晦涩难懂的专业术语。
    • 免费使用:完全免费,无需付费即可使用所有功能。
    • 支持多种主题:涵盖广泛的学科和主题,如自然科学、历史、数学等,满足不同学习需求。

    如何使用小朋友知识卡片

    • 访问官网:访问小朋友知识卡片官网 https://v0-card-generation-app.vercel.app/
    • 获取API Key:访问 Gemini API Key 获取页面并注册账号,获取API Key。
    • 配置工具:在小朋友知识卡片生成器页面,输入API Key进行配置。
    • 输入知识点:在配置完成后,输入想要了解的知识点,比如“太阳系行星”“恐龙灭绝”等。
    • 生成知识卡片:点击生成按钮,工具自动生成一张包含详细介绍、对比、案例和总结的知识卡片。
    • 查看和使用卡片:生成的知识卡片以简洁有趣的方式展示知识点,适合孩子学习和理解。

    小朋友知识卡片的应用场景

    • 家庭学习:家长和孩子一起使用,生成知识卡片,能增进亲子互动,激发孩子学习兴趣。
    • 学校教育:教师将生成的知识卡片作为教学辅助材料,帮助学生更好地理解复杂的知识点,提升课堂教学效果。
    • 在线教育:在线教育平台融入课程内容,丰富教学资源,帮助学生更好地理解和记忆知识点。
    • 图书馆和学习中心:图书馆和学习作为儿童阅读材料,提供给小读者,丰富学习资源,拓宽孩子知识面。
    • 科普活动:在科普展览和社区科普活动中,介绍科学知识,吸引参观者的兴趣,普及科学知识。
  • mobile-use – 开源的移动端AI Agents,自然语言控制手机

    mobile-use是什么

    mobile-use是移动端AI Agents工具,支持自然语言控制Android和iOS设备,帮助用户操作手机。用户用日常语言下达指令,工具自动完成任务,如打开应用、填写表单、提取信息等。mobile-use能感知UI界面,智能导航,支持数据抽取和结构化处理。工具具有良好的可扩展性,支持配置不同的语言模型。mobile-use已在GitHub上开源,提供详细的使用指南和开发文档,方便开发者和用户快速上手。

    mobile-use

    mobile-use的主要功能

    • 自然语言交互:用户通过自然语言指令控制手机,无需复杂操作。
    • 跨平台支持:兼容Android和iOS设备,覆盖广泛用户群体。
    • UI感知与自动化:自动识别和操作手机界面元素,实现智能导航。
    • 数据抽取与结构化:从应用中提取信息并转化为结构化数据,便于进一步处理。
    • 任务自动化:支持执行复杂任务,如填写表单、搜索信息等,提高效率。
    • 可扩展性:支持配置不同的语言模型,适应不同场景和需求。

    mobile-use的技术原理

    • 自然语言处理(NLP):用NLP技术解析用户指令,理解意图。
    • UI自动化框架:结合ADB(Android Debug Bridge)和XCUITest(iOS)等工具,实现界面元素的识别和操作。
    • 模型驱动架构:支持多种语言模型,如GPT-4,通过API调用实现智能交互。
    • 数据采集与处理:通过屏幕截图和OCR技术提取信息,并进行结构化处理。
    • 多模态融合:结合文本、图像等多种数据类型,提升任务执行的准确性和效率。

    mobile-use的项目地址

    • GitHub仓库:https://github.com/minitap-ai/mobile-use

    mobile-use的应用场景

    • 跨应用信息检索与分享:用户从微信中查找好友发送的地址信息,能在高德地图中打开该地址进行导航。
    • 社交媒体互动:在微博上搜索热门话题#人工智能#,关注相关博主,对博主的最新微博发表评论。
    • 视频平台操作:在B站搜索UP主的最新视频,打开播放完成在评论区的留言。
    • 日常任务自动化:打开支付宝,进入我的账单,查看本月的消费总额。
    • 中文应用操作:在小红书上搜索“上海迪士尼攻略”,查看点赞数最多的帖子,将内容保存到收藏夹。
  • ChatCut – AI视频剪辑工具,自然语言描述完成剪辑

    ChatCut是什么

    ChatCut是基于浏览器的 AI 辅助视频剪辑工具,能自动精准转录视频或音频素材,支持多语言,具备说话人分离和帧级时间码功能。用户能像编辑文本一样修改转录内容,通过拖拽顺序实时查看剪辑效果,能与 AI 助手交流协助剪辑。ChatCut支持多人远程协作,输出格式丰富,能与主流剪辑软件兼容,大大提高视频剪辑的效率和便捷性。

    ChatCut.io

    ChatCut的主要功能

    • 自动转录 :自动对上传的视频或音频素材进行高精度转录,支持近 100 种语言,能实现说话人分离和帧级精确时间码标注。
    • 文本化编辑 :用户能像编辑文档一样对转录文本进行修改、删除、拖拽排序等操作,实时看到对应的视频剪辑效果。
    • AI 助手 :通过聊天的方式向 AI 助手下达指令,如寻找特定主题、按主题组织内容、识别素材中的模式和结构,或根据用户的创意方向组合镜头序列等。
    • 时间轴编辑 :提供简单的一轨时间轴编辑器,方便用户在需要时进行精确的视频剪辑操作。
    • 远程协作 :支持多人远程登录并实时协作,团队成员能在浏览器中同时对同一个项目进行编辑和调整,提高协作效率。
    • 输出兼容 :支持输出或下载最终的视频文件,或输出 XML 文件,方便与 Adobe Premiere 和达芬奇等主流视频编辑软件进行后续编辑和进一步完善。

    如何使用ChatCut

    • 注册登录:访问 ChatCut.io 官网 https://www.chatcut.io/ ,完成账号注册并登录。
    • 上传素材:将视频或音频文件拖拽到上传区域,等待自动转录完成。
    • 编辑文本:在文本编辑界面,像编辑文档一样修改转录内容,拖拽文本段落调整剪辑顺序,实时查看视频预览。
    • 使用AI助手:在编辑界面输入指令,如“删除语气词”“按主题分段”,AI助手自动处理并更新视频。
    • 精细剪辑(可选):如有需要,用时间轴编辑器进行精确剪辑,如调整帧、添加转场等。
    • 协作(可选):邀请团队成员加入项目,多人实时协作编辑。
    • 输出下载:完成剪辑后,点击输出或下载按钮,选择视频或 XML 格式保存文件。

    ChatCut的应用场景

    • 纪录片制作:纪录片创作者快速从大量采访素材中提取关键信息,高效组织故事结构,节省剪辑时间。
    • 新闻报道剪辑:记者和编辑能迅速整理采访片段,精准定位新闻要点提升新闻传播效率。
    • 教育视频制作:教育工作者将教学讲解视频中的重点内容快速梳理,按照教学逻辑重新编排,制作成更易理解的教育视频。
    • 企业宣传视频:企业借助 ChatCut从产品介绍、客户访谈等视频素材中提取亮点,快速剪辑出吸引人的宣传视频,提升品牌形象。
    • 自媒体内容创作:自媒体创作者能快速剪辑出符合主题的视频内容,如 vlog、知识分享等,提高内容产出速度和质量。
  • InfinityHuman – 字节联合浙大推出的AI数字人视频生成模型

    InfinityHuman是什么

    InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等问题。在 EMTD 和 HDTF 数据集评估上,InfinityHuman 展示了卓越的性能,为虚拟主播、教育、客服等领域的应用提供新的可能性。

    InfinityHuman

    InfinityHuman的主要功能

    • 长时视频生成:能生成高分辨率、长时长的人体动画视频,保持视觉一致性和稳定性。
    • 自然手部动作:通过手部专属奖励机制,生成自然、准确且与语音同步的手部动作。
    • 身份一致性:利用姿态引导细化器和首帧作为视觉锚点,减少累积误差,保持人物身份的长期一致性。
    • 口型同步:确保生成的视频中人物的唇部动作与音频高度同步,提升真实感。
    • 多样化角色风格:支持不同风格的人物角色生成,满足多种应用场景的需求。

    InfinityHuman的技术原理

    • 低分辨率动作表示生成:模型通过音频驱动生成与音频同步的低分辨率动作表示(pose),相当于“打底稿”,确保全局节奏、动作和嘴型先对齐。
    • 姿态引导细化器(Pose-Guided Refiner):在生成低分辨率动作表示的基础上,模型用姿态引导细化器逐步生成高分辨率的视频。
      • 姿态序列:姿态序列作为稳定的中间表示,抵抗时间退化,保持视觉一致性。
      • 视觉锚点:首帧为视觉锚点,不断参照校正身份和画面,减少累积误差。
      • 手部奖励机制:通过高质量的手部动作数据训练,引入手部专属奖励机制,优化手部动作的自然性和与语音的同步性。
    • 多模态条件融合:模型融合多种模态信息,包括参考图像、文本提示和音频,确保生成的视频在视觉和听觉上的一致性和自然性。

    InfinityHuman的项目地址

    • 项目官网:https://infinityhuman.github.io/
    • arXiv技术论文:https://arxiv.org/pdf/2508.20210

    InfinityHuman的应用场景

    • 虚拟主播:虚拟主播能自然流畅地进行新闻播报、节目主持等,增强观众的观看体验,降低人力成本。
    • 在线教育:AI 教师边讲解知识边做出相应的手势,让教学过程更加生动形象,提高学生的学习兴趣和专注度。
    • 客服服务:数字客服在语音交流时能自然地做出回应动作,打破传统客服的机械感,提升客户满意度。
    • 影视制作:在动画电影、电视剧等影视作品中,快速生成高质量的长时人物动画,减少人工绘制和后期修复的工作量。
    • 虚拟社交:为虚拟现实(VR)和增强现实(AR)中的虚拟人物赋予自然的动作和表情,让虚拟社交更加真实和沉浸,增强用户之间的互动性。
  • Super Agent Party – 开源3D AI桌面伴侣,全渠道一键部署

    Super Agent Party是什么

    Super Agent Party 是开源的3D AI桌面伴侣软件,将桌宠、智能助手、知识库、机器人控制等多种功能集于一体。用户能通过Docker或源码快速部署到Windows、macOS、Linux等系统。Super Agent Party 支持接入微信、QQ、B站直播等平台,具备联网能力、永久记忆、代码执行和多模态交互等功能。软件能作为可爱的桌面宠物,且能作为智能助手、知识秘书、游戏搭档、直播互动伙伴,是家庭物联网中枢,极大地提升了生活和工作效率,让“桌宠”从单纯的娱乐工具转变为生产力工具。

    Super Agent Party

    Super Agent Party的主要功能

    • 无缝能力增强:无需代码改造能实现LLM API企业级升级,无缝集成知识库、实时联网、永久记忆、代码执行、多模态交互等模块化功能。
    • 全渠道一键部署:支持快速部署到多种终端,如经典聊天界面、微信/QQ机器人、B站直播互动、VRM虚拟桌宠等场景。
    • 生态工具互联:支持接入第三方智能体与工作流,如ComfyUI/MCP/A2A等系统,实现跨平台能力聚合。
    • 标准化接口开放:提供OpenAI API兼容接口及MCP协议支持,便于开发者对接外部系统,实现快速转接与二次开发。
    • 全平台兼容适配:覆盖Windows、macOS、Linux原生运行环境,支持Docker容器化部署与Web端云服务。
    • 桌面伴侣与智能助手:在工作时,能像桌宠一样在屏幕上活动,且能随时回答问题、搜索资料、帮助查代码。
    • 社交媒体机器人:支持部署到微信/QQ群聊中,作为群管、答疑助手或娱乐互动机器人。
    • 直播互动伙伴:在B站直播间与观众互动,自动回答弹幕问题,并生成有趣评论或小游戏。
    • 智能家居中心:通过工具调用功能接入智能家居系统,实现语音/图像控制。

    Super Agent Party的项目地址

    • GitHub仓库:https://github.com/heshengtao/super-agent-party

    如何使用Super Agent Party

    • Docker部署
      • 安装Docker:确保系统已安装Docker。
      • 拉取并运行镜像
    docker pull ailm32442/super-agent-party:latest
    docker run -d -p 3456:3456 -v ./super-agent-data:/app/data ailm32442/super-agent-party:latest
      • 访问应用:浏览器访问 http://localhost:3456/
    • 源码部署
      • 安装依赖:确保系统已安装Node.js和npm。
      • 克隆项目
    git clone https://github.com/heshengtao/super-agent-party.git
    cd super-agent-party
      • 安装并启动
    npm install
    npm start
      • 访问应用:浏览器访问 http://localhost:3456/
    • 一键安装包
      • 下载安装包:从 GitHub Release页面 下载对应系统的安装包。
      • 安装并启动:按照安装包提示完成安装,启动应用。
    • 配置与使用
      • 配置文件:首次运行时,应用会生成配置文件,支持按需修改。
      • 连接平台:通过配置文件或界面,连接微信、QQ、B站直播等平台。
      • 使用功能:在应用界面使用知识库查询、联网搜索、代码执行等功能。

    Super Agent Party的应用场景

    • 桌面伴侣:作为3D桌面宠物,陪伴用户工作或娱乐,提供个性化装饰和智能助手功能。
    • 社交媒体机器人:作为互动机器人,自动回答问题、管理群聊或与观众互动。
    • 智能家居中心:通过语音或图像控制家中的智能设备,如灯光、温度等。
    • 虚拟角色养成:打造具有独特性格和外观的AI搭档,长期陪伴并参与游戏世界。
    • 知识秘书:接入外部知识库和实时联网搜索,提供丰富的背景知识和最新信息,帮助用户快速获取知识。
  • 叠叠社 – AI虚拟陪伴应用,以AI弹幕形式出现

    叠叠社是什么

    叠叠社是脸谱心智公司推出的AI虚拟陪伴应用,以AI弹幕形式出现在用户桌面,能感知用户行为并互动,如提醒朋友生日、聊天等。叠叠社核心理念是通过AI帮助用户建立真实的人际关系,应用结合记忆技术和多模态交互,提供贴心陪伴,适用于Windows、Android等平台。产品目标是成为连接虚拟与现实的桥梁,帮助用户更好地回归现实,建立真实社交。

    叠叠社

    叠叠社的主要功能

    • 智能感知与互动:实时感知用户行为和情绪,根据不同场景提供贴心互动和支持。
    • 社交辅助与拓展:通过提醒重要社交事件、推荐聊天话题和潜在人脉,帮助用户更好地维护和拓展社交关系。
    • 个性化陪伴:支持用户定制AI的虚拟形象、性格和记忆功能,打造独一无二的专属陪伴体验。
    • 生活助手:提供信息查询、日程管理和娱乐互动功能,全方位助力用户的日常生活和工作。

    如何使用叠叠社

    • 访问官网:访问叠叠社官网 https://nijigen.com.cn/,根据系统下载对应客户端。
    • 注册与登录:按要求完成账号注册和登录
    • 个性化设置:根据你的喜好,设置外观和风格。
    • 调整性格和偏好:选择AI的性格特点(如温柔、幽默、严肃等),并设置兴趣爱好,以便AI更好互动。
    • 使用核心功能:通过智能感知、社交辅助、个性化陪伴和生活助手功能,享受全方位的AI服务。

    叠叠社的应用场景

    • 学习场景:在学习时帮助用户更高效地完成学习任务。
    • 工作场景:在工作时提高工作效率,确保工作顺利进行。
    • 休闲场景:在休闲时为用户提供娱乐互动,帮助放松心情,缓解压力。
    • 社交场景:在社交时帮助用户更好地与他人交流,拓展人脉,维护良好的人际关系。
  • Orca – UCSD推出的Agent浏览器

    Orca是什么

    Orca是加州大学圣地亚哥分校的研究者推出的智能体浏览器,将网页视为可塑材料,浏览器作为可塑空间,通过AI辅助实现用户驱动的大规模浏览。用户能在无限画布上并排查看多个网页,AI智能体负责处理重复性任务,如点击按钮、填写表单等。Orca支持大规模查看、管理、导航、提取信息,支持用户灵活组织网页。Orca降低了多页面管理成本,激发用户探索欲,增强用户对信息来源的控制力和信任感。

    Orca

    Orca的主要功能

    • 多页面空间化管理:Orca浏览器支持将多个网页以空间化的方式排列在画布上,用户能自由地拖拽、缩放网页,实现并排查看和全局概览,方便进行多页面的比较和整合。
    • AI智能体自动化操作:浏览器内置的AI智能体能够自动执行诸如点击按钮、填写表单等重复性任务,帮助用户减少手动操作,提高浏览效率。
    • 大规模信息快速提取:用户通过自然语言指令,从多个网页中快速提取关键信息,信息将以统一的小卡片形式显示在每页上面,便于快速扫描和比较。
    • 情境扩展与批量导航:Orca能基于当前页面的内容,为用户提供自动的情境扩展建议,帮助用户快速发现相关网页;且能批量打开多个符合条件的链接,加速信息探索过程。
    • 动态工作区定制:浏览器支持用户根据自己的任务需求,将网页组合成一个定制化的动态工作区,支持实时并行查看、灵活提取和动态重组网页内容。

    Orca的官网地址

    • 官网地址:https://orca.jiang.pl/
    • arXiv技术论文:https://arxiv.org/pdf/2505.22831

    如何使用Orca

    目前Orca浏览器处于开发阶段,可访问Orca官网 https://orca.jiang.pl/,加入等待名单。

    Orca的应用场景

    • 旅行规划:并排查看多个旅行预订网站,提取关键信息,助力快速筛选合适选项。
    • 学术研究:研究人员同时打开多数据库,用智能体辅助下载和提取摘要,提升研究效率。
    • 新闻阅读:用户比较多新闻网站报道,通过指令提取关键信息,实时查看动态更新。
    • 市场调研:调研人员能收集多平台数据,提取整合关键数据,提高数据收集和分析效率。
    • 项目管理:项目经理能并行查看多项目网页,整合信息生成报告,借助智能体执行重复任务。
  • Apertus – 瑞士开源的首个大规模语言模型

    Apertus是什么

    Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心(CSCS)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70B和8B两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构,基于新的xIELU激活函数和AdEMAMix优化器。模型完全开放,模型权重、数据和训练细节,用户能在自己的服务器上使用,保持数据控制权。

    Apertus

    Apertus的主要功能

    • 文本生成:根据用户输入的提示生成连贯、相关的文本。
    • 多语言支持:支持超过1811种语言,包括许多此前在LLM中被低估的小语种。
    • 透明性和开放性:模型权重、数据和训练细节完全公开,用户能在自己的服务器上使用。
    • 长上下文处理:支持长上下文处理,适用于复杂的任务。

    Apertus的技术原理

    • 模型架构:Apertus用仅密集解码器Transformer架构,模型有8B和70B两种规模,分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,提升模型效率和长上下文处理能力。
    • 预训练目标:用Goldfish目标函数,通过随机掩盖部分标记,防止模型学习精确的上下文映射,有效抑制逐字回忆,同时保留下游任务性能。预训练数据完全来自公开可用的来源,尊重内容所有者的退出意愿,避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
    • 预训练数据:Apertus在超过15万亿个标记的数据上进行预训练,涵盖超过1800种语言。数据来源多样,包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制,如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容,确保数据的合规性。为提高模型的多语言能力和数据多样性,在预训练数据中分配大量非英语内容。
    • 训练过程:用AdEMAMix优化器和WSD学习率调度进行训练,确保训练的稳定性和效率。通过逐步增加上下文长度,使模型能处理更长的文本序列,支持长达65,536个标记的上下文。
    • 后训练(Post-Training):通过指令微调和对齐训练,用QRPO算法优化模型的行为,使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。

    Apertus的项目地址

    • 项目官网:https://www.swiss-ai.org/apertus
    • HuggingFace模型库:https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
    • 技术论文:https://github.com/swiss-ai/apertus-tech-report

    Apertus的应用场景

    • 多语言对话系统:适用构建多语言聊天机器人、客服系统等,为用户提供跨语言的交流和信息获取服务。
    • 代码生成与辅助:根据自然语言描述生成代码片段,帮助开发者快速实现编程任务,提高开发效率,适用于软件开发辅助工具。
    • 教育与学习辅助:生成教育内容、解答学术问题、提供学习建议等,用于在线教育平台、智能辅导系统等教育场景。
    • 内容创作:协助创作文本内容,如撰写文章、故事、新闻报道等,为内容创作者提供灵感和写作辅助。
    • 翻译服务:用在翻译任务,提供文本翻译服务,支持跨语言的信息传播和交流。