Blog

  • mobile-use – 开源的移动端AI Agents,自然语言控制手机

    mobile-use是什么

    mobile-use是移动端AI Agents工具,支持自然语言控制Android和iOS设备,帮助用户操作手机。用户用日常语言下达指令,工具自动完成任务,如打开应用、填写表单、提取信息等。mobile-use能感知UI界面,智能导航,支持数据抽取和结构化处理。工具具有良好的可扩展性,支持配置不同的语言模型。mobile-use已在GitHub上开源,提供详细的使用指南和开发文档,方便开发者和用户快速上手。

    mobile-use

    mobile-use的主要功能

    • 自然语言交互:用户通过自然语言指令控制手机,无需复杂操作。
    • 跨平台支持:兼容Android和iOS设备,覆盖广泛用户群体。
    • UI感知与自动化:自动识别和操作手机界面元素,实现智能导航。
    • 数据抽取与结构化:从应用中提取信息并转化为结构化数据,便于进一步处理。
    • 任务自动化:支持执行复杂任务,如填写表单、搜索信息等,提高效率。
    • 可扩展性:支持配置不同的语言模型,适应不同场景和需求。

    mobile-use的技术原理

    • 自然语言处理(NLP):用NLP技术解析用户指令,理解意图。
    • UI自动化框架:结合ADB(Android Debug Bridge)和XCUITest(iOS)等工具,实现界面元素的识别和操作。
    • 模型驱动架构:支持多种语言模型,如GPT-4,通过API调用实现智能交互。
    • 数据采集与处理:通过屏幕截图和OCR技术提取信息,并进行结构化处理。
    • 多模态融合:结合文本、图像等多种数据类型,提升任务执行的准确性和效率。

    mobile-use的项目地址

    • GitHub仓库:https://github.com/minitap-ai/mobile-use

    mobile-use的应用场景

    • 跨应用信息检索与分享:用户从微信中查找好友发送的地址信息,能在高德地图中打开该地址进行导航。
    • 社交媒体互动:在微博上搜索热门话题#人工智能#,关注相关博主,对博主的最新微博发表评论。
    • 视频平台操作:在B站搜索UP主的最新视频,打开播放完成在评论区的留言。
    • 日常任务自动化:打开支付宝,进入我的账单,查看本月的消费总额。
    • 中文应用操作:在小红书上搜索“上海迪士尼攻略”,查看点赞数最多的帖子,将内容保存到收藏夹。
  • ChatCut – AI视频剪辑工具,自然语言描述完成剪辑

    ChatCut是什么

    ChatCut是基于浏览器的 AI 辅助视频剪辑工具,能自动精准转录视频或音频素材,支持多语言,具备说话人分离和帧级时间码功能。用户能像编辑文本一样修改转录内容,通过拖拽顺序实时查看剪辑效果,能与 AI 助手交流协助剪辑。ChatCut支持多人远程协作,输出格式丰富,能与主流剪辑软件兼容,大大提高视频剪辑的效率和便捷性。

    ChatCut.io

    ChatCut的主要功能

    • 自动转录 :自动对上传的视频或音频素材进行高精度转录,支持近 100 种语言,能实现说话人分离和帧级精确时间码标注。
    • 文本化编辑 :用户能像编辑文档一样对转录文本进行修改、删除、拖拽排序等操作,实时看到对应的视频剪辑效果。
    • AI 助手 :通过聊天的方式向 AI 助手下达指令,如寻找特定主题、按主题组织内容、识别素材中的模式和结构,或根据用户的创意方向组合镜头序列等。
    • 时间轴编辑 :提供简单的一轨时间轴编辑器,方便用户在需要时进行精确的视频剪辑操作。
    • 远程协作 :支持多人远程登录并实时协作,团队成员能在浏览器中同时对同一个项目进行编辑和调整,提高协作效率。
    • 输出兼容 :支持输出或下载最终的视频文件,或输出 XML 文件,方便与 Adobe Premiere 和达芬奇等主流视频编辑软件进行后续编辑和进一步完善。

    如何使用ChatCut

    • 注册登录:访问 ChatCut.io 官网 https://www.chatcut.io/ ,完成账号注册并登录。
    • 上传素材:将视频或音频文件拖拽到上传区域,等待自动转录完成。
    • 编辑文本:在文本编辑界面,像编辑文档一样修改转录内容,拖拽文本段落调整剪辑顺序,实时查看视频预览。
    • 使用AI助手:在编辑界面输入指令,如“删除语气词”“按主题分段”,AI助手自动处理并更新视频。
    • 精细剪辑(可选):如有需要,用时间轴编辑器进行精确剪辑,如调整帧、添加转场等。
    • 协作(可选):邀请团队成员加入项目,多人实时协作编辑。
    • 输出下载:完成剪辑后,点击输出或下载按钮,选择视频或 XML 格式保存文件。

    ChatCut的应用场景

    • 纪录片制作:纪录片创作者快速从大量采访素材中提取关键信息,高效组织故事结构,节省剪辑时间。
    • 新闻报道剪辑:记者和编辑能迅速整理采访片段,精准定位新闻要点提升新闻传播效率。
    • 教育视频制作:教育工作者将教学讲解视频中的重点内容快速梳理,按照教学逻辑重新编排,制作成更易理解的教育视频。
    • 企业宣传视频:企业借助 ChatCut从产品介绍、客户访谈等视频素材中提取亮点,快速剪辑出吸引人的宣传视频,提升品牌形象。
    • 自媒体内容创作:自媒体创作者能快速剪辑出符合主题的视频内容,如 vlog、知识分享等,提高内容产出速度和质量。
  • InfinityHuman – 字节联合浙大推出的AI数字人视频生成模型

    InfinityHuman是什么

    InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等问题。在 EMTD 和 HDTF 数据集评估上,InfinityHuman 展示了卓越的性能,为虚拟主播、教育、客服等领域的应用提供新的可能性。

    InfinityHuman

    InfinityHuman的主要功能

    • 长时视频生成:能生成高分辨率、长时长的人体动画视频,保持视觉一致性和稳定性。
    • 自然手部动作:通过手部专属奖励机制,生成自然、准确且与语音同步的手部动作。
    • 身份一致性:利用姿态引导细化器和首帧作为视觉锚点,减少累积误差,保持人物身份的长期一致性。
    • 口型同步:确保生成的视频中人物的唇部动作与音频高度同步,提升真实感。
    • 多样化角色风格:支持不同风格的人物角色生成,满足多种应用场景的需求。

    InfinityHuman的技术原理

    • 低分辨率动作表示生成:模型通过音频驱动生成与音频同步的低分辨率动作表示(pose),相当于“打底稿”,确保全局节奏、动作和嘴型先对齐。
    • 姿态引导细化器(Pose-Guided Refiner):在生成低分辨率动作表示的基础上,模型用姿态引导细化器逐步生成高分辨率的视频。
      • 姿态序列:姿态序列作为稳定的中间表示,抵抗时间退化,保持视觉一致性。
      • 视觉锚点:首帧为视觉锚点,不断参照校正身份和画面,减少累积误差。
      • 手部奖励机制:通过高质量的手部动作数据训练,引入手部专属奖励机制,优化手部动作的自然性和与语音的同步性。
    • 多模态条件融合:模型融合多种模态信息,包括参考图像、文本提示和音频,确保生成的视频在视觉和听觉上的一致性和自然性。

    InfinityHuman的项目地址

    • 项目官网:https://infinityhuman.github.io/
    • arXiv技术论文:https://arxiv.org/pdf/2508.20210

    InfinityHuman的应用场景

    • 虚拟主播:虚拟主播能自然流畅地进行新闻播报、节目主持等,增强观众的观看体验,降低人力成本。
    • 在线教育:AI 教师边讲解知识边做出相应的手势,让教学过程更加生动形象,提高学生的学习兴趣和专注度。
    • 客服服务:数字客服在语音交流时能自然地做出回应动作,打破传统客服的机械感,提升客户满意度。
    • 影视制作:在动画电影、电视剧等影视作品中,快速生成高质量的长时人物动画,减少人工绘制和后期修复的工作量。
    • 虚拟社交:为虚拟现实(VR)和增强现实(AR)中的虚拟人物赋予自然的动作和表情,让虚拟社交更加真实和沉浸,增强用户之间的互动性。
  • OpenAI发布AI领导力指南《在AI时代保持领先》(PDF文件)

    《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南,能帮助企业领导者在AI时代保持竞争优势。指南指出AI技术发展迅猛,模型发布速度、成本降低和企业采用速度都远超以往。报告基于OpenAI与多家公司的合作经验,提出五个核心原则:对齐(Align)、激活(Activate)、放大(Amplify)、加速(Accelerate)和治理(Govern)。原则涵盖从战略制定到员工培训、从成功案例分享到项目快速推进及负责任的AI使用等多个方面,为企业在AI浪潮中脱颖而出提供清晰的行动框架和实践建议。

    获取 OpenAI 《在AI时代保持领先》报告PDF原文件 扫码关注回复: 20250904

    背景

    OpenAI 指出目前AI发展态势:

    • 顶级 AI 大模型的发布数量多5.6 倍。
    • 就在一年半的时间里,GPT – 3.5 级别模型的成本,降低了 280 倍。
    • AI 普及的速度,比当年普及电脑上网快了整整 4 倍。

    现实情况呈现出一种分裂态势,波士顿咨询发现,行动快的公司,收入增长已经是同行的 1.5 倍,麦肯锡的调查显示,有将近一半的员工觉得自己没人教、没人带,不敢、不会用 AI 工具。AI 创造了机会,也带来焦虑。OpenAI基于与Estée Lauder、Notion、San Antonio Spurs、BBVA等公司的合作经验,总结出五个核心原则。

    五个核心原则

    Align(对齐):统一思想,凝聚共识

    • 高管讲故事 :公司的管理层必须亲自站出来,用大白话跟所有员工讲清楚,为什么 AI 对公司的未来这么重要。是竞争对手已经全用上了?还是客户的要求变了?或者以前的赚钱方法不好使了?员工们听到一个想得很明白的 “为什么”,心里就有底了。
    • 设定全公司 AI 目标 :光有想法还不够,得有个大家都能看懂的目标。目标有很多种,比如开发新用法、看使用频率、鼓励多尝试等。关键是,要把目标写进公司的计划和 KPI 考核里,在全员大会、公司周报里反复说。
    • 领导带头用 :领导带头用,主要是为给大家 “祛魅”,让大家知道 AI 并不神秘。当员工看见财务总监都在用 AI 分析市场、看客户数据,员工心里的怀疑和害怕就会少很多。
    • 部门负责人具体落实 :部门负责人要经常跟自己的团队开小会,在会上别讲虚的战略,聊点实在的。比如 “我们部门能用 AI 做这几件事”,“大家觉得还有哪些地方能用上?”

    Activate(激活):赋能员工,激发动力

    • 搞一套正经的 AI 培训 :公司的人力资源部门应该牵头,设计一套跟岗位工作相匹配的培训课程。课程的目标是让员工从听懂 AI 是什么,变成能在自己的工作里熟练地用起来。
    • 找一批 “AI 积极分子” :公司里总有一批人,自己就对 AI 特别感兴趣。要把这些人找出来,更深入的培训,让他们成为公司内部的 “AI 老师”。
    • 让 “试一试” 变成常态 :创新都是试出来的。公司必须给员工创造可以放心试错的环境。比如,留出固定的时间,像每个月第一个周五是 “AI Friday”,大家放下手里的活,专门研究怎么用 AI 改进工作;搞点小型比赛,组织不需要写代码的 Hackthon,让不同部门的人组队,用现成的工具快速把 AI 的想法做成个样品。
    • 把 AI 贡献和升职加薪挂钩 :公司要把 AI 用得好不好,明确地跟员工的绩效和发展联系起来。比如在制定工作目标的时候,给不同岗位的人加上 AI 相关的任务;在提拔人、发奖金的时候,特意说说这个人在 AI 方面的贡献。

    Amplify(放大):共享经验,扩散成果

    • 建一个统一的 AI 知识库 :找个大家都能方便访问的地方,比如内部的共享文档系统,把所有跟 AI 有关的东西都放在那里。知识库里有培训材料和视频、各种比赛的日程和成果、公司用 AI 的规矩和安全手册、好用的案例和 Prompt 模板等。
    • 坚持分享成功的故事 :影响力是通过故事传播的。公司需要像做外宣公关一样,在内部不停地讲 AI 的成功案例。形式有很多种,比如定期的 AI 简报、内部的分享会、全员会议的固定环节等。
    • 搞一些活跃的内部社群 :光有正式的知识库还不够,需要有地方让大家随便聊。在公司的聊天软件里建一些 AI 交流群,或成立一个跨部门 “AI 小组”,让大家能随时交流想法。
    • 在团队内部也要多表扬 :除公司层面的宣传,各个团队的经理要经常在自己的部门会议上,表扬在 AI 上做得好的事情。来自直属领导的肯定,信号作用很强。

    Accelerate(加速):优化流程,快速迭代

    • 让大家能方便地用到工具和数据 :系统基础设施跟不上,是现在很多公司用 AI 的大问题。越来越多的公司开始给员工更大的权力,让员工自己去推荐和挑选觉得好用的 AI 工具,提高生产力速度就快多了。
    • 建立一套清晰的 AI 项目申请和评估流程 :公司需要设计一个简单、透明的流程。让团队很方便地提交 AI 项目的想法,很快得到反馈,且清楚地知道公司是怎么评估想法的。
    • 成立一个能拍板的跨部门 “AI 委员会” :为打破部门之间的墙,公司需要一个有足够权力的跨部门领导小组。领导小组由高管牵头,成员来自技术、法务、业务、数据部门,主要工作不是管事,而是 “通路”。
    • 让会赚钱的团队有钱继续花 :最直接的办法,就是奖励。如果哪个团队用 AI 给公司省钱,或提高效率,把省下来的资源,拿出一部分还给这个团队,让员工有钱有时间去做更多新的尝试。

    Govern(治理):规范发展,稳健前行

    • 写一本简单易懂的 “AI 安全手册” :公司要把复杂的规定,变成一套普通员工能看懂、能执行的行动指南。手册的核心,是要说清楚,哪些事是能放心试的,哪些事是需要向上报告的。大家在处理大部分日常工作时,不用每次都去找法务或者合规部门,效率自然就高了。
    • 定期检查和更新 AI 的规矩 :管理的规矩不能一成不变。公司每个季度都搞一次小规模的检查,看看当前的系统、流程和规矩还合不合适。检查的时候要从两个方面看,一方面规矩有没有保护好公司,另一方面是有没有不小心把创新的速度给拖慢了。

    总结

    整个指南的核心思想,就是用好 AI,技术问题在其次,关键是组织和文化的问题。OpenAI 推出的这套行动指南,是一套完整的公司变革方法论。描述了一个理想的 “AI 公司” 应该是什么样子。从上层到下级,目标一致;从个人到团队,技能匹配;从个例到体系,经验共享;从想法到落地,流程顺畅;从创新到运营,风险可控。一个企业,想要在 AI 变革中胜出,不能仅仅把 AI 当作又一个新工具,要真正把 AI 当作一种全新的工作方式。

    获取 OpenAI 《在AI时代保持领先》报告PDF原文件 扫码关注回复: 20250904

  • Super Agent Party – 开源3D AI桌面伴侣,全渠道一键部署

    Super Agent Party是什么

    Super Agent Party 是开源的3D AI桌面伴侣软件,将桌宠、智能助手、知识库、机器人控制等多种功能集于一体。用户能通过Docker或源码快速部署到Windows、macOS、Linux等系统。Super Agent Party 支持接入微信、QQ、B站直播等平台,具备联网能力、永久记忆、代码执行和多模态交互等功能。软件能作为可爱的桌面宠物,且能作为智能助手、知识秘书、游戏搭档、直播互动伙伴,是家庭物联网中枢,极大地提升了生活和工作效率,让“桌宠”从单纯的娱乐工具转变为生产力工具。

    Super Agent Party

    Super Agent Party的主要功能

    • 无缝能力增强:无需代码改造能实现LLM API企业级升级,无缝集成知识库、实时联网、永久记忆、代码执行、多模态交互等模块化功能。
    • 全渠道一键部署:支持快速部署到多种终端,如经典聊天界面、微信/QQ机器人、B站直播互动、VRM虚拟桌宠等场景。
    • 生态工具互联:支持接入第三方智能体与工作流,如ComfyUI/MCP/A2A等系统,实现跨平台能力聚合。
    • 标准化接口开放:提供OpenAI API兼容接口及MCP协议支持,便于开发者对接外部系统,实现快速转接与二次开发。
    • 全平台兼容适配:覆盖Windows、macOS、Linux原生运行环境,支持Docker容器化部署与Web端云服务。
    • 桌面伴侣与智能助手:在工作时,能像桌宠一样在屏幕上活动,且能随时回答问题、搜索资料、帮助查代码。
    • 社交媒体机器人:支持部署到微信/QQ群聊中,作为群管、答疑助手或娱乐互动机器人。
    • 直播互动伙伴:在B站直播间与观众互动,自动回答弹幕问题,并生成有趣评论或小游戏。
    • 智能家居中心:通过工具调用功能接入智能家居系统,实现语音/图像控制。

    Super Agent Party的项目地址

    • GitHub仓库:https://github.com/heshengtao/super-agent-party

    如何使用Super Agent Party

    • Docker部署
      • 安装Docker:确保系统已安装Docker。
      • 拉取并运行镜像
    docker pull ailm32442/super-agent-party:latest
    docker run -d -p 3456:3456 -v ./super-agent-data:/app/data ailm32442/super-agent-party:latest
      • 访问应用:浏览器访问 http://localhost:3456/
    • 源码部署
      • 安装依赖:确保系统已安装Node.js和npm。
      • 克隆项目
    git clone https://github.com/heshengtao/super-agent-party.git
    cd super-agent-party
      • 安装并启动
    npm install
    npm start
      • 访问应用:浏览器访问 http://localhost:3456/
    • 一键安装包
      • 下载安装包:从 GitHub Release页面 下载对应系统的安装包。
      • 安装并启动:按照安装包提示完成安装,启动应用。
    • 配置与使用
      • 配置文件:首次运行时,应用会生成配置文件,支持按需修改。
      • 连接平台:通过配置文件或界面,连接微信、QQ、B站直播等平台。
      • 使用功能:在应用界面使用知识库查询、联网搜索、代码执行等功能。

    Super Agent Party的应用场景

    • 桌面伴侣:作为3D桌面宠物,陪伴用户工作或娱乐,提供个性化装饰和智能助手功能。
    • 社交媒体机器人:作为互动机器人,自动回答问题、管理群聊或与观众互动。
    • 智能家居中心:通过语音或图像控制家中的智能设备,如灯光、温度等。
    • 虚拟角色养成:打造具有独特性格和外观的AI搭档,长期陪伴并参与游戏世界。
    • 知识秘书:接入外部知识库和实时联网搜索,提供丰富的背景知识和最新信息,帮助用户快速获取知识。
  • 叠叠社 – AI虚拟陪伴应用,以AI弹幕形式出现

    叠叠社是什么

    叠叠社是脸谱心智公司推出的AI虚拟陪伴应用,以AI弹幕形式出现在用户桌面,能感知用户行为并互动,如提醒朋友生日、聊天等。叠叠社核心理念是通过AI帮助用户建立真实的人际关系,应用结合记忆技术和多模态交互,提供贴心陪伴,适用于Windows、Android等平台。产品目标是成为连接虚拟与现实的桥梁,帮助用户更好地回归现实,建立真实社交。

    叠叠社

    叠叠社的主要功能

    • 智能感知与互动:实时感知用户行为和情绪,根据不同场景提供贴心互动和支持。
    • 社交辅助与拓展:通过提醒重要社交事件、推荐聊天话题和潜在人脉,帮助用户更好地维护和拓展社交关系。
    • 个性化陪伴:支持用户定制AI的虚拟形象、性格和记忆功能,打造独一无二的专属陪伴体验。
    • 生活助手:提供信息查询、日程管理和娱乐互动功能,全方位助力用户的日常生活和工作。

    如何使用叠叠社

    • 访问官网:访问叠叠社官网 https://nijigen.com.cn/,根据系统下载对应客户端。
    • 注册与登录:按要求完成账号注册和登录
    • 个性化设置:根据你的喜好,设置外观和风格。
    • 调整性格和偏好:选择AI的性格特点(如温柔、幽默、严肃等),并设置兴趣爱好,以便AI更好互动。
    • 使用核心功能:通过智能感知、社交辅助、个性化陪伴和生活助手功能,享受全方位的AI服务。

    叠叠社的应用场景

    • 学习场景:在学习时帮助用户更高效地完成学习任务。
    • 工作场景:在工作时提高工作效率,确保工作顺利进行。
    • 休闲场景:在休闲时为用户提供娱乐互动,帮助放松心情,缓解压力。
    • 社交场景:在社交时帮助用户更好地与他人交流,拓展人脉,维护良好的人际关系。
  • Orca – UCSD推出的Agent浏览器

    Orca是什么

    Orca是加州大学圣地亚哥分校的研究者推出的智能体浏览器,将网页视为可塑材料,浏览器作为可塑空间,通过AI辅助实现用户驱动的大规模浏览。用户能在无限画布上并排查看多个网页,AI智能体负责处理重复性任务,如点击按钮、填写表单等。Orca支持大规模查看、管理、导航、提取信息,支持用户灵活组织网页。Orca降低了多页面管理成本,激发用户探索欲,增强用户对信息来源的控制力和信任感。

    Orca

    Orca的主要功能

    • 多页面空间化管理:Orca浏览器支持将多个网页以空间化的方式排列在画布上,用户能自由地拖拽、缩放网页,实现并排查看和全局概览,方便进行多页面的比较和整合。
    • AI智能体自动化操作:浏览器内置的AI智能体能够自动执行诸如点击按钮、填写表单等重复性任务,帮助用户减少手动操作,提高浏览效率。
    • 大规模信息快速提取:用户通过自然语言指令,从多个网页中快速提取关键信息,信息将以统一的小卡片形式显示在每页上面,便于快速扫描和比较。
    • 情境扩展与批量导航:Orca能基于当前页面的内容,为用户提供自动的情境扩展建议,帮助用户快速发现相关网页;且能批量打开多个符合条件的链接,加速信息探索过程。
    • 动态工作区定制:浏览器支持用户根据自己的任务需求,将网页组合成一个定制化的动态工作区,支持实时并行查看、灵活提取和动态重组网页内容。

    Orca的官网地址

    • 官网地址:https://orca.jiang.pl/
    • arXiv技术论文:https://arxiv.org/pdf/2505.22831

    如何使用Orca

    目前Orca浏览器处于开发阶段,可访问Orca官网 https://orca.jiang.pl/,加入等待名单。

    Orca的应用场景

    • 旅行规划:并排查看多个旅行预订网站,提取关键信息,助力快速筛选合适选项。
    • 学术研究:研究人员同时打开多数据库,用智能体辅助下载和提取摘要,提升研究效率。
    • 新闻阅读:用户比较多新闻网站报道,通过指令提取关键信息,实时查看动态更新。
    • 市场调研:调研人员能收集多平台数据,提取整合关键数据,提高数据收集和分析效率。
    • 项目管理:项目经理能并行查看多项目网页,整合信息生成报告,借助智能体执行重复任务。
  • Apertus – 瑞士开源的首个大规模语言模型

    Apertus是什么

    Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心(CSCS)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70B和8B两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构,基于新的xIELU激活函数和AdEMAMix优化器。模型完全开放,模型权重、数据和训练细节,用户能在自己的服务器上使用,保持数据控制权。

    Apertus

    Apertus的主要功能

    • 文本生成:根据用户输入的提示生成连贯、相关的文本。
    • 多语言支持:支持超过1811种语言,包括许多此前在LLM中被低估的小语种。
    • 透明性和开放性:模型权重、数据和训练细节完全公开,用户能在自己的服务器上使用。
    • 长上下文处理:支持长上下文处理,适用于复杂的任务。

    Apertus的技术原理

    • 模型架构:Apertus用仅密集解码器Transformer架构,模型有8B和70B两种规模,分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,提升模型效率和长上下文处理能力。
    • 预训练目标:用Goldfish目标函数,通过随机掩盖部分标记,防止模型学习精确的上下文映射,有效抑制逐字回忆,同时保留下游任务性能。预训练数据完全来自公开可用的来源,尊重内容所有者的退出意愿,避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
    • 预训练数据:Apertus在超过15万亿个标记的数据上进行预训练,涵盖超过1800种语言。数据来源多样,包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制,如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容,确保数据的合规性。为提高模型的多语言能力和数据多样性,在预训练数据中分配大量非英语内容。
    • 训练过程:用AdEMAMix优化器和WSD学习率调度进行训练,确保训练的稳定性和效率。通过逐步增加上下文长度,使模型能处理更长的文本序列,支持长达65,536个标记的上下文。
    • 后训练(Post-Training):通过指令微调和对齐训练,用QRPO算法优化模型的行为,使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。

    Apertus的项目地址

    • 项目官网:https://www.swiss-ai.org/apertus
    • HuggingFace模型库:https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
    • 技术论文:https://github.com/swiss-ai/apertus-tech-report

    Apertus的应用场景

    • 多语言对话系统:适用构建多语言聊天机器人、客服系统等,为用户提供跨语言的交流和信息获取服务。
    • 代码生成与辅助:根据自然语言描述生成代码片段,帮助开发者快速实现编程任务,提高开发效率,适用于软件开发辅助工具。
    • 教育与学习辅助:生成教育内容、解答学术问题、提供学习建议等,用于在线教育平台、智能辅导系统等教育场景。
    • 内容创作:协助创作文本内容,如撰写文章、故事、新闻报道等,为内容创作者提供灵感和写作辅助。
    • 翻译服务:用在翻译任务,提供文本翻译服务,支持跨语言的信息传播和交流。
  • Kimi K2-0905 – 月之暗面推出的最新AI模型

    Kimi K2-0905是什么

    Kimi K2-0905 是月之暗面科技有限公司推出的最新版 AI 模型,具备强大编程辅助能力,在代码生成、前端开发等方面表现出色,上下文长度扩展至 256K,支持复杂任务处理。模型高速版 API 输出速度达 60 – 100 Token/s,响应迅速。模型兼容 Anthropic API,支持 WebSearch Tool和更好的 Claude Code体验,提供自动 Context Caching,降低使用成本。用户现可通过 Kimi 应用网页版或开放平台体验。

    Kimi K2-0905

    Kimi K2-0905的主要功能

    • Agentic Coding 能力提升:在公开基准测试和真实编程任务中表现更佳,生成高质量代码,提升开发效率。
    • 前端编程体验升级:生成的前端代码更整洁、规范,支持更多框架和工具,增强实用性。
    • 扩展上下文长度:上下文长度从128K升级到256K,支持更复杂的长线任务,处理能力更强。
    • 高速版 API:支持高达60-100 Token/s的输出速度,显著提升响应速度,适合实时交互场景。
    • Kimi 开放平台支持:完全兼容Anthropic API,支持WebSearch Tool,提供自动Context Caching,降低使用成本。

    Kimi K2-0905

    Kimi K2-0905的项目地址

    • HuggingFace模型库:https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
    • ModelScope地址:https://www.modelscope.cn/models/moonshotai/Kimi-K2-Instruct-0905

    如何使用Kimi K2-0905

    • 方式一:Kimi 应用和网页版中的 K2 模型已全面升级至 0905 最新版,下载 Kimi 应用或访问 kimi 即可体验新版模型。
    • 方式二:Kimi 开放平台的 kimi-k2-0905-preview 模型 API 已全面上线,支持高达 60 – 100 Token/s 的高速版 API kimi-k2-turbo-preview,并完全兼容 Anthropic API。访问 Kimi 开放平台即可使用新模型 API。
    • 方式三:访问 Hugging Face 或 ModelScope 平台,搜索并下载模型,按照指南在本地环境中部署,开启 Kimi K2-0905 模型体验。

    Kimi K2-0905的应用场景

    • 创意写作:可以用在撰写文章、故事、诗歌等,提供创意灵感和文本生成。
    • 代码编程:增强的编程能力适合进行代码生成、代码审查和编程教育等任务,帮助开发者提高效率。
    • 数据分析:提供数据洞察和可视化结果,适用金融分析、市场研究等领域。
    • 教育辅导:在教育领域,作为教学辅助工具,帮助学生理解和学习复杂概念。
    • 客户服务:在客户服务领域,提供自动化的客户支持,解答常见问题,提高服务效率。
  • Midoo AI – AI语言学习Agent,动态生成学习路径

    Midoo AI是什么

    Midoo AI 是全球首个AI语言学习Agent,通过智能技术为用户提供个性化和沉浸式的语言学习体验。通过动态生成的学习资源和路径,替代了传统应用中固定、有限的内容,能根据用户的兴趣、学习进度和需求,实时生成高度个性化的学习内容。Midoo AI 构建了一个 MultiAgent+Workflow 系统,通过“事”“物”“人”三要素,提供沉浸式学习场景。在模拟餐厅点餐时,用户不仅可以与“服务员”对话,可以查看“菜单”,与“经理”互动。Midoo AI 提供情感和动机支持,通过挖掘用户的学习表现、日程规划和兴趣爱好,提供个性化的学习建议和情感支持,让学习过程不再枯燥。

    Midoo AI

    Midoo AI的主要功能

    • 动态个性化学习内容:根据用户的学习进度、兴趣爱好和具体需求,实时生成个性化的学习内容和路径,确保学习材料始终贴合用户当前的学习状态和目标。
    • 沉浸式学习场景:构建了 MultiAgent+Workflow 系统,通过“事”“物”“人”三要素,提供沉浸式学习场景。用户可以在模拟的真实环境中与 NPC 进行互动,增强学习的趣味性和实用性。
    • 情感和动机支持:通过分析用户的学习表现、日程规划和兴趣爱好,提供个性化的学习建议和情感支持,帮助用户保持学习动力,让学习过程更加温暖和有趣。
    • 智能对话引擎:提供实时的智能对话功能,帮助用户在自然的语言交流中提升语言能力,纠正错误提供即时反馈,确保学习效果。
    • 知识图谱与记忆管理:利用知识图谱跟踪用户的学习进度和知识掌握情况,通过微干预帮助用户巩固记忆,避免遗忘,实现长期有效的学习。

    Midoo AI的官网地址

    • 官网地址:https://www.midoo.ai/

    Midoo AI的应用场景

    • 日常口语练习:用户可以通过与 AI 进行对话,练习日常口语交流,提升语言流利度和自信心。
    • 商务语言学习:针对商务场景,如会议、谈判、客户接待等,提供专业词汇和表达方式的练习,帮助用户在商务场合中更自如地使用目标语言。
    • 旅行语言准备:为即将出国旅行的用户提供实用的旅行语言学习,包括点餐、问路、购物等常见场景的对话练习。
    • 学术语言提升:帮助学生和研究人员提升学术写作、演讲和讨论的能力,适应学术环境的语言要求。
    • 兴趣爱好交流:根据用户的兴趣爱好,如电影、音乐、体育等,提供相关话题的对话练习,让用户在感兴趣的主题中学习语言。
    • 备考辅导:为语言考试备考者提供针对性的练习和模拟测试,帮助用户熟悉考试格式和提升应试技巧。