Blog

  • Plantin – AI植物识别应用,能检测植物病虫害提供治疗建议

    Plantin是什么

    Plantin是AI植物识别与护理应用。支持识别16000多种植物,包括花卉、树木、蔬菜等,识别准确率高达95.8%。用户只需上传植物照片,可快速获取植物的名称、生长习性、护理需求等详细信息。Plantin具备疾病诊断功能,能检测植物的病虫害并提供治疗建议,同时会根据植物种类和环境提供个性化的浇水、施肥、光照等护理指南。设有毒性警告功能,帮助用户识别有毒植物,保障家人和宠物的安全。

    Plantin

    Plantin的主要功能

    • 植物识别:支持识别16000多种植物,涵盖花卉、树木、蔬菜、蘑菇等。用户可通过拍摄照片或上传图片进行识别,操作简单便捷。
    • 智能检测:能快速检测植物的病虫害问题,识别准确率高。
    • 专业建议:提供详细的治疗建议,帮助用户解决植物健康问题。
    • 个性化护理建议:根据植物种类、生长环境和需求,提供浇水、施肥、光照等护理建议。
    • 提醒功能:设置护理提醒,帮助用户按时完成浇水、修剪等操作。
    • 毒性警告:识别有毒植物并发出警告,保护用户及其家人和宠物的安全。
    • 光照测量:测量空间内的光照强度,与植物的光照需求进行对比。
    • 杂草识别:帮助用户识别花园中的杂草,提供控制或清除建议。

    Plantin的官网地址

    Plantin的应用场景

    • 室内植物爱好者:帮助用户识别家中的植物,提供个性化的护理计划,包括浇水、施肥、光照等建议,能设置提醒功能,确保植物得到及时的照料。
    • 新手园丁:为初学者提供全面的养护指导,从植物识别到疾病诊断,再到专家建议,帮助他们快速上手。
    • 景观设计师:在进行景观设计时,快速识别植物种类,了解生长习性和护理需求,更好地选择和搭配植物。
    • 徒步旅行者:在户外徒步时,用户可以使用 Plantin 识别遇到的各种植物,增加对自然的了解。
  • ScholarCopilot – 滑铁卢与卡内基梅隆大学联合推出的AI学术写作助手

    ScholarCopilot是什么

    ScholarCopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队开发的专为学术写作设计的人工智能工具,基于 Qwen-2.5-7B 模型,通过动态检索引用和联合优化生成与引用的方式,能精准地生成带有准确引用的学术文本。在文本生成过程中,ScholarCopilot 会插入特殊的检索标记 ,通过该标记查询引用数据库,将检索到的引用内容整合到后续生成中,提高引用的准确性和文本的连贯性。

    ScholarCopilot

    ScholarCopilot的主要功能

    • 语境感知续写:基于已有内容预测接下来的三句话,确保逻辑连贯,例如自动扩展文献综述章节。
    • 章节自动生成:输入关键词,AI 生成完整章节框架,支持调整学术风格,如实证分析或理论推导。
    • 多语言支持:支持中英文混合写作,适合国际期刊投稿。
    • 动态检索增强:写作中插入标记,AI 实时从 50 万篇 arXiv 论文库中检索相关文献,准确率超 40%。
    • 一键插入引用:支持 APA/MLA 等多种格式,自动生成 BibTeX 条目,节省整理时间。
    • 溯源验证功能:点击引用直接跳转原文,确保每一条参考文献真实可查。
    • 博士团队训练数据:基于 Qwen-2.5-7B 模型,在专业学术语料上微调,生成文本的学术严谨性评分达 2.87/5,远超同类工具。
    • 错误自检系统:自动标记疑似“幻觉内容”,提示用户手动复核,如矛盾数据、未验证结论。

    ScholarCopilot的技术原理

    • 动态检索标记:在文本生成过程中,ScholarCopilot 会动态判断何时需要引用文献,生成一个特殊的检索标记。这一标记触发模型暂停文本生成,实时检索学术数据库中的相关文献。
    • 联合优化生成与检索:检索到的文献内容(如摘要或关键段落)会被直接融入后续的文本生成步骤中。通过这种方式,模型能生成高质量的学术文本,确保引用的准确性和相关性。
    • 对比学习优化:检索标记的表示通过对比学习进行优化,使模型能高效地进行相似性搜索,进一步提升检索的准确率。
    • 引用准确性提升:ScholarCopilot 的 top-1 检索准确率达到了 40.1%,显著优于传统方法如 E5-Mistral-7B-Instruct(15.0%)和 BM25(9.8%)。
    • 生成质量优化:在 1000 个学术写作样本数据集上,ScholarCopilot 在相关性、连贯性、学术严谨性、完整性和创新性五个维度上的综合评分达到 16.2/25,超越了参数更大的模型。
    • 训练与数据:ScholarCopilot 基于 Qwen-2.5-7B 模型,训练数据集包含来自 arXiv 的 500K 论文。通过联合优化文本生成和引用检索任务,模型在效率和准确性上都得到了显著提升。

    ScholarCopilot的项目地址

    ScholarCopilot的应用场景

    • 学术论文撰写:ScholarCopilot 专为学术写作设计,能显著提升撰写论文的效率和质量。通过“边生成、边检索”的动态机制,在生成文本时实时判断何时需要引用文献,自动检索相关文献。
    • 引言和相关工作部分:ScholarCopilot 在撰写论文的引言和相关工作部分时表现尤为出色。能自动预测接下来的几句话,根据上下文提供精确的引用建议。
    • 学术写作教学与培训:ScholarCopilot 可用于学术写作的教学和培训。帮助学生和新手研究人员掌握学术写作的技巧和规范,快速上手撰写高质量的学术论文。
    • 科研团队协作:对于科研团队,ScholarCopilot 可以共享学科知识库,帮助团队成员快速搭建论文框架。特别是对于新加入的成员,能快速上手领域综述写作,提升团队整体的写作效率。
    • 期刊审稿:ScholarCopilot 提供的溯源验证功能,使期刊审稿人能一键验证参考文献的真实性。
  • Fourier N1 – 傅利叶推出的首款开源人形机器人

    Fourier N1是什么

    Fourier N1 是通用机器人公司傅利叶发布的首款开源人形机器人。身高1.3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,兼具强度与灵活性。搭载的FSA 2.0一体化执行器和自研控制系统,最高稳定奔跑速度可达3.5米/秒,具备单足站立及撑地爬起等高难度动作能力。背部插拔式电池设计可实现2小时以上续航,满足高频测试与便捷部署需求。

    Fourier N1

    Fourier N1的主要功能

    • 运动控制功能:全身拥有23个自由度,可模拟人体的各个动作,能够实现15°~20°坡度斜坡通行、20厘米高度楼梯攀爬、单足站立及撑地爬起等高难度动作,展现出卓越的本体可靠性与在非结构化场景下的运动鲁棒性。
    • 多模态交互功能:具备多模态交互能力,能很好地理解和响应语音、视觉及触觉等多种输入方式,极大提升了人机互动的自然性与流畅感。
    • 开源共享功能:同步开放涵盖物料清单、设计图纸、装配指南、基础操作软件在内的完整本体资源包,未来还将逐步开放针对该平台的推理代码与训练框架,为全球开发者提供更加完善的验证与开发环境。

    Fourier N1的技术原理

    • 高自由度设计:Fourier N1 全身拥有23个自由度,能模拟人体的复杂动作,在运动时展现出高度的灵活性和适应性。
    • 自研动力系统:搭载傅利叶自研的 FSA 2.0 一体化执行器,结合自研控制系统,提升了运动的稳定性与抗冲击能力,实现了更高精度的位姿控制。实测最高稳定奔跑速度可达3.5米/秒,展现出卓越的动态响应能力。
    • 运动算法验证:研发阶段,Fourier N1 历经长周期、高强度的运动算法验证,核心控制系统在响应速度、精度控制及抗干扰能力等关键性能上,均达到了预期技术标准。在工程验证环节,N1 已累计完成超过1000小时的户外复杂地形测试,单次连续运行时间超过72小时,全面验证了其结构设计的稳定性、耐久性与环境适应性。同时,N1 可稳定实现15°~20°坡度斜坡通行、20厘米高度楼梯攀爬、单足站立及撑地爬起等高难度动作,展现出卓越的本体可靠性与在非结构化场景下的运动鲁棒性。

    Fourier N1的项目地址

    Fourier N1的应用场景

    • 教学工具:Fourier N1 是一个理想的教学工具,学生可以通过实际操作,直观地理解机械结构、电路和编程等科学知识。
    • 患者辅助:Fourier N1 可能被用于患者辅助,例如帮助患者进行康复训练、协助行动不便的患者完成一些日常活动。
    • 物料搬运与检测:凭借其出色的运动能力和灵活性,N1 可以承担物料搬运、包装和检测等工作。
    • 家务助手:家庭用户可以通过自定义开发,让 Fourier N1 承担打扫、日常协助等任务。
    • 复杂地形作业:在灾难救援中,Fourier N1 凭借其出色的地形适应能力,能够进入危险区域进行搜索和救援工作。
  • 明岐 – 上海交大推出的医学多模态大模型,精准诊断罕见病

    明岐是什么

    明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影像、病历文本及化验指标等数据,为医生提供高精度、可解释的诊断支撑。在克罗恩病等消化道罕见病诊断中,准确率超92%,超越专科高级医生水平。明岐基于模型蒸馏和量化技术,大幅降低算力需求,实现低成本、本地化部署,助力医疗资源下沉,为解决中国医疗资源不平衡问题带来新可能。

    mingqi

    明岐的主要功能

    • 精准诊断:整合多模态数据(影像、病历、化验指标),实现罕见病(如克罗恩病)的高精度诊断,准确率超92%。
    • 可解释性:将诊断过程可视化,提供推理依据和相似病例对比,增强医生信任。
    • 多专家协作:模拟多位专家的诊断思路,综合多方意见,提升诊断全面性和准确性。
    • 本地化部署:降低算力需求,实现低成本、安全的本地化运行,满足数据隐私要求。

    明岐的技术原理

    • 双引擎驱动架构
      • 大模型能力矩阵:基于大规模预训练模型,学习海量医疗数据中的特征和模式,为罕见病诊断提供强大的基础能力。
      • 专家路由协同:模拟多位专家的诊断思路,将不同专家的经验和知识融入模型中,实现多专家协作诊断。
    • 多模态深度学习:整合医学影像(如CT、MRI、内镜图像等)、病历文本(如病史、症状描述等)和化验指标(如血液、生化指标等)等多模态数据。基于深度学习算法,提取多模态数据中的关键特征,实现对罕见病的综合诊断。
    • 透明诊断舱机制:将诊断过程中的每一步骤和推理逻辑可视化呈现,医生清晰了解AI的诊断依据。提供相似病例库对比,帮助医生快速定位疑似病变区域,增强诊断的可解释性。
    • 模型蒸馏与量化:基于模型蒸馏技术,将复杂的预训练模型压缩为更小、更高效的模型,降低算力需求。基于量化技术,进一步优化模型的运行效率,在低成本的硬件设备上高效运行。

    明岐的项目地址

    明岐的应用场景

    • 罕见病精准诊断:辅助医生快速、准确诊断罕见病,缩短确诊时间。
    • 基层医疗赋能:为基层医院提供低成本、高效的诊断服务,缓解专家资源紧张。
    • 教学与科研支持:助力医学教学与科研,提升诊断能力,推动技术发展。
    • 远程医疗服务:结合远程医疗,为偏远地区患者提供远程诊断,提高医疗可及性。
    • 医疗数据管理:整合多模态数据,便于存储、查询和分析,挖掘疾病风险因素。
  • 幕布 – AI大纲笔记工具,一键生成思维导图

    幕布是什么

    幕布是AI大纲笔记工具,通过清晰的结构化大纲形式,帮助用户将零散的知识点系统化,一键生成思维导图的功能,能让复杂的信息以直观的图形呈现,帮助用户快速理清思路,提升理解和记忆效率。幕布支持多平台使用,包括iOS、Android、macOS、Windows和Web等,数据云端同步,方便用户在不同设备上随时查看和编辑。

    幕布

    幕布的主要功能

    • 大纲笔记:幕布的核心功能是大纲笔记,用户可以将各种知识和信息以层级结构的形式记录下来,形成清晰的知识体系。
    • 一键生成思维导图:用户可以将大纲笔记一键转换为思维导图,直观地展示知识之间的逻辑关系和层级结构。有助于快速理清思路,更好地理解和记忆知识。
    • 任务拆解与规划:对于复杂的工作任务或项目,幕布可以帮助用户将其拆解为多个子任务,通过层级结构进行规划和管理。用户可以清晰地看到每个任务的先后顺序和依赖关系,更高效地推进工作。
    • 团队协作与共享:幕布支持多人协作编辑,用户可以将文档分享给团队成员,共同进行内容的编辑和修改。这种协作功能可以提高团队的工作效率,促进团队成员之间的沟通和协作。
    • 丰富的模板库:幕布提供了多种预设模板,涵盖学习、工作、生活等多个场景。用户可以根据自己的需求选择合适的模板,快速开始笔记或规划。
    • 多平台支持与云端同步:幕布支持iOS、Android、macOS、Windows和Web等多个平台,并且数据可以实时同步到云端。用户可以在不同设备上随时查看和编辑自己的笔记。
    • Markdown语法支持:幕布支持Markdown语法,用户可以使用Markdown语法进行快速编辑,如加粗、斜体、插入链接等。

    如何使用幕布

    • 访问官网:访问幕布的官方网站 ,注册或登录。
    • 新建文档:登录后,点击页面上的“新建文档”按钮,创建一个新的大纲笔记。
    • 选择模板:幕布提供了丰富的模板库,涵盖学习、工作、生活等多个场景。点击“使用模板”,选择一个适合你需求的模板,快速开始。
    • 添加主题:在文档中,点击“+”按钮或直接按回车键,即可添加一个新的主题。输入主题内容后,按回车键换行,继续添加子主题。
    • 一键生成思维导图:完成大纲编辑后,点击页面右上角的“思维导图”按钮,可将大纲内容一键转换为思维导图。
    • 编辑思维导图:在思维导图模式下,可以对节点进行拖动、调整位置、添加新节点等操作,进一步优化思维导图的布局。

    幕布的应用场景

    • 整理复习要点:学生可以将课程知识点、考试重点等内容整理成大纲形式,方便复习和记忆。例如在准备考试时,将各章节的知识点逐层拆解,形成清晰的复习框架。
    • 制定学习计划:根据学习进度和目标,制定每日、每周的学习计划,将任务分解为具体的子任务,按部就班地推进学习。
    • 撰写工作汇报:在准备工作汇报时,先用幕布梳理汇报的思路和要点,确定汇报的结构和内容,确保汇报条理清晰、重点突出。
    • 会议记录与整理:在会议中,快速记录会议的关键要点、讨论结果和后续任务,会后可以将会议记录整理成大纲或思维导图,方便团队成员回顾和跟进。
  • 如何用AI制作治愈系老奶奶文案和漫画?爆款流量教程

    你有没有刷到过这样的漫画:

    一脸慈祥的奶奶,配上暖心的文案。看得人心里暖暖的,仿佛充满了力量。

    流量、互动率都超级好,哐哐涨粉。

    治愈系赛道爆火的,不仅有老奶奶,还有老爷爷、蜡笔小新、哆啦A梦…

    IP形象在这个赛道仿佛并不是最重要的。

    温柔的画风和触动人心的文案才是流量密码。

    这样的漫画我们用AI批量制作,只需要简单的2步,非常适合新手起号。

    01

    批量生成爆款文案

    我们先整理一些热门的文案,发给豆包,让它学习并且生成相似风格的文案。

    输入提示词:某音、某书上 “治愈系文案” 很火,像 “往好处想,心态好,情绪好,运气就会跟着好”,请模仿这种温暖、生活化的风格,写10条关于人生态度的哲学语句。

    这样我们就获得了治愈语录文案。

    还可以让它换个主题。

    输入提示词:再写10条关于爱情的哲学语句。

    如果对生成的文案不太满意,可以让它再写10条。

    输入提示词:再写10条。

    02

    图文内容制作

    我们先下载一张治愈系漫画图片。把它发给豆包,让豆包帮我们根据图片写一段提示词。

    输入提示词:我要用AI工具画出这幅画,请帮我写出提示词。

    我们就得到了一段关于漫画的提示词:

    一幅卡通风格插画,画面中心是一位老奶奶,她留着灰色卷发,身着红色针织毛衣,双手托腮坐于椅上,面带温柔微笑,双颊带红晕。画面上方有手写风格的中文文字 “丫头,如果你也是容易内耗的女生”,旁饰红色爱心与星星。背景含木质架子,上放书籍、织物,旁有小盆栽,左侧有卡通企鹅形象。整体色调柔和,氛围温馨治愈,呈现出温暖安抚的感觉。

    我们观察一下豆包给出的提示词结构,它包含了画面风格+人物主体特征+文字的风格和内容+画面装饰+背景+整体色调氛围

    我们把人物、文字、背景的信息按照我们的想法调整一下,比如我想做一个可爱小女孩形象的漫画。

    打开即梦的AI作图,输入提示词:

    一幅卡通风格插画,画面中心是一个小女孩,她留着深咖色卷发,穿着淡黄色的连衣裙,双手托腮坐于椅上,面带温柔微笑,双颊带红晕。画面上方有手写风格的中文文字 “爱情像拼拼图,不必硬凑完美的形状”,旁饰红色爱心与星星。背景是春天的草地,零星盛开的黄色、粉色小花,蝴蝶飞舞。整体色调柔和,氛围温馨治愈,呈现出温暖安抚的感觉。

    生图模型选择最新的图片3.0。

    图片比例设置为3:2。

    选择立即生成。

    我们单击查看大图,选择一张觉得比较合适的,点击去画布编辑。

    在画布中点击右上角的下载,就可以保存无水印的图片啦。

    我们调整一下人物动作和文字内容的提示词,继续生成漫画的下半段。

    输入提示词:

    一幅卡通风格插画,画面中心是一个小女孩,她留着深咖色卷发,穿着淡黄色的连衣裙,快乐的奔跑着,面带温柔微笑,双颊带红晕。画面上方有手写风格的中文文字 “那些刚好契合的缺口,才是属于你们的独家答案”,旁饰红色爱心与星星。背景是春天的草地,女孩面前有一道美丽的彩虹,零星盛开的黄色、粉色小花,蝴蝶飞舞。整体色调柔和,氛围温馨治愈,呈现出温暖安抚的感觉。

    用同样的方法,选择一张比较合适的漫画保存下来。

    我们把两张图片拼在一起。是不是有治愈系漫画的味道啦~

    我们可以自己设计自己的专属IP,生成一系列的漫画。可以是一个懵懂的小女孩:
    可以是一只可爱的小猫咪:

    想要生成固定角色的系列漫画,我们在生成角色的时候可以尽量详细的描述,也可以给角色添加一些醒目的特点,比如白猫身上的粉色的蝴蝶结,让角色更有辨识度。

    你学会了吗?

    本文涉及的所有工具:

    豆包:https://ai-bot.cn/sites/4189.htm

    即梦:https://ai-bot.cn/sites/17772.html

    原文链接:https://mp.weixin.qq.com/s/tPutZ7yA65Vk2gZ6nfd1cA

  • 日日新SenseNova V6 – 商汤推出的多模态融合模型系列

    日日新SenseNova V6是什么

    日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列,基于6000亿参数的多模态MoE架构,实现文本、图像和视频的原生融合。日日新SenseNova V6在纯文本任务和多模态任务中表现卓越,多项指标超越GPT-4.5Gemini 2.0 Pro等模型。

    日日新SenseNova V6包含四个版本,SenseNova V6 Pro是6200亿参数的混合专家架构模型,支持实现文本、图像和视频原生融合,对标国际主流模型;SenseNova V6 Reasoner Pro具备推理能力,辅助解决复杂问题;SenseNova V6 Video专精视频理解,适用于教学、文旅等场景;SenseNova V6 Omni是轻量级全模态交互模型,提供实时互动体验。日日新SenseNova V6具备强推理、强交互和长记忆的特点,对中长视频进行推理和解析,在实时音视频交互中精准回答问题,提供情感化的表达。模型应用在教育辅导、具身智能等领域,为机器人提供大脑、眼睛、耳朵和嘴巴。

    SenseNova V6

    日日新SenseNova V6的主要功能

    • 视频处理与分析:支持对中长视频进行推理和解析。
    • 实时音视频交互:精准回答关于视频内容的问题,如人物关系、情节发展等。
    • 教育辅导:识别手写体,为小朋友辅导数学题,提供一对一的引导式讲解。
    • 情感理解与表达:具备高度拟人化的感知、表达和情感理解能力,根据不同对话内容和场景需求切换语气、情感与音调。
    • 具身智能:让机器人具备更强的感知和交互能力。

    日日新SenseNova V6的技术原理

    • 原生多模态融合训练技术:将文本、图像、视频、音频等多种模态信息在模型架构和训练过程中深度融合,避免传统方法中增强某一模态能力导致另一模态能力下降的问题,更好地处理复杂场景和捕捉跨模态的细节关联。
    • 多模态长思维链合成技术:基于多智能体协作,实现超长思维链的生成与验证,让模型具备长时间、多步骤的深度思考能力,适用于数学推导、科学分析、长文档理解等场景。
    • 多模态混合增强学习:基于人类偏好的RLHF和基于确定性答案的RFT,平衡模型的逻辑推理能力和情感表达能力,确保模型在提升推理能力的同时,自然表达情感。
    • 长视频统一表征和动态压缩:实现跨模态信息的高效对齐与压缩,将画面、语音、字幕、时间逻辑统一编码,形成连贯的时序表征,大幅提升处理效率。

    日日新SenseNova V6的项目地址

    日日新SenseNova V6的应用场景

    • 视频创作与分析:快速生成视频精华片段,剪辑特定场景并配解说和音效。
    • 教育辅导:辅导数学题,提供一对一讲解,帮助学生理解解题思路。
    • 智能客服:精准解答用户问题,提供个性化建议,提升用户体验。
    • 具身智能:为机器人提供感知和交互能力,应用在家庭、工业、医疗等场景。
    • 内容推荐:根据用户偏好推荐个性化视频、文章、音乐等内容。
  • BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

    BrowseComp是什么

    BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件,例如找出特定的足球比赛或电视剧角色等。在测试中,OpenAI 的 GPT-4o 和 GPT-4.5 准确率极低,最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,显示出在自主搜索、信息整合和准确性校准方面的优势。

    BrowseComp

    BrowseComp的主要功能

    • 复杂信息检索能力评估:BrowseComp 包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。这些问题需要 AI 代理在庞大的互联网空间中进行深度搜索,将潜在答案与问题中提出的复杂约束条件相匹配。
    • 问题设计严格把控难度:为了确保问题的高难度,数据师们通过三个主要检查点来严格把控:验证现有的模型(如 OpenAI 的 GPT-4o、GPT-4.5 和早期版本的 Deep Research)无法解决这些问题;进行五次简单的谷歌搜索,保证答案不会出现在搜索结果的第一页上;确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。
    • 答案验证的可靠性:尽管问题难度高,但答案是简短且明确的,易于通过参考答案进行验证。这种设计使基准测试既具有挑战性,又不失公平性。
    • 推动 AI 浏览代理技术发展:BrowseComp 的开源为 AI 浏览代理的研究提供了新的工具和方向,推动了更智能、更可靠的浏览代理的发展。

    BrowseComp的技术原理

    • 复杂问题设计:BrowseComp 包含 1266 个极具挑战性的问题,这些问题需要 AI 代理在互联网上进行多步推理和跨多个网站的信息检索。问题的设计目标是模拟现实世界中复杂的信息检索场景,要求 AI 代理能够处理难以获取且相互关联的信息。
    • 多源信息整合:AI 代理需要访问多个网站,整合不同来源的信息,才能找到问题的答案。例如,一个典型的问题可能需要代理访问体育赛事记录、裁判信息等多个网站,才能得出正确答案。
    • 推理与搜索策略:除了简单的信息检索,AI 代理还需要具备强大的推理能力,能根据检索到的信息进行逻辑分析和综合处理。例如,Deep Research 模型在 BrowseComp 中表现优异,因为能自主调整搜索策略,根据检索结果动态优化搜索路径。
    • 动态适应性:AI 代理需要具备动态适应性,能根据搜索过程中遇到的各种信息,快速做出反应并调整搜索策略。适应性使代理能在复杂的网络环境中更有效地找到目标信息。
    • 计算资源的影响:测试结果表明,增加计算资源可以显著提升 AI 代理在复杂网络浏览任务中的表现。更多的计算资源允许代理尝试更多的搜索路径,提高找到正确答案的概率。

    BrowseComp的模型性能

    • GPT-4o 和 GPT-4.5:两个模型在 BrowseComp 上的表现较差,准确率分别为 0.6% 和 0.9%。即使为 GPT-4o 启用浏览功能后,准确率也仅从 0.6% 提升到 1.9%。表明单纯赋予模型浏览能力,不能有效解决 BrowseComp 中的复杂问题。
    • OpenAI o1 模型:不具备浏览能力,但凭借较强的推理能力,准确率达到了 9.9%。说明推理能力在网络浏览任务中同样重要,即使无法直接从网络中检索信息,模型也可以通过对已有知识的深度推理来找到部分问题的答案。
    • Deep Research 模型:是 OpenAI 最新发布的 Agent 模型,在 BrowseComp 测试中表现最为出色,准确率高达 51.5%。模型能高效使用浏览工具,能对检索到的信息进行深度分析和综合处理。Deep Research 模型具备强大的适应性,能根据搜索过程中获取的各种信息迅速做出反应并调整搜索策略。

    BrowseComp的项目地址

    BrowseComp的应用场景

    • 企业知识库智能检索:可用于企业知识库的智能检索,如将大量研究文档转化为智能问答系统,提升了研发人员的信息查询效率。
    • 电商产品导购:在电商领域,可用于构建智能导购系统,帮助用户快速找到符合复杂需求的产品。
    • 政府信息公开服务:政府机构可以用于提供更高效的信息公开服务,帮助公众快速获取所需的政策、法规等信息。
    • 研究与开发:研究人员可用于测试和改进 AI 模型的推理和搜索策略,推动 AI 技术在信息检索领域的进一步发展。
  • FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

    FantasyTalking是什么

    FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

    FantasyTalking

    FantasyTalking的主要功能

    • 口型同步:能准确识别并同步虚拟角色的口型与输入语音,使角色在说话时的口型与语音内容完全一致,增强了角色的真实感和可信度。
    • 面部动作生成:根据语音内容和情感信息,生成相应的面部动作,如眨眼、皱眉、微笑等,使虚拟角色的表情更加丰富和生动。
    • 全身动作生成:能根据场景和情节需要,生成全身的动作和姿态,如行走、奔跑、跳跃等,使虚拟角色在动画中更加自然和流畅。
    • 运动强度控制:通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不仅限于唇部运动。
    • 多种风格支持:支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
    • 多种姿态支持:支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

    FantasyTalking的技术原理

    • 双阶段视听对齐策略
      • 片段级训练:在第一阶段,通过片段级训练方案,模型会捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。
      • 帧级训练:在第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
    • 身份保持:传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。更轻量级,能解放对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
    • 运动强度调节:FantasyTalking 引入了运动强度调制模块,能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵,不仅限于唇部运动。通过调节运动强度,可以生成更加自然和多样化的动画。
    • 基于预训练的视频扩散变换器模型:FantasyTalking 基于 Wan2.1 视频扩散变换器模型,基于时空建模能力,生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系,生成高质量的动态肖像。

    FantasyTalking的项目地址

    FantasyTalking的应用场景

    • 游戏开发:在游戏开发中,FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作,使游戏角色更加生动逼真,提升游戏的视觉效果和玩家的沉浸感。
    • 影视制作:在影视制作中,可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色,减少传统动画制作中的人力和时间成本,为影视作品增添更多的创意和想象力。
    • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,FantasyTalking 可以生成虚拟角色的交互动画和引导动画。
    • 虚拟主播:FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象,虚拟主播可以用于新闻播报、直播带货、在线教育等多种场景,具有较高的实用性和灵活性。
    • 智能教育:在智能教育领域,FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。
  • Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

    Kimi-VL是什么

    Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)。Kimi-VL支持单图、多图、视频和长文档等多模态输入,在图像感知、数学、多学科题目、OCR等任务中表现出色,尤其在长上下文(128K)和复杂推理方面有优势。在数学推理、长视频理解等任务中表现优异,超越GPT-4o等模型。Kimi-VL推出支持长思考的模型版本 Kimi-VL-Thinking,基于长链推理微调和强化学习,仅2.8B 激活参数,在较高推理难度的基准测试中,部分成绩接近甚至超过超大尺寸的前沿模型。

    Kimi-VL

    Kimi-VL的主要功能

    • 多模态信息输入:支持单图、多图、视频、长文档等多种输入形式。
    • 图像细粒度感知:对图像进行详细分析,识别图像中的复杂细节和场景。
    • 数学和逻辑推理:在多模态数学题目和逻辑推理任务中表现出色,支持结合视觉信息进行复杂计算。
    • OCR和文本识别:在光学字符识别(OCR)任务中表现优异,准确识别图像中的文字内容。
    • 智能体应用:支持Agent任务,如屏幕快照解析、智能体导航等,处理复杂的视觉和文本交互场景。
    • 长思考能力:Kimi-VL-Thinking版本在复杂任务中支持进行更深层次的推理。

    Kimi-VL的技术原理

    •  架构设计
      • 视觉编码器(MoonViT):基于400M参数的Vision Transformer架构,原生分辨率处理图像,无需对图像进行分割或拼接。引入NaViT中的打包方法,将图像划分为图像块,展平后串联成一维序列,与语言模型共享相同的算子和优化方法。
      • 多层感知器投影模块(MLP Projector):基于两层MLP桥接视觉编码器和语言模型。像素重排操作压缩图像特征的空间维度,投影到语言模型所需的嵌入维度。
      • 混合专家(MoE)语言模型(Moonlight):基于6B总参数、2.8B激活参数的轻量级MoE架构。从预训练阶段的中间检查点初始化,检查点已处理过5.2T token的纯文本数据,激活了8K的上下文长度。用混合训练方案,继续预训练2.3T token的多模态和纯文本数据。
    • 预训练阶段
      • 独立 ViT 训练:对视觉编码器进行独立训练,建立健壮的视觉特征提取能力。
      • 联合训练:包括预训练、冷却和长上下文激活三个阶段,同时增强模型的语言和多模态能力。
      • 后训练阶段:分别在32K和128K上下文中进行,进一步优化模型性能。用长链推理(Long-CoT)微调激活和增强长思考能力,基于强化学习进一步提升模型的推理能力。
    • 性能优化:基于128K的上下文窗口,在长文本和长视频中进行精准信息检索。原生分辨率编码器MoonViT在超高分辨率视觉任务中用户较低的计算开销保持高准确率。基于长思维链(Long CoT)激活和强化学习,Kimi-VL-Thinking在复杂任务中进行更深层次的推理。

    Kimi-VL的性能优势

    • 高智力:Kimi-VL在多模态推理和多步骤Agent任务中表现出色,文本处理能力也毫不逊色于纯文本语言模型。在MMMU、MathVista、OSWorld等基准测试中,Kimi-VL无需依赖“长思考”能力,取得令人瞩目的成绩,展现卓越的智能水平。
    • 长上下文:Kimi-VL拥有128K的超长上下文窗口,在处理长视频和长文档任务时,如LongVideoBench和MMLongBench-Doc基准测试,表现远超同级别其他模型,支持精准地检索和理解海量信息,为复杂任务提供更全面的上下文支持。
    • 更强的视觉能力:与其他开源视觉语言模型相比,Kimi-VL在视觉感知、视觉世界知识、OCR及高分辨率屏幕快照解析等多个视觉场景中,均展现出全面且显著的竞争优势。对复杂图像的细节捕捉和对视觉信息的深度理解,Kimi-VL都能精准高效地完成任务。

    Kimi-VL的项目地址

    Kimi-VL的应用场景

    • 智能客服:用在多轮对话,解答用户问题,支持图文结合的交互。
    • 教育辅导:辅助学生学习,提供图文并茂的解答和教学材料。
    • 内容创作:生成图文、视频内容,辅助视频编辑和创意生成。
    • 医疗辅助:分析医学影像,提供初步诊断建议和健康咨询。
    • 企业办公:处理长文档,提取关键信息,支持智能会议服务。