Skip to main content

Author: Chimy

Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型

Embodied Reasoner是什么

Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基于模仿学习、自我探索和自我修正的三阶段训练方法,生成多样化的思考过程(如情境分析、空间推理、自我反思等),基于交互历史和空间布局进行高效规划和推理。在AI2-THOR模拟器的多种任务中,Embodied Reasoner显著优于现有的视觉推理模型,在复杂长时序任务中表现出色,减少重复搜索和逻辑不一致问题。

Embodied Reasoner

Embodied Reasoner的主要功能

  • 视觉搜索与目标定位:在复杂环境中搜索隐藏或暴露的物体,根据任务要求定位目标。
  • 推理与规划:基于生成多样化的思考过程(如情境分析、空间推理、自我反思等),制定高效的行动策略。
  • 行动执行:根据推理结果执行相应的动作,如导航、抓取、放置等,完成任务。
  • 自我修正与学习:基于反思和自我修正机制,避免重复搜索和逻辑不一致问题,提升任务成功率。
  • 复杂任务处理:擅长处理长时序、多步骤的复合任务。

Embodied Reasoner的技术原理

  • 数据引擎:通过任务模板和场景元数据自动生成任务指令和对应的“观察-思考-行动”轨迹,包含丰富的思考过程和交互图像。
  • 三阶段训练
    • 模仿学习:在合成的轨迹上进行微调,学习基本的交互技能。
    • 自我探索(拒绝采样):基于采样和评估生成的轨迹,增强模型的探索能力。
    • 自我修正(反思调整):注入异常状态和反思修正错误,提升模型的自适应能力。
  • 多模态交互:结合视觉输入(图像)和语言输出(思考和动作),实现高效的环境交互和任务完成。
  • 推理机制:基于生成长思考序列,模拟人类的推理过程,提升模型在复杂任务中的表现。

Embodied Reasoner的项目地址

Embodied Reasoner的应用场景

  • 智能家居:帮助用户在家中寻找物品、操作家电。
  • 仓储物流:在仓库中自动寻找、搬运货物,优化仓储管理。
  • 医疗辅助:协助医护人员在医院或养老院中寻找和整理物品。
  • 工业自动化:在工厂中完成复杂的操作任务,如零件搬运和设备维护。
  • 教育与研究:作为教育工具帮助学生理解任务规划,或用在研究人机交互和机器人智能。

喵记多 – 快手旗下轻雀科技推出的AI笔记工具

喵记多是什么

喵记多是快手旗下轻雀科技开发的AI笔记工具,通过AI助手“喵仔”为用户提供便捷的笔记记录、待办提醒和信息管理服务。用户可以通过与“喵仔”聊天的方式快速记录文字、图片、文件等内容,将其转化为笔记。用户能设置待办事项,通过智能提醒功能避免遗忘重要任务。

喵记多

喵记多的主要功能

  • 智能笔记记录:用户可以通过与AI助手“喵仔”聊天的方式快速记录文字、图片、文件等内容,并将其转化为笔记。
  • 待办事项管理:支持添加待办事项,并设置提醒时间,确保用户不会遗忘重要任务。
  • 笔记管理与分类:用户可以为笔记设置标签、进行分类整理,并通过关键词搜索快速查找所需内容。
  • 图片搜索与管理:支持图片搜索功能,方便用户查找所需图片资料。
  • 互动式体验:用户可以与“喵仔”互动,增加使用乐趣,还能通过提升亲密度获得更贴心的服务。
  • 智能提醒功能:可以为待办事项设置推送提醒,确保用户不会错过重要任务。

如何使用喵记多

  • 访问平台:访问喵记多的官方网站,根据手机型号选择扫码下载APP应用,或iOS访问苹果AppStore应用商店下载。
  • 打开应用:打开喵记多的应用,注册或登录。
  • AI笔记记录:用户可以通过与AI助手“喵仔”聊天的方式快速记录文字、图片、文件等内容。发送网页超链接给“喵仔”,会自动爬取网页内容并生成笔记。在聊天中长按消息,点击“喵记一下”即可将消息转化为笔记,方便后续查看和编辑。
  • 待办事项管理:在与“喵仔”的对话中输入“提醒 + 提醒时间 + 事项”即可创建待办事项。回复“我的待办”或“待办列表”,“喵仔”会列出所有未来待提醒的待办事项。
  • 笔记管理:用户可以为笔记设置标签、分类整理,方便查找和管理。支持关键词搜索,快速定位所需笔记内容。笔记支持导出为长图、PDF,或拷贝为文本,方便分享。
  • AI助手互动:用户可以与“喵仔”聊天,增加亲密度,享受更贴心的服务。“喵仔”可以帮忙找图、管理便签,还能回答问题。

喵记多的应用场景

  • 课堂笔记整理:学生可以在课堂上通过语音输入或文字输入的方式,快速记录重点内容。课后可以与AI助手“喵仔”互动,进一步整理和复习笔记。
  • 资料收集与整理:在学习过程中,用户可以将碎片化的文字、图片、文件等发送给“喵仔”,通过“喵记一下”功能将这些内容转化为笔记。
  • 会议记录与整理:在会议中,用户可以通过语音输入快速记录会议要点。会后,“喵仔”可以帮助整理会议记录,生成清晰的笔记。
  • 任务规划与提醒:上班族可以用“喵记多”设置待办事项,指定提醒时间。通过与“喵仔”对话,用户可以随时查看待办事项列表,确保任务按时完成。
  • 灵感记录:当用户在生活中突发灵感时,可以通过语音或文字快速记录下来。灵感可以随时查看和整理,方便后续进一步发展。

SUAPP AI – 为建筑设计行业打造的AI设计渲染工具

SUAPP AI是什么

SUAPP AI(灵感AI)是为建筑设计行业打造的 AI 工具,是 SketchUp 的中文门户网站,主要用在建筑设计、室内设计、景观设计等领域。基于AI技术帮助设计师快速生成设计渲染、意向图、动画视频、三维模型,支持提供智能问答服务。SUAPP AI支持丰富的插件扩展,满足从概念设计到施工图制作的多样化需求。工具渲染效果逼真,结合VR等技术能实现沉浸式体验,是设计师和专业人士进行创意表达和项目展示的重要工具。

ai.suapp

SUAPP AI的主要功能

  • 图生图(灵感渲染):基于图像生成图像,支持局部重绘、图片拼贴、涂鸦手绘、魔法消除等功能,快速生成高质量渲染效果。
  • 文生图(灵感意向):根据文本描述生成意向图,帮助设计师快速收集灵感。
  • 图生视频(灵感动画):将静态图像生成动态视频,增强设计展示效果。
  • 图片建模(灵感建模):基于图片快速生成三维模型,减少建模时间。
  • AI对话(灵感助手):提供智能问答和设计建议,辅助设计流程。

如何使用SUAPP AI

  • 在线使用
    • 访问网站:访问SUAPP AI的官方网站,按提示完成注册和登录。
    • 选择工具:在网站上选择,需要的功能,如图生图、文生图、图生视频等。
    • 上传或输入内容:如果是图生图或图片建模,上传相关图片。如果是文生图,输入描述文本。
    • 生成结果:点击“生成”按钮,AI自动处理生成结果。
    • 保存或分享:生成结果后,下载保存或直接分享给他人。
  • SketchUp插件使用
    • 安装插件:在SketchUp官方下载地址下载插件并安装。
    • 打开SketchUp:启动SketchUp软件。
    • 上传或选择内容:在插件界面上传图片或选择模型。
    • 设置参数:根据需求调整参数,如风格、材质等。
    • 生成结果:点击“生成”按钮,AI将在插件中直接生成结果。

SUAPP AI的应用场景

  • 建筑设计:快速生成建筑意向图和初步渲染效果,辅助方案构思与展示。
  • 室内设计:快速建模、替换材质、调整空间氛围,优化室内设计方案。
  • 景观设计:生成场地模型,快速添加景观元素,提升设计效率。
  • 项目汇报:将静态图生成动态视频,提升图像质量,增强展示效果。
  • 创意激发:基于AI对话获取设计灵感和建议,辅助设计流程。

钛投标 – AI标书生成工具,自动解析招标文件生成精准标书

钛投标是什么

钛投标是专为智能化行业设计的AI标书智写工具。通过AI技术快速解析招标文件,精准提取关键信息。结合自有库与通用库双库联动,一键生成高质量标书。智能排版功能可按需定制,确保标书规范美观。钛投标提供数据加密存储与权限管理,保障用户信息安全。

钛投标

钛投标的主要功能

  • AI智能解析:自动提取招标文件中的关键信息,确保生成的标书内容精准高效。
  • AI一键生成:结合自有库与通用库双库联动,能快速生成标书内容。
  • AI智能排版:根据用户需求定制排版,标书更加规范且可控。
  • 数据加密存储与权限管理:采用多重加密保护,严格遵循数据隐私法规,确保用户数据安全。

如何使用钛投标

  • 注册账号:访问钛投标的官方网站,注册或登录,可享受限时半年免费使用。
  • 上传资料或填写需求:输入项目要求或调用已有数据。
  • 智能生成标书:AI自动解析、生成并排版完成。
  • 下载与提交:预览审核后直接下载,支持一键提交。

钛投标的应用场景

  • 智能化行业招投标:适用于智慧城市、智能制造、物联网、AI应用等企业。
  • 项目竞标提案制作:快速应对招标响应。
  • 政企合同文件编制:满足政策法规遵从、行业标准高的文档要求。
  • 企业内部资源管理:通过自有库、通用库数据管理,提高文档资料的规范性与时效性。

Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型

Ev-DeblurVSR是什么

Ev-DeblurVSR是中国科学技术大学、合肥综合性国家科学中心人工智能研究所和新加坡国立大学联合推出的视频画面增强模型,能从低分辨率且模糊的视频输入中恢复出高分辨率、清晰的视频。Ev-DeblurVSR引入事件相机捕获的事件信号,用高时间分辨率和丰富的运动信息增强视频的去模糊和超分辨率性能。Ev-DeblurVSR的核心包括互惠特征去模糊模块(RFD)和混合可变形对齐模块(HDA),分别用在帧内去模糊和帧间对齐。Ev-DeblurVSR在多个数据集上表现出色,优于现有方法,尤其在真实数据上,具有更高的准确性和更快的处理速度。

Ev-DeblurVSR

Ev-DeblurVSR的主要功能

  • 模糊视频超分辨率处理:将低分辨率且模糊的视频帧恢复为高分辨率且清晰的图像。
  • 基于事件相机数据辅助:借助事件相机捕捉的高时间分辨率和亮度变化信息,恢复丢失的运动细节和纹理。
  • 抗运动模糊和高动态范围:有效减少运动模糊,保留高对比度区域的细节,适用于运动场景和低光照场景。
  • 提供开发和测试支持:开源代码,提供预训练模型、测试数据集和脚本,方便开发者快速上手和验证效果。

Ev-DeblurVSR的技术原理

  • 事件信号的分类与利用
    • 帧内事件(Intra-frame Events):记录视频帧曝光时间内的运动信息,用在去模糊帧特征。
    • 帧间事件(Inter-frame Events):记录帧与帧之间的连续运动轨迹,用在时间对齐。
  • 互惠特征去模糊模块:基于帧内事件的运动信息去模糊视频帧特征,将视频帧的全局场景上下文信息反馈到事件特征中,增强事件特征的表达能力。基于多头通道注意力机制和交叉模态注意力机制实现帧与事件特征的互惠增强。
  • 混合可变形对齐模块:结合帧间事件和光流信息,用事件的连续运动轨迹和光流的空间信息,改善可变形对齐过程中的运动估计。基于事件引导对齐(Event-Guided Alignment, EGA)和光流引导对齐(Flow-Guided Alignment, FGA)两种分支实现对齐,用可变形卷积网络(DCN)完成最终的特征对齐。
  • 边缘增强损失函数:基于事件信号中的高频信息对像素重建误差进行加权,让模型更关注边缘和高频区域的恢复,提高恢复视频的细节和清晰度。

Ev-DeblurVSR的项目地址

Ev-DeblurVSR的应用场景

  • 视频监控:提升模糊监控视频的清晰度,帮助更准确地识别细节。
  • 体育赛事:清晰还原快速运动场景,改善裁判判罚和观众观赛体验。
  • 自动驾驶:减少摄像头拍摄的模糊画面,为自动驾驶系统提供更清晰的环境感知。
  • 影视制作:修复拍摄条件不佳导致的模糊画面,提升影视作品质量。
  • 工业检测:改善因高速运动或设备抖动导致的模糊影像,提高工业检测的准确性。

NodeRAG – 开源基于异构图的智能检索与生成系统

NodeRAG是什么

NodeRAG 是基于异构图的检索增强生成(Retrieval-Augmented Generation,RAG)系统。通过构建包含多种节点类型的异构图,将文档信息和语言模型生成的见解整合在一起,支持多跳检索和细粒度信息提取。NodeRAG 的异构图包含实体、关系、语义单元等多种节点类型,能实现上下文感知的检索,显著提升检索准确性和效率。支持增量更新,能动态适应数据变化,通过优化算法提高检索速度和性能。

NodeRAG

NodeRAG的主要功能

  • 多跳信息检索:NodeRAG 通过构建异构图,支持多跳信息检索。能从多个节点中提取和整合信息,解决复杂的查询任务,例如在多文档问答(Multi-document Question Answering)中,NodeRAG 可以通过多跳检索找到分散在不同文档中的相关信息,生成准确的答案。
  • 细粒度信息提取:NodeRAG 的异构图包含多种节点类型(如实体、关系、语义单元等),能对信息进行细粒度的分类和组织。使系统可以更精准地检索和提取相关信息,提高了检索结果的可解释性。
  • 增量更新支持:NodeRAG 支持异构图的增量更新,能动态地添加或修改节点和边。使系统能适应快速变化的数据环境,例如在新闻领域,新的事件和信息可以及时被整合到图中,无需重新构建整个图结构。
  • 优化性能与效率:NodeRAG 在检索速度和存储效率方面进行了优化。通过高效的索引和查询算法,NodeRAG 能在大规模数据集上快速检索信息,减少存储成本。
  • 可视化与用户界面:NodeRAG 提供了友好的可视化界面和完整的 Web UI,用户可以通过图形化的方式探索和管理异构图。
  • 上下文感知生成:NodeRAG 的生成模块能利用异构图中的上下文信息,生成更准确、更连贯的文本内容。结合了检索到的信息和语言模型的生成能力,能生成高质量的文本输出,例如新闻摘要、问答回答等。
  • 灵活的部署与扩展:NodeRAG 支持通过 Conda 和 PyPI 安装,用户可以轻松部署本地 Web 界面。NodeRAG 的架构设计能灵活扩展,支持多种语言和领域,适用于新闻、金融、医疗等多种应用场景。

NodeRAG的技术原理

  • 异构图结构设计:NodeRAG 的核心是一个异构图结构,通过集成多种类型的节点(如实体、关系、语义单元、属性、高级元素、高级概述和文本节点)来全面表示语料库中的知识。每种节点类型承担特定的角色和功能,共同构成一个功能强大且灵活的图结构。
  • 图构建过程:图构建分为三个主要步骤:
    • 图分解:使用大语言模型将文本块分解为语义单元、实体和关系等基本节点,构建初始的图结构。
    • 图增强:通过节点重要性评估(如K-core分解和介数中心性)和社区检测(如Leiden算法)等方法,进一步丰富图结构,增加高级元素和属性节点。
    • 图丰富:插入原始文本块并有选择地嵌入部分数据,使用层次导航小世界(HNSW)算法组织数据到多层图结构中,高效检索语义相似的节点。
  • 图搜索机制:NodeRAG 使用双搜索机制和浅层个性化PageRank(PPR)算法来实现高效检索:
    • 双搜索机制:结合标题节点上的精确匹配和富信息节点上的向量相似性搜索,识别图中的入口点。
    • 浅层PPR算法:通过模拟从入口点开始的有偏随机游走,识别相关节点,并通过早停策略限制迭代次数,确保相关性保持在局部范围内。
  • 增量更新机制:NodeRAG 支持增量式图更新,当有新的文档加入时,系统能智能地将新信息整合到现有图结构中,无需重建整个知识图谱。
  • 优化的稀疏个性化PageRank:NodeRAG 实现了一种优化的稀疏个性化PageRank算法,利用SciPy的稀疏矩阵计算能力,高效处理大规模图结构。使NodeRAG能在复杂的异构图上高效地进行节点重要性计算,为精准检索提供支持。

NodeRAG的项目地址

NodeRAG的应用场景

  • 学术研究:研究人员可以用 NodeRAG 整理文献数据,构建论文关系图。通过导入论文数据集,系统能提取关键词、作者、引用关系等信息,生成知识图谱。
  • 企业知识管理:企业可以用 NodeRAG 管理内部文档,构建知识库。通过导入技术文档、项目报告等,系统能生成文档关系图,帮助员工快速定位所需信息,提高知识共享效率。
  • 复杂知识领域的问答系统:在医学、法律、金融等专业领域,NodeRAG 的异构图结构能精确捕捉专业概念及其关系,提供更准确的问答支持。
  • 个性化推荐系统:NodeRAG 的异构图可以同时建模用户偏好、商品特性、评价情感等多种信息,通过图结构捕捉它们之间的复杂关系,提供更精准的推荐。
  • 数据分析与可视化:数据分析师可以用 NodeRAG 分析复杂数据集,如社交网络或客户关系数据。系统通过图可视化展示数据联系,帮助发现隐藏模式,适用于市场分析、风险评估或推荐系统开发。

妙问 – 腾讯广告推出的全能AI营销助手

妙问是什么

妙问是腾讯广告推出的全能AI营销助手,为广告主提供全方位的营销支持。支持7×24小时在线,能快速响应广告主的咨询,帮助解决从营销筹备、执行到复盘的全流程问题。妙问具备快问快答、深度营销分析和移动办公三大核心功能,提供实时数据融合的精准回答,支持全局账户扫描和爆款素材建议。妙问服务于广告主从营销筹备、执行到复盘全流程。

Tencent Advertising's Thought-Provoking Questions

妙问的主要功能

  • 快问快答:基于多模型支撑的营销知识库与实时数据融合,提供快速且精准的问题回复。
  • 深度营销分析:支持全局账户扫描,提供爆款素材裂变建议,帮助广告主优化营销策略,告别“玄学投放”。
  • 移动办公:支持用户在手机端随时随地查询数据和查看日报,方便管理和监控广告投放情况。
  • 广告审核与答疑:提供拒审答疑模块,快速告知广告被拒原因并给出修改建议,有效降低广告主与审核团队的沟通成本。
  • 素材创意与优化:一键查询行业Top素材,提供创意灵感和优化建议,帮助广告主精准捕捉用户喜好。
  • 实时数据查询:提供小时报、日报、时报,支持自定义数据指标,无需手动下载报表。
  • 多账户管理:支持最多500个账户的模糊搜索和数据聚合查询。
  • 广告诊断与优化:分析广告基础设置和效果数据,结合行业优秀案例,提供针对性的优化建议。
  • 营销复盘与洞察:基于大盘数据、竞品表现和多账户投放情况,提供深度营销复盘和洞察建议,助力广告主优化策略。

如何使用妙问

  • 微信搜索小程序:微信搜索腾讯广告妙问或妙问,找到小程序点击登录。不绑定广告账号支持解答广告知识类问题,绑定账号能查询数据/广告深度分析。
  • 投放端小程序:在【腾讯广告助手】小程序中点击底部第三个icon支持唤醒腾讯广告妙问。
  • PC端:腾讯广告投放端、工作台、服务商后台、腾讯广告的官方网站右侧企鹅悬浮图标、 chrome插件
  • 唤起妙问:进入腾讯广告妙问后,直接输入问题进行咨询。
  • 查询数据:绑定账户后,随时随地查数据、看日报。
  • 深度分析:基于腾讯广告妙问的深度营销分析功能,获取全局账户扫描和爆款素材建议。
  • 移动办公:在手机端使用妙问,便于在外出时管理广告投放。

Tencent Advertising's Thought-Provoking Questions

妙问的应用场景

  • 广告咨询:快速获取开户资质、政策和审核流程等信息。
  • 投放优化:实时指导和建议,帮助提升广告效果。
  • 效果分析:提供数据分析和报告,辅助广告复盘。
  • 移动管理:随时随地查看广告数据和日报,方便管理。
  • 全天候支持:7×24小时在线,随时解答广告相关问题。

Manus深度体验,10个Case告诉你通用型Agent能做什么

Manus自从一出来就是只亚于DeepSeek的流量榜眼,有说比肩DeepSeek,有说是AI Agent的GPT时刻,当初一个邀请码都能被炒到五万。

据知情人士消息, Manus AI近日完成一轮融资,由硅谷风投公司Benchmark 领投,融资金额达7500万美元(约合5.46亿人民币)。

本次融资让Manus AI的估值增长了约五倍,提升至近5亿美元(约合36.44亿人民币)。

虽然说Manus已经盛名在外,但是还是给没听过的友友们介绍一下:Manus与 ChatGPT等对话型AI不同,Manus的核心能力是将复杂任务拆解为可执行的小步骤,并调用工具(如浏览器、代码编辑器)自主完成全流程,最终直接交付给用户成果(如报告、PPT、数据分析图表)。

今天我就来测试一下,这个传说中的AI Agent流量王者的真实水准到底如何,大家拭目以待吧!

10个实测Case

01.思维导图

提示词:制作一个思维导图,主题是AI现在能代替人类做哪些事情。

结果:

我们可以看到Manus把我们的任务分成了7步,慢慢的一步一步调用不同的工具去完成。

完成的效果我觉得非常棒,这个思维导图从四个不同的维度展示了AI替代人类工作的全貌,真的算是非常全面了。

02.表格

提示词:找到目前最火的10个 AI 产品的官方数据和各种评测,并且根据各个 AI 产品的情况,生成各种排行榜,以表格形式展示。

结果:

当你输入提示词的时候最好勾选这个选项,这样Manus会通过给你一些选项来完善你的提示词,让最后的结果更接近你的预期。 

我让他把结果用表格显示,他直接给我超预期的结果,不仅有表格展示的各种排行榜(虽然是装在Word里的表格,不是Excel),还有一份研究报告,写的非常全面,看完就知道如何选择自己需要的大模型。

03.PPT

提示词:制作一份详尽的、可读性强的中文互联网的AI行业自媒体研报告,以 PPT 形式展示。

结果:

他帮我整了一篇19页的PPT,有市场规模与增长趋势分析,主要平台分析,内容创作者生态分析,商业模式与盈利方式分析,AI技术应用案例介绍和未来发展趋势。

全面还是挺全面的,就是这个PPT的排版有点问题,不知道是不是我提示词的问题。

04.文档

提示词:我是一个AI自媒体博主,我要发表一期主题为AI Agent的优势和不足的演讲,帮助我整理一份详尽的逐字稿,以文档形式展示。

结果:

这份文档结构和内容我觉得都不错,如果大家作为一个AI新手看这篇文章还是能学到很多东西的。而且我觉得他说的未来AI发展的几个点跟我内心中的想法有很大重合,我都怀疑他是不是监控我了。

05.公众号文章

提示词:我需要一篇关于AI Agent 起源、发展和未来展望的公众号文章,字数大概为一千五百,需要有一个标题党样式的标题。

结果:

说实话,他这个标题党当得不太称职,这种标题在现在的自媒体文章海洋里已经翻不起浪花了,标题党还得是我们这些博主来当。

这写的文章也有点水,感觉AI感还是有点重,属于是那种看了跟没看没啥区别的文章,太官方了,跟看文件似的。

06.网页

提示词:做一个美化二维码的网页,功能包括:

  • 根据给定的内容或者链接生成指定颜色和样式的二维码。
  • 用户可上传二维码来改变颜色和样式。

结果:https://xaplhfxg.manus.space

我觉得这个网页内容实现还是很不错的,基本提示词里的功能都实现了,就是输入框里输入内容后显示的颜色是白色,我还以为我没输入东西呢。

07.旅游规划

提示词:我在北京,我想去九寨沟旅游,去的日期为五月1日,回程日期为5月7日,大概预算为1万元,请提供详细的行程安排和一个简单的 HTML 旅行手册,包含地图、景点描述、必备的日语短语和我们整个旅程中可以参考的旅行小贴士。

结果:

这里发生了一个我觉得很好的事,就是他在跟我确认任务的细节时,我发现日用短语打成了日语短语,并且及时更改了过来,这个功能更让我喜欢了。

最后的成果我也很喜欢,细节拉满,从地图,到景点描述,再到具体行程和旅行小提示都有。如果接入MCP把具体坐什么哪趟,定哪个民宿都帮我搞定的话那就更好了。

08.教学演示

提示词:我是一名化学老师,正准备教授银镜反应。您能否创建一系列清晰准确的演示动画,并将它们整理成一个简单的 HTML 演示文稿?

结果:

生成过程中,Manus突然告诉我无法生成复杂的动画,希望用它找到的比较好的视频来替换。我估计是因为我的问题中涉及的动画太复杂了,我看别的博主做的动量守恒定律的动画它就能做出来。

不过它做不出来会问我是否用替代的方案的这个行为我觉得很好,因为很多AI都是闷头做,根本不管最后的东西到底能不能用。

09.股票分析

提示词:我想要一份茅台股票的全面分析,包括:

  • 概述:公司概况、关键指标、业绩数据和投资建议。
  • 财务数据:收入趋势、利润率、资产负债表和现金流。
  • 分析市场情绪:分析师评级、情绪指标和新闻影响。
  • 技术分析:价格趋势、技术指标和支撑/阻力水平。
  • 资产比较:市场份额和与主要竞争对手的财务指标对比
  • 投资价值:内在价值、增长潜力和风险因素
  • 投资论点:SWOT 分析和针对不同类型投资者的建议。

结果:

整篇文章比较全面的完成了我提示词里的内容,作为一个股市小白这篇文章应该够用吧,但是我觉得最好笑的是他在末尾加了一个免责声明:本报告仅供参考,不构成任何投资建议。投资者应根据自身情况做出独立判断,并承担相应的投资风险。

不会吧,不会吧!不会真有人因为普通AI生成的内容而改变自己的投资方向和数额吗??别真把AI当业内人士使用啊,现在AI还达不到那个水平。

10.科普讲解

提示词:请为我详细讲解上甘岭战役。

讲解的核心要求:以“战役报告”的方式描述战斗经过,并结合地图与地形可视化,使用具体的地图对战役的过程进行展示说明。

结果:

这篇讲解的文章真的很细致了,还配有每个阶段的作战过程图(不过我也看不懂就是了),但是文字内容很详实了,战役背景、参战部队编制、战斗经过、关键战斗点与地形分析、伤亡统计、战役影响与结论都有。我以前没咋了解过这场战役,但是看完后也大概了解了这一战役的过程。

总结

这10个Case测试下来,Manus确实挺让人惊艳的。

作为全球首款通用型AI Agent,它确实做到了更智能、更全面!

它不需要复杂、专业的提示词,还会通过“确认问题细节”精准了解我们的需求,自主完成任务拆解到交付的全流程。

Manus的突破不在于多模态能力,而在于实现了认知层面的质变。AI从被动响应的工具升级为主动执行的智能体

  • 多智能体写作系统:当其他Agent还在模仿人类操作时,Manus已构建起独特的“思考-验证-执行”闭环。
  • 深度工具链整合:Manus工具库支持200+种工具的智能调用,让它拥有完成信息搜集、写代码、数据分析等各类任务的能力。
  • 动态进化能力:用户反馈可及时优化模型策略。Manus采用分层记忆网络,在执行任务中实现跨项目经验复用。

如果Manus能持续优化执行能力,并拓展不可替代的应用场景,或将成为AI Agent商业化的重要里程碑。Gartner预测,2028年15%的日常工作决策将由智能体完成,而Manus的“数字实习生”角色正为这一未来铺路。

原文链接:Manus深度体验,10个Case告诉你通用型Agent能做什么?

Qwen3 – 阿里通义开源的新一代混合推理模型系列

Qwen3是什么

Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题。非思考模式模型提供快速、近乎即时的响应,适用于简单问题。Qwen3 支持 119 种语言和方言,相比前代的 29 种语言,语言能力大幅提升。Qwen3 优化了编码和 Agent 能力,支持 MCP 协议,能更好地与外部工具和数据源集成。Qwen3 的数据集规模达到约 36 万亿个 token,是 Qwen2.5 的两倍。采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。Qwen3 系列模型采用 Apache 2.0 协议开源,全球开发者、研究机构和企业均可免费下载并商用。

Qwen3

阿里巴巴最新开源的两款Qwen3系列模型,Qwen3-Embedding和Qwen3-Reranker。

Qwen3-Embedding:在多语言文本表征基准测试中,Qwen3-Embedding的性能非常出色。其中,8B参数规模的模型在MTEB多语言Leaderboard榜单中以70.58的高分位列第一,超越了众多商业API服务,例如谷歌的Gemini-Embedding。接收单段文本作为输入,取模型最后一层「EOS」标记对应的隐藏状态向量,作为输入文本的语义表示。适用于需要对文本进行语义表征的场景,如文本分类、聚类、相似度计算等,能够为下游任务提供高质量的文本特征。

Qwen3-Reranker:在基本相关性检索任务中,8B模型在多语言检索任务中取得了69.02的高分,在中文检索任务中得分达到77.45,在英文检索任务中得分达到69.76,显著优于其他基线模型。接收文本对(例如用户查询与候选文档)作为输入,利用单塔结构计算并输出两个文本的相关性得分。用于文本检索和排序任务,如搜索引擎中的结果排序、问答系统中的答案排序等,能够提升搜索结果的相关性和准确性。

Qwen3的主要功能

  • 混合推理模式:Qwen3 支持“思考模式”和“非思考模式”两种工作方式。思考模式适合复杂问题,模型会逐步推理后再给出答案;非思考模式提供快速、近乎即时的响应,适合简单问题。让用户可以根据任务的复杂程度灵活控制模型的推理过程,实现成本效益和推理质量的平衡。
  • 多语言支持:Qwen3 支持 119 种语言和方言,包括英语、法语、中文(简体和繁体)、粤语等,极大地拓展了其国际应用范围。
  • 增强的 Agent 能力:Qwen3 优化了编码和 Agent 能力,支持 MCP 协议,能与外部工具进行高效交互。结合 Qwen-Agent 框架,可以大大降低编码复杂性,实现高效的手机及电脑 Agent 操作等任务。
  • 多种模型配置:Qwen3 提供了多种模型配置,包括两个 MoE 模型(Qwen3-235B-A22B 和 Qwen3-30B-A3B)以及六个 Dense 模型(Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B),覆盖了从小型设备到大规模企业部署的各种场景。

Qwen3的技术原理

  • 大规模预训练:Qwen3 的预训练数据量达到约 36 万亿个 token,是 Qwen2.5 的两倍,涵盖了 119 种语言和方言。预训练过程分为三个阶段:
    • 第一阶段(S1):模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。
    • 第二阶段(S2):通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。
    • 第三阶段:使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。
  • 优化的后训练:为了开发能同时具备思考推理和快速响应能力的混合模型,Qwen3 实施了四阶段的训练流程:
    • 长思维链冷启动(Long Chain-of-Thought Cold Start):使用多样的长思维链数据对模型进行微调,涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域。
    • 长思维链强化学习(Reasoning-based Reinforcement Learning):利用基于规则的奖励来增强模型的探索和钻研能力。
    • 思维模式融合(Thinking Mode Fusion):在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。
    • 通用强化学习(General Reinforcement Learning):在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用强化学习,进一步增强模型的通用能力并纠正不良行为。
  • 多种模型配置:Qwen3 提供了多种模型配置,包括:
    • MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B。
    • Dense 模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。 覆盖了从小型设备到大规模企业部署的各种场景。
  • 性能优化:Qwen3 的性能大幅提升,同时部署成本大幅下降。例如,仅需 4 张 H20 即可部署满血版,显存占用仅为性能相近模型的三分之一。

Qwen3的项目地址

Qwen3的性能效果

Qwen3 在多个基准测试中表现出色,例如:

  • AIME25:Qwen3 获得了 81.5 分,刷新开源纪录。
  • LiveCodeBench:Qwen3 超过 70 分,表现甚至超过 Grok3。
  • ArenaHard:Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

Qwen3的应用场景

  • 文本生成:Qwen3 能生成连贯、自然的长文本,适用于自动化写作、新闻生成、博客文章创作等任务。可以基于给定的提示生成完整的文章或故事。
  • 机器翻译:Qwen3 支持 119 种语言和方言,在多语言翻译任务中表现出色。可以处理多种语言对之间的翻译任务,提供高质量的翻译结果。
  • 法律文书自动生成:Qwen3 可以生成合同、法律意见书、诉讼文书等法律文件。通过在法律领域的语料进行微调,Qwen3 能生成符合法律规定、格式化的文书。
  • 技术文档编写:Qwen3 能生成详细的技术文档、产品说明、用户手册等。通过在技术领域的语料进行微调,Qwen3 可以帮助开发人员和技术支持团队自动化生成符合行业标准的文档。
  • 医疗领域:Qwen3 可以用于生成医学报告、诊断建议等。通过在医学文献、病历等数据上的微调,Qwen3 能生成符合医学标准的专业报告。可以辅助医生在诊断过程中自动生成病例记录。
  • 法律领域:Qwen3 通过微调法律领域的文献、判例和法规,可以生成高度专业化的法律文件。

Yourware – AI网页构建平台,一键将网页代码快速上线

Yourware是什么

Yourware 是提供快速部署工具的在线平台,支持 HTML、CSS、JavaScript 和 React 等前端技术。基于一键部署功能,让用户轻松将网页代码快速上线,无需复杂的云服务或 GitHub Pages 等操作。Yourware 提供一键美化、作品集展示和权限控制等功能,帮助用户优化网页视觉效果、集中展示创作成果、保护隐私。平台汇聚了全球创作者的优秀作品,为用户提供学习和交流的社区环境。Yourware 是开发者和创作者展示作品、快速迭代项目的理想工具,尤其适合个人开发者和小型团队。

Yourware

Yourware的主要功能

  • 一键部署:支持上传 HTML、CSS、JS 文件或直接复制代码,快速生成网页上线。
  • 作品集管理:支持用户登录平台,集中展示自己的作品,基于个人主页分享。
  • 权限控制:为分享的网页设置访问权限,如加密网页。
  • 一键美化:点击按钮即能优化网页视觉效果,生成新的美化页面。

Yourware的官网地址

如何使用Yourware

  • 访问平台:访问 Yourware 的官方网站,按提示完成登录和注册。
  • 上传代码或文件
    • 拖拽上传:将 HTML、CSS、JS 文件或包含这些文件的文件夹(总大小小于 10MB)拖拽到上传区域。
    • 复制粘贴代码:直接将 HTML、CSS 或 React 代码复制到输入框中。
  • 一键部署:点击“Deploy Code”按钮,Yourware 自动处理生成一个网页链接。
  • 预览和分享:点击生成的链接,预览网页。将链接分享给他人,或保存到自己的网站或社交媒体。

Yourware的应用场景

  • 个人作品展示:快速部署个人项目,集中展示作品集,方便分享。
  • 团队开发协作:加速团队迭代,快速部署测试版本,提高开发效率。
  • 教学与学习:方便教师部署教学案例,学生上传作业,助力教学互动。
  • 创意与原型设计:快速将创意转化为网页原型,展示给客户或团队。
  • 社区交流学习:浏览全球创作者作品,获取灵感,参与社区互动。