《Manus没有秘密》简介
《Manus没有秘密》由明浩老师撰写的解读 AI Agent 的70页PPT,主要介绍了 AI Agent(智能体)技术从L1到L3的过程,探讨了 AI Agent 的定义、实现原理、使用体验以及未来的发展趋势。通过对Manus等Agent产品的分析,深入讨论了AI技术的现状、挑战和未来方向。(文末附逐字稿)
《Manus没有秘密》由明浩老师撰写的解读 AI Agent 的70页PPT,主要介绍了 AI Agent(智能体)技术从L1到L3的过程,探讨了 AI Agent 的定义、实现原理、使用体验以及未来的发展趋势。通过对Manus等Agent产品的分析,深入讨论了AI技术的现状、挑战和未来方向。(文末附逐字稿)
通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用24.1亿古籍语料进行无监督训练,结合400万古籍对话数据进行指令微调。模型采用冗余度感知微调(RAT)技术,有效提升了古籍任务的性能。帮助用户更便捷地理解和翻译古籍文献。通过检索增强生成(CCU-RAG)技术,减少知识密集型任务中的幻觉问题,提高生成内容的准确性和可靠性。
涌墨是智能文档编写平台,为用户提供全流程、智能化、高质量的文档生成解决方案。通过一站式文档工作流,以项目为单位管理文档,覆盖全业务流程,帮助用户高效完成文档编写任务。平台提供25类符合软件行业国标的文档模板,支持智能解析功能清单树图,确保文档内容连贯性,避免信息重复和遗漏。涌墨支持灵活定制,用户可以根据项目需求修改功能清单和文档内容,满足个性化需求。
BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术,通过结合多视图图像扩散模型和控制网络(ControlNet),运用人体形状和姿态信息,自动生成与人体完美适配的3D可穿戴资产,如服装和配饰。 BAG的核心在于基于多视图生成器和3D扩散模型。首先通过多视图图像扩散模型生成与人体对齐的多视图图像,然后基于3D扩散模型将这些图像转化为3D资产。通过物理模拟和优化,生成的资产能自然地贴合人体,避免穿透问题。
WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。WebLI-100B的规模是之前最大视觉语言数据集的十倍,用海量数据提升模型对长尾概念、文化多样性和多语言内容的理解能力。研究者在构建时仅进行基本的数据过滤,保留尽可能多的语言和文化多样性。WebLI-100B的出现为训练更具包容性的多模态模型提供了重要的基础资源。
Meetily 是 Zackriya Solutions 推出的隐私优先的 AI 会议助手,能实时捕捉会议音频进行转录,同时自动生成会议总结和行动项。核心优势在于所有数据处理均在本地完成,确保会议内容的隐私性和安全性。Meetily 支持实时音频捕捉、区分不同说话人声音,内置知识图谱,方便跨会议的语义搜索。
Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。Sa2VA采用解耦设计,保留SAM2的感知能力和LLaVA的语言理解能力,引入Ref-SAV数据集,用在提升复杂视频场景下的指代分割性能。
LeetTools是高效的人工智能文档工作流工具,专为提升知识工作者的效率而设计。能自动从互联网收集信息生成高质量的文档,同时支持本地知识库的构建和管理。用户可以通过简单的关键词输入,快速生成分析报告、新闻聚合或专业文章,根据需求自定义文章结构和格式。
Matrix-Zero是昆仑万维推出的世界模型,包含两款子模型:3D场景生成大模型和可交互视频生成大模型。Matrix-Zero能将用户输入的图片转化为可自由探索的真实3D场景,支持不同风格的图片输入和风格迁移,具备全局一致性、动态场景生成等亮点。Matrix-Zero的可交互视频生成模型以用户输入为核心,支持视角和运动轨迹的精确控制,提供流畅的交互体验。Matrix-Zero世界模型预计4月份上线,对AI游戏生产、AI短剧生产和编辑等业务进一步赋能,为用户和开发者带来新的平台和工具。
最近用DeepSeek的时候,还没提几个需求呢,就开始“服务器繁忙,请稍后再试”,真是让人着急上火!
网上有很多用API调用R1的平台,虽然体验起来也不错,但是使用起来总感觉不如官网的R1,而且用不了联网搜索、上传文件的功能…
就在刚刚,我发现用 问小白 可以免费无限用满血版R1,联网搜索和上传文件功能都在!
测试了半天用下来,一点也不卡顿!
问小白官网:www.wenxiaobai.com
实测5个case
我特别喜欢DeepSeek的深度思考过程,比答案更有价值。问小白也保留了这一亮点。
当我想用测测运势:分析这个命盘,公历2000年6月14日晚8时,性别女,考虑身强身弱,分析大运流年和十神关系,体用平衡。注意逻辑合理,综合各种信息文本判断准确的关系模型,交叉验证,多次迭代后输出最终正确的结果。
它会先思考,分析问题、推理、交叉验证,再梳理成简要的结论。
问:你是谁?
官网DeepSeek会简洁的回复:我由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。
在问小白里,DeepSeek会在回答问题时,结合此时的时间,以确保回答的时效性和准确性。
问:帮我制定一份21天减脂计划,包含饮食和运动安排。
问小白的最强追问模型,在DeepSeek回答完问题后,自动生成3个相关的深度话题,帮助我了解更多有用的信息。
和官网一样,问小白的DeepSeek-R1也支持多模态,可以进行文档分析、图片分析等操作。
问小白的App客户端,只有41M。体验感也是相当不错,不卡顿、没有延迟,同样也是免费无限用的。
它支持语音输入,即使不会打字也能流畅使用。给出的回复结果也支持语音播放,中老年人、视障群体使用起来也很方便。
在哪里使用问小白
DeepSeek联网满血版
PC版的DeepSeek有两种形式。
进入首页,点击左侧列表中的DeepSeek 满血版,界面简洁、响应迅速,是丝滑的官方原版DeepSeek。
在各个应用商店,搜索问小白就可以下载到。
DeepSeek的实力毋庸置疑,现在通过问小白在PC端和移动端都能流畅使用,还完全免费!
快分享给你的好兄弟们,一起用起来。