Blog

  • 星火代码画布 – 科大讯飞推出的AI编程工具

    星火代码画布是什么

    星火代码画布是科大讯飞推出的强大AI编程工具,通过简单的一句话描述、草图上传、链接参考或详细指令,能快速生成交互网页。用户无需具备专业编程技能,可实现从想法到网页的快速转化。产品经理可以用一句话生成职位详情页,设计师可通过上传草图生成界面demo,运营人员可参考链接复刻视觉风格。适用于工作场景或日常生活。让懂产品、懂运营、懂创意的人也能动手实现自己的想法。

    星火代码画布

    星火代码画布的主要功能

    • 一句话生成页面:用户只需输入简单的指令,如“为公司招聘官网创建一个职位详情页”,可快速生成专业的HTML页面。
    • 上传草图生成原型:用户可以上传手绘草图,星火代码画布能根据草图快速生成HTML+CSS页面,完美还原布局。
    • 参考链接复刻风格:用户提供参考页面链接,星火代码画布可生成具有相同视觉风格的新页面。
    • 精准还原UI细节:用户输入详细指令,星火代码画布能生成高质量的网页代码,满足对细节的高要求。

    如何使用星火代码画布

    • 访问网页版:访问讯飞星火网页版官网。
    • 点击代码生成:在左侧栏点击【代码生成】。
    • 输入描述或上传素材:通过简单的语音指令、草图、链接或一段文字描述,向星火表达你的想法。
    • 生成交互网页:星火代码画布会根据输入的内容快速生成交互网页。

    星火代码画布的应用场景

    • 快速生成职位详情页:HR或产品经理可以通过简单描述快速生成招聘官网的职位详情页,节省设计和前端开发的时间。
    • 制作产品演示页面:设计师可以上传手绘草图,快速生成产品原型的HTML页面,用于演示和评审。
    • 复刻特定风格的品牌页面:用户可以参考其他页面的风格,快速生成具有相似视觉效果的品牌形象页。
    • 生成高质量的官网首页:前端开发者可以通过详细指令生成符合设计要求的企业官网首页,提升开发效率。
    • 日常创意实现:用户可以利用星火代码画布生成个税计算器、生日祝福页面或小游戏等,满足个性化需求。
  • 7月热门通用Agent数据分析报告,Manus、Genspark等 (PDF文件)

    报告深入分析2025年7月热门通用Agent和浏览器Agent的市场表现,涵盖流量趋势、功能更新及投融资情况。通用Agent中,ManusGenspark流量稳定,功能更新频繁,MiniMax AgentSkywork流量增长显著。浏览器Agent方面,Perplexity CometFellou AIDia表现突出,流量和功能更新均表现强劲。报告探讨了各Agent的流量来源国别分布,揭示浏览器型Agent在推广速度和用户量级上的优势,为创业者和开发者提供宝贵的市场洞察和建议。

    2025年7月通用Agent与浏览器Agent市场分析报告

    获取《Manus、Genspark等通用Agent分析报告》报告PDF原文件

    扫码关注回复: 20250808

    通用Agent总体分析

    通用Agent的流量在3月至7月期间波动较大,但整体趋势较为稳定,浏览器型Agent的推广速度和用户量级显著高于其他类型,功能更新频繁是吸引用户的关键。

    Manus

    • 流量分析:Manus流量在7月底达到60万访问量,周末效应明显,显示出在办公场景中的稳定需求。
    • 功能更新:功能更新包括Wide Research和幻灯片主题定制功能,进一步增强产品的实用性和吸引力。
    • 投融资情况:估值5亿美元,ARR 1亿美元,最近融资7500万美元,显示出其在市场中的强劲竞争力。

    Genspark

    • 流量分析:Genspark流量稳定,每天20-30万访问量,显示出在市场中的稳定用户基础。
    • 功能更新:功能更新频繁,包括AI Slides 2.0和Slack集成,进一步提升用户体验。
    • 投融资情况:估值5亿美元,ARR 3600万美元,最近融资1亿美元,显示出在市场中的持续增长潜力。

    2025年7月通用Agent与浏览器Agent市场分析报告

    Skywork & 天工AI

    • 流量分析:天工AI在5月21日出现流量激增,当前访问量稳定在每天1-2万左右,显示出其在特定市场的吸引力。
    • 流量来源:流量主要来自中国,显示出在本地市场的强大用户基础。

    MiniMax Agent

    • 流量分析:MiniMax Agent在6月17日-24日迎来流量高峰,显示出在市场中的快速增长潜力。
    • 流量来源:功能更新频繁,流量主要来自中国和美国,显示出在多语言市场中的广泛吸引力。
    • 投融资情况:估值40亿美元,ARR 7000万美元,最近融资3亿美元,显示出在市场中的强大竞争力和增长潜力。

    纳米AI

    • 流量分析:纳米AI流量主要来自浏览器,月度访问量在60-80万之间,显示出在浏览器型Agent市场中的强大潜力。
    • 流量来源:功能更新较少,但流量主要来自中国,显示出在本地市场的稳定需求。

    Flowith

    • 流量分析:Flowith流量在5月18日爆发,7月有所减少,显示出在市场中的短期增长潜力。
    • 流量来源:功能更新频繁,流量主要来自美国和韩国。
    • 投融资情况:估值1亿美元,ARR 100万美元,最近融资1000万美元,显示出在市场中的持续增长潜力。

    浏览器Agent总体分析

    浏览器Agent的流量在3月至7月期间波动较大,但整体趋势较为稳定,功能更新频繁,流量来源国别分布广泛,显示出浏览器型Agent的市场潜力和用户需求的多样性。

    Perplexity Comet

    • 流量分析:Perplexity Comet流量在7月10日达到高峰,显示出其在市场中的快速增长潜力。
    • 功能更新:功能更新频繁,包括语音浏览和购物助手,进一步提升用户体验。
    • 投融资情况:估值180亿美元,ARR 1亿美元,最近融资1亿美元,显示出其在市场中的强大竞争力。

    Fellou AI

    • 流量分析:Fellou AI流量在5月3日达到高峰,7月流量稳定在每天1-2万,显示出在市场中的稳定用户基础。
    • 流量来源:功能更新频繁,流量主要来自印度和沙特。
    • 投融资情况:估值1亿美元,ARR 100万美元,最近融资1700万美元,显示出在市场中的持续增长潜力。

    Dia

    • 流量分析:Dia流量在6月10日达到高峰,7月流量稳定在每天3-4万,显示出在市场中的短期增长潜力。
    • 功能更新:功能更新包括@History功能,进一步增强产品的实用性和吸引力。
    • 投融资情况:估值5.5亿美元,ARR 1亿美元,最近融资5000万美元,显示出在市场中的持续增长潜力。

    Zen Browser

    • 流量分析:Zen Browser流量稳定,月度访问量在60-80万之间,显示出在浏览器市场中的稳定用户基础。
    • 流量来源:流量主要来自美国和印度。

    Opera Neon

    • 流量分析:Opera Neon流量在5月27日和6月10日两次爆发,日均流量1-2万,显示出在市场中的短期增长潜力。
    • 流量来源:功能更新较少,流量主要来自印度和美国。

    2025年7月通用Agent与浏览器Agent市场分析报告

    其他Agent

    其他Agent如Devin、Cluely、Lovart AI等流量表现各有特点,功能更新频繁,流量来源国别分布广泛,显示出多样化的产品策略和市场机会。

    Devin

    • 流量分析:流量稳定,单月流量30万左右,日均1-3万,显示出在浏览器Agent市场中的稳定用户基础。
    • 流量来源:功能更新频繁,流量主要来自美国和日本。

    Cluely

    • 流量分析:流量在6月19日快速增长,之后稳定在8-12万,显示出其在浏览器Agent市场中的短期增长潜力。
    • 流量来源:流量主要来自美国和印度。

    Lovart AI

    • 流量分析:流量在7月22日出现激增,7月末访问量每天10万左右,显示出其在浏览器Agent市场中的短期增长潜力。
    • 流量来源:流量主要来自中国和美国。

    Youware

    • 流量分析:流量在5月20日首次爆发,7月30日出现激增,显示出其在浏览器Agent市场中的短期增长潜力。
    • 流量来源:流量主要来自巴基斯坦和中国。

    Rosebud AI

    • 流量分析:流量近三个月稳定,单月流量在40-50万左右,显示出其在浏览器Agent市场中的稳定用户基础。
    • 流量来源:流量主要来自美国和印度,显示出在国际市场的吸引力。

    Trickle

    • 流量分析:流量近三个月呈增长态势,显示出在浏览器Agent市场中的增长潜力。
    • 流量来源:流量主要来自美国和泰国,显示出在特定市场的吸引力。

    2025年7月通用Agent与浏览器Agent市场分析报告

    Same.new

    • 流量分析:流量稳定,每天访问量2-3万,显示出其在浏览器Agent市场中的稳定用户基础。
    • 流量来源:流量主要来自印度和美国,显示出在国际市场的吸引力。

    获取《Manus、Genspark等通用Agent分析报告》报告PDF原文件

    扫码关注回复: 20250808

  • Machined AI – AI内容创作平台,自动完成多种创作任务

    Machined AI是什么

    Machined AI 是 AI 内容创作平台,专为高效生成高质量内容而设计,平台能在短时间内完成内容创作任务,包括撰写文章、构建内容集群、自动化关键词研究、内部链接和发布等。平台核心优势在于快速生成事实准确、引用权威的内容,支持与 WordPress、Webflow 等平台的无缝集成,提供个性化功能,如自带 API 密钥,帮助用户降低成本。Machined AI 是内容创作者和团队提升效率、建立内容权威的有力工具。

    Machined AI

    Machined AI的主要功能

    • 高效内容创作:自动生成高质量文章,包含最新事实和权威引用,支持自动生成封面图片、构建元数据并直接发布到网站。
    • 内容集群构建:几分钟内完成内容集群的创建,包括自动化关键词研究、内容内部链接和发布。
    • 深度研究与引用:基于深度代理研究,提取主题相关事实、数据和引用,确保内容最新且减少“幻觉”,并自动添加引用来源。
    • 自动化发布:支持与 WordPress、Webflow 等平台的直接集成,通过 Zapier 和 Make 实现的其他平台集成,实现一键发布。
    • 个性化功能:支持用户自带 API 密钥,仅支付实际使用的 AI 代币费用,节省成本。
    • 内部与外部链接:自动在文章之间添加自然的内部链接和权威来源的外部链接,提升内容的连贯性和可信度。
    • 封面图片生成:基于 Stable Diffusion 3.5 或 DALL-E 3 自动生成吸引人的封面图片,或从 Pexels 和 Unsplash 中选择合适的图片。
    • Webhooks 自动化:支持 Zapier、Make、n8n 等工具,实现内容创作全流程自动化,提升团队工作效率。

    Machined AI的官网地址

    • 官网地址:https://machined.ai/

    Machined AI的应用场景

    • 内容营销:快速生成博客文章、社交媒体内容和构建内容集群,提升内容发布频率和 SEO 排名。
    • SEO 优化:通过自动化关键词研究和优化,自动添加内部和外部链接,提升网站自然流量。
    • 新闻媒体:快速生成新闻报道和专题内容,确保时效性和深度。
    • 企业内容管理:自动生成产品描述、用户手册和内部知识库文章,提升内容一致性和准确性。
    • 教育领域:快速生成教学材料、课程大纲和研究报告,提高教学和研究效率。
  • 专访Pi产品负责人Macro:全球用户量突破300 万了,还需要继续学Gamma吗?

    一款让做 PPT 变得前所未有轻松的工具,正在悄悄改变很多人的工作方式。

    它把 AI 和传统演示文档结合在一起,几乎不用学习复杂操作,输入想法就能得到一份完整的演示内容。

    对那些从没做过幻灯片的人来说,它第一次让内容创作变得可触摸、可上手。

    在 WAIC 展会之后,Pi 的全球用户量突破了 300 万

    每天都有培训讲师、科普创作者、甚至从未打开过 PowerPoint 的小作坊老板,在这里生成属于自己的演示内容。

    有人用它做线上公开课,有人把它用在销售路演,还有人只是想第一次给产品做一份像样的介绍。

    做出这款产品的,是一个十几个人的小团队。没有铺天盖地的广告,也没有复杂的增长打法,他们靠着产品本身和几次展会活动,把它推到了几百万用户手里。

    Macro 说,他们最初希望做的是一个能承载多模态内容的“内容容器”。文字、图片可以直接放进去,未来音视频也能加入,让 AI 生成的内容和人工编辑的内容结合起来,最终做出一份真正可用的成果

    产品名称:Pi(Presentation Intelligence)

    Slogan:AI原生的内容创作和分享的 Agent 平台,不止AIPPT

    主要功能:AI原生的内容创作和分享的 Agent 平台。这是目前在内容创作场景代表SOTA水准,集成知识管理、设计引擎和AI原生编辑器的全栈智能体Copilot系统,为全球用户提供专业质量、精准完备、高效和谐的内容创作和共享体验。

    官网:Pi

    以下是我们和 Pi 产品负责人 Macro 的访谈:

     

    全球用户量突破300万

     

    👩‍🦰K姐研究社

    Hi~Macro,你们最近在忙什么?

    🧑🏻‍💻 Macro

    主要在做WAIC的展会,从预热到收尾整体很成功,我们的用户量又上升了一个台阶,全球用户量突破 300 万了。然后还有一些品宣的事情。

    👩‍🦰K姐研究社

    现在是国内和海外两边一起推进吗?

    🧑🏻‍💻 Macro

    我们的目标是全球顶级的AI产品,希望先在国内市场验证产品和技术,把细节打磨的差不多,产品完成度更高一点,后面就会全面发力。

     

    从语言模型到多模态内容容器,重新定义 AI 创作形态

     

    👩‍🦰K姐研究社

    为什么当初想要做这款产品?

    🧑🏻‍💻 Macro

    我们觉得既然已经进入了AI时代,就应该改变传统制作PPT的低效方式。过去做 PPT,大部分人先上网找模板,再一个字一个字地改,甚至还常常因为模板的槽位和内容不匹配,将很多精力放在排版上。非常繁琐。

    如果作为工具,不仅能提效,还能提供创意,那就是一个真正优秀的产品。

    👩‍🦰K姐研究社

    最开始你们对这个产品的设想是什么样子?

    🧑🏻‍💻 Macro

    我们最早做这个产品时,模型还只是语言模型,市面上大部分产品也只是一个聊天框。

    我们判断未来一定是多模态,所以希望用一种“内容器”的形式承载文字、图像,甚至是音乐和视频等等,让 AI 生成的内容与人工编辑的内容结合,最终产出可用成果。

    基于广泛的竞品调研和我们在编辑器上的经验,我们选择自研一款类似 Gamma 的编辑器,作为多模态内容的载体。

    目前我们的产品已经支持文字和图像模态,音乐和视频会在市面上模型能力成熟后逐步加入。

    以前的内容是一个创作者做完了,就去分发出去,这其实单向的,我们希望内容还能产生交互。

    所以我们加入问卷等交互方式,未来还会支持用户在内容创作和分发过程中直接与内容互动,AI 会辅助回答用户的问题。

    这是我们最早规划的方向,只是一些功能还在迭代中。


    👩‍🦰K姐研究社

    可以理解为你们现在聚焦演示场景,集成多模态能力。目前平台已支持图像生成功能,但尚未开放视频,是因为效果还没达到预期吗?

    🧑🏻‍💻 Macro

    是的,目前我们没有直接加入视频功能。因为如果用户花很长时间去一页一页地配置视频,会影响整体体验。

    图像功能也是同理,我们的用户基本不需要自己写 Prompt,就能生成第一版图像。除非要求特别高的时候,才会打开 Prompt 进行调整或者重新生成。

    我们也希望用户在平台上做视频的时候,不用因为 Prompt 技巧而困扰,只需用自然语言的表达,就能直接生成内容。

    用户只需要专注内容本身,以及基础的美学和排版表达就可以了


    👩‍🦰K姐研究社

    像很多智能体可以根据主题自动配图,你们后续会考虑吗?

    🧑🏻‍💻 Macro

    会的,我们现在也是有自动配图的,AI 会根据你的内容上下文,来帮你生图,或者用我们主题自带的“装饰图”。

    我们也在考虑用多个 Agent 帮用户收集资料、分析哪些数据和图片更适合当前内容场景。

    这一块技术我们在跟进,但也有顾虑,就是数据版权问题,所以我最近在做合规调研和报告。如果风险可控,我们会尽快跟上。

    同时,我们也在搭建自己的图库,已经收集了大量没有版权风险的图片,后续会开放给用户使用。

    👩‍🦰K姐研究社

    你们为什么会考虑加入和设计、管理相关的功能,比如自定义字体和交互问卷?

    🧑🏻‍💻 Macro

    先说设计和自定义主题这一块。我们本质上还是做排版内容,排版离不开美学设计。

    所以希望把这个口子开放给有较高审美或有设计功底的用户,让他们能创造更漂亮的作品。

    光靠我们自己定义主题肯定有限,我们现在有一个百来人的设计师微信群,他们既是第一波用户也是共创用户,会做一些精美主题给我们,我们也会给一定的创作奖励。

    未来如果用户有自己的视觉需求,也可以通过这个途径自己做,而不是必须依赖我们来定制主题。

     

    改布局、排版、文字,只需要鼠标点一下

     

    👩‍🦰K姐研究社

    你们的编辑器是什么东西都能往里面装吗?

    🧑🏻‍💻 Macro

    对。是的,我们支持上传 PPT 做二次排版,社区里大家分享的优质作品也能直接拿来用,新的 Coding 形式、HTML 网页也可以兼容。未来交互方式有变化,我们也能适配。

    我觉得目前各家用 Agent 做 PPT 的方式,如果真要深耕,最终也离不开自有的编辑器。而现在再去做编辑器,多半也会往我们这个方向靠。

    👩‍🦰K姐研究社

    现在市面做演示文档和 PPT 生成的很多,传统方式用模板套内容,一句话就能生成一个。你们如何平衡创意效果、设计效果和内容生产效率的关系?

    🧑🏻‍💻 Macro

    我们自己观察,市面上做 PPT 主要有四类技术架构:

    • 最早期的模板套版——比如稿定、Canva,把模板搬到线上,用户自己去套版,这是最传统的一种。
    • 模板+大模型文案——比如像素绽放、AI PPT,把模板标好槽位,用大模型生成文案套进去。
    • 我们这种自研编辑器模式——模型生成内容后,按编辑器的定义排版。
    • AI Coding 生成 HTML 形式的 PPT,现在很多厂商在跟进。

    我们更看好第三种模式,原因有两点:

    • 内容完整性高:传统套版如果模板只有 4 个点,模型生成了 6 个点,后两个可能放不上去;在我们这边,生成多少点就能排多少点。
    • 排版更智能流畅:我们模型会理解语义,比如带时间线的内容会自动用时间轴排版,并列内容就用并列结构呈现。

    相比用 Agent 或 HTML 生成的方案,我们的优势在于编辑体验和速度:生成一份 8 页的 Slide 大概 30 秒就能完成;

    Agent 方案大部分需要几分钟,Token 消耗非常大,而且不方便编辑;他们很多只能改文字,改排版或颜色还得重新用自然语言交互,再等十几二十分钟,体验是很差的。

    在我们这里,改布局、排版、文字,只需要鼠标点一下就可以了。

    👩‍🦰K姐研究社

    现在各家都在尝试用 AI Coding 生成网页或演示文档,但基本上只能导出 PDF,很难再转成可二次编辑的 PPT。你觉得未来这种模式会对你们的市场造成冲击吗?

    🧑🏻‍💻 Macro

    不能说是直接冲击吧。现在各家产品都还在迭代,我们自己内部也在研究这套模式。

    我们也希望引入多 Agent,先帮用户把前置内容做扎实,比如能帮他搜索和分析,这样生成的可视化内容数据就更完整,这是 Agent 的明显优势。

    但从编辑体验、二次编辑、导出等环节看,长期来看这类模式也大概率会趋向我们现在的框架。只是做一个真正好用的编辑器确实需要时间,所以我认为长期可能会走向一致。

     

     从国内版 Gamma 起步,坚持小团队打法

     

    👩‍🦰K姐研究社

    你们为什么想去打国内版 Gamma 这个点?

    🧑🏻‍💻 Macro

    2021年我就用过 Gamma 和 Tome,观察到国内很多人在用Gamma,尤其是在科技领域,大家愿意拥抱新兴产品。从运营角度,我们想先把这部分人群吸引过来。

    👩‍🦰K姐研究社

    我们观察到 Tome 之前转向做 Marketing,现在甚至业务都关掉了,你们怎么看这个现象?

    🧑🏻‍💻 Macro

    Tome 跟 Gamma 以及我们不太一样,它主打自由编辑。从结果来看,他们没有坚持最初的方向,这可能也跟团队基因有关吧。

    同比来看,Gamma 现在就运营得很好,小团队活的轻松,有不错的ARR和稳定地收入。

    所以Tome的转变我们分析更多可能是团队的因素,或者说是资本的因素。

    但是我们依然会看好这个赛道,而且最近很多做 Agent 的团队也在切入这一细分场景。

    👩‍🦰K姐研究社

    团队规模和组织建设也对标 Gamma 吗?

    🧑🏻‍💻 Macro

    我们团队目前大约 16–17 人。团队负责人(CEO)非常崇尚小团队模式,因为在今天,不必像传统公司那样每个环节都堆人。

    未来我们也希望团队不超过 30 人,就能完成整个产品闭环,这与 Gamma 的模式很像。

    👩‍🦰K姐研究社

    你们现在的产研配比是怎么样的?有没有像吴恩达说的那种“1 个产品经理配 0.5 个研发”的探索?

    🧑🏻‍💻 Macro

    我们没有那么兴奋地去追求比例。现在基本上是一人多角,就像我原来是产品经理,但现在同时负责一部分产品、大部分的运营,还有部分商务,也会带一两个稍微资历浅一点的小朋友一起做。

    我们现在研发的人员稍多一点,因为把编辑器做好是挺麻烦的事情,不是 AI Coding 就能完全帮到的。

    我们研发大概十来个人,剩下的是产运,所以算下来产研差不多是一比一点几。但我觉得这个比例并不适用于我们内部,因为好几个研发也具备产品设计的能力和意识。

     

    从没做过 PPT 的人,在小程序里成了核心用户

     

    👩‍🦰K姐研究社

    你们最初是为哪些用户群里设计的这个产品?

    🧑🏻‍💻 Macro

    上线初期我们并没有细分推广,而是希望更多人先上手体验,看看他们用产品帮自己完成什么样的内容创作。

    从数据反馈来讲,使用效果最好的是做培训、科普类的创作者,因为他们的内容创作的频次非常高,演示的对象也非常多,所以常常一周会有三四次都要来上面修改内容,或者重新创作一份新的,这类人群现在是粘性付费最好的,他们创作的内容也是最符合我们想要去呈现的。

    他们的作品不局限于传统的PPT,会嵌入网页、视频等多种元素正好契合我们产品作为多模态容器的初衷。

    👩‍🦰K姐研究社

    其他家都是在网页上生成内容。但是你们还做了一个小程序,为什么?

    🧑🏻‍💻 Macro

    一是考虑国内使用习惯,很多人不常使用电脑,希望小程序让更多人更方便地使用,体验大模型带来的内容创作变革;

    二是为了内容闭环,小程序是国内很好的分发渠道,Web端做好的内容通过小程序分发到朋友圈或他人更直接。

     

    👩‍🦰K姐研究社

    运营小程序过程中,用户占比或使用行为有什么不一样?

    🧑🏻‍💻 Macro

    最大区别是年龄层。小程序用户整体更偏大,很多是四五十岁甚至更年长的人。

    他们好奇“这个东西能帮我做 PPT 吗”,而且很多人在国内其实没怎么做过 PPT。

    举个形象的例子:像我们上学时那些年纪稍大的老师,他们做 PPT 基本就是几行字加一张图,几乎没有排版,但在同龄人里已经算比较会做了。很多这个年龄段的人压根不会做 PPT。

    我有个 60 多岁的叔叔,经常要出去卖自己的产品,小作坊级别的,也没人帮他做 PPT。他听说我在做这个产品后特别好学,简单教了一下就能用手机完成一份商品介绍,他用得很开心。

    我们在推广中也发现,这类人群确实很多。

    👩‍🦰K姐研究社

    是的,实际上是被忽视掉的一群人啊。

    🧑🏻‍💻 Macro

    对。

    👩‍🦰K姐研究社

    不同年龄段用户在付费行为上有差异吗?比如四五十岁的用户和年轻用户,哪一类付费率更高?

    🧑🏻‍💻 Macro

    付费率还是年轻用户更高一些。年纪稍微大一点的用户,如果他比较好学,用过产品后也会被我们转化到网页端。

    因为在网页上,只要生产过两份内容,就能基本学会我们的产品。整体门槛不高,不涉及任何代码,鼠标点点、键盘敲敲字就能完成。

     

    B 端容错率连 1% 都不到,目前优先做 C 端

     

    👩‍🦰K姐研究社

    你们在商业模式上更倾向 C 端还是 B 端?

    🧑🏻‍💻 Macro

    优先发展C端市场。大模型的核心价值在于提效,但在 B 端场景里,精准性要求极高,容错率可能连 1% 都不到,而 C 端的容错空间更大,所以目前我们还是以 C 端为主。

    等到基模水平能够有效解决幻觉、确保不出错,我们会更大力度地投入 B 端。目前我们也在关注 B 端机会,但核心仍偏向 C 端。

    👩‍🦰K姐研究社

    你们的编辑器和演示文档生成能力,会考虑对外开放吗?比如通过 API 或 MCP 的形式输出给其他公司使用?

    🧑🏻‍💻Macro

    这一层我们现在已经在做了,目前已经接入了一些知名的企业,比如Kanter(国际咨询公司)。

    他们内部接了一些模型,也有自己的数据库,去给它的用户生成内容。现在他更希望把结果以可视化内容给客户,所以调用了我们的能力来生成 Slide

    这个案例我们还做了视频演示,已经上线了。

    另外也有一些教育机构也接了我们的API,用来做培训场景的 Slide。

    这次WAIC展会,有很多企业对我们都蛮感兴趣的,包括一些综合集团等等,他们都来咨询过相关的能力。

     

    首次亮相WAIC,线上活动每日带来数万新用户

     

    👩‍🦰K姐研究社

    在 WAIC 活动期间,你们上线了一个抽奖活动,可以分享一下吗?

    🧑🏻‍💻 Macro

    抽奖是传统运营里非常经典且有效的方式,大家对未知奖品和概率性的刺激都蛮感兴趣的。

    我们在 WAIC 亮相,这是公司第一次在社交媒体上对外展示,也希望借这个节点让更多用户认识公司和产品。

    现场我们的展位在 H3 楼层一直是排队状态,应该是整个楼层里除了宇树、Rokid 外排队最长的队伍。

    但现场的流量毕竟有限,所以我们同步做了线上的裂变活动,这个活动效果非常成功,每天新增用户都是大几万

     

    👩‍🦰K姐研究社

    这个抽奖活动是怎么实现裂变和用户自发推广的?

    🧑🏻‍💻 Macro

    我们花了很大的成本准备奖品,包括自己的周边,质量都挺高的,T-shirt 怎么洗都没问题,还用了刺绣工艺。

    这也跟我们创始人的基因有关,他对美学和质量的追求很高,所以哪怕是大量赠送给用户的周边也花了蛮多的心思。

    另外,我们还结合了当下Labubu的热点来做抽奖活动。活动推了两周之后,我们发现饿了么他们也开始用Labubu做营销裂变的活动了,这个玩法的效果确实不错。

    👩‍🦰K姐研究社

    你们主要的增长手段和渠道有哪些?

    🧑🏻‍💻 Macro

    我们现在有几个运营动作在陆续上线。整个团队没有请特别厉害的运营大牛,基本上还是自己边做边摸索,不过目前整个运营框架已经搭完了。

    第一块是有一点点小量投放,但真的很小,和几个竞品比几乎可以忽略。

    第二块是社媒的 KOL 联动。WAIC 期间我们也做了一些优质博主的发掘,有不少博主也自发来我们展位打卡的,后面我们也会做一些建联动作。

    第三块是运营活动。我们计划后面一两个月都推出一个小活动,但主题会不一样。

    这次 WAIC 活动主要是传播和拉新,后面可能会办创作小比赛,把优质创作者聚拢起来,形成更高效的共创机制。

     

    内容更 Fancy,长远目标是交互式平台

     

    👩‍🦰K姐研究社

    实际上你们是想搭建一个创作者生态,为高阶用户提供个性化服务,对吗?

    🧑🏻‍💻 Macro

    对,可以这么理解。另一个层面理解,我们现在做的是工具,但长远来看,不想局限于工具,我们希望做成一个内容平台,成为下一代内容范式的承载平台。

    内容最早从图文,比如今日头条;后来发展到现在的短视频。再往后,内容平台会是什么样的形式,大家都在探索,我们也在探索。

    我们内部比较兴奋的一点是,未来内容会是交互式的内容,而具体如何交互,还在一步步探索中。

     

    👩‍🦰K姐研究社

    你们最近在产品能力上有新的方向吗?

    🧑🏻‍💻 Macro

    有,我们最近一直在忙一件事,就是想让内容更 Fancy 一点。现在的编辑器布局是结构化的,但很多国内用户习惯传统 PPT 的白板模式,可以自己拼、自己画,简单或复杂都能做。

    用户调研下来,大家希望效果更 Fancy,所以我们正在开拓这块能力,预计 8 月底生成和排版能力会有一次大升级。

    👩‍🦰K姐研究社

    今天非常感谢 Macro,和我们聊了这么多关于 Pi 的故事,让我们看到内容创作的新可能。也祝 Pi 用户量继续高速增长,期待 Macro 下次再来和我们分享新的惊喜。

    🧑🏻‍💻 Macro

    谢谢。

    原文链接:专访Pi产品负责人Macro:全球用户量突破300 万了,还需要继续学Gamma吗?

  • ChatPaper.ai – AI学习助手,自动生成论文、视频和笔记摘要

    ChatPaper.ai是什么

    ChatPaper.ai 是 AI 学习助手,专为学生、研究人员和职场人士设计,能快速提取论文核心观点,3 分钟读懂复杂文献,自动整理课堂笔记和会议记录,生成清晰的思维导图,助力高效复习和工作。ChatPaper.ai 支持语音转文字,能生成长达 2 小时的录音转化为结构化文本,智能提取关键信息。ChatPaper.ai 操作简单,支持多语言处理,无需下载,网页即可使用,是提升学习和工作效率的利器。

    ChatPaper.ai

    ChatPaper.ai的主要功能

    • 智能文献分析:快速提取论文核心观点,3 分钟理解复杂文献。
    • 课堂笔记助手:自动整理课堂笔记,生成知识图谱,提升学习效率。
    • 会议记录整理:支持长达 3 小时的录音,自动生成会议纪要和关键摘要。
    • 语音转文字:支持将 1 分钟到 2 小时的录音转换为结构化文本。
    • 思维导图生成:基于 PDF 文档或音频内容自动生成清晰的思维导图。
    • 多语言支持:支持多种语言,包括英语、中文、日语、韩语、德语、法语、俄语和西班牙语。
    • 文件管理:提供专业的文件管理界面,支持重命名、预览和删除操作。

    ChatPaper.ai的官网地址

    • 官网地址:https://www.chatpaper.ai/

    ChatPaper.ai的产品定价

    • 免费计划:每天上传1个文档,进行AI笔记生成、3次AI对话、AI思维导图生成、基础文档搜索和每月30分钟音频处理。
    • 专业月度计划:139元/月,提供无限文档上传、AI笔记生成、AI对话、AI思维导图生成、专业AI搜索、无限AI音频转录和优先支持。
    • 专业年度计划:59.92元/月,年付享受无限使用权限,包括所有高级功能如无限文档上传、AI笔记生成、AI对话、AI思维导图生成、专业AI搜索、无限AI音频转录和优先支持。

    ChatPaper.ai的应用场景

    • 学术研究:快速提取论文核心观点,帮助研究人员高效梳理文献,节省时间和精力。
    • 学生学习:自动生成课堂笔记和知识图谱,助力学生高效复习,提升学习效率。
    • 职场工作:自动转录会议录音并生成纪要,节省整理时间,提高工作效率。
    • 知识管理:集中管理文献和笔记,支持智能搜索和知识图谱生成,方便知识整理和回顾。
    • 个人提升:支持多语言文献阅读,帮助用户快速了解不同领域的知识,促进自我提升。
  • Speech 2.5 – MiniMax推出的新一代语音生成模型

    Speech 2.5是什么

    Speech 2.5 是 MiniMax 推出的新一代语音生成模型,在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言,能精准还原不同语言和口音的细节,复刻音色时保留风格与情绪,跨语种切换依然逼真。Speech 2.5 适用企业多语种客服、创作者全球内容制作和教育者语言教学等场景,助力全球化内容创作与传播。用户可通过MiniMax开放平台和MiniMax Audio官网使用模型。

    Speech 2.5

    Speech 2.5的主要功能

    • 多语种语音合成:支持40种语言,包括中文、英文、西班牙语、保加利亚语、丹麦语、希伯来语、马来语、波斯语等。不同语言之间的切换自然流畅,字错率低,自然韵律度高,适合商务会议、播克等多种场景。
    • 音色复刻:高度还原特定音色,包括跨语种口音、风格和情绪。能保留不同地区口音(如英国女王的发音)及特殊年龄的声音细节。
    • 高性价比:在全球语音模型榜单中表现优异,延续高性价比的优势,广泛应用在国内外头部平台。

    Speech 2.5的项目地址

    如何使用Speech 2.5

    • 访问官网:打开浏览器,访问 MiniMax Audio 官网。
    • 注册/登录账号:点击“注册”或“登录”按钮,完成账号创建或登录。
    • 选择功能模块:登录后选择语音合成功能模块。
    • 音色复刻操作:输入文本提示词,点击“生成语音”。
    • 下载或播放:生成的语音文件在线播放或下载保存。

    Speech 2.5的应用场景

    • 企业客户:企业客户 实现多语种客服与广告配音,降本增效,助力全球化业务拓展。
    • 创作者:创作者借助 Speech 2.5 制作多语种短视频,轻松拓展全球受众。
    • 教育者:教育者生成多语言语音样本,辅助语言学习,提升教学效果。
    • 全球化应用:跨境电商平台借助 Speech 2.5 生成多语种产品介绍,提升用户体验和购买转化率。
  • 北京大学《人工智能2.0时代的人才培养和通识教育课程建设》(PDF文件)

    《人工智能2.0时代的人才培养和通识教育课程建设》回顾了人工智能从1.0(深度学习)到2.0(大模型)的发展历程,分析了大模型的特点、局限及最新进展。报告指出,大模型具备强大的生成和推理能力,也面临数据依赖和高成本等问题。在人才需求方面,报告强调应用人才、IT专业人才和AI专业人才的不同能力要求,提出针对不同层次人才的教育路径。报告详细介绍了人工智能通识教育课程的设计理念和实施方法,包括课程目标、内容、教学方法和资源,通过通识教育提升全民的AI素养和人机协作能力。

    人工智能2.0时代的人才培养和通识教育课程建设

    获取《人工智能2.0时代的人才培养和通识教育课程建设》报告PDF原文件

    扫码关注回复: 20250807

    人工智能发展历程

    • AI 0.0(1956-2006):该阶段基于规则和专家系统,依赖人工特征工程,可解释性强但泛化能力弱。
    • AI 1.0(2006-2020):该阶段以深度学习为核心,CNN/RNN/Transformer架构推动计算机视觉、自然语言处理领域取得突破性进展,仍需依赖大量标注数据进行训练。
    • AI 2.0(2020-至今):本阶段进入大模型时代,以GPT/Stable Diffusion为代表的多模态生成模型实现文本、图像、视频的跨模态交互,同时推理能力显著提升(如DeepSeek R1模型)。

    人工智能2.0时代的人才培养和通识教育课程建设

    大模型的特点和局限

    • 大模型的特点
      • 强大的生成能力:大模型能生成高质量的文本、图像、视频等多种内容,为创意产业、内容创作等领域带来了前所未有的变革。
      • 多模态融合:将语言、视觉等多种模态数据相结合,使模型能够更全面地理解和表达世界,为智能交互、自动驾驶等应用提供了更强大的技术支持。
      • 复杂推理能力:基于长链推理技术,大模型能逐步分解复杂问题并进行多步骤逻辑推理,处理更复杂的任务和场景。
    • 大模型的局限
      • 数据依赖:大模型的训练需要海量的数据支持,数据的质量和多样性直接影响模型的性能和生成结果的准确性。
      • 高算力需求:训练和推理过程对计算资源要求极高,导致研发和应用成本居高不下,限制了在一些资源受限场景中的广泛应用。
      • 幻觉问题:生成的内容可能存在与事实不符的情况,需要进一步的验证和筛选,确保信息的真实性和可靠性。

    人工智能2.0时代的人才培养和通识教育课程建设

    大模型的发展观察

    • 跃进期(2020-2022)
      • ChatGPT的发布:2020年ChatGPT的推出迅速引发全球对大模型的关注和研究热潮,其强大的语言生成能力和交互体验让人们看到大模型的巨大潜力。
      • GPT-4的推动:2022年GPT-4的发布进一步提升大模型的性能和应用范围,推动大模型在更多领域的探索和实践。
    • 繁荣期(2022-2023)
      • 多模态模型的爆发:Stable Diffusion、Mid-Journey等多模态模型相继问世,将大模型的应用从文本领域拓展到图像、视频等视觉领域,为创意设计、影视制作等行业带来了新的机遇。
      • 国内大模型的崛起:国内企业纷纷加快大模型的研发步伐,文心一言、通义千问等首批模型相继发布,展现了国内在人工智能领域的技术实力和发展潜力。
    • 深化期(2023-至今)
      • 推理模型的突破:DeepSeek-R1、QwQ-32B等推理模型的出现,显著提升模型的推理能力和效率,为复杂问题的解决提供更有力的支持。
      • 性能提升与开源生态:国内模型性能持续提升,如Qwen2.5、GLM-4等不断更新优化。同时,开源生态蓬勃发展,如Baichuan、Qwen等系列模型的开源,推动大模型技术的普惠化和行业应用的加速落地。

    人工智能2.0时代的人才培养和通识教育课程建设

    大模型时代的人才需求

    • 应用人才
      • 思维要求:具备利用AI技术和工具解决实际问题的能力,能够将AI应用于工作和生活的各个方面,提升效率和质量。
      • 能力增加:增强问题定义、独立思考、沟通表达等能力,更好地与AI协作完成任务。
      • 教育需求:通过AI通识教育,普及AI基础知识和应用技能,培养全民的AI素养和人机协作能力。
    • IT专业人才
      • 思维要求:掌握数据思维和模型思维,以数据为核心进行系统设计和优化,为行业赋能。
      • 能力增加:提升机器学习、深度学习、数据工程等方面的能力,适应AI时代对IT人才的新要求。
      • 教育需求:开展新IT教育,更新IT专业课程体系,融入AI相关技术和应用内容,培养既懂传统IT又掌握AI技术的复合型人才。
    • AI2.0专业人才
      • 思维要求:具备数学思维、好奇心和试错精神,热爱探索人类智能的本质和奥秘。
      • 能力增加:掌握数据工程、底层软硬件工程、大模型范式(如Transformer、Diffusion、RL等)能力,能够从事AI前沿技术研发和创新。
      • 教育需求:构建AI专业教育体系,培养具有深厚理论基础和创新能力的AI专业人才,推动人工智能技术的持续发展和突破。

    人工智能2.0时代的人才培养和通识教育课程建设

    人工智能通识课

    • 课程目标:培养学习者对人工智能的全面认知,掌握生成式AI的应用能力,提升人机协同与批判性思维,为未来的学习和工作打下坚实基础。
    • 课程内容:涵盖人工智能基础、核心技术(如Transformer架构)、应用领域(金融、医疗、教育等)以及面临的挑战与未来发展方向,构建完整的知识体系。
    • 教学方法:采用案例分析、动手实操、项目制学习和跨学科融合等多样化方法,提升学习者的实践能力和创新思维。
    • 教学资源:提供PPT课件、微课视频、教学演示案例以及实战任务与作业题,支持线上线下混合式学习,满足不同学习者的需求。

    人工智能2.0时代的人才培养和通识教育课程建设

    人工智能赋能教育

    • 人工智能赋能教学:通过AI辅助教学工具和智能学情分析,提升教学效率和个性化学习体验,推动教育的智能化发展。
    • 课程创作工具:利用AI辅助课程设计和无代码工程交付,降低课程创作门槛,提高教学资源的开发效率和质量。
    • 人工智能通识课的实施:通过通识课、通育课和通用课的分层设计,逐步提升学生的AI素养、人机协作能力和专业应用能力,实现人工智能教育的普及与深化。

    人工智能2.0时代的人才培养和通识教育课程建设

    获取《人工智能2.0时代的人才培养和通识教育课程建设》报告PDF原文件

    扫码关注回复: 20250807

  • Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型

    Qwen-Flash是什么

    Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型,版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升,特别优化主观开放类任务的处理,能更好地满足用户需求。Qwen-Flash支持1M超长上下文,适合处理复杂任务。定价为每百万字符0.00015元,具有速度快、成本低的优势,适合简单任务快速处理。模型现已上线阿里云百炼平台。

    Qwen-Flash

    Qwen-Flash的主要功能

    • 通用能力提升:相较于之前的版本,Qwen-Flash在处理各种任务时的通用能力有显著提升。
    • 推理能力增强:模型能完成一定难度的数学、科学、代码类等推理任务,适用需要逻辑分析和问题解决的场景。
    • 知识能力提升:在中英文长尾知识处理方面有大幅度提升,能更好地理解和生成相关领域的内容。
    • 主观开放类任务优化:专项优化主观开放类任务的处理,能提供更符合用户偏好和更有帮助性的回复。
    • Agent能力增强:增强模型的Agent能力,在执行任务时更加智能和高效。
    • 超长上下文支持:支持1M(百万字符)超长上下文,能处理更长的文本输入。

    Qwen-Flash的项目地址

    • 项目官网:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/group-qwen-flash?modelGroup=group-qwen-flash

    如何使用Qwen-Flash

    • 访问平台:访问阿里云百炼平台官网。
    • 登录或注册:按提示完成账户注册和登录。
    • 模型体验:点击导航栏上方“模型”,进入模型广场,选择“模型体验”-“文本模型”,选择“更多模型”找到进行Qwen-Flash模型,进行文本对话或文本调试。
    • 模型部署和应用:如果您需要将模型部署到应用中,用“模型部署”功能。或通过“工作台”进行批量推理、模型评测和模型调优。

    Qwen-Flash的应用场景

    • 客户服务:Qwen-Flash能快速处理客户咨询,提供即时反馈和解决方案。
    • 内容创作:帮助用户自动生成或编辑文章、博客和其他文本内容。
    • 教育辅导:Qwen-Flash能提供个性化的学习支持和学术问题解答。
    • 编程辅助:为开发者提供代码理解和编程建议,甚至自动生成代码。
    • 数据分析:Qwen-Flash能分析大量数据,帮助提取有价值的业务洞察。
  • 魂旅 – AI虚拟旅行应用,“分身”代替用户旅行

    魂旅是什么

    魂旅是创新的AI虚拟旅行体验应用。用户可以通过设定旅行目的地和交通工具(如自行车、摩托车、房车等),应用会生成一个“分身”代替用户开启旅程。在旅行过程中,AI会根据目的地的天气、景点等信息生成生动的故事,通过语音播报的方式让用户仿佛身临其境。应用会根据环境特征动态模拟风声、雨声、海浪声等音效,增强沉浸感。用户可以在地图上实时查看载具的移动轨迹,能通过“行车记录仪”回顾旅行过程。魂旅提供电台广播功能,自动切换当地广播频道,让用户更深入地感受当地文化。

    魂旅

    魂旅的主要功能

    • 虚拟分身旅行:用户可设定旅行目的地,应用生成“分身”代替用户旅行。
    • 交通工具选择:提供多种交通工具(如自行车、摩托车、房车等),根据载具速度模拟旅程。
    • AI语音播报:AI根据旅行场景生成故事并语音播报,增强沉浸感。
    • 环境音效模拟:根据天气和环境动态生成音效,如雨声、风声、海浪声等。
    • 动态轨迹展示:实时显示载具移动轨迹,支持地图缩放和地点详情查看。
    • 旅行记录回顾:用户可查看旅行足迹、数据统计及行车记录仪内容。
    • 电台广播功能:内置全国广播频道,自动切换当地电台,也可手动选择。

    如何使用魂旅

    • 访问平台:访问魂旅的官方网站:https://www.touringsoul.com/,开启位置定位服务。
    • 下载与安装:在应用商店搜索“魂旅”,下载并安装到手机上。
    • 选择目的地:打开应用后,输入或选择你想要去的旅行地点。
    • 挑选交通工具:从提供的交通工具选项中(如自行车、摩托车、房车等)选择一种,应用会根据载具速度模拟旅程。
    • 开启旅行:点击“开始旅行”,应用会生成一个虚拟分身开始旅程。
    • 体验旅行:应用会通过语音播报和环境音效模拟,带你感受沿途风景和故事。
    • 查看轨迹:在地图上实时查看载具的移动轨迹,了解旅行路线。
    • 回顾记录:旅行结束后,通过“行车记录仪”功能查看旅行过程,也可查看旅行数据和足迹。
    • 享受广播:应用会自动切换到当地广播频道,也可以手动选择喜欢的频道,感受当地文化。

    魂旅的应用场景

    • 上班族放松:适合在工作间隙或休息时使用,让用户在精神上获得旅行的放松和愉悦。
    • 旅行规划参考:用户可以通过虚拟旅行提前了解目的地的情况,为未来的实际旅行做准备。
    • 缓解旅行渴望:对于那些暂时无法出行的人来说,魂旅提供了一种缓解旅行渴望的方式。
  • dots.vlm1 – 小红书hi lab开源的首个多模态大模型

    dots.vlm1是什么

    dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支持动态分辨率,在文本监督基础上增加了纯视觉监督,提升了感知能力。训练数据引入了多种合成数据思路,覆盖多样的图片类型及其描述,显著提升了数据质量。

    dots.vlm1

    dots.vlm1的主要功能

    • 强大的视觉理解能力:能准确识别和理解图像中的内容,包括复杂图表、表格、文档、图形等,支持动态分辨率,适用于多种视觉任务。
    • 高效的文本生成与推理:基于 DeepSeek V3 LLM,能生成高质量的文本描述,在数学、代码等文本推理任务中表现出色。
    • 多模态数据处理:支持图文交错的数据处理,能结合视觉和文本信息进行综合推理,适用于多模态应用场景。
    • 灵活的适配与扩展:通过轻量级 MLP 适配器连接视觉编码器和语言模型,方便在不同任务中进行灵活适配和扩展。
    • 开源与开放性:提供完整的开源代码和模型,支持开发者进行研究和应用开发,推动多模态技术的发展。

    dots.vlm1的技术原理

    • NaViT 视觉编码器:dots.vlm1 使用了一个从零开始训练的 12 亿参数视觉编码器 NaViT,非基于现有成熟模型微调。原生支持动态分辨率,能处理不同分辨率的图像输入,在文本监督的基础上增加了纯视觉监督,提升了模型对图像的感知能力。
    • 多模态数据训练:模型采用了多样化的多模态训练数据,包括普通图像、复杂图表、表格、文档、图形等,以及对应的文本描述(如 Alt Text、Dense Caption、Grounding 等)。引入了合成数据思路和网页、PDF 等图文交错数据,通过重写和清洗提升数据质量,增强模型的多模态理解能力。
    • 视觉与语言模型融合:dots.vlm1 将视觉编码器与 DeepSeek V3 大语言模型(LLM)相结合,通过轻量级 MLP 适配器进行连接,实现视觉信息与语言信息的有效融合,支持多模态任务的处理。
    • 三阶段训练流程:模型的训练分为三个阶段:视觉编码器预训练、VLM 预训练和 VLM 后训练。通过逐步提升图像分辨率和引入多样化的训练数据,增强模型的泛化能力和多模态任务处理能力。

    dots.vlm1的项目地址

    • GitHub仓库:https://github.com/rednote-hilab/dots.vlm1
    • Hugging Face模型库:https://huggingface.co/rednote-hilab/dots.vlm1.inst
    • 在线体验Demo:https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

    dots.vlm1的应用场景

    • 复杂图表推理:能对复杂的图表进行分析和推理,帮助用户更好地理解和解读图表中的信息。
    • STEM 解题:在科学、技术、工程和数学(STEM)领域,模型可以辅助解决相关问题,提供解题思路。
    • 长尾识别:对于一些出现频率较低的类别或对象,dots.vlm1 也具备较好的识别能力。
    • 视觉推理:能处理涉及视觉信息的推理任务,如障碍物识别、商品比较分析等。
    • 图文问答与互动:支持图文结合的问答任务,能进行多轮对话,根据上下文给出连贯的回答。
    • 内容推荐:基于多模态数据,为用户提供个性化的内容推荐,如在小红书平台上推荐相关的图文或视频。