Blog

星火代码画布 – 科大讯飞推出的AI编程工具
星火代码画布是什么

星火代码画布是科大讯飞推出的强大AI编程工具，通过简单的一句话描述、草图上传、链接参考或详细指令，能快速生成交互网页。用户无需具备专业编程技能，可实现从想法到网页的快速转化。产品经理可以用一句话生成职位详情页，设计师可通过上传草图生成界面demo，运营人员可参考链接复刻视觉风格。适用于工作场景或日常生活。让懂产品、懂运营、懂创意的人也能动手实现自己的想法。

星火代码画布的主要功能
- 一句话生成页面：用户只需输入简单的指令，如“为公司招聘官网创建一个职位详情页”，可快速生成专业的HTML页面。
- 上传草图生成原型：用户可以上传手绘草图，星火代码画布能根据草图快速生成HTML+CSS页面，完美还原布局。
- 参考链接复刻风格：用户提供参考页面链接，星火代码画布可生成具有相同视觉风格的新页面。
- 精准还原UI细节：用户输入详细指令，星火代码画布能生成高质量的网页代码，满足对细节的高要求。
如何使用星火代码画布
- 访问网页版：访问讯飞星火网页版官网。
- 点击代码生成：在左侧栏点击【代码生成】。
- 输入描述或上传素材：通过简单的语音指令、草图、链接或一段文字描述，向星火表达你的想法。
- 生成交互网页：星火代码画布会根据输入的内容快速生成交互网页。
星火代码画布的应用场景
- 快速生成职位详情页：HR或产品经理可以通过简单描述快速生成招聘官网的职位详情页，节省设计和前端开发的时间。
- 制作产品演示页面：设计师可以上传手绘草图，快速生成产品原型的HTML页面，用于演示和评审。
- 复刻特定风格的品牌页面：用户可以参考其他页面的风格，快速生成具有相似视觉效果的品牌形象页。
- 生成高质量的官网首页：前端开发者可以通过详细指令生成符合设计要求的企业官网首页，提升开发效率。
- 日常创意实现：用户可以利用星火代码画布生成个税计算器、生日祝福页面或小游戏等，满足个性化需求。
August 7, 2025
7月热门通用Agent数据分析报告，Manus、Genspark等（PDF文件）
报告深入分析2025年7月热门通用Agent和浏览器Agent的市场表现，涵盖流量趋势、功能更新及投融资情况。通用Agent中，Manus和Genspark流量稳定，功能更新频繁，MiniMax Agent和Skywork流量增长显著。浏览器Agent方面，Perplexity Comet、Fellou AI和Dia表现突出，流量和功能更新均表现强劲。报告探讨了各Agent的流量来源国别分布，揭示浏览器型Agent在推广速度和用户量级上的优势，为创业者和开发者提供宝贵的市场洞察和建议。

获取《Manus、Genspark等通用Agent分析报告》报告PDF原文件

扫码关注回复： 20250808

通用Agent总体分析

通用Agent的流量在3月至7月期间波动较大，但整体趋势较为稳定，浏览器型Agent的推广速度和用户量级显著高于其他类型，功能更新频繁是吸引用户的关键。

Manus
- 流量分析：Manus流量在7月底达到60万访问量，周末效应明显，显示出在办公场景中的稳定需求。
- 功能更新：功能更新包括Wide Research和幻灯片主题定制功能，进一步增强产品的实用性和吸引力。
- 投融资情况：估值5亿美元，ARR 1亿美元，最近融资7500万美元，显示出其在市场中的强劲竞争力。
Genspark
- 流量分析：Genspark流量稳定，每天20-30万访问量，显示出在市场中的稳定用户基础。
- 功能更新：功能更新频繁，包括AI Slides 2.0和Slack集成，进一步提升用户体验。
- 投融资情况：估值5亿美元，ARR 3600万美元，最近融资1亿美元，显示出在市场中的持续增长潜力。
Skywork & 天工AI
- 流量分析：天工AI在5月21日出现流量激增，当前访问量稳定在每天1-2万左右，显示出其在特定市场的吸引力。
- 流量来源：流量主要来自中国，显示出在本地市场的强大用户基础。
MiniMax Agent
- 流量分析：MiniMax Agent在6月17日-24日迎来流量高峰，显示出在市场中的快速增长潜力。
- 流量来源：功能更新频繁，流量主要来自中国和美国，显示出在多语言市场中的广泛吸引力。
- 投融资情况：估值40亿美元，ARR 7000万美元，最近融资3亿美元，显示出在市场中的强大竞争力和增长潜力。
纳米AI
- 流量分析：纳米AI流量主要来自浏览器，月度访问量在60-80万之间，显示出在浏览器型Agent市场中的强大潜力。
- 流量来源：功能更新较少，但流量主要来自中国，显示出在本地市场的稳定需求。
Flowith
- 流量分析：Flowith流量在5月18日爆发，7月有所减少，显示出在市场中的短期增长潜力。
- 流量来源：功能更新频繁，流量主要来自美国和韩国。
- 投融资情况：估值1亿美元，ARR 100万美元，最近融资1000万美元，显示出在市场中的持续增长潜力。
浏览器Agent总体分析

浏览器Agent的流量在3月至7月期间波动较大，但整体趋势较为稳定，功能更新频繁，流量来源国别分布广泛，显示出浏览器型Agent的市场潜力和用户需求的多样性。

Perplexity Comet
- 流量分析：Perplexity Comet流量在7月10日达到高峰，显示出其在市场中的快速增长潜力。
- 功能更新：功能更新频繁，包括语音浏览和购物助手，进一步提升用户体验。
- 投融资情况：估值180亿美元，ARR 1亿美元，最近融资1亿美元，显示出其在市场中的强大竞争力。
Fellou AI
- 流量分析：Fellou AI流量在5月3日达到高峰，7月流量稳定在每天1-2万，显示出在市场中的稳定用户基础。
- 流量来源：功能更新频繁，流量主要来自印度和沙特。
- 投融资情况：估值1亿美元，ARR 100万美元，最近融资1700万美元，显示出在市场中的持续增长潜力。
Dia
- 流量分析：Dia流量在6月10日达到高峰，7月流量稳定在每天3-4万，显示出在市场中的短期增长潜力。
- 功能更新：功能更新包括@History功能，进一步增强产品的实用性和吸引力。
- 投融资情况：估值5.5亿美元，ARR 1亿美元，最近融资5000万美元，显示出在市场中的持续增长潜力。
Zen Browser
- 流量分析：Zen Browser流量稳定，月度访问量在60-80万之间，显示出在浏览器市场中的稳定用户基础。
- 流量来源：流量主要来自美国和印度。
Opera Neon
- 流量分析：Opera Neon流量在5月27日和6月10日两次爆发，日均流量1-2万，显示出在市场中的短期增长潜力。
- 流量来源：功能更新较少，流量主要来自印度和美国。
其他Agent

其他Agent如Devin、Cluely、Lovart AI等流量表现各有特点，功能更新频繁，流量来源国别分布广泛，显示出多样化的产品策略和市场机会。

Devin
- 流量分析：流量稳定，单月流量30万左右，日均1-3万，显示出在浏览器Agent市场中的稳定用户基础。
- 流量来源：功能更新频繁，流量主要来自美国和日本。
Cluely
- 流量分析：流量在6月19日快速增长，之后稳定在8-12万，显示出其在浏览器Agent市场中的短期增长潜力。
- 流量来源：流量主要来自美国和印度。
Lovart AI
- 流量分析：流量在7月22日出现激增，7月末访问量每天10万左右，显示出其在浏览器Agent市场中的短期增长潜力。
- 流量来源：流量主要来自中国和美国。
Youware
- 流量分析：流量在5月20日首次爆发，7月30日出现激增，显示出其在浏览器Agent市场中的短期增长潜力。
- 流量来源：流量主要来自巴基斯坦和中国。
Rosebud AI
- 流量分析：流量近三个月稳定，单月流量在40-50万左右，显示出其在浏览器Agent市场中的稳定用户基础。
- 流量来源：流量主要来自美国和印度，显示出在国际市场的吸引力。
Trickle
- 流量分析：流量近三个月呈增长态势，显示出在浏览器Agent市场中的增长潜力。
- 流量来源：流量主要来自美国和泰国，显示出在特定市场的吸引力。
Same.new
- 流量分析：流量稳定，每天访问量2-3万，显示出其在浏览器Agent市场中的稳定用户基础。
- 流量来源：流量主要来自印度和美国，显示出在国际市场的吸引力。
获取《Manus、Genspark等通用Agent分析报告》报告PDF原文件

扫码关注回复： 20250808
August 7, 2025
Machined AI – AI内容创作平台，自动完成多种创作任务
Machined AI是什么

Machined AI 是 AI 内容创作平台，专为高效生成高质量内容而设计，平台能在短时间内完成内容创作任务，包括撰写文章、构建内容集群、自动化关键词研究、内部链接和发布等。平台核心优势在于快速生成事实准确、引用权威的内容，支持与 WordPress、Webflow 等平台的无缝集成，提供个性化功能，如自带 API 密钥，帮助用户降低成本。Machined AI 是内容创作者和团队提升效率、建立内容权威的有力工具。

Machined AI的主要功能
- 高效内容创作：自动生成高质量文章，包含最新事实和权威引用，支持自动生成封面图片、构建元数据并直接发布到网站。
- 内容集群构建：几分钟内完成内容集群的创建，包括自动化关键词研究、内容内部链接和发布。
- 深度研究与引用：基于深度代理研究，提取主题相关事实、数据和引用，确保内容最新且减少“幻觉”，并自动添加引用来源。
- 自动化发布：支持与 WordPress、Webflow 等平台的直接集成，通过 Zapier 和 Make 实现的其他平台集成，实现一键发布。
- 个性化功能：支持用户自带 API 密钥，仅支付实际使用的 AI 代币费用，节省成本。
- 内部与外部链接：自动在文章之间添加自然的内部链接和权威来源的外部链接，提升内容的连贯性和可信度。
- 封面图片生成：基于 Stable Diffusion 3.5 或 DALL-E 3 自动生成吸引人的封面图片，或从 Pexels 和 Unsplash 中选择合适的图片。
- Webhooks 自动化：支持 Zapier、Make、n8n 等工具，实现内容创作全流程自动化，提升团队工作效率。
Machined AI的官网地址
- 官网地址：https://machined.ai/
Machined AI的应用场景
- 内容营销：快速生成博客文章、社交媒体内容和构建内容集群，提升内容发布频率和 SEO 排名。
- SEO 优化：通过自动化关键词研究和优化，自动添加内部和外部链接，提升网站自然流量。
- 新闻媒体：快速生成新闻报道和专题内容，确保时效性和深度。
- 企业内容管理：自动生成产品描述、用户手册和内部知识库文章，提升内容一致性和准确性。
- 教育领域：快速生成教学材料、课程大纲和研究报告，提高教学和研究效率。
August 7, 2025
专访Pi产品负责人Macro：全球用户量突破300 万了，还需要继续学Gamma吗？
一款让做 PPT 变得前所未有轻松的工具，正在悄悄改变很多人的工作方式。

它把 AI 和传统演示文档结合在一起，几乎不用学习复杂操作，输入想法就能得到一份完整的演示内容。

对那些从没做过幻灯片的人来说，它第一次让内容创作变得可触摸、可上手。

在 WAIC 展会之后，Pi 的全球用户量突破了 300 万。

每天都有培训讲师、科普创作者、甚至从未打开过 PowerPoint 的小作坊老板，在这里生成属于自己的演示内容。

有人用它做线上公开课，有人把它用在销售路演，还有人只是想第一次给产品做一份像样的介绍。

做出这款产品的，是一个十几个人的小团队。没有铺天盖地的广告，也没有复杂的增长打法，他们靠着产品本身和几次展会活动，把它推到了几百万用户手里。

Macro 说，他们最初希望做的是一个能承载多模态内容的“内容容器”。文字、图片可以直接放进去，未来音视频也能加入，让 AI 生成的内容和人工编辑的内容结合起来，最终做出一份真正可用的成果。

产品名称：Pi（Presentation Intelligence)

Slogan：AI原生的内容创作和分享的 Agent 平台，不止AIPPT

主要功能：AI原生的内容创作和分享的 Agent 平台。这是目前在内容创作场景代表SOTA水准，集成知识管理、设计引擎和AI原生编辑器的全栈智能体Copilot系统，为全球用户提供专业质量、精准完备、高效和谐的内容创作和共享体验。

官网：Pi

以下是我们和 Pi 产品负责人 Macro 的访谈：

全球用户量突破300万

👩‍🦰K姐研究社

Hi~Macro，你们最近在忙什么？

🧑🏻‍💻 Macro

主要在做WAIC的展会，从预热到收尾整体很成功，我们的用户量又上升了一个台阶，全球用户量突破 300 万了。然后还有一些品宣的事情。

👩‍🦰K姐研究社

现在是国内和海外两边一起推进吗？

🧑🏻‍💻 Macro

我们的目标是全球顶级的AI产品，希望先在国内市场验证产品和技术，把细节打磨的差不多，产品完成度更高一点，后面就会全面发力。

从语言模型到多模态内容容器，重新定义 AI 创作形态

👩‍🦰K姐研究社

为什么当初想要做这款产品？

🧑🏻‍💻 Macro

我们觉得既然已经进入了AI时代，就应该改变传统制作PPT的低效方式。过去做 PPT，大部分人先上网找模板，再一个字一个字地改，甚至还常常因为模板的槽位和内容不匹配，将很多精力放在排版上。非常繁琐。

如果作为工具，不仅能提效，还能提供创意，那就是一个真正优秀的产品。

👩‍🦰K姐研究社

最开始你们对这个产品的设想是什么样子？

🧑🏻‍💻 Macro

我们最早做这个产品时，模型还只是语言模型，市面上大部分产品也只是一个聊天框。

我们判断未来一定是多模态，所以希望用一种“内容器”的形式承载文字、图像，甚至是音乐和视频等等，让 AI 生成的内容与人工编辑的内容结合，最终产出可用成果。

基于广泛的竞品调研和我们在编辑器上的经验，我们选择自研一款类似 Gamma 的编辑器，作为多模态内容的载体。

目前我们的产品已经支持文字和图像模态，音乐和视频会在市面上模型能力成熟后逐步加入。

以前的内容是一个创作者做完了，就去分发出去，这其实单向的，我们希望内容还能产生交互。

所以我们加入问卷等交互方式，未来还会支持用户在内容创作和分发过程中直接与内容互动，AI 会辅助回答用户的问题。

这是我们最早规划的方向，只是一些功能还在迭代中。

👩‍🦰K姐研究社

可以理解为你们现在聚焦演示场景，集成多模态能力。目前平台已支持图像生成功能，但尚未开放视频，是因为效果还没达到预期吗？

🧑🏻‍💻 Macro

是的，目前我们没有直接加入视频功能。因为如果用户花很长时间去一页一页地配置视频，会影响整体体验。

图像功能也是同理，我们的用户基本不需要自己写 Prompt，就能生成第一版图像。除非要求特别高的时候，才会打开 Prompt 进行调整或者重新生成。

我们也希望用户在平台上做视频的时候，不用因为 Prompt 技巧而困扰，只需用自然语言的表达，就能直接生成内容。

用户只需要专注内容本身，以及基础的美学和排版表达就可以了。

👩‍🦰K姐研究社

像很多智能体可以根据主题自动配图，你们后续会考虑吗？

🧑🏻‍💻 Macro

会的，我们现在也是有自动配图的，AI 会根据你的内容上下文，来帮你生图，或者用我们主题自带的“装饰图”。

我们也在考虑用多个 Agent 帮用户收集资料、分析哪些数据和图片更适合当前内容场景。

这一块技术我们在跟进，但也有顾虑，就是数据版权问题，所以我最近在做合规调研和报告。如果风险可控，我们会尽快跟上。

同时，我们也在搭建自己的图库，已经收集了大量没有版权风险的图片，后续会开放给用户使用。

👩‍🦰K姐研究社

你们为什么会考虑加入和设计、管理相关的功能，比如自定义字体和交互问卷？

🧑🏻‍💻 Macro

先说设计和自定义主题这一块。我们本质上还是做排版内容，排版离不开美学设计。

所以希望把这个口子开放给有较高审美或有设计功底的用户，让他们能创造更漂亮的作品。

光靠我们自己定义主题肯定有限，我们现在有一个百来人的设计师微信群，他们既是第一波用户也是共创用户，会做一些精美主题给我们，我们也会给一定的创作奖励。

未来如果用户有自己的视觉需求，也可以通过这个途径自己做，而不是必须依赖我们来定制主题。

改布局、排版、文字，只需要鼠标点一下

👩‍🦰K姐研究社

你们的编辑器是什么东西都能往里面装吗？

🧑🏻‍💻 Macro

对。是的，我们支持上传 PPT 做二次排版，社区里大家分享的优质作品也能直接拿来用，新的 Coding 形式、HTML 网页也可以兼容。未来交互方式有变化，我们也能适配。

我觉得目前各家用 Agent 做 PPT 的方式，如果真要深耕，最终也离不开自有的编辑器。而现在再去做编辑器，多半也会往我们这个方向靠。

👩‍🦰K姐研究社

现在市面做演示文档和 PPT 生成的很多，传统方式用模板套内容，一句话就能生成一个。你们如何平衡创意效果、设计效果和内容生产效率的关系？

🧑🏻‍💻 Macro

我们自己观察，市面上做 PPT 主要有四类技术架构：
- 最早期的模板套版——比如稿定、Canva，把模板搬到线上，用户自己去套版，这是最传统的一种。
- 模板+大模型文案——比如像素绽放、AI PPT，把模板标好槽位，用大模型生成文案套进去。
- 我们这种自研编辑器模式——模型生成内容后，按编辑器的定义排版。
- AI Coding 生成 HTML 形式的 PPT，现在很多厂商在跟进。
我们更看好第三种模式，原因有两点：
- 内容完整性高：传统套版如果模板只有 4 个点，模型生成了 6 个点，后两个可能放不上去；在我们这边，生成多少点就能排多少点。
- 排版更智能流畅：我们模型会理解语义，比如带时间线的内容会自动用时间轴排版，并列内容就用并列结构呈现。
相比用 Agent 或 HTML 生成的方案，我们的优势在于编辑体验和速度：生成一份 8 页的 Slide 大概 30 秒就能完成；

Agent 方案大部分需要几分钟，Token 消耗非常大，而且不方便编辑；他们很多只能改文字，改排版或颜色还得重新用自然语言交互，再等十几二十分钟，体验是很差的。

在我们这里，改布局、排版、文字，只需要鼠标点一下就可以了。

👩‍🦰K姐研究社

现在各家都在尝试用 AI Coding 生成网页或演示文档，但基本上只能导出 PDF，很难再转成可二次编辑的 PPT。你觉得未来这种模式会对你们的市场造成冲击吗？

🧑🏻‍💻 Macro

不能说是直接冲击吧。现在各家产品都还在迭代，我们自己内部也在研究这套模式。

我们也希望引入多 Agent，先帮用户把前置内容做扎实，比如能帮他搜索和分析，这样生成的可视化内容数据就更完整，这是 Agent 的明显优势。

但从编辑体验、二次编辑、导出等环节看，长期来看这类模式也大概率会趋向我们现在的框架。只是做一个真正好用的编辑器确实需要时间，所以我认为长期可能会走向一致。

从国内版 Gamma 起步，坚持小团队打法

👩‍🦰K姐研究社

你们为什么想去打国内版 Gamma 这个点？

🧑🏻‍💻 Macro

2021年我就用过 Gamma 和 Tome，观察到国内很多人在用Gamma，尤其是在科技领域，大家愿意拥抱新兴产品。从运营角度，我们想先把这部分人群吸引过来。

👩‍🦰K姐研究社

我们观察到 Tome 之前转向做 Marketing，现在甚至业务都关掉了，你们怎么看这个现象？

🧑🏻‍💻 Macro

Tome 跟 Gamma 以及我们不太一样，它主打自由编辑。从结果来看，他们没有坚持最初的方向，这可能也跟团队基因有关吧。

同比来看，Gamma 现在就运营得很好，小团队活的轻松，有不错的ARR和稳定地收入。

所以Tome的转变我们分析更多可能是团队的因素，或者说是资本的因素。

但是我们依然会看好这个赛道，而且最近很多做 Agent 的团队也在切入这一细分场景。

👩‍🦰K姐研究社

团队规模和组织建设也对标 Gamma 吗？

🧑🏻‍💻 Macro

我们团队目前大约 16–17 人。团队负责人（CEO）非常崇尚小团队模式，因为在今天，不必像传统公司那样每个环节都堆人。

未来我们也希望团队不超过 30 人，就能完成整个产品闭环，这与 Gamma 的模式很像。

👩‍🦰K姐研究社

你们现在的产研配比是怎么样的？有没有像吴恩达说的那种“1 个产品经理配 0.5 个研发”的探索？

🧑🏻‍💻 Macro

我们没有那么兴奋地去追求比例。现在基本上是一人多角，就像我原来是产品经理，但现在同时负责一部分产品、大部分的运营，还有部分商务，也会带一两个稍微资历浅一点的小朋友一起做。

我们现在研发的人员稍多一点，因为把编辑器做好是挺麻烦的事情，不是 AI Coding 就能完全帮到的。

我们研发大概十来个人，剩下的是产运，所以算下来产研差不多是一比一点几。但我觉得这个比例并不适用于我们内部，因为好几个研发也具备产品设计的能力和意识。

从没做过 PPT 的人，在小程序里成了核心用户

👩‍🦰K姐研究社

你们最初是为哪些用户群里设计的这个产品？

🧑🏻‍💻 Macro

上线初期我们并没有细分推广，而是希望更多人先上手体验，看看他们用产品帮自己完成什么样的内容创作。

从数据反馈来讲，使用效果最好的是做培训、科普类的创作者，因为他们的内容创作的频次非常高，演示的对象也非常多，所以常常一周会有三四次都要来上面修改内容，或者重新创作一份新的，这类人群现在是粘性付费最好的，他们创作的内容也是最符合我们想要去呈现的。

他们的作品不局限于传统的PPT，会嵌入网页、视频等多种元素正好契合我们产品作为多模态容器的初衷。

👩‍🦰K姐研究社

其他家都是在网页上生成内容。但是你们还做了一个小程序，为什么？

🧑🏻‍💻 Macro

一是考虑国内使用习惯，很多人不常使用电脑，希望小程序让更多人更方便地使用，体验大模型带来的内容创作变革；

二是为了内容闭环，小程序是国内很好的分发渠道，Web端做好的内容通过小程序分发到朋友圈或他人更直接。

👩‍🦰K姐研究社

运营小程序过程中，用户占比或使用行为有什么不一样？

🧑🏻‍💻 Macro

最大区别是年龄层。小程序用户整体更偏大，很多是四五十岁甚至更年长的人。

他们好奇“这个东西能帮我做 PPT 吗”，而且很多人在国内其实没怎么做过 PPT。

举个形象的例子：像我们上学时那些年纪稍大的老师，他们做 PPT 基本就是几行字加一张图，几乎没有排版，但在同龄人里已经算比较会做了。很多这个年龄段的人压根不会做 PPT。

我有个 60 多岁的叔叔，经常要出去卖自己的产品，小作坊级别的，也没人帮他做 PPT。他听说我在做这个产品后特别好学，简单教了一下就能用手机完成一份商品介绍，他用得很开心。

我们在推广中也发现，这类人群确实很多。

👩‍🦰K姐研究社

是的，实际上是被忽视掉的一群人啊。

🧑🏻‍💻 Macro

对。

👩‍🦰K姐研究社

不同年龄段用户在付费行为上有差异吗？比如四五十岁的用户和年轻用户，哪一类付费率更高？

🧑🏻‍💻 Macro

付费率还是年轻用户更高一些。年纪稍微大一点的用户，如果他比较好学，用过产品后也会被我们转化到网页端。

因为在网页上，只要生产过两份内容，就能基本学会我们的产品。整体门槛不高，不涉及任何代码，鼠标点点、键盘敲敲字就能完成。

B 端容错率连 1% 都不到，目前优先做 C 端

👩‍🦰K姐研究社

你们在商业模式上更倾向 C 端还是 B 端？

🧑🏻‍💻 Macro

优先发展C端市场。大模型的核心价值在于提效，但在 B 端场景里，精准性要求极高，容错率可能连 1% 都不到，而 C 端的容错空间更大，所以目前我们还是以 C 端为主。

等到基模水平能够有效解决幻觉、确保不出错，我们会更大力度地投入 B 端。目前我们也在关注 B 端机会，但核心仍偏向 C 端。

👩‍🦰K姐研究社

你们的编辑器和演示文档生成能力，会考虑对外开放吗？比如通过 API 或 MCP 的形式输出给其他公司使用？

🧑🏻‍💻Macro

这一层我们现在已经在做了，目前已经接入了一些知名的企业，比如Kanter（国际咨询公司）。

他们内部接了一些模型，也有自己的数据库，去给它的用户生成内容。现在他更希望把结果以可视化内容给客户，所以调用了我们的能力来生成 Slide

这个案例我们还做了视频演示，已经上线了。

另外也有一些教育机构也接了我们的API，用来做培训场景的 Slide。

这次WAIC展会，有很多企业对我们都蛮感兴趣的，包括一些综合集团等等，他们都来咨询过相关的能力。

首次亮相WAIC，线上活动每日带来数万新用户

👩‍🦰K姐研究社

在 WAIC 活动期间，你们上线了一个抽奖活动，可以分享一下吗？

🧑🏻‍💻 Macro

抽奖是传统运营里非常经典且有效的方式，大家对未知奖品和概率性的刺激都蛮感兴趣的。

我们在 WAIC 亮相，这是公司第一次在社交媒体上对外展示，也希望借这个节点让更多用户认识公司和产品。

现场我们的展位在 H3 楼层一直是排队状态，应该是整个楼层里除了宇树、Rokid 外排队最长的队伍。

但现场的流量毕竟有限，所以我们同步做了线上的裂变活动，这个活动效果非常成功，每天新增用户都是大几万。

👩‍🦰K姐研究社

这个抽奖活动是怎么实现裂变和用户自发推广的？

🧑🏻‍💻 Macro

我们花了很大的成本准备奖品，包括自己的周边，质量都挺高的，T-shirt 怎么洗都没问题，还用了刺绣工艺。

这也跟我们创始人的基因有关，他对美学和质量的追求很高，所以哪怕是大量赠送给用户的周边也花了蛮多的心思。

另外，我们还结合了当下Labubu的热点来做抽奖活动。活动推了两周之后，我们发现饿了么他们也开始用Labubu做营销裂变的活动了，这个玩法的效果确实不错。

👩‍🦰K姐研究社

你们主要的增长手段和渠道有哪些？

🧑🏻‍💻 Macro

我们现在有几个运营动作在陆续上线。整个团队没有请特别厉害的运营大牛，基本上还是自己边做边摸索，不过目前整个运营框架已经搭完了。

第一块是有一点点小量投放，但真的很小，和几个竞品比几乎可以忽略。

第二块是社媒的 KOL 联动。WAIC 期间我们也做了一些优质博主的发掘，有不少博主也自发来我们展位打卡的，后面我们也会做一些建联动作。

第三块是运营活动。我们计划后面一两个月都推出一个小活动，但主题会不一样。

这次 WAIC 活动主要是传播和拉新，后面可能会办创作小比赛，把优质创作者聚拢起来，形成更高效的共创机制。

内容更 Fancy，长远目标是交互式平台

👩‍🦰K姐研究社

实际上你们是想搭建一个创作者生态，为高阶用户提供个性化服务，对吗？

🧑🏻‍💻 Macro

对，可以这么理解。另一个层面理解，我们现在做的是工具，但长远来看，不想局限于工具，我们希望做成一个内容平台，成为下一代内容范式的承载平台。

内容最早从图文，比如今日头条；后来发展到现在的短视频。再往后，内容平台会是什么样的形式，大家都在探索，我们也在探索。

我们内部比较兴奋的一点是，未来内容会是交互式的内容，而具体如何交互，还在一步步探索中。

👩‍🦰K姐研究社

你们最近在产品能力上有新的方向吗？

🧑🏻‍💻 Macro

有，我们最近一直在忙一件事，就是想让内容更 Fancy 一点。现在的编辑器布局是结构化的，但很多国内用户习惯传统 PPT 的白板模式，可以自己拼、自己画，简单或复杂都能做。

用户调研下来，大家希望效果更 Fancy，所以我们正在开拓这块能力，预计 8 月底生成和排版能力会有一次大升级。

👩‍🦰K姐研究社

今天非常感谢 Macro，和我们聊了这么多关于 Pi 的故事，让我们看到内容创作的新可能。也祝 Pi 用户量继续高速增长，期待 Macro 下次再来和我们分享新的惊喜。

🧑🏻‍💻 Macro

谢谢。

原文链接：专访Pi产品负责人Macro：全球用户量突破300 万了，还需要继续学Gamma吗？
August 7, 2025
ChatPaper.ai – AI学习助手，自动生成论文、视频和笔记摘要
ChatPaper.ai是什么

ChatPaper.ai 是 AI 学习助手，专为学生、研究人员和职场人士设计，能快速提取论文核心观点，3 分钟读懂复杂文献，自动整理课堂笔记和会议记录，生成清晰的思维导图，助力高效复习和工作。ChatPaper.ai 支持语音转文字，能生成长达 2 小时的录音转化为结构化文本，智能提取关键信息。ChatPaper.ai 操作简单，支持多语言处理，无需下载，网页即可使用，是提升学习和工作效率的利器。

ChatPaper.ai的主要功能
- 智能文献分析：快速提取论文核心观点，3 分钟理解复杂文献。
- 课堂笔记助手：自动整理课堂笔记，生成知识图谱，提升学习效率。
- 会议记录整理：支持长达 3 小时的录音，自动生成会议纪要和关键摘要。
- 语音转文字：支持将 1 分钟到 2 小时的录音转换为结构化文本。
- 思维导图生成：基于 PDF 文档或音频内容自动生成清晰的思维导图。
- 多语言支持：支持多种语言，包括英语、中文、日语、韩语、德语、法语、俄语和西班牙语。
- 文件管理：提供专业的文件管理界面，支持重命名、预览和删除操作。
ChatPaper.ai的官网地址
- 官网地址：https://www.chatpaper.ai/
ChatPaper.ai的产品定价
- 免费计划：每天上传1个文档，进行AI笔记生成、3次AI对话、AI思维导图生成、基础文档搜索和每月30分钟音频处理。
- 专业月度计划：139元/月，提供无限文档上传、AI笔记生成、AI对话、AI思维导图生成、专业AI搜索、无限AI音频转录和优先支持。
- 专业年度计划：59.92元/月，年付享受无限使用权限，包括所有高级功能如无限文档上传、AI笔记生成、AI对话、AI思维导图生成、专业AI搜索、无限AI音频转录和优先支持。
ChatPaper.ai的应用场景
- 学术研究：快速提取论文核心观点，帮助研究人员高效梳理文献，节省时间和精力。
- 学生学习：自动生成课堂笔记和知识图谱，助力学生高效复习，提升学习效率。
- 职场工作：自动转录会议录音并生成纪要，节省整理时间，提高工作效率。
- 知识管理：集中管理文献和笔记，支持智能搜索和知识图谱生成，方便知识整理和回顾。
- 个人提升：支持多语言文献阅读，帮助用户快速了解不同领域的知识，促进自我提升。
August 7, 2025
Speech 2.5 – MiniMax推出的新一代语音生成模型
Speech 2.5是什么

Speech 2.5 是 MiniMax 推出的新一代语音生成模型，在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言，能精准还原不同语言和口音的细节，复刻音色时保留风格与情绪，跨语种切换依然逼真。Speech 2.5 适用企业多语种客服、创作者全球内容制作和教育者语言教学等场景，助力全球化内容创作与传播。用户可通过MiniMax开放平台和MiniMax Audio官网使用模型。

Speech 2.5的主要功能
- 多语种语音合成：支持40种语言，包括中文、英文、西班牙语、保加利亚语、丹麦语、希伯来语、马来语、波斯语等。不同语言之间的切换自然流畅，字错率低，自然韵律度高，适合商务会议、播克等多种场景。
- 音色复刻：高度还原特定音色，包括跨语种口音、风格和情绪。能保留不同地区口音（如英国女王的发音）及特殊年龄的声音细节。
- 高性价比：在全球语音模型榜单中表现优异，延续高性价比的优势，广泛应用在国内外头部平台。
Speech 2.5的项目地址
- 项目官网：MiniMax Audio
如何使用Speech 2.5
- 访问官网：打开浏览器，访问 MiniMax Audio 官网。
- 注册/登录账号：点击“注册”或“登录”按钮，完成账号创建或登录。
- 选择功能模块：登录后选择语音合成功能模块。
- 音色复刻操作：输入文本提示词，点击“生成语音”。
- 下载或播放：生成的语音文件在线播放或下载保存。
Speech 2.5的应用场景
- 企业客户：企业客户实现多语种客服与广告配音，降本增效，助力全球化业务拓展。
- 创作者：创作者借助 Speech 2.5 制作多语种短视频，轻松拓展全球受众。
- 教育者：教育者生成多语言语音样本，辅助语言学习，提升教学效果。
- 全球化应用：跨境电商平台借助 Speech 2.5 生成多语种产品介绍，提升用户体验和购买转化率。
August 7, 2025
北京大学《人工智能2.0时代的人才培养和通识教育课程建设》（PDF文件）
《人工智能2.0时代的人才培养和通识教育课程建设》回顾了人工智能从1.0（深度学习）到2.0（大模型）的发展历程，分析了大模型的特点、局限及最新进展。报告指出，大模型具备强大的生成和推理能力，也面临数据依赖和高成本等问题。在人才需求方面，报告强调应用人才、IT专业人才和AI专业人才的不同能力要求，提出针对不同层次人才的教育路径。报告详细介绍了人工智能通识教育课程的设计理念和实施方法，包括课程目标、内容、教学方法和资源，通过通识教育提升全民的AI素养和人机协作能力。

获取《人工智能2.0时代的人才培养和通识教育课程建设》报告PDF原文件

扫码关注回复： 20250807
人工智能发展历程
- AI 0.0（1956-2006）：该阶段基于规则和专家系统，依赖人工特征工程，可解释性强但泛化能力弱。
- AI 1.0（2006-2020）：该阶段以深度学习为核心，CNN/RNN/Transformer架构推动计算机视觉、自然语言处理领域取得突破性进展，仍需依赖大量标注数据进行训练。
- AI 2.0（2020-至今）：本阶段进入大模型时代，以GPT/Stable Diffusion为代表的多模态生成模型实现文本、图像、视频的跨模态交互，同时推理能力显著提升（如DeepSeek R1模型）。
大模型的特点和局限
- 大模型的特点
  
  强大的生成能力：大模型能生成高质量的文本、图像、视频等多种内容，为创意产业、内容创作等领域带来了前所未有的变革。
  
  多模态融合：将语言、视觉等多种模态数据相结合，使模型能够更全面地理解和表达世界，为智能交互、自动驾驶等应用提供了更强大的技术支持。
  
  复杂推理能力：基于长链推理技术，大模型能逐步分解复杂问题并进行多步骤逻辑推理，处理更复杂的任务和场景。
- 大模型的局限
  
  数据依赖：大模型的训练需要海量的数据支持，数据的质量和多样性直接影响模型的性能和生成结果的准确性。
  
  高算力需求：训练和推理过程对计算资源要求极高，导致研发和应用成本居高不下，限制了在一些资源受限场景中的广泛应用。
  
  幻觉问题：生成的内容可能存在与事实不符的情况，需要进一步的验证和筛选，确保信息的真实性和可靠性。
大模型的发展观察
- 跃进期（2020-2022）
  
  ChatGPT的发布：2020年ChatGPT的推出迅速引发全球对大模型的关注和研究热潮，其强大的语言生成能力和交互体验让人们看到大模型的巨大潜力。
  
  GPT-4的推动：2022年GPT-4的发布进一步提升大模型的性能和应用范围，推动大模型在更多领域的探索和实践。
- 繁荣期（2022-2023）
  
  多模态模型的爆发：Stable Diffusion、Mid-Journey等多模态模型相继问世，将大模型的应用从文本领域拓展到图像、视频等视觉领域，为创意设计、影视制作等行业带来了新的机遇。
  
  国内大模型的崛起：国内企业纷纷加快大模型的研发步伐，文心一言、通义千问等首批模型相继发布，展现了国内在人工智能领域的技术实力和发展潜力。
- 深化期（2023-至今）
  
  推理模型的突破：DeepSeek-R1、QwQ-32B等推理模型的出现，显著提升模型的推理能力和效率，为复杂问题的解决提供更有力的支持。
  
  性能提升与开源生态：国内模型性能持续提升，如Qwen2.5、GLM-4等不断更新优化。同时，开源生态蓬勃发展，如Baichuan、Qwen等系列模型的开源，推动大模型技术的普惠化和行业应用的加速落地。
大模型时代的人才需求
- 应用人才
  
  思维要求：具备利用AI技术和工具解决实际问题的能力，能够将AI应用于工作和生活的各个方面，提升效率和质量。
  
  能力增加：增强问题定义、独立思考、沟通表达等能力，更好地与AI协作完成任务。
  
  教育需求：通过AI通识教育，普及AI基础知识和应用技能，培养全民的AI素养和人机协作能力。
- IT专业人才
  
  思维要求：掌握数据思维和模型思维，以数据为核心进行系统设计和优化，为行业赋能。
  
  能力增加：提升机器学习、深度学习、数据工程等方面的能力，适应AI时代对IT人才的新要求。
  
  教育需求：开展新IT教育，更新IT专业课程体系，融入AI相关技术和应用内容，培养既懂传统IT又掌握AI技术的复合型人才。
- AI2.0专业人才
  
  思维要求：具备数学思维、好奇心和试错精神，热爱探索人类智能的本质和奥秘。
  
  能力增加：掌握数据工程、底层软硬件工程、大模型范式（如Transformer、Diffusion、RL等）能力，能够从事AI前沿技术研发和创新。
  
  教育需求：构建AI专业教育体系，培养具有深厚理论基础和创新能力的AI专业人才，推动人工智能技术的持续发展和突破。
人工智能通识课
- 课程目标：培养学习者对人工智能的全面认知，掌握生成式AI的应用能力，提升人机协同与批判性思维，为未来的学习和工作打下坚实基础。
- 课程内容：涵盖人工智能基础、核心技术（如Transformer架构）、应用领域（金融、医疗、教育等）以及面临的挑战与未来发展方向，构建完整的知识体系。
- 教学方法：采用案例分析、动手实操、项目制学习和跨学科融合等多样化方法，提升学习者的实践能力和创新思维。
- 教学资源：提供PPT课件、微课视频、教学演示案例以及实战任务与作业题，支持线上线下混合式学习，满足不同学习者的需求。
人工智能赋能教育
- 人工智能赋能教学：通过AI辅助教学工具和智能学情分析，提升教学效率和个性化学习体验，推动教育的智能化发展。
- 课程创作工具：利用AI辅助课程设计和无代码工程交付，降低课程创作门槛，提高教学资源的开发效率和质量。
- 人工智能通识课的实施：通过通识课、通育课和通用课的分层设计，逐步提升学生的AI素养、人机协作能力和专业应用能力，实现人工智能教育的普及与深化。
获取《人工智能2.0时代的人才培养和通识教育课程建设》报告PDF原文件

扫码关注回复： 20250807
August 7, 2025
Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型
Qwen-Flash是什么

Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型，版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升，特别优化主观开放类任务的处理，能更好地满足用户需求。Qwen-Flash支持1M超长上下文，适合处理复杂任务。定价为每百万字符0.00015元，具有速度快、成本低的优势，适合简单任务快速处理。模型现已上线阿里云百炼平台。

Qwen-Flash的主要功能
- 通用能力提升：相较于之前的版本，Qwen-Flash在处理各种任务时的通用能力有显著提升。
- 推理能力增强：模型能完成一定难度的数学、科学、代码类等推理任务，适用需要逻辑分析和问题解决的场景。
- 知识能力提升：在中英文长尾知识处理方面有大幅度提升，能更好地理解和生成相关领域的内容。
- 主观开放类任务优化：专项优化主观开放类任务的处理，能提供更符合用户偏好和更有帮助性的回复。
- Agent能力增强：增强模型的Agent能力，在执行任务时更加智能和高效。
- 超长上下文支持：支持1M（百万字符）超长上下文，能处理更长的文本输入。
Qwen-Flash的项目地址
- 项目官网：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/group-qwen-flash?modelGroup=group-qwen-flash
如何使用Qwen-Flash
- 访问平台：访问阿里云百炼平台官网。
- 登录或注册：按提示完成账户注册和登录。
- 模型体验：点击导航栏上方“模型”，进入模型广场，选择“模型体验”-“文本模型”，选择“更多模型”找到进行Qwen-Flash模型，进行文本对话或文本调试。
- 模型部署和应用：如果您需要将模型部署到应用中，用“模型部署”功能。或通过“工作台”进行批量推理、模型评测和模型调优。
Qwen-Flash的应用场景
- 客户服务：Qwen-Flash能快速处理客户咨询，提供即时反馈和解决方案。
- 内容创作：帮助用户自动生成或编辑文章、博客和其他文本内容。
- 教育辅导：Qwen-Flash能提供个性化的学习支持和学术问题解答。
- 编程辅助：为开发者提供代码理解和编程建议，甚至自动生成代码。
- 数据分析：Qwen-Flash能分析大量数据，帮助提取有价值的业务洞察。
August 7, 2025
魂旅 – AI虚拟旅行应用，“分身”代替用户旅行
魂旅是什么

魂旅是创新的AI虚拟旅行体验应用。用户可以通过设定旅行目的地和交通工具（如自行车、摩托车、房车等），应用会生成一个“分身”代替用户开启旅程。在旅行过程中，AI会根据目的地的天气、景点等信息生成生动的故事，通过语音播报的方式让用户仿佛身临其境。应用会根据环境特征动态模拟风声、雨声、海浪声等音效，增强沉浸感。用户可以在地图上实时查看载具的移动轨迹，能通过“行车记录仪”回顾旅行过程。魂旅提供电台广播功能，自动切换当地广播频道，让用户更深入地感受当地文化。

魂旅的主要功能
- 虚拟分身旅行：用户可设定旅行目的地，应用生成“分身”代替用户旅行。
- 交通工具选择：提供多种交通工具（如自行车、摩托车、房车等），根据载具速度模拟旅程。
- AI语音播报：AI根据旅行场景生成故事并语音播报，增强沉浸感。
- 环境音效模拟：根据天气和环境动态生成音效，如雨声、风声、海浪声等。
- 动态轨迹展示：实时显示载具移动轨迹，支持地图缩放和地点详情查看。
- 旅行记录回顾：用户可查看旅行足迹、数据统计及行车记录仪内容。
- 电台广播功能：内置全国广播频道，自动切换当地电台，也可手动选择。
如何使用魂旅
- 访问平台：访问魂旅的官方网站：https://www.touringsoul.com/，开启位置定位服务。
- 下载与安装：在应用商店搜索“魂旅”，下载并安装到手机上。
- 选择目的地：打开应用后，输入或选择你想要去的旅行地点。
- 挑选交通工具：从提供的交通工具选项中（如自行车、摩托车、房车等）选择一种，应用会根据载具速度模拟旅程。
- 开启旅行：点击“开始旅行”，应用会生成一个虚拟分身开始旅程。
- 体验旅行：应用会通过语音播报和环境音效模拟，带你感受沿途风景和故事。
- 查看轨迹：在地图上实时查看载具的移动轨迹，了解旅行路线。
- 回顾记录：旅行结束后，通过“行车记录仪”功能查看旅行过程，也可查看旅行数据和足迹。
- 享受广播：应用会自动切换到当地广播频道，也可以手动选择喜欢的频道，感受当地文化。
魂旅的应用场景
- 上班族放松：适合在工作间隙或休息时使用，让用户在精神上获得旅行的放松和愉悦。
- 旅行规划参考：用户可以通过虚拟旅行提前了解目的地的情况，为未来的实际旅行做准备。
- 缓解旅行渴望：对于那些暂时无法出行的人来说，魂旅提供了一种缓解旅行渴望的方式。
August 7, 2025
dots.vlm1 – 小红书hi lab开源的首个多模态大模型
dots.vlm1是什么

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色，接近闭源 SOTA 模型水平，在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练，原生支持动态分辨率，在文本监督基础上增加了纯视觉监督，提升了感知能力。训练数据引入了多种合成数据思路，覆盖多样的图片类型及其描述，显著提升了数据质量。

dots.vlm1的主要功能
- 强大的视觉理解能力：能准确识别和理解图像中的内容，包括复杂图表、表格、文档、图形等，支持动态分辨率，适用于多种视觉任务。
- 高效的文本生成与推理：基于 DeepSeek V3 LLM，能生成高质量的文本描述，在数学、代码等文本推理任务中表现出色。
- 多模态数据处理：支持图文交错的数据处理，能结合视觉和文本信息进行综合推理，适用于多模态应用场景。
- 灵活的适配与扩展：通过轻量级 MLP 适配器连接视觉编码器和语言模型，方便在不同任务中进行灵活适配和扩展。
- 开源与开放性：提供完整的开源代码和模型，支持开发者进行研究和应用开发，推动多模态技术的发展。
dots.vlm1的技术原理
- NaViT 视觉编码器：dots.vlm1 使用了一个从零开始训练的 12 亿参数视觉编码器 NaViT，非基于现有成熟模型微调。原生支持动态分辨率，能处理不同分辨率的图像输入，在文本监督的基础上增加了纯视觉监督，提升了模型对图像的感知能力。
- 多模态数据训练：模型采用了多样化的多模态训练数据，包括普通图像、复杂图表、表格、文档、图形等，以及对应的文本描述（如 Alt Text、Dense Caption、Grounding 等）。引入了合成数据思路和网页、PDF 等图文交错数据，通过重写和清洗提升数据质量，增强模型的多模态理解能力。
- 视觉与语言模型融合：dots.vlm1 将视觉编码器与 DeepSeek V3 大语言模型（LLM）相结合，通过轻量级 MLP 适配器进行连接，实现视觉信息与语言信息的有效融合，支持多模态任务的处理。
- 三阶段训练流程：模型的训练分为三个阶段：视觉编码器预训练、VLM 预训练和 VLM 后训练。通过逐步提升图像分辨率和引入多样化的训练数据，增强模型的泛化能力和多模态任务处理能力。
dots.vlm1的项目地址
- GitHub仓库：https://github.com/rednote-hilab/dots.vlm1
- Hugging Face模型库：https://huggingface.co/rednote-hilab/dots.vlm1.inst
- 在线体验Demo：https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo
dots.vlm1的应用场景
- 复杂图表推理：能对复杂的图表进行分析和推理，帮助用户更好地理解和解读图表中的信息。
- STEM 解题：在科学、技术、工程和数学（STEM）领域，模型可以辅助解决相关问题，提供解题思路。
- 长尾识别：对于一些出现频率较低的类别或对象，dots.vlm1 也具备较好的识别能力。
- 视觉推理：能处理涉及视觉信息的推理任务，如障碍物识别、商品比较分析等。
- 图文问答与互动：支持图文结合的问答任务，能进行多轮对话，根据上下文给出连贯的回答。
- 内容推荐：基于多模态数据，为用户提供个性化的内容推荐，如在小红书平台上推荐相关的图文或视频。
August 6, 2025