Skip to main content

Author: Chimy

QuickCreator – 为出海企业设计的AI SEO写作工具

QuickCreator是什么

QuickCreator是为中国出海企业推出的AI SEO写作工具。基于AI技术,能快速生成高质量、符合搜索引擎优化标准的内容,涵盖博客、落地页等多种形式。工具操作简单,提供如关键词框架搭建、自动插入外部引用等实用功能,支持一键导出至WordPress。QuickCreator帮助用户用更低的成本和更短的时间完成SEO工作,显著提升网站自然流量和搜索引擎排名,是出海企业提升内容创作效率和营销效果的有力助手。

QuickCreator

QuickCreator的主要功能

  • 内容创作:提供AI智能写作、关键词优化、多语言支持和内容多样化功能,快速生成高质量SEO内容。
  • SEO优化:具备自动SEO优化、外链自动插入和内容质量检测功能,提升内容在搜索引擎中的排名和可见性。
  • 内容管理:包含内容库管理、版本管理和团队协作功能,方便内容存储、修改和团队协作创作。
  • 数据分析:涵盖内容效果分析、关键词排名监测和用户行为分析功能,助力内容优化和效果提升。
  • 集成与扩展:支持WordPress集成、API接口和插件扩展,实现内容快速发布和系统功能拓展。

QuickCreator的官网地址

  • 官网地址:https://quickcreator.cn/

QuickCreator的应用场景

  • 出海企业SEO内容创作:帮助出海企业快速生成高质量、多语言的SEO内容,提升网站在海外搜索引擎中的排名,吸引目标客户。
  • 独立站内容优化:为独立站运营者提供内容优化功能,快速生成和优化网站内容,提升用户体验和搜索引擎排名。
  • 营销团队内容生产:满足营销团队的多样化需求,高效生产大量营销内容,如博客、社交媒体帖子、广告文案等,助力营销活动。
  • 个人创作者内容创作:支持个人创作者快速创作高质量内容,提升内容的专业性和吸引力,助力个人品牌建设。
  • 国际化业务拓展:助力企业拓展国际市场,生成符合不同国家和地区语言习惯的内容,制定有效的国际化营销策略。

4D-LRM – Adobe联合密歇根大学等机构推出的4D重建模型

4D-LRM是什么

4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点,快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构,预测每个像素的4D高斯原语,实现空间和时间的统一表示,具有高效性和强大的泛化能力。4D-LRM在多种相机设置下均展现出良好的性能,尤其在交替的规范视图和帧插值设置下,模型能有效地插值时间生成高质量的重建结果。

4D-LRM

4D-LRM的主要功能

  • 高效4D重建:4D-LRM能从稀疏的输入视图和任意时间点,快速、高质量地重建出任意新视图和时间组合的动态场景。在单个A100 GPU上,能在不到1.5秒的时间内重建24帧序列,展现高效性和可扩展性。
  • 强大的泛化能力:支持泛化到新的对象和场景。模型在多种相机设置下均展现出良好的性能,尤其在交替的规范视图和帧插值设置下,模型能有效地插值时间生成高质量的重建结果。
  • 支持任意视图和时间组合:支持生成任意视图和时间组合的动态场景,为动态场景的理解和生成提供新的可能性。
  • 应用广泛:支持扩展到4D生成任务,基于与SV3D等模型结合,生成具有更高保真度的4D内容。

4D-LRM的技术原理

  • 4D高斯表示(4DGS):4D-LRM将动态场景中的每个对象表示为一组4D高斯分布。高斯分布能捕捉对象的空间位置和外观,还能捕捉在时间上的变化。每个4D高斯分布由空间中心、时间中心、空间尺度、时间尺度、旋转矩阵和颜色等参数定义。
  • Transformer架构:4D-LRM基于Transformer的架构处理输入图像。输入图像首被分割成图像块(patch),图像块被编码为多维向量,作为Transformer的输入。Transformer基于多头自注意力机制和多层感知机(MLP)处理输入,最终预测出每个像素的4D高斯原语。
  • 像素对齐的高斯渲染:4D-LRM用像素对齐的高斯渲染技术,将预测的4D高斯分布投影到图像平面上,基于alpha混合来合成最终的图像。
  • 训练和优化:4D-LRM在大规模数据集上进行训练,基于最小化重建图像与真实图像之间的差异优化模型参数。训练过程中,模型学习到的通用空间-时间表示使其能够泛化到新的对象和场景,在稀疏输入条件下生成高质量的重建结果。

4D-LRM的项目地址

  • 项目官网:https://4dlrm.github.io/
  • GitHub仓库:https://github.com/Mars-tin/4D-LRM
  • HuggingFace模型库:https://huggingface.co/papers/2506.18890
  • arXiv技术论文:https://arxiv.org/pdf/2506.18890

4D-LRM的应用场景

  • 视频游戏和电影制作:高效重建和渲染动态场景,适用角色动画、场景变化等复杂场景的建模,显著提升游戏和电影的视觉效果,支持实时渲染和多视角生成,增强观众的沉浸感。
  • 增强现实(AR)和虚拟现实(VR):为AR和VR应用提供真实、沉浸式的体验,支持实时交互,用户在虚拟环境中自由移动和观察。
  • 机器人和自动驾驶:帮助机器人和自动驾驶系统更好地理解和预测环境变化,提供准确的路径规划信息。
  • 数字内容创作:减少手动建模和动画制作的工作量,用在视频编辑,提供丰富的编辑选项。
  • 科学研究:用在重建和分析生物医学成像数据,如心脏跳动、呼吸运动等,帮助研究人员理解生物体内的动态过程。

Kling-Foley – 可灵AI推出的多模态视频生音效模型

Kling-Foley是什么

Kling-Foley 是可灵 AI 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入,能生成与视频内容语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容,支持任意时长音频生成。模型基于多模态控制的流匹配架构,用多模态特征融合和特定模块处理,精准实现音视频对齐。模型背后依托大规模自建多模态数据集进行训练,展现出优异的音频生成效果,在音效生成领域处于业内领先水平,为视频内容创作带来更高效、优质的音频解决方案。

Kling-Foley

Kling-Foley的主要功能

  • 高质量音效生成:根据输入的视频内容和可选的文本提示,生成与视频画面语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容,满足不同场景下的音频需求。
  • 任意时长音频生成:支持生成任意时长的音频内容,能动态适应输入视频的长度。
  • 立体声渲染:具备立体声渲染的能力,支持空间定向的声源建模和渲染,让生成的音频具有更强的空间感和沉浸感。

Kling-Foley的技术原理

  • 多模态控制的流匹配模型:Kling-Foley是多模态控制的流匹配模型,核心是将文本、视频和时间提取的视频帧作为条件输入,基于多模态联合条件模块进行融合,输入到MMDit模块进行处理。多模态控制的方式让模型能更好地理解和生成与视频内容相匹配的音频。
  • 模块化处理流程:模型的处理流程包括多个关键模块。多模态特征基于多模态联合条件模块进行融合,输入到MMDit模块预测VAE潜在特征。由预训练的梅尔解码器将潜在特征重建为单声道梅尔声谱图。基于Mono2Stereo模块将单声道声谱图渲染为立体声声谱图,用声码器生成输出波形。
  • 视觉语义表示与音视频同步模块:Kling-Foley架构中引入视觉语义表示模块和音视频同步模块,支持在帧级别上对齐视频条件与音频潜层元素,提升视频语义对齐与音视频同步的效果,确保生成的音频在时间和内容上与视频高度匹配。
  • 离散时长嵌入:Kling-Foley引入离散时长嵌入作为全局条件机制的一部分。让模型更好地处理不同长度的视频输入,生成与视频长度相适应的音频内容。
  • 通用潜层音频编解码器:在音频Latent表征层面,Kling-Foley应用通用潜层音频编解码器(universal latent audio codec),能在音效、语音、歌声和音乐等多样化场景下实现高质量建模。主体是Mel-VAE,联合训练Mel编码器、Mel解码器和鉴别器,让模型学习到连续且完整的潜在空间分布,显著增强音频表征能力。

Kling-Foley的项目地址

  • 项目官网:https://klingfoley.github.io/Kling-Foley/
  • GitHub仓库:https://github.com/klingfoley/Kling-Foley
  • arXiv技术论文:https://www.arxiv.org/pdf/2506.19774

Kling-Foley的应用场景

  • 视频内容创作:为动画、短视频、广告等视频制作提供精准匹配的音效和背景音乐,增强视频的吸引力和专业性,提升创作效率。
  • 游戏开发:生成逼真的场景音效和背景音乐,如武器发射、角色动作、环境音效等,提升游戏的沉浸感和玩家体验。
  • 教育与培训:为教学视频、虚拟培训环境添加合适的音效和背景音乐,增强教学和培训的真实感与吸引力,提高学习效果。
  • 影视制作:为电影、电视剧等影视作品生成高质量的音效和配乐,提升作品的音效质量和剧情感染力。
  • 社交媒体:用户快速为分享的视频添加匹配的音效和背景音乐,提升内容吸引力。

混元-A13B – 腾讯开源基于MoE架构的大语言模型

混元-A13B是什么

混元-A13B是腾讯最新推出的开源大语言模型,基于专家混合(MoE)架构,总参数量达800亿,激活参数为130亿。具备轻量级设计和高效推理能力,仅需1张中低端GPU卡即可部署,极大地降低了使用门槛,适合个人开发者和中小企业。模型在数学、科学和逻辑推理任务中表现出色,能进行复杂的小数比较提供分步解析。用户可根据需求选择“快思考”或“慢思考”模式,兼顾速度与准确性。混元-A13B开源ArtifactsBench和C3-Bench两个数据集,分别用于代码评估和智能体(Agent)场景模型评估,进一步推动了开源生态的发展。

混元-A13B

混元-A13B的主要功能

  • 低资源部署:混元-A13B采用专家混合(MoE)架构,仅需1张中低端GPU卡即可部署,大幅降低了推理延迟与计算开销,适合资源有限的个人开发者和中小企业。
  • 数学与逻辑推理:在数学推理任务中表现出色,例如能准确比较小数大小并提供分步解析,在科学和逻辑推理任务中也展现出领先效果。
  • 快思考模式:适合简单任务,提供简洁高效的输出,追求速度和最小计算开销。
  • 慢思考模式:适合复杂任务,涉及更深、更全面的推理步骤,兼顾效率和准确性。
  • 智能体(Agent)应用:能调用工具,高效生成出行攻略、数据文件分析等复杂指令响应,满足多样化需求。
  • 代码评估与优化:通过开源的ArtifactsBench数据集,支持代码生成、调试和优化等任务,提升编程效率。
  • 智能问答:支持自然语言处理任务,如文本生成、问答系统等,为用户提供准确且有帮助的信息。
  • 开源支持:模型代码已在GitHub开源,用户可以自由下载、修改和使用,促进社区共享和技术创新。
  • API接入:模型API已在腾讯云官网上线,方便开发者快速接入,实现更多应用场景的开发。

混元-A13B的技术原理

  • 专家混合(MoE)架构:混元-A13B采用MoE架构,总参数量为800亿,激活参数为130亿。通过为每个输入选择性地激活相关模型组件,大幅降低了推理延迟与计算开销,使模型在极端条件下仅需1张中低端GPU卡即可部署。与同等规模的密集模型相比,MoE架构在推理速度和资源消耗上更具优势。
  • 预训练与数据集:在预训练阶段,混元-A13B使用了20万亿高质量网络词元语料库,覆盖多个领域,显著提升了模型的通用能力和推理上限。腾讯混元团队完善了MoE架构的Scaling Law理论体系,为模型设计提供了可量化的工程化指导,进一步提升了预训练效果。
  • 多阶段训练与优化:在后训练环节,混元-A13B采用了多阶段训练方式,提升了模型的推理能力,同时兼顾了创作、理解、Agent等通用能力。模型支持256K原生上下文窗口,在长文理解和生成任务中表现出色。

混元-A13B的项目地址

  • Github仓库:https://github.com/Tencent-Hunyuan/Hunyuan-A13B
  • HuggingFace模型库:https://huggingface.co/tencent/Hunyuan-A13B-Instruct

混元-A13B的应用场景

  • 智能体(Agent)应用:混元-A13B能高效调用工具生成复杂指令响应,例如生成出行攻略、分析数据文件等,为智能体应用开发提供了有力支持。
  • 数学与逻辑推理:在数学推理任务中,混元-A13B表现出色,能准确完成小数比较并提供分步解析。
  • 长文理解和生成:混元-A13B支持256K原生上下文窗口,在长文理解和生成任务中表现出色,能处理复杂的文本内容。
  • 代码评估与生成:通过开源的ArtifactsBench数据集,混元-A13B可以用于代码生成、调试和优化,涵盖网页开发、数据可视化、交互式游戏等多个领域。

AiBiao – AI图表处理工具,对话方式进行数据查询、清洗、分析

AiBiao是什么

AiBiao 是基于大语言模型技术的AI图表处理工具,通过自然语言交互帮助用户高效完成数据处理和分析工作。支持用户通过对话的方式进行数据查询、清洗、合并、计算和分析,无需复杂的公式或代码,大大降低了数据处理的门槛。AiBiao 具备“一句话生成图表”的功能,用户只需简单描述需求,可快速生成多种类型的图表,可以智能联网搜索数据填充表格。

AiBiao

AiBiao的主要功能

  • 智能数据对话:用户可以通过自然语言与 AI 进行交互,无需复杂的公式和函数,可完成数据查询、清洗、合并、计算和分析等操作。AI 能智能理解查询意图并精准返回结果,支持复杂的数据处理需求。
  • 一句话图表生成:用户只需输入分析需求或图表描述,AI 可智能生成对应图表,支持多种图表类型和样式,能智能推荐最适合的可视化方案。生成的图表还可以一键导出为高质量图片。
  • 快捷配置图表:提供多种精心设计的预设颜色主题和样式,用户可一键切换配色方案,自定义图表细节,保存个人偏好设置,快速获得专业美观的图表。
  • 智能填充表格:用户可以通过指定关键词或数据范围,让 AI 自动联网搜索相关信息并填充到表格中。支持多种数据源接入,会进行数据准确性验证。

AiBiao的官网地址

  • 官网地址:https://aibiao.com/

AiBiao的产品定价

  • 免费会员:可创建 5 个任务,限制上传 3 个文件,单文件大小限制为 5MB,不可自定义图表配色,导出有水印。
  • 月度会员:原价 39 元/月,现价 9.9 元/月,功能不限制。
  • 年度会员:原价 199 元/年,现价 99 元/年,功能不限制。
  • 永久会员:原价 299 元,现价 199 元,功能不限制。

AiBiao的应用场景

  • 电商运营:电商运营人员可以用 AiBiao 快速整理销售数据,完成数据清洗和汇总。
  • 财务金融:在财务金融领域,专业人士可以用 AiBiao 的联网搜索功能,指定关键词自动抓取行业研究、竞品分析所需的数据,提升数据收集效率,更高效地进行财务分析和风险评估,为投资决策和财务管理提供有力支持。
  • 教育科研:科研工作者在处理实验数据时,用 AiBiao 快速完成数据处理,一键生成符合学术规范的图表,从而节省时间,将更多精力投入到科研创新和学术研究的核心工作中。
  • 医疗健康:医护人员可以用 AiBiao 快速分析患者数据,生成直观的诊疗趋势图,让医疗决策更加科学高效,有助于提高医疗服务质量和患者的治疗效果。

Doppl – 谷歌推出的AI虚拟试穿应用

Doppl是什么

Doppl是谷歌推出的实验性应用,基于AI技术帮助用户虚拟试穿服装。用户上传全身照片后,支持将服装照片或截图“穿”在数字版自己身上,Doppl能将静态图片转换为AI生成的视频,让用户更真切地感受服装上身效果。应用已在美国地区的iOS和安卓平台上线,帮助用户探索穿搭风格。

Doppl

Doppl的主要功能

  • 虚拟试穿:用户上传一张全身照后,基于上传服装照片或截图进行虚拟试穿。
  • 生成效果图和视频:选定服装后,应用生成一张用户本人虚拟形象的试穿效果图,将静态图像转换为AI生成的视频,展现衣物在动态中的效果。
  • 保存和分享:支持用户保存喜爱的造型,回顾过往试穿记录,或将造型分享给他人。

Doppl的官网地址

  • 官网地址:https://labs.google/doppl/

Doppl的应用场景

  • 在线购物:用户将心仪服装图片上传至Doppl,虚拟试穿后再下单,减少因尺寸、款式不符造成的退货。
  • 时尚探索:用户尝试不同风格穿搭,探索适合自己的时尚风格,紧跟潮流。
  • 社交分享:用户将虚拟试穿效果分享到社交平台,与他人交流心得,获取反馈。
  • 二手交易:买家将二手服装图片上传Doppl预览效果;卖家生成多模特试穿图,为买家提供参考。
  • 个人形象管理:用户日常搭配或参加特殊场合前,用Doppl快速尝试不同服装组合,找到最佳装扮。

HermitAI – AI外贸营销内容创作工具

HermitAI是什么

HermitAI是专为外贸和跨境人员设计的智能内容营销创作工具。工具支持智能生成多种场景下的外贸营销文案,涵盖邮件创作、社交媒体营销、店铺运营和短视频创作等核心工作场景。HermitAI提供实用辅助工具,如精准翻译、图生文和文案润色等功能,帮助用户解决语言障碍和提升文案质量。基于50+种细化场景的文案生成,HermitAI大大提高外贸人员的工作效率,是外贸和跨境人员的得力助手。

HermitAI

HermitAI的主要功能

  • 邮件创作:提供开发信、报价、跟进等多种智能模板,帮助外贸人员轻松撰写高质量的专业邮件。
  • 社媒营销:生成适合Facebook、LinkedIn等平台的营销文案,提供针对性建议,助力社交媒体推广。
  • 店铺运营:上传商品图,自动生成亚马逊、速卖通等多平台的高质量产品描述,提升店铺运营效率。
  • 短视频创作:生成短视频脚本,为短视频营销提供创意支持,满足不同平台的内容需求。
  • 翻译:支持26种语言,精准识别专业术语,解决出海贸易中的语言障碍。
  • 图生文:基于图片识别技术,快速生成产品描述,节省文案创作时间。
  • 文案润色:优化广告文案、产品描述和邮件,提升语法、逻辑和风格。

如何使用HermitAI

  • 访问官网:打开浏览器,输入网址:https://ai.52by.com/。
  • 注册/登录:点击注册或登录按钮,按提示完成操作。
  • 选择功能:登录后,选择需要的功能模块(如邮件创作、社媒营销等)。
  • 输入信息:在所选模块中,输入必要的信息或上传相关文件。
  • 生成内容:点击“生成”按钮,等待系统生成内容。
  • 查看结果:生成后,查看并使用生成的内容,必要时进行修改。

HermitAI的应用场景

  • 邮件创作:HermitAI能生成开发信、报价信、跟进信等邮件内容,帮助外贸人员轻松撰写专业邮件。
  • 社媒营销:为Facebook、LinkedIn等社交媒体平台生成营销文案,助力提升品牌影响力。
  • 店铺运营:上传商品图,自动生成适配亚马逊、速卖通等平台的产品描述,优化店铺运营效率。
  • 短视频创作:生成短视频脚本,为跨境电商卖家提供创意支持,满足短视频营销需求。
  • 文案润色:优化广告文案、产品描述和邮件,提升语法、逻辑和风格,打造专业文案。

首个投资交易 Agent Bobby 上线,第一时间访谈 Vakee

不要低估你在生活中看到的每一件事。

如果有一位“24小时在线的投资伙伴”,只需自然语言对话,就能帮你实时分析市场动态、根据生活灵感和工作认知生成个性化AI投资组合、一键完成股票/期权交易,甚至在你焦虑时给出理性策略——这样的 AI Agent,会如何重新定义“投资参与世界”的方式?

我们邀请新加坡金融科技公司 RockFlow创始人兼 CEO Vakee Lai,聊一聊她刚上线的金融交易 AI Agent——Bobby。这不仅是一款产品的诞生,更是“让投资更简单”使命的具象落地:从 9 岁开始炒股,到百度凤巢产研、AI 早期投资人,再到“用 AI 重塑投资体验”的创业者,Vakee 的每一步都在回答:如何让普通人用最自然的方式,把生活认知转化为投资行动?

我们将从三个维度展开:

1)Bobby的“不简单”故事:为什么 RockFlow 用两年时间打磨这款 Agent?它如何解决用户“投资意识门槛高”和“工具操作复杂”的痛点?英国用户用 Bobby 盯盘买入 circle 股票翻倍等真实案例,如何验证“AI 原生投资体验”的价值?

2)Vakee的“投资世界观”:从凤巢广告变现的认知优势到15年英伟达投资的“认知回报放大”,她如何用“赚认知内的钱”理念穿越一二级市场?作为科技圈少见的女性 CEO,她如何平衡创业挑战与“让投资飞入寻常百姓家”的使命?

3)未来投资的“摇滚精神”:为什么说“去掉所有 GUI,只保留 Bobby”不是激进而是必然?当 00 后用投资表达态度、用交易传递观点,RockFlow 如何通过 AI Agent 打造“生活化的投资乐园”?

最后,Vakee将结合小红书爆文《普通人如何在身边发现下一个风口》,分享她从生活和工作中捕捉投资机会的独家视角——或许下一个“认知变现”的起点,就藏在你的日常里。

 

👦🏻 Koji

本周的十字路口,我们邀请到了 Vakee, Vakee 是 RockFlow 的创始人和 CEO,RockFlow 最近也推出了他们自己的 AI Agent 的产品,叫做 Bobby。

我们今天希望 Vakee 和我们聊一聊她自己从 9 岁就开始投资的故事,一开始是一个少年投资者,然后做一级市场、二级市场,然后现在她的创业公司 RockFlow 是要帮助更多的年轻人也享受到投资的乐趣,也得到投资的收益。

Vakee 其实也上过十字路口的播客,差不多就在一年之前,但是在那个时候和我们聊的不是 RockFlow 这款产品,和我们聊的内容的标题叫做《我的投资人朋友们真的都在清仓英伟达吗?》

当时我们聊了英伟达的股票值不值得买,我记得 Vakee 在那个时候是坚定地让大家持续地建仓,对吧?如果当时听了 Vakee 的建议,现在应该已经获得了还不错的回报吧。

那请 Vakee 再和大家打个招呼,然后也简单介绍一下自己,介绍一下 RockFlow 和你们最新的 AI Agent Bobby。

 👩🏻 Vakee

好,大家好,很高兴又来到十字路口。

我是 RockFlow 创始人Vakee,今天是带着我们的这个新的 AI Agent 产品 Bobby 过来,然后也希望跟大家分享更多 RockFlow 的故事和 Bobby 的诞生故事。

 

交易Agent是什么,怎么用

 

👦🏻 Koji

请介绍一下 Bobby 是什么?因为 Bobby 感觉是最近你们的一个重头戏,也是积蓄了很多的力量推出的一款 AI Agent 产品。

 👩🏻 Vakee

Bobby 是首个在金融交易领域的 AI Agent。

简单来讲就是你的 7 × 24 小时的投资伙伴,最大的特点就是可以完成你整个投资闭环,从每天的灵感发现到投资的分析研究,到生成交易策略,到订单执行,甚至包括执行完以后你的持仓管理,它会就像你拥有一个属于自己的对冲基金团队一样。

有交易员,有分析师,有风险管理团队,能够帮助你更好地在投资这个事情中实现你的想法。

这是一个特别垂直的领域,很难做,但是我们还是把这样一个可以闭环的产品给实现了。

👦🏻 Koji

它和之前的 RockFlow App 最大的区别是什么?

👩🏻 Vakee

之前的 RockFlow,其实还是App 的形态,我们希望它足够简单,能够让大家非常方便地去完成交易。而 Bobby 它整个形态就是自然语言对话的形式,我们其实希望后面可能“没有 RockFlow 这个App 了”,主界面就是 Bobby,只需要跟他进行对话,然后完成整个交易闭环

我以前跟大家说, RockFlow 设计清爽、使用简单,这些符合一部分人的需求,但其实也不是最根本的差异化,而现在 Bobby 这种基于 Agent 的交互的应用形式,我觉得它就是跨时代的产品,可以解决所有复杂场景下的问题。

大家用了 Bobby 以后,就不会再问我“你跟 Robinhood 是什么区别”了。

👦🏻 Koji

说到“未来可能没有 RockFlow 这个App 了”,正好昨天就 Sam Altman 在 Y Combinator Startup School 的第一天,Sam Altman 做一个分享,里面的一个很重要的点就认为 “未来 UI 界面会消失”。

其实和你刚才提到的一样,你们现在真的有在如此极端地做这个计划吗?打算什么时候干掉 App、只保留 Bobby Agent ?

👩🏻 Vakee

计划今年就会上线只有 Bobby 的产品。

Koji 和我都做过产品经理。以前,我们做产品就要取最大公约数,所以会在目标用户群中去提取我们认为最重要的功能点、需求点,这是以前做产品的逻辑。

但是我们明显发现在复杂场景下,基于功能的界面其实很难完成不同人的需求 ——比如说这个特别复杂的场景。其实退一步,哪怕说 OTA 的 App,比如携程,甚至百度地图,也会不知不觉就把 App 做得超级复杂。

举几个例子,携程我经常定酒店,根本选不到、筛选不出来我要的东西,因为它的筛选维度跟我不一样。我要的维度没有办法一次性给筛选完,这个事情其实就很离谱,因为实际上这些维度和这些数据、这些标签在数据库里都有,反而是 App 这种形态,或者说这种基于有限功能的页面,严重阻碍了我去实现我要做的事情。

我觉得以后就会很简单:Agent 加数据库。

我真实的感受,比如说像 Bobby,我们以前要开发多种下单方式,其实我们需求池里面特别多,但是每一次大家都要 debate 很久,要不要先做追踪止盈单?要不先做那个订单?因为每个订单的开发成本都不低,从前端到后端,从算法到工程,而且它对于界面的占领其实都很强。

我们都知道,做产品做减法很难,做加法最容易,然后就会有 1 万个功能在你的 App 上。

👦🏻 Koji

对,尤其是一个类似 RockFlow 这样的券商 APP,特别容易就变成有一万个功能。

👩🏻 Vakee

没错,所以其实 Agent 在解决什么问题呢?在这种复杂场景下,每一个需求其实挺特别的。

比如说 Bobby,以后我们就不再 App 上开发任何这种细节功能了。用户可以直接告诉 Bobby 我要干嘛,Bobby 可以帮你实现这个世界上没有出现过的条件单,因为它能够用 AI 的方式重新组装那些功能。

这些条件单的方式在现存的任何互联网券商 App 上都是没有的。

一个不可能提供 80 种下条件单的方式,肯定是有取舍的,但其实用户可能就是会有 800 种不同的下单方式。

所以在复杂场景下,用自然语言与 Agent 交互的方式可以更好地实现每位用户的个性化需求。

AI Agent 是一种全新的体验。将改变产研的工作方式,甚至改变 App 的模样——我们将会看到一个巨大的范式改变。 

举个例子,我妈昨天让我给他订机票,他和我爸要去乌鲁木齐旅行,他们又不能买太晚的航班,然后又最好不要转机,或者转机时间不要太短,这件事情我没有办法跟携程 App 去交互表达。

👦🏻 Koji

所以你就是父母的 Agent。你在帮他们解读需求、拆解任务、去帮他们完成下单,闭环了。

👩🏻 Vakee

没错,但实际上你看携程,我想表达的东西,它数据库里都有,但是 App 什么也解决不了。百度地图也是,高德地图也是。比如说我在西二旗,要跟双井的朋友约个地方吃火锅。我要跟他讲,百度地图你能不能给我们两个找一个对我们来说地铁都方便,然后要个不辣的火锅。但 App 上搜不出来,就非常难用。

所以我觉得我看到的变化就是这个,所有相对复杂的场景以后一定都是数据库加 Agent,我觉得基于功能排布的 App 以后不会存在。

👦🏻 Koji

今年 Agent 有一股热潮。

年初十字路口的第一期节目,我们请到真格基金的管理合伙人戴雨森,那个时候我们做了一期开年对谈,那一期内容的标题就叫 Agent 元年

在那个时候,其实提 Agent 元年还没有那么明显,但当时我们确实看到了一些信号,尤其是 Devin 的发布让我们感受到了 Agent 技术的成熟、交互范式的创新。

Manus 和 Lovart 发布了之后,十字路口都在 24 小时内就发表了深度评测;Flowith、Clacky 和今天 Bobby 等 AI Agent 产品也选择在十字路口进行首发。

想问一下 Vakee,你是什么时候开始打算做 Agent 这个产品的呀?

👩🏻 Vakee

我们刚好这两天还在内部去翻了一下,关于 Bobby 这个产品,最开始叫做Rockbot,其实是 2023 年的 4 月份开始做。

现在的 APP 中间的一级页面功能叫做 AI 策略,原来叫交易GPT,也是世界上第一个直接用 GPT 实现了整个从发生了什么,到你能够去买什么股票或期权,而且是个性化的体验,就是个性化的交易机会实时推送。

我们上线完这个产品以后就马上开始内部讨论,下一步 AI 原生体验,我们要以什么样的产品形态去呈现,然后我昨天还找到那个 demo 视频。当时讨论这个所谓的 AI native 产品的形式的时候,还没有 Agent 这个说法。

👦🏻 Koji

是两年前的 5 月份是吗?

👩🏻 Vakee

两年前 5 月份,2023 年的 5 月,当时我们探索是那个上线了交易GPT,探索了产品形态,基于这个 bot 和 Copilot 的产品形态,已经做了一个非常完善的 demo,然后我们在 2023 年的 9 月内部正式立项,开始去做现在的 Bobby。因为我们内部的文档文化特别好,所有的会议什么都有很清晰的记录。

第一个点说的就是 Agent。所以其实我们是 23 年的 9 月决定以这个现在这个 Bobby 的形态,以 Agent 的基本架构去实现我们想要的 AI 产品体验,我也看了当时那个会议纪要,我们第一部分讨论就是现在的 AI 能力边界,就当时 23 年的能力边界,什么是可以做的,什么是他做得好的,什么是还不行的。

👦🏻 Koji

我比较好奇,就是在 2023 年你们立项的时候,Agent 的能力边界和今天做 Bobby 的这个能力边界,有哪些新的突破?

👩🏻 Vakee

当时其实我们看到 Agent 已经能支持逻辑推理与多阶段上下文思考,可以根据当前的状态自动选择下一步要干什么。调用 API 是没问题的,然后访问维护知识库的能力也是 ready 的,这些能力是 OK 的。当时最大的问题就是幻觉很严重。当时我需要做一个决策,因为其实公司是有不同的声音的,看到那么严重的幻觉,就想说,要不要再过一阵,等几种模型和基础能力更稳定的时候,我们再去做。

但是我当时和主要的同学其实还是很坚定的,就是一定要先去探索。就是所谓的“做船的公司”和“做塔的公司”的区别,你如果是一个“做船的公司”,那么你就会随着基座模型和底层能力的提升,产品能力就会跟着提升,做塔就会被淹掉。

所以我们首先判断要做的这个产品是“做船还是做塔”,在一个行业壁垒很高的领域做应用,肯定是“做船”的路线。第二个就是,如果我是这样的公司,我要不要等待?因为我们当时已经做了 RockFlow 一两年的时间,我是深刻地知道金融行业它有大量的 knowhow 是在产品和工程上的,我如果要在这个领域中做个垂直的应用,最优解就是赶紧做,因为在过程中会解很多很细节的问题。

 

👦🏻 Koji

要做好一个金融的工具,还有很多工程任务和细节。如果做得早,做得更细,就有领跑的优势。我自己用 RockFlow 和 Bobby 也有这样的感觉。

Manus 发布后,字节内部立即出现 6 个团队抄 Manus。今天确实很多公司已经出了高仿复刻,但这些复刻并没有撼动 Manus 的地位 —— Manus 没有像大家想象中那么好「抄」。

但当我看 Bobby 的时候,我感觉这更是「抄」不出来的 ——至少不会在半年之内就抄一个 Bobby。这背后有大量琐碎的、细腻的工作要做。

👩🏻 Vakee

对于 Manus,就我的粗浅了解(我说的不一定对哈,因为确实我也是外人),它虽然是通用型 Agent,但整个交互体验中有很多的对浏览器的理解,交互层面的工程理解,这个团队一定有核心同学之前有很强的积累。

有些事情是共通的。比如说刚刚讲的,我要做 Bobby,你首先得要是一个会做金融工程的团队。比如说去处理公司行动可能有几百种可能性。世界上到今天都没有供应商能帮你很好地解决这些细节问题,包括 IB,包括富途,包括我们都是一步一步自己去处理的。所以为什么 Bloomberg,包括国内类似的万得,它还是很值钱的,因为金融数据里都是苦活。

金融行业里面对数据的准确性要求非常高,包容度很低,你要做得很细致。所以你的金融工程团队一定是做这个业务做出来的。我们不管在做通用还是垂类 Agent,对于所在领域要解决的产品研发和工程的问题上,还有很多很多细节,我觉得这就是壁垒。

所以 RockFlow 不是第一年就做 Bobby,我们 2021 年成立,先做了几年的美股券商,搭建了全套的柜台交易系统。有了各个国家的用户,我们跟用户一起去理解需求细节,然后才开始做 Bobby 这个产品,还是原来那个团队。  除了对AI的研发能力,垂类的 Agent 应用还必须有对这个领域理解很深的产品和工程团队。像金融、医疗这些领域,团队对这行业的认知,都会体现在产品上。

👩🏻 Ronghui

Bobby 在公司内部的权重是什么样的?你们当时是把它当成一个试验性产品来做,还是对未来的一种赌注?

👩🏻 Vakee

一开始是优先项目,然后尤其到今年就绝对 all in。整个研发的过程中,这个季度以及上个季度的 OKR,除了交易稳定性以外的需求,全部为 Bobby 让步。你

提了一个特别好的问题,这也能回答比如为什么前辈友商不做,以及他们会怎么去对待这个事情?核心就是我们是 all in 来做的,当成最高优先级,我们是当成以后没有 RockFlow App 来做的。如果你只是当成一个功能来做,就很难做成。

以前做 VC 的时候经常问创始人巨头也做怎么办,这几年我深刻感觉,其实再大的团队,能打的也就那么十几二十个人。任何公司之间的PK,或者是行业之间的竞争,就看谁敢把这 20 个人 all in 到这个项目上。

如果你敢,那我觉得大家都有机会。如果你不敢,你就当成内部创新,那是很难的。因为创业团队是用命去拼,然后大厂是内部创新,拿着几百万年薪去做,完全不同的战斗状态。

👩🏻 Ronghui

这当中有多少是来自你对 Bobby 的 Agent 产品形态会取代 RockFlow 未来的确定性?有多少是来自行业给的信心?

👩🏻 Vakee

我觉得主要 99% 是前者。

十字路口采访了很多 AI Agent 产品的 founder ,但我几乎没有精力去关心别人做什么。很多人问我,你觉得 Manus 怎么样?Flowith 怎么样?其实关注不了太多,你真的是几乎所有精力都在为你相信的那个目标在往前冲,因为这个事情它太新了,Bobby 是世界第一个这样的东西

我们给自己幻想出来了一个未来,然后我们 all in 往那个未来冲。我们这个团队百分之八九十都是 INTJ,就全员非常 J。那个事情我就非做不可,就要尽快完成。

现在能明显感觉到这个世界在发生巨大的改变,然后看到了 Agent 加数据库,它是未来的产品形态,我要做的是用这种形态去满足这个领域下用户需求,我是坚信,以及我自己现在都在用 Bobby 去做所有的交易和下单,它现在就是更方便更好用。

我从小就没有 peer pressure,从来不 care 别人在干嘛。每一代人有每一代的需求,toC 的创业就是能不能做出一个更好用的产品,能满足这代人的需求。所以这个过程中更多的是去想你的用户,去想你的团队,你的用户需求是什么,你的团队执行效率够不够高,就可以了。

👦🏻 Koji

这个听起来是蛮幸福的一种创业,INTJ 可以把一个事往“死”里打磨得非常的精致。

Bobby 其实内测也有一段时间了,之前内测应该有几百位用户。想知道一下有没有什么好玩的故事?

👩🏻 Vakee

因为我们差不多就这两周时间陆续开放,我觉得还是挺兴奋的。Bobby 现在每天发一版,每天迭代一次模型,这是我们能做到的,哪怕 RockFlow App 做到今天都还会有这样那样的小问题,那我们就不断去快速迭代。

举几个好玩的例子。第一个就是那个 Circle 上市的那一天,我们有一个英国的用户,这是她买的第一支股票,也是第一次在 RockFlow 交易,因为大家在群里讨论了Circle,然后她直接跟 Bobby 说,上市以后给我挂一个这个订单,帮我买多少钱,然后就去忙别的了。第二天发现 Bobby 80 块钱买入了,并且还帮她下了一个止损单,这只股票现在已经翻倍了。她把完整的跟 Bobby 的聊天记录,收益截图分享在群里了。她觉得如果没有 Bobby,可能开始投资美股的时间还会延迟。

其实他是 RockFlow 用户已经有一阵子了,但一直没有买,不知道怎么开始。Bobby 其实是有很多边界可以去探索,甚至我以前都不知道 Bobby 可以一键清仓。我们一直有一键平仓的需求,一直没做排不上。但现在我们发现用户自己用出来了,Bobby 就给他完成了。

👦🏻 Koji

那 Bobby 会有一些平仓策略吗?

👩🏻 Vakee

它会做一些调整,比如你有 100 万美金的特斯拉股票要一键平仓,它会帮你分次下单,然后平滑你的磨损。

👦🏻 Koji

我自己用 Bobby 试了一个非常非常小白的一个指令。我入金了 3000 美金,然后给 Bobby 说:“我现在有 3000 美金帮我买股票,我要赚钱。”

我当时就很想试一试,在盲目相信 Bobby 的情况之下,它会帮我干啥?结果它给我买了 6 只股票,都是非常稳健的,包括两个指数(SPY 和 QQQ),然后还买了苹果、英伟达、可口可乐 ——这个其实对小白是很友好的,当你有 3000 美金,不知道要买啥的时候,你交给 Bobby,大概率比自己冲动下单买到的结果要好。

👩🏻 Ronghui

我这里也想到一个问题,对很多小白用户来说,比如像我这样不太炒股的人来说,听起来操作非常的简单。我问了很多问题,同样的 prompt,我也给了其他几个 Agent 工具。我的感受是首先 Bobby 的操作非常简单,其次它在帮我操作一个门槛很高的东西。那你对我这一类用户,会怎么解释 Bobby 如何服务得更好,以及如何帮助我实现我的目的?

👩🏻 Vakee

其实刚刚讲的例子就是小白用户,都没有交易过。投资有两个门槛,一个是你的心理门槛,你觉得很难;第二个是操作门槛,很麻烦,确实不会弄。Bobby 这种 Agent 的自然语言对话式,从这两个层面把用户的困扰解决掉了。

Bobby 让你把生活中看到的东西,想到的东西,表达出来,从一个想法变成一个交易机会,这个交互形态天生就降低了你的心理门槛。你去跟现有的券商 APP 沟通,你不知道怎么沟通,Bobby 就有点像你跟一个人以更自然的方式沟通,它降低了你的心理压力和门槛。

👦🏻 Koji

不过其实用户和 ChatGPT 或元宝聊,得到的回复或许也是一样的?

👩🏻 Vakee

在这个自然语言对话的交互层面上是一样的,用这个形态先帮你把心理门槛降低。

但更重要的就是,交易这个场景对很多人来说觉得操作比较复杂。Bobby 和其他大模型 chatbot 最大的不同就是,Bobby 帮你把投资交易这个行为给闭环了。比如年初你问 Bobby:“Labubu 特别火,我应该做什么”,Bobby 可能会说你可以考虑泡泡玛特的股票。或者现在已经火过头了,Bobby 会提示你应该谨慎投资泡泡玛特。他会给你一个你的灵感、结合市场环境和你的风险偏好所对应的投资策略,并且可以帮你完成下单交易。

我认为做一个垂类 AI Agent,最重要的就是帮用户把这个事情做掉。

👩🏻 Ronghui

Bobby 其实整个开发的过程花了两年,为什么会花了这么长的时间?中间有没有走什么弯路?

👩🏻 Vakee

我们 2023 年的 9 月份算正式立项,一年半的时间,基本没有弯路。要做一个垂类的Agent,做到闭环真的要花好多时间,好多细节需要打磨。最开始那些版本的时候没有太考虑速度。但后来发现,慢就是原罪,慢就没法等,用户没那么有耐心。

👩🏻 Ronghui

对慢的衡量标准是怎么样的,什么时间算慢?

👩🏻 Vakee

我们其实在“慢”这件事上做了非常多优化。早期的时候,Bobby 的响应速度确实不够快,一轮对话可能要十几二十秒才能出结果,这在交易场景里是完全不能接受的。后来我们重新设计了整个 Agent 的调度系统,优化了编排能力,把效率和性能都拉上去了。因为我始终觉得速度是第一关卡,你只有“足够快、够稳定”,你才可能谈得上“产品化”。

但如果要做到产品化、甚至进一步商业化,就还要面对一个非常关键的问题:成本可控。你不能每一次交互都消耗大量 token,也不能让用户因为等太久就退出流程。所以做 Agent、做大模型应用,本质上永远要解决这两个问题:一是速度和体验,二是成本控制

我们内部其实在这些“功能背后的结构性问题”上花了很多力气。比如你怎么设计架构,让 token 消耗保持稳定?怎么确保用户每次提问都能在 1-5 秒以内拿到答案?其实这些底层机制往往比表面功能还要难,但正是这些才构成了一个 Agent 产品可落地的基础。

👦🏻 Koji

在内测的这些用户里面,你最关注的数据指标是什么?比如说聊了多少轮?还是下了多少单?还是帮他赚了多少钱?

👩🏻 Vakee

活跃指标,使用时长。你要跟他进行多轮对话,然后它要实际帮你,肯定在过程中解决了一些问题或者疑惑。

👦🏻 Koji

刚才分享到 Bobby 买 Circle 这只股票的案例,听起来好像是 Bobby 半夜下的单?当时有没有让用户确认呢?我认为这样自动下单的话,帮用户赚钱了他们当然开心;但如果赔了,这个责任会不会怪到 Bobby?

👩🏻 Vakee

所有的下单都是确认过的。比如说“买多少钱”,Bobby 会反复确认,以什么样的价格买,经过对话的确认,才会去执行这个指令。所以它还是靠谱的。

👦🏻 Koji

有没有关于大家用 Bobby 「赚到了之前或许赚不到的钱」的故事?

👩🏻 Vakee

那天特朗普和马斯克吵架,有一个交易特斯拉特别多的用户就问 Bobby,现在应该怎么办?Bobby 说他们俩吵架,特斯拉大概率还得跌,可以考虑买小熊,也就是我们的一款 put 期权。然后经过多轮对话之后,他在对话中选了一个 put,这个用户就买了这个小熊,然后变成了当日的牛人榜一,涨了 400% 多卖了。然后还给了 Bobby 最大的一个打赏。他甚至说,如果能设置成“收益分成打赏”,比如他收益的 1%、5%都给 Bobby,他都愿意。

他还在社群里分享了几个反馈点:

第一,他完全是因为 Bobby 的对话才下了这笔单。不是他凭空做出的判断,而是 Bobby 把认知结构化之后,变成一个明确可执行的决策。当然最终下单是他自己决定的,但 Bobby 起到了一个很关键的触发作用。

第二,他说 Bobby 是他第一次用 AI 交易时,真正感受到“被理解”的产品。他用过很多产品,从 IB、富途到 Robinhood,甚至一些 AI 工具,但都没有这种“对话+理解+定制”的组合体验。

他用 Bobby 的时候,能非常清晰地感受到这个 Agent 在分析他过去的交易行为,理解他是怎么做风控的,怎么选标的,然后所有建议都对得上他的“心窝”。就像一个真正懂他节奏、懂他习惯的投资助理,而不是一个生硬的交易工具。

这是一个典型的有经验用户的反馈。之前很多人会觉得 RockFlow 太“轻”、太简单,不够专业。但他们开始用 Bobby 之后,发现它反而是目前最能支持复杂决策的工具。我觉得这就回到我们为什么要从传统的功能型 APP 转向以对话为核心的 Agent 形态。这种形态天然能够拉宽你能服务的用户范围,从新手小白到资深交易员,都能从 Bobby 身上获得匹配他们需求的东西。

刚刚这两个例子,是两个很不一样的体验,他们俩分别感受到了 Bobby 作为一个 Agent,是能够更好地覆盖不同需求的人群的。从功能形式的 APP 到现在基于 Agent 对话形式,一下就把能够 cover 用户的范围扩大了。以前有些比较有经验的用户会觉得 RockFlow 太简单了,很多功能满足不了他的要求。但现在成熟的交易者也会使用 Bobby,并跟着它下单,拿到了第一次的正反馈。

👦🏻 Koji

现在 Bobby 还是需要用户主动发起一个问题它才给响应,那你们有考虑过让 Bobby 主动给用户一些建议?

👩🏻 Vakee

我们下一个版本的 Bobby 会主动给你可能会想要知道的东西。会有些交易灵感,但不会突然冲出来说你应该买这个。

👦🏻 Koji

什么样的交易灵感呢?

👩🏻 Vakee

比如说打仗这种宏观的信息,比如说你持仓相关的一些股票。比如你对稳定币很感兴趣,会给你推送这些相关信息。我们还发现大家最刚需的需求是给他打电话,让 Bobby 给用户打电话。

👦🏻 Koji

用户想被提醒?

👩🏻 Vakee

对,他就是想被提醒。

 

👦🏻 Koji

我有个朋友曾在香港为某位大佬打理 family office。那份工作本身就挺有意思的——一个四五人的小团队,服务的对象是位九十多岁的老爷子,至今仍每天紧盯市场走势,给他们打无数通电话。

电话大致分两类:一类是明确的交易指令,另一类则是模糊的调研需求,比如“你们帮我看看这个赛道最近有没有动静”“这个标的值不值得加仓”。听起来,他们这个团队就像是老爷子的“Bobby”——一个始终在线的 AI Agent,只不过是真人版的。他们每个人背景都不简单,基本都是名校 MBA,金融行业资深从业者,年薪几百万不在话下。

但我在想,这些“金融行业的高级打工人”,恐怕很快就要和 Bobby 们竞争了。

👩🏻 Ronghui

我刚想补充一个问题,差不多一年半的研发过程里面,你提到有一些很重要的决策,怎么样可以节约 token,节约成本,我其实还蛮好奇的。回头看当时有哪些现在觉得正确,或者很有意义的一些决定,这个可能对很多创业的人来讲可能还蛮有借鉴意义的。

👩🏻 Vakee

所有创业者应该先问自己的第一个问题就是你要做垂类的还是通用的Agent,为什么选择这个方式?我们选择垂类,其实道理很简单,因为这个世界上就是两种需求,一种需求是大家只是不想做,做得好或者不好影响没那么大,它不致命。比如工作中的一些场景,去帮我写个邮件,去分析一个旅行路线,生成一个研究文档。这些事情可能我自己不想都花很多时间弄,我自己花时间写可以做成 70 分。让一个 Agent 帮我,可能做成 60 分、65 分,我也可以接受。这是生活中大多数的需求。

另外一类,比如说金融、医疗、制造业的一些精密场景,它们不太一样。做成 70 分和没有 70 分,可能是致命的,差别会非常大。所以在这一类容错性要求高的场景,就一定要达标。用基于 workflow 的方式相对来说是可以又快又好地达到 70 分的标准的。

所以你要分辨你所在的行业,你去解决的这个垂类,到底在解决哪一类的问题,这就决定了你的架构到底要基于什么样的形式去做,这是商业上第一个问题。第二个就是优化问题,它其实就是在过程中去解决。我们在过去一年多的开发过程中,经历了多次迭代。核心思路是围绕具体场景需求选择最佳实践方案。

 

Vakee 个人经历:投资、百度、AI

 

👩🏻 Ronghui

能否聊聊你的个人经历?特别是 9 岁开始炒股的故事,前段时间看到相关报道时非常好奇这段经历。

👩🏻 Vakee

这主要受家庭环境影响。记忆中 90 年代炒股是全民现象:电视 1-3 点都在播放股市行情、报纸上的 K 线图、通过电话下单。我常去证券营业厅的大户室。

👩🏻 Ronghui

这种环境让你天然接触了大量投资信息,降低了入门门槛?

👩🏻 Vakee

确实如此。后来做美股交易也是类似情况——2013 年我回国加入百度后,身边同事都在交易中概股,互联网从业者算是国内最早接触美股投资的群体。

👩🏻 Ronghui

请梳理下你的职业轨迹?有没有跟投资交易和 AI 相关的事?

👩🏻 Vakee

我的职业经历覆盖了大公司产研(百度凤巢)、一级市场(百度投资部科技赛道+ VC)、二级市场投资,现在创业。除了没在国企呆过以外,各种职业角色我都做过。2013 年放弃某主权基金选择回国,就是看准移动互联网浪潮。我在创业之前,要不在做 AI,要不在投 AI,然后一直在投资美股。

👩🏻 Ronghui

之前你说为什么做 RockFlow,灵感是来自“散户大战华尔街”。所以你说“信”这个事情,其实你整个创业过程都是在执行“让交易更简单”这一想法。你可以说说你当时看到“散户大战华尔街”是什么感受吗?

👩🏻 Vakee

它是一个开始。因为它是一个现象级事件,所以会促使你开始关注这群人、这件事。我当时其实已经回到二级市场了,我开始关注交易世界正在发生的变化——首先是年轻人的投资方式发生了巨大变化。过去投资的目标就是赚钱,但 Gen Z 的投资除了赚钱,还承载了其他属性:他们要表达价值观。

我说个最简单的例子:以前讲价值投资,比如巴菲特那一套,是从投研的角度看公司价值,比如 PE 要合理;但今天年轻人说的“价值投资”,是“我认为有价值,它就有价值”。投资已经变成了一种完全不同的体验。GameStop 就是一个典型案例。有人说,那是我小时候买游戏光盘的地方,那是我的回忆,它不应该被你们做空。对他来说,这家公司在他的生命中有价值,所以他用投资行为去表达态度。投资变成了生活方式的一部分。

因为这个事件,我开始研究这个群体,发现全世界的年轻人都想买特斯拉、苹果的股票,对美股有兴趣。但你会发现,除了中美两国,其他地方几乎没有好用的美股券商,供给极其有限,渗透率也很低。这是我看到的一个明确的机会。

 

👩🏻 Vakee

说到我为什么创业,当时我的判断标准有几个:

第一,我要做足够大的事情。因为我知道,无论做什么都很难,那就应该做个大的。金融是一个比互联网还大的行业,除了能源以外,最大的就是金融。

第二,我一定要做一家 AI 公司。我之前做投资时经常讲,广告、金融、游戏是 AI 最适合落地的三个场景。尤其金融,是纯数据场景,非常适合 AI 快速迭代,交易则更是最理想的切入口。

第三,我必须对它有 passion。因为创业太难了。我投了近 30 家创业公司,很多今天看起来风光的、甚至已经上市的,其实过程都非常不容易,所以你必须真的热爱这件事,不是“非做不可”,你是坚持不下来的。我现在也会经常被一些年轻同学问创业建议,我通常第一个问题就是:这件事你是不是非做不可?如果不是,其实不是必须要创业的。

第四,我得能做这件事。这就回到我怎么定义这个目标。如果我要做一个 AI 时代的交易平台,我要做什么?

我当时给自己定了两个关键词:

  1. All-in-one:一个平台上能交易所有品类——美股、港股、各国股票、期货、期权、彩票、合约、外汇、Crypto,全都能交易。
  2. AI Native:我希望提供的是原生的 AI 体验。

All-in-one 和 AI-native 是我要解决的两个核心问题。如果能做好,它就是一个“新物种”,是一个给新时代用户提供全新体验的机会。

那我和我的团队能不能做这件事?后来回过头看,发现自己创业之前的十年工作经历,每一步都算数。从在伦敦做量化,到加入百度凤巢成为 AI 使用者,再到进入百度投资部和VC投资 AI,从 AI 产研到投资 AI,加上一直沉浸在二级市场,最后创业做 RockFlow 看起来就很自然了。要找一个既懂 AI、又懂投资、还能不厌其烦hands on每日产研和运营的人,我是极少中的一个。说实话,对于很多背景类似的人来说,能持续靠投资赚钱的人,绝大多数是不愿意做一个 toC 产品创业的,太苦了。

直到今天还有人问我最多的一个问题就是:“Vakee,你投资能力这么强,为什么还要去创业?”

我的回答是:这是使命。我真的很想把这件事做出来。从小时候开始接触投资,到真正理解交易背后的逻辑,我一直相信投资不是一件遥不可及的事,它可以是大众参与的。比如我当初开始交易美股,是因为我在凤巢,接触到的是中概股和美国的互联网公司。凤巢做的是广告系统,而 90% 的互联网公司的盈利模式都是广告变现,所以我天然在这个领域有认知优势。甚至我打开淘宝首页,看前几条广告的位置和高度,就能大概判断这个季度阿里的业绩能不能完成——因为那是我每天的工作。后来开始投 AI,就买了英伟达股票,也是一样的逻辑,通过二级市场放大认知收益。

要下额外功夫的是赔率设计:比如是买股票还是买期权?怎么配置、怎么保护风险?这些是交易层面的技术。但判断“方向对不对”,其实来源于生活和工作。而这也是我为什么觉得:如果我能做到,很多人其实也能做到。比如 GPT-3.5 出来的时候,很多人已经知道英伟达会受益,甚至知道 AI 是未来。但很多人没有把这个认知转化成投资决策,也没有行动。我见过太多这样的例子。有人早就天天买拼多多的东西,但一股股票都没买。很早就买了特斯拉车的人,很多也从没投资过特斯拉股票。

👦🏻 Koji

我觉得这段经历特别有趣。因为 Vakee 最近在小红书上有一个帖子爆火,标题是《普通人如何在身边发现下一个风口》。她想传达的核心是鼓励大家:把生活中发现风口的观察转化为投资决策,其实是有可能获得实际收益的。

就在昨天,肖弘突然在微信上跟我讲,一年前我和他见面时说——泡泡玛特卖得最好的 IP 已经不是 Molly,而是 Labubu,增长非常快。我们都有一段遗憾,当时没把这个发现转换成投资决策。

👩🏻 Vakee

对啊,钱都从天上掉下来了,你都没伸手去接。

👦🏻 Koji

所以我觉得现在有了 Bobby,我更有可能接住了!

👩🏻 Vakee

对,其实无论是 RockFlow 还是 Bobby,本质上我在做的,就是用不同的产品形态和新的技术手段,让大家把日常的认知转化成交易机会。而这个动作变得越简单,就越容易落地。比如你只要说一句:“帮我买 100 块钱特斯拉”“帮我买一手泡泡玛特”,就可以完成交易。它不再复杂,也不会令人害怕。

我一直觉得每个人都有自己改变世界的方式。而如果因为 Bobby 和 RockFlow 这样的产品,可以让更多人把生活和工作中的认知变成他们自己的投资决策,把渗透率提高 100 倍——我觉得我这辈子就值了。这真的是我发自内心的使命感:让所有人都能体验到投资的乐趣,让他们知道,自己也可以参与公司成长并且获利。

其实这个道理并不难讲。虽然肯定会有人在评论区骂,说什么“幸存者偏差”之类。首先,确实不是每个人投资都能赚钱;这点必须承认。第二,关键在于什么?我认识那么多对冲基金经理,错过了泡泡玛特、老铺黄金、蜜雪冰城。为什么?因为普通人才会去真正买这些商品。这些消费,是他们的生活。而很多基金经理他不会去观察这些。

所以从根本上讲,不要低估你在生活中看到的每一件事。比如你看到一鸣零食店门口顾客络绎不绝,那你觉得这只是个普通场景。但我告诉你:这就是你的机会。因为你看到的东西,华尔街看不到。你早就知道 B 站的弹幕文化很火;你身边的年轻人每天都在用。当时很多一级市场投资人就感受不到。很多人默认“投资”就是专业人士的事,要看财报、分析量价关系、跑模型。结果反而忽视了最有价值的线索——你自己的生活。

其实 DAU 是什么?就是你身边越来越多人在用。增长又是什么?不就是你不断在买盲盒吗?我之所以买泡泡玛特,是因为我看到办公室的盲盒堆越来越多,大家天天在问怎么买 Labubu。蜜雪冰城也是,我从来不喝,但同事在说“又好喝又便宜”,我就去打新。结果中签了,感觉打新的收益可以让我一辈子喝蜜雪冰城。

 

👩🏻 Vakee

我记得那个寿司郎的案例,有人很喜欢吃那家店,他就去买了寿司郎母公司的日本股票。因为他观察到——门店一家一家开,大家都在吃。他就买了。他就是普通人,他只是根据自己的生活做了一个决策。所以我一直强调:生活里的机会,就是普通人最好的机会。

第一,不要认为投资一定要看量价指标、研读财报。

第二,你的观察和认知不是所有人都能拥有的。

每一代人有每一代人的机会。如果你连自己生活中的机会都看不到、连工作中的认知都不能转化为判断,那你更不可能抓住认知之外的机会。

我在 2023 年底的时候,8 块钱买了很多 Robinhood 股票。如果我在做 RockFlow,确连行业龙头 Robinhood 股票都不买、不知道什么时候该买、怎么买,那我这个AI交易平台 founder 就不合格。同样,如果你是 AI 投资人或者创业者,必须要看看你仓位里有多少英伟达。因为一级市场投资、二级市场投资、创业,这三者有一个共同要求:判断力。

判断力是什么?是你对行业规模、演进方向、格局变化的判断。而这个能力,在二级市场的仓位最能体现。

👦🏻 Koji

虽然打开一个炒股软件确实不难,但对很多人来说,它依然是一道门槛,把他们挡在了“投资”这件事之外。

而 Bobby 的目标,就是要把这个门槛再降一降。所以我觉得它真的是能让很多年轻人第一次真正地、有可能地享受到:把自己的生活、认知转化成投资回报。这也是 AI 能够带给我们的正向价值之一。

👩🏻 Vakee

对,我也是这么想的。我真的希望因为 Bobby 的出现,投资可以“飞入寻常百姓家”。大家可以通过投资去参与这个世界的变化。我们都知道,真正最大的回报,其实是资本回报。我们是很多公司的消费者,比如说我订阅了多邻国,那我当然也会买它的股票。这样我既是消费者,又是股东——我用它的产品、创造了营收、带动了股价,最后我自己也获得了回报。

但现实是,大多数用户只是消费者。他们为公司创造了价值,却没有参与资本收益,这部分被我赚了,因为我持有它的股票。你出力,我赚钱,这个循环其实是不完整的。

但实际上理想的商业循环应该是:用户既是消费者,也是股东。因为消费者是股东,所以更忠诚;他会给你反馈,会帮你优化产品,会支持你、希望你好。

我们已经看到一些公司开始走上这条路,比如特斯拉就是一个很典型的例子。还有像 Square 当年上市时,投行邀请很很多它的客户来认购 IPO 股票。大家因为持有股票,彼此的合作关系也更加稳定。这是非常正向的循环。包括 Robinhood,它的很多用户也是它的股东。将来如果小红书上市,它也应该让自己的用户成为股东。

因为一旦你理解了这个循环——你用得越多,公司股价越涨,你获得的回报越高——你当然会支持它,对吧?我以前还跟 B 站说过,你们的大会员就送一股 B 站股票,直接在 RockFlow 上送。这就是良性循环的力量。

我觉得最重要的是:让普通人能够识别身边的风口,然后买他们熟悉的公司、消费过的公司、支持他们喜欢的产品,成为这些公司的股东,和它们一起成长。这才是健康的商业社会。像滴滴司机也是。他们为滴滴贡献了巨大的价值,但没有滴滴的股票,只有被抽成的工资。这个回报体系不平衡。但如果买股票这件事变得足够简单,这个循环就能建立。

我觉得这就是商业平权。而这是我想通过产品真正推动的改变。

👩🏻 Ronghui

我也想补充一个最后的点:我觉得很多人不是没看到这些信号,他们其实看到了,但缺的是“一个理性的把关”。就是一个声音告诉他,“这是可以做的”“你是可以参与的”。就像你前面说的,意识上要完成一个转变——我不仅是消费者,也可以是投资者。但在这个过程中,人是需要理性确认的。他们会担心:“这是不是太专业了?”“我会不会判断错了?”

👩🏻 Vakee

对,所以 Bobby 不是一个语音下单功能,它是一个 AI Agent。哪怕你只是随口说一句:“我想买 3000 美金的股票”,它也会有完整的逻辑链告诉你:为什么可以考虑这些股票?为什么是这 6 个?它不会只是接指令,它会帮你做解释、做判断——用你听得懂的方式,把普通认知转化成可执行的投资建议。

比如说你去年问它:“Labubu 很火,我要干嘛?”它可能告诉你可以买泡泡玛特。但你现在问,它可能就会说价格太高了,要注意风险。所以 Bobby 不只是一个下单工具,它有自己的逻辑框架、风险判断,也会考虑你没想到的因素,比如当前股价的走势、波动、位阶等等。这些其实是普通用户没法独立判断的地方,而这些都是 Bobby AI的能力。

Bobby 从来没有承诺“帮你赚钱”或“替你赚钱”,它真正做的是——帮助你多想一步、管理风险。这也体现了我们的价值观。我们从不会告诉用户:“RockFlow 能帮你赚钱”“我们一定能让你赚”,没有这样的承诺。甚至我自己都常说:你来跟单我,也可能会亏钱。

所以我经常说:你可以先用 100 美金试试看,体验一下。如果觉得自己的投资能力更有把握了,再增加投入。我们甚至专门做了“持仓保护”的功能——当你单只股票的尺寸到双位数时,比如 10%,系统就提醒你:记得配个 put 做保护。我们不能帮你赚钱,但我们会尽最大努力,提醒你、保护你、辅助你,让你的每一步都更稳健。这才是我们的价值观落地的方式。

而且其实说到底,投资就是一场“留在牌桌上”的游戏。只要你不被淘汰,就有机会等到属于你的那一把牌。所以留在牌桌上是最重要的,风险管理永远是第一位的。不要 all in,除非你非常有把握,即使这样,也要有对冲风险的保护措施。

👦🏻 Koji

非常感谢 Vakee 今天做客《十字路口》。尤其最后这段,其实十字路口从创立开始就在讲一句话:“寻找并凝聚 AI 时代的积极行动者。”而“积极行动”的一个表现就是——听完今天这期节目,你是否愿意把自己在 AI 时代的认知,转化为投资行动。

而 Bobby,正是降低这个行动门槛的工具,推荐大家都去试一试。虽然 Bobby 没有承诺帮大家赚钱,但也希望在它的陪伴和辅助下,大家真的能赚到一点投资回报。

👩🏻 Vakee

好,感谢大家,今天很高兴跟大家分享,也期待更多人能够因为 Bobby 开始投资之路,然后能够感受到投资的乐趣。谢谢。

原文链接:首个投资交易 Agent Bobby 上线,第一时间访谈 Vakee

Nanonets-OCR-s – Nanonets推出的OCR模型

Nanonets-OCR-s是什么

Nanonets-OCR-s(Nanonets OCR Small)是Nanonets推出的图像到 Markdown 的 OCR 模型,支持将图像中的文档内容转换为结构化的 Markdown 格式。模型能提取文本,支持智能识别并处理复杂的文档元素,如 LaTeX 方程、图像描述、签名、水印、复选框和复杂表格。Nanonets-OCR-s基于深度学习模型,经过大量数据训练,支持多种文档类型,包括研究论文、财务文件和医疗表格等。输出的 Markdown 格式内容能直接被大型语言模型处理,广泛应用在学术、法律、金融和企业等领域,极大地提高文档处理的效率和准确性。

Nanonets-OCR-s

Nanonets-OCR-s的主要功能

  • LaTeX方程识别:自动将数学方程和公式转换为正确格式的LaTeX语法,包括行内数学表达式和显示方程的转换。
  • 智能图像描述:用结构化标签描述文档中的图像,使其能被大型语言模型处理。支持描述单个或多个图像(如徽标、图表、图形、二维码等)的内容、风格和上下文,并在<img>标签中预测图像描述,页码在<page_number>标签中预测。
  • 签名检测与隔离:识别隔离文档中的签名,对于法律和商业文档处理至关重要。模会在<signature>标签中预测签名文本。
  • 水印提取:与签名检测类似,模型支持检测、提取文档中的水印文本,预测的水印文本位于<watermark>标签中。
  • 智能复选框处理:将表单中的复选框和单选按钮转换为标准化的Unicode符号,实现一致的处理。模型在<checkbox>标签中预测复选框的状态。
  • 复杂表格提取:从文档中提取复杂表格,转换为Markdown和HTML表格。

Nanonets-OCR-s的技术原理

  • 视觉-语言模型(VLM):Nanonets-OCR-s基于视觉-语言模型(VLM),模型同时理解和处理视觉信息(如图像、表格、图表等)和语言信息(如文本内容)。模型基于联合学习视觉和语言特征,更好地理解文档的结构和内容。
  • 数据集策划与训练:为训练该模型,策划包含超过25万页的文档数据集,涵盖多种文档类型,如研究论文、财务文件、法律文件、医疗文件、税务表格、收据和发票等。文档中包含图像、图表、方程、签名、水印、复选框和复杂表格等元素。用合成数据集和手动标注数据集进行训练。首先在合成数据集上训练模型,然后在手动标注的数据集上进行微调。合成数据集支持提供大量的训练样本,手动标注的数据集能提高模型在真实文档上的性能。
  • 基础模型选择:选择Qwen2.5-VL-3B模型作为视觉-语言模型(VLM)的基础模型,在策划的数据集上进行微调,提高其在文档特定的光学字符识别(OCR)任务上的性能。
  • 智能内容识别与语义标记:Nanonets-OCR-s能识别文档中的各种元素,对其进行语义标记。基于这种方式,模型将非结构化的文档内容转换为结构化、上下文丰富的Markdown格式,为下游任务提供更高质量的输入。
  • 模型优化与调整:在训练过程中,不断优化模型的参数和结构,提高在各种文档类型和场景下的性能。,针对不同的功能需求,对模型进行特定的调整和优化,确保其在实际应用中的准确性和可靠性。

Nanonets-OCR-s的项目地址

  • 项目官网:https://nanonets.com/research/nanonets-ocr-s/
  • HuggingFace模型库:https://huggingface.co/nanonets/Nanonets-OCR-s

Nanonets-OCR-s的应用场景

  • 论文数字化:将包含LaTeX方程和表格的学术论文转换为结构化的Markdown格式,方便研究人员进行文献整理、引用和进一步分析。
  • 研究资料整理:快速提取研究论文中的关键信息,如实验数据、图表和结论,便于研究人员进行快速查阅和对比。
  • 学术出版:帮助出版社将纸质或PDF格式的学术文献转换为适合在线发布的格式,提高文献的可访问性和可搜索性。
  • 法律文档分析:快速识别和提取法律文档中的重要条款、案例引用和法律条文,提高法律研究和案件分析的效率。
  • 财务报表处理:从财务报表中提取数据,如收入、支出和资产负债表,便于进行财务分析和报告生成。

迅雷MCP – 迅雷推出的AI自动下载MCP服务

迅雷MCP是什么

迅雷MCP是迅雷推出的创新服务,将AI与数字内容下载深度融合。用户只需在支持该服务的AI应用(如纳米AI、扣子空间等)中发出指令,AI能自动找到所需资源启动下载。迅雷MCP支持PC版迅雷和NAS迅雷,打破传统下载模式,让智能下载更高效便捷。目前所有用户均可免费使用,基于简单的配置,享受AI带来的下载便利,让每一次资源获取快人一步。

迅雷MCP

迅雷MCP的主要功能

  • 自动资源搜索与下载:用户只需在支持MCP的AI应用中输入或说出下载需求,AI自动搜索网络上的相关资源,基于迅雷进行下载。
  • 跨平台支持:迅雷MCP服务同时支持PC版迅雷和NAS迅雷,用户能在不同的设备上使用。
  • 智能指令识别:支持语音和文字两种指令方式,AI能准确识别、理解用户的指令,快速响应下载请求。
  • 无缝集成:迅雷MCP支持与纳米AI扣子空间CursorCherry Studio等国内外主流大模型应用无缝集成,用户可以在应用中直接使用MCP服务。

如何使用迅雷MCP

  • 获取迅雷MCP链接:访问迅雷MCP管理主页:https://pan.xunlei.com/mcp。用迅雷账号登录。
  • 创建应用:点击「创建应用」按钮,输入应用名称,便于后续管理。
  • 复制链接:应用创建成功后,页面生成专属迅雷MCP链接,点击「复制」按钮保存该链接。
  • 在AI应用中接入MCP
    • 选择AI应用:打开AI应用,如纳米AI、扣子空间、Cursor、Cherry Studio等。
    • 添加MCP服务:在AI应用中找到「添加工具」,选择「添加MCP服务」。
    • 配置MCP:输入MCP名称,选择「服务器发送事件SSE」,粘贴从迅雷MCP管理主页复制的链接,点击「确定」。
  • 配置迅雷客户端:打开迅雷客户端,进入「设置」界面,在「下载设置」中勾选「开启远程下载」。
  • 启用MCP服务并开始下载
    • 启用服务:回到AI应用的大模型界面,选择模型,点击「工具」,勾选「迅雷MCP」及「网页抓取」等选项,点击「联网」。
    • 发起下载:基于语音或文字指令,如“下载某部电影”或“获取某软件的最新版本”,让AI自动找到资源并启动下载。
  • 管理下载任务:基于迅雷客户端的远程下载功能,随时随地管理下载任务,查看进度、暂停或取消任务等。

迅雷MCP的应用场景

  • 影视下载:用户想观看电影时,只需在AI应用中输入电影名称,AI自动搜索、启动下载,方便快捷。
  • 音乐获取:音乐爱好者输入歌手或专辑名,AI找到并下载相关音乐文件,丰富个人音乐库。
  • 学习资料下载:学生学习需求,AI搜索并下载相关电子书或教程,助力学习。
  • 工作文件获取:职场人士可输入工作需求,AI找到并下载相关文件,提高工作效率。
  • 家庭影视库建设:家庭用户用NAS设备,基于AI应用搜索下载各类影视作品,建立家庭影视库,方便家庭成员随时观看。