Skip to main content

Author: Chimy

clikka.ai – AI产品摄影工具,一张照片生成4个角度视图

clikka.ai是什么

clikka.ai 是AI产品摄影工具。用户只需上传产品图片,30秒内能获得专业品质的照片。工具具备风格匹配功能,能基于上传风格参考照片,复制其灯光和氛围,实现风格融合。clikka.ai 提供 360° 产品画廊功能,支持从一张照片生成 4 个角度的视图,适合电商展示。工具操作简单,接受任何图像格式,支持生成后下载专业照片。

clikka.ai

clikka.ai的主要功能

  • 快速生成专业照片:用户上传产品图片后,30秒内能获得高质量的专业照片。
  • 风格匹配与融合:基于上传风格参考照片,AI能复制其灯光和氛围,实现风格融合。
  • 360°产品画廊:从一张照片生成4个角度的视图(如手持、3/4 视角、俯视和背面),适合电商展示。
  • 多格式支持:接受任何图像格式,方便用户上传各种产品图片。
  • 高效下载:生成的专业照片能全部下载或单独下载某个角度的图片。

clikka.ai的官网地址

  • 官网地址:https://clikka.ai/

clikka.ai的产品定价

  • Starter(入门版):$9.99,包含50个积分。
  • Professional(专业版):$29.99,包含200个积分。
  • Business(商业版):$59.99,包含500个积分。
  • Enterprise(企业版):$99.99,包含1000个积分。

clikka.ai的应用场景

  • 电商产品展示:快速生成高质量产品图,提升商品吸引力,增加销量。
  • 广告营销素材:生成符合广告风格的专业图片,用在广告宣传,吸引客户。
  • 社交媒体分享:制作适合社交媒体的产品图片,提高用户关注度和互动率。
  • 产品设计验证:将设计概念转化为专业图片,便于团队评估和客户展示。
  • 小型企业与创业者:用较低成本获得专业产品图片,提升品牌形象。

VLN-R1 – 港大联合上海AI lab推出的具身智能框架

VLN-R1是什么

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集,用长短期记忆采样策略平衡历史和当前观测。框架训练分为两阶段,监督微调(SFT)让模型动作序列文本预测与专家演示对齐,强化微调(RFT)基于时间衰减奖励(TDR)机制优化多步未来动作。VLN-R1在VLN-CE基准测试中表现强劲,证明LVLM在具身导航中的有效性,提升任务特定推理能力,且数据效率高。

VLN-R1

VLN-R1的主要功能

  • 连续环境导航:直接处理第一人称视频流,让智能体在连续的3D环境中自由移动,不仅仅局限于预定义的节点。
  • 动作生成:生成四种基本动作命令(FORWARD、TURN-LEFT、TURN-RIGHT、STOP),实现精确的导航控制。
  • 数据高效训练:基于监督微调(SFT)和强化微调(RFT),用有限的数据实现高效的模型训练,提升导航性能。
  • 跨领域适应:基于强化微调(RFT),模型能快速适应新的导航任务和环境,即使只有少量数据。
  • 任务特定推理:基于时间衰减奖励(TDR)机制,优化多步未来动作的预测,增强长期导航性能。

VLN-R1的技术原理

  • 数据集构建:VLN-Ego数据集基于Habitat 3D模拟器生成,包含第一人称视频流和对应的未来动作预测,为模型训练提供丰富的数据。
  • 长短期记忆采样:在处理视频输入时,用长短期记忆采样策略,动态平衡历史帧的重要性与实时输入的敏感性,确保模型在导航过程中既考虑短期相关性,又不丢失长期上下文信息。
  • 监督微调(SFT):基于最小化模型预测文本与专家演示文本之间的交叉熵损失,让模型的动作序列预测与真实动作对齐,确保模型能准确理解语言指令生成相应的动作。
  • 强化微调(RFT):基于组相对策略优化(GRPO)的强化学习方法,用时间衰减奖励(TDR)机制评估和优化多步未来动作的预测,增强模型在长期导航任务中的性能。
  • 大型视觉语言模型(LVLM):基于先进的LVLM(如Qwen2-VL)处理视觉和语言输入,实现从第一人称视频流到导航动作的直接映射,提升模型的泛化能力和适应性。

VLN-R1的项目地址

  • 项目官网:https://vlnr1.github.io/
  • GitHub仓库:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1
  • arXiv技术论文:https://arxiv.org/pdf/2506.17221

VLN-R1的应用场景

  • 家庭服务机器人:让家庭服务机器人根据主人的自然语言指令在家中自由导航,完成打扫卫生、取物等任务,提升生活便利性。
  • 工业自动化:在工厂车间助力机器人按操作员指令灵活导航,完成物料搬运和设备维护,提高生产效率。
  • 智能仓储:让仓库机器人依据指令在货架间精准导航,高效完成货物存储与检索,优化仓储管理。
  • 医疗保健:支持医院或养老院机器人按医护人员或患者指令导航,完成送药、送餐等任务,减轻医护负担。
  • 智能交通:帮助自动驾驶车辆在复杂城市环境中按交通信号和指令导航,增强行驶安全性和灵活性。

实测Kimi-Researcher,7个案例看懂Agent能干什么

最近,Kimi 推出基于端到端自主强化学习技术的 Kimi-Researcher(深度研究)Agent 模型并开启内测。

第一时间申请到了内测资格,深度体验下来,发现Kimi不管是日常生活决策,还是专业领域研究,它都能给你梳理的明明白白。

只需要一句话,它就会自动阅读资料,拆解复杂问题,主动提出研究路径、分解任务、追踪信息,最后输出内容丰富、来源精确的万字报告,还会整理成重点清晰、方便阅读的可视化页面。

今天就跟大家分享一下,Kimi推出的深度搜索到底能做什么?以及,Kimi-Researcher是如何做到SOTA的。

 

01. 实测体验

 

有内测资格的友友可以在对话框看到深度研究按钮,我们输入需求,选择这里的深度研究,就可以使用该功能。

我选择了7个不同方向的需求来测试他的深度研究功能。

case 1:辅助复杂购买决策

小米YU7马上就要开发布会了,我想提前了解一些关于这个车型的知识,于是我告诉Kimi:

提示词:小米YU7。

Kimi会引导我提出更具体的需求并列出了几个方向供我选择:小米YU7的上市价格、具体配置、技术亮点和市场竞争情况等等。

这几个点也确实是我比较想了解的方向,于是我们可以直接让它做个全面的深度研究:

这时候,它会去自主搜索、梳理YU7相关的信息,整个过程大概花了二三十分钟,这期间你可以完全不用管它。

最终,它会把得到的信息整理成一篇详细的深度研究报告和一份可视化报告。

我们先一起看看深度研究报告,全篇9600+字,一百多处引用,内容全面又详细,重点数据都可以看到清晰的信息源。

前面提到的几个要点,它都完整的展示出来了,并且在内容中,标明了出处。选择的信息源也都是像汽车之家、小米汽车、车家号这样在专业领域比较权威的网站。

相比于文字化报告,可视化报告更直观,可以看到更多的数据对比,方便我们快速了解重点。

打开链接查看完成报告: https://www.kimi.com/share/d1eiapsjc3f16p1sumsg

case 2:规划/优化旅行行程

提示词:我想从北京去瑞士旅行,帮我规划一个一周的行程,预算5万,尽量把热门景点都囊括。

同样的,它给我生成了一份瑞士一周深度游的行程规划与预算指南,还有一份可视化报告。

在深度游行程规划与预算指南中,交通、景点、住宿、美食都有很详细的介绍。

在可视化报告中,各项信息都一目了然。

如果不想看太多文字,直接看可视化报告就能了解到全部内容。

打开链接查看完整报告:https://www.kimi.com/share/d1eie8mmcu0nio8n7t40

case 3:金融投资分析/市场研究

提示词:中国游戏出海现状及趋势。

深度研究报告:

可视化报告:

打开链接查看完整报告: https://www.kimi.com/share/d1eiapsjc3f16p1sumsg

case 4:科学研究与文献综述

提示词:查询与茶与咖啡哪个提神效果更好的相关文献。

除了一些官方媒体,我注意到它的内容中引用了比较多的知乎专栏内容。

如果在学术相关研究时,数据库能与Kimi的学术搜索数据库打通就更好啦。

深度研究报告:

可视化报告:

打开链接查看完整报告:https://www.kimi.com/share/d1eid6jof8jlmi2au4lg

case 5: 政策分析与解读

提示词:公积金利率下调,购房者能省多少

深度研究报告:

可视化报告:

打开链接查看完整报告:https://www.kimi.com/share/d1eid0kjc3f16p1t9sjg

case 6: 深度信息检索与分析

提示词:分析月之暗面这个公司的市场竞争力

深度研究报告:

可视化报告:

打开链接查看完整报告:https://www.kimi.com/share/d1eidcn37oq3d4ubqqi0

case 7:专业级研究报告生成

提示词:对AI大模型领域的最新进展进行综述。

深度研究报告:

可视化报告:

打开链接查看完整报告:https://www.kimi.com/share/d1eidh8osk9hkuhggi20

这个可视化报告是Kimi-Researcher的一大亮点,各种图表和数据都很清晰的展现出来,一眼就能看出来它到底在说什么。

这一切,不需要你开几十个标签页、来回切换资料——你只是说出需求,它就能跑完研究链条。

如果能够提供下载就更好了~

 

02. Kimi-Researcher的优势

 

通过上面的几个案例,我们可以很清楚的认识到Kimi-Researcher 的信息搜集能力真的很不错。而且对于搜集到的信息再加工的能力也是数一数二的。

在人类最后一次考试(Humanity’s Last Exam, HLE)和红杉中国发布的 xbench 基准测试等测试中都取得了很好的成绩。是目前此类模型的第一梯队。

它背后核心能力可以分为三个层面:

  • 主动搜索(WebAgent能力)

它会主动使用浏览器搜索相关内容,再自己判断哪些内容是有用的。

  • 多文档总结(超长上下文)

一次研究,可能涉及十几篇甚至上百篇资料,几万字内容。Kimi 的百万 Token 上下文能力,让它总结多篇文章也毫不费力。

  • 问题拆解(多步推理)

针对复杂问题,它会主动分解为多个子问题,分别去查、分析、总结,再合成结论。这样出来的成果更为细致。

传统 Agent 需要人写好流程; 而Kimi-Researcher 是完全基于Kimi自研的K系列模型,通过端到端 Agentic RL 后训练而成,在解决用户需求的每一步时,都会根据环境的实时反馈不断进行自我调整。

 

03. 一些分享

 

作为一名长期写作、调研、做内容的自媒体人,我对 Kimi-Researcher 的评价是:

“这是我真正想要的 Agent 模式。”

AI不再仅仅是一个聊天对象,而是真正开始像人一样“替你干活”了。

过去半年,大家都在讨论 Agent,但多数还停留在概念验证(PoC)或开发工具阶段。

Kimi-Researcher的发布,标志着:To C层的Agent产品正式上线。跑通了“目标→路径→执行→输出”的完整闭环。

这不是一个“demo”,而是能立即用起来、产生价值的生产力工具。

可以预见,接下来会有越来越多的领域(金融分析、法律综述、医学研究)开始出现类似的“ Researcher 类 Agent ”。

原文链接:实测Kimi-Researcher,这是我真正想要的 Agent !

Bob – 专为macOS平台设计的AI翻译和OCR软件

Bob是什么

Bob是为macOS平台设计的翻译和OCR软件。Bob支持多种翻译方式,包括划词翻译、截图翻译、输入翻译等,支持10+翻译服务,如Apple翻译、Google翻译百度翻译等。Bob具备语音朗读功能,支持朗读原文和译文。Bob的OCR功能强大,支持截图OCR、静默截图OCR、访达选图OCR等,支持离线识别、二维码识别、智能分段等功能。Bob操作便捷,基于快捷键能快速调用功能,适合在各种应用程序中使用,是翻译和文本识别的高效工具。

Bob

Bob的主要功能

  • 翻译功能:支持划词翻译、截图翻译、输入翻译,支持同时开启多个翻译服务,支持简明英汉词典。
  • OCR功能:支持截图OCR、静默截图OCR、访达选图OCR,支持离线识别、连续识别、二维码识别及智能分段。
  • 支持20+翻译服务:包括火山、腾讯、阿里、百度、有道、Apple、Google、Microsoft、Amazon、DeepL等。
  • 插件系统:提供灵活的插件系统,方便接入更多服务,满足个性化需求。

如何使用Bob

  • 安装Bob:访问Bob的官方网站https://bobtranslate.com/,下载并安装。安装完成后,从应用程序文件夹或Launchpad启动Bob。
  • 翻译功能
    • 划词翻译:选中需要翻译的文本。按下Bob的划词翻译快捷键(默认是⌥ D)。翻译结果悬浮显示在当前应用程序上方。
    • 截图翻译:按下截图翻译快捷键(默认是⌥ S)。截取需要翻译的屏幕区域。松开快捷键后,翻译结果会显示。
    • 输入翻译:按下输入翻译快捷键(默认是⌥ A)。输入需要翻译的文本,按Enter键。
    • PopClip调用:选中文本后,点击PopClip弹出的Bob插件图标进行翻译。
  • OCR功能
    • 截图OCR:按下截图OCR快捷键(默认是⇧ ⌥ S)。截取需要识别的屏幕区域。松开快捷键后,识别结果悬浮显示。
    • 静默截图OCR:按下静默截图OCR快捷键(需要自定义)。截取屏幕区域,识别结果直接复制到剪贴板。
    • 访达选图OCR:按下访达选图OCR快捷键(需要自定义)。在访达窗口选中图片文件进行识别。

Bob的应用场景

  • 学术研究:研究人员快速翻译外文文献、论文和学术资料,提高研究效率。
  • 商务沟通:商务人士翻译邮件、合同、报告等商务文件,促进跨语言沟通。
  • 旅游:旅行者翻译菜单、路标、指示牌等,在外国旅行时更好地理解周围环境。
  • 学习外语:学生翻译课本、练习题、学习资料,辅助外语学习。
  • 技术支持:IT专业人员翻译技术文档、错误信息、用户手册等,提高技术支持的效率。

Game Worlds – Runway推出的AI游戏创作平台

Game Worlds是什么

Game Worlds 是 Runway 推出的 AI 游戏创作平台,通过 AI 技术帮助用户轻松创建个性化的游戏世界。平台支持用户通过简单的文本描述或上传图像,快速生成游戏中的角色、场景和动画。可以根据自己的想法设计独特的角色和场景。为游戏开发者和创作者提供了强大的工具,降低创作门槛。

Game Worlds

Game Worlds的主要功能

  • 个性化角色与场景创作:用户可以通过简单的文本描述或上传图像,基于大型语言模型和生成式 AI 技术,创造个性化的角色扮演游戏世界。
  • 多人互动体验:用户可以邀请朋友一同进入由 AI 驱动的虚拟空间,共同探索和互动。
  • 强大的生成能力:能生成逼真的角色模型、场景贴图以及特效动画,加速游戏开发流程,降低开发成本。
  • 创意表达与自由创作:基于 Runway 的 AI 技术,用户可以将脑海中的想法快速转化为视觉现实,激发无限创意。

Game Worlds的官网地址

目前平台仍处于内测阶段,仅限 Runway 邀测用户可以提前体验。

  • 官网地址:https://play.runwayml.com/

Game Worlds的应用场景

  • 游戏开发:Runway Game Worlds 可以帮助游戏开发者快速生成游戏中的角色、场景和动画。开发者可以通过简单的文本描述或上传图像,基于平台的 AI 技术生成高质量的游戏内容,缩短开发周期,降低开发成本。
  • 教育领域:在教育场景中,Runway Game Worlds 可以用于创建沉浸式学习体验。例如,教师可以用平台生成虚拟的历史场景、科学实验环境等,让学生通过角色扮演的方式更直观地理解知识。学生可以通过平台创作自己的游戏项目,锻炼创造力和编程能力。
  • 娱乐与互动体验:Runway Game Worlds 提供高度个性化的娱乐体验。用户可以创建属于自己的角色扮演游戏世界,邀请朋友一起进入虚拟空间进行互动。
  • 创意内容生成:可以用于生成各种创意内容,如短视频、动画等。用户可以通过输入简单的文本描述或上传图像,快速生成高质量的视频内容。

Twocast – AI双人播客生成器,模拟真实双人对话形式

Twocast是什么

Twocast是AI驱动的双人播客生成器,支持生成双人对话形式的播客内容。生成器支持多语言、多音色,能基于主题、链接、文档等多种方式快速生成3-5分钟的播客。Twocast生成的播客内容包括音频、大纲和脚本,用户能下载音频文件。Twocast支持Fish AudioMinimaxGoogle Gemini三大平台,为用户提供便捷的播客制作体验。

Twocast

Twocast的主要功能

  • 双人播客生成:用双人对话形式生成播客,模拟真实对话场景,增强互动性和趣味性。
  • 多种生成方式:基于主题、链接、文档(doc/pdf/txt)、列表页面等多种方式生成播客,满足不同需求。
  • 多语言支持:支持多种语言,方便不同语言背景的用户使用。
  • 多音色支持:提供多种音色选择,丰富播客的听觉体验。
  • 内容丰富:生成的播客内容包括音频、大纲和脚本,方便用户编辑和使用。
  • 音频下载:用户能下载生成的音频文件,方便在不同设备上播放。
  • 平台支持:支持Fish Audio、Minimax和Google Gemini三大平台,提供广泛的兼容性。

Twocast的技术原理

  • 自然语言处理(NLP):基于NLP技术理解和生成自然语言文本,包括对话内容的生成和脚本的撰写。
  • 文本到语音(TTS):将生成的文本内容转换为语音,支持多种音色和语言,提供流畅自然的语音输出。
  • 机器学习模型:用预训练的机器学习模型,如LLM(大型语言模型),生成高质量的对话内容。
  • 多模态输入:支持多种输入方式,如主题、链接、文档等,基于解析和处理输入,生成相关的播客内容。
  • 音频处理:基于音频处理技术,如FFmpeg,对生成的音频进行优化和格式转换,确保音频质量。
  • 云服务和API:与外部服务(如Fish Audio、Minimax、Google Gemini)集成,通过API调用实现功能扩展和优化。

Twocast的项目地址

  • 项目官网:https://twocast.app/
  • GitHub仓库:https://github.com/panyanyany/Twocast/

Twocast的应用场景

  • 播客制作:为播客创作者提供便捷的双人对话播客生成服务,快速产出内容,降低创作门槛。
  • 教育领域:制作教学播客,用对话形式讲解知识,提高学生的学习兴趣和参与度。
  • 行业分享:生成行业动态、趋势分析等播客,帮助从业者及时获取信息,促进知识交流。
  • 娱乐节目:创作轻松幽默的娱乐播客,分享趣事、八卦等,为听众带来娱乐体验。
  • 企业推广:助力企业制作品牌故事、产品介绍等播客,提升品牌知名度和产品影响力。

课件帮 – AI课件制作平台,一键生成数字人视频课件

课件帮是什么

课件帮是数字人视频课件智能创作平台。基于AI技术,快速生成数字人视频课件,1分钟搞定制作。平台基于主题自动生成PPT大纲及内容,将已有文本资料转化为PPT,支持多种文件格式。数字人教师可进行口播讲解,语速、音调可调,支持定制专属形象。课件帮覆盖入职培训、岗位培训、营销培训、党建教育、办公汇报、学科培训等全场景,满足企业和个人定制化需求,支持企业定制与合作,助力高效教学与培训。

课件帮

课件帮的主要功能

  • 视频课件创作:用户输入主题或上传相关资料后,平台基于AI技术快速生成数字人视频课件,大大节省制作时间。
  • 数字人口播:数字人根据课件内容进行口播讲解,无需真人配音,能调节语速、音调,讲解更生动自然。
  • PPT课件制作::基于输入的主题,AI自动生成PPT大纲及详细内容,为用户提供一个完整的初稿,方便进一步编辑优化。
  • 文本资料转化:用户上传PDF、TXT等格式的已有文本资料,平台自动提取关键信息生成PPT内容,实现资料的快速转化利用。
  • 数字人定制:支持用户定制专属的数字人形象,包括外观、声音等,使课件更具个性化,有助于提升品牌形象和教学效果。

如何使用课件帮

  • 注册登录:访问课件帮官网:https://chat.tydiczt.com/,填写注册信息并登录平台。
  • 创建课件:选择视频或PPT课件类型,输入主题或上传相关资料,点击“生成”按钮,AI将自动生成课件初稿。
  • 编辑优化:对生成的课件进行内容编辑、调整数字人设置及选择模板,满足个性化需求。
  • 预览导出:点击“预览”查看课件效果,确认无误后点击“导出”,将课件保存为所需格式。
  • 使用分享:将导出的课件应用在实际场景,或用平台分享功能发送给他人。

课件帮的应用场景

  • 企业培训:用在入职培训、岗位技能和营销培训,提升效率。
  • 教育教学:助力学科教学、在线教育和职业培训,提高教学效果。
  • 党建教育:生成党史资料和政策解读,丰富党建教育形式。
  • 办公汇报:自动总结PPT内容,完善汇报材料,提升工作效率。
  • 其他场景:满足个人学习和活动策划等需求,方便知识整理和信息传达。

Kwai Keye-VL – 快手推出的多模态大语言模型

Kwai Keye-VL是什么

Kwai Keye-VL 是快手自主研发的多模态大语言模型,基于 Qwen3-8B 语言模型整合SigLIP初始化的视觉编码器,支持动态分辨率输入。模型能深度融合和处理文本、图像、视频等多模态信息,凭借创新的自适应交互机制与动态推理能力,致力于为用户打造更智能、更全面的多模态交互新范式。模型在视频理解、复杂视觉感知、逻辑推理等方面表现出色,尤其在2025高考全国数学卷中狂砍140分。模型已正式开源,为多模态研究和应用提供强大的支持。

Kwai Keye-VL

Kwai Keye-VL的主要功能

  • 视频理解:对短视频内容进行深度理解,例如分析视频中的场景、人物、动作等信息,为视频生成描述、标签或推荐相关内容。
  • 图像识别与描述:自动解析图像细节,识别图像中的物体、场景等,生成准确的描述。
  • 逻辑推理:在复杂的逻辑推理任务中表现出色,例如解决数学问题、进行科学推理等。
  • 多模态交互:支持处理文本、图像、视频等多种模态的信息,在模态之间进行有效的交互和融合。
  • 智能创作:基于对多模态信息的理解,辅助用户进行内容创作,如生成文案、脚本、创意方案等。

Kwai Keye-VL的技术原理

  • 模型架构:基于Qwen3-8B语言模型,整合SigLIP初始化的视觉编码器。支持动态分辨率输入,按原始比例将图像切分为14×14分块,由MLP层整合视觉特征。用3D RoPE(旋转位置编码)统一处理文本、图像和视频,基于位置编码与时间戳对齐,精准捕捉视频时序变化。
  • 预训练策略:持续预训练视觉编码器,适配内部数据分布并支持动态分辨率输入。冻结主干模型,仅训练轻量级MLP适配器,用极低成本高效建立鲁棒的图文/视频-文本对齐关系。解锁全部模型参数,进行多任务联合训练,全面提升模型的综合视觉理解能力。用精选高质量数据进行精调,进一步提升模型的精细理解和判别能力。探索同构异质融合技术,基于参数平均融合不同数据配比的退火训练模型,在保留多维度能力的同时,减小模型偏差,增强模型的鲁棒性。
  • 后训练策略
    • 非推理训练(No-Reasoning Training):用500万条高质量多模态VQA数据,数据多样性由自研TaskGalaxy方案建立的任务体系(包含7万种任务)保证,数据质量经AI筛选困难样本及人工标注保障。结合开源数据与自建的偏好数据,后者收集SFT错误样本作提问素材、Qwen2.5VL 72B与SFT模型生成答案对、人工排序获得。
    • 推理训练(Reasoning Training):混合四种推理模式的训练数据,实现对模型思维链能力的零基础激活,初步掌握人类分步思考的推理范式。在冷启动基础上,用GRPO算法进行混合模式强化学习,基于创新的双轨奖励机制(同步评估结果正确性与过程一致性)深度优化多模态感知、数学推理、短视频理解及智能体协同等综合能力,显著提升模型的推理能力。基于MPO算法对优劣数据对进行多轮迭代,根治内容重复崩溃与逻辑断层问题,最终赋予模型根据问题复杂度智能选择深度推理模式的自适应能力,实现性能与稳定性的双重突破。

Kwai Keye-VL的项目地址

  • 项目官网:https://kwai-keye.github.io/
  • GitHub仓库:https://github.com/Kwai-Keye/Keye/tree/main
  • HuggingFace模型库:https://huggingface.co/Kwai-Keye

Kwai Keye-VL的应用场景

  • 视频内容创作:帮助短视频创作者快速生成标题、描述和脚本,提高创作效率。
  • 智能客服:基于多模态交互(文本、语音、图像),为用户提供智能客服服务,提升用户体验。
  • 教育辅导:为学生提供个性化的学习辅导,包括作业解答和知识点讲解,助力学习。
  • 广告营销:为广告商生成吸引人的文案和脚本,提高广告效果。
  • 医疗辅助:辅助医生分析医学影像,提供初步诊断建议,提升医疗效率。

TicNote – 出门问问推出的AI录音笔,Agentic AI软硬结合产品

TicNote是什么

TicNote 是出门问问推出的AI录音笔,定位为“随身AI思考伙伴”。采用卡片式设计,轻薄便携,配备磁吸保护套,可轻松携带或贴于手机背面。TicNote 搭载 Shadow AI,具备强大的AI功能,支持高清录音、精准转写(支持多种外语和方言),能智能总结、提取要点、生成思维导图,捕捉灵感,辅助创作。

TicNote

TicNote的主要功能

  • 智能录音与转写:TicNote 支持“现场”和“通话”两种录音模式,能清晰收录远距离声源,支持 120+ 种语言及多种方言的转写,精准度高达 98%。
  • AI 智能总结与分析:内置的 Shadow AI 可以对录音内容进行提炼总结,生成摘要、待办事项和行动建议,能生成可视化思维导图。
  • 主动洞察与信息推送:Shadow AI 可以根据用户的指令,在特定时间推送相关内容,例如项目相关的新闻。
  • 深度研究与创作辅助:能生成深度研究报告,捕捉对话中的灵感火花,帮助用户进行内容创作。
  • 项目管理:支持上传本地文档,构建个人专属知识库,方便用户对不同项目进行管理。
  • 实时对话与互动:用户可以通过 Chat with Shadow 功能与 AI 进行实时对话,获取精准建议。
  • 播客生成:与出门问问的「魔音工坊」联动,将录音内容转化为播客。

TicNote的产品规格

  • 外观:采用卡片式设计,厚度仅3mm,重量不到30g,携带非常方便。配备磁吸保护套,可贴在手机背面。
  • 续航:配备470mAh大电池,支持1.5小时快充,待机续航时间可达20天,支持20+小时连续录音。
  • 内存容量:配备64GB eMMC存储,无需网络也能记录。
  • 颜色与材质:通体采用深灰配色,搭配 MagSafe 皮套。
  • 屏幕类型:配备 OLED 屏,非触摸屏,显示内容清晰直观。
  • 品牌:出门问问。
  • 商品编号:100243968084。
  • 形状:长方形。
  • 适用场景:会议。
  • 功能:语音转文字,录音,翻译。
  • 型号:TicNote。
  • 认证型号:TicNote。
  • 包装清单:录音笔X1、数据线X1、说明书X1、磁吸皮套X1、圆环X1。

TicNote

TicNote的产品定价

  • 悦享版:售价 999 元,包含硬件和 3 个月 Pro 会员服务。
  • 臻选版:售价 1499 元,包含硬件和 12 个月 Pro 会员服务。
  • 服务内容:Pro 会员服务每月赠送 1500 个 AI 功能积分。会员服务支持更多高级功能,如深度分析、联网搜索等。
  • 购买渠道:TicNote 国内版已于 2025 年 6 月 25 日正式上线,用户可以通过京东、天猫出门问问旗舰店购买。

TicNote官网地址

  • 官网地址:https://ticnote.com/
  • 京东商城:https://item.jd.com/100243968084.html
  • 苹果AppStore应用商店:https://apps.apple.com/cn/app/ticnote-ai%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%BD%95%E4%B8%8E%E6%80%9D%E8%80%83%E4%BC%99%E4%BC%B4/id6746746060
  • 腾讯应用宝:https://sj.qq.com/appdetail/com.mobvoi.ticnote
  • Google Play:https://play.google.com/store/apps/details?id=com.mobvoi.ainote&hl=en-US

如何使用TicNote

  • 下载应用:访问TicNote的官网,或在 App Store 或 Google Play 或腾讯应用宝搜索“TicNote”,下载并安装应用。
  • 初始设置
    • 创建账户:打开应用后,创建 Mobvoi TicNote 账户。
    • 设备配对:长按 TicNote 的电源键 0.5 秒开机,设备显示待绑定状态后,打开应用并按照屏幕提示完成配对。
  • 录音模式
    • 扬声器模式:将开关拨至下方,适合手持或放置在桌面录音。
    • 耳机模式:将开关拨至上方,设备会捕捉手机的振动,适合电话录音。使用此模式时,需确保手机处于普通通话模式(非蓝牙通话),并用磁吸保护套将 TicNote 固定在手机背面。
  • 开始录音
    • 在任意录音模式下,长按电源键 2 秒,设备振动一次并显示录音状态,表示录音开始。
    • 结束录音时,再次长按电源键 2 秒,设备振动两次并返回蓝牙图标,表示录音结束。
  • 文件同步
    • 蓝牙模式:是默认的文件同步方式,连接成功后会自动传输。
    • Wi-Fi 快速传输:对于大文件,TicNote 可通过 Wi-Fi 快速传输功能将文件同步到应用。启用后,设备会创建热点,应用连接热点后自动同步文件。
  • 故障排除:如果 TicNote 无响应或卡顿,长按电源键 15 秒,设备将重新显示绑定图标,此操作不会丢失数据或更改设置。

TicNote

TicNote的应用场景

  • 会议记录:TicNote 可以在正式会议、商务洽谈等场景中,快速准确地记录会议内容,自动生成会议纪要、待办事项和行动建议。
  • 电话沟通:在电话会议、远程采访等场景中,TicNote 的“通话”模式能聚焦听筒声音,清晰记录通话内容。
  • 课堂学习:学生可以用 TicNote 记录课堂讲座内容,设备会自动整理重点,生成思维导图,帮助学生更好地复习。
  • 学术研讨:在学术会议或研讨会中,TicNote 能捕捉对话要点,结构化内容,结合历史语境进行持续理解。
  • 采访沟通:记者可以在采访中用 TicNote,设备记录采访内容,能实时生成摘要和思维导图,方便记者快速整理采访要点。
  • 随机记录:用户可以在日常生活中用 TicNote 记录重要信息或待办事项,设备会自动整理并提醒用户。

深度体验金灵AI,CSDN 正式上线金融投研AI Agent

飞天茅台价格再次全线跳水!

6月25日,今日酒价披露的批发参考价显示:2025年飞天茅台原箱较前一日下跌85元,报1830元/瓶;散瓶较前一日下跌70元,报1780元/瓶。

在许多人惊呼“茅台还会继续跌吗”的时候,金灵AI的回答是:这是技术性调整!

金灵AI是 CSDN 最新推出的金融深度投研AI Agent,基于豆包pro、DeepSeek 和 Qwen 大模型,学习了大量的金融专业知识,已支持A股,港股和美股。

我们一起看看它是怎么分析“茅台”事件的~

 

01. 股票分析

 

金灵AI的使用方法非常简单,跟普通的大模型一样,在对话框输入我们的需求,点击发送。

不需要任何专业术语,金灵AI会根据你的问题调用不同的金融智能体,包括:

  • CodeAgent:生成分析模型、数据脚本
  • SearchAgent:抓取政策、新闻、数据
  • 金融规划师:评估资产配置、风险、投资建议

金灵AI基于最先进的多智能体(Multi-Agents)框架调用多个智能体,为你生成一份有深度、结构化、有逻辑的投资回答。

我们可以直接问它,今天贵州茅台跌价,我应该继续买入还是全部卖出呢?

提示词:贵州茅台我的持仓成本是1645,现在应该继续买入还是全部卖出?

AI规划师会拆解我们的需求,然后调用合适的工执行。

我们一起看一下最后它生成这份决策分析报告。

首先它对当前情况做了初步的分析,也是精准捕捉到了最新的交易日数据

接着是技术面分析,结合均线、MACD、RSI及关键支撑/压力位具体分析,当前股价是否处于支撑/阻力区间。

金灵AI还会同步结合PE、PB等估值指标,进行“相对历史均值”的判断

金灵AI会明确告诉你:横向对比白酒行业(2025年6月行业平均PE-TTM约25倍),贵州茅台估值仍具相对优势。

最重要的是,它还具备政策感知能力,连今年5月(上个月)发布的“公务接待全面禁酒令”都能了解,并给我解读

它给我的市场环境结论是:短期受政策和宏观经济扰动,但长期消费升级趋势未改,龙头企业抗风险能力更强。

我觉得非常客观。

最后,它会基于以上所有信息,给出综合决策建议

是不是既清晰又具体?就算是小白用户也能秒懂行情。

看到这里你是不是会想,有这种AI神器,那岂不是人人都可以一本万利?

冷静点!

AI数据基于历史,不等于未来趋势;所以这些信息只是供我们参考,辅助决策~不构成投资建议哦。

 

02. 财务数据分析与订阅

 

对话框里还有一个很棒的功能:财务数据分析。

我们点击这个功能,输入贵州茅台。在搜索到的列表里,直接点击分析财务数据。

结果,金灵AI直接调用了贵州茅台的财务三大表,包括:利润表、资产负债表、现金流量表等核心数据。

而且还直接给出了近5年的原始数据

这要是自己人工去收集,花时间不说,光找一堆数据我就已经眼花缭乱了。

看金灵AI给我梳理的就很清晰,而且全程只用了几分钟,不愧是专业的金融Agent!

金灵AI对重点数据的分析也很到位。比如茅台的存货周转天数非常长(2024年约1361天),这种反直觉反常识的信息,它都知道!

从财务指标的角度,一般是存货周转周期越快越好,代表经营效率高。

但金灵AI是结合具体产品分析,茅台的存货周转天数长,并不是因为运营效率低下,而是意味着茅台高价值产品增加!真的很强!

看到这里,我已经在心里默默记下了:以后做决策之前,一定先看看金灵AI的分析。

金灵AI还配有一整套自定义工具:

  • 自选股管理:支持一键添加自选股,随时跟踪异动;
  • 7×24小时全球金融资讯:实时滚动更新;
  • 提供常用的查询示例:市场行情、趋势预测、投资决策、风险分析等。

金灵AI的专业金融能力,不仅适合投资小白快速上手,也能满足专业研究员的深度需求。

 

03. 一些分享

 

一直以来,碳基生命的投资决策经常会被情绪左右。

在20世纪90年代末,互联网泡沫时期,投资者群体对互联网公司过度乐观,只要公司涉及互联网概念,无论是否有盈利模式和实际业绩,股价都被炒得很高。纳斯达克综合指数在1995 – 2000年间大幅攀升,最高涨幅超过500%,但泡沫破裂后,指数在2000 – 2002年间暴跌,许多互联网公司的股价几乎跌至零。

这是碳基生命群体非理性行为导致的恶性循环。

那么,硅基生命的理性决策能完全取代我们吗?

  • 硅基生命可以迅速地收集、分析和整合海量信息,做出逻辑严密、高效精准的决策。
  • 硅基生命不会受到情绪波动、疲劳或主观偏见的影响,能始终保持冷静、客观和高效的决策状态。

但是,当所有人/AI都掌握了同样的工具和信息,所有人/AI会做出的同样的决策,等同于收益也是相同的,没有人/AI能从市场里获得超额收益。

或许这也导致了我们永远无法实现技术平权,强人工智能只掌握在少数人手里。你觉得呢?

原文链接:飞天茅台跌破1800元,金灵AI:这是技术性调整!