Skip to main content

Author: Chimy

Slidev – 开源AI PPT制作工具,支持Markdown秒变幻灯片

Slidev是什么

Slidev 是开源的幻灯片制作工具,基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片,支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能,提供丰富的主题和样式选项。Slidev 提供快速启动命令 npm init slidev,支持在线编辑器 sli.dev/new,无需安装软件简单易用。Slidev 的核心优势在于开发友好性和强大的交互性,适合技术分享、教学培训、产品演示等场景。

Slidev

Slidev的主要功能

  • Markdown 驱动:基于 Markdown 语法创建幻灯片,专注于内容而非复杂的排版。
  • 开发友好:内置代码高亮功能,支持实时编码演示,适合技术分享和教学。
  • 主题化支持:基于 npm 包共享和使用丰富的主题,一键应用专业设计。
  • 交互性:无缝嵌入 Vue 组件,实现动态交互式演示。
  • 演讲者模式:用另一个窗口或手机控制幻灯片,方便演讲时查看备注。
  • 绘图注解:在幻灯片上实时绘图和标注,增强讲解效果。
  • 数学公式支持:内置 LaTeX 数学公式支持,适合教育和学术场景。
  • 图标支持:直接访问各种图标集,丰富视觉元素。
  • 导出功能:轻松导出为 PDF、PNG 或 PPTX 格式,兼容各种使用场景。

Slidev的技术原理

  • Vite:极快的前端构建工具,提供秒级热更新,加速开发流程。
  • Vue 3:作为核心框架,支持组件化开发,让幻灯片内容能模块化和复用。
  • UnoCSS:原子化 CSS 引擎,按需生成样式,提升性能和灵活性。
  • Shiki:提供 VS Code 级别的代码高亮,支持多种编程语言。
  • Mermaid:用在将文本描述转换为矢量图表,支持流程图、甘特图等。
  • RecordRTC:内置屏幕录制功能,支持演讲录制。
  • VueUse:提供一系列 Vue 针对性的工具函数,增强交互性。

Slidev的项目地址

Slidev的应用场景

  • 技术分享:展示代码和开发过程,增强观众理解。
  • 教学培训:制作含公式、图表的幻灯片,提升教学效果。
  • 产品演示:展示产品功能和优势,直观呈现数据。
  • 学术报告:准确传达研究成果,支持公式和图表。
  • 项目汇报:展示项目进展和成果,便于快速了解状态。

Cartwheel – AI 3D动画生成平台,文本描述生成高质量3D角色动画

Cartwheel是什么

Cartwheel 是 AI 3D 动画生成平台,基于文本到动画(Text-to-Motion)技术,让用户仅需输入文本描述,快速生成高质量的 3D 角色动画。平台结合深度学习模型与传统动画技术,支持动作捕捉、自动化运动合成,与主流 3D 软件无缝集成。Cartwheel 的目标是简化 3D 动画制作流程,帮助动画师和艺术家节省时间,专注于创造性工作。

Cartwheel

Cartwheel的主要功能

  • 文本驱动动画:输入文本描述快速生成3D动画。
  • 自动化运动合成:自动将动作与文本结合,生成流畅动画。
  • 无缝集成:动画支持导出为标准格式,兼容主流3D软件和游戏引擎。
  • 可编辑动画:生成的动画可进一步调整和优化。
  • 动作库与预设:提供丰富预设动作,快速选择和自定义。

Cartwheel的官网地址

Cartwheel的产品定价

  • 创建版:免费,提供基础的动画生成和编辑功能,支持文本到动画、角色生成、动作库有限访问,每月有5次免费导出机会。
  • 创作者版:150美元/月,提供完全访问动作库、每月150次动画生成机会、高级支持(24小时响应),适合创作者使用。
  • 专业版:1500美元/月,提供无限次动画生成、完全访问动作库、高级支持(12小时响应)、优先体验新功能,适合专业用户和团队。

Cartwheel的应用场景

  • 游戏开发:快速生成角色和NPC动作,提升开发效率。
  • 影视制作:助力动画电影、短片及特效镜头制作,节省时间和成本。
  • 广告与营销:快速制作创意广告动画,提升吸引力和传播效果。
  • 虚拟现实(VR)和增强现实(AR):生成逼真3D角色动画,增强沉浸感和互动性。
  • 教育与培训:制作教育动画和模拟训练场景,提高教学和训练效果。

AgenticSeek – 开源本地通用AI Agent,自主执行任务

AgenticSeek是什么

AgenticSeek是完全本地化的开源AI助手,是 Manus 的开源平替。AgenticSeek在本地设备上自主执行任务,如浏览网页、编写代码、规划复杂项目等,所有数据和操作在本地完成,确保用户隐私。AgenticSeek支持多种编程语言,具备智能任务拆解和执行能力。用户基于语音或文本交互,适合注重隐私和希望在本地环境中使用AI工具的用户。

AgenticSeek

AgenticSeek的主要功能

  • 完全本地化运行:所有操作均在本地设备上完成,不依赖云端服务,确保用户数据的隐私和安全。
  • 自主任务拆解与执行:将复杂任务自动拆解为多个子任务,逐一执行。例如,规划旅行时,它会自动查找机票、酒店、活动安排等。
  • 智能网页浏览:自主浏览网页,搜索信息,填写表单,提取、保存所需内容。
  • 代码生成与调试:支持多种编程语言(如Python、C、Go、Java等),能编写、调试和运行代码。
  • 语音交互:支持语音输入和输出,用户用语音与AI进行交互。
  • 多语言支持:支持多种语言,根据用户需求进行多语言交互。

AgenticSeek的技术原理

  • 本地运行架构:基于本地硬件运行,不依赖外部云服务。用本地安装的大型语言模型(LLM),处理自然语言理解和生成任务。
  • 任务拆解与代理选择:当用户下达任务时,AgenticSeek自动分析任务需求,选择最适合的Agent执行,将复杂任务拆解为多个子任务,分配给不同的Agent。
  • 浏览器自动化:用Selenium等自动化工具控制本地浏览器,实现网页浏览、信息提取和表单填写等功能。
  • 本地模型管理:用Ollama等本地模型管理工具,方便用户安装、管理和更新本地运行的LLM。
  • 配置与扩展:基于配置文件自定义AI的行为,包括选择不同的LLM、设置工作目录、启用语音功能等。

AgenticSeek的项目地址

AgenticSeek的应用场景

  • 旅行规划:自动搜索、安排旅行行程,生成详细计划。
  • 代码生成:快速编写多种语言的代码,辅助编程。
  • 信息搜索:自主上网查找信息,整理并保存结果。
  • 项目执行:拆解复杂任务,逐步完成项目。
  • 日常协助:管理文件、安排日程,提升效率。

Morphik – 开源的多模态检索增强生成工具

Morphik是什么

Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPali 等技术,能理解文档中的视觉内容。Morphik 具备快速元数据提取功能,可从文档中提取边界框、标签、分类等信息。

Morphik

Morphik的主要功能

  • 多模态数据处理:能处理文本、PDF、图片、视频等多种格式的文件。
  • 智能解析文件:自动将文件分成小块并生成嵌入,方便后续检索和处理。
  • ColPali多模态嵌入:结合文本和图像内容进行高效检索,理解文档的视觉内容。
  • 知识图谱构建:只需一行代码,即可构建特定领域的知识图谱,自动提取实体和关系。
  • 自然语言规则引擎:用自然语言定义规则,从非结构化数据中提取结构化信息。
  • 数据管理与集成:支持多用户和文件夹级别的数据组织和隔离。支持注册和使用数百种不同的AI模型,可根据任务需求灵活配置。
  • 快速元数据提取:从文档中快速提取元数据,包括边界框、标签、分类等。

Morphik的技术原理

  • 多模态嵌入技术(ColPali):Morphik 采用 ColPali 技术,将文档页面视为图像,生成包含布局、排版和视觉上下文信息的嵌入表示,实现对图像和文本的统一检索。使系统能处理文本内容,能理解图像中的信息,如图表、图片等。
  • 增强检索能力:知识图谱的引入增强了检索的准确性和深度。用户可以通过图谱中的关系路径,更直观地理解文档中的概念和信息。
  • 预处理与冻结技术:Morphik 通过预处理数据并“冻结”文档状态,创建持久的键值缓存。减少了重复计算的开销,降低了计算成本,同时显著提高了检索和生成的速度。
  • 混合检索架构:Morphik 的检索过程结合了多种技术,包括基于向量的语义搜索、规则引擎过滤、知识图谱扩展以及相关性重排算法。确保了检索结果的精确性和相关性。

Morphik的项目地址

Morphik的应用场景

  • 技术文档处理:适用于处理技术手册、API 文档和研究论文等复杂文档。
  • 企业知识管理:作为企业级知识库,帮助研究人员和企业用户高效管理和检索知识。
  • 智能应用开发:为开发者提供工具,快速构建 AI 驱动的应用程序。

MTVCrafter – 中科院联合中国电信等机构推出的人像动画生成框架

MTVCrafter是什么

MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行高质量动画生成。框架基于4D运动标记化(4DMoT)直接对3D运动数据进行建模,避免传统方法中依赖2D渲染姿态图像的局限性。框架引入运动感知视频扩散Transformer(MV-DiT),用独特的4D运动注意力和位置编码,有效用4D运动标记作为动画生成的上下文。MTVCrafter在TikTok基准测试中取得6.98的FID-VID成绩,比第二名的方法高出65%,展现出强大的泛化能力和鲁棒性。

MTVCrafter

MTVCrafter的主要功能

  • 高质量动画生成:直接对3D运动序列进行建模,生成高质量、自然且连贯的人类动画视频。
  • 强大的泛化能力:支持泛化到未见的运动和角色,包括单个和多个角色、全身和半身角色,涵盖多种风格(如动漫、像素艺术、水墨画和写实风格)。
  • 精确的运动控制:jiyu 4D运动标记化和运动注意力机制,实现对运动序列的精确控制,确保动画的准确性和一致性。
  • 身份一致性保持:在动画生成过程中,保持参考图像的身份特征,避免身份漂移或失真。

MTVCrafter的技术原理

  • 4D运动标记化器(4DMoT):4DMoT用编码器-解码器结构,基于2D卷积和残差块处理时间(帧)和空间(关节)维度的数据,用向量量化器将连续的运动特征映射到离散的标记空间。标记在统一的空间中表示,便于后续的动画生成。
  • 运动感知视频扩散Transformer(MV-DiT):设计4D运动注意力机制,将4D运动标记与视觉标记(如视频帧)结合。基于4D旋转位置编码(RoPE),恢复因标记化和展平丢失的时空关系。引入运动感知的分类器自由引导,基于学习无条件和条件生成的联合表示,提高生成质量和泛化能力。用简单但有效的重复和拼接策略,将参考图像与噪声视频潜变量结合,确保身份一致性。

MTVCrafter的项目地址

MTVCrafter的应用场景

  • 数字人动画:为虚拟主播、客服、偶像等数字人生成自然流畅的动作和表情。
  • 虚拟试穿:结合用户照片和服装,生成动态试穿效果,提升购物体验。
  • 沉浸式内容:在VR和AR中生成与用户动作同步的虚拟角色动画,增强沉浸感。
  • 影视特效:快速生成高质量角色动画,降低制作成本,提升特效表现力。
  • 社交媒体:让用户结合照片和动作创作个性化动画,增加内容趣味性。

Kilo Code – 开源的 VS Code AI Agent扩展工具

Kilo Code是什么

Kilo Code 是开源的VS Code AI Agent扩展程序,提升开发人员的编码效率。具备强大的代码生成能力,能根据自然语言描述快速生成代码片段,有效减少手动编写代码的时间。Kilo Code 能自动化执行多种重复性编码任务,例如代码格式化、重构以及生成样板代码等,进一步提高开发效率。内置最新的AI模型,如Claude 3.7 Sonnet 和 Gemini 2.5 Pro,无需用户手动配置API密钥,提供MCP服务器市场,用户可以轻松查找和使用各种MCP服务器来扩展代理功能,满足不同开发场景的需求。

Kilo Code

Kilo Code的主要功能

  • 自然语言生成代码:用户可以通过自然语言描述所需逻辑或函数,Kilo Code 转换为代码片段,帮助快速入门或克服障碍。
  • 任务自动化:Kilo Code 能自动化执行常见的编码任务,如代码格式化、注释生成、批量重命名变量等。
  • 自动化重构:选择现有代码后,Kilo Code 可以优化性能、增强可读性或识别潜在错误,帮助开发者完善工作。
  • 多种预设模式:Kilo Code 提供多种预设模式,如架构师模式(Architect)、编码器模式(Coder)和调试器模式(Debugger),用户还可以创建自定义模式。
  • MCP 服务器市场:通过 MCP 服务器市场,用户可以轻松查找和使用 MCP 服务器来扩展代理功能。
  • 智能补全:在用户键入时,Kilo Code 会提供上下文相关的代码建议,减少拼写错误并加快常见模式的实现。
  • 直接操作文件:Kilo Code 可以根据用户指令直接在项目结构中创建新文件或修改现有文件。
  • 终端命令执行:用户可以直接从聊天界面要求 Kilo Code 执行命令行操作,无需切换上下文。

Kilo Code的官网地址

Kilo Code的应用场景

  • 快速开发原型:开发者可以用 Kilo Code 快速生成代码框架。
  • 编程学习:对于编程初学者,Kilo Code 可以生成示例代码,帮助理解算法和逻辑。
  • 代码维护:在维护旧项目时,Kilo Code 的自动化重构功能可以清理代码,提升代码的可读性和可维护性。
  • 团队开发:在团队协作中,Kilo Code 可以帮助统一代码风格,提高代码的可读性和可维护性。开源贡献者可以用 Kilo Code 快速实现功能,在 GitHub 上提交代码,加速项目迭代。

Rork – AI移动应用开发工具,自然语言生成跨平台移动应用

Rork是什么

Rork是AI驱动的无代码开发工具,能快速生成跨平台移动应用。用户只需用自然语言描述应用需求,Rork自动生成界面、功能和逻辑,支持iOS和Android平台。Rork基于React Native技术,支持一键发布到App Store和Google Play,支持与多种后端数据库集成。Rork适合初创企业、快速原型开发及非技术用户,帮助用户快速将创意转化为实际应用,降低开发门槛。

Rork

Rork的主要功能

  • 自然语言生成应用:用户用自然语言描述需求,Rork自动生成应用界面、功能和逻辑,无需编写代码。
  • 多平台兼容:支持同时生成iOS和Android应用,确保原生性能和流畅体验。
  • 一键发布:支持一键发布到App Store和Google Play,基于Expo平台集成,快速生成预览并测试,缩短上架周期。
  • 无缝对接数据库:支持与Supabase、Firebase、Airtable等数据库无缝集成,提供安全可靠的数据支持,简化后端配置。
  • 自动修复提示:发现bug时自动弹出修改请求。
  • 多图上传修改:支持一次上传多张图片,批量修改问题页面,提高修改效率。

Rork的官网地址

Rork的应用场景

  • 初创企业快速验证产品:初创团队快速搭建最小可行产品(MVP),验证市场反馈或吸引投资,节省时间和成本。
  • 非技术用户的创意实现:创业者、内容创作者、中小企业主等非技术人士,将创意快速转化为实际应用,无需编程知识。
  • 快速原型开发:产品经理或设计师快速搭建交互原型,用在内部演示或用户测试,验证产品设计和功能。
  • 小型项目开发:适合一人可闭环完成的小型项目,快速开发并上线,满足简单功能需求。
  • 开发工程师的设计辅助:开发工程师快速生成应用雏形,再进行简单修改和优化,提高开发效率。

xbench – 红杉中国推出全新的AI基准测试工具

xbench是什么

xbench是红杉中国推出全新的AI基准测试工具。基于双轨评估体系,构建多维度测评数据集,追踪模型的理论能力上限与Agent的实际落地价值。xbench用长青评估机制,动态更新测试内容,确保时效性和相关性。xbench首期推出的两个核心评估集分别是科学问题解答测评集和中文互联网深度搜索测评集。xbench致力于为AI技术突破与产品迭代提供科学、长效的评测指引,推动AI系统在真实场景中的效用价值提升。

xbench

xbench的主要功能

  • 双轨评估:一方面评估AI系统的能力上限与技术边界,另一方面量化AI系统在真实场景的效用价值。
  • 长青评估机制:动态更新测试内容,确保评估的时效性和相关性,避免题目泄露导致过拟合和评估失效,追踪模型能力演进,捕捉Agent产品迭代的关键突破。
  • 核心评估集:推出xbench-ScienceQA(测试学科知识和推理能力)和xbench-DeepSearch(考察深度搜索能力)两个核心评估集,按季度或每月更新题目。
  • 垂直领域智能体评测:构建与专家行为对齐的任务、执行环境与验证方式,如招聘和营销领域,标注任务经济价值,预设技术-市场契合点目标。
  • 实时更新与LeaderBoard:实时更新评测结果,展示不同Agent产品在各评估集上的表现,为开发者和研究者提供参考。

xbench的官网地址

  • 项目地址:https://xbench.org/
  • GitHub仓库:https://github.com/xbench-ai/xbench-evals
  • HuggingFace模型库
    • https://huggingface.co/datasets/xbench/ScienceQA
    • https://huggingface.co/datasets/xbench/DeepSearch

xbench的应用场景

  • 模型能力评估:帮助基础模型和Agent的开发者评估产品的理论能力上限与技术边界,挖掘模型的智能边界,为技术迭代提供指引。
  • 真实效用量化:量化AI系统在真实场景中的效用价值,如营销、招聘等领域的实际应用价值,助力企业评估AI工具的商业潜力。
  • 产品迭代指导:追踪Agent产品的关键突破,为产品的持续迭代和优化提供实时反馈和方向指引。
  • 行业标准建立:与行业专家合作构建特定行业的动态评估集,推动Agent在更多垂直领域的落地应用,为各行业建立AI应用的评估标准。
  • 技术市场匹配:分析Agent的成本效益,预测技术市场契合点,为市场和开发者提供前瞻性指导,加速AI技术的商业化进程。

Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型

Pixel Reasoner是什么

Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。

Pixel Reasoner

Pixel Reasoner的主要功能

  • 直接视觉操作:直接对视觉输入(如图像和视频)进行操作,例如放大图像区域(zoom-in)、选择视频帧(select-frame)等,更细致地捕捉视觉细节。
  • 增强视觉理解:识别和理解图像中的细小物体、微妙的空间关系、嵌入的小文本及视频中的细微动作。
  • 多模态推理:更全面地处理复杂的视觉语言任务,如视觉问答(VQA)、视频理解等。
  • 自适应推理:根据任务需求自适应地决定是否使用视觉操作,在不同类型的视觉任务中实现更优的推理效果。

Pixel Reasoner的技术原理

  • 指令调优(Instruction Tuning)
    • 收集种子数据:选择具有丰富视觉信息的图像和视频数据集,如SA1B、FineWeb和STARQA。
    • 定位参考视觉线索:基于数据集的标注或使用GPT-4o生成的标注,确定与问题相关的视觉线索(如边界框或帧索引)。
    • 合成专家轨迹:用模板化方法合成推理轨迹,确保模型在推理过程中正确使用视觉操作。例如,先对整个视觉输入进行分析,再触发特定的视觉操作提取细粒度的视觉细节,最后结合细节得出最终答案。
  • 训练:用监督学习(Supervised Fine-Tuning, SFT)对模型进行训练,让模型熟悉视觉操作。基于插入错误的视觉操作并合成自我修正轨迹,增强模型对意外视觉结果的反应能力。
  • 好奇心驱动的强化学习:设计一个包含好奇心奖励和效率惩罚的奖励函数,激励模型探索像素空间推理。
  • 训练过程:用强化学习(RL)对模型进行训练,基于好奇心奖励激励模型探索像素空间推理,用效率惩罚限制视觉操作的数量。基于近策略RL方法,每512个查询更新一次行为策略和改进策略。在训练过程中,模型逐渐学会在适当的查询中用像素空间推理,在视觉操作失败时进行自我修正。

Pixel Reasoner的项目地址

Pixel Reasoner的应用场景

  • 研究人员和开发者:研究人员和开发者进行模型训练和优化,特别是在视觉问答、视频分析等任务中,提升模型的性能和准确性。
  • 教育工作者:教育工作者用在辅助教学,用直观的视觉展示和解释,帮助学生更好地理解和掌握复杂的概念。
  • 工业质检人员:质检人员进行自动化视觉检查,快速识别产品外观缺陷,提高质量控制的效率和准确性。
  • 内容创作者:创作者进行更精准的视觉内容分析和编辑,提升内容的质量和吸引力。

Chance AI – AI视觉搜索引擎,一键获取产品的深度信息

Chance AI是什么

Chance AI 是AI视觉搜索引擎,基于视觉智能帮助用户自然地理解世界。用户用摄像头识别各种对象,如艺术品、产品设计、建筑、宠物、植物、食品等,获取背后的故事、文化背景和深层含义。用户只需点击一下,能获取深度信息,无需输入提示词。Chance AI 适合旅行者、创意人士、学生和任何喜欢探索的人。

Chance AI

Chance AI的主要功能

  • 点拍即用:摄像头对准目标物体,点击一次完成搜索,无需输入提示词,快速获取识别结果。
  • 视觉推理:基于多智能体视觉语言模型,将画面中的对象与文化、历史等背景信息联系起来,提供深度解释。
  • 即时洞察:提供可读、可分享或保存的上下文信息,帮助用户快速理解所见之物。
  • 一键分享:支持用户将识别结果直接发布到社交媒体或保存到自己的画廊中,方便分享和回顾。
  • 无算法的信息发现:提供定制化的新闻和信息,包括展览、本地活动等,不受个性化算法影响,内容更客观全面。

Chance AI的官网地址

Chance AI的应用场景

  • 旅行探索:帮助旅行者快速识别地标、建筑和街头艺术,了解其背后的历史和文化背景,让旅行更加有趣和富有教育意义。
  • 创意设计:为设计师和创意工作者提供设计灵感和参考,帮助用户快速获取相关领域的知识和案例,激发创意。
  • 学习研究:学生将好奇心转化为快速事实,辅助学习和研究,例如识别植物、动物、艺术作品等,获取相关知识。
  • 日常生活:在日常生活中,用户随时识别身边的物品、食品等,了解其相关信息,如卡路里含量、产品设计背景等,增加对世界的了解。
  • 社交分享:用户将识别结果一键分享到社交媒体或保存到画廊,方便与他人分享有趣的发现,丰富社交互动内容。