Category: AI项目和框架

  • LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

    LLMDet是什么

    LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。LLMDet在多个基准测试中取得了优异的零样本检测性能,作为强大的视觉基础模型,能进一步构建更强大的多模态模型,实现与LLM的互利共赢。

    LLMDet

    LLMDet的主要功能

    • 开放词汇检测:LLMDet能检测出在训练阶段未见过的任意类别目标,基于文本标签与视觉特征的对齐,实现对新类别的识别。
    • 零样本迁移能力:在没有目标类别标注的情况下,直接迁移到新的数据集上进行检测,展现出强大的泛化能力。
    • 图像理解与描述生成:LLMDet能生成图像级别的详细描述(caption),包含丰富的细节信息,如对象类型、纹理、颜色、动作等,帮助模型更好地理解图像内容。
    • 提升多模态模型性能:作为视觉基础模型,与大型语言模型(LLM)结合,构建更强大的多模态模型,提升模型在视觉问答、图像描述等任务中的表现。

    LLMDet的技术原理

    • 数据集构建:用GroundingCap-1M数据集,其中每张图像都配有定位标签和详细的图像级描述。描述包含丰富的细节,帮助模型更好地理解图像中的对象及其关系。
    • 模型架构:由标准的开放词汇目标检测器和LLM组成。检测器负责提取图像特征和定位目标,LLM用这些特征生成图像级别的详细描述和区域级别的短语。
    • 协同训练:LLMDet基于两个阶段的训练实现与LLM的协同优化。首先,训练投影器(projector)将检测器的特征映射到LLM的输入空间。然后将检测器、投影器和LLM作为整体进行微调,训练目标包括标准的定位损失和描述生成损失。
    • 多任务学习:LLMDet引入图像级别和区域级别的描述生成任务,基于生成详细的描述丰富视觉特征,提升模型对图像的整体理解能力。多任务学习方式提升了检测性能,增强了模型的开放词汇能力。

    LLMDet的项目地址

    LLMDet的应用场景

    • 智能安防:实时检测摄像头中的异常目标或行为,适应性强,无需重新训练。
    • 自动驾驶:帮助车辆识别道路上的各类障碍物和未见过的场景,提升安全性和可靠性。
    • 图像内容审核:自动审核图像内容,识别违规或不当内容,提高审核效率。
    • 智能相册管理:自动分类和标注照片,方便用户搜索和管理,支持多种未见过的类别。
    • 医疗影像分析:分析医学影像,快速识别异常区域,无需大量标注数据。
  • LangBot – 多模态即时聊天机器人构建与管理的开源平台

    LangBot是什么

    LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具备多模态交互能力,支持文本、语音、图片等多种输入输出形式,能进行多轮对话和工具调用。LangBot 内置访问控制、限速和敏感词过滤机制,确保稳定运行和内容安全。LangBot 提供丰富的插件扩展功能和 Web 管理面板,方便用户根据需求定制和管理机器人。

    LangBot

    LangBot的主要功能

    • 多平台支持:支持无缝集成到多种主流即时通信平台,如QQ、微信(包括企业微信和个人微信)、飞书、Discord等。
    • 多模态交互:支持文本、语音、图片等多种输入输出形式,处理复杂的交互任务,如图片识别和语音识别,为用户提供更丰富的互动体验。
    • 多模型适配:支持接入多种主流的大语言模型(LLM),如OpenAI的ChatGPT、DeepSeek、Claude、Gemini、Ollama等,用户根据需求选择合适的模型进行对话任务。
    • 高稳定性:内置访问控制、限速和敏感词过滤等机制,确保机器人稳定运行,避免滥用和不当内容传播。
    • 插件扩展:支持强大的插件系统,用户根据业务需求定制功能模块,拓展机器人的能力。
    • Web管理面板:提供直观的Web管理面板,方便用户配置和管理机器人实例,无需频繁编辑配置文件,即可快速调试和优化机器人。

    LangBot的技术原理

    • 即时通信平台的API集成:基于调用各个即时通信平台提供的API接口,实现与用户的交互。
    • 大语言模型(LLM)的集成:LangBot支持多种主流的大语言模型,模型提供强大的自然语言处理能力。LangBot将用户的输入发送到选定的LLM,将模型生成的响应返回给用户。
    • 事件驱动和插件机制:基于事件驱动架构,根据不同的事件(如消息接收、用户操作等)触发相应的处理逻辑。LangBot支持插件扩展,开发者基于编写插件扩展机器人的功能,例如添加数据分析、内容创作辅助等功能。
    • 安全和管理机制:内置访问控制、限速和敏感词过滤等安全机制,确保机器人的稳定运行和内容安全。访问控制机制限制只有授权的用户才能与机器人交互;限速机制防止过多的请求导致系统过载;敏感词过滤机制避免不当内容的传播。

    LangBot的项目地址

    LangBot的应用场景

    • 企业客服机器人:集成到企业微信、飞书等企业级通讯平台中,自动解答客户的常见问题,如产品咨询、订单状态查询、售后服务等。
    • 个人助理:基于微信、QQ 等平台与 LangBot 交互,将其作为个人助理使用,或结合语音输入功能,让用户在忙碌时用语音指令完成操作。
    • 社区管理:在 QQ 群、Discord 社区等场景中,作为管理员助手,自动回复常见问题、管理群聊秩序、发布重要通知等。
    • 教育辅导:接入教育平台或即时通讯工具辅助教学,为学生解答学科问题、提供学习资料推荐、进行知识点讲解等。
    • 内容创作:作为内容创作辅助工具,帮助创作者生成创意文案、写作建议、故事大纲等。
  • MedRAX – AI医学推理Agent,用于胸部X光检查和解决复杂医学问题

    MedRAX是什么

    MedRAX(Medical Reasoning Agent for Chest X-ray)是专门用于胸部X光检查的医学推理AI代理。通过整合最先进的胸部X光分析工具和多模态大型语言模型,形成一个统一的框架,能动态用这些模型来解决复杂的医学查询问题,无需额外的训练。MedRAX的核心架构基于LangChain和LangGraph框架,使用具有视觉能力的GPT-4o作为核心语言模型,支持本地和云端部署,通过Gradio构建了生产级的用户界面。

    MedRAX

    MedRAX的主要功能

    • 多模态医学推理:MedRAX能够整合多种最先进的胸部X光(CXR)分析工具和多模态大型语言模型,动态利用这些模型解决复杂的医学查询问题,无需额外训练。
    • 多步骤推理支持:它能够将复杂的医疗查询分解为多个子任务,并逐一解决。例如,它可以识别胸部X光片中的特定病变(检测)、对病变进行分类(分类)、精确定位病变位置(定位)、比较病变的变化(比较)、分析病变之间的关系(关系)、进行临床诊断(诊断)以及描述病变特征(特征描述)。
    • 强大的工具集成:MedRAX集成了多种工具,包括视觉问答(CheXagent和LLaVA-Med)、图像分割(MedSAM和PSPNet)、病变定位(Maira-2)、报告生成(SwinV2 Transformer)、疾病分类(DenseNet-121)以及X光生成(RoentGen)等。
    • 用户友好界面与灵活部署:MedRAX提供了一个生产级的用户界面,支持本地和云端部署,能够满足不同医疗场景下的隐私和安全需求。
    • 性能验证与基准测试:通过ChestAgentBench基准测试,MedRAX在2500个复杂医疗查询中表现出色,覆盖检测、分类、定位等多个核心能力,其性能优于开源和专有模型。

    MedRAX的技术原理

    • 核心架构:MedRAX基于LangChain和LangGraph框架构建,用具备视觉能力的GPT-4o作为核心语言模型。架构支持动态工具编排,能根据复杂的医疗查询自动选择最优的工具组合。
    • 多模态推理与工具集成:MedRAX整合了多种工具,实现多模态推理和精准诊断:
      • 视觉问答(Visual QA):基于CheXagent和LLaVA-Med进行复杂的视觉理解和医学推理。
      • 图像分割(Segmentation):使用MedSAM和在ChestX-Det上训练的PSPNet模型进行精确的解剖结构识别。
      • 病变定位(Grounding):通过Maira-2在医学图像中精确定位特定发现。
      • 报告生成(Report Generation):使用在CheXpert Plus上训练的SwinV2 Transformer生成详细的医学报告。
      • 疾病分类(Disease Classification):基于TorchXRayVision中的DenseNet-121检测18种病理类别。
      • X光生成(X-ray Generation):使用RoentGen生成合成的胸部X光。
    • 动态推理与多步骤任务分解:MedRAX能将复杂的医疗查询分解为多个子任务,逐一解决。例如,可以识别病变(检测)、对病变进行分类(分类)、精确定位病变位置(定位)、比较病变的变化(比较)、分析病变之间的关系(关系)、进行临床诊断(诊断)以及描述病变特征(特征描述)。

    MedRAX的项目地址

    MedRAX的应用场景

    • 临床诊断支持:MedRAX能快速准确地解读胸部X光片,为放射科医生和临床医生提供诊断支持。通过多步骤推理和多模态分析,能识别病变、定位、分类、比较病变变化、分析病变关系、进行诊断和描述病变特征。
    • 复杂病例分析:MedRAX特别适用于复杂病例的分析,能将复杂的医疗查询分解为多个子任务,并逐一解决。
    • 医疗教育与培训:MedRAX可以作为医疗教育工具,帮助学生和新手医生提升诊断技能。通过透明的工作流程和详细的推理过程,学习者能更好地理解诊断逻辑。
    • 远程医疗咨询:MedRAX可以集成到远程医疗平台中,为患者提供初步的诊断建议和健康指导。患者可以通过描述症状和病史,获得基于胸部X光的初步诊断。
    • 多模态医疗影像分析:MedRAX支持胸部X光的分析,还可以扩展到其他模态的医疗影像,如CT三维重建数据,建立跨模态交叉验证机制。
  • MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法

    MotionCanvas是什么

    MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频(I2V)生成方法,能将静态图像转化为具有丰富动态效果的视频。MotionCanvas基于引入运动设计模块,让用户能直观地在图像上规划相机运动和物体运动,实现复杂的镜头设计。借助运动信号转换模块,MotionCanvas将用户在3D场景空间中的运动意图准确翻译为2D屏幕空间的控制信号,驱动视频扩散模型生成高质量视频。MotionCanvas支持联合控制相机和物体运动,生成具有复杂轨迹的长视频,实现物体局部运动的精细控制。

    MotionCanvas

    MotionCanvas的主要功能

    • 联合控制相机和物体运动:用户在输入图像上直观地设计相机的运动路径(如平移、旋转、变焦等)和物体的全局运动(如移动、缩放等),及物体的局部运动(如手臂摆动等)。
    • 3D感知的运动控制:系统基于深度估计和运动信号转换模块,实现3D场景空间中的运动设计,将其转换为2D屏幕空间的运动信号,生成具有3D感知效果的视频。
    • 长视频生成:支持生成任意长度的视频,支持复杂的运动轨迹和连续的镜头设计。
    • 多样化的应用场景:支持应用于简单的视频编辑任务,如运动转移和基于初始帧编辑的视频生成。

    MotionCanvas的技术原理

    • 运动设计模块:用户输入图像作为“画布”,在3D场景空间中设计相机运动和物体运动。相机运动基于指定关键帧的相机姿态实现,物体运动则通过场景锚定的边界框和稀疏点轨迹定义。
    • 运动信号转换模块:将用户在3D场景空间中设计的运动意图转换为2D屏幕空间中的运动信号。模块基于深度估计和相机参数估计,将3D相机路径转换为2D点轨迹,将场景锚定的边界框和点轨迹转换为屏幕空间中的信号。
    • 运动条件视频生成模型:基于预训练的DiT(Diffusion Transformer)模型,微调使其能根据屏幕空间中的运动条件生成视频。模型基于编码点轨迹和边界框序列,作为条件信号输入到视频生成模型中,生成符合用户意图的视频。
    • 自回归生成:用自回归方式,将生成的视频片段作为后续生成的条件,逐步生成连续的视频内容,避免直接生成长视频可能导致的运动不连续性问题。

    MotionCanvas的项目地址

    MotionCanvas的应用场景

    • 电影与视频制作:快速设计复杂镜头,将静态图像转化为动态视频,用在广告、宣传等,提升视觉吸引力。
    • 动画创作:生成动画预览和角色动作,从静态故事板或图像中提取动态效果,提高创作效率。
    • VR/AR体验:为虚拟和增强现实应用生成动态场景,增强用户沉浸感,支持实时交互。
    • 游戏开发:制作游戏过场动画和动态场景,提升游戏叙事性和视觉效果,丰富玩家体验。
    • 教育与培训:将静态教学图像转化为动态视频,用在课堂讲解和专业模拟训练,提高教学趣味性和效果。
  • Airweave – 将任何应用程序转为 Agent 知识库的开源工具

    Airweave是什么

    Airweave 是开源工具,能将任何应用程序的数据(包括API、数据库、网站等)同步到图数据库和向量数据库中,让数据能基于智能代理或搜索机制进行检索。Airweave用数据分块、哈希检测和自动同步等功能,简化数据检索和管理的流程。Airweave 提供无代码集成、多租户支持、多源数据整合等核心功能,支持通过React前端界面或FastAPI接口进行操作。

    Airweave

    Airweave的主要功能

    • 无代码集成:用户无需编写代码即快速将应用数据化为可搜索的内容。
    • 多租户支持:适合SaaS开发者,支持基于OAuth2进行多租户数据同步,同时保证数据隐私和安全。
    • 数据分块:每个数据源(如数据库、API或文件系统)都定义了一个async def generate_chunks()方法,用在用一致的格式生成数据分块。
    • 自动同步:支持定时同步或按需同步数据。
    • 版本控制与哈希:基于哈希检测数据变化,仅更新向量存储中修改的部分。
    • 多源支持:支持连接多个数据源,并统一到一个可查询的层中。
    • 可扩展性:支持基于Docker Compose本地部署(未来支持Kubernetes进行生产级部署)。

    Airweave的技术原理

    • 数据采集:连接各种数据源(如API、数据库、文件系统等)采集数据。每个数据源都定义一个async def generate_chunks()方法,用在将数据分块处理,确保数据能够以一致的格式输出。
    • 数据处理与分块:数据被分块处理后,基于嵌入器(embedders)将文本或其他数据类型转换为向量形式。向量能被向量数据库高效存储和检索。
    • 数据存储
      • 图数据库:用于存储数据之间的关系。
      • 向量数据库:如Chroma、Milvus、Pinecone、Qdrant、Weaviate等,用在存储向量化的数据,支持高效的相似性搜索。
    • 数据同步与更新:基于哈希检测数据的变化,仅对修改过的数据块进行更新,减少不必要的数据同步。支持定时同步和按需同步,用户根据需求灵活配置同步计划。
    • 检索与查询:数据存储后,用户基于智能代理或搜索机制进行检索。Airweave支持基于前端界面或API接口进行查询,用户能快速获取所需数据。
    • 异步任务处理:ARQ Redis进行后台任务处理,支持大规模数据同步的异步处理,提高系统的性能和可扩展性。
    • 多租户与隐私保护:基于OAuth2支持多租户数据同步,确保不同租户之间的数据隔离和隐私保护。

    Airweave的项目地址

    Airweave的应用场景

    • 企业开发者:构建语义搜索应用,同步企业数据源,实现高效数据检索和管理。
    • 数据分析师:快速检索和分析数据,借助Airweave提高数据分析效率,生成商业智能报告。
    • SaaS平台开发者:为多租户提供数据检索服务,保障数据隔离与隐私。
    • 内容创作者和管理者:快速检索和管理内容,提升内容管理效率。
    • 智能客服团队:快速检索客户支持数据,提供准确答案,提升客户满意度。
  • Kiln AI- 开源 AI 原型设计和数据集协作开发工具,微调专属模型

    Kiln AI是什么

    Kiln AI是开源的 AI 开发工具,能简化大型语言模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序,支持 Windows、MacOS 和 Linux,用户基于零代码方式对多种模型(如 Llama、GPT4o 和 Mixtral)进行微调,实现自动部署。Kiln AI提供交互式工具生成训练数据,支持基于 Git 的版本控制,方便团队协作。Kiln AI支持自动提示生成、多种模型集成,注重隐私,确保用户数据安全。Kiln AI的 Python 库开源,方便开发者集成到现有工作流中。

    Kiln AI

    Kiln AI的主要功能

    • 直观的桌面应用程序:支持 Windows、MacOS 和 Linux 系统,提供一键式安装和使用,设计简洁直观。
    • 零代码微调:支持多种语言模型,如 Llama、GPT4o 和 Mixtral,自动无服务器部署模型。
    • 合成数据生成:提供交互式可视化工具,用于生成训练数据。
    • 团队协作:基于 Git 的版本控制,支持多人协作,适合 QA、PM 和领域专家共同参与数据集构建。
    • 自动提示生成:支持从数据中自动生成提示,包括链式思考、少样本和多样本提示等。
    • 广泛支持模型和提供商:支持基于 Ollama、OpenAI、OpenRouter、Fireworks、Groq、AWS 或任何兼容 OpenAI API 的模型。

    Kiln AI的技术原理

    • 基于 Git 的版本控制:用 Git 作为底层版本控制系统,支持多人协作和数据集的版本管理。数据集文件以 JSON 格式存储,支持并行协作和冲突解决。
    • 无服务器部署(Serverless Deployment):微调后的模型支持自动部署到云端或本地,无需手动配置服务器。支持多种云平台和本地环境。
    • 交互式数据生成工具:提供交互式界面,帮助用户基于可视化工具生成高质量的合成数据。支持多种数据生成策略,如少样本学习、多样本学习等。
    • Python 库集成:提供开源的 Python 库,方便开发者将数据集集成到现有工作流中。支持在 Jupyter Notebook 中使用,方便数据科学家进行深度分析。
    • 多模型支持:基于适配器模式支持多种语言模型和平台,提供统一的 API 接口,方便用户切换不同的模型和提供商。

    Kiln AI的项目地址

    Kiln AI的快速入门

    • 下载和安装
      • 桌面应用:基于提供的下载链接在MacOS、Windows和Linux上下载并安装免费的桌面应用程序。
      • Python库:用 pip install kiln-ai 命令安装Python库,将数据集集成到自己的工作流程中,构建微调模型,在Notebook中使用Kiln AI,构建自定义工具等。
    • 启动应用
      • 安卓完成后启动应用并按照引导创建项目、任务,连接到 AI 提供商(如 Ollama、OpenAI、OpenRouter 等)。
      • 用示例任务快速体验,或根据需求定义自定义任务。

    Kiln AI的模型和 AI 提供商

    • Kiln支持的AI模型和提供商:
      • 支持的提供商:Kiln AI与多种云服务提供商和AI模型兼容,例如OpenAI、Groq、OpenRouter、AWS、Fireworks等。用户需要提供自己的API密钥,系统不会访问用户的数据集。
      • 兼容的服务器:用户能连接任何与OpenAI兼容的服务器,例如LiteLLM,用于vLLM等。
    • 设置AI提供商
      • 初始设置:首次运行Kiln时,应用提示用户设置一个或多个AI提供商。至少需要一个提供商才能使用Kiln AI的核心功能。
      • 添加或删除提供商:用户在“设置>AI提供商和模型”中添加新的提供商,或编辑~/.kiln_ai/settings.yaml文件删除已有的提供商。
    • 模型的使用和添加
      • 推荐的内置模型:模型已经过测试,可与Kiln AI的各种功能兼容,使用起来非常简单,不会出现错误。用户只需在设置页面连接任何AI提供商,在运行屏幕上选择模型。
      • 自定义模型:如果用户想使用不在列表中的模型,但模型是Kiln AI支持的AI提供商。用户需要在“设置>AI提供商和模型”中的“添加模型”使用模型,模型将出现在模型下拉菜单的“未测试”部分。
      • 自定义OpenAI兼容服务器:如果用户拥有一个OpenAI兼容的服务器(例如LiteLLM、vLLM等),能在Kiln AI中使用。用户需要在“设置>AI提供商和模型”中添加一个“自定义API”。所有由该API支持的模型将出现在模型下拉菜单的“未测试”部分。

    Kiln AI的合成数据生成

    • 工作原理
      • 合成数据方式
        • 零样本数据生成:根据任务定义直接生成数据,无需额外配置。
        • 主题树数据生成:基于生成主题树(包括嵌套主题)快速生成广泛的数据。用户能选择自动主题生成或手动添加主题。
        • 结构化数据生成:如果任务需要结构化输入或输出,生成的数据将遵循用户定义的 JSON 模式。所有生成的值都会进行验证,不符合模式的数据不会被保存。
      • 生成选项
        • 模型选择:支持多种模型(如 OpenAI、Anthropic、Llama、Google、Mistral 等)和多种主机(如 Ollama)。用户根据需求选择合适的模型。
        • 提示选项:在对一些示例进行评分后,解锁更强大的提示选项,如少样本、多样本、思维链提示等,提高生成数据的质量。
      • 人工指导
        • 生成涵盖全球性话题的内容,不局限于美国本土。
        • 生成西班牙语的示例。
        • 针对模型难以分类的问题(如讽刺信息)生成特定的数据。
    • 迭代
      • 打开合成数据集选项卡。
      • 选择高质量的模型(包含不够快且高成本的生产模型)。
      • 开始生成展示问题的数据,使用人工指导功能和更好的模型确保输出质量。
      • 手动删除风格不正确的示例。
      • 合成数据工具能生成正确的数据(用模型和指导相结合),将生成规模扩大到数百个样本。
      • 保存新的合成数据集。

    Kiln AI的微调指南

    • 步骤 1:定义任务和目标
      • 任务定义:在 Kiln UI 中创建一个新任务,包括初始提示、要求以及输入/输出模式。
      • 示例任务:生成新闻标题,给定新闻主题的摘要,生成不同风格的新闻标题。
    • 步骤 2:使用合成数据生成训练数据
      • 合成数据生成:提供交互式界面,快速生成高质量的合成数据集。
      • 生成过程:在9分钟内生成920个训练样本,支持多模型和多提示策略。
      • 提示技巧:使用高质量模型和详细提示(如多样本提示、链式思考)提高数据质量。
    • 步骤 3:选择要微调的模型
      • 支持的模型
        • OpenAI:GPT-4o 和 4o-Mini
        • Mistral:Mixtral 8x7b MoE
        • 其他:Llama 3.2(1b/3b/11b)、Llama 3.1(8b/70b)等
    • 步骤 4:启动微调任务
      • 微调操作:在 Kiln UI 的“微调”选项卡中,选择模型、数据集和训练参数。
      • 数据集分割:建议创建测试集和验证集,以便在微调完成后评估模型性能。
    • 步骤 5:部署和运行模型
      • 自动部署:微调完成后,系统自动部署模型,无需额外配置。
      • 使用方式:基于 Kiln UI 的“运行”选项卡选择模型并使用。
    • 步骤 6(可选):在自有基础设施上训练
      • 导出数据集:将数据集导出为常见格式,以便在自有基础设施上进行微调。
      • 推荐平台:Unsloth 和 Axolotl,支持多种开源模型。
      • 示例:使用 Unsloth 笔记本加载从 Kiln AI导出的数据集,在本地或 Google Colab 中进行微调。
    • 后续步骤
      • 评估模型:使用测试集和验证集评估微调模型的性能。
      • 迭代改进:根据评估结果调整超参数、优化提示、修复错误,并重新微调。
      • 数据策略:用“阶梯式”数据策略,从少量高质量样本逐步扩展到大量合成数据。
    • 费用:Fireworks 和 OpenAI 的微调模型采用“无服务器”部署,按使用量收费,无固定成本。

    Kiln AI训练推理模型指南

    • 训练推理模型的关键步骤
      • 确保训练数据包含“推理”:用推理模型或链式思维提示生成训练数据,确保数据集中包含推理内容。
      • 创建包含推理的训练数据集:在创建数据集时,筛选包含推理/思考的样本。
      • 选择正确的训练策略:选择“最终响应和中间推理”训练策略,包含推理数据。
      • 调用微调模型时使用适当的提示:建议用训练时使用的相同提示,获得最佳效果。
    • 推理与链式思维的选择
      • 推理模型:适用于需要跨领域推理能力的场景,基于微调大型推理模型(如Deepseek R1)创建更小、更快的模型。
      • 链式思维:基于简单的“逐步思考”提示提升输出质量,或自定义思考提示生成针对特定任务的训练集。

    Kiln AI的应用场景

    • 智能客服:智能客服系统生成客服对话数据集,微调语言模型提高回答准确性和相关性。
    • 医疗领域:医疗领域的AI项目中,医生(领域专家)生成医学数据集,数据科学家进行模型微调,QA团队负责验证数据质量。
    • 快速原型开发与实验:在开发文本生成工具时,用少样本提示和多模型支持,快速实验不同模型的生成效果。
    • 教育:教育科技公司构建教育数据集,包括学生问题和答案,用在微调教育AI模型。
    • 金融行业:金融行业进行风险评估模型的微调,所有数据本地处理,确保客户数据不被泄露。
  • WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

    WorldSense是什么

    WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSense包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,及3172个多项选择问答对,涉及26个不同的认知任务。WorldSense强调音频和视频信息的紧密耦合,所有问题都需要用这两种模态得出正确答案。WorldSense高质量的标注由80名专家标注员手动完成,经过多轮验证,确保标注的准确性和可靠性。

    WorldSense

    WorldSense的主要功能

    • 多模态协作评估:强调音频和视频信息的紧密耦合,设计需要用视觉和听觉信息才能正确回答的问题。严格测试模型在多模态输入下的理解能力,确保模型能够有效整合不同模态的信息以实现准确的理解。
    • 多样化视频和任务覆盖:WorldSense包含1662个音频-视频同步的多样化视频,涵盖8个主要领域和67个细分子类别,及3172个多项选择问答对,覆盖26个不同的认知任务。
    • 高质量标注与验证:所有问答对均由80名专家标注员手动标注,经过多轮验证,包括人工审核和自动模型验证,确保标注的准确性和可靠性。

    WorldSense的技术原理

    • 多模态输入处理:WorldSense要求模型同时处理视频、音频和文本输入。视频和音频的同步性确保模型能捕捉到视觉和听觉信息之间的关联,更全面地理解场景。多模态输入处理能力是评估模型是否能像人类一样处理复杂环境的关键。
    • 任务设计与标注:基于精心设计的问答对,确保每个问题都需要多模态信息的整合得出正确答案。标注过程涉及多轮人工审核和自动验证,确保问题的合理性和标注的准确性。
    • 多模态融合与推理:基于多样化的任务设计,评估模型在不同层次上的多模态理解能力,包括基本感知(如音频和视觉元素的检测)、理解(多模态关系的把握)和推理(如因果推断和抽象思维)。多层次的评估方法能全面测试模型的多模态融合和推理能力。
    • 数据收集与筛选:WorldSense的数据收集过程包括从大规模视频数据集中筛选出具有强音频-视觉关联的视频片段,基于人工审核确保视频内容的质量和多样性,确保基准测试覆盖广泛的现实世界场景。

    WorldSense的项目地址

    WorldSense的应用场景

    • 自动驾驶:帮助自动驾驶系统更好地理解交通环境中的视觉和听觉信息,提升决策准确性。
    • 智能教育:评估和改进教育工具对教学视频内容的理解能力,辅助个性化学习。
    • 智能监控:提升监控系统对视频中视觉和音频信息的感知与理解能力,增强安全检测效果。
    • 智能客服:评估智能客服系统对用户语音、表情和文本输入的理解能力,优化交互体验。
    • 内容创作:帮助多媒体内容创作和分析系统更智能地理解视频内容,提高创作和推荐效率。
  • DynVFX – AI视频增强技术,将新动态内容与原始视频无缝融合

    DynVFX是什么

    DynVFX是创新的视频增强技术,能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉语言模型(VLM),实现了在不依赖复杂用户输入的情况下,自然地将新动态元素与原始视频场景融合。用户只需提供简短的文本指令,例如“添加一只在水中游泳的海豚”,DynVFX可自动解析指令,基于VLM生成详细的场景描述,通过锚点扩展注意力机制精准定位新内容的位置,同时通过迭代细化确保新内容与原始视频的像素级对齐和自然融合。

    DynVFX

    DynVFX的主要功能

    • 自然融合新动态元素:DynVFX能根据用户提供的文本指令(如“添加一只在空中飞翔的鲸鱼”),将新生成的动态内容自然地融入到原始视频场景中。新内容的位置、外观和运动与原始视频的相机运动、遮挡和其他动态对象的交互保持一致,生成连贯且逼真的输出视频。
    • 自动化内容生成与定位:通过预训练的文本到视频扩散模型和视觉语言模型(VLM)实现自动化操作。VLM作为“VFX助手”,能理解用户指令并生成详细的场景描述,引导新内容的生成。DynVFX基于锚点扩展注意力机制,精准定位新内容的位置,与原始场景的空间和动态特征对齐。
    • 像素级对齐与内容融合:DynVFX通过迭代细化过程,逐步更新新内容的残差潜在表示,确保新生成的内容在像素级别上与原始视频完美对齐,避免出现不自然的过渡或错位。
    • 高保真度的视频编辑:DynVFX在保持原始视频内容的同时,能自然地添加新动态元素,实现高保真度的视频编辑。

    DynVFX的技术原理

    • 预训练的文本到视频扩散模型:DynVFX使用预训练的文本到视频扩散模型(如CogVideoX),能根据文本提示生成视频内容。扩散模型通过逐步去除噪声来生成视频,具体来说,模型从高斯噪声开始,逐步生成清晰的视频帧。
    • 视觉语言模型(VLM):视觉语言模型(如GPT-4o)被用作“VFX助手”,负责解释用户的文本指令,生成详细的场景描述。VLM能描述原始视频的内容,还提供如何将新内容自然地融入场景的指导。
    • 锚点扩展注意力(Anchor Extended Attention):为了确保新生成内容的准确定位,DynVFX引入了锚点扩展注意力机制。通过从原始视频中提取特定位置的键(keys)和值(values),将它们作为锚点,引导新内容的生成。帮助模型理解新内容应如何与原始场景的空间和动态特征对齐,实现自然的融合。
    • 迭代细化(Iterative Refinement):为了进一步提高新内容与原始视频的融合效果,DynVFX采用迭代细化的方法。具体来说,模型通过多次迭代更新残差潜在表示,逐步减少噪声水平。每次迭代都会调整新内容的细节,更好地与原始视频对齐,实现像素级的精确融合。
    • 残差估计与更新:DynVFX通过估计一个残差(residual)来调整新内容与原始视频的差异。残差表示新生成内容与原始视频之间的差异,通过迭代更新残差,模型能逐步优化新内容的生成,与原始视频无缝融合。
    • 零样本、无需微调:DynVFX采用零样本方法,无需对预训练的文本到视频模型进行额外的微调或训练。用户只需提供简单的文本指令,可实现高质量的视频编辑。
    • 自动化评估:为了评估生成视频的质量,DynVFX引入基于VLM的自动化评估指标。指标从多个方面评估生成视频的质量,包括原始内容的保留、新内容的融合、整体视觉质量和动态效果等。

    DynVFX的项目地址

    DynVFX的应用场景

    • 视频特效制作:为电影、电视剧、广告等视频内容快速添加特效,如火焰、水流、魔法效果等。
    • 内容创作:帮助创作者在现有视频基础上添加创意元素,提升视频的吸引力和趣味性。
    • 教育与培训:在教育视频中添加动态注释或演示效果,增强学习体验。
  • MVoT – 微软联合剑桥和中科院推出的多模态推理可视化框架

    MVoT是什么

    MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式,基于生成图像可视化推理痕迹增强多模态大语言模型(MLLMs)在复杂空间推理任务中的表现。MVoT模仿人类在思考时同时使用语言和图像的机制,让模型在推理过程中生成文字和图像的交错推理痕迹,更直观地表达推理过程。MVoT基于引入token discrepancy loss解决自回归MLLMs中语言和视觉嵌入空间之间的不一致性问题,显著提高生成图像的质量和推理的准确性。

    MVoT

    MVoT的主要功能

    • 生成视觉推理痕迹:生成图像形式的推理过程,帮助模型更好地理解和表达空间推理任务中的逻辑和变化。
    • 提升推理准确性:基于视觉化推理痕迹,更准确地捕捉空间布局和视觉模式,提高模型在复杂空间推理任务中的表现。
    • 增强模型可解释性:MVoT生成的视觉推理痕迹为模型的推理过程提供直观的解释,让用户能更清楚地理解模型是如何得出结论的。
    • 提高推理鲁棒性:在复杂环境中,MVoT表现出更好的稳定性和适应性,更有效地处理环境复杂性和动态变化。

    MVoT的技术原理

    • 多模态推理范式:基于生成图像可视化推理痕迹,让模型在推理过程中用语言和图像两种模态。这种范式类似于人类在思考时同时使用语言和图像的机制,更自然地表达复杂的推理过程。
    • Token Discrepancy Loss:为解决自回归MLLMs中语言和视觉嵌入空间之间的不一致性问题,引入token discrepancy loss。基于最小化预测和标签在视觉嵌入空间中的差异,提高生成图像的质量和视觉连贯性。
    • 交错推理痕迹:在推理过程中生成交错的文本和图像推理痕迹。每个推理步骤包含文字描述,还包含对应的图像可视化,让模型更全面地表达推理过程。
    • 训练策略:基于在多模态输入和对应的输出标签上进行训练,让模型学会生成交错的推理痕迹。训练数据包括多模态输入、推理过程中的语言和图像序列,及最终答案。让模型更好地理解和生成多模态推理过程。
    • 递归生成:在推理过程中,递归地生成多模态推理痕迹,基于前一步生成的图像和文本继续推理。递归生成方式能更自然地模拟人类的推理过程,避免在图像描述中引入的潜在错误。

    MVoT的项目地址

    MVoT的应用场景

    • 机器人导航与路径规划:在复杂环境中,帮助机器人生成视觉推理痕迹,动态更新环境地图,预测路径上的障碍物和目标位置。
    • 自动驾驶与交通场景理解:自动驾驶系统生成交通场景的视觉推理痕迹,帮助系统更准确地预测交通动态,提高决策的准确性和安全性。
    • 智能教育与学习辅助:在教育领域,生成问题解决过程的视觉化推理痕迹,帮助学生更直观地理解问题的解决步骤,增强学习效果。
    • 医疗影像分析与诊断:医学影像生成影像分析的视觉推理痕迹,辅助医生更准确地识别病变位置和范围,提高诊断的准确性和效率。
    • 虚拟现实与增强现实中的交互:在虚拟现实(VR)和增强现实(AR)应用中,生成用户交互过程的视觉推理痕迹,帮助系统更好地理解用户的意图和动作,提供更自然和流畅的交互体验。
  • FireRedASR – 小红书开源的自动语音识别模型

    FireRedASR是什么

    FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),在歌词识别方面表现出色。 模型家族包含两个主要版本:

    FireRedASR-LLM:采用 Encoder-Adapter-LLM 框架,基于大型语言模型(LLM)的能力,实现 SOTA 性能,支持无缝端到端语音交互。在普通话基准测试中平均字符错误率(CER)为 3.05%,相比之前的 SOTA 模型(3.33%)降低了 8.4%。

    FireRedASR-AED:采用基于注意力的编码器-解码器(AED)架构,平衡高性能和计算效率,可作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。

    FireRedASR

    FireRedASR的主要功能

    • 高精度语音识别:FireRedASR 包含两个版本,FireRedASR-LLM 和 FireRedASR-AED。其中,FireRedASR-LLM 采用 Encoder-Adapter-LLM 框架,专注于极致的语音识别精度。
    • 高效推理:FireRedASR-AED 基于经典的 Attention-based Encoder-Decoder 架构,参数量为 1.1B,平衡了高准确率与推理效率。
    • 多场景适配:FireRedASR 在多种日常场景下表现出色,包括短视频、直播、语音输入和智能助手等。与业内领先的 ASR 服务提供商和 Paraformer-Large 相比,FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%。
    • 歌词识别能力:在歌词识别场景中,FireRedASR-LLM 的 CER 实现了 50.2%~66.7% 的相对降低,展现了极强的适配能力。
    • 多语言支持:FireRedASR 支持普通话,在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
    • 开源与社区支持:FireRedASR 的模型和推理代码均已开源,推动语音识别技术的社区驱动改进和学术研究。

    FireRedASR的技术原理

    • FireRedASR-LLM:FireRedASR-LLM 采用 Encoder-Adapter-LLM 框架,结合了大型语言模型(LLM)的能力,实现极致的语音识别精度。包含三个核心组件:
      • Conformer 基础编码器:负责提取语音特征,生成连续的语音表示。
      • 轻量级适配器:将编码器的输出转换为与 LLM 语义空间匹配的表示。
      • 预训练文本 LLM:基于 Qwen2-7B-Instruct 初始化,用于生成最终的文本输出。
      • 训练策略:在训练过程中,编码器和适配器是可训练的, LLM 的大部分参数保持固定,仅通过 Low-Rank Adaptation(LoRA)进行微调。确保编码器和适配器能有效地将语音特征映射到 LLM 的语义空间,同时保留 LLM 的预训练能力。
      • 输入与推理:在推理时,输入包括提示(prompt)和语音,LLM 执行 next-token-prediction,生成识别文本。
    • FireRedASR-AED:FireRedASR-AED 基于经典的注意力机制编码器-解码器(AED)架构,平衡高性能和计算效率。由以下部分组成:
      • Conformer 编码器:基于 Conformer 模型处理语音特征,能同时捕捉局部和全局依赖关系。
      • Transformer 解码器:采用 Transformer 架构进行序列转换,包含多头自注意力模块和前馈模块。
      • 输入特征:输入特征为 80 维的 log Mel 滤波器组,经过全局均值和方差归一化处理。
      • 训练数据:训练数据包含约 7 万小时的高质量普通话音频数据,以及约 1.1 万小时的英语音频数据。

    FireRedASR的项目地址

    FireRedASR的应用场景

    • 智能语音助手:FireRedASR 可以用于开发智能语音助手,如智能家居控制、智能客服等。高精度的语音识别能力能准确理解用户的语音指令,提供流畅的交互体验。
    • 视频和直播:在短视频和直播领域,FireRedASR 能实时生成字幕,帮助观众更好地理解内容。
    • 歌词识别:FireRedASR 在歌词识别场景中表现尤为突出,能广泛应用于音乐平台和卡拉OK等场景。
    • 语音输入:FireRedASR 可以用于语音输入场景,如语音打字、语音笔记等。高效的推理能力和高精度的识别效果能显著提升用户的输入效率。