Category: AI项目和框架

  • ModelEngine – 华为开源的全流程 AI 开发工具链

    ModelEngine是什么

    ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中数据工程耗时长、模型训练和应用落地难的关键问题。ModelEngine 的开源代码已托管在 GitCode、Gitee 和 GitHub 等多个平台,为开发者提供了丰富的资源和便捷的协作环境。

    ModelEngine

    ModelEngine的主要功能

    • 数据使能:提供文本、图像、文档等多种数据类型的归集和处理工具,具备数据清洗、数据评估、QA 对生成和知识向量化等关键能力,为大模型训练和 RAG 应用提供高质量语料和知识。
    • 模型使能:支持模型的部署、训练、微调和推理,提供一键式操作,降低模型训练和推理的门槛,同时支持 OpenAI 标准推理接口。
    • 应用使能:为 AI 应用提供一站式开发、调试和发布的工具链,支持低代码编排和 RAG 框架,帮助开发者快速构建和优化 AI 应用。

    ModelEngine的技术原理

    • 内置数据清洗算子,支持多模态数据清洗,包括文本(PDF、DOC、HTML、JSON 等格式)和图像(PNG、JPG、BMP 等格式)。
    • 通过 Embedding 模型和向量数据库服务,将文本数据转化为向量化知识,为大模型训练和 RAG 应用提供高质量语料。

    ModelEngine的项目地址

    ModelEngine的应用场景

    • 数据处理与知识生成:ModelEngine 提供强大的数据处理工具,支持文本、图像和文档等多种数据类型的归集与处理。例如,在医疗领域,可以快速处理医学文献和病例数据,生成高质量的训练语料。
    • 模型训练与优化:ModelEngine 提供一站式的模型管理解决方案,开发者能快速将通用大模型转化为行业特定模型,例如在金融领域,可以快速训练出适合风险评估的模型。
    • AI 应用开发与部署:ModelEngine 提供低代码编排、RAG 框架和自定义插件能力,支持快速构建和优化 AI 应用。例如,在制造业中,可以快速开发出用于设备故障预测的 AI 应用,通过快速验证和优化,提升生产效率。
    • 行业化落地:ModelEngine 的开源版本通过内置数据处理算子和完整的模型管理流程,为开发者提供了高效灵活的全流程 AI 开发体验。
  • TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型

    TripoSR是什么

    TripoSR是Stability AI和VAST联合推出的开源3D生成模型,能在不到0.5秒内从单张2D图像快速生成高质量的3D模型。模型基于Transformer架构,采用了大型重建模型(LRM)的原理,对数据处理、模型设计和训练技术进行了多项改进。TripoSR在多个公共数据集上的表现优于其他开源替代方案,TripoSR支持在没有GPU的设备上运行,极大地降低了使用门槛。采用MIT许可证,支持商业、个人和研究使用。

    TripoSR

    TripoSR的主要功能

    • 单张图片生成3D对象:TripoSR能从用户提供的单张2D图片中自动创建三维模型。会识别图片中的对象、提取其形状和特征,构建相应的3D几何结构。
    • 快速转换:TripoSR的处理速度极快,在NVIDIA A100 GPU上,能在不到0.5秒的时间内生成高质量的3D模型,大大减少了传统3D建模所需的时间和资源。
    • 高质量渲染:TripoSR注重输出的3D模型质量,能确保模型的细节和真实感。
    • 适应多种图像:TripoSR能处理各种类型的2D图片,包括静态图像和具有一定复杂性的图像。

    TripoSR的技术原理

    • 架构设计:TripoSR的架构设计基于LRM(Large Reconstruction Model),在此基础上进行了多项技术改进。
      • 图像编码器(Image Encoder):使用预训练的视觉变换器模型DINOv1,将输入的RGB图像投影到一组潜在向量中。这些向量编码了图像的全局和局部特征,为后续的3D重建提供了必要的信息。
      • 图像到三平面解码器(Image-to-Triplane Decoder):将图像编码器输出的潜在向量转换为三平面-NeRF表示。三平面-NeRF表示是一种紧凑且富有表现力的3D表示形式,适合于表示具有复杂形状和纹理的物体。
      • 基于三平面的神经辐射场(Triplane-based NeRF):由多层感知机(MLP)堆叠而成,负责预测空间中3D点的颜色和密度。通过这种方式,模型能够学习物体表面的详细形状和纹理信息。
    • 技术算法:TripoSR使用了一系列先进的算法来实现其快速且高质量的3D重建能力 :
      • Transformer架构:TripoSR基于Transformer架构,特别是自注意力(Self-Attention)和交叉注意力(Cross-Attention)层,来处理和学习图像的全局和局部特征。
      • 神经辐射场(NeRF):NeRF模型由MLP组成,用于预测3D空间中点的颜色和密度,实现对物体形状和纹理的精细建模。
      • 重要性采样策略:在训练过程中,TripoSR采用重要性采样策略,通过从原始高分辨率图像中渲染128×128大小的随机补丁来进行训练。确保了物体表面细节的忠实重建,有效平衡了计算效率和重建粒度。
    • 数据处理方法:TripoSR在数据处理方面进行了多项改进 :
      • 数据管理:通过选择Objaverse数据集的精心策划的子集,TripoSR增强了训练数据的质量。
      • 数据渲染:采用了多种数据渲染技术,可以更接近地模拟真实世界图像的分布,增强模型的泛化能力。
      • 三平面通道优化:为了提高模型效率和性能,TripoSR对三平面NeRF表示中的通道配置进行了优化。通过实验评估,选择了40个通道的配置,在训练阶段使用更大的批量大小和更高的分辨率,同时在推理期间保持较低的内存使用率。
    • 训练技术:TripoSR在训练技术方面也进行了多项创新 :
      • 掩码损失函数(Mask Loss):在训练过程中加入了掩码损失函数,可以显著减少“漂浮物”伪影并提高重建的保真度。
      • 本地渲染监督(Local Rendering Supervision):模型完全依赖于渲染损失进行监督,因此需要高分辨率渲染来学习详细的形状和纹理重建。为了解决高分辨率渲染和监督可能导致的计算和GPU内存负载问题,TripoSR在训练期间从原始512×512分辨率图像中渲染128×128大小的随机补丁。
      • 优化器和学习率调度:TripoSR使用AdamW优化器,并采用余弦退火学习率调度器(CosineAnnealingLR)。训练过程中还使用了LPIPS损失和掩码损失的加权组合,以进一步提高重建质量。

    TripoSR的项目地址

    TripoSR的性能效果

    • 定量结果:在GSO和OmniObject3D数据集上,TripoSR在Chamfer Distance(CD)和F-score(FS)指标上均优于其他方法,实现了新的最先进水平。
    • 定性结果:TripoSR重建的3D形状和纹理在视觉上显著优于其他方法,能更好地捕捉物体的复杂细节。
    • 推理速度:TripoSR在NVIDIA A100 GPU上,从单张图像生成3D网格的时间约为0.5秒,是最快的前馈3D重建模型之一。

    TripoSR的应用场景

    • 游戏开发:游戏设计师可以用TripoSR快速将2D概念艺术或参考图片转换为3D游戏资产,加速游戏开发过程。
    • 电影和动画制作:电影制作人员可以用TripoSR从静态图片创建3D角色、场景和道具,用于电影特效或动画制作。
    • 建筑和城市规划:建筑师和城市规划者可以基于现有的2D蓝图或照片,快速生成3D建筑模型,用于可视化和模拟。
    • 产品设计:设计师可以用TripoSR将2D设计图转换成3D模型,用于产品原型制作、测试和展示。
    • 虚拟现实(VR)和增强现实(AR):开发者可以用TripoSR创建3D虚拟对象和环境,用于VR游戏、教育应用或AR体验。
    • 教育和培训:教师和培训师可以创建3D教学模型,用于科学、工程和医学等领域的教育。
  • Piece it Together – Bria AI等机构推出的图像生成框架

    Piece it Together是什么

    Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识,将用户提供的碎片化视觉元素无缝整合到连贯的整体中,智能补充缺失的部分,生成完整且富有创意的概念图像。Piece it Together基于IP-Adapter+的IP+空间,训练轻量级的流匹配模型IP-Prior,实现高质量的重建和语义操作。基于LoRA微调策略,Piece it Together能显著提升文本遵循性,更好地适应不同场景,为创意设计和概念探索提供强大的支持。

    Piece it Together

    Piece it Together的主要功能

    • 零碎视觉元素整合:将用户提供的部分视觉组件(如一个独特的翅膀、特定的发型等)无缝整合到连贯的整体构图中,生成完整的概念图像。
    • 缺失部分补充:在整合已有的视觉元素的同时,自动补充生成缺失的部分。
    • 多样化概念生成:针对同一组输入元素,生成多种不同的概念变体。
    • 语义操作与编辑:在 IP+ 空间中支持语义操作,支持用户对生成的概念进行进一步的编辑和调整。
    • 文本遵循性恢复:支持恢复文本提示的遵循能力,将生成的概念放置在特定的场景或背景下,增强生成图像的多样性和适用性。

    Piece it Together的技术原理

    • IP+ 空间:基于 IP-Adapter+ 的内部表示空间(IP+ 空间),相较于传统的 CLIP 空间,IP+ 空间在保留复杂概念和细节方面表现更好,支持进行语义操作,为高质量的图像重建和概念编辑提供了基础。
    • IP-Prior 模型:训练一个轻量级的流匹配模型 IP-Prior,模型基于特定领域的先验知识,根据输入的部分视觉组件生成完整的概念图像。基于学习目标领域的分布,动态适应用户输入,完成缺失部分的生成。
    • 数据生成与训练:用 FLUX-Schnell 等预训练的文本到图像模型生成训练数据,添加随机形容词和类别增强数据多样性。用分割方法提取目标图像的语义部分,形成输入对,训练 IP-Prior 模型解决目标任务。
    • LoRA 微调策略:基于 LoRA 的微调策略,改善 IP-Adapter+ 在文本遵循性方面的不足。基于少量样本训练 LoRA 适配器,恢复文本控制能力,让生成的概念更好地遵循文本提示,同时保持视觉保真度。

    Piece it Together的项目地址

    Piece it Together的应用场景

    • 角色设计:快速生成幻想生物、科幻角色等完整角色设计,探索不同创意方向。
    • 产品设计:提供产品组件,生成完整概念图,验证设计思路并探索多样化设计。
    • 玩具设计:输入玩具部分元素,激发创意,生成多种玩具概念用于市场测试。
    • 艺术创作:提供艺术元素,生成完整作品,探索不同风格,激发创作灵感。
    • 教育培训:用在设计和艺术教学,快速生成创意概念,培养创新思维,提升设计技能。
  • Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术

    Bolt3D是什么

    Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张或多张图像中采样出 3D 场景表示。在英伟达 H100 图形处理单元上,Bolt3D 仅需 6.25 秒能将照片处理成完整的三维场景。

    Bolt3D

    Bolt3D的主要功能

    • 快速生成 3D 场景:Bolt3D 是一种前馈式生成方法,能直接从一张或多张输入图像中采样出 3D 场景表示,生成速度极快,在单个 GPU 上仅需 6.25 秒即可完成。
    • 多视角输入与泛化能力:支持不同数量的输入图像,从单视图到多视图均可处理,能生成未被观测区域的内容,具备良好的泛化能力。
    • 高保真 3D 场景表示:基于高斯溅射(Gaussian Splatting)技术来存储数据,通过布置在二维网格中的三维高斯函数来构建三维场景,每个函数都记录着位置、颜色、透明度和空间信息,生成的 3D 场景质量高。
    • 实时交互与应用:用户可以在浏览器中实时查看和渲染生成的 3D 场景,具有广泛的应用前景,如游戏开发、虚拟现实、增强现实、建筑设计、影视制作等领域。

    Bolt3D的技术原理

    • 几何多视角潜在扩散模型:训练了多视图潜在扩散模型,用于联合建模图像和 3D 点图。模型将一张或多张图像及其相机位姿作为输入,学习捕捉目标图像、目标点图和源视图点图的联合分布。
    • 几何 VAE:训练了几何 VAE,将一个视图的点图和相机射线图联合编码为一个几何潜在特征。模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化,能以高精度压缩点图。
    • 高斯头部模型:给定相机以及生成的图像和点图,训练多视图前馈高斯头部模型,输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。
    • 大规模多视图一致数据集:为了训练 Bolt3D,创建了大规模的多视图一致的 3D 几何和外观数据集,通过对现有的多视图图像数据集应用最先进的密集重建技术来生成。
    • 三阶段训练过程:采用三阶段训练过程,首先训练几何变分自编码器(Geometry VAE),然后训练高斯头部模型,最后训练潜在扩散模型。

    Bolt3D的项目地址

    Bolt3D的应用场景

    • 游戏开发:快速生成游戏中的 3D 场景,减少开发时间和成本。
    • 虚拟现实与增强现实:为 VR 和 AR 应用提供实时的 3D 场景生成,提升用户体验。
    • 建筑设计:快速生成建筑的 3D 模型,便于设计和展示。
    • 影视制作:用于电影和电视剧中的特效制作,快速生成复杂的 3D 场景。
  • RF-DETR – Roboflow推出的实时目标检测模型

    RF-DETR是什么

    RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,性能优于现有的目标检测模型。RF-DETR结合LW-DETR与预训练的DINOv2主干,具备强大的领域适应性。RF-DETR支持多分辨率训练,根据需要在精度和延迟间灵活权衡。RF-DETR提供预训练检查点,方便用户基于迁移学习在自定义数据集上进行微调。

    RF-DETR-website

    RF-DETR的主要功能

    • 高精度实时检测:在COCO数据集上达到60+的平均精度均值(mAP),保持实时性(25+ FPS),适用于对速度和精度要求较高的场景。
    • 强大的领域适应性:适应各种不同的领域和数据集,包括但不限于航拍图像、工业场景、自然环境等。
    • 灵活的分辨率选择:支持多分辨率训练和运行,用户根据实际需求在精度和延迟之间进行权衡。
    • 便捷的微调和部署:提供预训练的检查点,用户基于检查点在自定义数据集上进行微调,快速适应特定任务。

    RF-DETR的技术原理

    • Transformer架构:RF-DETR属于DETR(Detection Transformer)家族,基于Transformer架构进行目标检测。与传统的基于CNN的目标检测模型(如YOLO)相比,Transformer能更好地捕捉图像中的长距离依赖关系和全局上下文信息,提高检测精度。
    • 预训练的DINOv2主干:模型结合预训练的DINOv2主干网络。DINOv2是强大的视觉表示学习模型,基于在大规模数据集上进行自监督预训练,学习到丰富的图像特征。将预训练的特征应用到RF-DETR中,让模型在面对新领域和小数据集时具有适应能力和泛化能力。
    • 单尺度特征提取:与Deformable DETR的多尺度自注意力机制不同,RF-DETR从单尺度主干中提取图像特征图。简化模型结构,降低计算复杂度,保持较高的检测性能,有助于实现实时性。
    • 多分辨率训练:RF-DETR在多个分辨率上进行训练,让模型在运行时根据不同的应用场景选择合适的分辨率。高分辨率提高检测精度,低分辨率则减少延迟,用户根据实际需求灵活调整,无需重新训练模型,实现精度与延迟的动态平衡。
    • 优化的后处理策略:在评估模型性能时,RF-DETR基于优化的非极大值抑制(NMS)策略,确保在考虑NMS延迟的情况下,模型的总延迟(Total Latency)保持在较低水平,真实地反映模型在实际应用中的运行效率。

    RF-DETR的项目地址

    RF-DETR的应用场景

    • 安防监控:实时检测监控视频中的人员、车辆等,提升安防效率。
    • 自动驾驶:检测道路目标,为自动驾驶提供决策依据。
    • 工业检测:用在生产线上的质量检测,提高生产效率。
    • 无人机监测:实时检测地面目标,支持农业、环保等领域。
    • 智能零售:分析顾客行为,管理商品库存,提升运营效率。
  • Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型

    Cosmos-Reason1是什么

    Cosmos-Reason1 是 NVIDIA 推出的系列多模态大型语言模型,基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。模型基于视觉输入感知世界,经过长链思考后生成自然语言响应,涵盖解释性见解和具身决策(如下一步行动)。训练分为四个阶段:视觉预训练、通用监督微调、物理 AI 微调和强化学习。Cosmos-Reason1基于精心策划的数据和强化学习,在物理常识和具身推理基准测试中表现出色。

    Cosmos-Reason1

    Cosmos-Reason1的主要功能

    • 物理常识理解:理解物理世界的基本知识,如空间、时间和基础物理定律,判断事件的合理性。
    • 具身推理:基于物理常识,为具身代理(如机器人、自动驾驶车辆)生成合理的决策和行动规划。
    • 长链思考:基于长链思考(chain-of-thought reasoning)生成详细的推理过程,提升决策的透明度和可解释性。
    • 多模态输入处理:支持视频输入,结合视觉信息和语言指令进行推理,生成自然语言响应。

    Cosmos-Reason1的技术原理

    • 层次化本体论:定义物理常识的层次化本体论,涵盖空间、时间和基础物理三个主要类别,进一步细分为16个子类别。
    • 二维本体论:为具身推理设计二维本体论,涵盖五种具身代理的四种关键推理能力。
    • 多模态架构:基于解码器仅多模态架构,输入视频基于视觉编码器处理后,与文本标记嵌入对齐,输入到LLM中。
    • 模型四个训练阶段
      • 视觉预训练:对视觉和文本模态进行对齐。
      • 通用监督微调(SFT):提升模型在通用视觉语言任务中的表现。
      • 物理AI SFT:用专门的数据增强物理常识和具身推理能力。
      • 物理AI强化学习(RL):基于规则化奖励进一步优化模型的推理能力。
    • 强化学习:设计基于多选题的规则化奖励机制,基于强化学习提升模型在物理常识和具身推理任务中的表现。

    Cosmos-Reason1的项目地址

    Cosmos-Reason1的应用场景

    • 机器人操作:帮助机器人理解任务目标,生成操作计划,完成抓取、组装等复杂动作。
    • 自动驾驶:处理道路视频,预测交通动态,生成安全驾驶决策,如避让和变道。
    • 智能监控:实时监测视频中的异常行为,如人员跌倒或设备故障,及时发出警报。
    • 虚拟现实(VR)/增强现实(AR):根据虚拟环境输入,生成交互响应,提升用户沉浸感。
    • 教育与培训:基于视频讲解物理现象或操作流程,辅助教学和职业技能培训。
  • Qwen2.5-Omni – 阿里开源的端到端多模态模型

    Qwen2.5-Omni是什么

    Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5-Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持流式文本生成与自然语音合成输出,能实现实时语音和视频聊天。Qwen2.5-Omni用独特的 Thinker-Talker 架构,Thinker 负责处理和理解多模态输入,生成高级表示和文本,Talker 将表示和文本转化为流畅的语音输出。模型在多模态任务(如 OmniBench)中达到最新水平,全维度远超Google的Gemini-1.5-Pro等同类模型。在单模态任务(如语音识别、翻译、音频理解等)中表现出色。Qwen2.5-Omni在Qwen Chat上提供免费体验,模型现已开源,支持开发者和企业免费下载商用,在手机等终端智能硬件上部署运行。

    Qwen2.5-Omni

    Qwen2.5-Omni的主要功能

    • 文本处理:理解、处理各种文本输入,包括自然语言对话、指令、长文本等,支持多种语言。
    • 图像识别:支持识别和理解图像内容。
    • 音频处理:具备语音识别能力,将语音转换为文本,能理解语音指令,生成自然流畅的语音输出。
    • 视频理解:支持处理视频输入,同步分析视频中的视觉和音频信息,实现视频内容理解、视频问答等功能。
    • 实时语音和视频聊天:支持实时处理语音和视频流,实现流畅的语音和视频聊天功能。

    Qwen2.5-Omni的技术原理

    • Thinker-Talker 架构:基于Thinker-Talker 架构,将模型分为两个主要部分,Thinker作为模型的“大脑”,负责处理和理解输入的文本、音频和视频等多模态信息,生成高级语义表示和对应的文本输出。Talker作为模型的“嘴巴”,负责将 Thinker 生成的高级表示和文本转化为流畅的语音输出。
    • 时间对齐多模态位置嵌入(TMRoPE):为同步视频输入的时间戳与音频,Qwen2.5-Omni 推出新的位置嵌入方法 TMRoPE(Time-aligned Multimodal RoPE)。将音频和视频帧用交错的方式组织,确保视频序列的时间顺序。TMRoPE 将多模态输入的三维位置信息(时间、高度、宽度)编码到模型中,基于分解原始旋转嵌入为时间、高度和宽度三个分量实现。文本输入用相同的 ID,TMRoPE 与一维 RoPE 功能等效。音频输入将每个 40ms 的音频帧用相同的 ID,引入绝对时间位置编码。图像输入将每个视觉标记的时间 ID 保持不变,高度和宽度的 ID 根据标记在图像中的位置分配。视频输入用音频和视频帧的时间 ID 交替排列,确保时间对齐。
    • 流式处理和实时响应:基于块状处理方法,将长序列的多模态数据分解为小块,分别处理,减少处理延迟。模型引入滑动窗口机制,限制当前标记的上下文范围,进一步优化流式生成的效率。音频和视频编码器用块状注意力机制,将音频和视频数据分块处理,每块处理时间约为 2 秒。流式语音生成用 Flow-Matching 和 BigVGAN 模型,将生成的音频标记逐块转换为波形,支持实时语音输出。
    • Qwen2.5-Omni 的三个训练阶段
      • 第一阶段:固定语言模型参数,仅训练视觉和音频编码器,用大量的音频-文本和图像-文本对数据,增强模型对多模态信息的理解。
      • 第二阶段:解冻所有参数,用更广泛的数据进行训练,包括图像、视频、音频和文本的混合数据,进一步提升模型对多模态信息的综合理解能力。
      • 第三阶段:基于长序列数据(32k)进行训练,增强模型对复杂长序列数据的理解能力。

    Qwen2.5-Omni的项目地址

    Qwen2.5-Omni的模型性能

    • 多模态任务:在 OmniBench 等多模态任务中达到先进水平。
    • 单模态任务:在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和 subjective naturalness)等多个领域表现优异。

    Qwen2.5-Omni-

    Qwen2.5-Omni的应用场景

    • 智能客服 :基于语音和文本交互,为用户提供实时的咨询和解答服务。
    • 虚拟助手 :作为个人虚拟助手,帮助用户完成各种任务,如日程管理、信息查询、提醒等。
    • 教育领域 :用于在线教育,提供语音讲解、互动问答、作业辅导等功能。
    • 娱乐领域 :在游戏、视频等领域,提供语音交互、角色配音、内容推荐等功能,增强用户的参与感和沉浸感,提供更丰富的娱乐体验。
    • 智能办公 :辅助办公,如语音会议记录生成高质量的会议记录和笔记,提高工作效率。
  • Oliva – 开源语音RAG助手,实时语音搜索向量数据库

    Oliva是什么

    Oliva 是开源的语音RAG助手,结合 Langchain 和 Superlinked 技术,基于语音驱动的 RAG(检索增强生成)架构,帮助用户在 Qdrant 向量数据库中实时搜索信息。用户基于自然语音提问,Oliva 用语音转文本和实时语音通信技术,将语音指令转化为对数据库的查询,返回结构化结果。Oliva支持多智能体协作,将复杂问题拆解为多个子任务,由不同智能体处理。

    Oliva

    Oliva的主要功能

    • 实时语音搜索:用户基于语音提问,AI实时响应。
    • 多智能体协作:将复杂问题拆解为多个子任务,不同智能体分别处理。
    • 语义搜索:基于Qdrant向量数据库,理解语义,提供精准搜索结果。
    • 灵活集成:支持接入本地文档、API数据源、在线网页等作为知识库。

    Oliva的技术原理

    • 语音识别与合成:基于 Deepgram 提供的语音转文本服务,将用户的语音指令转换为文本,便于进一步处理。将系统生成的文本回答转换为语音输出,提供给用户。
    • 向量数据库:基于 Qdrant 向量数据库存储和检索数据。Qdrant 是高效的向量数据库,能快速处理向量嵌入的相似性搜索,支持语义搜索功能。
    • Langchain 多智能体架构:基于 Langchain 框架,构建多智能体系统。每个智能体负责特定的任务,例如检索、生成回答或执行操作。基于动态任务路由,智能体之间协作完成复杂的查询需求。
    • 检索增强生成(RAG):RAG 架构结合检索(Retrieval)和生成(Generation)两种技术。检索模块从向量数据库中获取相关信息,用生成模块将检索到的信息整合成自然语言回答。
    • 实时通信:集成 Livekit 实时通信平台,支持实时语音交互。用户用语音与 Oliva 交互,系统实时处理语音指令返回语音回答。
    • 语义理解:基于自然语言处理(NLP)技术,理解用户的自然语言指令。用向量嵌入技术,将用户的语音指令转换为向量,与数据库中的向量进行相似性比较,提供精准的搜索结果。

    Oliva的项目地址

    Oliva的应用场景

    • 企业知识库搜索:企业员工用语音指令快速查询内部文档、技术手册、FAQ等知识库内容,提高工作效率。
    • 智能客服助手:作为客服系统的语音交互前端,帮助客户快速解决常见问题,提供24小时不间断的语音支持。
    • 智能家居控制:用语音指令控制智能家居设备,如灯光、温度调节、电器开关等,提升家居智能化体验。
    • 数据分析与报告:用户基于语音提问获取数据分析结果,例如查询销售数据、市场趋势等,系统用语音形式反馈结果。
    • 移动语音助手:集成到移动设备中,作为个人语音助手,帮助用户查询信息、设置提醒、导航等。
  • Fin-R1 – 上海财经联合财跃星辰推出的金融推理大模型

    Fin-R1是什么

    Fin-R1是上海财经大学联合财跃星辰推出的首个金融领域R1类推理大模型。基于7B参数的Qwen2.5-7B-Instruct架构,通过在金融推理场景的高质量思维链数据上进行SFT和RL两阶段训练,有效提升金融复杂推理能力。在权威评测中,Fin-R1平均得分75.2分,与行业标杆DeepSeek-R1仅差3分,位居榜单第二。数据构建融合了多个金融领域的高质量数据集,通过数据蒸馏构建了约60k条高质量COT数据集。

    Fin-R1

    Fin-R1的主要功能

    • 金融推理与决策:能处理复杂的金融推理任务,如金融数据的数值推理、金融新闻情感分类、因果关系提取等,为金融决策提供准确、可解释的依据。
    • 自动化金融业务流程:在金融合规检查、机器人投顾等实际应用中表现出色,可自动化执行金融业务流程,提高效率并降低人工成本。
    • 多语言支持:支持中文和英文的金融领域推理,覆盖多种金融业务场景,满足不同语言环境下的金融推理需求。
    • 高效资源利用:以7亿参数的轻量化结构实现高性能,显著降低了部署成本,更适合在资源受限的环境中使用。
    • 金融代码生成:支持各种金融模型和算法的编程代码生成。
    • 金融计算:进行复杂的金融问题的定量分析与计算。
    • 英语金融计算:支持使用英语构建和撰写金融模型。
    • 金融安全合规:帮助企业确保业务操作符合相关法规。
    • 智能风控:利用AI技术识别和管理金融风险,提高决策效率。
    • ESG分析:评估企业的可持续发展能力,促进社会责任履行。

    Fin-R1的技术原理

    • 模型架构:Fin-R1基于Qwen2.5-7B-Instruct架构,采用轻量化的7B参数设计。架构在保证模型性能的同时,显著降低了部署成本,更适合在资源受限的环境中使用。
    • 数据构建:Fin-R1通过构建高质量金融推理数据集Fin-R1-Data来解决金融数据碎片化的问题。数据集包含约60k条面向专业金融推理场景的高质量COT数据。数据集的构建过程包括从多个权威数据源进行领域知识蒸馏筛选,采用“答案+推理”双轮质量打分筛选方法,确保数据的准确性和可靠性。
    • 第一阶段——推理能力注入:使用ConvFinQA和FinQA金融数据集对Qwen2.5-7B-Instruct进行监督微调(SFT),帮助模型初步提升金融推理能力。
    • 第二阶段——强化学习优化:在掌握复杂推理技能后,采用GRPO(Group Relative Policy Optimization)算法作为核心框架,结合格式奖励和准确度奖励进行强化学习。同时引入基于模型的验证器(Model-Based Verifier),采用Qwen2.5-Max进行答案评估,生成更加精确可靠的奖励信号,提升强化学习的效果和稳定性。

    Fin-R1的项目地址

    Fin-R1的应用场景

    • 智能风控:在智能风控领域,Fin-R1的动态信用评分模型让风险评估更精准,能实时监测交易异常,有效防范金融风险。
    • 投资决策辅助:在基金投资中,能辅助投资顾问进行资产配置,帮助用户做出更明智的决策。
    • 量化交易:在证券交易中,Fin-R1可以参与量化交易代码的编写,提升从业者的代码效率,助力量化交易策略的开发。
    • ESG分析:能协助生成符合GRI标准的ESG报告,助力企业绿色转型,满足市场对企业可持续发展的要求。
    • 市场趋势预测:在保险行业,Fin-R1能高效评估保单收益,预测市场趋势。
  • Video-T1 – 清华联合腾讯推出的视频生成技术

    Video-T1是什么

    Video-T1 是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(Test-Time Scaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频,Video-T1 在测试阶段引入额外计算资源,基于动态调整生成路径优化视频质量。研究推出 Tree-of-Frames (ToF) 方法,将视频生成分为多个阶段,逐步优化帧的连贯性和与文本提示的匹配度。Video-T1 为视频生成领域提供新的优化思路,展示测试时扩展的强大潜力。

    Video-T1

    Video-T1的主要功能

    • 提升视频质量:在测试阶段增加计算资源,生成更高质量的视频,减少模糊和噪声。
    • 增强文本一致性:确保生成的视频符合给定的文本提示,提高视频与文本的匹配度。
    • 优化视频连贯性:改善视频帧之间的运动平滑性和时间连贯性,减少闪烁和抖动。
    • 适应复杂场景:在处理复杂场景和动态对象时,生成更稳定和真实的视频内容。

    Video-T1的技术原理

    • 搜索空间构建:基于测试时验证器(verifiers)提供反馈,结合启发式算法指导搜索过程。
    • 随机线性搜索:在推理时增加噪声候选样本,逐步去噪生成视频片段,选择验证器评分最高的结果。
    • Tree-of-Frames(ToF)方法
      • 图像级对齐:初始帧的生成影响后续帧。
      • 动态提示应用:在测试验证器中动态调整提示,关注运动稳定性和物理合理性。
      • 整体质量评估:评估视频的整体质量,选择与文本提示最匹配的视频。
    • 自回归扩展与剪枝:基于自回归方式动态扩展和剪枝视频分支,提高生成效率。

    Video-T1的项目地址

    Video-T1的应用场景

    • 创意视频制作:为内容创作者和广告行业快速生成高质量、符合创意需求的视频素材,提升内容吸引力。
    • 影视制作:辅助特效和动画制作,生成复杂场景和角色动作,提升影视制作效率。
    • 教育与培训:生成教学视频和培训模拟场景,增强教学和培训的趣味性和直观性。
    • 游戏开发:生成游戏过场动画和虚拟角色动作,提升游戏的沉浸感和交互性。
    • VR与AR:生成高质量的VR内容和AR动态效果,增强用户体验和沉浸感。