Category: AI项目和框架

  • Bamba-9B – 基于 Mamba2 架构的仅解码语言模型

    Bamba-9B是什么

    Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B在推理时相较于标准变换器模型展现出2.5倍的吞吐量提升和2倍的延迟加速。模型训练使用2.2万亿个token,进一步验证新兴架构的潜力,在保持与最先进的变换器模型竞争的同时,提供更高的推理效率。

    Bamba-9B

    Bamba-9B的主要功能

    • 提高推理效率:Bamba-9B设计的主要目标是提高大型语言模型在推理时的效率,特别是在处理长文本时的内存带宽瓶颈。
    • 吞吐量和延迟优化:相比于标准变换器模型,Bamba-9B在推理时展示2.5倍的吞吐量提升和2倍的延迟加速。
    • 开放数据集训练:Bamba-9B完全在开放数据集上训练,有助于社区进行透明度和可复制性的实验。
    • 多平台支持:Bamba-9B支持在多个开源平台使用,如transformersvLLMTRLllama.cpp

    Bamba-9B的技术原理

    • 混合Mamba2架构:基于Mamba2架构,一种新兴的架构,使KV-cache大小恒定消除内存带宽瓶颈。
    • 恒定KV-cache:KV-cache所需的内存量随上下文长度增加而增加,而Mamba2架构保持KV-cache大小不变解决这一问题。
    • 两阶段训练方法:采用两阶段训练方法,第一阶段用Dolma v1.7数据集进行训练,第二阶段用Fineweb-edu和Cosmopedia等高质量数据集进行额外训练。
    • 数据加载器:推出一个分布式状态无关的数据加载器,支持大规模分布式训练,并与Torch Titan集成。
    • 量化技术:支持模型量化,基于llm-compressor将模型量化到fp8,减少模型大小提高推理速度,同时保持准确性。
    • 上下文长度扩展:Bamba-9B正在探索长上下文长度扩展的方法,如将LongRope应用于全注意力层,处理更长的上下文。

    Bamba-9B的项目地址

    Bamba-9B的应用场景

    • 机器翻译:实现即时的语言翻译服务,帮助用户跨越语言障碍,理解或交流不同语言的内容。
    • 智能客服:作为聊天机器人的底层技术,提供快速且自然的对话回复,提升客户服务体验。
    • 内容推荐:在内容平台,根据用户的历史行为和偏好,生成个性化的内容推荐列表。
    • 自动摘要:读取长篇文章或报告,自动提炼关键信息,生成简短摘要,节省用户阅读时间。
    • 社交媒体监控:分析社交媒体上的大量帖子和评论,帮助品牌监控公众形象和市场动态。
  • VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

    VSI-Bench是什么

    VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能系统地测试和提高MLLMs在视觉空间智能方面的表现。

    VSI-Bench

    VSI-Bench的主要功能

    • 评估视觉空间智能:量化评估多模态大型语言模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。
    • 基准测试:提供标准化的测试集,包含5000多个问答对,用在基准测试和比较不同MLLMs在视觉空间任务上的性能。
    • 任务多样性:包括配置型任务(物体计数、相对距离、相对方向、路线规划)、测量估计(物体尺寸、房间大小、绝对距离)和时空任务(物体出现顺序),全面覆盖视觉空间智能的多个方面。
    • 视频理解:基于视频输入,VSI-Bench测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。
    • 数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。。

    VSI-Bench的技术原理

    • 数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),数据集提供高保真度的视频扫描和对象级别的3D注释。
    • 问题-答案对生成:基于数据集中的元信息(如对象类别、边界框)和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。
    • 质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。
    • 模型评估:在零样本设置下评估多种视频支持的MLLMs,用默认提示进行测试,采用精确匹配和模糊匹配作为主要评价指标。
    • 性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
    • 认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。

    VSI-Bench的项目地址

    VSI-Bench的应用场景

    • 机器人导航与交互:在机器人技术领域,评估和训练MLLMs,更好地理解空间布局,提高机器人在未知环境中的导航和避障能力。
    • 增强现实(AR)/虚拟现实(VR):在AR/VR应用中,帮助MLLMs更好地理解用户的物理空间环境,提供更自然的交互体验。
    • 自动驾驶汽车:自动驾驶系统需要精确的空间理解能力处理复杂的交通场景,用在开发和测试支持自动驾驶的视觉空间智能系统。
    • 智能家居系统:智能家居系统需要理解居住空间的布局和物体的位置,VSI-Bench帮助训练MLLMs,使其更好地服务于智能家居控制和自动化。
    • 室内设计和建筑规划:评估MLLMs在空间规划和设计中的应用,帮助系统提供更合理的布局建议。
  • Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型

    Baichuan4-Finance是什么

    Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用领域自约束训练,在保持通用能力的同时,增强金融知识。Baichuan4-Finance在金融评测基准如FLAME和FinanceIQ中表现优异,超越GPT-4o等竞争对手,展现了在金融领域的专业能力和应用潜力。Baichuan4-Finance能显著提升金融机构的风控、客服和决策支持能力,推动金融行业的智能化升级。

    Baichuan4-Finance的主要功能

    • 金融知识理解和生成:够理解和生成金融领域的专业内容,包括金融新闻、报告和分析等。
    • 金融认证问题解答:模型能处理各种金融认证考试问题,如CFA、CPA等。
    • 金融场景应用:在金融业务场景中,如风险控制、合规性检查、智能客服等,提供决策支持。
    • 金融数据分析:具备处理和分析复杂金融数据的能力,包括财务报表分析和市场趋势预测。
    • 多轮对话能力:在客户服务中,能进行多轮对话,理解客户需求并提供个性化服务。
    • 文档审核和处理:审核和处理金融文档,提高工作效率和准确性。

    Baichuan4-Finance的技术原理

    • 领域自约束训练策略:基于领域自约束训练方案,模型在获得金融知识的同时保持通用能力,避免成为单一场景的专有模型。
    • 高质量数据集构建:构建全面且严谨的金融数据集,包括金融专业教材、学术著作、监管政策文件等。
    • 混合数据策略:在领域自约束训练中引入通用数据与金融数据混合训练,实现通用能力和金融能力的双向增强。
    • 持续预训练:在预训练阶段,用特定的数据混合比例和持续预训练策略,优化模型性能。
    • 监督式微调:用监督式微调优化模型在特定金融任务上的表现。
    • 强化学习:采用人类反馈和AI反馈的强化学习策略,进一步提升模型性能,让输出更符合人类偏好和指令。

    Baichuan4-Finance的项目地址

    Baichuan4-Finance的应用场景

    • 智能投顾:提供个性化投资建议和市场分析,帮助用户做出更明智的投资选择。
    • 自动化客户服务:在银行和保险公司中提供24*7的自动化客户支持,解答查询和处理交易。
    • 风险评估与管理:辅助金融机构识别潜在风险,提供风险控制和合规性检查。
    • 财务报告生成:自动生成和分析财务报表,为企业提供财务健康洞察。
    • 交易决策辅助:为交易者提供市场趋势预测,辅助交易决策。
  • ERA-42 – 星动纪元推出的端到端原生机器人大模型

    ERA-42是什么

    ERA-42是北京星动纪元推出的端到端原生机器人大模型,与自研的五指灵巧手星动XHAND1结合,能完成100多种复杂灵巧操作任务。ERA-42无需预编程,具备快速学习新技能的能力,能在2小时内用少量数据学会新任务。作为业界首个五指灵巧手具身大模型,ERA-42展现强大的跨模态能力、自适应性和泛化能力,引领具身大模型进入通用灵巧操作时代,预示着机器人服务千行百业,走进千家万户的愿景。

    ERA-42

    ERA-42的主要功能

    • 灵巧操作能力:与星动XHAND1五指灵巧手结合,能执行100多种复杂灵巧的操作任务,如使用工具、抓取物体等。
    • 快速学习新技能:快速学习并执行新任务,无需预编程,能在不到2小时内通过少量数据学会新任务。
    • 跨模态能力:模型融合视觉、语言、触觉和身体姿态等全模态信息,实现对不同任务和环境的泛化能力。
    • 端到端执行:从接收全模态数据到生成最终输出(如决策、动作等)的整个过程,基于简洁的神经网络链路完成,无需人为设计特征、预编程或干预处理步骤。
    • 物理世界理解和预测:融合世界模型后,具备对物理世界的理解及对未来行动轨迹的预测能力。

    ERA-42的技术原理

    • 统一模型泛化:基于构建统一的原生模型,融合多种模态信息,实现对不同任务和环境的泛化能力。
    • 端到端学习:采用端到端的学习方法,直接从全模态输入到最终输出,无需中间的人为干预,提升灵活性与开发效率。
    • 数据驱动的自适应和泛化:基于大规模视频数据学习策略,用学习行动后的结果掌握因果关系,实现完全泛化。
    • 世界模型融合:将世界模型融入原生机器人大模型中,使其不仅具备行动能力,还具备对物理世界的理解能力。
    • 预测与行动联合学习:联合去噪过程,ERA-42能学习如何用行动改善预测,提升任务执行的高效性和准确性。

    ERA-42的应用场景

    • 工业自动化:用在自动化生产线,执行复杂的装配、检测和维护任务,提高生产效率和质量。
    • 医疗辅助:在医疗领域,辅助进行精细的手术操作,或者在实验室中进行样本处理和实验操作。
    • 家庭服务:作为家庭服务机器人,完成清洁、烹饪、物品整理等家务任务,提高生活质量。
    • 灾难救援:在灾难现场执行搜索和救援任务,尤其是在人类难以到达或危险的环境中。
    • 物流配送:用在仓库管理和货物分拣,提高物流效率,减少人力成本。
  • 3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目

    3D-Speaker是什么

    3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码,及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。最新更新增强多说话人日志功能,提升识别效率和准确性,适用于大规模对话数据的高效处理。

    3D-Speaker

    3D-Speaker的主要功能

    • 说话人日志:将音频划分为属于不同说话人的多个段落,识别出每个说话人的开始和结束时间。
    • 说话人识别:确定音频中说话人的身份。
    • 语种识别:识别音频中说话人所使用的语言。
    • 多模态识别:结合声学、语义、视觉信息,增强识别能力,尤其是在复杂声学环境中。
    • 重叠说话人检测:能识别出音频中任意说话人重叠的区域。

    3D-Speake的技术原理

    • 声学信息处理:声学编码器提取包含说话人信息的声学特征。应用数据增强算法(如WavAugment和SpecAugment)提高特征提取的鲁棒性。
    • 视觉信息融合:分析和提取人物脸部活动特征,基于视觉-音频多模态检测模块识别出当前画面中正在说话的人物信息。
    • 语义信息融合:结合语义信息,将说话人日志任务转化为对识别的文本内容进行说话人区分。用基于Bert模型的对话预测和说话人转换预测模块提取语义中的说话人信息。
    • 端到端说话人日志(EEND):采用EEND网络直接输出每个说话人的语音活动检测结果,识别任意说话人重叠区域。
    • 无监督聚类:结合传统的“特征提取-无监督聚类”框架进行全局人数检测,输出粗粒度的说话人ID段落结果。

    3D-Speaker的项目地址

    3D-Speaker的应用场景

    • 会议记录与分析:自动记录会议中的发言者及其发言时间,便于后续的会议内容整理和分析。
    • 法庭记录:在法庭审判过程中,自动区分和记录不同发言者(如法官、律师、证人)的发言,提高记录的准确性和效率。
    • 广播与电视内容制作:对广播或电视节目中的多个发言人进行实时识别和标注,便于内容编辑和后期制作。
    • 电话客服:在电话客服中,自动区分客户和客服人员的对话,有助于提高服务质量和进行对话内容分析。
    • 安全监控:在安全监控领域,对监控音频中的多个说话人进行识别,有助于快速定位和响应安全事件。
  • LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

    LeviTor是什么

    LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂场景中的物体运动和交互,基于用户友好的推理流程简化3D轨迹输入,让视频生成技术更加先进和易用。LeviTor的引入为3D物体轨迹控制铺平道路,拓宽创意应用范围,适用于更广泛的用户群体。

    LeviTor

    LeviTor的主要功能

    • 精确操控物体运动:在从静态图像生成视频时,精确控制物体的运动轨迹。
    • 增强创意应用:基于3D轨迹控制,拓宽视频合成的创意应用范围。
    • 简化用户输入:用户用简单的2D图像上的绘制和深度调整输入3D轨迹,降低技术门槛。
    • 自动提取深度信息和物体掩码:系统自动从图像中提取深度信息和物体掩码,减少用户操作。
    • 交互式轨迹绘制:用户交互式地绘制物体轨迹,系统将其解释为3D路径。

    LeviTor的技术原理

    • K-means聚类:对视频对象掩码(mask)的像素进行K-means聚类,得到一组代表性的控制点。
    • 深度信息融合:深度估计网络DepthAnythingV2预测相对深度图,并在每个控制点采样深度,为控制点增添深度信息。
    • 控制信号构建:结合2D坐标和估计的深度值,构建控制轨迹,轨迹作为视频扩散模型的控制信号。
    • 视频扩散模型:将控制信号输入到视频扩散模型中,生成与3D轨迹对齐的视频。
    • 用户友好的推理流程:设计用户友好的交互系统,用户用点击和调整深度值输入3D轨迹。

    LeviTor的项目地址

    LeviTor的应用场景

    • 电影特效制作:生成逼真的特效场景,减少实地拍摄成本,提高制作效率。
    • 游戏动画生成:在游戏开发中,创造动态的游戏背景和角色动画,增强游戏的沉浸感。
    • 虚拟现实体验:在VR应用中合成逼真的虚拟环境,为用户提供更加真实的沉浸式体验。
    • 增强现实展示:在AR领域将虚拟信息与现实世界无缝结合,用在教育、导航等场景。
    • 广告视频制作:制作动态广告视频,吸引观众注意力,提升品牌形象和产品吸引力。
  • AgentScope – 阿里开源的多智能体开发平台

    AgentScope是什么

    AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天、图像合成、文本嵌入等多种任务。AgentScope包含拖拽式编程界面、交互式编程助手、实时监控功能,及丰富的开发资源,支持快速二次开发。AgentScope具备容错机制、提示优化和分布式并行处理能力,提升应用性能和开发效率。

    AgentScope

    AgentScope的主要功能

    • 多智能体协调:支持多个智能体协同工作,处理复杂的任务和场景。
    • 消息交换机制:作为核心通信机制,智能体之间用消息传递进行交互。
    • 易用性设计:提供零代码拖放式工作站和自动提示调整机制,降低开发和部署的难度。
    • 容错控制:内置和可定制的容错机制,提高应用程序的稳定性和鲁棒性。
    • 多模态数据支持:支持文本、图像、音频和视频等多模态数据的对话、消息传输和数据存储。
    • 工具和外部知识使用:提供服务工具包,支持工具使用、功能预处理、提示工程、推理和响应解析。

    AgentScope的技术原理

    • 消息驱动的架构:基于消息驱动的架构,智能体之间的交互用消息传递实现,每个消息包含发送者、内容和可能的URL链接。
    • Actor模型:基于Actor模型设计分布式框架,每个智能体(Actor)在接收到所有必要的消息后进行计算,实现自动并行优化。
    • 容错机制:用错误分类和定制的处理策略,自动处理不同类型的错误,包括可访问性错误、规则可解析错误、模型可解析错误和不可解析错误。
    • 多模态数据处理:基于URL和本地文件管理系统,AgentScope实现多模态数据的生成、存储和传输的解耦架构。
    • 服务工具包:提供服务工具包,支持工具函数的管理、预处理、提示工程、响应解析和函数执行。
    • 检索增强生成(RAG):整合RAG技术,支持智能体利用外部知识库增强LLMs的能力,提升事实准确性和减少幻觉。

    AgentScope的项目地址

    AgentScope的应用场景

    • 智能助手:开发个人或企业智能助手,帮助用户完成日常任务,如日程管理、信息查询、数据分析等。
    • 客户服务:在客户服务领域,构建聊天机器人,处理客户咨询、投诉和订单管理等任务。
    • 软件工程:在软件开发中,辅助代码生成、缺陷检测、文档编写等任务。
    • 社会模拟:构建模拟社会互动的多智能体系统,用在社会学研究、行为预测和政策模拟。
    • 教育和培训:开发教育应用,如虚拟教师、个性化学习助手,及模拟复杂场景的培训程序。
  • MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token

    MetaMorph是什么

    MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)的方法,使得预训练的大型语言模型(LLM)能够快速转变为一个统一的自回归模型,能生成文本和视觉token。MetaMorph模型在视觉理解和视觉生成基准上都取得了有竞争力的表现,能基于从LLM预训练中获得的世界知识和推理能力,在视觉生成过程中克服其他生成模型常见的失败模式。研究表明,LLM可能具有强大的“先验”视觉能力,这些能力可以通过相对简单的指令调整过程被高效地适应于视觉理解和生成。

    MetaMorph的主要功能

    • 多模态理解与生成:MetaMorph通过Visual-Predictive Instruction Tuning(VPiT)技术,使预训练的大型语言模型(LLM)能够快速转变为一个统一的自回归模型,能够生成文本和视觉token,实现多模态理解与生成。
    • 视觉生成能力:MetaMorph在视觉生成方面能够利用从LLM预训练中获得的世界知识和推理能力,克服其他生成模型常见的失败模式。
    • 隐式推理执行:MetaMorph能够在生成视觉token之前隐式地执行推理步骤,例如根据提示词生成相应的图像。
    • 处理专业术语:与文本嵌入模型CLIP和T5相比,MetaMorph更有效地处理专业术语,生成准确的视觉标记。
    • 统一建模方法:MetaMorph展示了统一建模方法,允许模型利用LLM的强大功能,从预训练的LLM中提取知识。
    • 竞争力的表现:MetaMorph在视觉理解和视觉生成基准测试中都取得了竞争力的表现,优于其他统一模型。

    MetaMorph的技术原理

    • Visual-Predictive Instruction Tuning (VPiT):是一种简单而有效的视觉指令调优方法,使预训练的大型语言模型(LLM)能快速转变为一个统一的自回归模型,能生成文本和视觉token。
    • 多模态token预测:VPiT教导LLM从以指令跟随格式整理的图像和文本数据输入序列中预测离散的文本标记和连续的视觉标记。
    • 视觉生成能力与视觉理解的关联:研究发现,视觉生成能力作为改进的视觉理解的自然副产品出现,并且可以通过少量的生成数据高效解锁。
    • 理解和生成的不对称性:理解和生成视觉token的能力是相互关联但不对称的。增加理解数据可以更有效地提高视觉理解和生成性能,而增加生成数据虽然可以提高生成质量,但对视觉理解的提升效果较小。
    • 统一模型训练:基于上述发现,MetaMorph模型使用VPiT来预测多模态token,基于各种数据源进行训练,包括视觉问答数据集和无文本注释的纯图像和视频数据。
    • 预训练LLM的知识:MetaMorph能基于从LLM预训练中获得的世界知识和推理能力,在视觉生成过程中克服其他生成模型常见的失败模式。

    MetaMorph的项目地址

    MetaMorph的应用场景

    • 视觉理解和视觉生成:通过指令调优(VPiT)预测多模态token,利用各种数据源,包括视觉问答数据集和无文本注释的纯图像和视频数据。
    • 知识提取与视觉token生成:MetaMorph能从预训练的大型语言模型(LLM)中提取知识,并在生成视觉token之前隐式地执行推理步骤。例如,输入提示词“帝王斑蝶幼虫转变形态后的动物”,MetaMorph成功生成了蝴蝶的图像。
    • 处理专业术语和语义难题:MetaMorph比CLIP和T5等文本嵌入模型更有效地处理专业术语和常见的语义难题,如否定和主观性。
    • 多模态生成推理:MetaMorph能根据谜题提示生成图像,例如“国家公园位于”。可以直接使用提示语而无需任何思维链(CoT)提示语“生成谜题图片”。MetaMorph可以从需要多步推理的提示中生成正确的图像。
    • 解决视觉谜题:MetaMorph能解决需要隐式推理的视觉谜题,例如在回答“一种乐器,这种乐器通常由提出狭义相对论的科学家演奏”的问题时,模型需要隐式地完成识别爱因斯坦、识别他的首选乐器是小提琴,直接生成正确的视觉token。
  • VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

    VisionFM是什么

    VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)等在内的八种常见眼科成像模态,应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。在诊断12种常见眼科疾病方面超越了具有基础和中级水平的眼科医生,在大规模眼科疾病诊断基准数据库上超越了强大的基线深度神经网络。VisionFM还表现出对新眼科模态、疾病谱系和成像设备的强泛化能力。

    VisionFM的主要功能

    • 疾病筛查和诊断:VisionFM能够筛查和诊断多种眼科疾病,包括但不限于糖尿病视网膜病变、青光眼、老年性黄斑变性等。
    • 疾病预后:模型还能预测疾病的发展趋势和预后。
    • 疾病表型细分:VisionFM可以进行疾病表型的亚分类,包括病变、血管和层的分割,以及地标检测。
    • 全身生物标志物和疾病预测:除了眼部疾病,VisionFM还能从眼部图像中预测全身的生物标志物和疾病。
    • 多模态处理能力:VisionFM能够处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)在内的八种常见眼科成像模态。
    • 模态无关的诊断:VisionFM支持模态无关的诊断,即可以用单一解码器诊断不同成像模态中的多种眼科疾病。
    • 少样本学习:VisionFM展现出少样本学习的能力,能够以高准确度诊断新疾病,即使只有少量的标注样本。
    • 强大的泛化能力:模型对新的眼科模态、疾病谱系和成像设备展现出强大的泛化能力。
    • 合成数据增强学习:VisionFM还能利用合成的眼科成像数据来增强其表示学习能力,从而在下游眼科AI任务上取得显著的性能提升。

    VisionFM的技术原理

    • 大规模预训练:VisionFM是一个基于深度学习的视觉基础模型,它通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、成像设备和人口统计学数据。
    • 多模态多任务学习:VisionFM能够处理多种眼科成像模态,包括眼底摄影、OCT、FFA等,并应用于疾病筛查、诊断、疾病预后、疾病表型细分等多种眼科AI任务。
    • 专家级智能和准确性:预训练后的VisionFM在多个眼科AI应用中展现出专家级别的智能性和准确性,其全科智能在联合诊断12种常见眼科疾病方面超越了初级和中级眼科医生。

    VisionFM的项目地址

    VisionFM的应用场景

    • 眼科临床任务:VisionFM能帮助解决眼科临床任务,特别是在疾病筛查和诊断方面。
    • 多种眼科疾病诊断:该模型在诊断和预测多种眼科疾病方面表现出色,包括糖尿病视网膜病变、青光眼、老年性黄斑变性等。
    • 基层医疗环境:该模型在影像资源有限的基层医疗环境中可以发挥重要作用,减轻医生的工作负担。
    • 低眼科医生密度地区:VisionFM对于眼科医生密度低的地区和国家尤其有用。
    • 教育和培训:VisionFM可以作为资深眼科医生,培训初级眼科从业者,其在眼科影像和疾病诊断方面拥有广泛的知识。
    • 辅助生成诊断报告:该模型可以与大型语言模型(LLM)集成,生成诊断报告,完成眼科疾病诊断的闭环。
  • INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

    INFP是什么

    INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头部模仿阶段和音频引导动作生成阶段,通过实验和可视化展示,验证了INFP方法的卓越性能和有效性。INFP提出了大规模双人对话数据集DyConv,以支持该研究领域的进步。

    INFP的主要功能

    • 角色自动转换:在双人对话中,INFP能自动进行角色的转换,无需手动分配角色和角色切换,增强了交互的自然性和流畅性。
    • 轻量与高效:在保持强大功能的同时,INFP还具有轻量级的特性。能够在Nvidia Tesla A10上实现超过40 fps的推理速度,这意味着INFP能够支持实时的智能代理交互,无论是代理之间的沟通还是人与代理的互动。
    • 交互式头部生成:INFP包含两个关键阶段:基于运动的头部模仿和音频引导的运动生成。第一阶段将真实对话视频中的面部交流行为编码到低维运动潜在空间,第二阶段则将输入的音频映射到这些运动潜在代码,实现音频驱动的头部生成。
    • 大规模双人对话数据集DyConv:为了支持该研究领域的进步,INFP提出了大规模双人对话数据集DyConv,从互联网上收集的丰富的二元对话。

    INFP的技术原理

    • 基于运动的头部模仿阶段:在这个阶段,框架学习将现实生活中的对话视频中的面部交流行为投影到一个低维运动潜在空间。这个过程涉及到从大量真实对话视频中提取面部交流行为,并将其编码为可以驱动静态图像动画的运动潜在代码。
    • 音频引导运动生成阶段:在第二阶段,框架学习从输入的双通道音频到运动潜在代码的映射。这一阶段通过去噪过程实现,从而在交互场景中实现音频驱动的头部生成。
    • 实时互动与风格控制:INFP支持实时互动,支持用户在对话中随时打断或回应虚拟形象。通过提取任意肖像视频的风格向量,INFP还能够全局控制生成结果中的情绪或态度。

    INFP的项目地址

    INFP的应用场景

    • 视频会议与虚拟助手:INFP框架能实现真实感、交互性和实时性,适合实时场景,例如视频会议和虚拟助手等,提供更加自然和流畅的交互体验。
    • 社交媒体与互动娱乐:在社交媒体平台或互动娱乐应用中,INFP可以用于生成具有自然表情和头部动作的交互式头像,增强用户的互动体验。
    • 教育培训:INFP可以用于创建虚拟教师或培训师,提供更加生动和互动的教学体验。
    • 客户服务:在客户服务领域,INFP可以用于生成虚拟客服代表,提供更加人性化的服务。
    • 广告与营销:INFP可以用于生成更加吸引人的虚拟代言人,用于广告和营销活动,提供更加逼真和互动的广告体验。
    • 游戏与模拟:在游戏和模拟环境中,INFP可以用于创建更加真实和互动的角色,提高游戏的沉浸感和互动性。