Category: AI项目和框架

  • CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架

    CustomVideoX是什么

    CustomVideoX 是中科大和浙大等联合提出的创新的个性化视频生成框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器(Video Diffusion Transformer),通过零样本学习的方式,仅训练 LoRA 参数来提取参考图像特征,实现高效的个性化视频生成。CustomVideoX 的核心技术包括:3D 参考注意力机制,支持参考图像特征与视频帧在空间和时间维度上直接交互;时间感知注意力偏差(TAB)策略,通过动态调整参考特征的影响,增强生成视频的时间连贯性;以及实体区域感知增强(ERAE)模块,通过语义对齐突出关键实体区域。解决了传统方法中时间不一致性和质量下降的问题。

    CustomVideoX

    CustomVideoX的主要功能

    • 个性化视频生成:CustomVideoX 能根据用户提供的参考图像和文本描述生成与之高度一致的视频内容。生成符合描述的视频,保留参考图像中的细节特征。
    • 高保真度的参考图像融合:通过 3D 参考注意力机制,CustomVideoX 参考图像的特征与视频帧在空间和时间维度上进行无缝交互。确保生成的视频与文本描述一致,能在每一帧中保持参考图像的主体特征和细节。
    • 时间连贯性优化:CustomVideoX 引入了时间感知注意力偏差(TAB)策略,通过动态调整参考特征在不同时间步的影响,优化生成视频的时间连贯性。避免了传统方法中常见的跳跃或不连贯问题。
    • 关键区域增强:通过实体区域感知增强(ERAE)模块,CustomVideoX 能识别并增强视频中与文本描述相关的关键区域。

    CustomVideoX的技术原理

    • 3D 参考注意力机制:通过 3D 因果变分自编码器(3D Causal VAE)对参考图像进行编码,将特征与视频帧在空间和时间维度上进行直接交互,确保生成视频在每一帧中都能保持参考图像的主体特征和细节。
    • 时间感知注意力偏差(TAB):在扩散模型的去噪过程中,通过抛物线时间掩码动态调整参考特征的权重。在去噪的早期减弱参考特征的影响,中间阶段增强影响,最后阶段再次减弱,优化生成视频的时间连贯性和视觉质量。
    • 实体区域感知增强(ERAE):通过计算文本描述中关键实体的激活强度,识别视频中与这些实体相关的区域,对其进行语义对齐的增强。突出了目标实体,保持背景的多样性,提升生成视频的语义一致性和自然性。
    • 零样本学习与 LoRA 参数训练:仅通过训练少量的 LoRA 参数来提取参考图像特征,避免了传统微调方法可能带来的性能下降,同时保留了预训练模型的完整性,降低了训练复杂度。
    • 高质量数据集与基准测试:研究者构建了高质量的定制化视频数据集,提出了 VideoBench 基准测试平台,用于训练和评估模型的泛化能力及性能。

    CustomVideoX的项目地址

    CustomVideoX的应用场景

    • 艺术与设计:将静态图像转化为动态视频,辅助艺术创作和动画设计。
    • 广告与营销:生成个性化广告视频,提升品牌宣传效果。
    • 影视与娱乐:辅助特效制作和动画创作,提高影视内容的视觉效果。
    • 教育与培训:生成教学动画,增强教育内容的互动性和理解性。
    • 游戏开发:快速生成角色动画和游戏过场视频,提升开发效率。
  • WiseDiag – 杭州智诊科技推出全球领先的医疗大模型

    WiseDiag是什么

    WiseDiag 是杭州智诊科技推出的全球领先的医疗大模型,专注于基于人工智能技术提升医疗服务的效率和质量。模型具有 730 亿参数和 32k 的上下文长度,基于超过 3 万亿 Token 的专业医学数据训练,涵盖 1 万本医学专业书籍、5 万篇临床诊疗指南和 50 万篇全球医学论著。核心功能包括深度推理能力,能模拟专家医生的临床思维模式,进行多步骤复杂场景的健康咨询。WiseDiag 具备长期记忆系统,能存储用户的健康数据和既往病史,在未来的咨询中提供个性化建议。通过“医学专家分身”技术,WiseDiag 可以将专家的知识和经验数字化,实现 7×24 小时的专业健康咨询。WiseDiag 推出多个版本,包括标准版、增强版和量化版,分别适用于不同复杂度的健康咨询场景。

    WiseDiag

    WiseDiag的模型版本

    WiseDiag-Z1

    • 是 WiseDiag 的标准版,具有 730 亿参数和 32k 的上下文长度,知识截止日期为 2024 年 6 月。基于海量医学数据训练,涵盖 1 万本医学专业书籍、5 万篇临床诊疗指南和 50 万篇全球医学论著。适合大多数健康咨询场景,能提供精准的医学报告解读和个性化健康建议。

    WiseDiag-Z1 Thinking

    • 是深度思考版,具备深度逻辑推理能力,知识截止日期为 2024 年底。能模拟专家医生的临床思维模式,在多步骤复杂场景中进行深入分析和反复权衡。适合复杂的健康咨询和疑难病例分析,在罕见病和复杂病症的诊断中表现出色。

    WiseDiag-Z1 Lite

    • 是量化版,响应速度更快且成本更低。在保持核心功能的同时,优化了性能,适合简单、普惠的健康咨询场景。适用于基础健康咨询和快速检测单解读。

    WiseDiag-Genetics

    • 是专注于遗传学领域的模型,能辅助医生进行遗传病因分析、推荐检测方案、制定治疗计划,提供再生育指导。主要用于遗传病咨询、辅助生殖领域,也可为遗传咨询师提供学习辅助。

    WiseDiag的主要功能

    • 深度推理与诊断:WiseDiag 具备强大的深度推理能力,能模拟专家医生的临床思维模式,进行多步骤复杂场景的健康咨询。通过多层次推理机制,深入分析病因、鉴别诊断,制定最优治疗方案。
    • 医学报告解读:WiseDiag 能快速准确地解读体检报告和检测单,提供专业建议。能指出异常指标,结合用户的历史健康数据,提供个性化健康咨询报告。
    • 医学专家分身系统:通过“医学专家分身”技术,WiseDiag 能将顶级专家的经验数字化,实现 7×24 小时的在线健康咨询。用户可以随时获得专业医生级别的建议。
    • 长期记忆系统:WiseDiag 拥有三层记忆架构(实时记忆、短期记忆和长期记忆),能存储用户的健康数据和既往病史,在未来的咨询中提供个性化建议。
    • API 平台开放:WiseDiag 提供 API 平台,供开发者和医疗机构接入,共同推动医疗 AI 的发展。

    WiseDiag的技术原理

    • 强大的医学知识库:WiseDiag 基于 730 亿参数和 32k 的上下文长度构建,训练数据包括 3 万亿 Token 的专业医学数据,涵盖权威医学教材、临床指南和高水平医学研究论文。数据经过监督微调和直接偏好优化,确保了模型的专业性和可靠性。
    • 医学报告精准解读:WiseDiag 能快速准确地解读复杂的医学报告,提供关键指标的分析和个性化健康建议。通过医学编码模型和多维数据分析,重现医生的诊断思维,帮助患者更好地理解报告内容。

    WiseDiag的官网地址

    WiseDiag的模型定价

    • WiseDiag-Z1:输入:¥0.0125/1k tokens;输出:¥0.0500/1k tokens。
    • WiseDiag-Z1 Thinking:输入:¥0.0250/1k tokens;输出:¥0.1000/1k tokens。
    • WiseDiag-Z1 Lite:输入:¥0.0100/1k tokens ;输出:¥0.0400/1k tokens。
    • WiseDiag-Genetics:输入:¥0.0500/1k tokens;输出:¥0.2000/1k tokens。

    WiseDiag的应用场景

    • 健康管理:为用户提供个性化的健康管理方案,支持慢病管理和潜在风险预测。
    • 医疗辅助:帮助医生进行疑难病例分析,优化检查方案,减少不必要的医疗支出。
    • 远程医疗:通过 AI 技术,让优质医疗资源能够触达偏远地区。
  • Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

    Long-VITA是什么

    Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像,基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练,包括漫画摘要、电影剧情等长文本数据,在多个多模态基准测试中达到新的SOTA性能。

    Long-VITA

    Long-VITA的主要功能

    • 长文本处理能力:能处理超过100万tokens的输入,支持长文本、长视频和高分辨率图像的多模态任务。
    • 多模态理解:支持图像、视频和文本的输入,适用于视频理解、高分辨率图像分析、长文本生成等任务。
    • 上下文扩展能力:基于分阶段训练,逐步扩展模型的上下文窗口,且保持对短文本任务的高性能。
    • 开源数据训练:用开源数据集进行训练,无需内部数据,降低开发门槛。
    • 可扩展性:支持上下文并行分布式推理,能处理无限长度的输入,适用于大规模部署。

    Long-VITA的技术原理

    • 分阶段训练
      • 视觉-语言对齐:冻结语言模型和视觉编码器,仅训练投影器,建立视觉和语言特征的初始连接。
      • 通用知识学习:用图像-文本数据进行多任务学习,提升模型的通用知识理解能力。
      • 长序列微调:逐步扩展上下文长度(从128K到1M),加入长文本和视频理解数据,优化模型对长内容的理解能力。
    • 上下文并行分布式推理:基于张量并行和上下文并行技术,支持对无限长度输入的推理,解决长文本处理中的内存瓶颈。
    • 动态分块编码器:用动态分块策略高效处理高分辨率图像,支持不同宽高比的输入。
    • 掩码语言建模头:在推理阶段,基于掩码输出logits,显著降低内存占用,支持大规模长文本生成。

    Long-VITA的项目地址

    Long-VITA的应用场景

    • 视频内容生成:自动生成视频摘要、字幕或回答视频相关问题。
    • 图像分析:辅助艺术创作、医学影像诊断或卫星图像分析。
    • 长文本处理:生成小说、学术报告或文档摘要。
    • 智能对话:在客服、教育或智能家居中,通过文字、图片和视频与用户交互。
    • 实时会议辅助:提供实时翻译、字幕和会议记录生成。
  • NPOA – 开源舆情检测工具,实时监控网络舆情与分析

    NPOA是什么

    NPOA 是开源的功能强大的舆情监测工具,可以帮助用户实时监控网络舆情,了解公众对特定话题或品牌的看法。系统基于先进的自然语言处理技术,可以分析大量的网络数据,提供可视化的舆情分析报告。

    NPOA

    NPOA的主要功能

    • 舆情监测
      • 实时监控:系统能实时捕捉网络上的相关信息,确保用户不错过任何重要舆情。
      • 数据挖掘:通过先进的数据挖掘技术,系统能从海量信息中提取有价值的数据。
      • 自定义规则:用户可以根据自己的需求,自定义监测规则,使监测更加精准。
    • 舆情分析
      • 情感分析:系统会对收集到的舆情数据进行情感分析,判断其情感倾向是正面、负面还是中性。
      • 话题分析:系统会对舆情数据进行分类整理,提炼出主要话题。
      • 媒体类型分析:通过媒体类型分析,可以了解到监测主题下的关注者、参与者、传播者主要分布在哪些渠道。
    • 舆情预警:系统支持自主设定预警规则,当舆情达到预警条件时,相关人员能第一时间收到通知,及时采取措施。
    • 舆情报告:系统可以生成舆情报告,支持下载,方便用户查看和分享。
    • 事件分析:系统支持创建事件专题,对专题进行分析展示。
    • 大屏分析:系统支持自助配置大屏关键词创建大屏。

    NPOA的官网地址

    NPOA的应用场景

    • 企业品牌监控:监控品牌相关讨论,维护企业形象。
    • 政府舆论监管:帮助政府机构了解民众声音,及时响应社会关切。
    • 市场研究:分析市场趋势和消费者情绪,为决策提供数据支持。
    • 危机管理:在危机发生时,快速识别和响应,减少负面影响。
    • 媒体行业:分析热点新闻,发现和报道新闻线索。
  • TIGER – 清华大学推出的轻量级语音分离模型

    TIGER是什么

    TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的轻量级语音分离模型,通过时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,降低了参数量和计算量。 TIGER 的核心在于创新的时频交叉建模模块(FFI),能高效整合时间和频率信息,更好地提取语音特征。模型引入多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),进一步优化了特征提取能力。

    TIGER

    TIGER的主要功能

    • 高效语音分离:TIGER通过创新的时频交叉建模模块(FFI)和多尺度注意力机制,能高效地分离混合语音中的不同说话者。
    • 低计算量与低参数量:模型在压缩94.3%的参数量和95.3%的计算量后,性能仍与当前最先进的模型相当。
    • 复杂声学环境适应:TIGER通过EchoSet数据集模拟真实场景中的噪声和混响,提升模型在复杂环境下的鲁棒性。

    TIGER的技术原理

    • 时频交叉建模策略:TIGER 的核心在于时频交叉建模模块(FFI),通过交替处理时间和频率信息,有效整合时频特征。模块包含频率路径和帧路径,每个路径都包含多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),能融合局部和全局信息,提升语音分离效果。
    • 频带切分:语音信号的能量在不同频带上分布不均,中低频带包含更多语音信息,高频带包含更多噪声和细节。TIGER 通过频带切分策略,将频带划分为不同宽度的子带,减少计算量的同时,让模型专注于关键频带。
    • 多尺度注意力机制:TIGER 引入了多尺度选择性注意力模块(MSA),通过多尺度卷积层和选择性注意力机制,融合局部和全局信息,增强模型对多尺度特征的提取能力。
    • 整体流程:TIGER 的整体流程包括五个部分:
      • 编码器:将混合音频信号通过短时傅里叶变换(STFT)转换为时频表示。
      • 频带切分模块:将整个频带划分为多个子带,每个子带通过一维卷积转换为统一的特征维度。
      • 分离器:由多个时频交叉建模模块(FFI)组成,用于提取每个说话者的声学特征。
      • 频带恢复模块:将子带恢复到全频带范围。
      • 解码器:通过逆短时傅里叶变换(iSTFT)生成每个说话者的清晰语音信号。

    TIGER的项目地址

    TIGER的应用场景

    • 会议及演讲记录:在多人发言的会议或演讲场景中,TIGER 可以高效分离不同发言人的语音,提升会议记录的效率和准确性。
    • 视频剪辑与制作:在视频内容创作中,TIGER 能精确分离主播与背景音或其他人物的语音,方便后期制作和剪辑。
    • 电影音频处理:TIGER 在电影音频分离任务中表现出色,能分离出人声、音乐和音效,提升音频处理的灵活性和质量。
    • 智能语音助手:在智能语音助手应用中,TIGER 可以帮助分离用户语音和背景噪声,提升语音交互的体验。
  • Collaborative Gym – 支持人与AI代理实时交互协作的评估框架

    Collaborative Gym是什么

    Collaborative Gym(Co-Gym)是专注于人机协作(Human-Agent Collaboration)的框架,支持人类与AI代理之间的实时交互与协作。通过模拟和真实两种实验条件,支持开发者在受控环境中进行迭代开发,同时能在真实场景中部署和评估协作效果。Co-Gym支持异步交互,能处理代理、人类和任务环境之间的三方互动。

    Collaborative Gym

    Collaborative Gym的主要功能

    • 支持异步交互:Co-Gym突破传统多智能体框架中同步行动的限制,支持人类和AI代理在协作中灵活地发起行动,无需严格按顺序交互。更接近真实的人类协作模式。
    • 任务环境设计:Co-Gym将每个任务定义为部分可观测马尔可夫决策过程(POMDP),支持公共和私有观测空间。公共部分对所有参与者可见,私有部分仅对所有者可见,类似于人类团队中共享白板和个人笔记的区别。
    • 评估框架:Co-Gym关注任务完成的结果,重视协作过程本身。提供了综合评估框架,从协作质量和协作过程两个维度对代理进行评估。
    • 模拟与真实条件:Co-Gym支持模拟和真实两种实验条件。模拟条件使用预收集的任务实例和模拟人类行为,便于快速迭代开发;真实条件支持与真实人类在实际任务环境中协作,支持旅行规划、文献综述和表格分析等多种任务。

    Collaborative Gym的技术原理

    • 协作驱动的环境设计:Co-Gym借鉴了OpenAI Gym的设计思路,针对人机协作进行了优化。支持在观测空间中定义公共和私有部分:公共部分对所有参与者可见,私有部分仅对所有者可见。模拟了真实协作场景中共享信息和个人笔记的区别。
    • 异步交互:Co-Gym支持异步交互,支持人类和代理在必要时独立行动,无需等待对方响应。为此,Co-Gym引入了两种协作行为:发送消息(SendTeammateMessage)和等待对方继续(WaitTeammateContinue),采用通知协议实时通知参与者环境的变化。
    • 通知协议:Co-Gym通过Redis服务器实现通知协议,支持四种事件类型:共享观测更新、私有观测变化、新消息通知以及环境不活动超时通知。这支持代理实时监控环境变化,更好地与人类协作。
    • 任务环境接口(CoEnv):Co-Gym提供了灵活的任务环境接口,支持开发者轻松添加新的任务环境。开发者只需定义任务描述、动作空间和观测空间即可。Co-Gym支持多种任务环境,如旅行规划、文献综述和表格数据分析。

    Collaborative Gym的项目地址

    Collaborative Gym的应用场景

    • 旅行规划(Travel Planning):在旅行规划任务中,Co-Gym支持人类与AI代理协作制定详细的旅行行程。代理可以基于搜索和规划能力,人类可以提供偏好和专业知识,共同完成旅行计划。
    • 表格数据分析(Tabular Analysis):Co-Gym为代理和人类提供了共享工作空间和实时沟通能力,支持效的协作分析。
    • 文献综述(Related Work):在文献综述任务中,Co-Gym支持人类与AI代理协作完成学术文献的整理和分析。代理可以快速检索和筛选相关文献,人类可以提供领域专业知识,共同完成高质量的文献综述。
  • PIKE-RAG – 微软亚洲研究院推出的检索增强型生成框架

    PIKE-RAG是什么

    PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微软亚洲研究院推出的检索增强型生成框架,能解决传统RAG系统在复杂工业应用中的局限性。PIKE-RAG基于提取、理解和应用专业知识,构建连贯的推理逻辑,引导大型语言模型(LLM)生成准确的回答。PIKE-RAG引入知识原子化(Knowledge Atomizing),将知识分解为细粒度的原子单元,用问题形式存储,便于高效检索和组织。PIKE-RAG提出多智能体规划模块,用在处理创造性问题,从多个角度进行推理和规划。

    PIKE-RAG

    PIKE-RAG的主要功能

    • 专业知识提取与理解:从多样化的数据源中提取领域特定的知识,转化为结构化的知识单元,为复杂问题提供精准的知识支持。
    • 推理逻辑构建:基于动态任务分解和知识感知的推理路径规划,逐步构建连贯的推理逻辑,引导语言模型生成准确的答案。
    • 多跳问题处理:基于知识原子化和任务分解,将复杂问题分解为多个原子问题,逐步解决多跳推理任务。
    • 创造性问题解决:引入多智能体系统,从多个角度进行推理和规划,激发创新性解决方案。
    • 分阶段系统开发:根据任务复杂性,支持从基础的事实性问题到高级的创造性问题的分阶段开发,逐步提升系统能力。

    PIKE-RAG的技术原理

    • 知识原子化:将文档中的知识分解为细粒度的“原子知识”,用问题形式存储。原子知识作为检索的索引,更高效地匹配用户问题,提高知识检索的精度。
    • 知识感知任务分解:动态分解复杂问题为多个原子问题,根据知识库的内容选择最优的推理路径。基于迭代检索和选择,逐步收集相关信息并构建完整的推理逻辑。
    • 多智能体规划:在处理创造性问题时,引入多个智能体,每个智能体从不同角度进行推理和规划。基于多智能体的协同工作,生成更全面、更具创新性的解决方案。
    • 多粒度检索:在多层异构知识图谱中进行多粒度检索,从整体文档到细粒度的知识单元,逐步细化检索范围。结合多层知识图谱的结构,提升知识检索的效率和准确性。
    • 分阶段系统开发:根据任务复杂性,将RAG系统分为不同等级(L1-L4),逐步提升系统能力。每个等级针对特定类型的问题,从简单的事实性问题到复杂的创造性问题,逐步增强系统的推理和生成能力。

    PIKE-RAG的项目地址

    PIKE-RAG的应用场景

    • 法律领域:辅助法律专业人士解读法规、分析案例,提供精准的法律咨询和建议。
    • 医疗领域:帮助医生进行疾病诊断和治疗方案规划,提供基于专业知识的医疗建议。
    • 半导体设计:支持工程师理解复杂物理原理,优化半导体设计和研发流程。
    • 金融领域:用在风险评估和市场预测,为投资决策提供数据支持和分析报告。
    • 工业制造:优化生产流程和供应链管理,提升工业效率和质量控制。
  • NobodyWho – AI游戏引擎插件,本地运行 LLM 实现互动小说创作

    NobodyWho是什么

    NobodyWho是为 Godot 游戏引擎设计的插件,通过本地运行的大型语言模型(LLM)实现互动小说创作。支持 Windows、Linux 和 macOS 平台,用户无需联网即可使用高性能的 LLM 功能,如对话交互和文本生成。插件通过简单的节点系统(如 NobodyWhoModel 和 NobodyWhoChat)实现与模型的无缝对接,让创作者可以快速构建动态叙事内容。

    NobodyWho

    NobodyWho的主要功能

    • 本地运行:支持在本地运行 LLM,无需联网,避免了隐私问题。
    • 高性能推理:通过 GPU 加速(Linux/Windows 使用 Vulkan,MacOS 使用 Metal),确保快速的推理性能。
    • 多上下文支持:可以同时维护多个独立的“对话”或叙事线程,适用于不同角色或游戏状态。
    • 流式输出:生成文本时逐字输出,使游戏对话更具动态性和实时性。
    • 采样器功能:根据上下文动态调整生成参数(如温度、种子等),以控制对话风格。
    • 嵌入功能:通过 LLM 比较自然文本的语义内容,不仅是关键词或字面内容。
    • 工具调用:支持 LLM 与游戏内的功能或系统交互,例如访问库存、触发事件等。
    • 记忆功能:为 LLM 提供长期记忆,以便在叙事中引用过去的事件,确保故事连贯性。

    NobodyWho的技术原理

    • 本地运行与 GPU 加速:NobodyWho 支持用户在本地运行 LLM,无需联网即可实现快速推理。通过 Vulkan(Linux/Windows)或 Metal(macOS)技术实现 GPU 加速,确保高性能。
    • 节点系统集成:插件通过 Godot 的节点系统实现功能集成。用户需要在场景中添加 NobodyWhoModel 节点来加载 LLM 模型文件(如 GGUF 格式),通过 NobodyWhoChat 节点实现与模型的交互。

    NobodyWho的项目地址

    NobodyWho的应用场景

    • 互动故事创作:NobodyWho 可以让玩家与游戏中的角色进行实时对话,推动故事发展。例如,在一个科幻游戏中,玩家可以通过与空间站船员的对话来解开事故的真相。
    • 动态对话系统:通过本地运行的 LLM,开发者可以为游戏中的非玩家角色(NPC)创建自然、动态的对话系统。NPC 可以根据玩家的输入生成实时回应,游戏对话更加流畅和真实。
    • 多角色和多线叙事:NobodyWho 支持多上下文功能,支持开发者在同一游戏中维护多个独立的对话或叙事线程。
  • AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架

    AnyCharV是什么

    AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导:第一阶段用细粒度分割掩码和姿态信息进行自监督合成;第二阶段用自增强训练和粗粒度掩码优化角色细节保留。AnyCharV 在实验中展现出优越的性能,能自然地保留角色的外观细节,支持复杂的人-物交互和背景融合。AnyCharV能与文本到图像(T2I)和文本到视频(T2V)模型生成的内容结合,具有很强的泛化能力。

    AnyCharV

    AnyCharV的主要功能

    • 任意角色与目标场景的合成:将任意给定的角色图像与目标驱动视频结合,生成自然、高质量的视频。
    • 高保真角色细节保留:基于自增强训练和粗粒度掩码引导,保留角色的外观和细节,避免失真。
    • 复杂场景与人-物交互:支持角色在复杂背景下的自然交互,如运动、物体操作等。
    • 灵活的输入支持:结合文本到图像(T2I)和文本到视频(T2V)模型生成的内容,具有很强的泛化能力。

    AnyCharV的技术原理

    • 第一阶段:自监督合成与细粒度引导:用目标角色的分割掩码和姿态信息作为条件信号,将参考角色精确地合成到目标场景中。引入参考图像的 CLIP 特征和 ReferenceNet 提取的角色外观特征,保留角色的身份和外观。对分割掩码进行强增强,减少因形状差异导致的细节丢失。
    • 第二阶段:自增强训练与粗粒度引导基于生成的视频对进行自增强训练,用粗略的边界框掩码代替细分割掩码,减少对角色形状的约束。基于这种方式,模型能更好地保留参考角色的细节,在推理阶段生成更自然的视频。

    AnyCharV的项目地址

    AnyCharV的应用场景

    • 影视制作:将任意角色合成到目标场景,支持复杂交互,助力特效制作。
    • 艺术创作:结合文本生成内容,快速生成高质量角色视频,激发创意。
    • 虚拟现实:实时生成角色与虚拟场景的交互视频,增强沉浸感。
    • 广告营销:快速合成个性化广告视频,满足多样化需求。
    • 教育培训:生成特定角色和场景的视频,辅助教学和培训。
  • ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

    ENEL是什么

    ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,与文本标记拼接后输入到大型语言模型(LLM)中。模型通过两种关键策略实现高效语义编码和几何结构理解:一是LLM嵌入的语义编码策略,通过混合语义损失提取高级语义;二是分层几何聚合策略,使LLM能关注点云的局部细节。

    ENEL的7B模型在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。在Objaverse基准测试中,ENEL-7B的字幕生成任务GPT分数达到50.92%,分类任务达到55.0%,在3D MM-Vet数据集的VQA任务中达到42.7%,均与现有的13B模型(如ShapeLLM)相当。ENEL的无编码器架构在语义编码方面表现出色,能更好地捕捉点云与文本之间的语义相关性。

    ENEL

    ENEL的主要功能

    • 无编码器架构:ENEL去除了传统的3D编码器,直接将点云数据通过标记嵌入模块转换为离散点标记,与文本标记拼接后输入到LLM中。避免了编码器架构中常见的点云分辨率限制和语义嵌入不匹配问题。
    • 高级语义提取:ENEL通过LLM嵌入的语义编码策略,在预训练阶段引入混合语义损失(Hybrid Semantic Loss),能提取点云的高级语义特征,同时保留关键的几何结构。
    • 局部几何感知:在指令调优阶段,ENEL采用分层几何聚合策略,使LLM能主动感知点云的局部细节。通过聚合和传播操作,将局部几何信息融入LLM的早期层,实现对复杂3D结构的精细理解。
    • 多任务3D理解:ENEL在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。7B模型在Objaverse基准测试中达到了55.0%的分类准确率和50.92%的字幕生成GPT分数,性能与13B的ShapeLLM相当。
    • 高效语义对齐:ENEL通过无编码器架构实现了点云与文本模态之间的高效语义对齐,能更好地捕捉两者之间的语义相关性,为3D多模态任务提供了更强大的语义基础。

    ENEL的技术原理

    • LLM嵌入的语义编码(LLM-embedded Semantic Encoding):在预训练阶段,ENEL通过探索不同的点云自监督损失(如掩码建模损失、重建损失、对比损失和知识蒸馏损失),提出了一种混合语义损失(Hybrid Semantic Loss)。这种损失函数能将点云的高级语义信息嵌入到LLM中,替代传统3D编码器的功能。
    • 分层几何聚合(Hierarchical Geometry Aggregation):在指令调优阶段,ENEL引入了分层几何聚合策略。策略通过在LLM的早期层中对点云进行聚合和传播操作,将归纳偏置融入LLM,能关注点云的局部细节。具体而言,使用最远点采样(FPS)和k近邻(k-NN)算法对点云进行下采样和聚合,逐步整合点云的细粒度语义信息。

    ENEL的项目地址

    ENEL的应用场景

    • 3D对象分类:ENEL能对3D对象进行高效的分类,适用于工业自动化、机器人视觉和自动驾驶等领域,能快速识别和分类复杂的3D物体。
    • 3D对象字幕生成:可用于生成对3D模型的描述性文本,帮助用户快速理解3D场景中的关键信息,适用于虚拟现实(VR)、增强现实(AR)以及3D建模工具中。
    • 3D视觉问答(VQA):能回答与3D场景相关的问题,例如在医学影像分析、建筑设计和教育领域中,帮助用户快速获取3D数据中的关键信息。
    • 复杂3D几何结构理解:适用于需要精确理解复杂几何形状的场景,如航空航天、汽车制造和珠宝设计等领域,能帮助工程师和设计师更好地理解和优化3D模型。