Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集

    Chinese-LiPS是什么

    Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。

    Chinese-LiPS

    Chinese-LiPS的主要功能

    • 提升语音识别性能:数据集通过融合唇读信息和幻灯片语义信息,显著提升了语音识别系统的性能。实验结果显示,唇读信息可使字符错误率降低约8%,幻灯片信息可降低约25%,两者结合则可降低约35%。
    • 减少错误类型:唇读信息在减少删除错误方面发挥了重要作用,能捕捉到与发音相关的细节,有效补充语音识别中容易缺失的部分,如填充词、因犹豫而未完整表达的语音片段等。幻灯片信息则显著降低了替换错误,丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,为模型提供关键的识别线索。
    • 提供高质量多模态数据:作为一个高质量的多模态中文语音识别数据集,包含100小时的语音、视频和相应的手动转录,涵盖了唇读视频和演讲者的幻灯片,使音频视觉语音识别任务得到了更全面的探索。

    Chinese-LiPS的技术原理

    • 多模态数据融合:数据集将语音、唇读信息、通过OCR技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合。多模态信息的结合,为语音识别模型提供了更丰富的上下文和线索,显著提升了识别的准确性和鲁棒性。
    • 唇读信息的作用:唇读能捕捉到与发音相关的细节,如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分,借助唇读信息可有效补充,减少删除错误。
    • 幻灯片信息的作用:幻灯片中包含丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,能为模型提供关键的识别线索,大幅降低替换错误。

    Chinese-LiPS的项目地址

    Chinese-LiPS的应用场景

    • 虚拟教师:数据集能帮助制作互动式语言学习材料,使虚拟教师的讲解更生动。通过融合唇读信息和幻灯片语义信息,虚拟教师可以更自然地呈现教学内容,提高教学效果。
    • 智能辅导:在智能辅导系统中,基于多模态语音识别技术,能更准确地理解学生的问题和需求,提供更个性化的辅导方案。
    • 博物馆、展览馆讲解:在博物馆、展览馆等场所,虚拟讲解人可以用数据集提供的多模态信息,更生动、准确地介绍展品和展览内容,提升观众的参观体验。
    • 企业产品介绍:企业可以用数据集制作虚拟讲解人,用于产品介绍、培训等场景,提高信息传递的效率和准确性。
  • Muyan-TTS – 开源文本转语音模型,零样本语音合成

    Muyan-TTS是什么

    Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音。模型支持说话人适配,进行个性化语音定制。Muyan-TTS 合成速度快,0.33秒能生成1秒音频,适合实时应用。Muyan-TTS 能自然连贯地合成长篇内容,如播客、有声书等,支持本地部署和API使用,方便集成到各种应用中。

    Muyan-TTS

    Muyan-TTS的主要功能

    • 零样本语音合成:无需大量目标说话人数据,用少量参考语音和文本生成高质量语音。
    • 说话人适配:基于少量目标说话人语音数据微调,实现个性化语音定制。
    • 快速生成:0.33秒生成1秒音频,适合实时和批量生成长语音内容。
    • 长内容连贯合成:支持自然连贯地合成长篇内容,如播客、有声书等。
    • 离线部署友好:支持本地推理,确保数据隐私和低延迟。

    Muyan-TTS的技术原理

    • 框架设计:基于 GPT-SoVITS 框架,用预训练的 Llama-3.2-3B 作为语言模型(LLM),结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐,生成中间表示,SoVITS 模型将中间表示解码为音频波形。
    • 数据处理:数据集包含超过10万小时的播客音频数据,经过多阶段处理,包括数据收集、清洗和格式化,确保高质量和多样性。用自动语音识别(ASR)模型将音频转录为文本,将音频嵌入量化为离散 token,形成平行语料库。
    • 预训练与微调:LLM 在平行语料库上进行预训练,学习文本和音频 token 之间的关系。基于监督微调(SFT),用少量目标说话人的语音数据进一步优化模型,提高语音合成的自然度和相似度。
    • 解码器优化:基于 VITS 基础模型作为解码器,减少幻觉问题,提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调,进一步提升合成语音的保真度和表现力。
    • 推理加速:高效的内存管理和并行推理技术,提高推理速度,降低延迟。支持 API 模式,自动启用加速功能,适合实时应用。

    Muyan-TTS的项目地址

    Muyan-TTS的应用场景

    • 播客和有声书:生成长篇内容,自然连贯,节省录制时间。
    • 视频配音:快速合成英文脚本配音,适配不同角色。
    • AI 角色和语音助手:生成特色角色语音,提供自然交互体验。
    • 新闻播报:高效将文本转语音,适合智能设备播报。
    • 教育和游戏:生成教学语音和游戏旁白,提升学习和娱乐体验。
  • GitFriend – AI GitHub助手,自动生成定制化README文件

    GitFriend是什么

    GitFriend 是基于 React、TypeScript 和 AI 技术推出的 AI GitHub 辅助工具,能简化 GitHub 的使用流程,提升开发效率。GitFriend支持基于 AI 聊天功能为用户提供 Git 和 GitHub 的问题解答,自动生成定制化的 README 文件,帮助用户快速创建项目文档。工具用户友好的界面及动态交互体验,适合开发者、项目管理者及初学者使用。

    GitFriend

    GitFriend的主要功能

    • AI聊天支持:基于集成的AI聊天功能,用户能快速获取关于Git命令、GitHub操作、项目设置等问题的解答,帮助解决开发中遇到的难题。
    • 动态README生成:根据用户输入的项目信息(如项目名称、描述、技术栈等),自动生成专业且定制化的README文件,节省手动编写文档的时间。
    • Gitmoji支持:提供丰富的Gitmoji表情符号库,用户能选择合适的表情符号丰富提交信息。
    • Google账号登录:支持用Google账号进行安全登录,方便用户快速访问所有功能。

    GitFriend的技术原理

    • 前端开发
      • React框架:作为前端开发的主要框架,提供高效的组件化开发模式,让界面的交互和动态更新更加流畅。
      • TypeScript:编写前端代码,提供类型安全和更好的代码可维护性。
      • TailwindCSS:快速实现响应式和现代化的UI设计,提升用户体验。
    • 后端与集成
      • Next.js:作为React的服务器端渲染框架,Next.js增强了应用的性能和SEO优化能力。
      • Firebase:实现用户认证(如Google账号登录)和数据存储,提供强大的后端服务支持。
      • Octokit:与GitHub API交互的库,支持与GitHub进行数据同步和操作。
    • AI集成:Groq作为AI集成的核心技术,提供自然语言处理能力,理解用户的自然语言问题,提供准确的解答。

    GitFriend的项目地址

    GitFriend的应用场景

    • 开源项目:快速生成专业README,吸引更多贡献者。
    • 团队协作:统一提交信息格式,提升协作效率。
    • 新手入门:提供Git/GitHub指导,帮助快速上手。
    • 文档管理:简化文档创建和更新,确保一致性。
    • 个人开发:简化项目管理,专注代码开发。
  • Matrix-Game – 昆仑万维开源的工业界首个空间智能大模型

    Matrix-Game是什么

    Matrix-Game是昆仑万维开源的工业界首个10B+空间智能大模型,是Matrix-Zero世界模型中的可交互视频生成大模型。模型基于两阶段训练策略,根据用户输入生成连贯、可控的互动视频,具备细粒度用户交互控制、高保真视觉与物理一致性和多场景泛化能力等优势,能用在虚拟游戏世界搭建、影视与元宇宙内容生产等领域,为构建通用虚拟世界基座树立全新标杆。

    Matrix-Game

    Matrix-Game的主要功能

    • 可控视频生成:用户基于简单的键盘指令、鼠标移动等操作,自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。
    • 多场景泛化:具备对多种Minecraft游戏场景(如森林、沙滩、沙漠、冰川等)的泛化能力,有潜力泛化到非Minecraft游戏环境。
    • 自回归式长视频生成:支持自回归式的长视频生成,实现动作与视角之间的丝滑衔接,确保时间一致性与环境适应性。
    • 系统化评估:提出统一的GameWorld Score标准,从视频的视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能。

    Matrix-Game的技术原理

    • 两阶段训练策略:用大规模无标签的Minecraft游戏视频数据,基于预训练让模型学习环境的基本特征和动态规律。用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,让模型根据用户的输入生成相应的交互式视频。
    • 图像到世界建模:单张参考图像作为生成交互式视频的起点,不依赖语言提示,基于视觉信号建模空间几何、物体运动及其物理交互。
    • 自回归式视频生成:支持自回归方式扩展生成长度,每次用前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间上的连贯性。训练中引入随机扰动、随机删除及Classifier-free guidance策略,缓解时序漂移和误差累积。
    • 可控交互设计:键盘动作用离散token表达,视角移动动作用连续token表达,基于GameFactory的控制模块,融入多模态Diffusion Transformer架构,用Classifier-free guidance策略提升对控制信号的鲁棒响应能力。

    Matrix-Game的项目地址

    Matrix-Game的应用场景

    • 虚拟游戏开发:快速生成多样化游戏地图和动态交互环境,提升开发效率和玩家沉浸感。
    • 影视与元宇宙:生成高保真动态场景,支持沉浸式体验开发,助力创意内容快速生成。
    • 具身智能训练:提供多样化的虚拟环境,增强具身智能体的训练数据,提升其任务执行能力。
    • 教育与培训:创建虚拟教学和职业技能培训环境,帮助学生和学员更好地理解和实践。
    • 创意内容生成:为创意视频制作和虚拟场景设计提供丰富素材,支持快速实现创意想法。
  • Xianyu AutoAgent – AI闲鱼客服机器人,支持多专家协同决策

    Xianyu AutoAgent是什么

    Xianyu AutoAgent 是为闲鱼平台设计的智能客服机器人系统。支持实现7×24小时自动化值守,多专家协同决策、智能议价及上下文感知对话。基于上下文感知技术,管理轻量级对话记忆,将完整对话历史作为输入,实现更自然的交流体验。系统具备阶梯降价策略、网络搜索整合等功能,有效提升卖家的运营效率。Xianyu AutoAgent 适合有自动化客服需求的闲鱼卖家。

    Xianyu AutoAgent

    Xianyu AutoAgent的主要功能

    • 上下文感知:将完整对话历史作为上下文输入,实现轻量级对话记忆管理,确保对话连贯性。
    • 专家路由:基于LLM的意图识别,动态分发到不同的专家Agent(如议价专家、技术专家、客服专家),支持多场景切换。
    • 阶梯降价策略:根据预设规则自动调整商品价格,帮助卖家快速促成交易。
    • 网络搜索整合:结合实时网络搜索结果,为买家提供更全面的信息支持。

    Xianyu AutoAgent的技术原理

    • LLM(大语言模型):基于LLM的强大语言生成能力,实现自然语言对话。基于预训练模型,系统理解用户输入的意图,生成合适的回复。
    • 上下文管理:基于轻量级对话记忆管理,将完整的对话历史作为LLM的上下文输入。确保机器人在对话过程中保持连贯性和一致性,避免重复提问或回答。
    • 意图识别与专家路由:基于LLM的意图识别技术,系统分析用户输入的意图,动态分配到不同的专家Agent。例如,议价意图被分配到价格专家,技术问题被分配到技术专家,实现多场景的智能对话。

    Xianyu AutoAgent的项目地址

    Xianyu AutoAgent的应用场景

    • 24小时客服支持:为闲鱼卖家提供不间断的自动化客服服务,快速响应买家咨询。
    • 智能议价辅助:自动执行阶梯降价策略,帮助卖家高效完成价格谈判,促成交易。
    • 技术支持与解答:结合网络搜索和知识库,为买家提供商品相关的技术咨询和专业解答。
    • 多场景动态切换:根据买家问题类型,智能分配到客服、技术、议价等不同专家Agent,提供精准服务。
    • 数据监控与分析:记录对话日志,分析买家咨询热点,为卖家优化运营策略提供数据支持。
  • OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型

    OptoChat AI是什么

    OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备强大的数据分析与智能算法能力。模型显著提升光电芯片的研发效率与产业转化速度,将传统数周的设计验证周期压缩至分钟级。模型助力光子芯片产业从传统试错式研发向智能化转变,推动全球光子产业生态的协同创新与可持续发展。

    OptoChat AI

    OptoChat AI的主要功能

    • 设计优化:提供光子芯片设计建议,快速找到最优参数和结构。
    • 工艺验证:模拟不同工艺条件,预测问题、提供建议,缩短研发周期。
    • 文献检索:快速检索光子领域文献和专利,提供最新研究成果。
    • 系统集成:优化光子系统集成设计,确保部件协同工作。
    • 智能问答:回答光子领域专业问题,提供详细解释和推理过程。

    OptoChat AI的技术原理

    • 数据驱动:OptoChat AI基于大量的光子芯片相关数据进行训练,包括专利、文献、实验数据等。数据构成模型的知识库,理解和生成与光子领域相关的知识。
    • 深度学习:模型基于深度学习技术,特别是自然语言处理(NLP)和机器学习算法。基于机器学习算法,OptoChat AI能学习和理解光子领域的语言模式、知识结构和逻辑关系。
    • 知识图谱:OptoChat AI构建光子领域的知识图谱,将各种概念、实体和关系进行结构化表示。模型能更高效地进行推理和知识检索,提供更准确的答案和建议。
    • 智能算法:模型内置多种智能算法,用在优化设计、预测性能和解决复杂问题。算法结合光子物理的基本原理和实际工程经验,提供实用的解决方案。
    • 行业适配:OptoChat AI针对光子领域的特定需求进行优化,更好地理解和处理光子芯片设计、制造和应用中的复杂问题。

    OptoChat AI的项目地址

    OptoChat AI的应用场景

    • 科研与学术研究:快速检索文献、优化实验设计、验证理论模型。
    • 芯片设计与制造:优化设计参数、改进工艺流程、诊断制造问题。
    • 系统集成与应用开发:设计系统架构、支持应用开发、优化系统性能。
    • 教育与培训:辅助教学、生成培训材料、促进技术交流。
    • 产业与市场分析:分析市场趋势、评估技术潜力、支持投资决策。
  • PrimitiveAnything – 腾讯联合清华大学推出的新型3D形状生成框架

    PrimitiveAnything是什么

    PrimitiveAnything是腾讯人工智能平台部(AIPD)和清华大学联合开发的新型3D形状生成框架。将复杂的3D形状分解为简单的基元元素,通过自回归方式生成这些基元,最终重新组装成完整的3D形状。框架的核心优势在于其高质量的生成效果、强大的泛化能力和高效性。

    PrimitiveAnything

    PrimitiveAnything的主要功能

    • 高质量3D原语组装生成:能生成高质量的3D原语组装,这些组装在几何上忠实于原始模型,还符合人类对形状的直观理解。
    • 多样化3D内容创作:支持从文本或图像条件生成3D内容,为用户提供了灵活的创作方式。
    • 高效存储和编辑:由于使用了原语表示,生成的3D模型在存储上更加高效,同时易于编辑和调整。
    • 自回归变换器架构:通过自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的原语类型。
    • 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。
    • 几何保真度与语义一致性:在生成过程中,PrimitiveAnything保持了高几何保真度,能生成符合人类认知的语义分解结果。
    • 模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需修改架构,能适应不同的原语表示。

    PrimitiveAnything的技术原理

    • 无歧义的参数化方案
      • 统一表示:使用多种类型的基元(如立方体、椭圆柱体和椭球体)在统一的参数化方案下共同表示3D形状,每种基元的类型、位置、旋转和缩放等属性都被编码并输入到模型中。
      • 消除歧义:为了解决参数化中固有的歧义性(例如,不同的参数组合可能产生相同的形状),研究团队开发了一套全面的规则,通过分析基元的对称性,选择旋转参数L1范数最小的一组作为唯一表示,确保了训练过程的稳定性和准确性。
    • 自回归变换器架构
      • 形状条件化:框架采用基于解码器的Transformer架构,能根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示,然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。
      • 级联解码器:为了建模基元属性之间的依赖关系,框架使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性。捕捉了基元属性之间的自然相关性,例如基元类型会影响其可能的位置、旋转和缩放参数,与人类组装逻辑相符。
    • 自回归生成流程
      • 序列生成:将整个基元抽象过程重新构思为一个序列生成任务,模型以点云作为输入条件,然后自回归地生成基元序列,直到预测出结束标记为止。
      • 训练目标:在训练过程中,结合了交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel-Softmax(用于可微采样),直到生成序列结束标记。能灵活且类人地分解复杂的3D形状。

    PrimitiveAnything的项目地址

    PrimitiveAnything的应用场景

    • 3D建模与设计:PrimitiveAnything能快速生成复杂的3D模型的“几何骨架”,设计师可以在此基础上专注于细节精修,提升了工作效率和设计速度。
    • 游戏资产生成:游戏设计师可以用PrimitiveAnything快速生成各种游戏场景和角色模型,提高开发效率。玩家也能通过简单的几何积木拼接方式创造新的角色或道具,由AI自动进行优化调整,无缝集成到物理引擎中。
    • 用户生成内容(UGC):框架支持从文本或图像输入生成3D内容,用户可以轻松编辑生成结果,为游戏中的UGC提供了新的可能性。
    • 虚拟现实(VR)和增强现实(AR):在虚拟现实和增强现实环境中,PrimitiveAnything可以快速生成逼真的3D对象,增强用户体验。
  • Audio-SDS – NVIDIA推出的扩展文本条件音频扩散模型

    Audio-SDS是什么

    Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需重新训练模型,可将任意预训练音频扩散模型转化为多功能工具,广泛应用于音效生成、音源分离、FM合成及语音增强等任务。Audio-SDS通过文本提示引导音频生成,支持高度定制化,满足创意和工业需求。

    Audio-SDS

    Audio-SDS的主要功能

    • 音效生成:可以根据文本提示生成各种环境音效或创意音效,如爆炸声、风声等,助力游戏开发和虚拟现实(VR)应用。
    • 音源分离:从混合音频中精准提取目标音轨,适用于音乐制作和视频后期处理。例如,可以对真实世界的音频进行全自动的源分离,无需手动标记源或专门的数据集。
    • 物理信息影响声音模拟:能指导物理信息影响声音模拟,比如模拟物体碰撞的声音。
    • FM合成参数校准:支持高质量的频率调制合成,用于富有表现力的音色设计。
    • 语音增强:提升语音清晰度,适用于音频编辑软件和智能语音助手。

    Audio-SDS的技术原理

    • 预训练音频扩散模型:Audio-SDS基于预训练的音频扩散模型作为基础。这个模型能生成高质量的音频样本,包含了丰富的音频先验知识。
    • 文本条件引导:通过文本提示来引导音频的生成过程。文本提示被编码为条件向量,用于指导音频扩散模型生成符合描述的音频。
    • 分数蒸馏采样(SDS):在音频生成过程中,SDS通过计算生成音频与目标音频之间的差异,优化模型参数,使生成音频更接近目标音频。具体来说,SDS通过以下步骤实现:
      • 噪声添加:在音频样本上添加随机噪声,生成噪声音频。
      • 损失计算:计算噪声音频与真实音频之间的差异,并通过梯度下降法优化参数,使预测噪声与真实噪声之间的差异最小化。
      • 优化目标:SDS的损失函数基于扩散模型的概率密度分布,通过最小化噪声分布与真实分布之间的KL散度来优化参数。
    • 多功能扩展:Audio-SDS无需重新训练模型,可将预训练的音频扩散模型转化为多功能工具,适用于音效生成、音源分离、FM合成及语音增强等多种任务。
    • 高效推理:优化后的SDS算法在保持高质量输出的同时,降低了计算复杂度,提升了实时应用的可行性。

    Audio-SDS的项目地址

    Audio-SDS的应用场景

    • 音效生成:Audio-SDS能根据文本提示生成各种逼真的环境音效或创意音效,如爆炸声、风声、雨声等,为电影、游戏和虚拟现实(VR)应用提供沉浸式的音效设计,提升用户体验。
    • 音源分离:在音乐制作和视频后期处理中,Audio-SDS可以从混合音频中精准提取目标音轨,例如将人声与伴奏分离,方便音乐制作人进行混音或创作新的音乐作品。
    • 音频编辑:为音乐制作人和内容创作者提供高效工具,降低专业音频处理的门槛。创作者可以通过简单的文本描述生成高质量音频内容,无需复杂的音频编辑技能。
    • 音乐教育:提取清唱音轨可以用于制作卡拉OK伴奏,也有助于音乐教育中的扒谱和学习。
    • 智能家居:自动识别家庭环境中的各种声音,如婴儿哭声、水龙头漏水等,提升生活智能化水平。
  • FastVLM – 苹果推出的高效视觉语言模型

    FastVLM是什么

    FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基准测试中表现出色,且模型尺寸更小,训练数据需求更少,展现在多模态理解任务中的高效性和实用性。

    FastVLM

    FastVLM的主要功能

    • 高效编码高分辨率图像:支持快速将高分辨率图像转化为视觉token,减少编码时间和token数量。
    • 低延迟响应:在LLaVA-1.5设置中,FastVLM的首次token生成时间(TTFT)显著缩短,响应速度快,适合实时交互场景,如移动端图文问答助手,能够快速给出答案。
    • 模型尺寸优化:视觉编码器尺寸大幅缩小,比同类模型小3.4倍,便于在移动设备和边缘智能设备上部署,降低了硬件要求,提高了模型的可移植性。
    • 提升VLM性能:在大幅缩短时间,首次token(TTFT),保持与现有先进模型相当的性能。
    • 简化模型设计:无需额外的token修剪步骤,简化视觉编码器的设计。

    FastVLM的技术原理

    • 混合视觉编码器FastViTHD:FastViTHD是FastVLM的核心组件。与传统的纯卷积编码器或纯Transformer编码器(如ViT)相比,结合卷积层和Transformer块的优点。卷积层能有效地处理高分辨率图像,基于下采样操作减少token数量。Transformer块能进一步提取高质量的视觉特征,为LLM提供更准确的视觉信息。FastViTHD架构包含多个阶段,每个阶段都有特定的深度和嵌入维度。例如,其深度设置为[2,12,24,4,2],嵌入维度为[96,192,384,768,1536]。
    • 优化的架构设计:FastVLM在架构设计上进行优化,实现高分辨率图像处理的高效性。与简单地扩展FastViT架构不同,FastVLM引入一个额外的阶段,额外阶段在自注意力层之前进行下采样。自注意力层只需要处理已经被下采样过的张量,减少计算量。例如,在典型的混合模型中,自注意力层处理的张量在每个方向上被下采样16倍,在FastVLM中,最宽的MLP层处理的输入张量在每个方向上被下采样64倍,显著降低视觉编码延迟。
    • 与LLM的协同工作:FastVLM将视觉编码器与LLM基于投影层(也称为连接器模块)连接起来。视觉编码器输出的视觉token基于连接器模块被转换为适合LLM处理的格式。LLM用视觉token和文本输入进行融合理解,生成相应的输出。协同工作方式让视觉信息能有效地融入语言生成过程中,实现视觉语言模型的功能。

    FastVLM的项目地址

    • GitHub仓库:https://github.com/apple/ml-fastvlm
    • HuggingFace模型库:https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e
    • arXiv技术论文:https://www.arxiv.org/pdf/2412.13303

    FastVLM的应用场景

    • 视觉问答:快速理解图像并回答相关问题。
    • 图文匹配:判断图像与文本描述是否一致。
    • 文档理解:解析图像中的文字内容并理解其含义。
    • 图像描述生成:为图像自动生成描述性文本。
    • 多模态推荐:结合图像和文本信息进行精准推荐。
  • Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型

    Seed1.5-Embedding是什么

    Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。 模型采用 Siamese 双塔结构,依托 Seed1.5 预训练 LLM,通过两阶段训练强化通用表征能力。第一阶段使用无监督数据进行预微调,通过对比学习改造生成模型为编码模型;第二阶段使用有监督数据和合成数据进行微调,混合多种任务数据进行多任务优化。通过迭代式难负例挖掘、伪负例过滤和合成数据等策略优化数据构成和质量,提升模型在检索任务中的表现。 Seed1.5-Embedding 支持多种向量维度,包括 2048、1024、512 和 256。

    Seed1.5-Embedding

    Seed1.5-Embedding的主要功能

    • 文本语义编码:将输入文本的语义编码到高维空间的表征向量中,使相关文本之间的向量相似度更高。这种编码方式可以支撑检索、分类、聚类等下游任务,广泛应用于搜索、推荐和内容理解等场景。
    • 检索任务:通过向量相似度计算,快速从海量文档中定位与用户查询最相关的信息。模型在推理密集型检索任务上表现出色,能理解复杂的查询和文档匹配关系。
    • 多任务优化:支持多种任务,包括分类、聚类、成对分类、重排、检索和语义文本相似性(STS)任务,适用于多种应用场景。
    • 灵活的向量维度支持:支持多种向量维度(2048、1024、512、256),用户可以根据具体需求选择合适的维度,即使在较低维度下,模型性能下降也很小,提供了灵活的存储和运行效率选择。
    • 推理能力优化:通过构造推理密集型检索数据,优化模型在复杂查询和文档匹配中的推理能力,能处理更复杂的语义关系和逻辑推理任务。

    Seed1.5-Embedding的技术原理

    • 模型架构:Seed1.5-Embedding 采用 Siamese 双塔向量模型结构,查询与文档的向量通过 cosine 相似度计算匹配得分。模型依托 Seed1.5 预训练 LLM,将单向注意力改为双向,构建出一个小规模的 MoE(Mixture of Experts)模型,查询侧和文档侧模型参数共享,保证了较高的运行效率。
    • 两阶段训练流程
      • 第一阶段:使用无监督数据进行预微调,通过对比学习将单向 Attention 的生成模型改造为双向 Attention 的编码模型,充分建模各种文本匹配模式。
      • 第二阶段:使用有监督数据和合成数据进行微调,混合多种任务数据进行多任务优化,让模型学习各个任务的最佳表征模式。
    • 数据工程策略
      • 负例挖掘:设计迭代式难负例挖掘策略,根据模型自身偏好挖掘难负例,提升模型的细粒度相关性区分能力。
      • 伪负例过滤:自动过滤与正例过于相似的文本,避免伪负例影响学习。
      • 合成数据:构造通用场景和推理密集场景的数据,提升模型在复杂检索任务中的表现。

    Seed1.5-Embedding的项目地址

    Seed1.5-Embedding的应用场景

    • 信息检索与语义搜索:Seed1.5-Embedding 可将文档或网页向量化,支持语义级别的搜索,显著提高召回率和精准度。例如,在问答系统(QA)、企业内部文档检索、客户服务等场景中,模型能更准确地理解用户查询意图,快速定位相关文档。
    • 文本聚类与话题识别:利用文本向量,Seed1.5-Embedding 可对海量文档进行聚类,自动识别出不同主题和分类信息。
    • 推荐系统:在推荐系统中,模型可将用户评论、产品描述等文本信息向量化,通过计算相似度,实现相似商品、相似用户的检索。
    • 文本分类与情感分析:Seed1.5-Embedding 可将文本生成向量,再输入下游分类模型,提升文本分类、情感分析、立场分析等任务的性能。相比传统 TF-IDF 特征,生成的向量能更准确地表达文本含义和上下文关系。
    • 复杂查询理解与推理:模型在推理密集型检索任务上表现出色,能深入理解复杂查询和文档之间的深层匹配关系。例如,在生物学、地球科学、编程等领域的复杂搜索任务中,Seed1.5-Embedding 能提供更准确的检索结果。