Category: AI项目和框架

  • AnchorCrafter – 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

    AnchorCrafter是什么

    AnchorCrafter是基于扩散模型的智能视频制作系统,用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互(HOI)到姿态引导的人体视频生成中,实现对物体外观和运动控制的高度还原,及对复杂人物-物体交互的管理。系统采用HOI-appearance perception和HOI-motion injection技术,及HOI-region reweighting loss训练目标,增强物体细节的学习,确保视频生成过程中人物外观和动作的一致性。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。

    AnchorCrafter

    AnchorCrafter的主要功能

    • 高质量视频生成:自动创建高保真度的主播风格产品推广视频。
    • 人-物交互(HOI)集成:将人物与物体的交互自然地融入视频中,提升视频的真实感和互动性。
    • 外观保持:在视频中保持物体的外观细节,确保从多视角观察时物体的外观准确无误。
    • 运动控制:精确控制物体的运动轨迹,与人物动作协调一致。
    • 互遮挡管理:处理人物与物体交互时的遮挡问题,保持视频的连贯性和自然性。
    • 细节增强学习:基于HOI-region reweighting loss在训练过程中增强对物体细节的学习。

    AnchorCrafter的技术原理

    • 视频扩散模型:基于扩散模型架构,用扩散UNet和变分自编码器(VAE)处理视频帧,将视频序列编码到潜在空间,从噪声中重建高质量的视频帧。
    • HOI-外观感知(HOI-appearance perception)
      • 多视角特征融合:用多视角物体参考图像来提取物体的外观特征,增强模型对物体形状和纹理的识别能力。
      • 人-物双适配器:基于替换UNet中的交叉注意力层,实现人物和物体特征的更好分离,避免外观纠缠。
    • HOI-运动注入(HOI-motion injection)
      • 物体轨迹控制:用深度图作为输入,基于轻量级卷积网络处理深度信息,控制视频中物体的运动轨迹。
      • 互遮挡处理:结合3D手部网格输入,处理人物手部与物体交互时的遮挡问题,确保交互的自然性和准确性。
    • HOI区域重加权损失(HOI-region reweighting loss):在训练过程中,增加手部-物体交互区域的权重,让模型更加关注这些区域,提高物体细节的学习和生成质量。

    AnchorCrafter的项目地址

    AnchorCrafter的应用场景

    • 在线购物平台:自动生成产品介绍视频,提升商品页面的吸引力和用户购买意愿。
    • 社交媒体营销:为品牌和个人创作者提供工具,制作吸引人的产品推广内容,增加粉丝互动和品牌曝光。
    • 电视广告制作:快速制作高质量的电视广告,减少传统拍摄成本和时间。
    • 虚拟直播带货:在直播中使用虚拟主播展示和推广产品,提高直播效率和观众体验。
    • 教育培训:制作教学视频,模拟实际操作过程,如烹饪、手工制作等,增强学习效果。
  • Co-op Translator – 微软推出面向开发者的开源多语言翻译工具

    Co-op Translator是什么

    Co-op Translator是微软推出的开源多语言翻译工具,基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令,Co-op Translator能分析项目内容,生成组织良好的多语言翻译文件夹结构,自动调整链接,保持Markdown文件的完整性。工具能简化技术文档的本地化流程,降低语言障碍,促进全球开发者间的协作,提升项目的国际化能力。

    Co-op Translator

    Co-op Translator的主要功能

    • 自动化翻译:能将Markdown文件和图像中的文本自动翻译成多种语言。
    • Markdown保持:在翻译过程中保持Markdown文件的格式和结构不变。
    • 图像文本翻译:从图像中提取文本并进行翻译,让图像内容多语言化。
    • 高级LLM技术:用先进的大型语言模型(LLM)技术,确保翻译的高质量。
    • 易于集成:无缝集成到现有的项目设置中,简化本地化流程。
    • 简化本地化:为国际市场简化项目的本地化流程,使技术文档更易于访问。

    Co-op Translator的技术原理

    • Azure AI Services
      • Azure OpenAI:用于处理和翻译Markdown文件中的文本。
      • Azure Computer Vision:用在从图像中提取文本,然后文本再由Azure OpenAI进行翻译。
    • 大型语言模型(LLM)技术:基于先进的LLM技术,Co-op Translator能提供高质量的文本翻译,保持语义的准确性和上下文的连贯性。
    • 链接和路径调整:在翻译过程中,Co-op Translator自动调整Markdown文件中的相对路径和链接,确保指向正确的翻译版本或原始目标。

    Co-op Translator的项目地址

    Co-op Translator的应用场景

    • 开源项目文档:将开源项目的README文件、技术文档和用户指南翻译成多种语言,吸引和支持全球开发者。
    • 软件开发:为软件开发过程中的API文档、代码注释和用户界面提供多语言支持,适应不同语言的用户。
    • 技术博客和教程:将技术博客文章和在线教程翻译成多种语言,扩大受众群体。
    • 教育材料:将教育材料和课程内容翻译成不同语言,服务于全球学生和教育工作者。
    • 企业内部文档:将企业政策、操作手册和内部培训材料翻译成多种语言,支持跨国公司的全球员工。
  • Make-It-Animatable – 中科大联合腾讯推出的自动生成即时动画准备资产

    Make-It-Animatable是什么

    Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。框架基于生成高质量的混合权重、骨骼和姿势变换,支持多种3D表示,包括网格和3D高斯斑点。基于从粗到细的表示和结构感知建模策略,确保准确性和鲁棒性,甚至适于具有非标准骨架结构的角色。与现有方法相比,Make-It-Animatable在质量和速度上都有显著提升。

    Make-It-Animatable

    Make-It-Animatable的主要功能

    • 即时动画准备:快速将任何3D人形模型转变为可用于动画的状态,无论其形状和姿势。
    • 自动生成动画资产:自动生成高质量的骨骼、混合权重和姿势变换,为动画制作提供必要的数据。
    • 支持多种3D数据格式:支持包括3D网格和3D高斯斑点在内的多种3D数据表示。
    • 精细到粗糙的多级表示:采用从精细到粗糙的多级表示方法,提高模型关键区域的细节捕捉能力。
    • 结构感知建模:识别并适应非标准骨架结构,提高模型的适应性和准确性。

    Make-It-Animatable的技术原理

    • 基于粒子的形状自编码器:基于粒子的自编码器技术编码和解码3D形状,能支持多种3D表示。
    • 从粗到细的表示策略:先进行粗略的形状和关节位置预测,然后细化预测提高精确度。
    • 结构感知的骨骼建模:基于考虑骨骼的拓扑结构,提高骨骼预测的准确性,尤其是在复杂的骨骼结构中。
    • 混合权重和骨骼位置预测:用深度学习技术预测每个顶点的混合权重和骨骼位置,实现精确的蒙皮。
    • 姿势变换的预测:预测模型从当前姿势到标准休息姿势的变换,以便应用各种动画。

    Make-It-Animatable的项目地址

    Make-It-Animatable的应用场景

    • 视频游戏开发:快速生成游戏角色的动画,减少手动调整骨骼和蒙皮的工作量,提高游戏开发的效率。
    • 电影和电视制作:用在电影和电视剧中的CG角色动画制作,提高动画的逼真度和制作速度。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,快速生成逼真的3D角色,提升用户体验。
    • 动画电影和系列:动画制作公司快速制作出高质量的动画序列,节省时间和成本。
    • 模拟和训练软件:用在军事或医疗模拟软件,快速生成逼真的角色动作,用于模拟训练。
  • CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

    CAT4D是什么

    CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指定的相机姿态和时间点合成新视图,并将单目视频转换为多视图视频,实现稳健的4D重建。CAT4D能从真实视频中生成4D场景,从生成的视频中创建4D内容,为电影制作、游戏开发、虚拟现实等领域带来创新应用的可能。

    CAT4D

    CAT4D的主要功能

    • 4D场景创建:从单目视频(无论是真实拍摄还是计算机生成)创建出4D(动态3D)场景。
    • 多视图视频生成:给定一个单目视频输入,生成在新视点的多视图视频。
    • 动态3D场景重建:用生成的多视图视频,重建出动态变化的3D场景,这些场景能表示为随时间变形的3D高斯模型。
    • 分离相机和时间控制:CAT4D的核心是一个多视图视频扩散模型,能分离相机视点控制和场景动态控制,支持用户独立操作相机视角和场景中的时间变化。
    • 实时渲染:基于交互式查看器,支持用户在浏览器中实时渲染4D场景,提供一种直观的体验方式。

    CAT4D的技术原理

    • 多视图视频扩散模型:基于多视图视频扩散模型,模型接受一组输入视图(包括图像、相机参数和时间信息),并生成在指定视点和时间的目标帧。
    • 数据集训练:由于动态场景的多视图训练数据稀缺,CAT4D的训练涉及真实和合成数据源的混合,包括静态场景的多视图图像、固定视点视频、合成4D数据等。
    • 新视角合成:模型根据输入的单目视频,在新的时间点和视点合成场景的外观,实现从单目输入到多视图输出的转换。
    • 优化可变形3D高斯表示:生成的多视图视频用在基于优化一个可变形的3D高斯表示重建动态3D模型,这种表示方法能捕捉场景的动态变化。
    • 分离控制:CAT4D能独立控制相机运动和场景动态,使从给定的输入图像生成不同时间和视点的输出序列成为可能。
    • 交替采样策略:为生成足够一致的多视图视频进行准确的4D重建,CAT4D基于一种交替采样策略,该策略在多视图采样和时间采样之间交替进行,确保视频在时间和视点上的一致性。

    CAT4D的项目地址

    CAT4D的应用场景

    • 电影和视频制作:在电影和视频制作中,基于从现有的2D视频创建3D场景,增加视觉特效,或生成新的视角和场景动态。
    • 游戏开发:在游戏开发中,生成更加真实和动态的游戏环境,提供更加丰富的玩家体验。
    • 虚拟现实(VR)和增强现实(AR):创建逼真的3D环境和对象,用在虚拟现实和增强现实应用,提升用户的沉浸感。
    • 3D建模和设计:设计师从现有的视频资料中提取和重建3D模型,加速产品设计和原型制作。
    • 教育和培训:在教育领域,创建历史事件或科学现象的动态3D重现,提供更加直观的学习体验。
  • MultiFoley – Adobe 联合密歇根大学推出的音效生成系统

    MultiFoley是什么

    MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音频或部分视频来定制和生成与视频同步的声音,增强视频观看体验。MultiFoley联合训练互联网视频数据集和专业声音效果录音,实现高质量、全带宽(48kHz)的音频生成。MultiFoley能为视频制作提供灵活的声音设计控制,帮助用户创作出既干净又富有创意的音效。

    MultiFoley

    MultiFoley的主要功能

    • 文本控制的Foley生成:用文本提示引导和生成与视频同步的声音效果,是现实声音或创意声音。
    • 音频控制的Foley生成:支持用户从声音效果库中选择参考音频,将声音应用到无声视频中,并与视频同步。
    • Foley音频扩展:将部分音频轨道扩展,产生完整的Foley声音。
    • 质量控制:基于在文本中加入质量标签,生成高质量的全频带(48kHz)音频。
    • 多模态控制:结合文本、音频和视频的条件信号,提供细致的声音设计控制。

    MultiFoley的技术原理

    • 联合训练:在互联网视频数据集(低质量音频)和专业声音效果(SFX)录音上进行训练,生成高质量的全频带音频。
    • 扩散变换器(Diffusion Transformer):基于扩散模型从随机噪声生成新样本,用在视频引导的Foley声音生成,并结合多模态控制。
    • 高质量音频自编码器(DAC-VAE):基于变分自编码器(VAE),将48kHz的音频波形编码成40Hz的潜在特征,用在音频-视频同步。
    • 冻结视频编码器:用在音频-视频同步,将视频编码成特征并与音频潜在编码一起使用。
    • 多条件训练策略:让模型灵活地支持下游任务,如音频扩展和文本驱动的声音设计。
    • 多头注意力机制:增强模型的表达能力,并行学习不同类型的特征或依赖关系。

    MultiFoley的项目地址

    MultiFoley的应用场景

    • 电影和视频制作:在电影制作中,生成与画面动作同步的声音效果,如脚步声、关门声等,增强观众的沉浸感。
    • 游戏开发:在游戏中,为不同的游戏环境和动作生成逼真的声音,提升游戏体验。
    • 动画制作:对于动画,根据动画角色的动作生成相应的声音,让动画更加生动。
    • 广告制作:在广告行业中,根据广告创意生成吸引眼球的声音效果,增加广告的吸引力。
    • 虚拟现实(VR):在VR体验中,生成与虚拟环境同步的声音,提高用户的沉浸感和体验质量。
  • NSFW Detector – 开源 AI 不适宜内容检测工具,支持识别图像、PDF、视频文件

    NSFW Detector是什么

    NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-base-patch16-224-in21k模型,支持仅CPU推理,无需GPU,可在多数服务器上运行。NSFW Detector基于API提供服务,易于集成到其他应用,支持Docker部署,适合分布式部署。NSFW Detector自动用多CPU加速推理,完全本地运行保护数据安全,支持多种文件类型检测。

    NSFW Detector

    NSFW Detector的主要功能

    • 内容检测:检测图像、PDF文件、视频和压缩包中的文件是否包含不适宜工作场合(NSFW)的内容。
    • CPU推理:支持用CPU进行推理,无需GPU支持,降低硬件要求。
    • 多CPU加速:自动用多个CPU核心加速推理过程,提高处理速度。
    • 简单分类:将内容分为“nsfw”和“normal”两个类别,简化分类流程。
    • API服务:提供API接口,方便与其他应用程序集成,实现自动化的内容检测。

    NSFW Detector的技术原理

    • 深度学习模型:用Google的vit-base-patch16-224-in21k模型,一个基于Vision Transformer(ViT)的深度学习模型,专门用于图像识别和分类任务。
    • 特征提取:模型基于训练学习从输入的图像、视频或文档中提取特征。
    • 分类器:提取的特征被送入分类器,分类器根据训练数据判断内容是否属于NSFW类别。

    NSFW Detector的项目地址

    NSFW Detector的应用场景

    • 社交媒体平台:自动检测和过滤用户上传的不适宜内容,保护社区环境,遵守法律法规。
    • 内容共享网站:在用户上传图片、视频或文档时进行自动检测,防止不适宜内容的传播。
    • 企业内部网络:在企业内部网络中部署,防止员工访问或分享不适宜内容,维护专业工作环境。
    • 在线广告和营销:确保广告内容的合规性,避免因不适宜内容而损害品牌形象。
    • 在线教育平台:保护学习环境,防止学生接触到不适宜的学习材料。
  • Magic Copy – 开源的AI抠图工具,在浏览器中自动识别图像进行抠图

    Magic Copy是什么

    Magic Copy是开源的AI抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,将对象复制到用户的剪贴板中。Magic Copy简化了从图片中提取特定元素的过程,无需手动编辑图片,提高工作效率。用户只需选择图片,Magic Copy智能分析分离出所需对象,方便用户直接粘贴使用。

    Magic Copy

    Magic Copy的主要功能

    • 图像对象提取:识别并提取图像中的前景对象,快速获取图像中的特定元素。
    • 复制到剪贴板:提取的对象能直接复制到剪贴板,方便用户在其他应用中粘贴使用。
    • 智能识别:基于先进的图像识别技术,智能区分前景和背景,提高提取的准确性。
    • 简化操作流程:用户无需进行复杂的图像编辑操作,即可快速获取所需图像内容。

    Magic Copy的技术原理

    • 深度学习模型:用深度学习模型,特别是Meta开发的Segment Anything Model(SAM),一个先进的图像分割模型,能识别和分割图像中的不同对象。
    • 图像分割:模型基于训练学习如何将图像分割成多个区域,每个区域代表一个不同的对象或背景部分。这种分割是在像素级别上进行的,确保精确识别前景和背景。
    • 特征提取:深度学习模型分析图像中的特征,如颜色、纹理、形状和边缘,识别前景对象。帮助模型区分前景和背景,及不同的前景对象。
    • 用户交互:用户用简单的用户界面与模型交互,例如点击或框选图像中的特定区域,指示模型关注和提取的特定对象。

    如何使用Magic Copy

    • 安装插件
      • 谷歌应用商店安装:在Chrome浏览器中访问Chrome网上应用店,搜索“Magic Copy”,找到插件后点击“添加至Chrome”进行安装。
      • 手动下载插件:访问Magic Copy GitHub仓库,下载最新版本的magic-copy.zip文件。在Chrome浏览器中,进入chrome://extensions/,开启开发者模式,加载解压后的插件文件。
    • 激活插件:安装完成后,确保插件已启用。在浏览器的工具栏中找到Magic Copy的图标。
    • 选择图片:在浏览器中找到想要抠图的图片。
    • 使用插件抠图
      • 右键点击图片,选择“Magic Copy”选项。插件会开始分析图片。
      • 分析完成后,图片上出现可以点击的区域。点击想要抠图的部分,选中区域会显示淡绿色。
    • 预览和编辑:点击“preview”按钮预览抠图效果。如果有些部分没有选中,点击“Edit”按钮进行补选;如果选多了,用“Undo”按钮取消。
    • 复制或下载
      • 抠图完成后,选择“Copy”按钮将选中部分复制到剪贴板,然后粘贴到其他应用中使用。
      • 或者,点击“Download”按钮将抠图结果以png格式下载到电脑。
    • 关闭插件(如果需要):使用完毕后,点击浏览器工具栏中的Magic Copy图标关闭插件,或者简单地切换到其他标签页。

    Magic Copy的项目地址

    Magic Copy的应用场景

    • 设计师和创意工作:设计师从现有的设计作品中提取特定的图形元素,如图标或图案,然后直接复制到设计软件中,节省重新绘制的时间。
    • 教育和研究:研究人员从科学文章或报告中的图像中提取数据图表,直接复制到文档中,支持研究论文或报告的撰写。
    • 电子商务和产品管理:电商平台的产品经理提取产品图片中的关键信息,如品牌标识或产品细节,用于产品描述或比较分析。
    • 内容创作者:博客作者或社交媒体内容创作者提取网络上的图片内容,用在文章配图或社交媒体帖子,提高内容的吸引力和专业性。
    • 日常办公:办公室工作人员从扫描的文档或PDF文件中提取图像内容,如表格或图表,直接复制到电子表格或演示文稿中,提高工作效率。
  • Agent-E – 基于AutoGen代理框架构建的AI浏览器自动化系统

    Agent-E是什么

    Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,能执行填写表单、搜索排序电商产品、定位网页内容、管理网络媒体播放、进行深度网络搜索、自动化项目管理任务及提供个人购物协助等多种复杂任务。Agent-E能提高在线效率,减少重复劳动,让用户更专注于重要事务。

    Agent-E

    Agent-E的主要功能

    • 表单填写:自动填写网络表单,包括个人信息输入。
    • 电商搜索与排序:在电商网站如亚马逊上根据销量或价格等标准搜索和排序产品。
    • 内容定位:在网站上查找特定内容,如体育比分或大学联系信息。
    • 媒体交互:与基于网络的媒体互动,包括播放YouTube视频和管理播放设置。
    • 网络搜索:执行全面的网络搜索,收集各种主题的信息。
    • 项目管理自动化:在项目管理平台如JIRA上过滤问题和自动化工作流程。

    Agent-E的技术原理

    • 基于代理的架构:基于AutoGen代理框架,用代理(如用户代理和浏览器导航代理)执行任务。
    • 技能库:核心功能围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。
    • 自然语言交互:支持许用户用自然语言与浏览器互动,让任务执行更加直观。
    • DOM蒸馏:基于DOM蒸馏技术,Agent-E将HTML DOM简化为相关的JSON快照,专注于用户任务相关的元素。
    • 变化观察:执行动作后,Agent-E监测状态变化,用语言反馈形式提供给LLM,指导更准确的性能。
    • 层次化规划:采用层次化规划,将复杂任务分解为子任务,由不同级别的代理处理。

    Agent-E的项目地址

    Agent-E的应用场景

    • 在线购物:自动搜索商品、排序结果,并添加到购物车,简化购物流程。
    • 信息检索:快速从互联网上收集特定信息,如新闻或学术资料,提高研究效率。
    • 表单自动化:自动填写和提交在线表单,减少手动输入,节省时间。
    • 个人助理:根据个人喜好提供定制化建议,如餐厅推荐,提升生活质量。
    • 媒体播放管理:自动播放和控制音乐及视频内容,增强娱乐体验。
  • Delta-CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法

    Delta-CoMe是什么

    Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型,节省显存约8倍,同时模型性能几乎与压缩前的微调模型相当。Delta-CoMe基于结合低秩分解和低比特量化技术,用模型参数增量(Delta)的低秩特性,实现混合精度压缩。这种方法能在大幅降低存储和推理成本的同时,保持模型性能几乎无损,尤其在处理数学、代码和多模态等复杂任务时表现出色。

    Delta-CoMe

    Delta-CoMe的主要功能

    • 模型压缩:基于混合精度压缩技术,显著减少大型语言模型(LLMs)的存储和内存需求,让在有限的硬件资源上部署更多的模型成为可能。
    • 性能保持:在压缩的同时,保持模型的性能,尤其是在复杂的任务如数学问题解决、代码生成和多模态任务中,确保压缩后的模型性能接近未压缩的微调模型。
    • 多任务处理:支持同时部署多个具有不同能力的模型,适用于多租户和多任务处理场景,提高模型部署的灵活性和效率。
    • 推理速度提升:基于实现Triton kernel算子,在推理速度上相比PyTorch实现方式提升近3倍,进一步优化模型的运行效率。

    Delta-CoMe的技术原理

    • 低秩分解:用奇异值分解(SVD)对模型参数增量(Delta)进行低秩分解,发现Delta参数具有低秩特性,即大部分变化集中在少数几个主成分上。
    • 混合精度量化:基于低秩分解的结果,采用混合精度量化方法,对不同的奇异向量分配不同的位宽。较大奇异值对应的奇异向量用较高精度表示,而较小奇异值对应的奇异向量用较低精度表示,减少存储需求。
    • 长尾分布利用:Delta-CoMe观察到Delta参数的奇异值呈现长尾分布,即大部分奇异值较小,只有少数奇异值较大。因此,对于小奇异值对应的奇异向量进行更激进的压缩,对于大奇异值对应的奇异向量保留更高的精度。
    • 兼容性和泛化性:Delta-CoMe方法适用于特定的模型或任务,而且具有很好的泛化性,能与不同的主干模型(如Llama-2、Llama-3和Mistral)兼容,并在多种任务上保持良好性能。
    • 硬件优化:为进一步提升推理速度,Delta-CoMe实现针对混合精度量化的Triton kernel算子,让在硬件上的部署更加高效。

    Delta-CoMe的项目地址

    Delta-CoMe的应用场景

    • 多租户服务:在云计算环境中,支持在有限的硬件资源上为每个客户提供专用模型,节省显存和计算资源。
    • 多任务处理:在需要同时处理多种不同任务的场景中,有效地压缩和部署不同任务的模型。
    • 端侧部署:在资源受限的边缘计算设备上,减少模型的存储和内存占用。
    • 模型微调服务:对于需要频繁微调以适应新数据或新任务的模型,用压缩微调后的模型增量,减少存储和推理成本。
    • 学术研究和开发:研究人员和开发者压缩和部署大型语言模型,进行实验和开发,不受硬件资源的限制。
  • FlagevalMM – 智源开源的多模态模型评测框架

    FlagevalMM是什么

    FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型推理解耦的设计,统一视觉语言模型、文生图、文生视频和图文检索等多种模型的评测流程,提升评测效率,便于快速适配新任务和模型。

    FlagEvalMM

    FlagEvalMM的主要功能

    • 多模态模型支持:支持评估多种类型的多模态模型,包括视觉问答(VQA)、图像检索、文本到图像生成等。
    • 全面的基准测试和指标:支持新的和常用的基准测试和评估指标,全面衡量模型性能。
    • 模型库集成:提供模型库(model_zoo),支持多种流行多模态模型的推理,如QWenVL和LLaVA,并与基于API的模型如GPT、Claude、HuanYuan等集成。
    • 多后端支持:支持多种后端引擎进行推理,如VLLM、SGLang等,适应不同的模型和需求。

    FlagEvalMM的技术原理

    • 评测与模型推理解耦:FlagEvalMM将评测逻辑与模型推理逻辑分离,让评测框架独立于模型更新,提高框架的灵活性和可维护性。
    • 统一的评测架构:基于统一的架构处理不同类型的多模态模型评测,减少重复代码,提高代码的复用性。
    • 插件化设计:框架采用插件化设计,支持用户添加新的插件扩展支持的模型、任务和评估指标。
    • 后端引擎适配:框架支持多种后端引擎,基于适配层处理不同后端引擎的接口差异,让用户在不同的引擎之间无缝切换。

    FlagEvalMM的项目地址

    FlagEvalMM的应用场景

    • 学术研究:研究人员评估和比较不同多模态模型在视觉问答、图像检索等任务上的性能,发表学术论文。
    • 工业应用:企业测试和优化自家的多模态产品,比如智能客服系统,提升用户体验。
    • 模型开发:开发者在开发新的多模态模型时,进行模型评估,确保模型在实际应用中的表现符合预期。
    • 教育领域:教育机构评估教学辅助系统中的多模态交互模型,提高教学效果。
    • 内容创作:内容创作者评估和选择适合生成图文内容的模型,提高内容创作的效率和质量。