Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • SAM 2 – Meta推出的AI对象分割模型

    SAM 2是什么

    SAM 2(Segment Anything Model 2)是Meta推出的AI对象分割模型,专注于实时图像和视频对象分割。具备零样本泛化能力,能准确分割未知对象,并通过统一架构同时处理图像和视频。SAM 2的设计支持交互式提示,允许用户通过点击或框选指导分割过程。SAM 2模型已开源,推动了AI在视频编辑、自动驾驶、医学成像等领域的应用发展。

    SAM 2

    SAM 2的主要功能

    • 集成处理能力:SAM 2能同时处理静态图像和动态视频的分割任务,提高了应用的灵活性和效率。
    • 高效实时处理:SAM 2具备高效的实时处理能力,每秒能够分析多达44帧的图像,满足了对快速反馈有高要求的应用场景,例如视频编辑和增强现实技术。
    • 适应性强:SAM 2具有出色的适应性,能够识别和分割在训练阶段未曾出现过的新物体。
    • 用户交互改进:当你使用SAM 2并且告诉它哪里做得好,哪里做得不好时,它可以学习你的反馈,然后变得更好。
    • 复杂场景解析:在面对复杂或模糊不清的场景时,SAM 2能提供多个分割选项,智能地解析并区分重叠或部分遮挡的对象。

    SAM 2的技术原理

    • 统一模型架构:SAM 2 将图像和视频分割功能集成在一个模型中,基于提示的界面,通过点、边界框或掩码指定感兴趣的对象。
    • 高级处理机制:SAM 2 包括管理视频分割中常见难题的机制,如物体遮挡和重现。使用复杂记忆机制来跟踪各帧中的物体,确保连续性。
    • 模型架构:包括图像和视频编码器、提示编码器、记忆机制(记忆编码器、记忆库和记忆注意力模块)以及掩码解码器。这些组件共同工作,提取特征、处理用户提示、存储过去帧的信息,并生成最终的分割掩码。
    • 记忆机制和遮挡处理:记忆机制允许SAM 2 处理时间依赖性和遮挡问题。当物体移动或被遮挡时,模型可以依靠记忆库来预测对象的位置和外观。
    • 多掩码模糊解决:在存在多个可能的分割对象时,SAM 2 能够生成多个掩码预测,提高复杂场景的准确度。
    • SA-V 数据集:为了训练SAM 2,开发了SA-V数据集,它是目前最大、最多样化的视频分割数据集之一,包含51,000多部视频和600,000多个掩码注释,提供了前所未有的多样性和复杂性。
    • 提示视觉分割任务:SAM 2 被设计为可以接受视频中任何一帧的输入提示来定义要预测的时空掩码(masklet),并能够根据这些提示立即预测当前帧的遮罩,并在时间上传播以生成目标对象在所有视频帧中的masklet。

    SAM 2

    SAM 2的项目地址

    SAM 2的应用场景

    • 视频编辑:在视频后期制作中,SAM 2 可以快速分割视频对象,帮助编辑者从复杂背景中提取特定元素,进行特效添加或替换。
    • 增强现实(AR):在AR应用中,SAM 2 可以实时识别和分割现实世界中的对象,为用户叠加虚拟信息或图像。
    • 自动驾驶:在自动驾驶车辆中,SAM 2 可以用于精确识别和分割道路、行人、车辆等,提高导航和避障的准确性。
    • 医学成像:在医学领域,SAM 2 可以帮助医生在医学影像中分割和识别病变区域,辅助诊断和治疗计划的制定。
    • 内容创作:对于内容创作者,SAM 2 可以在视频或图像中快速选取特定对象,为创作提供更多可能性。
  • EmoTalk3D – 华为、复旦联合推出的3D数字人框架

    EmoTalk3D是什么

    EmoTalk3D是华为诺亚方舟实验室、南京大学和复旦大学共同推出的3D数字人框架。技术的核心在于能合成具有丰富情感表达的3D会说话头像。EmoTalk3D能捕捉和再现人类在说话时的唇部动作、面部表情,甚至是更微妙的情感细节,如皱纹和其他面部微动。EmoTalk3D通过一个名为“Speech-to-Geometry-to-Appearance”的映射框架,实现了从音频特征到3D几何序列的预测,再到3D头像外观的合成。

    EmoTalk3D

    EmoTalk3D的主要功能

    • 情感表达合成:能根据输入的音频信号合成具有相应情感表达的3D头像动画,包括不限于喜悦、悲伤、愤怒等多种情感状态。
    • 唇部同步:高度准确的唇部运动与语音同步,3D头像在说话时唇部动作与实际发音相匹配。
    • 多视角渲染:支持从不同角度渲染3D头像,确保在不同视角下观看时都能保持高质量和一致性。
    • 动态细节捕捉:能捕捉并再现说话时的面部微表情和动态细节,如皱纹、微妙的表情变化等。
    • 可控情感渲染:用户可根据需要控制3D头像的情感表达,实现情感的实时调整和控制。
    • 高保真度:通过先进的渲染技术,EmoTalk3D能生成高分辨率、高真实感的3D头像。

    EmoTalk3D的技术原理

    • 数据集建立(EmoTalk3D Dataset)收集了多视角视频数据,包括情感标注和每帧的3D面部几何信息。数据集来源于多个受试者,每个受试者在不同情感状态下录制了多视角视频。
    • 音频特征提取使用预训练的HuBERT模型作为音频编码器,将输入语音转换为音频特征。通过情感提取器从音频特征中提取情感标签。
    • Speech-to-Geometry Network (S2GNet)将音频特征和情感标签作为输入,预测动态的3D点云序列。基于门控循环单元(GRU)作为核心架构,生成4D网格序列。
    • 3D几何到外观的映射(Geometry-to-Appearance)基于预测的4D点云,使用Geometry-to-Appearance Network (G2ANet)合成3D头像的外观。将外观分解为规范高斯(静态外观)和动态高斯(由面部运动引起的皱纹、阴影等)。
    • 4D高斯模型使用3D高斯Splatting技术来表示3D头像的外观。每个3D高斯由位置、尺度、旋转和透明度等参数化表示。
    • 动态细节合成通过FeatureNet和RotationNet网络预测动态细节,如皱纹和微妙的表情变化。
    • 头部完整性对于非面部区域(如头发、颈部和肩部),使用优化算法从均匀分布的点开始构建。
    • 渲染模块将动态高斯和规范高斯融合,渲染出具有自由视角的3D头像动画。
    • 情感控制通过情感标签的人工设置和时间序列的变化,控制生成头像的情感表达。

    EmoTalk3D

    EmoTalk3D的项目地址

    EmoTalk3D的应用场景

    • 虚拟助手和客服:作为智能客服或虚拟助手的角色,提供更加自然和情感丰富的交互体验。
    • 电影和视频制作:在电影、电视和视频游戏中生成逼真的角色和动画,提高视觉体验。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中提供沉浸式体验,与用户进行更真实的互动。
    • 社交媒体和直播:用户可用EmoTalk3D创建和自定义自己的3D形象,在社交媒体平台或直播中。
    • 广告和市场营销:创建吸引人的3D角色,用于广告宣传或品牌推广。
  • EasyAnimate – 阿里推出的AI视频生成工具

    EasyAnimate是什么

    EasyAnimate是阿里推出的AI视频生成工具,支持文生视频和图生视频两种方式,用户可以上传图片作为视频的起始和结束画面,实现更灵活的视频编辑。EasyAnimate最长可生成1分钟的视频,适用于内容创作、教育、营销等多种场景。用户可通过一键启动,快速生成高质量的视频内容。
    EasyAnimate

    EasyAnimate的主要功能

    • 文本生成视频:用户输入提示词,EasyAnimate即可据此生成视频内容。
    • 图片生成视频:用户上传图片并可配合文字,EasyAnimate将图片转化为动态视频。
    • 起止画面生成:EasyAnimate支持上传两张图片分别作为视频的起始和结束画面,增加视频编辑的灵活性。
    • 长视频生成:EasyAnimate支持最长1分钟的视频生成,提供更丰富的视频内容。
    • 预训练模型选择:用户可以根据需要选择不同的预训练模型来生成视频。

    EasyAnimate的技术原理

    • 深度学习:使用深度神经网络来理解和处理输入的数据(文本或图片),并生成视频内容。
    • 自然语言处理NLP:如果是基于文本的视频生成,EasyAnimate基于NLP技术来解析和理解输入的文本提示词,提取关键信息,从而生成视频脚本或概念。
    • 图像识别与处理:对于图片生成视频,EasyAnimate使用图像识别技术来分析上传的图片内容,通过图像处理技术将静态图像转化为动态视频。
    • 视频合成:将生成的视频脚本或从图片中提取的动态元素,通过视频合成技术整合成连贯的视频内容。
    • 生成对抗网络GAN:可能使用GAN技术来生成逼真的视频帧,GAN由生成器和判别器组成,生成器负责创造视频帧,判别器负责评估生成的视频帧的质量。
    • 风格迁移:在某些情况下,可能还会用到风格迁移技术,将一种风格或纹理应用到视频帧上,以创造出特定的视觉效果。
    • 采样器技术:用户可以根据视频类型选择不同的采样器,例如动画选择Euler采样器,写实风格选择DPM采样器,以适应不同的视频风格和需求。

    EasyAnimate

    EasyAnimate的项目地址

    EasyAnimate的应用场景

    • 内容创作:博主和社交媒体内容创作者可以使用EasyAnimate快速生成视频内容,提高创作效率。
    • 广告制作:营销人员可以用EasyAnimat制作吸引人的广告视频,用于产品宣传和品牌推广。
    • 教育和培训:教育机构和培训师可以创建动态教学视频,使学习材料更加生动,提高学习兴趣和效果。
    • 企业宣传:企业可以用EasyAnimate制作公司介绍、产品展示等宣传视频,提升品牌形象。
    • 个人项目:普通用户可以创作个人项目视频,如生日祝福、婚礼纪念、旅行回忆等。
  • FlashFace – 阿里联合香港大学推出的高保真AI写真工具

    FlashFace是什么

    FlashFace是阿里联合香港大学推出的高保真AI写真工具。能基于用户提供的面部图像和文本提示,快速生成个性化的高保真人像写真图。FlashFace具备高保真度身份保留、即时个性化、多样化结果生成等特点,支持改变人物年龄和性别,甚至将虚拟角色转化为逼真真人照片。FlashFace还能将真人照片转换为不同艺术风格的作品,或融合多个人物特征创造新形象。FlashFace适用于个性化照片制作、虚拟形象设计以及电影和游戏角色设计等场景。
    FlashFace

    FlashFace的主要功能

    • 高保真度身份保留:精确捕捉并保留参考人脸的特征,包括细节如纹身和疤痕。
    • 即时个性化:用户只需提供参考图像和文本提示,即可快速生成个性化照片。
    • 多样化结果:生成多种个性化人像结果,保留参考面孔的身份特征。
    • 年龄和性别改变:一键调整人物的年龄和性别,提供不同的视觉体验。
    • 虚拟角色生成真人:将虚构角色转换成逼真的真人照片。
    • 真人生成艺术品:把真实照片转换成不同艺术风格的作品。

    FlashFace的技术原理

    • 深度学习:利用深度神经网络来学习和模拟人脸的特征和结构,包括面部表情、轮廓和纹理等。
    • 生成对抗网络GANs:通过训练两个网络——生成器(Generator)和判别器(Discriminator)——来生成逼真的人脸图像。生成器负责创建图像,而判别器则评估图像的真实性。
    • 面部特征提取:使用深度学习模型从提供的参考图像中提取关键面部特征,如眼睛、鼻子、嘴巴的位置和形状。
    • 条件生成:通过文本提示或额外的条件输入,指导生成器生成具有特定属性的人脸,如年龄、性别或特定表情。
    • 身份保留:在生成过程中,特别设计网络以保持输入图像中的独特身份特征,确保生成的人像与参考图像在视觉上相似。
    • 风格迁移:将一种艺术风格或纹理应用到生成的人脸图像上,实现从真人照片到艺术作品的转换。
    • 多模态学习:结合视觉和文本数据,使模型能够理解并响应文本描述,生成符合描述的人像。
    • 优化和正则化技术:使用各种优化算法和正则化技术来提高生成图像的质量和多样性,同时避免生成过程中的常见问题,如模式崩溃。

    FlashFace

    FlashFace的项目地址

    FlashFace的应用场景

    • 个性化照片制作:用户可以为自己或亲友制作具有个性化特征的照片,照片可作为生日礼物、节日礼物或其他特殊场合的纪念品。
    • 虚拟形象设计:设计师和内容创作者可使用FlashFace来生成逼真的虚拟人物形象,用于社交媒体、博客或任何需要个性化虚拟角色的场景。
    • 电影和游戏制作:在电影特效和游戏角色设计中,FlashFace可创建高度真实的面部特征,提高视觉效果和角色的真实感。
    • 广告和营销:广告商可用FlashFace生成吸引人的图像,用于广告宣传,以吸引潜在客户的注意力。
    • 艺术创作:艺术家可用FlashFace将真人照片转换成各种艺术风格的作品,探索新的艺术表现形式。
  • SEED-Story – 腾讯推出的多模态故事生成模型

    SEED-Story是什么

    SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生成风格一致的图像。SEED-Story引入了多模态注意力机制,支持生成长达25个序列的连贯故事。SEED-Story还提供了StoryStream,一个大规模高分辨率数据集,用于模型训练和评估。

    SEED-Story

    SEED-Story的主要功能

    • 多模态故事生成:SEED-Story 能根据给定的起始图像和文本生成包含连贯叙事文本和风格一致的图像的长故事。
    • 多模态注意力汇聚机制:SEED-Story 提出了一种多模态注意力汇聚机制,以高效自回归的方式生成故事,可以生成长达25序列的故事。
    • 大规模数据集 :SEED-Story 发布了一个名为 StoryStream 的大规模、高分辨率数据集,用于训练模型并从不同方面定量评估多模态故事生成任务。
    • 故事指令调整:在故事生成的过程中,SEED-Story 通过指令调整过程,对模型进行微调,可以预测故事的下一个图像和下一句文本。
    • 可视化和交互:SEED-Story 还提供了可视化比较,展示了生成的图像与其他基线模型相比具有更高的质量和更好的一致性。

    SEED-Story的技术原理

    • 多模态大语言模型(MLLM)利用大型语言模型来理解、生成和预测文本和视觉标记。这种模型能够处理和生成文本数据,同时理解和生成视觉内容。
    • 文本和视觉标记预测SEED-Story模型能够预测文本标记(文本中的元素或单词)和视觉标记(图像中的元素)。
    • 视觉de-tokenizer将语言模型生成的文本和视觉标记转换为图像,通过视觉de-tokenizer生成具有一致性和风格的图像。
    • 多模态注意力机制引入多模态注意力机制,使模型在生成故事时能够关注文本和图像之间的相互关系。这种机制允许模型更有效地处理长序列的生成任务。
    • 自回归生成模型采用自回归方式生成故事,即每个新生成的标记依赖于之前生成的所有标记,以保持故事的连贯性。
    • 长序列生成能力通过多模态注意力机制,SEED-Story能够生成比训练序列更长的故事序列。
    • StoryStream数据集提供一个大规模的高分辨率数据集,用于训练模型并评估多模态故事生成任务。数据集包含视觉上引人入胜的高分辨率图像和详细的叙述文本。
    • 训练流程包括预训练去标记器以重建图像,采样交错图像文本序列进行训练,以及使用MLLM的回归图像特征来调整生成的图像。

    SEED-Story

    SEED-Story的项目地址

    SEED-Story的应用场景

    • 创意写作辅助:帮助作家和内容创作者生成故事大纲、角色描述和情节发展,激发创意灵感。
    • 教育和学习:作为教学工具,帮助学生理解故事叙述结构,提高写作和创意思维能力。
    • 娱乐和游戏开发:在视频游戏中生成动态故事线和角色背景,提供沉浸式体验。
    • 广告和营销:快速生成吸引人的广告故事或营销材料,提高广告内容的吸引力和个性化。
    • 电影和动画制作:辅助剧本创作,生成角色对话和场景描述,加速制作流程。
  • PhotoMaker V2 – 腾讯推出的AI图像生成框架

    PhotoMaker V2是什么

    PhotoMaker V2是腾讯推出的AI图像生成框架,能在极短的时间内生成逼真的人物照片。与初代相比,V2版本在角色的一致性和可控性上实现了显著提升,用户可通过文本指令精确控制生成结果。腾讯还提供了丰富的集成脚本,如ControlNet和T2I-Adapter,以及IP-Adapter-FaceID和InstantID等,进一步增强了角色个性化生成的能力。

    PhotoMaker V2的主要功能

    • 快速生成逼真人物照片:能在几秒钟内生成高质量的逼真人物图像。
    • 角色多样性:确保生成的人物照片具有多样性,避免角色“撞脸”。
    • 文本控制:用户可通过文本指令来控制生成的人物特征,实现个性化定制。
    • 集成脚本支持:提供与ControlNet、T2I-Adapter等工具的集成脚本,以及IP-Adapter-FaceID或InstantID的整合选项,增强角色生成的可控性和个性化。

    PhotoMaker V2的技术原理

    • 深度学习:PhotoMaker V2利用深度学习技术,基于生成对抗网络(GANs)来生成逼真的图像。GANs包含两个网络:生成器(Generator)和判别器(Discriminator)。生成器负责创建图像,判别器则评估图像的真实性。
    • 文本到图像的转换:PhotoMaker V2能将文本描述转换为图像。涉及到编码器-解码器架构,其中文本描述首先被编码为一个向量,然后这个向量被用来生成图像。
    • 特征控制:通过训练数据,PhotoMaker V2学习到如何根据特定的文本描述调整生成图像的特征,如性别、年龄、表情等。
    • 多样性和一致性:PhotoMaker V2在生成图像时,能保持角色的一致性,同时确保不同图像之间的多样性,避免生成重复或相似的面孔。
    • 集成脚本:PhotoMaker V2支持集成脚本,脚本可以进一步控制生成过程,例如通过特定的适配器(如IP-Adapter-FaceID或InstantID)来增强角色的个性化特征。

    PhotoMaker V2

    PhotoMaker V2的项目地址

    PhotoMaker V2的应用场景

    • 游戏开发:生成独特的游戏角色或NPC(非玩家角色)的图像,为游戏增添多样性和真实感。
    • 电影和视频制作:在电影或视频制作中,用于创建虚拟角色或背景人物,节省成本并提高制作效率。
    • 广告和营销:为广告创造吸引人的视觉内容,包括个性化的广告代言人或场景。
    • 社交媒体:用户可以在社交媒体上用PhotoMaker V2生成个性化的头像或图像,展示自己的风格。
    • 艺术创作:艺术家和设计师可以用PhotoMaker V2来探索新的艺术形式,或作为创作过程中的一个工具。
    • 教育和培训:在教育领域,可以用来生成教学材料中的图像,例如历史人物或科学概念的可视化。
  • CogVideoX – 智谱AI推出的开源AI视频生成模型

    CogVideoX是什么

    CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品“ 清影 ”同源。CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需7.8-26GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。

    CogVideoX

    CogVideoX的主要功能

    • AI文生视频:支持用户输入的文本提示词生成视频内容。
    • 低显存需求:在 INT8 精度下,推理显存需求仅为 7.8GB,即使用 1080 Ti 显卡也可以完成推理。
    • 视频参数定制:可以定制视频长度、帧率和分辨率,目前支持6秒长视频,8帧/秒,分辨率为720*480。
    • 3D Causal VAE技术:使用3D Causal VAE技术,实现视频内容的高效重建。
    • 推理与微调:模型支持基本的推理生成视频,同时提供了微调能力,以适应不同需求。

    CogVideoX的技术原理

    • 文本到视频生成:CogVideoX使用深度学习模型,特别是基于Transformer的架构,来理解输入的文本提示并生成视频内容。
    • 3D Causal VAE:CogVideoX采用了3D Causal Variational Autoencoder(变分自编码器),一种用于视频重建和压缩的技术,能够几乎无损地重构视频,减少存储和计算需求。
    • 专家Transformer:CogVideoX使用专家Transformer模型,一种特殊的Transformer,通过多个专家处理不同的任务,例如空间和时间信息的处理,以及控制信息流动等。
    • 编码器-解码器架构:在3D VAE中,编码器将视频转换成简化的代码,而解码器根据这些代码重建视频,潜在空间正则化器确保编码和解码之间的信息传递更准确。
    • 混合时长训练:CogVideoX的训练过程采用混合时长训练,允许模型学习不同长度的视频,提高泛化能力。
    • 多阶段训练:CogVideoX的训练分为几个阶段,包括低分辨率预训练、高分辨率预训练和高质量视频微调,逐步提升模型的生成质量和细节。
    • 自动和人工评估:CogVideoX使用自动评估和人工评估相结合的方式,确保生成的视频质量达到预期。

    CogVideoX

    CogVideoX的项目地址

    CogVideoX-2B 与 CogVideoX-5B参数对比

    CogVideoX

    CogVideoX的性能评估

    为了评估文本到视频生成的质量,我们使用了VBench中的多个指标,如人类动作、场景、动态程度等。我们还使用了两个额外的视频评估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,这些工具专注于视频的动态特性。如下表所示。

    CogVideoX

    CogVideoX的应用场景

    • 创意视频制作:为独立视频创作者和艺术家提供工具,快速将创意文本描述转化为视觉视频内容。
    • 教育和培训材料:自动化生成教育视频,帮助解释复杂概念或展示教学场景。
    • 广告和品牌宣传:企业可以用CogVideoX模型根据广告文案生成视频广告,提高营销效果。
    • 游戏和娱乐产业:辅助游戏开发者快速生成游戏内动画或剧情视频,提升游戏体验。
    • 电影和视频编辑:辅助视频编辑工作,通过文本描述生成特定场景或特效视频。
    • 虚拟现实(VR)和增强现实(AR):为VR和AR应用生成沉浸式视频内容,增强用户互动体验。
  • MinerU – OpenDataLab推出的开源智能数据提取工具

    MinerU是什么

    MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式,支持从网页和电子书中提取内容,提高AI语料准备效率。MinerU具备高精度的PDF模型解析工具链,支持多种输入模型,自动识别乱码,保留文档结构,转换公式为LaTex,适用于学术、财务、法律等多个领域,支持CPU和GPU,兼容Windows/Linux/Mac平台,性能卓越。

    MinerU

    MinerU的主要功能

    • PDF到Markdown转换:将包含多种内容类型的PDF文档转换为结构化的Markdown格式,便于进一步的编辑和分析。
    • 多模态内容处理:能识别和处理PDF中的图像、公式、表格和文本等多种内容。
    • 结构和格式保留:在转换过程中,保留原始文档的结构和格式,如标题、段落和列表。
    • 公式识别与转换:特别针对数学公式,能识别并转换成LaTeX格式,方便学术交流和技术文档使用。
    • 干扰元素去除:自动删除页眉、页脚、脚注和页码等非内容元素,净化文档信息。
    • 乱码识别与处理:自动识别并纠正PDF文档中的乱码,提高信息提取的准确性。
    • 高质量解析工具链:集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度。

    MinerU的技术原理

    • PDF文档分类预处理:在处理PDF文档之前,MinerU首先对文档进行分类,识别其类型(如文本型、图层型或扫描版PDF),并进行相应的预处理,例如检测乱码和识别是否为扫描文档。
    • 模型解析与内容提取
      • 布局检测:使用基于深度学习的模型,如LayoutLMv3,进行区域检测,识别文档中的图像、表格、标题和文本等不同区域。
      • 公式检测:利用基于YOLOv8的自研模型来识别文档中的数学公式,区分行内公式和行间公式。
      • 公式识别:通过自研的UniMERNet模型来识别和解析数学公式,将它们转换成LaTeX格式。
      • 光学字符识别(OCR):使用PaddleOCR等OCR技术来识别文档中的文本内容。
    • 管线处理:将模型解析得到的数据输入到处理管线中,进行后处理,包括:
      • 确定块级别的顺序。
      • 删除无用元素。
      • 根据版面进行内容排序和拼装,以保证正文的流畅性。
      • 进行坐标修复、高iou处理、图片和表格描述合并、公式替换、图标转储、Layout排序等操作。
    • 多种格式输出:处理后的文档信息可以转换为统一的中间态格式(middle-json),并根据需求输出为不同的格式,如Layout、Span、Markdown或Content list等。
    • PDF提取结果质检:使用人工标注的PDF自测评测集对整个流程进行检测,确保提取效果的优化。使用可视化质检工具进行人工质检与标注,反馈给模型训练,进一步提升模型能力。

    MinerU

    MinerU的项目地址

    MinerU的应用场景

    • 学术研究:研究人员可从学术论文和期刊中提取关键信息,包括文本、公式和图表,支持文献综述和数据分析。
    • 法律文档处理:法律专业人士可用MinerU从合同、法律意见书和其他法律文件中提取条款和证据,提高工作效率。
    • 技术文档管理:工程师和技术作者可从技术手册和产品文档中提取技术规格和操作步骤,便于知识管理和技术传播。
    • 知识管理和信息检索:企业和组织可以用MinerU从内部文档库中提取信息,构建知识库,提高信息检索的效率。
    • 数据挖掘和自然语言处理(NLP):数据科学家和NLP研究人员可用MinerU提取的数据来训练和优化机器学习模型。
  • FoleyCrafter – 上海人工智能实验室推出的AI视频配音框架

    FoleyCrafter是什么

    FoleyCrafter是上海人工智能实验室和香港中文大学(深圳)共同推出的AI视频配音框架,FoleyCrafter能自动听出视频中的动作,配上恰到好处的声音效果。不管是视频里的人走路、跑步,还是动物的叫声,甚至是环境里的风声、水声,FoleyCrafter都能智能地加上去,让原来没有声音的视频瞬间变得生动起来。而且还可以给它一些提示,比如“声音要高一点”或者“不要风声”,FoleyCrafter都能听懂并做到。这个技术不仅让视频制作更简单,还能让视频看起来更真实、更有感觉。

    foleycrafter

    FoleyCrafter的主要功能

    • 自动配音:FoleyCrafter能给无声的视频加上各种声音,比如脚步声、关门声,让视频听起来更真实。
    • 声音同步:不管视频里的动作多快或多慢,FoleyCrafter都能让声音和动作完美对上节奏。
    • 理解视频:FoleyCrafter很聪明,能看懂视频里的内容,然后配上最合适的声音效果。
    • 时间精准:FoleyCrafter有一个特别的时间控制器,确保声音的开始和结束都和视频里的动作完全同步。
    • 听你指挥:用户可以通过写一些简单的文字提示,比如“大声点”或者“轻一点”,FoleyCrafter能自动调整声音效果。
    • 多样的声音:无论是自然的声音、游戏的声音还是动画的声音,FoleyCrafter都能根据视频内容创造出相应的音效。

    FoleyCrafter的技术原理

    • 预训练的音频模型:FoleyCrafter基于一个已经学会怎么生成好声音的模型。就像一个已经知道怎么唱歌的人,我们只需要告诉它什么时候唱什么歌。
    • 语义适配器:这个部分是FoleyCrafter的大脑,它通过观看视频来理解里面正在发生什么。比如,如果视频里有人跑步,语义适配器就会知道需要生成脚步声。
    • 并行交叉注意力层:这是一种特殊的技术,让FoleyCrafter能够同时关注视频里的视觉信息和可能的文本描述,然后决定生成什么样的声音。
    • 时间控制器:这个部分确保声音效果在正确的时间点出现。就像一个指挥家,告诉乐队什么时候开始演奏,时间控制器告诉FoleyCrafter什么时候开始发出声音。
    • 起始检测器:这是时间控制器里的一个工具,它能够检测视频中的声音应该何时开始。比如,如果视频中的球刚刚碰到地面,起始检测器就会知道这是发出撞击声的正确时机。
    • 时间戳适配器:这个工具使用起始检测器的信息来调整声音的生成,确保声音与视频中的动作完美同步。
    • 文本提示兼容性:FoleyCrafter还可以根据你给出的文字提示来生成声音。比如,你写“轻柔的风声”,它就会生成相应的声音效果。

    foleycrafter

    FoleyCrafter的项目地址

    FoleyCrafter的应用场景

    • 电影和视频制作:在电影、电视剧或网络视频的后期制作中,FoleyCrafter可以自动为各种动作场景生成逼真的音效,如脚步声、关门声、物体碰撞声等。
    • 游戏开发:在电子游戏中,FoleyCrafter可以为角色动作、环境互动等生成相应的音效,增强游戏的沉浸感和真实性。
    • 动画制作:动画中的动作往往需要音效来配合,FoleyCrafter能根据动画内容自动生成匹配的声音效果。
    • 虚拟现实(VR)体验:在VR环境中,声音的空间感和同步性尤为重要,FoleyCrafter能为VR体验提供精确的音效,提升用户的沉浸体验。
  • Whisper-Medusa – aiOla推出的开源AI语音识别模型

    Whisper-Medusa是什么

    Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升了推理速度,平均提速达到50%。模型专为英语优化,支持超过100种语言,适用于翻译、金融、旅游等多个行业。Whisper-Medusa在LibriSpeech数据集上训练,有出色的性能和准确度,通过弱监督方法和训练技巧,减少了对大量手动标注数据的依赖。aiOla计划进一步扩展模型的多头注意力机制,以实现更高的效率。

    Whisper-Medusa

    Whisper-Medusa的主要功能

    • 高速语音识别:通过多头注意力机制,Whisper-Medusa能够并行处理语音数据,实现比传统模型快50%的转录速度。
    • 高准确度:尽管速度提升,但Whisper-Medusa在语音识别的准确度上与原始Whisper模型相当,保持了高准确度。
    • 多语言支持:模型支持超过100种语言的转录和翻译,适用于多种语言环境。
    • 弱监督训练:Whisper-Medusa使用弱监督方法进行训练,减少了对大量手动标注数据的依赖。
    • 适应性强:模型能够理解特定行业的术语和口音,适用于不同声学环境。

    Whisper-Medusa的技术原理

    • 多头注意力机制:与传统的Transformer模型不同,Whisper-Medusa采用了多头注意力机制,允许模型同时处理多个数据单元(tokens)。这种并行化处理显著提高了模型的推理速度。
    • 弱监督训练:在训练过程中,Whisper-Medusa采用了弱监督方法。这意味着在训练初期,原始Whisper模型的主要组件被冻结,同时训练额外的参数。使用由Whisper生成的音频转录作为伪标签,来训练Medusa的额外token预测模块。
    • 并行计算:模型的每个”头”可以独立地计算注意力分布,然后并行地处理输入数据。这种并行化方法不仅加快了推理速度,还增加了模型的表达能力,因为每个头都可以专注于序列的不同部分,捕捉更丰富的上下文信息。
    • 优化的损失函数:在训练过程中,损失函数需要同时考虑预测的准确性和效率。模型被鼓励在保证精度的前提下,尽可能地加快预测速度。
    • 稳定性和泛化能力:为了确保模型在训练过程中稳定收敛并避免过拟合,aiOla采用了学习率调度、梯度裁剪、正则化等多种方法。

    Whisper-Medusa

    Whisper-Medusa的项目地址

    Whisper-Medusa的应用场景

    • 语音识别(ASR):Whisper-Medusa可以用于将语音实时转换为文本,适用于会议记录、讲座转录、播客制作等。
    • 多语言翻译:支持超过100种语言,可以用于实时翻译服务,帮助跨语言交流和国际会议。
    • 内容监控和分析:在广播、电视和网络媒体中,Whisper-Medusa可以用于自动生成字幕和内容摘要,以及进行内容监控。
    • 客户服务:在呼叫中心,Whisper-Medusa可以提高客户服务效率,通过自动语音识别来快速响应客户需求。
    • 医疗记录:在医疗领域,可以用于快速准确地转录医生的诊断和病人的病史,提高医疗记录的效率。
    • 法律和司法:在法庭记录和法律研究中,Whisper-Medusa可以帮助快速生成准确的文字记录。