Category: AI项目和框架

  • EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

    EMAGE是什么

    EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的生成全身共语手势框架。EMAGE能根据音频和部分遮蔽的手势输入,生成与音频同步的完整全身手势,包括面部表情、身体动作、手势和全局运动。EMAGE基于掩蔽音频手势变换器实现音频到手势的生成和掩蔽手势重建的联合训练,有效编码音频和身体手势提示。EMAGE用四个组合的预训练VQ-VAE(Vector Quantized Variational AutoEncoders)解码局部面部和身体动作,基于预训练的全局运动预测器解码全局平移。

    EMAGE

    EMAGE的主要功能

    • 生成与音频同步的手势:根据输入的音频信号,生成与音频节奏和语义相匹配的全身手势。
    • 接受部分预定义手势输入:基于用户提供的部分手势(如特定动作或姿势)作为提示,生成完整的、自然的手势序列。
    • 生成多样化的手势:组合多个预训练的VQ-VAE(向量量化变分自编码器),生成丰富多样的手势动作,避免单一和重复的结果。
    • 支持全身手势生成:支持生成面部和上肢动作和下肢和全局运动,实现更自然、完整的人体动画效果。

    EMAGE的技术原理

    • 掩蔽音频手势变换器:在训练过程中,部分手势数据被随机遮蔽,模型基于音频和其他未遮蔽的手势信息预测遮蔽部分。掩蔽机制类似于自然语言处理中的BERT模型,能增强模型对局部和全局信息的理解能力。进行音频到手势生成和掩蔽手势重建的训练,让模型能够更好地学习音频与手势之间的映射关系,同时利用已有的手势信息(即使部分被遮蔽)来生成更准确的手势。
    • 音频特征融合:将音频的节奏特征(如音调的起伏、节奏的强弱)和内容特征(如文本转录的词嵌入)结合起来,使生成的手势既能反映音频的节奏,能与语义相关联。例如,在提到“走路”时,模型可以生成相应的行走手势。
    • 预训练的VQ-VAE:将身体的不同部分(如面部、上肢、下肢)分别用独立的VQ-VAE建模,每个VQ-VAE负责生成特定部分的动作。这种分段建模方式能更好地捕捉不同身体部位与音频之间的独特关系,提高生成手势的准确性和多样性。
    • 离散表示学习:基于VQ-VAE将连续的手势动作转换为离散的表示,便于模型学习和生成。这种离散表示类似于语言中的词汇,让模型更高效地处理和生成复杂的手势序列。
    • 全局运动预测器:除局部动作的生成,基于预训练的全局运动预测器估计身体的全局平移(如行走、转身等),让生成的手势在局部动作上自然,整体运动也更加连贯和真实。

    EMAGE的项目地址

    EMAGE的应用场景

    • 虚拟现实(VR)与增强现实(AR):生成虚拟角色的自然手势和表情,提升虚拟社交、虚拟会议、虚拟游戏等场景中的交互体验,让虚拟角色更加生动逼真。
    • 动画制作:辅助动画电影、电视剧及动态广告的制作,根据对话内容自动生成角色手势和表情,减少动画师工作量,提高制作效率。
    • 虚拟客服与数字人:为在线客服、智能助手等创建自然流畅的手势和表情,在与用户交流时更具亲和力和真实感,提升用户体验。
    • 教育与培训:在教育领域,虚拟教师根据讲解内容生成相应手势,帮助学生更好地理解知识;在培训场景中,生成逼真的操作演示手势,辅助教学。
    • 娱乐行业:在游戏开发中,根据角色语音生成匹配的手势和表情,增强游戏的沉浸感和真实感。
  • JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

    JoyGen是什么

    JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生成,用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集,在开源的HDTF数据集上验证其优越性能。实验结果表明,JoyGen在唇部与音频同步和视觉质量方面均达到行业领先水平,为说话人脸视频编辑领域提供了新的技术解决方案。

    JoyGen

    JoyGen的主要功能

    • 唇部与音频同步:基于音频驱动的唇部运动生成技术,确保视频中人物的唇部动作与音频内容精准对应。
    • 高质量视觉效果:生成的视频具有逼真的视觉效果,包括自然的面部表情和清晰的唇部细节。
    • 视频编辑与优化:在现有视频的基础上进行唇部运动的编辑和优化,无需重新生成整个视频。
    • 多语言支持:支持中文和英文等不同语言的视频生成,适应多种应用场景。

    JoyGen的技术原理

    • 第一阶段
      • 音频驱动的唇部运动生成 3D重建模型:3D重建模型从输入的面部图像中提取身份系数,身份系数用在描述人物的面部特征。
      • 音频到运动模型:基于音频到运动模型将音频信号转换为表情系数,表情系数用于控制唇部的运动。
      • 深度图生成:结合身份系数和表情系数生成面部的3D网格,基于可微渲染技术生成面部深度图,用在后续的视频合成。
    • 第二阶段
      • 视觉外观合成 单步UNet架构:用单步UNet网络将音频特征和深度图信息整合到视频帧的生成过程中。UNet基于编码器将输入图像映射到低维潜在空间,结合音频特征和深度图信息进行唇部运动的生成。
      • 跨注意力机制:音频特征基于跨注意力机制与图像特征交互,确保生成的唇部运动与音频信号高度一致。
      • 解码与优化:生成的潜在表示基于解码器还原为图像空间,生成最终的视频帧。基于L1损失函数在潜在空间和像素空间进行优化,确保生成视频的高质量和同步性。
    • 数据集支持:JoyGen使用包含130小时中文视频的高质量数据集进行训练,确保模型能适应多种场景和语言环境。

    JoyGen的项目地址

    JoyGen的应用场景

    • 虚拟主播与直播:创建虚拟主播,实现新闻播报、电商直播等,根据输入音频实时生成逼真唇部运动,提升观众体验。
    • 动画制作:在动画影视领域,快速生成与配音同步的唇部动画,减少动画师工作量,提高制作效率。
    • 在线教育:生成虚拟教师形象,实现与教学语音同步的唇部动作,让教学视频更生动,增强学生学习兴趣。
    • 视频内容创作:帮助创作者快速生成高质量说话人脸视频,如虚拟人物短剧、搞笑视频等,丰富创作形式。
    • 多语言视频生成:支持多语言,将一种语言的视频快速转换为其他语言版本,且唇部动作与新语言音频同步,便于内容国际化传播。
  • MatAnyone – 南洋理工和商汤科技推出的人像视频抠图框架

    MatAnyone是什么

    MatAnyone是南洋理工大学S-Lab实验室和商汤科技推出的,针对复杂背景人像视频抠图的先进框架,专注于目标指定的视频抠图任务。MatAnyone基于一致的内存传播模块和区域自适应内存融合技术,确保在视频序列中核心区域的语义稳定性和边界细节的精细度。MatAnyone引入新的训练策略,用大规模分割数据直接监督抠图头,显著提升模型在真实场景下的稳定性和泛化能力。MatAnyone配备了高质量、多样化的训练数据集VM800和更具挑战性的测试数据集YoutubeMatte,为模型训练和评估提供坚实基础。

    MatAnyone

    MatAnyone的主要功能

    • 稳定的目标跟踪:在整个视频中稳定地跟踪目标对象,在复杂或模糊的背景中保持目标的完整性。
    • 精细的边界细节提取:支持生成高质量的alpha遮罩,尤其是在边界区域(如头发、边缘等)表现出色,提供图像级的细节精度。
    • 适应多种视频类型:MatAnyone能处理不同类型的视频,包括电影、游戏、智能手机视频等,适应多种帧尺寸和媒体格式。
    • 交互性增强:用户能在第一帧指定目标分割掩码引导整个视频的抠图过程,实现更精准的交互式视频编辑。

    MatAnyone的技术原理

    • 一致内存传播
      • 内存融合:CMP模块基于估计当前帧与前一帧之间的alpha值变化,自适应地融合来自前一帧的信息。对于“大变化”区域(通常位于边界),更多依赖当前帧的信息;对于“小变化”区域(通常位于核心区域),保留前一帧的内存。
      • 区域自适应:基于轻量级的边界区域预测模块,估计每个查询令牌的变化概率,实现区域自适应的内存融合,显著提高核心区域的语义稳定性和边界区域的细节精度。
    • 核心区域监督
      • 分割数据的直接监督:为克服真实视频抠图数据稀缺的问题,MatAnyone用大规模真实分割数据直接监督抠图头。基于在核心区域使用像素级损失(Lcore)和在边界区域使用改进的DDC损失(Lboundary),确保语义稳定性和细节精度。
      • 改进的DDC损失:基于调整DDC损失的计算方式,使其更适合视频抠图任务,避免传统DDC损失在边界区域产生的锯齿状和阶梯状边缘。
    • 新数据集和训练策略
      • 高质量训练数据集:引入新的训练数据集VM800,规模是现有数据集VideoMatte240K的两倍,且在核心和边界区域的质量更高,显著提升模型的训练效果。
      • 多阶段训练:采用多阶段训练策略,先在视频抠图数据上初始化模型,基于分割数据进行核心区域监督,最后用图像抠图数据进一步优化边界细节。
    • 网络架构
      • 编码器:采用ResNet-50作为编码器,提取特征并生成查询和键。
      • 对象变换器:基于对象变换器模块,将像素级内存按对象语义进行分组,减少低层次像素匹配带来的噪声。
      • 解码器:解码器基于多级上采样和跳跃连接,生成高精度的alpha遮罩。
      • 值编码器:将预测的alpha遮罩和图像特征编码为值,用在更新内存库。

    MatAnyone的项目地址

    MatAnyone的应用场景

    • 影视后期制作:用在背景替换和特效合成,将演员从原始背景中精准抠出,替换为虚拟或特效背景,提升画面的视觉效果和创意空间。
    • 视频会议与直播:在视频会议和直播中,实时将人物从复杂背景中分离出来,替换为虚拟背景或模糊背景,增强隐私保护和视觉效果。
    • 广告与营销:在广告视频制作中,将产品或人物从拍摄背景中抠出,替换为更具吸引力的背景,提升广告的视觉冲击力和吸引力。
    • 游戏开发:用在游戏中的视频内容制作,如角色动画、过场动画等,将角色从拍摄背景中精准抠出,替换为游戏场景,增强游戏的沉浸感。
    • 虚拟现实与增强现实:在VR和AR应用中,将用户或物体从现实场景中抠出,融合到虚拟环境中,提升用户体验和交互效果。
  • SynCD – Meta和卡内基梅隆大学开源的文生图合成训练数据集

    SynCD是什么

    SynCD(Synthetic Customization Dataset)是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象在不同光照、背景和姿态下的图像,基于共享注意力机制(Masked Shared Attention)和3D资产引导(如Objaverse)确保对象在不同图像中的一致性。SynCD用语言模型(LLM)生成详细的对象描述和背景场景,结合深度引导的文本到图像模型生成耦合图像。SynCD解决了现实世界中多视角、多背景对象图像难以大规模收集的问题,为无调优(tuning-free)的模型定制化提供丰富的训练资源,显著提升了模型在生成新场景中特定对象时的图像质量和身份保持能力。

    SynCD

    SynCD的主要功能

    • 提供多样化训练样本:基于生成多个视角和背景下的图像,增加模型对对象的视觉理解能力。
    • 增强对象一致性:基于共享注意力机制和3D资产引导,确保对象在不同图像中保持一致,避免生成的图像中对象特征的漂移。
    • 提升生成质量:用高质量的合成数据,改善模型在定制化任务中的图像质量和身份保持能力。
    • 支持无调优定制化:为无调优(tuning-free)方法提供数据支持,避免对每个新对象进行昂贵的优化步骤。

    SynCD的技术原理

    • 语言模型辅助提示生成(LLM-assisted Prompt Generation)
      • 用语言模型(如LLama3)生成详细的对象描述和背景场景描述。对于刚体对象,用Cap3D提供的对象描述;对于可变形对象,直接从类别名称生成详细描述。
      • 基于LLM生成多个背景描述,将对象描述与背景描述结合,生成多图像的提示。
    • 共享注意力机制(Masked Shared Attention, MSA)
      • 在生成多图像时,基于Masked Shared Attention机制共享前景对象区域的特征,确保不同图像中对象的一致性。
      • 在扩散模型的注意力模块中,每个图像的特征不仅关注自身,且关注其他图像中的对象特征,基于掩码(mask)忽略背景区域。
    • 3D资产引导(3D Asset Guidance)
      • 对于刚体对象,用Objaverse中的3D资产进行多视角渲染,生成深度图和对应的图像。
      • 基于深度引导和多视角对应关系,进一步增强对象的3D一致性。支持像素级的跨视角对应关系,将一个图像中的特征“扭曲”到其他图像中,确保对象在不同视角下的形状和颜色一致。
    • 数据过滤与质量控制
      • 用美学评分(aesthetic score)和对象相似性(通过DINOv2特征空间计算)过滤低质量或不一致的图像,确保最终数据集的质量。
      • 基于自动化的过滤步骤,剔除不符合要求的图像,最终生成高质量的合成数据集。

    SynCD的项目地址

    SynCD的应用场景

    • 个性化内容生成:用户上传个人物品或宠物照片,结合文本提示生成其在不同场景或风格下的新图像,满足个性化需求。
    • 创意设计与艺术创作:设计师和艺术家快速生成概念图像,验证设计想法或创作具有特定风格的艺术作品,提升创意表达效率。
    • 虚拟场景构建:在虚拟现实(VR)和增强现实(AR)中,生成虚拟场景中的特定对象,如将虚拟角色放置在不同环境中,增强沉浸感。
    • 广告与营销:品牌生成产品在不同使用场景或目标受众环境中的图像,用在广告宣传,提高吸引力和说服力。
    • 教育与培训:教育领域生成教学材料,如将历史文物置于古代场景中,帮助学生更好地理解知识,提升学习效果。
  • VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

    VideoJAM是什么

    VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运动预测作为动态引导信号,生成更连贯的运动。VideoJAM在训练目标中加入运动预测,在推理时采用Inner-Guidance机制,显著提升视频生成中的运动连贯性,同时保持视觉质量。VideoJAM具有通用性,能用在任何视频生成模型,无需修改训练数据或扩大模型规模,在多个基准测试中超越现有最先进模型,为视频生成技术的发展提供新的思路。

    VideoJAM

    VideoJAM的主要功能

    • 提升运动连贯性:基于联合学习外观和运动,生成更自然、更连贯的运动,减少视频生成中的变形和物理错误。
    • 提高视觉质量:在提升运动连贯性的同时,优化生成视频的整体视觉质量,让视频看起来更真实。
    • 通用性:VideoJAM能用在任何视频生成模型,无需对训练数据或模型规模进行修改,具有广泛的适用性。
    • 动态引导机制:在推理阶段,用模型自身的运动预测作为动态引导信号,确保生成的视频在运动上更加合理和连贯。

    VideoJAM的技术原理

    • 联合外观-运动表示
      • 训练阶段:VideoJAM在训练时,不仅预测视频的像素(外观),还预测视频的运动信息(如光流)。为此,它在模型的输入端添加了一个线性层,将视频和运动信息合并为一个联合表示;在输出端添加另一个线性层,从联合表示中提取运动预测。目标函数也被修改为同时优化外观和运动的预测。
      • 运动表示:VideoJAM使用光流作为运动表示,将光流转换为RGB视频,以便模型能够处理运动信息。
    • 动态引导机制(Inner-Guidance):在生成视频时,VideoJAM利用模型自身不断演化的运动预测作为动态引导信号。基于修改采样分布,引导生成过程朝着连贯运动的方向发展。这种机制确保了生成的视频在运动上更加合理和自然。
    • 通用性和适配性:VideoJAM的设计非常通用,只需在现有视频生成模型中添加两个线性层,并对目标函数进行少量修改即可。它不需要额外的训练数据或模型规模的扩展,可以轻松应用于各种视频生成模型。

    VideoJAM的项目地址

    VideoJAM的应用场景

    • 娱乐与影视制作:生成创意视频、动画、特效,提升制作效率和视觉效果,适用于广告、科幻或动作视频等。
    • 游戏开发:生成游戏中的角色动作和特效动画,优化游戏性能,同时在游戏测试和开发阶段的快速原型制作。
    • 教育与培训:在军事、航空、医疗等领域生成模拟训练视频,帮助学员熟悉操作流程;也可用于在线教育,制作生动的教学视频。
    • 广告与营销:制作吸引人的广告视频和产品演示视频,用于社交媒体、电视广告等,提升品牌影响力和产品展示效果。
    • 社交媒体与内容创作:帮助用户快速生成有趣、高质量的视频内容,满足创作者的多样化需求,提升社交媒体的互动性。
  • s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型

    s1是什么

    s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力。研究人员仅使用1000个精心策划的问题及其答案进行训练,训练成本不到50美元,训练过程耗时不到30分钟。S1模型在数学和编程能力测试中表现优异,与OpenAI的o1和DeepSeek R1等顶尖推理模型相当。

    s1

    s1的主要功能

    • 高效推理能力:S1模型专注于复杂问题的推理,在数学和编程领域表现出色。能解决高难度的竞赛级数学问题,如AIME(美国数学邀请赛)题目。S1模型在竞赛数学问题上的表现显著提升,最高超过OpenAI的o1-preview模型27%。
    • 低成本训练:S1模型仅使用1000个精心策划的问题及其推理轨迹进行训练,训练成本极低,仅需不到50美元的云计算费用,训练时间不到30分钟。
    • 测试时扩展(Test-time Scaling):S1模型通过预算强制技术在测试时动态调整计算量。通过强制终止模型的思考过程或追加“Wait”指令延长思考时间,模型可以重新检查答案,修正错误的推理步骤,提升推理性能。
    • 开源与可扩展性:S1模型的代码、数据和训练方法已在GitHub上开源,方便其他研究者和开发者使用和改进。

    s1的技术原理

    • 数据集构建(s1K)
      • 数据来源:S1模型的数据集s1K包含1000个高质量问题,从多个领域(如数学、物理、化学等)中筛选而来,覆盖了多种推理任务。
      • 筛选标准:通过难度、多样性和质量三个标准筛选问题。难度通过模型性能和推理轨迹长度衡量;多样性通过问题所属领域分类;质量通过数据格式和内容的准确性保证。
      • 最终选择:最终选择的问题覆盖了50个不同领域,确保了数据的多样性和代表性。
    • 监督微调(SFT)
      • 模型选择:使用Qwen2.5-32B-Instruct作为基础模型,模型在数学任务上表现优异。
      • 训练过程:在s1K数据集上进行监督微调,训练时间为26分钟,使用16个NVIDIA H100 GPU。训练过程中,模型学习从问题到推理轨迹和答案的映射。
    • 预算强制(Budget Forcing)
      • 控制测试时计算量:通过在测试时强制终止或延长模型的思考过程来控制计算量。具体方法包括:
        • 强制终止:如果模型生成的思考令牌数超过预设的最大限制,则强制终止思考过程,让模型直接输出答案。
        • 追加“Wait”:如果希望模型思考更长时间,则在当前推理轨迹后追加“Wait”指令,促使模型继续探索。
    • 测试时扩展方法的评估
      • 评估指标:通过控制性(Control)、扩展性(Scaling)和性能(Performance)三个指标评估不同的测试时扩展方法。
      • 方法比较:S1模型比较了多种测试时扩展方法,包括基于令牌的控制、基于步骤的控制和基于类别的控制。最终,预算强制方法在控制性、扩展性和性能上表现最佳。

    s1的项目地址

    s1的应用场景

    • 科学问题:S1模型可以应用于解决高难度的科学问题,如物理学、化学和生物学中的竞赛级问题。
    • 智能辅导系统:S1模型可以作为智能辅导系统的核心,帮助学生解决复杂的数学和科学问题,提供详细的推理步骤和解释。
    • 自动问答系统:S1模型可以用于自动问答系统,特别是在需要复杂推理和多步骤思考的场景中,例如解决用户提出的高难度问题。
    • 文本生成:S1模型可以用于生成高质量的文本内容,在需要逻辑推理和复杂结构的文本生成任务中。
    • 智能客服:S1模型可以应用于智能客服系统,解决复杂的用户问题,提供更准确和高效的解答。
    • 数据分析:S1模型可以用于数据分析和预测任务,需要推理和逻辑分析的场景中。
  • FluxSR – 上海交大联合华为等高校推出的图像超分辨率模型

    FluxSR是什么

    FluxSR是新型的单步扩散模型,是上海交通大学、哈佛大学、华南理工大学和华为诺亚方舟实验室推出的专门用在真实世界图像超分辨率(Real-ISR)任务。FluxSR基于FLUX.1-dev文本到图像(T2I)扩散模型,通过流轨迹蒸馏(FTD)技术将多步流匹配模型蒸馏为单步超分辨率模型。FluxSR的核心优势在于能在保持T2I模型高真实感的同时,高效地生成高质量的超分辨率图像。FluxSR用TV-LPIPS感知损失和注意力多样化损失(ADL)优化图像高频细节,减少伪影。FluxSR在多个数据集上展现出卓越的性能,尤其在无参考图像质量评估指标上表现突出,显著降低计算成本,为高效、高质量的图像超分辨率提供新的解决方案。

    FluxSR

    FluxSR的主要功能

    • 高效单步超分辨率重建:在单步扩散过程中将低分辨率图像高效地恢复为高分辨率图像,显著减少计算成本和推理延迟,适合快速图像处理需求。
    • 高真实感图像生成:从预训练的文本到图像(T2I)模型中提取高真实感细节,将其应用于超分辨率任务,生成具有丰富细节和高真实感的图像。
    • 高频细节恢复与伪影抑制:能有效恢复图像的高频细节,减少高频伪影和重复模式。

    FluxSR的技术原理

    • 流轨迹蒸馏(Flow Trajectory Distillation, FTD):
      • 噪声到图像流的生成:用预训练的T2I模型生成噪声到图像的流。
      • 低分辨率到高分辨率流的推导:基于数学关系推导出LR到HR的流轨迹,避免直接优化SR流导致的分布偏移。
    • 单步扩散模型的训练策略:基于对大模型友好的训练策略,离线生成噪声到图像的流数据对,避免在训练过程中依赖额外的教师模型。显著减少内存消耗和训练成本,让单步模型的训练更加高效。
    • 感知损失和正则化
      • TV-LPIPS感知损失:结合总变差(TV)和LPIPS(Learned Perceptual Image Patch Similarity)损失,强调高频分量的恢复并减少生成图像中的伪影。
      • 注意力多样化损失(ADL):基于减少变换器中不同token的相似性,增强注意力的多样性,消除高频伪影。
    • 高效推理:在推理阶段仅依赖单个流模型,避免多步扩散模型的高计算开销。基于FTD技术,在单步中生成高质量的超分辨率图像,同时保持与多步模型相当的真实感。

    FluxSR的项目地址

    FluxSR的应用场景

    • 老旧照片修复:将低分辨率、模糊或损坏的老照片恢复为高分辨率、清晰的图像。
    • 影视制作:在影视后期制作中,将低分辨率的素材提升为高分辨率,适应高清或4K制作需求
    • 医学影像增强:提升低分辨率的医学影像(如X光、CT、MRI)的分辨率,帮助医生更准确地诊断疾病。
    • 智能手机拍照:提升手机拍摄的低分辨率照片的清晰度,尤其是在低光照或快速运动场景下。
    • 质量检测:在工业生产中,提升生产线上的图像检测系统的分辨率,帮助更准确地检测产品缺陷。
  • RAG-FiT – 英特尔实验室推出用于开发、增强大模型的开源RAG框架

    RAG-FiT是什么

    RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言模型(LLMs)在检索增强生成(RAG)任务中的表现。RAG-FiT基于模块化设计,支持数据创建、训练、推理和评估四大功能模块。RAG-FiT能帮助用户快速创建适合RAG任务的数据集,用参数高效微调(PEFT)技术对模型进行优化,用多种RAG特定的评估指标衡量模型性能。RAG-FiT框架有高度的灵活性和扩展性,支持从数据选择、过滤到检索、提示生成等全方位的RAG用例,适用于问答系统、文本生成等多种应用场景。

    RAG-FiT

    RAG-FiT的主要功能

    • 数据创建与处理
      • 数据加载:支持从Hugging Face Hub或本地源加载数据集。
      • 数据预处理:包括数据过滤、归一化、聚合、信息检索、模板化提示生成等。
      • 数据保存:处理后的数据以一致的格式保存,方便后续训练和推理。
      • 灵活的处理流程:支持全局操作(如数据聚合、过滤)和局部操作(如单个样本的检索和文本处理)。
    • 训练
      • 参数高效微调(PEFT):用LoRA等技术对模型进行高效微调。
      • 训练配置:支持自定义学习率、优化器、批量大小等训练参数。
      • 模型推送:训练后的模型支持推送到Hugging Face Hub。
    • 推理
      • 生成预测:在处理后的数据集上生成预测结果。
      • 批量推理:支持对多个输入数据进行批量处理,提高效率。
    • 评估
      • 多维度评估:支持多种评估指标,如EM、F1、ROUGE、BERTScore等。
      • 自定义评估:用户能轻松实现自定义评估指标。
      • 全局与局部评估:支持对每个样本进行局部评估,及对整个数据集进行全局评估。

    RAG-FiT的技术原理

    • 检索增强
      • 检索机制:基于检索工具从外部知识库中获取与输入问题相关的上下文信息。工具包括基于向量的检索系统(如Haystack、Qdrant)和其他检索框架。
      • 上下文注入:将检索到的上下文信息注入到LLMs的输入中,帮助模型更好地理解问题背景,从而生成更准确、更有依据的答案。
    • 模块化设计
      • 数据处理模块:负责数据的加载、预处理和保存。支持多种数据源和灵活的处理流程。
      • 训练模块:用PEFT技术对模型进行微调,支持LoRA等高效训练方法。训练后的模型能保存或推送到Hugging Face Hub。
      • 推理模块:在处理后的数据集上生成预测结果,支持批量推理。
      • 评估模块:提供多种评估指标,支持对生成结果的多维度评估。
    • 配置驱动的工作流
      • Hydra配置工具:使用Hydra配置工具实现层次化配置,支持用命令行覆盖配置值,方便远程作业运行。
      • 配置文件:每个模块都有默认配置文件,用户能基于配置文件或命令行参数自定义工作流。
    • 实验与评估
      • 实验环境:提供一个端到端的实验环境,支持快速原型开发和多种RAG技术的实验。
      • 多维度评估:评估模块评估生成结果的准确性,还能评估检索结果的相关性和生成内容的忠实度(Faithfulness)和相关性(Relevancy)。

    RAG-FiT的项目地址

    RAG-FiT的应用场景

    • 问答系统:基于检索外部知识库增强语言模型,为用户提供更准确、更相关的答案,适用于医学、法律等专业领域。
    • 文本生成:结合最新背景信息生成高质量文本,如新闻报道、创意写作,提升内容的时效性和准确性。
    • 知识图谱增强:检索知识图谱中的实体和关系,生成与图谱一致的文本,提高知识表示的准确性和可解释性。
    • 多语言生成:跨语言检索知识库,生成多语言文本,满足多语言环境下的内容生成需求。
    • 文档摘要:检索文档关键信息生成摘要,提高摘要的准确性和信息覆盖率,适用于科研、商业等领域。
  • Chatbox AI – 开源的AI客户端助手,支持多种主流AI模型

    Chatbox AI是什么

    Chatbox AI是开源的跨平台AI客户端应用和智能助手,支持 Windows、Mac、Linux、iOS、Android 和网页版,集成多种先进的语言模型(如 ChatGPT、DeepSeek、Claude、Google Gemini Pro 等),支持本地模型(如 Llama2、Mistral 等)。Chatbox AI提供丰富的功能,包括本地数据存储、图像生成(Dall-E-3)、代码高亮、Markdown 和 LaTeX 支持、多语言交互、团队协作等。Chatbox AI基于 GPLv3 开源许可,用户能定制功能、参与社区贡献。

    Chatbox AI

    Chatbox AI的主要功能

    • 多语言模型支持:兼容多种主流 AI 模型,如 ChatGPT、Claude、Google Gemini Pro、Ollama 等,满足不同场景需求。
    • 本地数据存储:所有聊天记录和数据存储在本地设备上,确保隐私和安全,避免数据泄露风险。
    • 图像生成:集成 Dall-E-3,支持基于文字描述生成图像,将创意转化为视觉作品。
    • 代码辅助:支持代码生成、语法高亮、代码审查、优化等功能,帮助开发者提高编程效率。
    • 文档交互:支持与 PDF、Word、Excel 等文档交互,提取内容并提供智能回复。
    • 联网搜索:实时联网搜索,获取最新信息,支持内容摘要和事实核查。
    • Markdown 和 LaTeX 支持:适合学术写作和技术文档,支持格式化文本和复杂公式。
    • 跨平台使用:支持 Windows、Mac、Linux、iOS、Android 和网页版,随时随地使用。
    • 多语言支持:支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。
    • 团队协作:支持团队共享 API 资源,提升协作效率。

    如何使用Chatbox AI

    • 下载与安装:访问Chatbox AI的官方网站GitHub仓库,根据设备类型,选择合适的版本进行下载和安装。
    • 配置 API 密钥
      • 使用特定的 AI 模型(如 OpenAI 的 GPT 系列),需要配置 API 密钥。
      • 注册并登录相关 AI 服务提供商的平台(如 OpenAI、Anthropic 等),获取 API 密钥。
      • 在设置中找到 API 密钥配置选项,填入 API 密钥和接口地址。
    • 选择语言模型:在主界面或设置中选择使用的语言模型(如 GPT-3.5、Claude、Google Gemini Pro 等)。根据需要调整模型的参数(如上下文长度等)。
    • 开始使用:在主界面的输入框中输入问题或指令,系统自动生成回复。
    • Prompt 调试:用 Chatbox AI 提供的 Prompt 管理工具,保存和复用常用的 Prompt,基于调试工具优化 Prompt,获得更好的回复效果。

    Chatbox AI的独特优势

    • 开源与社区支持:用户能自由查看、修改和扩展代码,用户不仅能获取技术支持,还能基于社区反馈推动功能改进和新功能的开发。
    • 本地部署与数据隐私:所有聊天记录和Prompt都保存在本地,确保用户数据的隐私和安全,避免因网络问题或第三方存储导致的数据泄露风险。
    • 灵活性与扩展性:Chatbox AI支持多种大语言模型,用户根据需求选择最适合的模型,根据需求开发自定义插件,进一步扩展Chatbox的功能,打造专属的AI助手。
    • 免费与低成本:Chatbox AI本身是免费的,相比ChatGPT Plus的固定收费,Chatbox按量付费,使用成本更低,适合个人用户和小团队。

    Chatbox AI的应用场景

    • 办公效率提升:快速生成和编辑文档,如报告、邮件、会议纪要等,节省时间。
    • 学习辅助:帮助学生解答学术问题,涵盖多学科,提升学习效率。
    • 代码生成:快速生成代码片段、函数或完整脚本,支持多种编程语言,提高开发效率。
    • 图像生成:基于文字描述生成高质量图像,激发创意。
    • 信息查询:实时联网搜索,获取最新信息,解答日常问题。
  • Open Deep Research – Deep Research开源复现版智能体,支持切换多种语言模型

    Open Deep Research是什么

    Open Deep Research 是开源的 AI 智能体,是Deep Research开源复现项目,基于推理大量网络数据完成复杂的多步骤研究任务。Open Deep Research使用 Firecrawl 的搜索和提取功能,不依赖 OpenAI 的 o3 微调模型。Open Deep Research支持多种语言模型(如 OpenAI、Anthropic、Cohere 等),提供统一的 API 和 Next.js 应用框架,具备实时数据输入、结构化数据提取、服务器端渲染等功能。

    Open Deep Research

    Open Deep Research的主要功能

    • 数据提取与搜索
      • Firecrawl集成:实时从多个网站获取数据,将其结构化处理,为后续推理提供基础信息。
      • 多源数据整合:从不同类型的网页中提取关键信息,支持多种数据格式,确保数据的多样性和丰富性。
    • 推理与分析
      • AI推理引擎:基于强大的推理模型(如OpenAI的GPT-4o或其他LLM),对提取的数据进行深度分析和推理,生成综合性的结论。
      • 多维度分析:对数据进行多维度的分析,包括文本内容理解、数据关联分析、趋势预测等。

    Open Deep Research的技术原理

    • 数据提取与搜索技术
      • Firecrawl:基于Firecrawl快速从多个网站抓取数据,模拟浏览器行为,访问目标网站并提取网页内容,将其结构化处理为JSON或其他格式。
      • 实时数据流:提取的数据基于API实时传输到AI模型中,确保分析的时效性。
    • AI推理模型
      • 语言模型:基于先进的语言模型(如OpenAI的GPT系列)作为核心推理引擎。
      • 模型调用:基于AI SDK,用户灵活调用不同的语言模型,根据需求选择合适的模型进行推理。
    • 前端与后端集成
      • Next.js框架:Next.js作为前端框架,结合React Server Components和Server Actions,实现高效的服务器端渲染和动态用户界面。
      • API接口:基于AI SDK提供的统一API接口,前端能方便地调用后端的AI模型和服务。
    • 数据持久化与存储
      • Vercel Postgres:用Vercel Postgres作为数据库,支持结构化数据的存储和查询。
      • Vercel Blob:用在存储文件数据,支持大文件的高效存储和访问。

    Open Deep Research的项目地址

    Open Deep Research的应用场景

    • 文献综述:帮助研究人员快速收集和整理相关领域的文献资料,生成文献综述报告。
    • 行业分析:快速收集和分析特定行业的市场动态、竞争格局、发展趋势等信息,生成行业分析报告。
    • 投资研究:分析公司财务报表、行业动态、市场情绪等信息,为投资决策提供数据支持。
    • 政策研究:收集和分析国内外相关政策、法规和案例,为政策制定提供参考。
    • 新闻报道:快速收集和整理新闻事件的相关信息,生成新闻报道初稿。