Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Tora – 阿里推出的AI视频生成框架

    Tora是什么

    Tora是阿里推出的AI视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,将文本、视觉和轨迹条件融合,生成高质量且符合物理世界动态的视频内容。Tora由轨迹提取器、时空DiT和运动引导融合器组成,能够精确控制视频的动态表现,支持长达204帧、720p分辨率的视频制作。Tora在运动保真度和模拟现实世界物理动态方面表现出色,为视频生成领域提供了一个强大的新工具。

    Tora

    Tora的主要功能

    简单来说,Tora能够根据你给的指令(比如文字描述、图片或者物体移动的路线),制作出既真实又流畅的视频。

    • 轨迹提取器(Trajectory Extractor, TE):将输入的轨迹转换成层次化的时空运动块,这些运动块与视频内容的潜在空间相匹配。
    • 时空扩散变换器(Spatial-Temporal DiT):结合空间和时间的自注意力机制,处理视频数据,使模型能够理解和生成具有连贯运动的视频。
    • 运动引导融合器(Motion-guidance Fuser, MGF):负责将轨迹提取器生成的时空运动块整合到DiT模型中,确保生成的视频内容遵循预定的轨迹和动态。

    Tora的技术原理

    • 轨迹理解:Tora使用一个叫做“轨迹提取器”的工具,它能够理解给定的轨迹信息。就像是给Tora一张地图,告诉它视频中的物体应该在哪里以及如何移动。
    • 时空编码:Tora将这些轨迹信息转换成一种特殊的编码形式,称为“时空运动块”。这些运动块就像是视频的骨架,决定了视频中物体的运动方式。
    • 视频生成框架:Tora采用了一种叫做“扩散变换器”(DiT)的先进技术。技术结合了扩散模型和变换器架构的优点,让Tora能够生成高质量的视频。
    • 动态融合:Tora还有一个“运动引导融合器”,作用是将前面得到的时空运动块与视频内容结合起来。Tora就可以确保生成的视频不仅画面好看,而且物体的运动也非常自然和流畅。
    • 两阶段训练:为了让Tora更好地理解和生成运动,通过一个两阶段的训练过程来学习。学习如何从密集的光流(一种描述物体运动的密集数据)中提取运动信息。学习如何根据用户提供的更简单的轨迹信息来生成视频。
    • 数据预处理:在训练之前,Tora还需要对视频数据进行一些处理,比如根据场景检测将长视频分割成短片段,然后根据美学评分和运动分割结果选择适合训练的视频片段。

    Tora

    Tora的项目地址

    Tora的应用场景

    • 影视制作:Tora可以用于生成电影、电视剧或短片中的特效场景,通过轨迹控制生成复杂的动态画面,减少实际拍摄成本和时间。
    • 动画创作:在动画领域,Tora可以根据脚本自动生成动画序列,为动画师提供初步的动态草图,加速创作过程。
    • 虚拟现实(VR)和增强现实(AR):Tora可以生成与用户互动的动态环境,为VR和AR应用提供逼真的视觉效果。
    • 游戏开发:在电子游戏中,Tora可以用来快速生成游戏环境和角色动画,提高游戏设计的效率。
  • Stable Fast 3D – Stability AI推出的AI新模型,0.5秒将图片转为3D

    Stable Fast 3D是什么

    Stable Fast 3D(SF3D)是Stability AI推出的一种创新3D网格重建技术,能在0.5秒内从单张图片生成高质量的3D模型。Stable Fast 3D采用先进的Transformer网络,结合快速UV展开和材质属性预测,有效减少了光照效果对模型的影响,并提高了细节捕捉能力。Stable Fast 3D不仅速度快,还保证了3D资产在不同光照条件下的可用性,适用于游戏、电影、电子商务和虚拟现实等多个领域。

    Stable Fast 3D

    Stable Fast 3D的主要功能

    • 超快速度:想象一下,你拍一张照片,眨眼的功夫,3D模型就做好了。
    • 自动上色:Stable Fast 3D不仅能做出模型的形状,还能自动给模型上色,就像照片上的颜色一样。
    • 光照调整:有时候照片上因为光线的原因看起来颜色会不一样,SF3D能智能地调整,让3D模型看起来更自然。
    • 细节捕捉:即使是照片上很小的细节,SF3D也能捕捉到,并在3D模型上呈现出来。
    • 材质感知:Stable Fast 3D还能猜出模型表面的材质,比如是光滑的还是粗糙的,让3D模型看起来更真实。
    • 使用方便:做好的3D模型文件不大,用起来很方便,可以放在游戏里、电影里,或者用来展示商品。

    Stable Fast 3D的技术原理

    • 图像理解:Stable Fast 3D首先需要理解输入的照片。就像你看一张照片知道上面是什么一样,Stable Fast 3D分析照片中的物体形状和表面特征。
    • 生成3D:SF3D使用一种特殊的网络(Transformer网络),将照片中的物体转换成3D空间中的表示。这就像是把平面的图画变成立体的模型。
    • UV展开:在3D建模中,UV展开是一种技术,可以把3D模型的表面“摊平”,变成2D平面,这样更容易添加颜色和纹理。SF3D使用快速的UV展开技术,让这个过程更快完成。
    • 材质和光照:Stable Fast 3D不仅能生成3D形状,还能预测物体表面应该是什么样的材质,比如是金属的、塑料的还是木头的。Stable Fast 3D还能估计照片上的光照条件,确保3D模型在不同光照下看起来都真实。
    • 去除光照效果:有时候照片上的光照会影响3D模型的材质看起来不真实。SF3D有一个步骤是专门用来去除这些不需要的光照效果,让模型在任何光照下都好看。
    • 网格细化:生成3D网格后,SF3D还会进一步细化这个网格,会更加平滑,减少粗糙的边缘或不自然的阶梯状效果。
    • 高效渲染:SF3D使用高效的渲染技术来生成最终的3D模型,模型在任何3D软件或游戏中都能快速渲染出来。
    • 输出3D模型:所有这些步骤完成后,Stable Fast 3D输出一个完整的3D模型,模型包含了形状、纹理和材质信息,准备好用于各种3D应用。

    Stable Fast 3D

    Stable Fast 3D的项目地址

    Stable Fast 3D的应用场景

    • 游戏开发:快速生成游戏内所需的3D资产,如角色、道具或环境元素。
    • 电影和视频制作:用于创建电影中的特效元素或动画中的3D对象,提高制作效率。
    • 电子商务:为在线商店生成产品的3D视图,提供更加丰富的商品展示。
    • 增强现实(AR)和虚拟现实(VR):创建AR/VR体验中的3D模型,提升沉浸感。
    • 3D打印:从图片快速生成3D模型,用于3D打印各种物品。
    • 教育和培训:在教育领域,快速生成复杂的3D结构,帮助学生更好地理解。
    • 建筑和室内设计:快速生成建筑元素或室内装饰的3D模型,辅助设计和展示。
    • 医疗和科学可视化:生成人体器官或科学概念的3D模型,用于研究和教育。
    • 广告和营销:快速制作吸引人的3D广告素材,提升广告效果。
  • FLUX.1 – Stable Diffusion创始团队推出的开源AI图像生成模型

    FLUX.1是什么

    FLUX.1是由Stable Diffusion创始团队推出的开源AI图像生成模型,拥有12B参数,是迄今为止最大的文生图模型。包含三种变体:顶级性能的FLUX.1 [pro]、开源非商业用途的FLUX.1 [dev] 和 快速高效的FLUX.1 [schnell]。FLUX.1以卓越的图像质量、高度逼真的人体解剖学表现和先进的提示词遵循能力脱颖而出,为AI图像生成设定了新的行业标准。

    FLUX.1

    FLUX.1的功能特色

    • 大规模参数:拥有12B(120亿)参数,是迄今为止最大的开源文本到图像模型之一。
    • 多模态架构:基于多模态和并行扩散Transformer块的混合架构,提供强大的图像生成能力。
    • 高性能变体:提供三种不同性能和用途的模型变体,包括专业版(FLUX.1 [pro])、开发版(FLUX.1 [dev])和快速版(FLUX.1 [schnell])。
    • 图像质量:在视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性等方面超越了其他流行的模型。
    • 开源和可访问性:部分模型变体如FLUX.1 [dev]和FLUX.1 [schnell]是开源的,易于研究和非商业应用。
    • 技术创新:引入了流匹配训练方法、旋转位置嵌入和并行注意力层,提高了模型性能和硬件效率。

    FLUX.1

    FLUX.1的技术原理

    • 多模态架构:FLUX.1采用了多模态架构,这意味着模型能够同时处理和理解多种类型的数据,如文本和图像,从而更好地捕捉不同数据间的关联性。
    • 并行扩散Transformer块:模型利用并行扩散Transformer结构,这是一种先进的神经网络组件,能够高效地处理序列数据,增强模型对信息的编码和解码能力。
    • 流匹配训练方法:FLUX.1通过流匹配方法改进了传统的扩散模型。这种方法是一种通用的训练生成模型的技术,能够简化训练过程并提高模型的生成质量。
    • 旋转位置嵌入:模型引入了旋转位置嵌入技术,这是一种特殊的编码方式,可以增强模型对图像中不同位置特征的识别能力,从而提升图像的细节表现。
    • 并行注意力层:通过并行注意力机制,模型能够同时关注输入序列中的多个部分,这有助于捕捉长距离依赖关系并提高生成图像的准确性。

    FLUX.1的项目地址

    如何使用FLUX.1

    • 选择合适的模型变体
      • FLUX.1 [pro]:适合需要顶级性能的商业应用,需要通过API访问。
      • FLUX.1 [dev]:适用于非商业用途,是一个开源的、经过指导蒸馏的模型,可以在HuggingFace上获取。
      • FLUX.1 [schnell]:适合本地开发和个人使用,是最快的模型,同样在HuggingFace上可以获取。
    • 设置环境如果是本地部署,需要设置Python环境并安装必要的依赖库。
    • 安装FLUX.1可以通过Git克隆官方GitHub仓库到本地环境,并按照指南安装所需的Python包。
    • 使用API对于FLUX.1 [pro],需要注册并获取API密钥来访问模型。
    • 编写代码根据官方文档或示例代码,编写脚本来与模型交互,生成图像。
    • 生成图像使用模型提供的接口,输入文本提示(prompt),模型将根据文本生成图像。

    下面是一个简单的使用示例,假设您已经设置了环境并安装了必要的依赖:

    # 克隆FLUX.1 GitHub仓库
    git clone https://github.com/black-forest-labs/flux
    
    # 进入仓库目录
    cd flux
    
    # 创建并激活Python虚拟环境
    python3.10 -m venv .venv
    source .venv/bin/activate
    
    # 安装依赖
    pip install -e '.[all]'
    
    # 根据需要设置环境变量,例如指定模型权重路径
    export FLUX_SCHNELL=path_to_flux_schnell_sft_file
    
    # 使用提供的脚本进行图像生成
    python -m flux --name 'FLUX.1 [schnell]' --loop

    FLUX.1的应用场景

    • 媒体和娱乐:在电影、游戏和动画制作中,FLUX.1可用来创建逼真的背景、角色和场景。
    • 艺术创作与设计:使用FLUX.1生成高质量的图像,辅助艺术家和设计师快速实现创意构想。
    • 广告和营销:生成吸引人的广告图像和营销材料,以提高宣传效果。
    • 教育和研究:在学术研究中,FLUX.1可作为工具来探索图像生成的新技术和理论。
    • 内容创作:为社交媒体、博客和在线内容创作提供独特的图像,增加内容的吸引力。
  • Diffree – OpenGVLab推出的AI贴图框架

    Diffree是什么

    Diffree是由OpenGVLab推出的AI贴图框架,能根据用户的文字描述,在图片中自动找到合适的位置添加新对象。通过智能掩码预测,无需手动绘制,即可确定新对象的形状和位置。Diffree在添加过程中,注重保持与原始图像的背景一致性,包括光线、色调和颜色,确保新对象看起来自然融入。使用高质量数据集OABench进行训练,以学习如何在图像中无缝添加新元素。这项技术在室内装饰设计等领域具有广泛的应用潜力。
    Diffree

    Diffree的功能特色

    • 文本到图像的编辑:用户通过输入文字描述,Diffree能够在图像中识别并添加相应的对象。
    • 自动掩码预测:Diffree能够自动预测并确定新添加对象的位置和形状,无需用户手动绘制掩码。
    • 无缝融合:新添加的对象与原始图像的背景在光线、色调、颜色等方面保持一致,实现自然融合。
    • 背景信息保留:在添加新对象的过程中,Diffree会保留原始图像的背景信息,确保新旧元素之间的和谐。
    • 高质量图像输出:通过逐步生成和细化,Diffree输出的图像质量高,新添加的对象看起来像是原本就在图像中。

    Diffree的技术原理

    • 文字描述输入:用户向系统提供文字描述,明确指出他们想要在图像中添加的对象,例如“添加一只猫”。
    • 掩码预测:Diffree使用先进的算法来预测新对象应该出现的位置以及它的大致形状。过程相当于在图像上创建一个虚拟的轮廓,指导AI理解对象应该放置在哪里。
    • 逐步生成:Diffree不是简单地将对象“贴”在图像上,而是逐步构建新图像。过程类似于拼图,AI会一块一块地构建新图像,同时确保每一块都与原始图像的背景融合。
    • 背景保留:在生成新对象的同时,Diffree非常注重保留原始图像的背景信息。包括光线、阴影和纹理等,确保新对象能够无缝地融入到图像中。
    • 多阶段细化:Diffree可能采用多阶段细化的过程,逐步优化新对象与背景的融合,提高最终图像的真实感。
    • 高质量数据集训练:Diffree使用了OABench的高质量数据集进行训练,数据集包含了大量的真实世界图像对,帮助AI学习如何在保持背景一致性的情况下添加新对象。

    Diffree

    Diffree的项目地址

    Diffree的应用场景

    • 室内设计:用户可以向空房间的照片添加家具、装饰品等,快速预览室内设计效果。
    • 电子商务:在线零售商可以使用Diffree在产品图片中添加或替换产品,展示不同颜色、款式或配件。
    • 游戏开发:游戏设计师可以在游戏场景中快速添加或修改元素,提高开发效率。
    • 电影和视频制作:后期制作团队可以利用Diffree添加或修改场景中的元素,节省特效制作成本。
    • 广告创意:广告设计师可以轻松地在广告图像中尝试不同的产品摆放或背景,以寻找最佳视觉效果。
  • MindSearch – 上海人工智能实验室推出的AI搜索框架

    MindSearch是什么

    MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架,结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型,MindSearch能在3分钟内从300多个网页中搜集有效信息,完成通常需要人类3小时的任务。采用多智能体框架模拟人类思维,先规划后搜索,提高了信息的准确性和完整性。项目已全栈开源,用户可以免费体验和本地部署。

    MindSearch

    MindSearch的主要功能

    • 复杂查询处理:将复杂的用户查询分解为多个更小的、可管理的子问题,以便更精确地搜索相关信息。
    • 动态图构建:通过构建有向无环图(DAG),模拟人类解决问题时的思维过程,逐步细化问题并探索解决方案。
    • 并行信息检索:基于多代理架构,实现多个子问题的并行搜索,提高信息检索的速度和效率。
    • 分层检索策略:WebSearcher采用从粗到细的检索策略,先广泛搜集信息,再选择最有价值的页面进行深入阅读和信息提取。
    • 上下文管理:在多代理系统中有效管理上下文信息,确保在信息检索和整合过程中保持信息的连贯性和完整性。
    • 响应生成:综合检索到的信息,生成准确、全面且深入的响应,以回答原始的复杂查询。
    • 性能提升:在封闭集和开放集问答任务中,通过上述功能显著提高回答的质量,包括深度和广度。
    • 人类偏好:生成的响应更符合人类的偏好,相比于其他AI搜索引擎,MindSearch提供的解答更受人类评估者的青睐。

    MindSearch的技术原理

    • WebPlanner:作为高级规划器,负责将用户查询分解为多个子问题,并通过动态图构建过程(有向无环图,DAG)来模拟多步骤信息寻求的心智模型。
    • WebSearcher:执行分层信息检索,根据WebPlanner分配的子问题,从互联网上检索并汇总有价值的信息。
    • 多代理协作:WebPlanner和WebSearcher作为独立的代理,分别处理问题分解和信息检索任务,实现任务的并行处理和信息的有效整合。
    • 动态图构建:通过代码生成和执行,动态构建问题解决的逻辑图,使LLM能够逐步细化问题并检索相关信息。
    • 上下文管理:在多代理之间进行有效的上下文状态转移,确保在信息检索和整合过程中不丢失关键信息。

    MindSearch

    MindSearch的项目地址

    MindSearch的应用场景

    • 学术研究:研究人员可以用MindSearch快速搜集和整理大量文献资料,以支持他们的研究工作。
    • 市场分析:企业可以用MindSearch搜集市场数据,分析竞争对手信息,以及监控行业趋势。
    • 新闻报道:新闻工作者可以用MindSearch来搜集新闻事件的背景信息,快速撰写报道。
    • 法律研究:法律专业人士可用MindSearch搜集相关法律条文、案例和判例,以辅助法律分析和案件准备。
    • 技术支持:技术支持团队可以用MindSearch快速找到解决技术问题的方法和步骤。
  • GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型

    GPT-4o Long Output模型是什么

    GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型,支持高达64k tokens的长文本输出,相当于约200页小说。相较于原GPT-4o模型,输出能力提升16倍,但输入上限降至64k tokens,满足用户对更长文本处理的需求。该模型定价为每百万输入tokens 6美元,输出tokens 18美元。GPT-4o Long Output模型为测试模型,测试时间会维持数周,名为GPT-4o-64k-Output-Alpha 。

    GPT-4o Long Output模型

    GPT-4o Long Output模型的核心特点

    • 超长输出能力:支持高达64k tokens的输出,是原模型的16倍,能够生成更长、更复杂的文本内容。
    • 输入与输出权衡:用户最大可输入上限为64k tokens,以获得最大64k tokens的输出,需在输入和输出长度间做出选择。
    • 高成本定价:每百万输入tokens定价6美元,每百万输出tokens定价18美元,反映了长输出的计算成本。
    • 探索新用例:OpenAI希望通过此模型帮助用户探索更多创新的应用场景,如长剧本创作等。
    • 最大上下文限制:尽管输出能力增强,但最大上下文长度保持与GPT-4o相同,为128k tokens。

    GPT-4o Long Output模型的应用场景

    • 长篇内容创作:生成长篇故事、小说、剧本等,为电影、电视剧或视频游戏提供创意素材。
    • 学术论文撰写:辅助研究人员撰写详细的研究报告和学术论文,整合大量数据和文献。
    • 技术文档编写:帮助软件开发者和工程师编写技术手册、API文档、软件指南等。
    • 市场分析报告:为商业分析师提供长篇市场分析、趋势预测和商业策略建议。
    • 教育材料开发:辅助教育工作者创建课程内容、教学计划和学习材料。
  • Llama3.1 – Meta最新发布的最强开源AI模型

    Llama3.1是什么

    Llama 3.1是Meta最新发布的开源AI模型,包括8B、70B和405B三个版本,其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3.1支持128K的上下文长度,能够处理长文本并具备多语言翻译能力。在多个AI基准测试中表现卓越,尤其在数学、推理和长文本处理方面,与市场上顶尖的闭源模型如GPT-4o和Claude 3.5 Sonnet相媲美。此外,Meta还提供了Llama Stack API和安全工具,推动了AI创新应用的开发。

    Llama 3.1

    Llama3.1的功能特色

    • 上下文长度:Llama 3.1支持高达128K的上下文长度,能够处理和理解更长的文本信息,对于长文本摘要和多语言对话等高级应用非常有利。
    • 多语言能力:模型支持八种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,在多语言翻译和跨文化交流中表现出色。
    • 数学和推理能力:在GSM8K和ARC Challenge等数学和推理测试中,Llama 3.1的得分非常高,在解决复杂数学问题和逻辑推理方面有非常强大的能力。
    • 长文本处理:在ZeroSCROLLS/QuALITY测试中,Llama 3.1的得分与GPT-4持平,优于其他模型,在长文本理解方面具有很强的能力。
    • 工具使用:Llama 3.1在BFCL测试中得分较高,在使用工具和执行编程任务方面能力很强。
    • 特殊测试:在NIH/Multi-needle测试中,Llama 3.1的得分接近满分,在特定领域的高度专业化能力非常突出。
    • 量化优化:为了支持大规模推理,Llama 3.1的模型从BF16量化到FP8,有效减少了计算资源需求,使得模型能够在更广泛的硬件上运行。

    Llama3.1的性能表现

    Meta 评估了超过了 150 个基准数据集的性能,比较了 Llama 3.1 与其他模型在现实情况下的能力表现,405B 模型在包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 在内的一系列任务中与领先的基础模型具有竞争力。此外,较小模型与具有相似参数数量的封闭和开放模型具有竞争力。

    Llama 3.1

    Llama 3.1

    Llama 3.1

    8B 和 70B 模型在基准测试中取得了显著进步:Llama 3.1 在基准测试中表现优异。8B 模型在 MMLU 测试中从 65 分提升到 73 分(提高 8 分),70B 模型从 81 分提升到 86 分(提高 5 分)。在 MATH (数学问题解决) 测试中,8B 模型的得分从 29 分大幅提升到 52 分(提高 23 分)。

    Llama 3.1 405B 在通用任务、知识推理、阅读理解上创下最新纪录。尤其在,MMLU、SQuAD 细分基准上,提升最为明显。Llama 3.1 8B 和 70B 参数版本,相较于 Llama 3,得到了细微地改善。Llama 3.1 405B 比预训练模型更强。在推理、代码、数学、工具使用、多语言基准上,纷纷碾压微调后的 8B 和 70B 版本。

    Llama 3.1的项目地址

  • LivePortrait – 快手推出的开源人像动画生成框架

    LivePortrait是什么

    LivePortrait是快手推出的开源人像动画生成框架,专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式关键点框架实现,利用大规模高质量训练数据和混合训练策略,提升了模型的泛化能力和动作控制精度。LivePortrait在RTX 4090 GPU上的单帧生成速度极快,达到12.8毫秒,且具有进一步优化潜力。开源社区对其反响热烈,LivePortrait的GitHub页面提供了详细的使用指南和资源。

    LivePortrait

    LivePortrait的主要功能

    • 表情和姿态迁移:LivePortrait能够将驱动视频中的表情和姿态实时迁移到静态或动态人像上,生成具有丰富表情的视频。
    • 高效率:该框架在RTX 4090 GPU上单帧生成速度可达12.8毫秒,展现出极高的处理速度。
    • 泛化能力:通过视频-图片混合训练策略和大规模高质量训练数据,LivePortrait具备良好的泛化性,能够适应不同风格和身份的人像。
    • 可控性:利用隐式关键点和轻量级MLP网络,LivePortrait增强了对动画生成过程的控制能力。
    • 多风格支持:LivePortrait能够处理多种风格的人像,包括真人和风格化(如动漫)人像。
    • 高分辨率动画生成:LivePortrait支持生成高分辨率的动画,提供更清晰的视觉效果。
    • 贴合和重定向模块:设计了贴合模块和眼部、嘴部重定向模块,以适应裁切、多人合照等复杂场景,避免像素错位。

    LivePortrait的技术原理

    • 基础模型训练:在第一阶段,主要对外观提取器、运动提取器、扭曲模块和解码器进行优化,模型都是从头开始训练的。
    • 拼接和重定向模块训练:在第一阶段训练好基础模型后,会冻结外观提取器、运动提取器、扭曲模块和解码器,在第二阶段保持不变。在第二阶段,仅对拼接模块和重定向模块进行优化。
    • 视频-图像混合训练:LivePortrait 将每张图片视为一帧视频片段,并同时在视频和图片上训练模型,提升模型的泛化能力。
    • 升级的网络结构:LivePortrait 将规范隐式关键点估计网络、头部姿态估计网络和表情变形估计网络统一为一个单一模型,并采用ConvNeXt-V2-Tiny为其结构,直接估计输入图片的规范隐式关键点、头部姿态和表情变形。
    • 关键点引导的隐式关键点优化:引入2D关键点来捕捉微表情,用关键点引导的损失作为隐式关键点优化的引导。
    • 级联损失函数:采用face vid2vid的隐式关键点不变损失、关键点先验损失、头部姿态损失和变形先验损失,并施加感知和GAN损失,提升纹理质量。

    LivePortrait

    LivePortrait的项目地址

    LivePortrait的应用场景

    • 社交媒体内容创作:用户可将自己的照片或视频转换成动态内容,用于社交媒体平台,增加互动性和吸引力。
    • 虚拟主播和直播:用LivePortrait技术,可以创建虚拟形象进行直播或视频制作,无需真人出镜,适用于游戏直播、教育讲解等场景。
    • 影视和动画制作:在影视后期制作中,LivePortrait可用于角色的表情捕捉和动画生成,提高制作效率,降低成本。
    • 广告和营销:企业可以用LivePortrait技术制作吸引人的广告视频,动态的人物形象来吸引潜在客户的注意力。
  • DCLM-7B – 苹果公司与合作团队推出的开源小模型

    DCLM-7B 是什么

    DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型基于240T Common Crawl数据,通过标准化的DCLM-POOL和OpenLM框架预训练,实现了64%的5-shot MMLU准确率,训练效率显著。DCLM-7B的开源包括权重、训练代码和数据集,推动了LLM开源社区的发展,提供了高质量数据集DCLM-BASELINE,为数据驱动的模型研究设立了新基准。

    DCLM-7B

    DCLM-7B 的技术原理

    • 大规模数据集:DCLM-7B使用了从Common Crawl中提取的240万亿个令牌构成的标准化语料库,为模型提供了丰富的训练数据。
    • 数据筛选:通过模型基础的过滤方法,从大规模数据集中筛选出高质量的训练数据,是构建DCLM-7B的关键步骤。
    • OpenLM框架:基于OpenLM框架,DCLM-7B采用了有效的预训练方案,提供了标准化的训练流程和超参数设置。
    • 标准化评估:DCLM-7B在53个下游任务上进行了标准化评估,有助于量化训练集的优势和局限性。
    • 模型架构:DCLM-7B采用的是decoder-only的Transformer模型架构,是一种常用于语言模型的深度学习架构。
    • 训练优化:在训练过程中,DCLM-7B使用了特定的优化技术,如z-loss,以保持输出logit的数值稳定性。
    • 多尺度训练:DCLM-7B在不同的计算规模上进行了训练,从412M到7B参数的模型,有助于理解不同训练规模对模型性能的影响。

    DCLM-7B 的项目地址

    DCLM-7B 的适用人群

    • AI研究人员:专注于自然语言处理和机器学习领域的科学家和学者。
    • 软件开发者:集成高级语言处理能力到应用程序中的技术人员。
    • 数据分析师:处理和分析大量文本数据以获取洞察力的专业人士。
    • 教育技术专家:开发教育工具和交互式学习体验的教育工作者。
    • 企业决策者:利用AI优化业务流程和增强客户服务的商业领袖。
  • STORM AI – 斯坦福大学推出的开源AI写作工具

    STORM AI 是什么

    STORM AI 是斯坦福大学推出的开源AI写作工具,可在几秒钟内将一个主题转换为长篇文章/研究论文,完全免费,是 Perplexity Pages 的一种 替代品 。STORM AI 利用大语言模型(LLM)进行多角度提问和模拟专家对话,生成深入且准确的内容。STORM AI 特别适合需要大量研究和引用的写作任务,可以自动收集资料、生成大纲,并最终形成完整的文章。用户可通过STORM AI 的网站免费体验服务,或者使用API密钥在本地部署,享受便捷的自动化写作辅助。

    Storm

    STORM AI 的主要功能

    • 基于互联网搜索撰写文章:STORM AI 能利用互联网上的资源,从零开始撰写详细的文章,类似维基百科的条目。
    • 多角度提问:STORM AI 通过分析类似主题的现有文章,发现不同视角,自动生成深入的问题。
    • 模拟专家对话:STORM AI 模拟维基百科作者与主题专家之间的对话,能更新对主题的理解并提出跟进问题。
    • 生成研究大纲:在写作前阶段,STORM AI 会基于收集的资料生成文章大纲。
    • 引用和参考资料:在生成文章的过程中,STORM AI 会引用多个来源,并在文章中标注参考资料。
    • 自动化研究过程:STORM AI 自动化地进行研究,收集和整理信息,为写作阶段提供支持。

    如何使用 STORM AI

    • 访问官方网站:首先,需要访问 STORM AI 的官方网站(storm.genie.stanford.edu)。
    • 注册账户:如果需要保存使用记录或体验个性化功能,需要注册一个账户。
    • 输入主题:在提供的界面中输入您想要生成文章的主题或关键词。
    • 生成大纲:STORM AI 将基于输入的主题自动进行研究,并生成一个包含关键点的大纲。
    • 细化问题:STORM AI 会提示您提出更具体的问题或提供更多的指导,更精确地定位研究的方向。
    • 生成文章:根据大纲和问题,STORM AI 开始撰写文章。这个过程包括从互联网上抓取信息、整合资料和引用来源。

    STROM AI 的适用人群

    • 研究人员:需要撰写学术论文或进行深入研究的学者,使用 STORM AI 快速收集资料和生成初稿。
    • 作家和编辑:从事写作和编辑工作的人员,可用 STORM AI 辅助创作,提高工作效率。
    • 维基百科编辑:维基百科的编辑者用 STORM AI 收集资料和撰写条目,确保内容的准确性和全面性。
    • 学生:需要撰写论文或进行学术研究的学生,可通过 STORM AI 获取参考资料和撰写初稿。