Category: AI项目和框架

  • PartEdit – KAUST推出的细粒度图像编辑方法

    PartEdit是什么

    PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记(称为“部分标记”),让扩散模型精准定位和编辑图像中对象的各个部分。这些部分标记学习与对象部分对应的非二进制掩码,在每个扩散步骤中实现对编辑区域的定位,结合特征混合与自适应阈值策略,无缝集成编辑内容,且保留未编辑区域。PartEdit无需重新训练模型,能实现高质量的编辑效果。PartEdit支持真实图像编辑和多部分同时编辑,为创作者提供强大的工具实现精准且富有创意的图像修改。

    PartEdit

    PartEdit的主要功能

    • 精准定位与编辑对象部分:对图像中对象的各个部分(如头部、车身、引擎盖等)进行精准定位和编辑,实现用户指定的细粒度修改。
    • 无缝集成编辑内容:基于优化的非二进制掩码和自适应阈值策略,将编辑内容与原始图像无缝融合,避免编辑区域的突兀过渡。
    • 高质量视觉效果:生成的编辑图像具有高视觉质量,保留未编辑区域的原始细节,确保编辑部分与整体图像风格一致。
    • 支持多种编辑类型:实现语义编辑(如更换对象部分)和风格调整(如改变颜色、材质等),并能够生成传统方法难以实现的复杂概念。
    • 真实图像编辑:结合图像反转技术,对真实照片进行编辑,不仅限于合成图像。
    • 多部分同时编辑:支持在推理时同时编辑多个部分,无需重新训练模型,提高编辑效率。

    PartEdit的技术原理

    • 预训练扩散模型:基于预训练的扩散模型(如SDXL)的强大生成能力,逆向扩散过程生成图像。扩散模型基于逐步去除噪声生成图像,用文本提示引导生成过程。
    • 部分标记(Part Tokens):优化特定的文本标记扩展模型对对象部分的理解。这些标记在扩散过程的每个步骤中生成可靠的非二进制掩码,用在定位编辑区域。
    • 优化过程:用二元交叉熵(BCE)损失函数,结合少量标注数据(如PASCAL-Part或PartImageNet),优化部分标记,在不同UNet块和时间步中生成与对象部分对应的注意力图。
    • 特征混合与自适应阈值策略:在扩散过程的每个时间步和UNet层,基于非二进制掩码将源图像特征与编辑图像特征进行混合。自适应阈值策略用于平滑编辑区域与未编辑区域的过渡,确保编辑的自然性。
    • 时间步选择:分析不同时间步的图像生成状态,选择中间时间步来优化大型部分的定位,对小型部分结合中间和后期时间步,实现最佳定位效果。
    • 真实图像反转:对于真实图像编辑,结合图像反转技术(如Ledits++或EF-DDPM)估计真实图像的扩散轨迹,作为源路径进行编辑。

    PartEdit的项目地址

    PartEdit的应用场景

    • 艺术创作与设计:帮助艺术家和设计师快速实现创意构思。
    • 影视与游戏制作:在影视和游戏的视觉效果制作中,快速修改角色外观或场景元素。
    • 广告设计:广告设计师快速生成产品广告的多种视觉效果。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,实时修改虚拟环境中的对象。
    • 教育行业:在教育领域,创建教学材料,帮助学生更好地理解复杂的概念。
  • BEN2 – 自动从图像和视频中移除背景深度学习模型

    BEN2是什么

    BEN2(Background Erase Network 2)是Prama LLC开发的深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。基于创新的置信度引导抠图(CGM)管道,通过精细化网络处理复杂区域,如头发和边缘,实现高精度的前景分割。BEN2在大规模数据集上训练,擅长处理高分辨率图像(如4K),支持GPU加速,处理速度极快,1080p图像仅需6秒,4K图像约20秒。

    BEN2

    BEN2的主要功能

    • 背景移除与前景分割:BEN2能自动从图像和视频中移除背景,生成高质量的前景图像。通过创新的置信度引导抠图(CGM)管道,对复杂背景和细节丰富的图像(如头发、边缘等)进行高精度分割。
    • 高分辨率处理:BEN2支持4K图像处理,确保高分辨率图像的分割效果,适用于需要高精度和高质量图像处理的应用场景。
    • 边缘精细化:通过精细化网络处理边缘,提升分割精度,适用于需要精细边缘处理的图像,如产品照片、肖像等。
    • 视频分割:BEN2可以对视频中的每一帧进行前景提取,适用于动态视频编辑。
    • 简单API与易用性:提供简洁的API,方便集成到各种应用中。
    • 批量图像处理:适合需要高效处理多个图像的场景。

    BEN2的技术原理

    • 置信度引导抠图(CGM):基础模型首先对图像进行初步分割,生成一个初步的前景掩码。置信度映射(confidence map)用于评估每个像素的分割置信度。对于置信度较低的像素,精细化网络会进一步处理,以提高分割精度。
    • 精细化网络:精细化网络专注于处理复杂的边缘区域,例如头发丝和透明物体的边缘。通过多尺度特征融合和上下文信息,精细化网络能生成更自然、更精确的边缘。
    • 深度学习架构:BEN2在DIS5k和Prama LLC的22K专有分割数据集上进行了训练,能适应多种复杂的背景和光照条件。模型采用高效的编码器-解码器架构,结合多尺度特征提取,确保在高分辨率图像(如4K)上的高效处理。
    • GPU加速与CUDA支持:BEN2支持CUDA和GPU加速,能提升处理速度。官方部署的实例可以在6秒内完成1080p图像的抠图,4K图像处理时间约为20秒。

    BEN2的项目地址

    BEN2的应用场景

    • 图像处理:适用于复杂背景和发丝区域的精准前景分割。
    • 视频分割:对视频中的每一帧进行前景提取,适用于动态视频编辑。
    • 批量图像处理:适合需要高效处理多个图像的场景。
    • 高精度分割:提供精确的边缘处理,广泛应用于专业图像合成、影视后期制作等领域。
  • Lumina-Image 2.0 – 上海 AI Lab 开源的统一图像生成模型

    Lumina-Image 2.0是什么

    Lumina-Image 2.0 是开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。在图像生成质量、复杂提示理解和资源效率方面表现出色,在文本对齐能力上达到行业领先水平,能根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器,如中点求解器、欧拉求解器和DPM求解器,生成速度较快。

    Lumina-Image 2.0

    Lumina-Image 2.0的主要功能

    • 高质量图像生成:能生成高质量的写真、艺术字、风格化图像、逻辑推理图像等。
    • 多语言支持:支持中英双语提示词,可根据不同语言的描述生成对应的图像。
    • 复杂提示词理解:对动物、人物表情等复杂提示词的理解和展示能力较强,能更准确地根据文本描述生成图像。
    • 多种推理求解器支持:支持中点求解器、欧拉求解器和DPM求解器等多种推理求解器。
    • 艺术性和风格表现:在艺术性和风格表现上表现不错,能生成多种风格的图像。
    • 与ComfyUI集成:已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。

    Lumina-Image 2.0的技术原理

    • 扩散模型:是一种生成模型,通过逐步去除噪声来生成图像。具体来说,先将图像数据添加高斯噪声,然后通过训练一个神经网络来逐步去除这些噪声,最终恢复出清晰的图像。Lumina-Image 2.0 使用了基于流的扩散模型(Flow-based Diffusion Model),在生成图像质量和复杂提示词理解方面表现出色。
    • Transformer 架构:Lumina-Image 2.0 的核心架构是 Transformer,能处理长距离依赖关系,对文本提示的理解能力更强。使用了 Gemma-2-2B 作为文本编码器,能高效地将文本提示转化为图像生成所需的特征。模型采用 FLUX-VAE-16CH 作为 VAE(变分自编码器),用于高效地编码和解码图像。
    • 多种求解器支持:为了提高生成效率和质量,Lumina-Image 2.0 支持多种推理求解器,包括中点求解器(Midpoint Solver)、欧拉求解器(Euler Solver)和 DPM 求解器。可以根据不同的生成需求和资源限制进行选择,在速度和质量之间取得平衡。
    • 高效的训练与推理:Lumina-Image 2.0 的参数量为 26 亿,相对较小的参数量在资源效率方面表现出色。模型通过优化训练流程和推理方法,能在保持高质量生成的同时,降低计算资源的消耗。

    Lumina-Image 2.0的项目地址

    Lumina-Image 2.0的应用场景

    • 艺术创作:Lumina-Image 2.0 能生成高质量的艺术风格图像,支持多种艺术风格,如油画、水彩画、数字艺术等。用户可以通过文本描述生成具有特定风格的艺术作。
    • 写真与摄影风格:模型能生成逼真的写真和摄影作品,支持高分辨率(1024×1024)图像生成。
    • 艺术字与文本融合:Lumina-Image 2.0 支持生成包含艺术字的图像,能将文本与背景图像无缝融合。用于设计海报或宣传材料。
    • 逻辑推理与复杂场景生成:Lumina-Image 2.0 在逻辑推理和复杂场景生成方面表现出色。用户可以通过详细的文本描述生成复杂的图像,
  • AstrBot – 开源多平台聊天机器人及开发框架

    AstrBot是什么

    AstrBot是多平台聊天机器人及开发框架,支持多种大语言模型(如 OpenAI GPT、Google Gemini、Llama 等)和多种消息平台(如 QQ、Telegram、微信等)。AstrBot具备多轮对话、语音转文字、网页搜索等功能,提供代码执行器和可视化管理面板,方便用户配置和扩展。AstrBot 基于模块化设计,支持插件开发,能一键部署到多种环境(如 Docker、Windows、Replit 等)。

    AstrBot

    AstrBot的主要功能

    • 多语言模型支持:支持 OpenAI GPT、Google Gemini、Llama、DeepSeek、ChatGLM 等多种大语言模型,且支持基于 Ollama 和 LLMTuner 接入本地部署的大模型。
    • 多平台接入:支持 QQ(OneBot)、QQ频道、微信(Gewechat、企业微信)、Telegram 等消息平台,后续将支持钉钉、飞书、Discord 等。
    • Agent 功能:原生支持代码执行器、自然语言待办事项、网页搜索等功能,能对接 Dify 平台,实现智能助手和知识库的接入。
    • 插件扩展:提供深度优化的插件机制,支持开发者基于插件扩展功能,降低开发门槛。
    • 可视化管理:提供可视化面板,支持配置修改、插件管理、日志查看等功能,集成 WebChat,在面板上与机器人直接对话。
    • 多模态交互:支持图片理解和语音转文字(Whisper),具备多轮对话和人格情境功能。
    • 高稳定性与模块化:基于事件总线和流水线架构设计,高度模块化,低耦合,便于扩展和维护。

    AstrBot的技术原理

    • 异步通信架构:基于异步编程模型,高效处理多平台的消息交互,提升系统响应速度和并发处理能力。
    • 事件驱动机制:基于事件总线设计,将消息接收、处理和发送解耦,让各个模块独立运行,提高系统的灵活性和可扩展性。
    • 流水线处理:消息处理采用流水线模式,将消息解析、预处理、模型调用、后处理等步骤按顺序执行,便于功能扩展和维护。
    • 插件系统:基于插件机制,开发者能轻松扩展机器人功能。插件支持独立开发和部署,不影响主程序运行。
    • 多语言模型接入:支持多种大语言模型的接入,基于标准化的接口与不同模型进行通信,实现灵活的模型切换和扩展。

    AstrBot的项目地址

    AstrBot的应用场景

    • 企业客服支持:部署在企业微信、QQ 频道等平台,作为智能客服机器人,快速响应客户咨询,解答常见问题,提供24小时不间断服务,提升客户满意度和运营效率。
    • 个人生活助手:在微信、Telegram 等平台上作为个人生活助手,帮助用户管理待办事项、提醒日程安排、搜索信息,用语音转文字功能实现更便捷的交互。
    • 教育辅导工具:在教育场景中辅助学习,帮助学生解答问题、提供学习资料、进行语言练习,基于代码执行器辅助编程学习。
    • 社区管理与互动:在 QQ 频道或 Discord 等社区平台中,帮助管理员管理社区,自动回复常见问题,组织活动,用插件功能实现投票、签到等互动功能,增强社区活跃度。
    • 开发者工具集成:开发者作为开发工具的一部分,实现代码片段分享、API 调试、自动化任务执行等功能,提升开发效率。
  • NutWorld – 新加坡国立、南洋理工和Skywork AI推出的视频处理框架

    NutWorld是什么

    NutWorld是新加坡国立大学、南洋理工大学和Skywork AI推出的视频处理框架,能将日常单目视频高效地转换为动态3D高斯表示(Gaussian Splatting)。NutWorld基于时空对齐高斯(STAG)表示法,在单次前馈传递中实现视频的时空连贯建模,解决传统方法在复杂运动和遮挡下的局限性。NutWorld结合深度和光流正则化技术,有效解决单目视频中的空间模糊和运动不确定性问题。NutWorld支持用高保真度重建视频,实时支持多种下游任务,如新视图合成、视频编辑、帧插值和一致深度预测等。

    NutWorld

    NutWorld的主要功能

    • 高效视频重建:将日常单目视频转换为动态3D高斯表示(Gaussian Splatting),用高保真度重建视频内容。
    • 实时处理能力:支持实时处理,显著优于传统的优化方法。
    • 多种下游任务支持
      • 新视图合成:从单目视频生成新的视角。
      • 视频编辑:支持精确的帧级编辑和风格化。
      • 帧插值:生成中间帧提高视频帧率。
      • 一致深度预测:提供时空连贯的深度估计。
      • 视频对象分割:基于传播对象掩码实现目标分割。
    • 时空连贯性:基于结构化的时空对齐高斯(STAG)表示,确保视频在时间和空间上的连贯性。

    NutWorld的技术原理

    • 时空对齐高斯(STAG)表示:将视频中的每个像素与一个3D高斯分布相关联,基于时空对齐的方式约束高斯分布。每个高斯分布具有位置、尺度、颜色、不透明度等属性,基于可变形场(deformation field)捕捉时间动态。
    • 前馈网络架构:基于Transformer的编码器-解码器架构,将输入视频帧映射到STAG表示。编码器基于Transformer块处理输入帧,捕捉时空对应关系;解码器预测静态高斯属性及其可变形场,支持高效的前馈预测。
    • 深度和光流正则化:引入深度正则化和光流正则化。深度正则化基于校准的单目深度先验增强深度预测的鲁棒性。光流正则化用预计算的光流场监督高斯分布的运动轨迹,确保时间连贯性。
    • 基于片段的推理:基于片段的推理策略,将长视频分割成多个重叠的片段进行处理。在重叠帧中传播高斯分布,保持全局时空一致性。

    NutWorld的项目地址

    NutWorld的应用场景

    • 视频内容创作与编辑:用在新视图合成,从单目视频生成新视角;支持帧插值提高视频帧率;实现精确的视频编辑和风格化,为视频创作者提供强大的工具。
    • 增强现实与虚拟现实:实时重建动态3D场景,为AR/VR应用提供更准确的场景理解;自然融合虚拟对象到现实场景,增强用户体验。
    • 自动驾驶与机器人视觉:高效重建动态场景,提供深度和运动信息,助力自动驾驶环境感知;支持机器人在复杂环境中实时建模和人机交互。
    • 游戏开发:实时生成高质量3D场景,支持交互式内容和流畅游戏体验。
    • 培训行业:用在驾驶、飞行等培训模拟,提供逼真的动态场景,提高培训效果。
  • Eino – 字节跳动开源的大模型应用开发框架

    Eino是什么

    Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生态。Eino 的核心是组件化设计,基于定义不同的组件(如 ChatModel、Lambda 等)和编排方式(如 Chain 和 Graph),开发者能灵活地构建复杂的业务逻辑。Eino支持流式处理,自动处理流的拼接和复制等细节,提升应用性能。Eino 提供可视化开发工具 EinoDev,降低开发门槛,结合 Langfuse 平台进行运行观测。

    Eino

    Eino的主要功能

    • 丰富的组件:将常见构建模块抽象为组件,每个组件有多种实现,支持嵌套和复杂业务逻辑。
    • 强大的编排:基于图编排实现数据流的有向、可控传输,支持类型检查、流处理、并发管理等。
    • 完善的流处理:自动处理流式与非流式数据的转换、拼接、合并和复制。
    • 高扩展性的切面(Callbacks):支持多种切面,用在日志记录、追踪、指标统计等,用暴露组件实现的内部细节。

    Eino的技术原理

    • 组件化架构:Eino 将应用逻辑拆分为多个组件,每个组件负责特定的功能(如文本生成、数据检索、工具调用等)。组件基于定义好的接口进行交互,开发者根据需求选择或实现具体的组件。
    • 图编排引擎
      • 用图(Graph)表示组件之间的依赖关系和执行顺序。
      • 每个组件是一个节点(Node),节点之间的连接关系(边 Edge)定义数据的流转路径。
      • 支持分支逻辑(Branch),根据条件动态选择不同的执行路径。
    • 流式处理机制:支持流式输入和输出,用组件处理实时数据流。基于流式处理,自动处理流的拼接(Concat)和流化(T -> StreamReader[T]),提升应用的实时性和性能。
    • 回调机制(Callbacks):提供 Callbacks 机制,支持开发者在组件运行的开始和结束时插入自定义逻辑。基于回调函数,开发者实现日志记录、性能监控等功能。
    • 向量化知识库:提供工具将知识库内容进行向量化处理,并存储到向量数据库(如 Redis)中。在应用运行时,基于语义检索从知识库中召回相关信息,增强应用的知识背景支持。
    • 可视化开发工具:提供 EinoDev 插件,支持可视化界面进行组件选择和编排。开发者用拖拽组件的方式快速构建应用逻辑,并生成对应的代码。

    Eino的项目地址

    Eino的应用场景

    • 智能客服与聊天机器人:为用户提供高效、智能的客户服务,快速解答常见问题并处理复杂请求。
    • 智能办公助手:帮助员工高效安排会议、生成会议纪要、管理文件等,提升工作效率。
    • 知识管理系统:构建企业内部知识问答系统,帮助员工快速获取所需信息,提升知识共享效率。
    • 内容创作与生成:为内容创作者提供高效生成文章、故事、脚本等的智能助手,提升创作效率和质量。
    • 智能医疗助手:帮助患者获取医疗建议、预约挂号等,提升医疗服务的便捷性。
  • MAETok – 港大联合北大等机构推出的自动编码器

    MAETok是什么

    MAETok(Masked Autoencoders Tokenizer)是卡内基梅隆大学、香港大学、北京大学等机构推出的扩散模型的新型图像标记化方法。MAETok基于掩码建模(Mask Modeling)训练自编码器(AE),在编码器中随机掩盖部分图像标记,用解码器重建标记的特征,学习到更具区分性的语义丰富潜在空间。MAETok的核心优势在于能生成高质量图像,显著提升训练效率和推理吞吐量。在实验中,MAETok使用128个标记,能在ImageNet 256×256和512×512分辨率上实现与以往最佳模型相当甚至更优的生成性能,证明了在高分辨率图像生成中的有效性。

    MAETok

    MAETok的主要功能

    • 高效图像生成:基于改进的潜在空间结构,生成高质量的图像,尤其在高分辨率图像生成任务中表现优异。
    • 自监督学习:在训练过程中通过重建掩盖的图像标记,学习到更具语义丰富性的潜在表示。
    • 提升训练效率:显著减少训练时间和计算资源消耗,提供更快的训练和推理吞吐量。
    • 多样化特征预测:同时预测多种特征(如HOG、DINOv2、CLIP等),增强模型的表达能力。
    • 灵活的潜在空间设计:在不同的任务中灵活调整潜在空间的结构,适应不同的生成需求。

    MAETok的技术原理

    • 掩码建模:在训练过程中,随机选择一定比例的图像标记进行掩盖,用可学习的掩码标记替代。编码器基于处理未掩盖的标记学习潜在空间,解码器则重建掩盖的标记特征。
    • 自编码器架构:采用自编码器(AE)架构,用简单的AE而非变分自编码器(VAE),避免复杂的变分约束,简化训练过程。
    • 辅助解码器:引入多个辅助浅层解码器,分别预测不同的特征目标,让模型能学习到更丰富的语义信息,同时保持高重建保真度。
    • 潜在空间优化:MAETok基于掩码建模和辅助解码器的结合,优化潜在空间的结构,更具区分性和语义性,提高扩散模型的生成性能。

    MAETok的项目地址

    MAETok的应用场景

    • 娱乐行业:影视特效、游戏开发和虚拟现实生成高分辨率图像,提供高质量的图像素材。
    • 数字营销:在广告设计、创意艺术和数字媒体制作等领域,根据用户输入的草图或部分图像生成完整的图像,或对现有图像进行风格化转换。
    • 计算机领域:在机器学习和计算机视觉领域,生成多样化的图像样本,提高模型的泛化能力和鲁棒性。
    • 虚拟内容创作:虚拟现实(VR)、增强现实(AR)和元宇宙等新兴领域生成虚拟角色、场景和物体。
    • 艺术创作与设计:作为艺术家和设计师的工具,生成创意图像和设计概念。
  • ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

    ASAP是什么

    ASAP(Aligning Simulation and Real Physics)是卡内基梅隆大学和英伟达联合推出的,用在解决仿人机器人模拟与现实动力学不匹配问题的两阶段框架。ASAP基于预训练阶段在模拟环境中学习运动跟踪策略,用人类运动数据生成目标动作。在后训练阶段,ASAP收集真实世界的运动数据,训练Delta动作模型补偿模拟与现实之间的动力学差异,基于微调策略使其适应真实物理环境。框架显著提高了仿人机器人在复杂运动中的敏捷性和全身协调能力,降低了运动跟踪误差,实现从模拟到现实的高效技能迁移,为开发更具表现力和敏捷性的仿人机器人提供新的技术路径。

    ASAP

    ASAP的主要功能

    • 敏捷全身技能的迁移:将模拟环境中训练得到的运动控制策略高效地迁移到真实机器人上,执行复杂的全身运动,如跳跃、平衡、快速转身等。
    • 动力学补偿与适应:基于学习Delta动作模型,自动补偿模拟与现实之间的动力学差异,包括硬件特性、摩擦力、惯性参数等,让机器人在真实环境中表现出与模拟中类似的性能。
    • 提高运动跟踪精度:显著降低机器人在执行任务时的运动跟踪误差,提高动作的准确性和稳定性,在复杂的动态任务中能保持良好的性能。
    • 增强的泛化能力:框架适用于预训练时使用的特定运动,能对未见过的运动(即“out-of-distribution”)进行有效适应,增强机器人在真实世界中的泛化能力。

    ASAP的技术原理

    • 预训练阶段(Pre-training)
      • 数据生成:从人类运动视频中提取动作数据,重新定位到机器人模型上,生成用于训练的运动数据集。
      • 运动跟踪策略训练:在模拟环境中,用强化学习(Reinforcement Learning, RL)训练运动跟踪策略,让机器人能跟踪预定义的动作轨迹。策略基于时间相位变量进行训练,适应不同长度的动作序列。
    • 后训练阶段(Post-training)
      • 真实世界数据收集:将预训练的策略部署到真实机器人上,收集在执行任务时的运动数据,包括关节位置、速度、加速度等信息。
      • Delta动作模型训练:基于收集到的真实世界数据,训练Delta动作模型。模型基于最小化模拟状态和真实状态之间的差异,学习如何补偿动力学不匹配。具体来说,Delta动作模型输出一个“修正动作”(delta action),添加到原始动作中,调整模拟环境的动力学特性。
      • 策略微调:将训练好的Delta动作模型集成到模拟器中,对预训练的运动跟踪策略进行微调。基于在修正后的模拟环境中继续训练,策略能更好地适应真实世界的物理特性,提高在真实机器人上的表现。

    ASAP的项目地址

    ASAP的应用场景

    • 体育与表演:机器人模拟运动员动作,用在体育训练、动作分析和表演,提升视觉效果。
    • 灾难救援:机器人执行敏捷动作,快速到达危险区域执行救援任务,提高救援效率。
    • 工业制造:机器人适应复杂工业任务,提高生产效率和灵活性,减少错误。
    • 家庭服务:机器人完成日常家务,协助老人或残疾人,提供便利和安全支持。
    • 虚拟现实与游戏:生成逼真虚拟角色动作,提升游戏沉浸感和开发效率。
  • SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架

    SANA 1.5是什么

    SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SANA 1.0 的基础上进行了改进,提出了三大创新点:高效的训练扩展,通过深度增长范式,将模型从 16 亿参数扩展到 48 亿参数,显著减少计算资源,结合了高效的 8 位优化器。模型深度剪枝,通过分析块重要性,对模型进行高效压缩,能在不同计算预算下灵活调整模型大小。推理时扩展,通过重复采样和基于视觉语言模型(VLM)的选择机制,使小模型在推理时能达到大模型的质量。

    SANA 1.5

    SANA 1.5的主要功能

    • 高效训练扩展:SANA 1.5 采用深度增长范式,能将模型从 16 亿参数扩展到 48 亿参数,显著减少计算资源。
    • 模型深度剪枝:SANA 1.5 引入了基于块重要性分析的模型压缩技术,能将大型模型高效地压缩到任意大小,最小化质量损失。通过分析扩散变换器中输入输出的相似性模式,剪枝不重要的块,通过微调快速恢复模型质量。
    • 推理时扩展:SANA 1.5 提出了推理时扩展策略,通过重复采样和基于视觉语言模型(VLM)的选择机制,使小型模型在推理时能达到大型模型的质量。
    • 多语言支持:SANA 1.5支持多语言文本输入,包括中文、英文和表情符号,适用全球化的内容创作和本地化设计。
    • 开源与社区支持:SANA 1.5的代码和预训练模型已经开源,研究人员和开发者可以进行定制和扩展,进一步推动其在学术研究和工业应用中的普及。
    • 推理效率:通过CAME-8bit优化器,SANA 1.5能在单个消费级GPU上进行大规模模型微调,使高质量图像生成更加高效和可访问。

    SANA 1.5的性能测试

    • 模型增长(Model Growth):SANA 1.5通过模型增长策略,从16亿参数扩展到48亿参数,GenEval分数从0.66提高到0.72,接近行业领先的Playground v3(24亿参数)的0.76,但推理延迟降低了5.5倍。
    • 模型剪枝(Model Pruning):通过深度剪枝,SANA 1.5能在不同计算预算下灵活调整模型大小。例如,将48亿参数模型剪枝到16亿参数后,经过100步微调,GenEval分数达到0.672,超过了SANA 1.0 16亿参数模型的0.664。
    • 推理时扩展(Inference Scaling):通过生成多个样本并基于VLM选择最佳样本,SANA 1.5的GenEval分数从0.72提高到0.80,超过了Playground v3的0.76。

    SANA 1.5的项目地址

    SANA 1.5的应用场景

    • 创意设计:SANA 1.5 能根据文本提示生成高质量的图像,适用于创意设计领域,如广告设计、插画创作、游戏美术等。
    • 教学辅助:教师可以用 SANA 1.5 生成与课程相关的图像,帮助学生更好地理解抽象概念。
    • 影视制作:在影视制作中,SANA 1.5 可以生成概念艺术、场景设计图等,帮助导演和美术指导快速构思和验证创意。
    • 工程设计:工程师可以用 SANA 1.5 生成工程设计的视觉效果图,帮助团队更好地理解设计意图和优化设计方案。
    • 移动应用:通过模型深度剪枝和推理时扩展,SANA 1.5 可以在移动设备上高效运行,为移动应用提供实时图像生成功能。
    • 内容审核:结合安全检查模型(如 ShieldGemma-2B),SANA 1.5 可以在生成图像前对用户输入的文本进行审核,确保生成的内容符合安全标准,避免生成不当内容。
  • LIMO – 上海交大推出的高效推理方法,仅需817条训练样本

    LIMO是什么

    LIMO(Less Is More for Reasoning)是上海交通大学研究团队提出的高效推理方法,通过极少量高质量的训练样本激活大语言模型(LLM)的复杂推理能力。核心假设是在预训练阶段已经具备丰富知识基础的模型中,复杂的推理能力可以通过少量但精心设计的训练样本被有效激活。 LIMO仅使用817个训练样本,在多个数学推理基准测试中取得显著的性能提升。

    LIMO

    LIMO的主要功能

    • 高效推理激活:LIMO仅使用817个精心策划的训练样本,在多个数学推理基准测试中取得了显著的性能提升。在AIME基准测试中,LIMO的准确率达到了57.1%,在MATH基准测试中达到了94.8%,相比之前的模型分别提升了50.6个百分点和35.6个百分点。
    • 出色的泛化能力:LIMO在10个不同的基准测试中展现了卓越的分布外泛化能力,平均准确率达到了72.8%,相比使用100倍数据训练的模型,LIMO实现了40.5%的绝对性能提升。
    • 验证“少即是多”假设:LIMO的研究提出了“少即是多推理假设”(LIMO Hypothesis),即在基础模型中,当领域知识在预训练阶段已被全面编码时,复杂的推理能力可以通过最少但精确编排的认知过程示范出现。
    • 数据高效性:LIMO仅使用了之前方法所需训练数据的1%,挑战了传统观点认为复杂的推理任务需要大量训练数据的假设。

    LIMO的技术原理

    • 核心假设:LIMO的核心假设是“少即是多推理假设”(LIMO Hypothesis):在基础模型中,当领域知识在预训练中已被全面编码时,可以通过对认知过程的最小但精确组织的示例而出现。假设认为,复杂推理的引发门槛并不固有地受到目标推理任务复杂性的限制,是由两个关键因素决定:
      • 模型在预训练期间编码的知识基础的完整性:现代基础模型在预训练过程中整合了前所未有数量的数学内容。例如,Llama 2和Llama 3在数学推理方面的训练数据分别达到了1.8T和3.7T代币。
      • 训练后的范例的有效性:这些范例作为“认知模板”展示了模型如何有效运用现有的知识基础来解决复杂的推理任务。
    • 问题定义:LIMO关注于具有可验证答案的推理任务,目标是生成一个答案和一个推理链。
    • 问题选择:选择能促进复杂推理链、多样化思考过程和知识整合的挑战性问题。
    • 推理链构建:收集官方解决方案,补充人类专家和AI专家撰写的解决方案,基于最先进的推理模型生成多样化的解决方法。
    • 训练协议:使用监督微调在LIMO数据集上对大型语言模型进行微调,采用完整参数微调,使用DeepSpeed ZeRO-3优化和FlashAttention-2。

    LIMO的项目地址

    LIMO的应用场景

    • 教育领域:LIMO提升学生的逻辑思维和复杂问题解决能力。通过少量但高质量的推理训练样本,LIMO可以帮助学生更好地理解和掌握复杂的数学和逻辑推理过程。
    • 科学研究:在科学研究中,LIMO可以用于复杂问题的建模和分析。在数学和物理领域,LIMO可以帮助研究人员快速验证和优化复杂的理论模型。
    • 工业应用:LIMO可以用于优化生产流程和质量控制。LIMO可以帮助企业快速识别和解决生产中的复杂问题,提高生产效率和产品质量。
    • 医疗领域:LIMO可以用于辅助诊断和治疗方案的优化。通过少量高质量的医疗案例,LIMO可以帮助医生快速识别复杂的疾病模式,提供更准确的诊断建议。