Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • FlexiAct – 清华联合腾讯推出的动作迁移模型

    FlexiAct是什么

    FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较大或跨域的异构场景中,实现精准的动作适配与外观一致性。模型引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,解决现有方法在布局、视角和骨架结构差异方面的限制,保持身份一致性。FlexiAct在人物和动物的动作迁移上均表现出色,具有广泛的应用前景。

    FlexiAct

    FlexiAct的主要功能

    • 跨主体动作迁移:支持将动作从一个人物迁移到另一个人物,或从人物迁移到动物。
    • 保持外观一致性:在迁移动作的同时,确保目标主体的外观(如服装、发型等)与原始目标图像保持一致。
    • 灵活的空间结构适配:在参考视频和目标图像在布局、视角和骨架结构上存在差异时,也能实现动作的自然迁移。

    FlexiAct的技术原理

    • RefAdapter(空间结构适配器):RefAdapter 是轻量级的图像条件适配器,主要作用是解决参考视频和目标图像之间的空间结构差异问题。在训练过程中随机选择视频帧作为条件图像,最大化空间结构的差异性。让模型能适应不同的姿态、布局和视角,同时保持外观一致性。注入少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现灵活的空间适配,避免传统方法中严格的约束。
    • 频率感知动作提取:FAE 是创新的动作提取模块,直接在去噪过程中完成动作提取,不依赖于独立的时空架构。FAE 观察到在去噪的不同时间步中,模型对运动(低频)和外观细节(高频)的关注程度不同,在早期时间步中,模型更关注运动信息;在后期时间步中,模型更关注外观细节。FAE 基于动态调整注意力权重,优先在早期时间步提取运动信息,在后期时间步关注外观细节,实现精准的动作提取和控制。

    FlexiAct的项目地址

    FlexiAct的应用场景

    • 影视制作:快速生成逼真的角色动作,减少拍摄成本。
    • 游戏开发:为游戏角色生成多样化动作,提升游戏体验。
    • 广告营销:生成虚拟代言人动作,增强广告吸引力。
    • 教育培训:生成教学和康复训练动作,辅助学习和恢复。
    • 娱乐互动:支持用户创作有趣视频,提升娱乐体验。
  • ICEdit – 浙江大学联合哈佛大学推出的指令式图像编辑框架

    ICEdit是什么

    ICEdit(In-Context Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力,用自然语言指令对图像进行精准编辑。ICEdit仅需0.1%的训练数据和1%的可训练参数,相比传统方法大幅减少资源需求,在多轮编辑和多任务编辑中表现出色。ICEdit具备开源、低成本、快速处理(单张图像约9秒)等优势,适合广泛的应用场景。

    ICEdit

    ICEdit的主要功能

    • 指令驱动的图像编辑:基于自然语言指令对图像进行精准修改,例如更换背景、添加文字、改变人物服装等。
    • 多轮编辑:支持连续多次编辑,每次编辑基于前一次的结果,适合复杂创作需求。
    • 风格转换:支持将图像转换为不同艺术风格,如水彩画、漫画等。
    • 对象替换与添加:替换图像中的对象或添加新元素,如将人物替换为卡通角色。
    • 高效处理:处理速度快(单张图像约9秒),适合快速生成和迭代。

    ICEdit的技术原理

    • 上下文编辑框架(In-Context Editing Framework):基于“上下文提示”(In-Context Prompting),将编辑指令嵌入到生成提示中,模型基于处理提示生成编辑后的图像。无需对模型架构进行修改,避免传统方法中复杂的结构调整。基于上下文理解,模型直接生成符合指令的编辑结果。
    • LoRA-MoE混合微调策略(LoRA-MoE Hybrid Fine-Tuning):结合参数高效的LoRA(Low-Rank Adaptation)适配器和动态专家路由(Mixture-of-Experts, MoE)。LoRA基于低秩矩阵分解,高效地调整模型参数,适应不同的编辑任务。MoE基于动态选择最适合当前任务的专家模块,进一步提升编辑质量和灵活性。仅需少量数据(50K样本)进行微调,显著提高编辑成功率。
    • 推理时早期筛选策略(Early Filter Inference-Time Scaling):在推理阶段,基于视觉语言模型(VLM)评估早期生成的噪声样本,筛选出最符合编辑指令的初始噪声。用少量步骤(如4步)评估编辑效果,快速选择最优的初始噪声,进一步提高编辑质量。

    ICEdit的项目地址

    ICEdit的应用场景

    • 创意设计:将照片转为艺术风格(如水彩画),或添加创意元素,用在设计和广告。
    • 影视制作:快速生成角色设计或场景概念图,辅助影视前期开发。
    • 社交媒体:编辑个人照片(如换背景、加特效),制作吸引人的社交内容。
    • 教育领域:生成教学用图,如将历史人物转为漫画风格,辅助教学。
    • 商业广告:快速制作产品宣传图,如更换背景、添加品牌标志。
  • Amazon Nova Premier – 亚马逊推出的多模态AI模型

    Amazon Nova Premier是什么

    Amazon Nova Premier 是亚马逊推出功能最强大的多模态 AI 模型,能处理文本、图像和视频输入(不包括音频),擅长处理需要深度理解上下文、多步骤规划以及跨多工具和数据源精确执行的复杂任务。支持高达100万token的上下文长度,可处理超长文档或大型代码库。 Nova Premier 可作为教师模型,通过 Amazon Bedrock 的模型蒸馏功能,创建更小、更快、更经济的模型版本(如 Nova Pro、Lite 和 Micro),优化生产环境中的延迟和成本。在17项基准测试中,在知识检索和视觉理解等方面表现出色,在数学、科学知识和编程能力测试中有待提升。

    Amazon Nova Premier

    Amazon Nova Premier的主要功能

    • 处理多种输入:能处理文本、图像和视频输入(不包括音频),适用于跨文档理解、视觉分析、视频摘要或结合多种模式的工作流程。
    • 超长上下文处理:支持高达100万token的上下文长度,能处理超长文档或大型代码库。
    • 深度上下文理解:擅长处理需要深度理解上下文的复杂任务。
    • 多步骤规划与执行:能进行多步骤规划并精确执行跨多工具和数据源的任务。
    • 协调多智能体协作:可作为监督智能体,协调整个工作流,将复杂任务分解为子任务并分配给不同的子智能体,然后整合结果形成最终响应。
    • 作为教师模型:通过 Amazon Bedrock 的模型蒸馏功能,可将自身能力传递给更小的模型(如 Nova Pro、Lite 或 Micro),创建出更小、更快、更经济高效的模型版本。
    • 优化生产部署:蒸馏后的模型在保持性能的同时,能够优化延迟和成本,适合生产环境中的大规模部署。
    • 内置安全控制措施:促进负责任的 AI 应用,其内容审核功能有助于在各种应用程序中保持适当的输出。
    • 支持多种语言:支持超过200种语言,并针对全球和特定用途进行了优化。
    • 高性价比:在 Amazon Bedrock 中,Nova Premier 是同类产品中速度最快、性价比最高的型号,适合大规模企业部署。

    Amazon Nova Premier的技术原理

    • 混合推理技术:Nova Premier 采用了“混合推理”技术,融合了符号推理与连接主义方法。结合了符号推理的逻辑严谨性与神经网络的学习泛化能力,使模型在处理复杂问题时能够像人类一样思考,快速理清思路并找到解决方案。
    • 多模态处理能力:Nova Premier 支持处理文本、图像和视频输入(不包括音频),具备高达一百万token的上下文处理能力。能处理大型技术文件、庞大程序代码库或多来源资讯集成的场景。多模态处理能力成为跨文档理解、视觉分析、视频摘要或结合多种模式的工作流程的理想助手。
    • 复杂任务处理能力:Nova Premier 擅长处理需要深度理解上下文、多步骤规划以及需要精确执行的跨多工具和数据来源的复杂任务。它可以作为监督智能体,协调整个工作流,将复杂任务分解为子任务并分配给不同的子智能体,然后整合结果形成最终响应。例如,在金融投资研究中,Nova Premier 可以将复杂查询分解为逻辑步骤,确定要使用的专用子智能体,并整合来自不同金融数据源的结果,生成完整分析报告。
    • 模型蒸馏能力:Nova Premier 可以作为教师模型,通过 Amazon Bedrock 的模型蒸馏功能,创建更小、更快、更经济高效的模型版本(如 Nova Pro、Lite 和 Micro)。模型蒸馏通过教师模型生成预期输出来创建高质量训练数据,从而简化数据获取流程。
    • 安全与合规性:Nova Premier 具有内置安全控制措施,可促进负责任的 AI 应用,内容审核功能有助于在各种应用程序中保持适当的输出。

    Amazon Nova Premier的项目地址

    Amazon Nova Premier的应用场景

    • 投资研究与分析:在金融投资领域,Nova Premier 可以作为监督智能体,协调整个研究工作流。
    • 风险评估与建模:Nova Premier 可以处理大量的市场数据,帮助金融机构进行风险评估和建模,制定更加科学的投资策略。
    • 法律文书分析:Nova Premier 支持高达一百万token的上下文处理能力,能快速分析成千上万页的法律文书,帮助律师提高工作效率。
    • 大型企业知识图谱构建:Nova Premier 可以用于构建大型企业的知识图谱,整合企业内部的各种数据源,帮助企业更好地管理和利用知识资源。
    • 代码生成与调试:Nova Premier 在软件开发中可以自动生成代码,通过符号系统预判多线程环境下的资源冲突,将调试效率提升40%。
  • VPP – 清华和星动纪元推出的首个AIGC机器人大模型

    VPP是什么

    VPP(Video Prediction Policy)是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型,学习互联网上的大量视频数据,直接预测未来场景生成机器人动作。VPP能提前预知未来,实现高频预测和动作执行,支持跨人形机器人本体切换,显著降低对高质量机器人真机数据的依赖。VPP在Calvin ABC-D基准测试中取得接近满分的成绩,在真实世界的复杂灵巧操作任务中表现出色。VPP的开源为具身智能机器人的发展提供强大的技术支持。

    VPP

    VPP的主要功能

    • 提前预测未来场景:让机器人在行动前“看到”未来,增强泛化能力。
    • 高频预测与动作执行:实现6-10Hz的预测频率和超过50Hz的控制频率,提升动作流畅性。
    • 跨机器人本体学习:直接学习不同形态机器人的视频数据,包括人类操作数据,降低数据获取成本。
    • 多任务学习与泛化:在复杂的真实世界任务中表现出色,例如抓取、放置、堆叠、倒水和工具使用。
    • 可解释性与调试优化:基于预测视频提前发现失败场景,便于开发者进行针对性优化。

    VPP的技术原理

    • 视频扩散模型(VDM)的预测性视觉表示:基于预训练的视频扩散模型(如Stable Video Diffusion)学习预测未来场景。视频扩散模型基于单步去噪生成预测性视觉表示,视觉表示包含当前帧,能明确表示未来帧。
    • 动作学习:用Video Former聚合预测性视觉表示,提取时空信息。基于扩散策略(Diffusion Policy)生成机器人动作,实现从预测到执行的无缝过渡。
    • 优化与泛化:VPP基于互联网视频数据和机器人操作数据进行训练,减少对高质量真机数据的依赖。基于跨本体学习,VPP能直接学习不同形态机器人的视频数据,提升模型的泛化能力。

    VPP的项目地址

    VPP的应用场景

    • 家庭服务:完成家务(倒水、拿东西)、照顾老人或儿童(递送物品)。
    • 工业制造:用在零件抓取、货物搬运和堆叠,提高生产效率。
    • 医疗辅助:协助手术器械传递、康复训练和病房物品递送。
    • 教育与研究:帮助学生理解复杂操作流程,用在实验室实验操作。
    • 服务行业:如餐厅送餐、酒店行李搬运和公共场合导览。
  • Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型

    Gemini 2.5 Pro (I/O 版)是什么

    Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破,擅长构建交互式 Web 应用、游戏和模拟程序。用户仅需提供提示词或手绘草图加功能描述,能快速生成功能完备的应用。Gemini 2.5 Pro (I/O 版) 在 WebDev Arena 排行榜上超越前代,Elo 分数大幅提升 147 分。模型支持根据自然图像生成代码,在视频理解方面表现出色,VideoMME 基准测试得分高达 84.8%。Gemini 2.5 Pro (I/O 版) 已集成到 Gemini APP、Vertex AI 和 Google AI Studio 中,供开发者使用。

    Gemini 2.5 Pro 最新版Gemini 2.5 Pro(06-05)是Gemini 2.5 Pro (I/O 版) 升级版模型,在数学、编程和推理基准测试中全面超越Gemini 2.5 Pro (I/O 版) 及其他竞争对手,在数学、编程和推理基准测试中全部刷新SOTA记录,全面超越o3Claude 4DeepSeek-R1等竞争对手。性能显著提升,性价比极高,引入“思考预算”等功能。

    Gemini 2.5 Pro正式版现已上线,模型在视频理解测试中表现出色,能在 46 分钟的视频里精准定位到某一秒的关键信息。在多个权威测试榜单上,模型性能超过包括 Claude 3 Opus、DeepSeek R1 等在内的模型。Gemini 2.5 Pro 目前在 Google AI Studio、Vertex AI 和 Gemini 应用中已上线。

    gemini-2-5-pro-i-o-edition

    Gemini 2.5 Pro (I/O 版)的主要功能

    • Gemini 2.5 Pro (I/O 版)
      • 高效 Web 应用开发:Gemini 2.5 Pro (I/O 版) 能基于简单的提示词或手绘草图快速生成功能完备的 Web 应用。支持复杂交互设计,帮助开发者高效构建美观且实用的界面。
      • 代码生成与编辑:模型能生成多种编程语言的代码,支持代码转换、编辑和优化。模型能理解自然语言描述,直接生成可运行的代码片段,提升开发效率。
      • 多模态内容生成:支持从图像、视频等多模态输入生成代码。
      • 复杂工作流开发:模型能开发复杂的智能体工作流,支持多任务协作和自动化流程设计。
      • 长上下文理解:支持处理复杂的逻辑和语义关系,适合开发需要深度语义理解的应用。
    • Gemini 2.5 Pro(06-05)
      • “思考预算”功能:支持开发者设置最高达32k的思考预算,更好地控制模型的计算成本和响应延迟。
      • 函数调用:对函数调用等功能进行优化,提升模型的性能和灵活性。

    Gemini 2.5 Pro (I/O 版)的技术原理

    • 基于深度学习的架构:基于 Transformer 架构,大规模预训练和微调,学习编程语言的语法、逻辑和语义模式。
    • 多模态融合技术:模型结合文本、图像和视频等多种模态的输入,基于跨模态编码器和解码器,将不同模态的信息融合,实现从图像生成代码或从视频生成交互式应用的功能。
    • 强化学习优化:在训练过程中,Gemini 2.5 Pro (I/O 版) 用强化学习优化生成代码的质量和效率。基于与环境的交互,模型不断调整自身行为,减少错误提升性能。
    • 上下文感知生成:基于长上下文建模能力,理解代码片段之间的逻辑关系,生成连贯且功能完整的代码。

    Gemini 2.5 Pro (I/O 版)的项目地址

    Gemini 2.5 Pro (I/O 版)的应用场景

    • Web 应用开发:快速从草图或描述生成交互式网页和应用,适合快速开发各类网站。
    • 游戏开发:根据描述生成游戏代码和界面,支持快速开发休闲或复杂游戏。
    • 教育工具开发:将视频或图像转化为互动学习应用,提升教学效率。
    • 虚拟现实与增强现实:快速构建虚拟场景,如虚拟博物馆或城市模拟器,支持沉浸式体验。
    • 企业级应用:生成复杂的企业级系统,支持多任务协作和自动化工作流。
  • Granite 4.0 Tiny Preview – IBM推出的语言模型

    Granite 4.0 Tiny Preview是什么

    Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 语言模型家族中最小的模型的预览版本。Granite 4.0 Tiny Preview用极高的计算效率和紧凑的模型结构为特点,在消费级 GPU 上能运行多个长上下文(128K)任务,性能接近 Granite 3.3 2B Instruct,内存需求减少约 72%。模型用创新的混合 Mamba-2/Transformer 架构,结合 Mamba 的高效性和 Transformer 的精确性,支持无位置编码(NoPE),能处理极长的上下文长度。

    Granite 4.0 Tiny Preview

    Granite 4.0 Tiny Preview的主要功能

    • 高效运行:在消费级 GPU 上,能同时运行多个长上下文(128K)任务,适合资源有限的开发者。
    • 低内存需求:内存需求减少约72%,推理时仅激活1B参数(总参数7B),大幅降低硬件要求。
    • 长上下文处理:支持无位置编码(NoPE),已验证能处理至少128K的长上下文。
    • 推理效率:推理时仅激活部分专家,提升效率、减少延迟。

    Granite 4.0 Tiny Preview的技术原理

    • 混合架构:结合Mamba的线性计算复杂度(适合长序列)和Transformer的精确自注意力机制。模型中9个Mamba块对应1个Transformer块,Mamba块负责高效捕获全局上下文,Transformer块用在解析局部上下文。
    • 混合专家(MoE):模型包含7B参数,分为64个专家,推理时仅激活1B参数,大幅减少计算资源消耗。
    • 无位置编码(NoPE):摒弃传统的位置编码技术,避免因位置编码带来的计算负担和对长序列的限制,保持长上下文性能。
    • 长上下文优化:基于Mamba的线性扩展能力和紧凑的模型设计,支持极长上下文长度,理论上能扩展至硬件极限。

    Granite 4.0 Tiny Preview的项目地址

    Granite 4.0 Tiny Preview的应用场景

    • 边缘设备部署:适合在资源有限的边缘设备或消费级硬件上运行,用在轻量级文本处理任务。
    • 长文本分析:能处理长上下文(128K tokens),适用在长文本生成、分析或摘要。
    • 多任务并行:在同一硬件上同时运行多个实例,适合批量处理或多用户场景。
    • 企业应用开发:用在智能客服、文档处理等企业级任务,提供高效的语言模型支持。
    • 低成本研发:开源且支持消费级硬件,方便开发者低成本实验和创新。
  • NoteLLM – 小红书推出的笔记推荐多模态大模型框架

    NoteLLM是什么

    NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入,基于端到端微调策略,结合视觉编码器和 LLM,解决视觉信息被忽视的问题。NoteLLM-2 提出多模态上下文学习(mICL)和晚期融合(late fusion)两种机制,进一步增强多模态表示能力,显著提升多模态推荐任务的性能。框架在小红书平台上展示强大的推荐能力,已应用在实际推荐系统中。

    NoteLLM

    NoteLLM的主要功能

    • 自动生成标签类别:为笔记生成标签和类别,增强笔记嵌入的质量。
    • 提升用户体验:基于更精准的推荐,提高用户在平台上的参与度和满意度。
    • 多模态笔记推荐:结合文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
    • 解决视觉信息忽视问题:基于多模态上下文学习(mICL)和晚期融合(late fusion)机制,增强视觉信息的表示能力。

    NoteLLM的技术原理

    • Note Compression Prompt:设计特定的提示模板,将笔记内容压缩为一个特殊标记,同时生成标签和类别。
    • 对比学习(Contrastive Learning):基于用户行为数据中的共现机制构建相关笔记对,对比学习训练模型,增强笔记嵌入的语义表示。
    • 指令微调(Instruction Tuning):基于指令微调,让 LLM 更好地理解任务需求,生成高质量的标签和类别。
    • 多模态上下文学习(mICL):将多模态内容分离为视觉和文本两部分,分别压缩为两个模态压缩词,基于对比学习平衡模态间的注意力。
    • 晚期融合(Late Fusion):在 LLM 的输出阶段直接融合视觉信息,保留更多原始视觉信息,避免早期融合导致的视觉信息丢失。
    • 端到端微调:结合任意现有的 LLM 和视觉编码器,基于端到端微调,定制高效的多模态表示模型,无需预训练对齐。

    NoteLLM的项目地址

    NoteLLM的应用场景

    • 个性化笔记推荐:根据用户兴趣和行为,从海量笔记中精准推荐相关内容,提升用户发现体验。
    • 冷启动笔记推荐:帮助新发布的笔记快速获得曝光,基于内容相似性进行推荐。
    • 标签和类别生成:自动生成与笔记内容相关的标签和类别,提升内容的可检索性,帮助用户更快找到感兴趣的内容。
    • 多模态内容推荐:处理文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
    • 内容创作辅助:为创作者提供创作灵感和建议,如关键词、标签和相关笔记推荐,辅助内容创作。
  • D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

    D-DiT是什么

    D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构,联合扩散目标训练,展现出与自回归模型相媲美的多模态理解和生成能力,为视觉语言模型的发展提供新的方向。

    D-DiT

    D-DiT的主要功能

    • 文本到图像生成:根据输入的文本描述生成高质量的图像。
    • 图像到文本生成:根据输入的图像生成描述性文本,如图像描述、标题或视觉问答的答案。
    • 视觉问答:结合图像和问题文本,生成准确的答案。
    • 多模态理解:支持多种视觉语言任务,如图像描述、视觉指令理解和长文本生成。
    • 双向生成能力:同时支持从文本到图像和从图像到文本的生成任务,具有高度的灵活性。

    D-DiT的技术原理

    • 双分支扩散模型:D-DiT结合连续图像扩散(Continuous Image Diffusion)和离散文本扩散(Discrete Text Diffusion)。连续图像扩散用流匹配(Flow Matching)技术,用逆向扩散过程生成图像。离散文本扩散用掩码扩散(Masked Diffusion)技术,逐步去噪生成文本。
    • 多模态Transformer架构
      • 图像分支:处理图像数据,输出图像的扩散目标。
      • 文本分支:处理文本数据,输出文本的扩散目标。
    • 联合训练目标:基于一个联合扩散目标同时训练图像和文本模态,图像扩散损失基于流匹配损失,优化图像生成的逆向扩散过程。文本扩散损失基于掩码扩散损失,优化文本生成的逆向扩散过程。基于联合训练,模型能学习图像和文本之间的联合分布。
    • 双向注意力机制:D-DiT用双向注意力机制,支持模型在图像和文本之间灵活切换,支持无序处理输入模态。让模型在生成过程中充分利用图像和文本的信息,提升多模态任务的性能。

    D-DiT的项目地址

    D-DiT的应用场景

    • 文本到图像生成:根据文本描述生成高质量图像,适用创意设计、游戏开发、广告制作和教育领域。
    • 图像到文本生成:为图像生成描述性文本,辅助视障人士、内容推荐、智能相册等。
    • 视觉问答:结合图像和问题生成准确答案,用在智能助手、教育工具和客服支持。
    • 多模态对话系统:在对话中结合图像生成详细回答,适用智能客服、虚拟助手和教育辅导。
    • 图像编辑与增强:根据文本描述修复、转换或增强图像,用在图像修复、风格转换和图像增强。
  • UniTok – 字节联合港大、华中科技推出的统一视觉分词器

    UniTok是什么

    UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

    UniTok

    UniTok的主要功能

    • 统一视觉表示:将图像编码为离散的视觉 token,token能用在图像生成任务(如文生图),也能用在视觉理解任务(如视觉问答)。
    • 高质量图像重建:在保持图像细节的同时进行高效的图像重建。
    • 语义对齐:结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。
    • 支持多模态大语言模型(MLLM):作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

    UniTok的技术原理

    • 多码本量化:UniTok 将视觉 token 分割成多个小块,每个小块用独立的子码本进行量化。例如,将 64 维的视觉特征向量分割成 8 个 8 维的小块,每个小块基于 4096 个码字的子码本进行量化。用这种方式,UniTok 的理论词汇量可以指数级增长,极大地扩展离散 token 的表示能力。
    • 注意力分解:用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力。UniTok 用因果注意力(causal attention)确保与自回归生成任务的兼容性。
    • 统一的训练目标:基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,基于这种方式,UniTok 能同时优化生成和理解任务。
    • 多模态大语言模型(MLLM)的集成:将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间,实现视觉和语言的统一处理。为简化 MLLM 的输入,UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时,MLLM 自回归地预测下一个位置对应的多个子码本 token,实现高效的视觉生成。

    UniTok的项目地址

    UniTok的应用场景

    • 多模态模型的视觉输入:作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。
    • 高质量图像生成:根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。
    • 视觉问答与理解:辅助模型理解图像内容,回答视觉相关问题,用在教育、医疗影像分析等。
    • 多模态内容创作:快速生成图文内容,用在新闻报道、社交媒体等,提高创作效率。
    • 跨模态检索与推荐:根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。
  • kimi-thinking-preview – 月之暗面推出的多模态思考模型

    kimi-thinking-preview是什么

    kimi-thinking-preview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_content 字段展示推理过程,帮助用户理解回答背后的逻辑。kimi-thinking-preview 支持多轮对话,目前处于预览版,暂不支持工具调用、联网搜索、JSON 模式和上下文缓存等功能。

    kimi-thinking-preview

    kimi-thinking-preview的主要功能

    • 深度推理:对复杂问题进行多步骤的逻辑分析和推理。
    • 多模态推理:支持处理多种类型的信息输入,包括文本、代码等,结合多模态数据进行推理。
    • 推理过程展示:模型输出推理过程,帮助用户理解思考逻辑。
    • 多轮对话支持:进行多轮交互,模型根据上下文信息生成连贯的回答,推理过程不需要放入上下文中。
    • 灵活的接口调用:支持 HTTP API 或 OpenAI SDK 调用,方便开发者集成到各种应用场景中。

    kimi-thinking-preview的技术原理

    • Transformer 架构:模型基于 Transformer 架构,架构在自然语言处理领域表现优异,能捕捉长距离依赖关系,适合处理复杂的推理任务。
    • 多模态融合:模型用多模态融合技术,将文本、代码等多种模态的信息进行整合,更全面地理解问题生成答案。
    • 深度推理机制:模型内部设计深度推理机制,对问题进行逐步分解和分析,基于多步骤的逻辑推导得出答案。
    • 推理过程建模:基于 reasoning_content 字段输出推理过程,模型在生成答案的同时,对推理路径进行建模和解释。

    kimi-thinking-preview的项目地址

    kimi-thinking-preview的应用场景

    • 复杂问题解答:帮助解决数学、物理等复杂问题,提供逐步推理过程。
    • 代码优化:分析代码问题,提供调试建议和优化方案。
    • 工作决策支持:辅助项目管理、商业分析等工作,提供解决方案。
    • 教育辅助:帮助学生理解复杂知识点,展示详细推理过程。
    • 技术研发:分析技术难题,提供创新思路和解决方案。