Author: Chimy

  • ICEdit – 浙江大学联合哈佛大学推出的指令式图像编辑框架

    ICEdit是什么

    ICEdit(In-Context Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力,用自然语言指令对图像进行精准编辑。ICEdit仅需0.1%的训练数据和1%的可训练参数,相比传统方法大幅减少资源需求,在多轮编辑和多任务编辑中表现出色。ICEdit具备开源、低成本、快速处理(单张图像约9秒)等优势,适合广泛的应用场景。

    ICEdit

    ICEdit的主要功能

    • 指令驱动的图像编辑:基于自然语言指令对图像进行精准修改,例如更换背景、添加文字、改变人物服装等。
    • 多轮编辑:支持连续多次编辑,每次编辑基于前一次的结果,适合复杂创作需求。
    • 风格转换:支持将图像转换为不同艺术风格,如水彩画、漫画等。
    • 对象替换与添加:替换图像中的对象或添加新元素,如将人物替换为卡通角色。
    • 高效处理:处理速度快(单张图像约9秒),适合快速生成和迭代。

    ICEdit的技术原理

    • 上下文编辑框架(In-Context Editing Framework):基于“上下文提示”(In-Context Prompting),将编辑指令嵌入到生成提示中,模型基于处理提示生成编辑后的图像。无需对模型架构进行修改,避免传统方法中复杂的结构调整。基于上下文理解,模型直接生成符合指令的编辑结果。
    • LoRA-MoE混合微调策略(LoRA-MoE Hybrid Fine-Tuning):结合参数高效的LoRA(Low-Rank Adaptation)适配器和动态专家路由(Mixture-of-Experts, MoE)。LoRA基于低秩矩阵分解,高效地调整模型参数,适应不同的编辑任务。MoE基于动态选择最适合当前任务的专家模块,进一步提升编辑质量和灵活性。仅需少量数据(50K样本)进行微调,显著提高编辑成功率。
    • 推理时早期筛选策略(Early Filter Inference-Time Scaling):在推理阶段,基于视觉语言模型(VLM)评估早期生成的噪声样本,筛选出最符合编辑指令的初始噪声。用少量步骤(如4步)评估编辑效果,快速选择最优的初始噪声,进一步提高编辑质量。

    ICEdit的项目地址

    ICEdit的应用场景

    • 创意设计:将照片转为艺术风格(如水彩画),或添加创意元素,用在设计和广告。
    • 影视制作:快速生成角色设计或场景概念图,辅助影视前期开发。
    • 社交媒体:编辑个人照片(如换背景、加特效),制作吸引人的社交内容。
    • 教育领域:生成教学用图,如将历史人物转为漫画风格,辅助教学。
    • 商业广告:快速制作产品宣传图,如更换背景、添加品牌标志。
  • 今天学点啥 – 秘塔AI推出的AI学习工具

    今天学点啥是什么

    今天学点啥是秘塔AI推出的创新AI学习工具。用户只需输入关键词、上传文档或粘贴网页链接,AI能自动将内容转化为个性化的互动课程,生成配套PPT和讲解语音。支持多种讲解风格,如“课堂”“对话”“暴躁老哥”等,能根据用户的知识水平(初学者、进阶者、专家)调整讲解难度,提供实时互动和答题挑战功能,让学习变得生动有趣。打破专业壁垒,降低学习门槛,使知识传播更加平等,帮助用户高效获取个性化知识,让学习像追剧一样上瘾。

    今天学点啥

    今天学点啥的主要功能

    • 内容转化:用户可以通过搜索关键词、上传文档或粘贴网页链接,AI会自动将这些内容转化为个性化的互动课程,生成配套的PPT和讲解语音。
    • 个性化定制:支持多种讲解风格,如“课堂”“对话”“奏折”“讲故事”“暴躁老哥”等,用户还可以根据自己的喜好选择知识掌握程度(初学者、进阶者、专家)和音色。
    • 实时互动:在课程中,用户可以随时提问,AI老师会结合上下文精准解答,用户能通过“掌声”“送花”“点赞”等方式与老师互动,增强学习的趣味性和参与感。
    • 学习成果检验:每节课后会触发“答题挑战”,AI老师根据课程内容生成闯关题,答对可解锁成就奖励,也可以邀请朋友进行PK,增加学习的趣味性和竞争性。
    • 智能推荐:系统会根据用户的浏览、互动与答题数据,智能推荐相关课程,帮助用户不断开拓知识领域,实现持续学习。

    如何使用今天学点啥

    • 访问“今天学点啥”:访问秘塔AI的今天学点啥的官方网站,或访问秘塔AI的官网,点击左侧边栏的「今天学点啥」或者屏幕右上角的小蓝条,可进入「今天学点啥」的界面。
    • APP端:访问今天学点啥的官方应用商店,根据手机型号选择下载安装。
    • 输入学习资料
      • 搜索文档:在输入框中输入关键词,如“非暴力沟通”,系统会自动推荐相关文档,选择感兴趣的文档点击“讲解”。
      • 粘贴网址:可以直接粘贴公众号文章、B站视频等网址。
      • 上传本地文件:支持PDF、Word、PPT、TXT等多种文件格式。
    • 分析资料并选择章节:系统会分析处理资料内容,如果资料较多,会拆分成多个章节,并标明页码。选择感兴趣的章节,点击「确定」,进入课程设置界面。
    • 课程设置
      • 选择知识掌握程度:根据对知识的掌握程度,选择“初学者”“进阶者”或“专家”,系统会根据选择调整讲解深度。
      • 选择讲解风格:系统提供20多种讲解风格,如“课堂”“暴躁老哥”“李白风格”等。
      • 高级设置:可以选择语言、音色等,进一步个性化课程。
    • 生成课程:设置完成后,系统会自动整理知识点、撰写课件,生成PPT和语音讲解。课程生成后,可以通过左右箭头翻页,调整音量、语速、字幕等。
    • 实时互动:在课程中不懂的问题,可以在下方输入框中随时提问。
    • 复习与分享:课程结束后,可以将课程存入「书架」随时复习,还可以通过链接分享课程。
    • 学习成果检验:点击「考考我」,系统会根据课程内容出题,答错时还会给出答案解析。

    今天学点啥的应用场景

    • 学术学习:学术论文、行业报告,或会议纪要等,可以通过“今天学点啥”转化为生动的课程,帮助用户更好地理解和吸收知识。
    • 职业技能提升:对于想要学习新技能或提升现有职业技能的用户,可以将相关教程、案例等转化为个性化的学习课程,助力用户快速掌握所需技能。
    • 兴趣拓展:用户可以根据自己的兴趣爱好,搜索各种领域的内容,如历史、文化、艺术、科技等,通过AI老师的讲解,深入了解感兴趣的领域,拓宽知识面。
    • 教育辅助:教师可以用工具将教学资料转化为有趣的课程,提高教学效果;学生也可以通过自主学习,巩固课堂知识或提前预习新知识。
  • 攻壳智能体 – 探索最新智能体和AI工具的门户网站

    攻壳智能体是什么

    攻壳智能体是专注于智能体和 AI 工具的门户网站,为用户介绍最新、热门的智能体和 AI 工具,帮助用户快速找到适合自己的学习、工作、生活的 AI 利器。通过精选和推荐各种 AI 工具,为用户提供了一个便捷的平台来探索和使用人工智能技术,推动人与智能体的协作,创造更多可能性。

    攻壳智能体

    攻壳智能体的主要功能

    • 精选AI工具:我们精心筛选和评估市场上最有价值的AI工具,帮助用户快速找到最适合的解决方案。
    • 连接社区:搭建AI爱好者、开发者和用户之间的桥梁,促进知识交流和创新协作。
    • 探索前沿:持续追踪和分享AI领域的最新进展,帮助用户把握技术发展趋势和应用机会。

    攻壳智能体的工具类型

    • 智能体:如ManusGensparkDify等,这些工具能自主思考、规划任务并调用工具完成复杂多步骤任务。
    • AI浏览器:提供智能浏览体验,结合AI技术优化网页浏览过程。
    • 聊天助手:如Flowith,为用户提供基于AI的聊天服务,可进行智能对话。
    • 文章写作:帮助用户快速生成文章内容,提升写作效率。
    • 图像/设计:包括图像生成、设计辅助等工具,可生成创意图像或辅助设计工作。
    • 视频/动画:支持视频生成、动画制作等功能,如Genspark可将视频内容转换为PPT。
    • 音频/音乐:生成或编辑音频内容,为音乐创作提供支持。
    • 编程代码:如Blackbox AI,提供代码生成、任务自动化等功能,帮助开发者更高效地编写代码。
    • 数据分析:进行数据分析和可视化,如上传Excel文件后一键生成数据统计分析报告。
    • 搜索引擎:提供更智能的搜索服务,结合AI优化搜索结果。
    • PPT制作:如AiPPT,用户输入主题或上传文档即可生成PPT。
    • 脑图/白板:辅助思维导图绘制和白板协作。
    • 内容检测:对内容进行检测和分析,确保内容质量和合规性。

    如何使用攻壳智能体

    • 访问官网:访问攻壳智能体官网
    • 注册账号:在网站上注册账号或直接登录。
    • 搜索工具:在平台右上角搜索AI工具,或在页面查看最新工具和热门工具。
    • 了解工具:点击选择或搜索的AI工具,对工具的介绍内容进行了解查看。

    攻壳智能体的热门AI工具

    • Manus:Monica团队打造的通用AI智能体,可应用于旅行规划、股票分析等多种复杂任务。
    • Genspark:快速可靠的通用AI智能体,支持多模型协作、任务规划与执行、多模态内容生成等功能。
    • Dify:开源的AI应用、智能体和工作流编排开发平台,支持数百种LLM模型,内置RAG引擎和Agent框架。
    • AIPPT:全智能AI一键生成PPT的在线工具,用户输入主题或上传文档即可快速生成PPT。
    • StackAI:自动化后台流程的企业级人工智能平台,适用于企业后台流程自动化。

    攻壳智能体的应用场景

    • 学习与教育:帮助学生整理学习资料,生成思维导图,辅助写作论文等。
    • 办公与商务:处理工作文件,生成数据分析报告,提供专业领域的咨询。
    • 个人生活:作为聊天伙伴,提供生活建议,帮助安排日程等。
    • 内容创作:生成烹饪视频、制作PPT、创作动画剧集等。
  • Amazon Nova Premier – 亚马逊推出的多模态AI模型

    Amazon Nova Premier是什么

    Amazon Nova Premier 是亚马逊推出功能最强大的多模态 AI 模型,能处理文本、图像和视频输入(不包括音频),擅长处理需要深度理解上下文、多步骤规划以及跨多工具和数据源精确执行的复杂任务。支持高达100万token的上下文长度,可处理超长文档或大型代码库。 Nova Premier 可作为教师模型,通过 Amazon Bedrock 的模型蒸馏功能,创建更小、更快、更经济的模型版本(如 Nova Pro、Lite 和 Micro),优化生产环境中的延迟和成本。在17项基准测试中,在知识检索和视觉理解等方面表现出色,在数学、科学知识和编程能力测试中有待提升。

    Amazon Nova Premier

    Amazon Nova Premier的主要功能

    • 处理多种输入:能处理文本、图像和视频输入(不包括音频),适用于跨文档理解、视觉分析、视频摘要或结合多种模式的工作流程。
    • 超长上下文处理:支持高达100万token的上下文长度,能处理超长文档或大型代码库。
    • 深度上下文理解:擅长处理需要深度理解上下文的复杂任务。
    • 多步骤规划与执行:能进行多步骤规划并精确执行跨多工具和数据源的任务。
    • 协调多智能体协作:可作为监督智能体,协调整个工作流,将复杂任务分解为子任务并分配给不同的子智能体,然后整合结果形成最终响应。
    • 作为教师模型:通过 Amazon Bedrock 的模型蒸馏功能,可将自身能力传递给更小的模型(如 Nova Pro、Lite 或 Micro),创建出更小、更快、更经济高效的模型版本。
    • 优化生产部署:蒸馏后的模型在保持性能的同时,能够优化延迟和成本,适合生产环境中的大规模部署。
    • 内置安全控制措施:促进负责任的 AI 应用,其内容审核功能有助于在各种应用程序中保持适当的输出。
    • 支持多种语言:支持超过200种语言,并针对全球和特定用途进行了优化。
    • 高性价比:在 Amazon Bedrock 中,Nova Premier 是同类产品中速度最快、性价比最高的型号,适合大规模企业部署。

    Amazon Nova Premier的技术原理

    • 混合推理技术:Nova Premier 采用了“混合推理”技术,融合了符号推理与连接主义方法。结合了符号推理的逻辑严谨性与神经网络的学习泛化能力,使模型在处理复杂问题时能够像人类一样思考,快速理清思路并找到解决方案。
    • 多模态处理能力:Nova Premier 支持处理文本、图像和视频输入(不包括音频),具备高达一百万token的上下文处理能力。能处理大型技术文件、庞大程序代码库或多来源资讯集成的场景。多模态处理能力成为跨文档理解、视觉分析、视频摘要或结合多种模式的工作流程的理想助手。
    • 复杂任务处理能力:Nova Premier 擅长处理需要深度理解上下文、多步骤规划以及需要精确执行的跨多工具和数据来源的复杂任务。它可以作为监督智能体,协调整个工作流,将复杂任务分解为子任务并分配给不同的子智能体,然后整合结果形成最终响应。例如,在金融投资研究中,Nova Premier 可以将复杂查询分解为逻辑步骤,确定要使用的专用子智能体,并整合来自不同金融数据源的结果,生成完整分析报告。
    • 模型蒸馏能力:Nova Premier 可以作为教师模型,通过 Amazon Bedrock 的模型蒸馏功能,创建更小、更快、更经济高效的模型版本(如 Nova Pro、Lite 和 Micro)。模型蒸馏通过教师模型生成预期输出来创建高质量训练数据,从而简化数据获取流程。
    • 安全与合规性:Nova Premier 具有内置安全控制措施,可促进负责任的 AI 应用,内容审核功能有助于在各种应用程序中保持适当的输出。

    Amazon Nova Premier的项目地址

    Amazon Nova Premier的应用场景

    • 投资研究与分析:在金融投资领域,Nova Premier 可以作为监督智能体,协调整个研究工作流。
    • 风险评估与建模:Nova Premier 可以处理大量的市场数据,帮助金融机构进行风险评估和建模,制定更加科学的投资策略。
    • 法律文书分析:Nova Premier 支持高达一百万token的上下文处理能力,能快速分析成千上万页的法律文书,帮助律师提高工作效率。
    • 大型企业知识图谱构建:Nova Premier 可以用于构建大型企业的知识图谱,整合企业内部的各种数据源,帮助企业更好地管理和利用知识资源。
    • 代码生成与调试:Nova Premier 在软件开发中可以自动生成代码,通过符号系统预判多线程环境下的资源冲突,将调试效率提升40%。
  • VPP – 清华和星动纪元推出的首个AIGC机器人大模型

    VPP是什么

    VPP(Video Prediction Policy)是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型,学习互联网上的大量视频数据,直接预测未来场景生成机器人动作。VPP能提前预知未来,实现高频预测和动作执行,支持跨人形机器人本体切换,显著降低对高质量机器人真机数据的依赖。VPP在Calvin ABC-D基准测试中取得接近满分的成绩,在真实世界的复杂灵巧操作任务中表现出色。VPP的开源为具身智能机器人的发展提供强大的技术支持。

    VPP

    VPP的主要功能

    • 提前预测未来场景:让机器人在行动前“看到”未来,增强泛化能力。
    • 高频预测与动作执行:实现6-10Hz的预测频率和超过50Hz的控制频率,提升动作流畅性。
    • 跨机器人本体学习:直接学习不同形态机器人的视频数据,包括人类操作数据,降低数据获取成本。
    • 多任务学习与泛化:在复杂的真实世界任务中表现出色,例如抓取、放置、堆叠、倒水和工具使用。
    • 可解释性与调试优化:基于预测视频提前发现失败场景,便于开发者进行针对性优化。

    VPP的技术原理

    • 视频扩散模型(VDM)的预测性视觉表示:基于预训练的视频扩散模型(如Stable Video Diffusion)学习预测未来场景。视频扩散模型基于单步去噪生成预测性视觉表示,视觉表示包含当前帧,能明确表示未来帧。
    • 动作学习:用Video Former聚合预测性视觉表示,提取时空信息。基于扩散策略(Diffusion Policy)生成机器人动作,实现从预测到执行的无缝过渡。
    • 优化与泛化:VPP基于互联网视频数据和机器人操作数据进行训练,减少对高质量真机数据的依赖。基于跨本体学习,VPP能直接学习不同形态机器人的视频数据,提升模型的泛化能力。

    VPP的项目地址

    VPP的应用场景

    • 家庭服务:完成家务(倒水、拿东西)、照顾老人或儿童(递送物品)。
    • 工业制造:用在零件抓取、货物搬运和堆叠,提高生产效率。
    • 医疗辅助:协助手术器械传递、康复训练和病房物品递送。
    • 教育与研究:帮助学生理解复杂操作流程,用在实验室实验操作。
    • 服务行业:如餐厅送餐、酒店行李搬运和公共场合导览。
  • Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型

    Gemini 2.5 Pro (I/O 版)是什么

    Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破,擅长构建交互式 Web 应用、游戏和模拟程序。用户仅需提供提示词或手绘草图加功能描述,能快速生成功能完备的应用。Gemini 2.5 Pro (I/O 版) 在 WebDev Arena 排行榜上超越前代,Elo 分数大幅提升 147 分。模型支持根据自然图像生成代码,在视频理解方面表现出色,VideoMME 基准测试得分高达 84.8%。Gemini 2.5 Pro (I/O 版) 已集成到 Gemini APP、Vertex AI 和 Google AI Studio 中,供开发者使用。

    gemini-2-5-pro-i-o-edition

    Gemini 2.5 Pro (I/O 版)的主要功能

    • 高效 Web 应用开发:Gemini 2.5 Pro (I/O 版) 能基于简单的提示词或手绘草图快速生成功能完备的 Web 应用。支持复杂交互设计,帮助开发者高效构建美观且实用的界面。
    • 代码生成与编辑:模型能生成多种编程语言的代码,支持代码转换、编辑和优化。模型能理解自然语言描述,直接生成可运行的代码片段,提升开发效率。
    • 多模态内容生成:支持从图像、视频等多模态输入生成代码。
    • 复杂工作流开发:模型能开发复杂的智能体工作流,支持多任务协作和自动化流程设计。
    • 长上下文理解:支持处理复杂的逻辑和语义关系,适合开发需要深度语义理解的应用。

    Gemini 2.5 Pro (I/O 版)的技术原理

    • 基于深度学习的架构:基于 Transformer 架构,大规模预训练和微调,学习编程语言的语法、逻辑和语义模式。
    • 多模态融合技术:模型结合文本、图像和视频等多种模态的输入,基于跨模态编码器和解码器,将不同模态的信息融合,实现从图像生成代码或从视频生成交互式应用的功能。
    • 强化学习优化:在训练过程中,Gemini 2.5 Pro (I/O 版) 用强化学习优化生成代码的质量和效率。基于与环境的交互,模型不断调整自身行为,减少错误提升性能。
    • 上下文感知生成:基于长上下文建模能力,理解代码片段之间的逻辑关系,生成连贯且功能完整的代码。

    Gemini 2.5 Pro (I/O 版)的项目地址

    Gemini 2.5 Pro (I/O 版)的应用场景

    • Web 应用开发:快速从草图或描述生成交互式网页和应用,适合快速开发各类网站。
    • 游戏开发:根据描述生成游戏代码和界面,支持快速开发休闲或复杂游戏。
    • 教育工具开发:将视频或图像转化为互动学习应用,提升教学效率。
    • 虚拟现实与增强现实:快速构建虚拟场景,如虚拟博物馆或城市模拟器,支持沉浸式体验。
    • 企业级应用:生成复杂的企业级系统,支持多任务协作和自动化工作流。
  • Granite 4.0 Tiny Preview – IBM推出的语言模型

    Granite 4.0 Tiny Preview是什么

    Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 语言模型家族中最小的模型的预览版本。Granite 4.0 Tiny Preview用极高的计算效率和紧凑的模型结构为特点,在消费级 GPU 上能运行多个长上下文(128K)任务,性能接近 Granite 3.3 2B Instruct,内存需求减少约 72%。模型用创新的混合 Mamba-2/Transformer 架构,结合 Mamba 的高效性和 Transformer 的精确性,支持无位置编码(NoPE),能处理极长的上下文长度。

    Granite 4.0 Tiny Preview

    Granite 4.0 Tiny Preview的主要功能

    • 高效运行:在消费级 GPU 上,能同时运行多个长上下文(128K)任务,适合资源有限的开发者。
    • 低内存需求:内存需求减少约72%,推理时仅激活1B参数(总参数7B),大幅降低硬件要求。
    • 长上下文处理:支持无位置编码(NoPE),已验证能处理至少128K的长上下文。
    • 推理效率:推理时仅激活部分专家,提升效率、减少延迟。

    Granite 4.0 Tiny Preview的技术原理

    • 混合架构:结合Mamba的线性计算复杂度(适合长序列)和Transformer的精确自注意力机制。模型中9个Mamba块对应1个Transformer块,Mamba块负责高效捕获全局上下文,Transformer块用在解析局部上下文。
    • 混合专家(MoE):模型包含7B参数,分为64个专家,推理时仅激活1B参数,大幅减少计算资源消耗。
    • 无位置编码(NoPE):摒弃传统的位置编码技术,避免因位置编码带来的计算负担和对长序列的限制,保持长上下文性能。
    • 长上下文优化:基于Mamba的线性扩展能力和紧凑的模型设计,支持极长上下文长度,理论上能扩展至硬件极限。

    Granite 4.0 Tiny Preview的项目地址

    Granite 4.0 Tiny Preview的应用场景

    • 边缘设备部署:适合在资源有限的边缘设备或消费级硬件上运行,用在轻量级文本处理任务。
    • 长文本分析:能处理长上下文(128K tokens),适用在长文本生成、分析或摘要。
    • 多任务并行:在同一硬件上同时运行多个实例,适合批量处理或多用户场景。
    • 企业应用开发:用在智能客服、文档处理等企业级任务,提供高效的语言模型支持。
    • 低成本研发:开源且支持消费级硬件,方便开发者低成本实验和创新。
  • NoteLLM – 小红书推出的笔记推荐多模态大模型框架

    NoteLLM是什么

    NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入,基于端到端微调策略,结合视觉编码器和 LLM,解决视觉信息被忽视的问题。NoteLLM-2 提出多模态上下文学习(mICL)和晚期融合(late fusion)两种机制,进一步增强多模态表示能力,显著提升多模态推荐任务的性能。框架在小红书平台上展示强大的推荐能力,已应用在实际推荐系统中。

    NoteLLM

    NoteLLM的主要功能

    • 自动生成标签类别:为笔记生成标签和类别,增强笔记嵌入的质量。
    • 提升用户体验:基于更精准的推荐,提高用户在平台上的参与度和满意度。
    • 多模态笔记推荐:结合文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
    • 解决视觉信息忽视问题:基于多模态上下文学习(mICL)和晚期融合(late fusion)机制,增强视觉信息的表示能力。

    NoteLLM的技术原理

    • Note Compression Prompt:设计特定的提示模板,将笔记内容压缩为一个特殊标记,同时生成标签和类别。
    • 对比学习(Contrastive Learning):基于用户行为数据中的共现机制构建相关笔记对,对比学习训练模型,增强笔记嵌入的语义表示。
    • 指令微调(Instruction Tuning):基于指令微调,让 LLM 更好地理解任务需求,生成高质量的标签和类别。
    • 多模态上下文学习(mICL):将多模态内容分离为视觉和文本两部分,分别压缩为两个模态压缩词,基于对比学习平衡模态间的注意力。
    • 晚期融合(Late Fusion):在 LLM 的输出阶段直接融合视觉信息,保留更多原始视觉信息,避免早期融合导致的视觉信息丢失。
    • 端到端微调:结合任意现有的 LLM 和视觉编码器,基于端到端微调,定制高效的多模态表示模型,无需预训练对齐。

    NoteLLM的项目地址

    NoteLLM的应用场景

    • 个性化笔记推荐:根据用户兴趣和行为,从海量笔记中精准推荐相关内容,提升用户发现体验。
    • 冷启动笔记推荐:帮助新发布的笔记快速获得曝光,基于内容相似性进行推荐。
    • 标签和类别生成:自动生成与笔记内容相关的标签和类别,提升内容的可检索性,帮助用户更快找到感兴趣的内容。
    • 多模态内容推荐:处理文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
    • 内容创作辅助:为创作者提供创作灵感和建议,如关键词、标签和相关笔记推荐,辅助内容创作。
  • D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

    D-DiT是什么

    D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构,联合扩散目标训练,展现出与自回归模型相媲美的多模态理解和生成能力,为视觉语言模型的发展提供新的方向。

    D-DiT

    D-DiT的主要功能

    • 文本到图像生成:根据输入的文本描述生成高质量的图像。
    • 图像到文本生成:根据输入的图像生成描述性文本,如图像描述、标题或视觉问答的答案。
    • 视觉问答:结合图像和问题文本,生成准确的答案。
    • 多模态理解:支持多种视觉语言任务,如图像描述、视觉指令理解和长文本生成。
    • 双向生成能力:同时支持从文本到图像和从图像到文本的生成任务,具有高度的灵活性。

    D-DiT的技术原理

    • 双分支扩散模型:D-DiT结合连续图像扩散(Continuous Image Diffusion)和离散文本扩散(Discrete Text Diffusion)。连续图像扩散用流匹配(Flow Matching)技术,用逆向扩散过程生成图像。离散文本扩散用掩码扩散(Masked Diffusion)技术,逐步去噪生成文本。
    • 多模态Transformer架构
      • 图像分支:处理图像数据,输出图像的扩散目标。
      • 文本分支:处理文本数据,输出文本的扩散目标。
    • 联合训练目标:基于一个联合扩散目标同时训练图像和文本模态,图像扩散损失基于流匹配损失,优化图像生成的逆向扩散过程。文本扩散损失基于掩码扩散损失,优化文本生成的逆向扩散过程。基于联合训练,模型能学习图像和文本之间的联合分布。
    • 双向注意力机制:D-DiT用双向注意力机制,支持模型在图像和文本之间灵活切换,支持无序处理输入模态。让模型在生成过程中充分利用图像和文本的信息,提升多模态任务的性能。

    D-DiT的项目地址

    D-DiT的应用场景

    • 文本到图像生成:根据文本描述生成高质量图像,适用创意设计、游戏开发、广告制作和教育领域。
    • 图像到文本生成:为图像生成描述性文本,辅助视障人士、内容推荐、智能相册等。
    • 视觉问答:结合图像和问题生成准确答案,用在智能助手、教育工具和客服支持。
    • 多模态对话系统:在对话中结合图像生成详细回答,适用智能客服、虚拟助手和教育辅导。
    • 图像编辑与增强:根据文本描述修复、转换或增强图像,用在图像修复、风格转换和图像增强。
  • UniTok – 字节联合港大、华中科技推出的统一视觉分词器

    UniTok是什么

    UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

    UniTok

    UniTok的主要功能

    • 统一视觉表示:将图像编码为离散的视觉 token,token能用在图像生成任务(如文生图),也能用在视觉理解任务(如视觉问答)。
    • 高质量图像重建:在保持图像细节的同时进行高效的图像重建。
    • 语义对齐:结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。
    • 支持多模态大语言模型(MLLM):作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

    UniTok的技术原理

    • 多码本量化:UniTok 将视觉 token 分割成多个小块,每个小块用独立的子码本进行量化。例如,将 64 维的视觉特征向量分割成 8 个 8 维的小块,每个小块基于 4096 个码字的子码本进行量化。用这种方式,UniTok 的理论词汇量可以指数级增长,极大地扩展离散 token 的表示能力。
    • 注意力分解:用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力。UniTok 用因果注意力(causal attention)确保与自回归生成任务的兼容性。
    • 统一的训练目标:基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,基于这种方式,UniTok 能同时优化生成和理解任务。
    • 多模态大语言模型(MLLM)的集成:将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间,实现视觉和语言的统一处理。为简化 MLLM 的输入,UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时,MLLM 自回归地预测下一个位置对应的多个子码本 token,实现高效的视觉生成。

    UniTok的项目地址

    UniTok的应用场景

    • 多模态模型的视觉输入:作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。
    • 高质量图像生成:根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。
    • 视觉问答与理解:辅助模型理解图像内容,回答视觉相关问题,用在教育、医疗影像分析等。
    • 多模态内容创作:快速生成图文内容,用在新闻报道、社交媒体等,提高创作效率。
    • 跨模态检索与推荐:根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。