Author: Chimy

ICEdit – 浙江大学联合哈佛大学推出的指令式图像编辑框架
ICEdit是什么

ICEdit（In-Context Edit）是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器（Diffusion Transformer）的强大生成能力和上下文感知能力，用自然语言指令对图像进行精准编辑。ICEdit仅需0.1%的训练数据和1%的可训练参数，相比传统方法大幅减少资源需求，在多轮编辑和多任务编辑中表现出色。ICEdit具备开源、低成本、快速处理（单张图像约9秒）等优势，适合广泛的应用场景。

ICEdit的主要功能
- 指令驱动的图像编辑：基于自然语言指令对图像进行精准修改，例如更换背景、添加文字、改变人物服装等。
- 多轮编辑：支持连续多次编辑，每次编辑基于前一次的结果，适合复杂创作需求。
- 风格转换：支持将图像转换为不同艺术风格，如水彩画、漫画等。
- 对象替换与添加：替换图像中的对象或添加新元素，如将人物替换为卡通角色。
- 高效处理：处理速度快（单张图像约9秒），适合快速生成和迭代。
ICEdit的技术原理
- 上下文编辑框架（In-Context Editing Framework）：基于“上下文提示”（In-Context Prompting），将编辑指令嵌入到生成提示中，模型基于处理提示生成编辑后的图像。无需对模型架构进行修改，避免传统方法中复杂的结构调整。基于上下文理解，模型直接生成符合指令的编辑结果。
- LoRA-MoE混合微调策略（LoRA-MoE Hybrid Fine-Tuning）：结合参数高效的LoRA（Low-Rank Adaptation）适配器和动态专家路由（Mixture-of-Experts, MoE）。LoRA基于低秩矩阵分解，高效地调整模型参数，适应不同的编辑任务。MoE基于动态选择最适合当前任务的专家模块，进一步提升编辑质量和灵活性。仅需少量数据（50K样本）进行微调，显著提高编辑成功率。
- 推理时早期筛选策略（Early Filter Inference-Time Scaling）：在推理阶段，基于视觉语言模型（VLM）评估早期生成的噪声样本，筛选出最符合编辑指令的初始噪声。用少量步骤（如4步）评估编辑效果，快速选择最优的初始噪声，进一步提高编辑质量。
ICEdit的项目地址
- 项目官网：https://river-zhang.github.io/ICEdit-gh-pages/
- GitHub仓库：https://github.com/River-Zhang/ICEdit
- HuggingFace模型库：https://huggingface.co/sanaka87/ICEdit-MoE-LoRA
- arXiv技术论文：https://arxiv.org/pdf/2504.20690
- 在线体验Demo：https://huggingface.co/spaces/RiverZ/ICEdit
ICEdit的应用场景
- 创意设计：将照片转为艺术风格（如水彩画），或添加创意元素，用在设计和广告。
- 影视制作：快速生成角色设计或场景概念图，辅助影视前期开发。
- 社交媒体：编辑个人照片（如换背景、加特效），制作吸引人的社交内容。
- 教育领域：生成教学用图，如将历史人物转为漫画风格，辅助教学。
- 商业广告：快速制作产品宣传图，如更换背景、添加品牌标志。
May 7, 2025
今天学点啥 – 秘塔AI推出的AI学习工具
今天学点啥是什么

今天学点啥是秘塔AI推出的创新AI学习工具。用户只需输入关键词、上传文档或粘贴网页链接，AI能自动将内容转化为个性化的互动课程，生成配套PPT和讲解语音。支持多种讲解风格，如“课堂”“对话”“暴躁老哥”等，能根据用户的知识水平（初学者、进阶者、专家）调整讲解难度，提供实时互动和答题挑战功能，让学习变得生动有趣。打破专业壁垒，降低学习门槛，使知识传播更加平等，帮助用户高效获取个性化知识，让学习像追剧一样上瘾。

今天学点啥的主要功能
- 内容转化：用户可以通过搜索关键词、上传文档或粘贴网页链接，AI会自动将这些内容转化为个性化的互动课程，生成配套的PPT和讲解语音。
- 个性化定制：支持多种讲解风格，如“课堂”“对话”“奏折”“讲故事”“暴躁老哥”等，用户还可以根据自己的喜好选择知识掌握程度（初学者、进阶者、专家）和音色。
- 实时互动：在课程中，用户可以随时提问，AI老师会结合上下文精准解答，用户能通过“掌声”“送花”“点赞”等方式与老师互动，增强学习的趣味性和参与感。
- 学习成果检验：每节课后会触发“答题挑战”，AI老师根据课程内容生成闯关题，答对可解锁成就奖励，也可以邀请朋友进行PK，增加学习的趣味性和竞争性。
- 智能推荐：系统会根据用户的浏览、互动与答题数据，智能推荐相关课程，帮助用户不断开拓知识领域，实现持续学习。
如何使用今天学点啥
- 访问“今天学点啥”：访问秘塔AI的今天学点啥的官方网站，或访问秘塔AI的官网，点击左侧边栏的「今天学点啥」或者屏幕右上角的小蓝条，可进入「今天学点啥」的界面。
- APP端：访问今天学点啥的官方应用商店，根据手机型号选择下载安装。
- 输入学习资料
  - 搜索文档：在输入框中输入关键词，如“非暴力沟通”，系统会自动推荐相关文档，选择感兴趣的文档点击“讲解”。
  - 粘贴网址：可以直接粘贴公众号文章、B站视频等网址。
  - 上传本地文件：支持PDF、Word、PPT、TXT等多种文件格式。
- 分析资料并选择章节：系统会分析处理资料内容，如果资料较多，会拆分成多个章节，并标明页码。选择感兴趣的章节，点击「确定」，进入课程设置界面。
- 课程设置
  - 选择知识掌握程度：根据对知识的掌握程度，选择“初学者”“进阶者”或“专家”，系统会根据选择调整讲解深度。
  - 选择讲解风格：系统提供20多种讲解风格，如“课堂”“暴躁老哥”“李白风格”等。
  - 高级设置：可以选择语言、音色等，进一步个性化课程。
- 生成课程：设置完成后，系统会自动整理知识点、撰写课件，生成PPT和语音讲解。课程生成后，可以通过左右箭头翻页，调整音量、语速、字幕等。
- 实时互动：在课程中不懂的问题，可以在下方输入框中随时提问。
- 复习与分享：课程结束后，可以将课程存入「书架」随时复习，还可以通过链接分享课程。
- 学习成果检验：点击「考考我」，系统会根据课程内容出题，答错时还会给出答案解析。
今天学点啥的应用场景
- 学术学习：学术论文、行业报告，或会议纪要等，可以通过“今天学点啥”转化为生动的课程，帮助用户更好地理解和吸收知识。
- 职业技能提升：对于想要学习新技能或提升现有职业技能的用户，可以将相关教程、案例等转化为个性化的学习课程，助力用户快速掌握所需技能。
- 兴趣拓展：用户可以根据自己的兴趣爱好，搜索各种领域的内容，如历史、文化、艺术、科技等，通过AI老师的讲解，深入了解感兴趣的领域，拓宽知识面。
- 教育辅助：教师可以用工具将教学资料转化为有趣的课程，提高教学效果；学生也可以通过自主学习，巩固课堂知识或提前预习新知识。
May 7, 2025
攻壳智能体 – 探索最新智能体和AI工具的门户网站
攻壳智能体是什么

攻壳智能体是专注于智能体和 AI 工具的门户网站，为用户介绍最新、热门的智能体和 AI 工具，帮助用户快速找到适合自己的学习、工作、生活的 AI 利器。通过精选和推荐各种 AI 工具，为用户提供了一个便捷的平台来探索和使用人工智能技术，推动人与智能体的协作，创造更多可能性。

攻壳智能体的主要功能
- 精选AI工具：我们精心筛选和评估市场上最有价值的AI工具，帮助用户快速找到最适合的解决方案。
- 连接社区：搭建AI爱好者、开发者和用户之间的桥梁，促进知识交流和创新协作。
- 探索前沿：持续追踪和分享AI领域的最新进展，帮助用户把握技术发展趋势和应用机会。
攻壳智能体的工具类型
- 智能体：如Manus、Genspark、Dify等，这些工具能自主思考、规划任务并调用工具完成复杂多步骤任务。
- AI浏览器：提供智能浏览体验，结合AI技术优化网页浏览过程。
- 聊天助手：如Flowith，为用户提供基于AI的聊天服务，可进行智能对话。
- 文章写作：帮助用户快速生成文章内容，提升写作效率。
- 图像/设计：包括图像生成、设计辅助等工具，可生成创意图像或辅助设计工作。
- 视频/动画：支持视频生成、动画制作等功能，如Genspark可将视频内容转换为PPT。
- 音频/音乐：生成或编辑音频内容，为音乐创作提供支持。
- 编程代码：如Blackbox AI，提供代码生成、任务自动化等功能，帮助开发者更高效地编写代码。
- 数据分析：进行数据分析和可视化，如上传Excel文件后一键生成数据统计分析报告。
- 搜索引擎：提供更智能的搜索服务，结合AI优化搜索结果。
- PPT制作：如AiPPT，用户输入主题或上传文档即可生成PPT。
- 脑图/白板：辅助思维导图绘制和白板协作。
- 内容检测：对内容进行检测和分析，确保内容质量和合规性。
如何使用攻壳智能体
- 访问官网：访问攻壳智能体官网。
- 注册账号：在网站上注册账号或直接登录。
- 搜索工具：在平台右上角搜索AI工具，或在页面查看最新工具和热门工具。
- 了解工具：点击选择或搜索的AI工具，对工具的介绍内容进行了解查看。
攻壳智能体的热门AI工具
- Manus：Monica团队打造的通用AI智能体，可应用于旅行规划、股票分析等多种复杂任务。
- Genspark：快速可靠的通用AI智能体，支持多模型协作、任务规划与执行、多模态内容生成等功能。
- Dify：开源的AI应用、智能体和工作流编排开发平台，支持数百种LLM模型，内置RAG引擎和Agent框架。
- AIPPT：全智能AI一键生成PPT的在线工具，用户输入主题或上传文档即可快速生成PPT。
- StackAI：自动化后台流程的企业级人工智能平台，适用于企业后台流程自动化。
攻壳智能体的应用场景
- 学习与教育：帮助学生整理学习资料，生成思维导图，辅助写作论文等。
- 办公与商务：处理工作文件，生成数据分析报告，提供专业领域的咨询。
- 个人生活：作为聊天伙伴，提供生活建议，帮助安排日程等。
- 内容创作：生成烹饪视频、制作PPT、创作动画剧集等。
May 7, 2025
Amazon Nova Premier – 亚马逊推出的多模态AI模型
Amazon Nova Premier是什么

Amazon Nova Premier 是亚马逊推出功能最强大的多模态 AI 模型，能处理文本、图像和视频输入（不包括音频），擅长处理需要深度理解上下文、多步骤规划以及跨多工具和数据源精确执行的复杂任务。支持高达100万token的上下文长度，可处理超长文档或大型代码库。 Nova Premier 可作为教师模型，通过 Amazon Bedrock 的模型蒸馏功能，创建更小、更快、更经济的模型版本（如 Nova Pro、Lite 和 Micro），优化生产环境中的延迟和成本。在17项基准测试中，在知识检索和视觉理解等方面表现出色，在数学、科学知识和编程能力测试中有待提升。

Amazon Nova Premier的主要功能
- 处理多种输入：能处理文本、图像和视频输入（不包括音频），适用于跨文档理解、视觉分析、视频摘要或结合多种模式的工作流程。
- 超长上下文处理：支持高达100万token的上下文长度，能处理超长文档或大型代码库。
- 深度上下文理解：擅长处理需要深度理解上下文的复杂任务。
- 多步骤规划与执行：能进行多步骤规划并精确执行跨多工具和数据源的任务。
- 协调多智能体协作：可作为监督智能体，协调整个工作流，将复杂任务分解为子任务并分配给不同的子智能体，然后整合结果形成最终响应。
- 作为教师模型：通过 Amazon Bedrock 的模型蒸馏功能，可将自身能力传递给更小的模型（如 Nova Pro、Lite 或 Micro），创建出更小、更快、更经济高效的模型版本。
- 优化生产部署：蒸馏后的模型在保持性能的同时，能够优化延迟和成本，适合生产环境中的大规模部署。
- 内置安全控制措施：促进负责任的 AI 应用，其内容审核功能有助于在各种应用程序中保持适当的输出。
- 支持多种语言：支持超过200种语言，并针对全球和特定用途进行了优化。
- 高性价比：在 Amazon Bedrock 中，Nova Premier 是同类产品中速度最快、性价比最高的型号，适合大规模企业部署。
Amazon Nova Premier的技术原理
- 混合推理技术：Nova Premier 采用了“混合推理”技术，融合了符号推理与连接主义方法。结合了符号推理的逻辑严谨性与神经网络的学习泛化能力，使模型在处理复杂问题时能够像人类一样思考，快速理清思路并找到解决方案。
- 多模态处理能力：Nova Premier 支持处理文本、图像和视频输入（不包括音频），具备高达一百万token的上下文处理能力。能处理大型技术文件、庞大程序代码库或多来源资讯集成的场景。多模态处理能力成为跨文档理解、视觉分析、视频摘要或结合多种模式的工作流程的理想助手。
- 复杂任务处理能力：Nova Premier 擅长处理需要深度理解上下文、多步骤规划以及需要精确执行的跨多工具和数据来源的复杂任务。它可以作为监督智能体，协调整个工作流，将复杂任务分解为子任务并分配给不同的子智能体，然后整合结果形成最终响应。例如，在金融投资研究中，Nova Premier 可以将复杂查询分解为逻辑步骤，确定要使用的专用子智能体，并整合来自不同金融数据源的结果，生成完整分析报告。
- 模型蒸馏能力：Nova Premier 可以作为教师模型，通过 Amazon Bedrock 的模型蒸馏功能，创建更小、更快、更经济高效的模型版本（如 Nova Pro、Lite 和 Micro）。模型蒸馏通过教师模型生成预期输出来创建高质量训练数据，从而简化数据获取流程。
- 安全与合规性：Nova Premier 具有内置安全控制措施，可促进负责任的 AI 应用，内容审核功能有助于在各种应用程序中保持适当的输出。
Amazon Nova Premier的项目地址
- 项目官网：https://www.amazon.science/publications/amazon-nova-premier
Amazon Nova Premier的应用场景
- 投资研究与分析：在金融投资领域，Nova Premier 可以作为监督智能体，协调整个研究工作流。
- 风险评估与建模：Nova Premier 可以处理大量的市场数据，帮助金融机构进行风险评估和建模，制定更加科学的投资策略。
- 法律文书分析：Nova Premier 支持高达一百万token的上下文处理能力，能快速分析成千上万页的法律文书，帮助律师提高工作效率。
- 大型企业知识图谱构建：Nova Premier 可以用于构建大型企业的知识图谱，整合企业内部的各种数据源，帮助企业更好地管理和利用知识资源。
- 代码生成与调试：Nova Premier 在软件开发中可以自动生成代码，通过符号系统预判多线程环境下的资源冲突，将调试效率提升40%。
May 7, 2025
VPP – 清华和星动纪元推出的首个AIGC机器人大模型
VPP是什么

VPP（Video Prediction Policy）是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型，学习互联网上的大量视频数据，直接预测未来场景生成机器人动作。VPP能提前预知未来，实现高频预测和动作执行，支持跨人形机器人本体切换，显著降低对高质量机器人真机数据的依赖。VPP在Calvin ABC-D基准测试中取得接近满分的成绩，在真实世界的复杂灵巧操作任务中表现出色。VPP的开源为具身智能机器人的发展提供强大的技术支持。

VPP的主要功能
- 提前预测未来场景：让机器人在行动前“看到”未来，增强泛化能力。
- 高频预测与动作执行：实现6-10Hz的预测频率和超过50Hz的控制频率，提升动作流畅性。
- 跨机器人本体学习：直接学习不同形态机器人的视频数据，包括人类操作数据，降低数据获取成本。
- 多任务学习与泛化：在复杂的真实世界任务中表现出色，例如抓取、放置、堆叠、倒水和工具使用。
- 可解释性与调试优化：基于预测视频提前发现失败场景，便于开发者进行针对性优化。
VPP的技术原理
- 视频扩散模型（VDM）的预测性视觉表示：基于预训练的视频扩散模型（如Stable Video Diffusion）学习预测未来场景。视频扩散模型基于单步去噪生成预测性视觉表示，视觉表示包含当前帧，能明确表示未来帧。
- 动作学习：用Video Former聚合预测性视觉表示，提取时空信息。基于扩散策略（Diffusion Policy）生成机器人动作，实现从预测到执行的无缝过渡。
- 优化与泛化：VPP基于互联网视频数据和机器人操作数据进行训练，减少对高质量真机数据的依赖。基于跨本体学习，VPP能直接学习不同形态机器人的视频数据，提升模型的泛化能力。
VPP的项目地址
- 项目官网：https://video-prediction-policy.github.io/
- GitHub仓库：https://github.com/roboterax/video-prediction-policy
- arXiv技术论文：https://arxiv.org/pdf/2412.14803
VPP的应用场景
- 家庭服务：完成家务（倒水、拿东西）、照顾老人或儿童（递送物品）。
- 工业制造：用在零件抓取、货物搬运和堆叠，提高生产效率。
- 医疗辅助：协助手术器械传递、康复训练和病房物品递送。
- 教育与研究：帮助学生理解复杂操作流程，用在实验室实验操作。
- 服务行业：如餐厅送餐、酒店行李搬运和公共场合导览。
May 7, 2025
Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型
Gemini 2.5 Pro (I/O 版)是什么

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型，具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破，擅长构建交互式 Web 应用、游戏和模拟程序。用户仅需提供提示词或手绘草图加功能描述，能快速生成功能完备的应用。Gemini 2.5 Pro (I/O 版) 在 WebDev Arena 排行榜上超越前代，Elo 分数大幅提升 147 分。模型支持根据自然图像生成代码，在视频理解方面表现出色，VideoMME 基准测试得分高达 84.8%。Gemini 2.5 Pro (I/O 版) 已集成到 Gemini APP、Vertex AI 和 Google AI Studio 中，供开发者使用。

Gemini 2.5 Pro (I/O 版)的主要功能
- 高效 Web 应用开发：Gemini 2.5 Pro (I/O 版) 能基于简单的提示词或手绘草图快速生成功能完备的 Web 应用。支持复杂交互设计，帮助开发者高效构建美观且实用的界面。
- 代码生成与编辑：模型能生成多种编程语言的代码，支持代码转换、编辑和优化。模型能理解自然语言描述，直接生成可运行的代码片段，提升开发效率。
- 多模态内容生成：支持从图像、视频等多模态输入生成代码。
- 复杂工作流开发：模型能开发复杂的智能体工作流，支持多任务协作和自动化流程设计。
- 长上下文理解：支持处理复杂的逻辑和语义关系，适合开发需要深度语义理解的应用。
Gemini 2.5 Pro (I/O 版)的技术原理
- 基于深度学习的架构：基于 Transformer 架构，大规模预训练和微调，学习编程语言的语法、逻辑和语义模式。
- 多模态融合技术：模型结合文本、图像和视频等多种模态的输入，基于跨模态编码器和解码器，将不同模态的信息融合，实现从图像生成代码或从视频生成交互式应用的功能。
- 强化学习优化：在训练过程中，Gemini 2.5 Pro (I/O 版) 用强化学习优化生成代码的质量和效率。基于与环境的交互，模型不断调整自身行为，减少错误提升性能。
- 上下文感知生成：基于长上下文建模能力，理解代码片段之间的逻辑关系，生成连贯且功能完整的代码。
Gemini 2.5 Pro (I/O 版)的项目地址
- 项目官网：https://blog.google/products/gemini/gemini-2-5-pro-updates
Gemini 2.5 Pro (I/O 版)的应用场景
- Web 应用开发：快速从草图或描述生成交互式网页和应用，适合快速开发各类网站。
- 游戏开发：根据描述生成游戏代码和界面，支持快速开发休闲或复杂游戏。
- 教育工具开发：将视频或图像转化为互动学习应用，提升教学效率。
- 虚拟现实与增强现实：快速构建虚拟场景，如虚拟博物馆或城市模拟器，支持沉浸式体验。
- 企业级应用：生成复杂的企业级系统，支持多任务协作和自动化工作流。
May 7, 2025
Granite 4.0 Tiny Preview – IBM推出的语言模型
Granite 4.0 Tiny Preview是什么

Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 语言模型家族中最小的模型的预览版本。Granite 4.0 Tiny Preview用极高的计算效率和紧凑的模型结构为特点，在消费级 GPU 上能运行多个长上下文（128K）任务，性能接近 Granite 3.3 2B Instruct，内存需求减少约 72%。模型用创新的混合 Mamba-2/Transformer 架构，结合 Mamba 的高效性和 Transformer 的精确性，支持无位置编码（NoPE），能处理极长的上下文长度。

Granite 4.0 Tiny Preview的主要功能
- 高效运行：在消费级 GPU 上，能同时运行多个长上下文（128K）任务，适合资源有限的开发者。
- 低内存需求：内存需求减少约72%，推理时仅激活1B参数（总参数7B），大幅降低硬件要求。
- 长上下文处理：支持无位置编码（NoPE），已验证能处理至少128K的长上下文。
- 推理效率：推理时仅激活部分专家，提升效率、减少延迟。
Granite 4.0 Tiny Preview的技术原理
- 混合架构：结合Mamba的线性计算复杂度（适合长序列）和Transformer的精确自注意力机制。模型中9个Mamba块对应1个Transformer块，Mamba块负责高效捕获全局上下文，Transformer块用在解析局部上下文。
- 混合专家（MoE）：模型包含7B参数，分为64个专家，推理时仅激活1B参数，大幅减少计算资源消耗。
- 无位置编码（NoPE）：摒弃传统的位置编码技术，避免因位置编码带来的计算负担和对长序列的限制，保持长上下文性能。
- 长上下文优化：基于Mamba的线性扩展能力和紧凑的模型设计，支持极长上下文长度，理论上能扩展至硬件极限。
Granite 4.0 Tiny Preview的项目地址
- 项目官网：https://www.ibm.com/new/announcements/ibm-granite-4-0-tiny-preview
- HuggingFace模型库：https://huggingface.co/ibm-granite/granite-4.0-tiny-preview
Granite 4.0 Tiny Preview的应用场景
- 边缘设备部署：适合在资源有限的边缘设备或消费级硬件上运行，用在轻量级文本处理任务。
- 长文本分析：能处理长上下文（128K tokens），适用在长文本生成、分析或摘要。
- 多任务并行：在同一硬件上同时运行多个实例，适合批量处理或多用户场景。
- 企业应用开发：用在智能客服、文档处理等企业级任务，提供高效的语言模型支持。
- 低成本研发：开源且支持消费级硬件，方便开发者低成本实验和创新。
May 7, 2025
NoteLLM – 小红书推出的笔记推荐多模态大模型框架
NoteLLM是什么

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别，用大型语言模型（LLM）的强大语义理解能力，结合对比学习和指令微调技术，提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入，基于端到端微调策略，结合视觉编码器和 LLM，解决视觉信息被忽视的问题。NoteLLM-2 提出多模态上下文学习（mICL）和晚期融合（late fusion）两种机制，进一步增强多模态表示能力，显著提升多模态推荐任务的性能。框架在小红书平台上展示强大的推荐能力，已应用在实际推荐系统中。

NoteLLM的主要功能
- 自动生成标签类别：为笔记生成标签和类别，增强笔记嵌入的质量。
- 提升用户体验：基于更精准的推荐，提高用户在平台上的参与度和满意度。
- 多模态笔记推荐：结合文本和图像信息，生成更全面的笔记表示，提升多模态推荐的准确性和相关性。
- 解决视觉信息忽视问题：基于多模态上下文学习（mICL）和晚期融合（late fusion）机制，增强视觉信息的表示能力。
NoteLLM的技术原理
- Note Compression Prompt：设计特定的提示模板，将笔记内容压缩为一个特殊标记，同时生成标签和类别。
- 对比学习（Contrastive Learning）：基于用户行为数据中的共现机制构建相关笔记对，对比学习训练模型，增强笔记嵌入的语义表示。
- 指令微调（Instruction Tuning）：基于指令微调，让 LLM 更好地理解任务需求，生成高质量的标签和类别。
- 多模态上下文学习（mICL）：将多模态内容分离为视觉和文本两部分，分别压缩为两个模态压缩词，基于对比学习平衡模态间的注意力。
- 晚期融合（Late Fusion）：在 LLM 的输出阶段直接融合视觉信息，保留更多原始视觉信息，避免早期融合导致的视觉信息丢失。
- 端到端微调：结合任意现有的 LLM 和视觉编码器，基于端到端微调，定制高效的多模态表示模型，无需预训练对齐。
NoteLLM的项目地址
- GitHub仓库：https://github.com/Applied-Machine-Learning-Lab/NoteLLM
- arXiv技术论文：
  - NoteLLM：https://arxiv.org/pdf/2403.01744
  - NoteLLM2：https://arxiv.org/pdf/2405.16789
NoteLLM的应用场景
- 个性化笔记推荐：根据用户兴趣和行为，从海量笔记中精准推荐相关内容，提升用户发现体验。
- 冷启动笔记推荐：帮助新发布的笔记快速获得曝光，基于内容相似性进行推荐。
- 标签和类别生成：自动生成与笔记内容相关的标签和类别，提升内容的可检索性，帮助用户更快找到感兴趣的内容。
- 多模态内容推荐：处理文本和图像信息，生成更全面的笔记表示，提升多模态推荐的准确性和相关性。
- 内容创作辅助：为创作者提供创作灵感和建议，如关键词、标签和相关笔记推荐，辅助内容创作。
May 7, 2025
D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
D-DiT是什么

D-DiT（Dual Diffusion Transformer）是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型，能统一图像生成和理解任务。模型结合连续图像扩散（流匹配）和离散文本扩散（掩码扩散），基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务，支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构，联合扩散目标训练，展现出与自回归模型相媲美的多模态理解和生成能力，为视觉语言模型的发展提供新的方向。

D-DiT的主要功能
- 文本到图像生成：根据输入的文本描述生成高质量的图像。
- 图像到文本生成：根据输入的图像生成描述性文本，如图像描述、标题或视觉问答的答案。
- 视觉问答：结合图像和问题文本，生成准确的答案。
- 多模态理解：支持多种视觉语言任务，如图像描述、视觉指令理解和长文本生成。
- 双向生成能力：同时支持从文本到图像和从图像到文本的生成任务，具有高度的灵活性。
D-DiT的技术原理
- 双分支扩散模型：D-DiT结合连续图像扩散（Continuous Image Diffusion）和离散文本扩散（Discrete Text Diffusion）。连续图像扩散用流匹配（Flow Matching）技术，用逆向扩散过程生成图像。离散文本扩散用掩码扩散（Masked Diffusion）技术，逐步去噪生成文本。
- 多模态Transformer架构：
  - 图像分支：处理图像数据，输出图像的扩散目标。
  - 文本分支：处理文本数据，输出文本的扩散目标。
- 联合训练目标：基于一个联合扩散目标同时训练图像和文本模态，图像扩散损失基于流匹配损失，优化图像生成的逆向扩散过程。文本扩散损失基于掩码扩散损失，优化文本生成的逆向扩散过程。基于联合训练，模型能学习图像和文本之间的联合分布。
- 双向注意力机制：D-DiT用双向注意力机制，支持模型在图像和文本之间灵活切换，支持无序处理输入模态。让模型在生成过程中充分利用图像和文本的信息，提升多模态任务的性能。
D-DiT的项目地址
- 项目官网：https://zijieli-jlee.github.io/dualdiff.github.io/
- GitHub仓库：https://github.com/zijieli-Jlee/Dual-Diffusion
- arXiv技术论文：https://arxiv.org/pdf/2501.00289
D-DiT的应用场景
- 文本到图像生成：根据文本描述生成高质量图像，适用创意设计、游戏开发、广告制作和教育领域。
- 图像到文本生成：为图像生成描述性文本，辅助视障人士、内容推荐、智能相册等。
- 视觉问答：结合图像和问题生成准确答案，用在智能助手、教育工具和客服支持。
- 多模态对话系统：在对话中结合图像生成详细回答，适用智能客服、虚拟助手和教育辅导。
- 图像编辑与增强：根据文本描述修复、转换或增强图像，用在图像修复、风格转换和图像增强。
May 7, 2025
UniTok – 字节联合港大、华中科技推出的统一视觉分词器
UniTok是什么

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器，能同时支持视觉生成和理解任务。基于多码本量化技术，将视觉特征分割成多个小块，每块用独立的子码本进行量化，极大地扩展离散分词的表示能力，解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%，重建质量（rFID）仅为 0.38，显著优于现有分词器。基于 UniTok 构建的多模态大语言模型（MLLM）在视觉问答和图像生成任务中均表现出色，展现了在多模态任务中的强大潜力。

UniTok的主要功能
- 统一视觉表示：将图像编码为离散的视觉 token，token能用在图像生成任务（如文生图），也能用在视觉理解任务（如视觉问答）。
- 高质量图像重建：在保持图像细节的同时进行高效的图像重建。
- 语义对齐：结合对比学习和重建损失，确保生成的视觉 token 与文本描述对齐，提升视觉理解能力。
- 支持多模态大语言模型（MLLM）：作为多模态大语言模型的视觉输入模块，支持模型在多模态任务中的统一处理和生成。
UniTok的技术原理
- 多码本量化：UniTok 将视觉 token 分割成多个小块，每个小块用独立的子码本进行量化。例如，将 64 维的视觉特征向量分割成 8 个 8 维的小块，每个小块基于 4096 个码字的子码本进行量化。用这种方式，UniTok 的理论词汇量可以指数级增长，极大地扩展离散 token 的表示能力。
- 注意力分解：用多头注意力模块替代传统的线性投影层进行 token 分解，更好地保留原始 token 中的语义信息，提升分解后特征的表达能力。UniTok 用因果注意力（causal attention）确保与自回归生成任务的兼容性。
- 统一的训练目标：基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失，确保生成的视觉 token 与文本描述对齐，提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和，基于这种方式，UniTok 能同时优化生成和理解任务。
- 多模态大语言模型（MLLM）的集成：将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间，实现视觉和语言的统一处理。为简化 MLLM 的输入，UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时，MLLM 自回归地预测下一个位置对应的多个子码本 token，实现高效的视觉生成。
UniTok的项目地址
- 项目官网：https://foundationvision.github.io/UniTok/
- GitHub仓库：https://github.com/FoundationVision/UniTok
- HuggingFace模型库：https://huggingface.co/FoundationVision/unitok_tokenizer
- arXiv技术论文：https://arxiv.org/pdf/2502.20321
UniTok的应用场景
- 多模态模型的视觉输入：作为多模态大语言模型的视觉模块，帮助模型同时处理图文信息，提升综合性能。
- 高质量图像生成：根据文本描述生成细节丰富的图像，适用于创意设计、广告制作等领域。
- 视觉问答与理解：辅助模型理解图像内容，回答视觉相关问题，用在教育、医疗影像分析等。
- 多模态内容创作：快速生成图文内容，用在新闻报道、社交媒体等，提高创作效率。
- 跨模态检索与推荐：根据文本或图像进行检索和推荐，提升电商平台、多媒体平台的用户体验。
May 7, 2025