Author: Chimy

LBM – AI图像转换框架，实现可控阴影生成

Written by Chimy on May 15, 2025. Posted in AI工具, AI项目和框架.

LBM是什么

LBM（Latent Bridge Matching）是Jasper Research团队推出的新型图像到图像转换框架，基于在潜在空间中构建桥匹配实现快速高效的图像转换。LBM仅需单步推理完成任务，适用多种图像转换场景，如目标移除、重打光、深度和法线估计等。LBM用布朗桥在源图像和目标图像之间建立随机路径，增加样本多样性。条件框架能实现可控的阴影生成和图像重光照。LBM在多项任务中达到或超越现有方法的最佳性能，展现出强大的通用性和高效性。

LBM

LBM的主要功能

目标移除：从图像中移除指定对象及其相关阴影，保持背景的完整性。
图像重光照：根据给定的背景或光照条件重新照亮前景对象，去除现有阴影和反射。
图像修复：将退化图像转换为干净图像，恢复图像的原始质量。
深度/法线图生成：将输入图像转换为深度图或法线图，用在3D重建等任务。
可控阴影生成：根据光源的位置、颜色和强度生成阴影，增强图像的真实感。

LBM的技术原理

潜在空间编码：将源图像和目标图像编码到一个低维的潜在空间，减少计算成本提高模型的可扩展性。
布朗桥（Brownian Bridge）：在潜在空间中构建一条随机路径（布朗桥），连接源图像和目标图像的潜在表示。随机性支持模型生成多样化的样本。
随机微分方程（SDE）：基于求解随机微分方程（SDE）预测路径上的潜在表示，实现从源图像到目标图像的转换。
条件框架：引入额外的条件变量（如光照图），LBM能实现可控的图像重光照和阴影生成。
像素损失：在训练过程中，用像素损失（如LPIPS）优化模型，确保生成的图像与目标图像在视觉上的一致性。

LBM的项目地址

项目官网：https://gojasper.github.io/latent-bridge-matching/
GitHub仓库：https://github.com/gojasper/LBM
arXiv技术论文：https://arxiv.org/pdf/2503.07535
在线体验Demo：https://huggingface.co/spaces/jasperai/LBM

LBM的应用场景

普通用户：日常照片编辑，移除多余物体、修复老照片、调整光照。
摄影爱好者：后期处理，增强照片真实感，添加或调整阴影。
平面设计师：创意设计，生成深度/法线图，快速修复和调整图像。
视频编辑师：视频制作，修复视频帧，调整对象光照和阴影。
3D建模师：从照片生成深度/法线图，辅助3D建模。

Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型

Written by Chimy on May 15, 2025. Posted in AI工具, AI项目和框架.

Stable Audio Open Small是什么

Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型，参数量从11亿减少到3.41亿，生成速度更快，能在移动设备上快速生成音频，如鼓点循环、音效等。模型基于 Arm 的 KleidiAI 技术，优化在边缘设备上的运行效率，降低计算成本，无需复杂硬件支持。模型适用实时音频生成场景，如智能手机和边缘设备。

Stable Audio Open Small

Stable Audio Open Small的主要功能

文本到音频生成：根据用户输入的文本提示生成相应的音频内容，例如生成特定乐器的声音、环境音效或简单的音乐片段。
快速音频生成：支持在移动设备在8秒内生成音频，适合实时应用。
轻量化设计：参数量从11亿减少到3.41亿，模型更轻量，适合在资源受限的设备上运行。
高效运行：模型能在边缘设备上运行效率更高，降低计算成本。
多样化音频生成：支持生成短音频样本、音效、乐器片段和环境纹理等，适合创意音频制作和实时音频应用。

Stable Audio Open Small的技术原理

基于深度学习的生成模型：基于深度学习架构，用大量的音频数据训练模型，理解文本描述生成相应的音频。基于先进的神经网络技术，如 Transformer 架构，对文本和音频进行编码和解码。
参数优化：基于减少模型参数量（从11亿到3.41亿），降低模型的复杂度和计算需求，保持较高的输出质量。用模型压缩技术，如量化和剪枝，进一步优化模型的运行效率。
边缘计算优化：基于 Arm 的 KleidiAI 库，针对 Arm CPU 进行优化，让模型能在移动设备和边缘设备上高效运行。基于优化算法和硬件加速，减少音频生成的时间和计算成本。
高效的推理引擎：优化模型的推理过程，让模型在移动设备上快速完成音频生成任务，适合实时应用。基于改进的推理算法和硬件适配，提高模型的响应速度和用户体验。

Stable Audio Open Small的项目地址

项目官网：https://stability.ai/news/stability-ai-and-arm-release-stable-audio-open-small
GitHub仓库：https://github.com/Stability-AI/stable-audio-tools
HuggingFace模型库：https://huggingface.co/stabilityai/stable-audio-open-small
arXiv技术论文：https://arxiv.org/pdf/2505.08175

Stable Audio Open Small的应用场景

移动音乐创作：在手机上快速生成音乐片段和音效，方便随时随地进行音乐创作。
游戏音效生成：为游戏实时生成背景音乐和音效，增强游戏的沉浸感。
视频配乐：帮助视频创作者快速生成合适的背景音乐和音效，提高创作效率。
智能设备音频：在智能音箱等设备上生成自定义音效，提升设备的智能化体验。
教育辅助：生成教学音效和背景音乐，增强教育内容的趣味性和吸引力。

上下文工程是什么？一文读懂 – AI百科知识

Written by Chimy on May 15, 2025. Posted in AI百科.

上下文工程（Context Engineering）是在人工智能（AI）领域，特别是大型语言模型（LLM）应用中逐渐兴起并日益受到重视的概念。可以理解为一种系统性的工程方法。在于构建动态的系统，以便向AI模型，尤其是LLM，提供精准、相关且及时的信息和工具，使模型能更合理、更有效地完成特定任务。与传统的提示工程（Prompt Engineering）主要关注单次交互中的指令和示例不同，上下文工程更侧重于设计和实现能捕获、存储、检索和管理上下文信息的完整系统。意味着上下文工程不仅关注“说什么”，更关注“在什么情况下说”，以及如何构建和利用这个“情况”来提升AI的整体表现。涉及到对AI模型运作环境的全面考量，包括模型可以访问的知识范围、这些知识的组织结构，以及在交互过程中如何有效地传递这些知识。上下文工程可以被视为一种更宏观、更系统化的AI优化策略，通过精细化的上下文管理来释放AI模型的全部潜力。

上下文工程

什么是上下文工程

上下文工程是指构建一个动态系统，以正确的格式提供正确的信息和工具，使大语言模型（LLM）能合理地完成任务。是一种系统性的方法，确保LLM获得执行任务所需的一切必要条件。

多个维度理解

从操作层面来看

涉及到一系列技术和方法，用于在AI模型执行任务之前，有目的地为其构建和提供相关的上下文信息。这些信息可以来自于多种来源，例如开发者的预设指令、用户的实时输入、历史交互记录、外部工具的调用结果、外部知识库、实时环境信息等。

从系统设计的角度来看

上下文工程强调构建能自动化处理上下文信息的系统，包括上下文的获取、表示、存储、检索、更新和评估等环节。要求开发者不仅要考虑如何获取有效的上下文，还要思考如何高效地管理和利用这些上下文。例如，LangGraph框架的设计目标就是提供最大程度的可控性，允许开发者精确控制每个步骤的执行、输入LLM的内容以及输出的存储方式，实现对上下文工程的精细化管理。

从目标导向来看

上下文工程的最终目的是提升AI模型在复杂任务中的性能，能更好地理解用户意图、生成更准确的回复、做出更合理的决策，提供更加智能和个性化的服务。正如一些研究者所指出的，上下文是区分一个平庸的AI助手和一个超级助手的核心因素，上下文工程正是实现这一转变的关键。

上下文工程 vs. 提示工程（Prompt Engineering）

上下文工程（Context Engineering）与提示工程（Prompt Engineering）是大型语言模型（LLM）应用开发中两个紧密相关但又有所区别的核心概念。两者都致力于提升LLM的输出质量和任务完成能力，但其关注的层面、方法论和应用范围存在显著差异。理解它们之间的关系，对于有效地设计和优化AI应用至关重要。

提示工程（Prompt Engineering） 主要聚焦于如何设计和优化输入给LLM的“提示”（Prompt），即用户直接提供的指令或问题，以及可能包含的少量示例、任务描述、输出格式要求等。核心目标是找到一个最佳的文本表达方式，以引导LLM理解用户意图，生成符合期望的输出。提示工程更像是一种“与模型沟通的艺术和科学”，探索如何通过精心选择的词语、句式、结构、特殊符号来“激发”模型的特定能力。例如，在文本摘要任务中，提示工程可能会尝试不同的指令，如“请为以下文章生成一个简短的摘要：”、“总结这篇文章的核心观点：”或“TL;DR:”（Too Long; Didn’t Read的缩写），评估哪种提示能获得更好的摘要效果。提示工程关注的是单次交互或单个任务的优化，方法论更侧重于实验、迭代和技巧的积累。

上下文工程（Context Engineering） 是在一个更宏观、更系统的层面上运作。不仅关注用户直接输入的提示，更关注为LLM构建和管理的整个“信息环境”，即上下文。这个上下文可以包括但不限于：对话历史、用户画像、领域知识库、实时数据、API调用结果、以及其他任何能帮助模型更好地理解当前任务和生成更优输出的相关信息。上下文工程的核心目标是系统地设计、获取、组织、存储、检索、更新和评估这些上下文信息，确保LLM能持续获得高质量、高相关性的输入。更像是一种“为模型构建智能信息生态系统的工程学科”。例如，在一个智能客服系统中，上下文工程要考虑用户当前的问题（提示），还要考虑用户的历史咨询记录、购买记录、当前会话状态、以及相关的产品知识库和FAQ文档等，将这些信息有效地整合和传递给LLM。

提示工程和上下文工程并非相互独立，而是相辅相成的。高质量的提示仍然是上下文工程中不可或缺的一环，是用户意图的直接表达。上下文工程为提示的有效执行提供了坚实的基础和丰富的背景信息。在许多先进的AI应用中，两者往往结合使用：通过上下文工程获取和组织丰富的背景信息，再通过精心设计的提示将这些信息有效地传递给LLM，并引导其完成复杂任务。

上下文工程的核心特性

系统性和完整性

要求超越零散的、临时性的上下文提供方式，转而构建一个能全面覆盖上下文生命周期（包括捕获、存储、检索、更新、评估和优化）的完整系统。与传统的提示工程主要关注单次交互中的即时指令形成对比。

动态性和适应性

上下文工程强调上下文信息应该是动态变化的，能根据任务进展、用户反馈和环境变化进行实时调整和更新。例如，在长时间的对话中，系统需要能总结之前的对话内容，将其作为后续交互的上下文。

相关性和精准性

并非所有的上下文信息都是有用的，上下文工程识别和提供那些对当前任务最具影响力的信息，避免信息过载或引入噪声。需要对任务需求和模型特性有深入的理解。

主动构建和优化

上下文工程不是被动地等待上下文出现，而是主动地设计和构建能生成和传递高质量上下文的机制和流程，通过持续的反馈和迭代来优化上下文的质量和有效性。这种主动性和优化意识是工程化方法的重要体现。

上下文工程的重要体现

有助于消除歧义

自然语言本身具有高度的歧义性，同一个词或句子在不同的上下文中可能有完全不同的含义。通过提供足够的上下文信息，AI模型可以更准确地把握语义，做出正确的判断。

增强模型的推理能力

许多复杂的任务需要模型基于已有的信息进行多步推理，丰富的上下文可以为这种推理提供必要的前提和约束。例如，在规划一个会议日程时，模型需要考虑到参与者的可用时间、会议地点、议程主题等多个上下文因素。

实现个性化和智能化服务的基础

通过学习和利用用户的个性化上下文（如历史行为、偏好、习惯等），AI模型可以提供更加贴合用户需求的定制化服务。例如，一个新闻推荐系统如果了解用户对不同主题的兴趣程度，就能推送更相关的新闻。正如一些研究者指出的，上下文是区分一个“愚蠢的助手”和一个“超级队友”的关键因素 。一个能有效利用上下文的AI系统，表现会更加智能、自然和高效，极大地提升用户体验和任务完成效率。

上下文工程的工作原理

动态上下文构建

上下文工程强调动态性，即根据任务需求实时从多个来源获取上下文信息，包括用户输入、历史交互、外部数据等。这种动态构建过程需要系统能够实时感知和响应环境变化，确保模型接收到的信息是最新的、相关的。

来源：

用户输入 (User Input)：是最直接的上下文来源，包括用户当前的查询、指令、反馈等。实时捕捉并准确理解用户输入是构建有效上下文的第一步。

对话历史 (Conversation History)：对于多轮对话应用，历史交互记录是至关重要的上下文。这包括之前几轮的问答、用户的偏好表达、以及系统之前的回应。通过对话历史摘要、向量存储与检索等技术，可以实现短期和长期的对话记忆，确保Agent在多轮交互中保持连贯性和相关性。
外部知识库 (External Knowledge Bases)：包括数据库、API、文档库（如通过RAG技术检索）、知识图谱等。这些来源可以为模型提供领域特定的知识或实时信息。
系统状态与环境信息 (System Status & Environmental Information)：例如，当前时间、用户地理位置、设备类型、应用程序的当前状态等，都可以作为重要的上下文线索。
工具调用结果 (Tool Outputs)：当LLM调用外部工具（如计算器、代码执行器、搜索引擎）时，工具的输出结果也构成了新的上下文信息。

信息与工具的整合

上下文工程关注信息本身，注重信息的格式和相关工具的提供。需要将来自不同来源的信息（如文本、图像、音频等）整合成适合模型处理的格式，提供必要的工具（如检索工具、外部API等），帮助模型完成任务。

精确的上下文管理

上下文工程要求对上下文进行精细管理，避免信息过多或过少。过多的信息可能导致模型推理成本上升，而信息不足可能导致模型无法准确完成任务。上下文管理需要考虑上下文的时效性、相关性和准确性。

概率性与确定性上下文

上下文工程将上下文分为确定性上下文（如直接发送给模型的指令、规则等）和概率性上下文（如从外部工具或网络检索到的信息）。确定性上下文可以精确控制，而概率性上下文则需要通过工程设计来优化其对模型的影响。

上下文压缩与优化

为了提高模型效率，上下文工程还涉及上下文压缩技术，即将大量信息压缩为模型能够高效处理的形式。这包括对历史信息的摘要、关键信息的提取等，确保模型在有限的上下文窗口中获得最优信息。

检索增强生成（RAG）

检索增强生成（RAG）是上下文工程中的关键技术之一。通过检索外部数据源中的相关信息，将其整合到模型的上下文窗口中，扩展模型的知识边界。这种方法可以显著提升模型在处理复杂任务时的表现。

多模态融合

在一些应用场景中，上下文工程还涉及多模态信息的融合，例如将视觉信息（图像、视频）与文本信息结合，帮助模型更全面地理解任务背景。

上下文工程 vs. 检索增强生成（RAG）

上下文工程（Context Engineering）与检索增强生成（Retrieval Augmented Generation, RAG）是当前大型语言模型（LLM）应用中两个密切相关的概念，通过引入外部信息来提升模型的性能和输出质量。在范畴、方法和目标上存在显著的层级关系和差异。理解这些差异有助于更清晰地定位RAG在上下文工程体系中的位置，以及上下文工程所涵盖的更广泛内涵。

检索增强生成（RAG）

是一种特定的技术范式，核心流程是在LLM生成回答之前，首先从一个或多个外部知识库（如向量数据库、文档集合）中检索与用户查询或当前任务最相关的文档片段或信息，然后将这些检索到的信息作为“上下文”或“参考”与原始的用户提示（Prompt）一起输入给LLM。LLM基于这些增强的上下文信息来生成更准确、更相关、更具事实依据的答案。RAG的主要目标是解决LLM的“知识截止”问题（即模型的知识局限于其训练数据的时间点）和“幻觉”问题（即模型可能生成看似合理但不准确或完全虚假的信息）。通过引入外部知识源，RAG使LLM能访问和利用训练数据之外的最新或特定领域的信息。例如，一个基于RAG的问答系统，当用户询问某个特定产品的技术规格时，系统会先从产品手册或技术文档库中检索相关信息，然后将这些信息连同用户问题一起交给LLM生成答案。

上下文工程（Context Engineering）

是一个更为广泛和系统的概念。不仅局限于通过检索来获取外部知识，涵盖了为LLM设计、构建、管理和优化其运行所需的整个“上下文环境”的全过程。这个上下文环境可以包含多种信息来源和类型，远不止于RAG中常用的文档片段。上下文工程的目标是确保LLM在任何时候都能获得最相关、最准确、最完整的信息，支持完成复杂的任务。包括：

多源上下文整合：除了RAG所依赖的文档知识库，上下文工程整合来自结构化数据库、实时API、用户会话历史、系统状态、其他AI模型的输出、以及调用外部工具（如计算器、代码执行器、API）的结果等。
动态上下文管理：上下文工程强调上下文的动态性，即上下文需要根据任务的进展、用户的反馈和环境的改变而实时更新和调整。
提供正确的工具：上下文工程关注信息，关注为LLM提供完成任务所需的工具，管理这些工具的使用。
信息格式与表示：上下文工程关注如何以最有效的方式将信息组织和呈现给LLM，涉及到信息的摘要、结构化、以及与其他上下文的融合。

RAG可以被看作是上下文工程工具箱中的一个重要技术或一个关键实现模块。一个完善的上下文工程系统可能会利用RAG作为其获取外部知识的一种方式，还会包含许多其他组件和策略来构建和管理更广泛的上下文。

上下文工程的应用场景

智能客服与对话系统中

上下文工程在智能客服和对话系统中能显著提升用户体验和问题解决效率。传统的基于规则或简单机器学习的对话系统往往缺乏对上下文的理解能力，导致对话生硬、不连贯，难以处理复杂的多轮交互。引入上下文工程后，系统能更好地理解用户的意图、记忆对话历史、利用相关信息提供更精准和个性化的服务。

例如，在客户咨询订单状态时，一个具备良好上下文工程能力的对话系统可以自动识别用户身份，查询其最近的订单信息，根据订单的具体状态（如已付款、待发货、运输中、已签收）给出有针对性的回复，无需用户反复提供订单号或查询细节。这种能力依赖于系统能够有效地获取和利用用户身份、订单数据库、物流信息等多种上下文。

假设一个用户之前咨询过关于某个产品的退货政策，几天后再次联系时询问“我该如何退回我买的那个东西？”。一个没有上下文记忆的系统可能会要求用户重新提供产品信息或订单号。而一个应用了上下文工程的系统，可以通过识别用户身份，结合之前的对话记录，自动理解“那个东西”指的是之前讨论过的产品，直接提供相应的退货流程指导。

这涉及到短时记忆（当前对话内容）和长时记忆（用户历史交互、偏好）的有效管理和利用 。上下文工程可以帮助对话系统更好地处理话题转换、指代消解等复杂语言现象。

例如，当用户在讨论产品A后，突然问“那另一个呢？”，系统需要能根据之前的上下文推断出“另一个”可能指代的是之前比较过的产品B。

通过精心设计的上下文管理策略，智能客服和对话系统能实现更自然、更流畅、更高效的交互，提升用户满意度和忠诚度。

内容生成与摘要提取中

上下文工程在内容生成与摘要提取领域能显著提升生成内容的质量、相关性和个性化程度。在内容生成方面，无论是撰写营销文案、新闻稿件、创意故事还是技术文档，为大型语言模型（LLM）提供充分的上下文信息都至关重要。

例如，在生成一篇产品推广文案时，如果LLM能获取到关于目标受众（年龄、兴趣、消费习惯）、产品特点、品牌调性、以及当前的营销活动等上下文信息，那么生成的文案将更具吸引力和转化率。在撰写技术文档时，提供项目的架构图、API文档、以及相关的代码片段作为上下文，可以帮助LLM生成更准确、更易于理解的文档内容。上下文工程在这里的作用是确保LLM在生成过程中能“心中有数”，避免生成泛泛而谈或与需求不符的内容。

在摘要提取方面，传统的摘要提取算法往往只关注文本本身的统计特征，而忽略了文本所处的具体情境和用户的需求。通过引入上下文工程，摘要系统可以生成更具针对性和实用性的摘要。

例如，对于一篇长篇研究报告，不同的用户可能关注不同的方面：投资者可能关心市场趋势和投资回报，而研究人员可能更关注方法论和创新点。上下文工程可以通过分析用户的身份、查询意图或历史偏好，为LLM提供相应的上下文，生成满足特定用户需求的个性化摘要。在处理包含多个文档或需要跨文档整合信息的摘要任务时，上下文工程可以帮助系统有效地组织和利用来自不同来源的信息，生成全面且连贯的摘要。

例如，LangChain等框架提供的检索（Retrieval）功能，允许系统动态地从外部文档中获取相关信息并插入到提示中，这本身就是上下文工程在摘要提取中的一个应用体现。

通过精细化的上下文管理，内容生成和摘要提取系统能更好地服务于特定场景和特定用户，提升信息传递的效率和效果。

代码生成与软件辅助开发中

上下文工程在代码生成与软件辅助开发领域能显著提升开发效率、代码质量和开发者体验。大型语言模型（LLM）如GitHub Copilot等工具的出现，已经证明了AI在辅助编程方面的能力。然而，要让这些工具真正理解开发者的意图并生成高质量的代码，仅仅依赖当前的代码片段或简单的注释往往是不够的。

上下文工程通过为LLM提供更丰富、更精确的上下文信息，可以极大地改善代码生成的效果。这些上下文信息可以包括整个项目的代码库结构、相关的API文档、特定库的使用规范、已有的测试用例、开发者的编码风格偏好等。例如，当开发者输入一个函数名和简要描述时，一个具备良好上下文工程能力的代码生成工具可以查阅项目中的其他相关函数，理解它们之间的调用关系和数据流，生成风格一致、接口匹配且符合项目规范的代码。

在软件辅助开发方面，上下文工程在代码补全、bug修复、代码解释、测试用例生成、文档自动生成等环节，有效的上下文信息都能显著提升AI辅助工具的性能。

例如，阿里的通义灵码能根据开发者的任务描述，自动感知工程框架、技术栈、所需代码文件、错误信息等，无需手动添加工程上下文。能在行间代码生成时，利用当前代码文件及跨文件的上下文，代码库级别的上下文，实时生成行级或函数级代码建议。更进一步，一些先进的系统开始探索预生成上下文（Pre-generated Context）的策略。

例如，DeepWiki通过对代码仓库进行全面分析（包括代码、README、配置文件），生成结构化的维基式知识库并预先索引，为AI提供结构化的文档、交互式图表、项目功能/架构描述等上下文。Context7解析项目文档，使用LLM提取代码片段和元数据，生成向量嵌入，预处理整个项目文档，按需筛选，提供附带元数据和描述的代码片段、向量嵌入以及针对LLM优化的llms.txt文件等上下文。

这种精细化的上下文管理和优化，使AI编程助手能成为开发者强大的生产力工具。

个性化推荐与信息检索中

目标是根据用户的具体情境和需求，提供最相关、最有价值的信息或物品。传统的推荐系统往往依赖于用户的历史行为数据（如评分、购买记录）和物品的属性信息，而上下文感知推荐系统（Context-Aware Recommender Systems, CARS）进一步将“上下文信息”纳入考量。这些上下文信息可以多种多样，例如用户所处的时间（如工作日/周末、白天/夜晚）、地点（如家里/办公室/通勤途中）、设备（如手机/电脑）、当前的社交环境、情绪状态，或更细粒度的情境如天气、活动类型等。

上下文工程在这些系统中的应用，涉及到上下文的建模、推理以及在推荐算法中的融合。常见的上下文建模方法包括键值对模型、标记语言模型、面向对象模型、逻辑模型和本体模型等。

例如，一个电影推荐系统在周末可能会给用户推荐轻松的喜剧片，在工作日晚上则可能推荐剧情片，这就是基于时间上下文的简单应用。更复杂的上下文工程可能包括利用贝叶斯网络或规则推理来进行上下文推断，以及通过张量分解等技术将用户、物品和上下文信息共同建模。

在信息检索领域，上下文工程可以帮助搜索引擎更好地理解用户的查询意图，尤其是在模糊查询或口语化查询时。通过分析用户的历史搜索记录、地理位置、当前热点事件等上下文，搜索引擎可以提供更精准的搜索结果。

例如，搜索“苹果”时，根据用户过去是搜索电子产品还是水果，或者根据用户当前位置是否有苹果零售店，来调整搜索结果的排序和内容。LangChain等框架也支持通过检索增强生成（RAG）的方式，动态地从知识库中检索与用户查询和上下文相关的信息，从而提升问答和信息提供的准确性。

上下文工程面临的挑战

信息的有效获取与整合

复杂的智能体可能需要从多个异构来源（如应用开发者、用户输入、历史交互、工具调用结果、外部数据库等）动态获取上下文。如何确保这些信息的准确性、实时性，并以一种LLM易于理解和消化的格式进行整合，是一个复杂的系统工程问题。例如，不同来源的数据可能具有不同的结构和语义，需要进行有效的清洗、转换和对齐。

LLM上下文窗口的限制与优化

尽管现代LLM的上下文窗口在不断增大，但对于处理非常长的文档或需要长期记忆的复杂任务而言，token数量的限制依然存在。如何在有限的上下文窗口内，选择并提供最相关、最具信息量的上下文，避免信息过载或关键信息被截断，是上下文工程需要精心设计的方面。研究表明，LLM对上下文窗口中不同位置信息的关注度并不均等，信息在中间部分容易被稀释，而相似内容的堆砌可能导致“注意力干扰” 。

上下文理解的深度与动态适应性

仅仅向LLM提供原始上下文数据可能不足够，系统还需要具备一定的推理能力，理解上下文中的隐含信息、关联关系以及动态变化。例如，在长对话中，如何有效维护和更新对话历史作为上下文，确保LLM能准确理解当前的对话状态和用户意图，是一个复杂的问题。当上下文信息发生变化或出现矛盾时，系统需要能动态调整其行为和决策。

评估和度量上下文工程的有效性

如何量化不同上下文信息对LLM任务性能的贡献？如何评估上下文工程策略的优劣？都需要建立有效的评估指标和方法。

数据隐私和安全

如何在利用用户上下文提供个性化服务的同时，保护用户的敏感信息，是必须认真考虑的问题。

上下文工程的发展前景

上下文工程将更加智能化和自动化

未来的上下文管理系统将不仅仅是简单地传递信息，而是能主动理解任务需求，智能地筛选、整合、摘要甚至推理出最相关的上下文，以最优的方式呈现给模型。涉及到更高级的AI代理（Agent）技术，使上下文管理本身也具备一定的自主决策和学习能力。

多模态和跨领域上下文的融合将成为常态

随着多模态LLM的普及，上下文工程需要处理来自文本、图像、语音、视频等多种来源的信息，将它们有效地融合起来，为模型提供一个统一、全面的世界视图。上下文工程也将打破不同领域知识之间的壁垒，实现跨领域上下文的共享和利用，赋能更广泛的通用人工智能应用。

长时程记忆和个性化上下文的构建将更加成熟

为了支持更持久的交互和更深度的个性化服务，上下文工程需要发展出更有效的长时记忆机制，能准确、安全地存储和检索用户的长期偏好、历史行为等关键信息。使AI系统能真正“认识”用户，提供“千人千面”的智能体验。

更加注重可信赖性和安全性

随着AI在社会生活中的应用日益广泛，如何确保上下文信息的真实性、避免引入偏见、保护用户隐私、以及防止恶意利用，将成为上下文工程设计和实践中的重要考量。可解释的上下文管理和可验证的上下文来源将成为关键。

工具和平台将更加完善和普及

随着技术的成熟和最佳实践的积累，将会涌现出更多标准化、模块化、易用的上下文工程框架、库和平台，极大地降低开发者的使用门槛，促进上下文工程技术在各行各业的广泛应用和创新。

Shadow – AI会议助手，实时识别说话人生成会议笔记

Written by Chimy on May 15, 2025. Posted in AI工具.

Shadow是什么

Shadow 是智能会议助手，将会议中的讨论转化为可执行的行动结果，提高会议效率和生产力。通过自动转录会议对话、识别说话人、生成会议笔记和提取关键信息等功能，帮助用户在会议结束后迅速推进工作。Shadow 具备强大的隐私保护功能，所有音频和转录内容均在本地设备上处理，确保数据安全。支持与主流会议软件的无缝集成，如 Zoom 和 Microsoft Teams。

Shadow

Shadow的主要功能

自动听写与转录：Shadow能在会议或通话中自动开启听写模式，实时转录对话内容，确保不错过任何关键信息。
会议记录与摘要：会议结束后，Shadow会生成详细的会议记录和带有时间戳的摘要，方便用户随时查阅和回顾。
自动化任务执行：基于会议记录，Shadow能自动执行多种任务，如提取行动项、更新客户关系管理系统（CRM）、撰写后续邮件等。
智能笔记：结合转录内容、日历事件和用户笔记，自动生成会议笔记，提取关键见解和行动项。
实时说话人识别：自动检测并标记会议中的说话人，提供更好的上下文和责任归属。
知识资产化：每次会议的记录都成为永久的知识资产，可以随时搜索和查阅，方便后续的执行和跟进。
隐私保护：所有录音和转录内容均存储在用户的本地设备上，不会上传到云端，确保数据安全。

Shadow的官网地址

官网地址：shadow.do

Shadow的应用场景

销售电话：销售电话后自动更新CRM系统，快速生成销售跟进邮件。
商务会议：在各种商务会议中，自动生成会议记录和摘要，提取行动项和关键见解。
项目管理：帮助项目经理记录会议内容，提取任务和截止日期，确保项目顺利进行。
市场分析：市场分析师可以利用Shadow记录和分析访谈内容，快速提取关键信息。
客户服务：客户服务团队可以使用Shadow记录客户反馈，自动生成后续行动计划。

Speech-02 – MiniMax 推出的新一代文本转语音模型

Written by Chimy on May 15, 2025. Posted in AI工具, AI项目和框架.

Speech-02是什么

Speech-02 是 MiniMax 推出的新一代文本到语音（TTS）模型。模型基于回归 Transformer 架构，实现零样本语音克隆，仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力，提升合成语音的质量和相似度。Speech-02提供两种版本，Speech-02-HD 专为高保真应用设计，如配音和有声读物，能消除节奏不一致问题，保持音质清晰， Speech-02-Turbo 针对实时性能优化，平衡超低延迟与卓越音质，适用于交互式应用。Speech-02模型已在MiniMax Audio平台及MiniMax API平台上线。

Speech-02

Speech-02的主要功能

零样本语音克隆：仅需几秒参考语音，生成高度相似的目标语音。
高质量语音合成：生成自然流畅的语音，支持多种语言和方言。
多语言支持：支持 32 种语言，擅长中英、粤语等语种，可跨语言切换。
个性化语音生成：用户提供示范音频，模型学习后生成个性化语音。
情感控制：支持多种情感（如快乐、悲伤等），基于文字描述指导语音生成。

Speech-02的技术原理

自回归 Transformer 架构：基于自回归 Transformer 架构，生成韵律、语调和整体自然度更好的语音。自回归模型在生成过程中逐个生成语音特征，确保生成的语音更加自然和连贯。
零样本语音克隆：引入可学习的 speaker 编码器，编码器专门学习对合成语音最有用的声音特征，如说话人的独特发音习惯。模型仅需几秒的参考语音生成高度相似的目标语音。
Flow-VAE 架构：基于可逆映射变换潜在空间，更准确地捕捉数据中的复杂模式。Flow-VAE 架构能增强语音生成过程中的信息表征能力，提升合成语音的整体质量和相似度。
T2V 框架：T2V 框架结合开放式自然语言描述与结构化标签信息，实现高度灵活且可控的音色生成。用户基于文字描述指导模型生成特定音色和情感的语音。

Speech-02的项目地址

项目官网：https://www.minimax.io/news/speech-02-series
技术论文：https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report

Speech-02的应用场景

智能语音助手：为智能设备提供自然流畅的人机交互体验，提升用户满意度。
有声读物与配音：制作高质量的有声读物、广告配音等。
社交媒体与娱乐：在社交媒体、直播、唱聊等场景中，提供个性化语音生成，增强用户互动性和娱乐性。
教育与儿童玩具：应用在教育学习机、儿童玩具等，提供更加生动有趣的学习体验。
智能硬件集成：与智能音箱、汽车智能座舱等硬件设备集成，提升设备的智能化水平。

Challympics（赛林匹克） – 汇聚人工智能和技术创新的AI赛事平台

Written by Chimy on May 15, 2025. Posted in AI工具.

Challympics 是什么

Challympics（赛林匹克）是专注于人工智能和技术创新的赛事平台，汇聚多种类型的赛事，涵盖创新创意、量子计算、AIGC 大模型方案应用、人工智能应用等多个领域。Challympics（赛林匹克）为开发者和创新者提供一个展示创意和技能的舞台，推动人工智能技术在各个领域的应用和发展。

Challympics

Challympics的主要功能

赛事组织与管理：平台定期发布各类人工智能和技术创新相关的赛事信息，涵盖创新创意、量子计算、AIGC 大模型方案应用、人工智能应用等多个领域。参赛者可以通过平台直接报名参加感兴趣的赛事，填写相关信息并提交参赛申请。每个赛事都有详细的介绍页面，包括赛事背景、参赛要求、赛程安排、奖项设置等，帮助参赛者全面了解赛事信息。
技术文档与资料：为参赛者提供相关技术文档、教程和资源，帮助他们更好地准备和参与比赛。
开源平台支持：部分赛事与开源平台合作，如始智AI wisemodel开源平台，为参赛者提供技术支持和开发工具。
算力支持：一些赛事提供GPU等算力资源支持，帮助参赛者进行模型训练和应用开发。
论坛与讨论区：平台设有论坛和讨论区，参赛者可以在这里交流技术问题、分享经验、讨论创意。
专家指导：部分赛事邀请行业专家提供指导和建议，帮助参赛者提升技术水平和创新能力。
团队合作机会：平台为参赛者提供团队合作的机会，促进跨领域、跨地区的合作与交流。
参赛作品展示：平台展示参赛者的优秀作品和创新成果，提供一个展示创意和技能的舞台。
赛事成果推广：通过平台的宣传渠道，将赛事成果推广给更广泛的受众，提升参赛者的影响力和知名度。
行业合作机会：优秀参赛者和团队有机会获得行业合作伙伴的关注和支持，推动技术成果的商业化和应用落地。
参赛者数据分析：平台对参赛者的数据进行分析，提供参赛者的技术水平、参赛经历等信息，帮助参赛者更好地了解自己的优势和不足。

Challympics的官网地址

Challympics（赛林匹克）官网地址：challympics.com

Challympics的主要赛事

精选赛事
- MCP全球创新大赛：正在进行中，邀请全球开发者共同参与，开放创新，不限框架、不限场景，从自动化工具到颠覆式应用，参赛者的创意就是规则。
- 2025 MindSpore量子计算黑客松全国大赛：正在进行中，寻找量子计算爱好者，一起探索量子计算奥秘，勇攀量子世界高峰。
最新赛事
- AMD AI PC应用创新大赛：正在进行中，由始智AI wisemodel开源平台联合AMD AI PC应用创新联盟共同举办，旨在探索AI PC在不同场景下的无限潜力。
- “数龙杯”全球AI游戏及应用创新大赛：正在进行中，由世纪华通发起，致力于汇聚全球顶尖的开发者与创新团队，探索AI技术在游戏开发以及各类应用场景中的创新突破。
- ARC Prize 2025：正在进行中，参赛者需要开发能高效学习新技能并解决开放式问题的人工智能系统。
- 第八届中国研究生创“芯”大赛：正在进行中，属于国家级学科竞赛，聚焦集成电路和芯片设计领域。

Challympics的应用场景

技术应用：参赛者通过赛事平台将人工智能技术应用于实际场景，如智能视频、智能绘画、智能音乐等，推动技术的创新和应用落地。
产业合作：赛事成果与产业需求对接，为参赛者提供与行业龙头企业、重点园区等合作的机会，推动技术成果的商业化和应用落地。
人才培育：通过赛事活动，培育和选拔人工智能领域的专业人才，为产业发展提供人才支持。

2025全球AI应用行业季度报告（PDF文件） – AI教程资料

Written by Chimy on May 15, 2025. Posted in AI教程.

全球AI应用行业季度报告深入剖析全球AI应用行业现状与发展趋势。从多个维度展开，呈现了中国和海外AI应用在2025年3月的月活跃用户规模及季度增长率，揭示了海外AI应用接近10亿用户规模且保持高速增长，中国市场同样展现出爆发式增长态势，DeepSeek等创新先锋推动AI应用进入大众化新阶段。报告进一步通过全媒介数据分析方法，提炼出AI行业的“热概念”与“热场景”，为行业参与者提供前瞻性的市场洞察，助力发现潜在商业机会。在行业格局方面，全球AI应用已分化为23个主要赛道，各赛道在用户增长、技术发展、市场竞争等方面呈现出不同特点，中国市场在AI视频创作、AI虚拟角色等赛道增长显著，海外市场则在AI视频创作和AI效率提升赛道表现突出。帮助读者理解AI应用行业的发展脉络，洞察趋势，指引方向。

Xsignal

获取《2025全球AI应用行业季度报告》 PDF原文件，扫码关注回复： 20250515

主编悟语

希望Xsignal的数据可以为中国AI行业的发展尽涓埃之力。2025年的春天，AI行业正迎来一场前所未有的“大爆炸”，技术突破推动AI应用进入大众化新阶段。《季载录·春丨Xsignal全球Al应用行业季度报告|2025》记录AI行业发展轨迹，洞察趋势，识别未来可能。报告是兼具“温度与刻度”的行业切片，也是解构未来的动态图谱，展现了AI应用行业的全球化生态。

AI应用生态的数像万干

中国和海外AI应用2025年3月MAU（月活跃用户规模）&季度增长率。

海外AI应用月活跃用户（MAU）规模已攀升至9.80亿，单季度增长率达15.08%。

中国市场AI应用月活跃用户（MAU）达到4.62亿，延续了爆发式增长态势。

AI应用行业的奇异风口

Xsignal公司开发的全媒介数据分析方法，通过全媒介声量和增长率捕捉行业新兴趋势和热点概念。对AI行业进行了细致分类，涵盖AI大模型、生成式AI、基础设施等多个领域。提供了全媒介中中国市场和海外市场的TOP50 AI行业“热概念”、TOP50 AI应用场景等数据。

AI应用行业的格局之相

全球AI应用行业已清晰分化为23个主要赛道。

中国市场APP端，AI聊天机器人、AI视频创作、AI音乐和AIPPT制作赛道增长惊人。

海外市场APP端，AI视频创作和AI效率提升一季度爆发。

中国市场Web端，AI效率提升一季度爆发，AI教育学习展现超强粘性。

海外市场Web端，月活整体增长强劲，视觉内容（视频&图像）尤为突出。

格局有志|头部公司的AI应用生态

中国头部公司的AI应用生态

多赛道布局：众多头部公司在AI应用生态战略方面持续发力，多赛道布局，推动至少一款头部AI应用，如腾讯的元宝、阿里的夸克、360的纳米搜索等。
字节跳动：字节跳动采取全方位布局策略，实施全球布局，广泛覆盖内容创作、社交互动、商业服务等热门赛道，同时注重APP端和Web端的双端布局，成功打造多款千万级活跃用户数的AI应用。
智谱清言：智谱清言从2C市场转向2B和2G市场，但缺乏2C市场的声量支撑，导致品牌认知度受限。
Minimax：Minimax通过Talkie等虚拟社交产品在海外市场取得显著成功，聚焦虚拟社交赛道，实现盈利。
月之暗面：月之暗面的Kimi在长文本处理方面表现出色，但单一产品战略和生态布局的缺失使其逐渐脱离第一阵营。

海外头部公司的AI应用生态

OpenAI：ChatGPT在2025年第一季度展现出惊人的增长态势，MAU合计接近4亿，付费用户突破2000万，预计年化营收可达50亿美元。GPT-4.5模型的发布提升了计算效率。
谷歌：谷歌采取全面布局策略，Gemini 2.5模型表现亮眼，但其他AI应用的MAU均未突破千万，呈现“一超多弱”局面。
微软：New Bing用户量下降22.27%，Copilot表现乏力，多端累计月活仅8000万，周活跃用户数仅为ChatGPT的1/5。

OpenAI的经营之相

ChatGPT在双端近4亿用户，呈现强劲增长势头。OpenAI企业订阅业务成为重要支柱，个人订阅业务经历大幅增长。API业务稳定增长，GPT-4.5发布引发广泛关注。

季度榜单汇

提供了中国和海外市场APP端、Web端的AI应用季度增长之星榜单。涵盖了AI视频创作、AI聊天机器人、AI教育学习等多个赛道的领先应用。

海外AI应用行业的中国色

中国出海AI应用在海外市场展现出强劲的发展韧性和创新活力。在AI教育学习、AI视频编辑、AI图像生成等垂直领域形成高度聚焦态势。通过技术创新、精准市场策略和本地化运营三大战略协同发力，突破国际竞争壁垒。

结语

Xsignal是一家GenAI时代的数据公司，服务消费品、移动互联网、保险、AI行业等多个领域。利用创新的人工智能技术和数据科技，首创商业研究及咨询类GenAl+Data大模型。拥有国内唯一真正多源异构数据集，开发了超过1000个领先指标，为企业提供深刻独特数据见解和实时洞见。Xsignal坚守的“数据正义”理念，通过精准且公正的数据分析，勾勒出全球AI应用行业的完整画卷。报告不仅是数据的堆砌，更是指引未来的启明星图谱，帮助读者理解AI应用行业的发展脉络，洞察趋势，指引方向。

获取《2025全球AI应用行业季度报告》 PDF原文件，扫码关注回复： 20250515

Medeo – AI视频创作平台，一句话生成完整视频

Written by Chimy on May 15, 2025. Posted in AI工具.

Medeo是什么

Medeo 是先进的AI视频创作平台，能帮助创作者轻松将创意转化为专业视频。用户只需输入文字描述，Medeo 能自动拆分镜头、生成脚本，从海量素材库中精准匹配画面，添加专业配音和背景音乐，快速生成完整视频。平台支持智能素材匹配、AI 旁白、智能音乐选择、URL 转视频及 AI 动画创作等功能，满足企业宣传、教育视频、社交媒体等多场景需求。Medeo 集成 ChatGPT、ElevenLabs 、KLING 、火山引擎等前沿 AI 模型，视频内容高质量且富有创意，极大地简化创作流程，让视频制作变得简单高效，是创作者的得力助手。

Medeo

Medeo的主要功能

智能文生视频：用户输入简单文字描述，Medeo自动拆分镜头、生成脚本匹配素材，快速生成完整视频。
智能素材匹配：从海量优质视频资产中自动选择与场景匹配的画面，确保视觉效果协调。
AI旁白与配音：集成ElevenLabs技术，提供多语言专业配音，语音语调与内容完美契合。
智能音乐匹配：系统自动从正版音乐库中选择适合视频情绪和风格的背景音乐。
URL转视频：将网页或文章内容一键转换为专业视频，自动重组内容生成视觉效果。
AI动画创作：上传风格参考图和文字描述，生成专属动画故事。

Medeo的官方示例

prompt：Make a paper-cut style Boy Who Cried Wolf story for kids.（为孩子们制作一个剪纸风格的《狼来了》故事。）

Medeo

prompt：Make a viral YouTube video about puppy rescue.（制作一个关于小狗救援的病毒式传播的YouTube视频。）

Medeo

prompt：Create a video with today’s U.S. stock market news.（制作一个包含今天美国股市新闻的视频。）

Medeo

Medeo的官网地址

官网地址：medeo.app

Medeo的应用场景

内容创作：帮助视频博主和自媒体运营者快速生成创意视频，提高内容产出效率，节省剪辑时间。
企业营销：制作产品演示和品牌宣传视频，直观展示产品特点，提升品牌形象和知名度，助力广告投放和社交媒体推广。
教育培训：生成培训和教育视频，便于学员更好地理解和学习课程内容，适用在线课程和教育机构。
个人娱乐：制作旅行记录、生日祝福等个性化视频，记录美好瞬间，增加情感表达的趣味性。
新闻媒体：快速生成新闻视频，输入新闻文章链接提升内容发布效率，增强新闻的吸引力和传播力。

MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

Written by Chimy on May 15, 2025. Posted in AI工具, AI项目和框架.

MT-Color是什么

MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架，基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出，用实例掩码和文本引导模块解决色彩绑定错误问题，用多实例采样策略增强实例感知效果。MT-Color构建了GPT-Color数据集，提供高质量的实例级注释，支持更精细的图像着色任务。MT-Color在色彩准确性和视觉质量上优于现有方法，生成的图像更符合人类视觉感知。

MT-Color

MT-Color的主要功能

精确的实例级着色：根据用户提供的实例掩码和文本描述，对图像中的不同对象进行精确着色，确保每个对象的颜色与其描述一致。
防止色彩溢出：基于像素级掩码注意力机制，有效避免色彩在不同对象之间的错误扩散，保持颜色的边界清晰。
高质量的色彩生成：生成的彩色图像色彩丰富、自然，且分辨率高（512×512），细节更清晰。
灵活的用户控制：支持用户用文本描述和掩码对图像着色过程进行精细控制，满足不同的着色需求。
数据集支持：构建专门的GPT-Color数据集，提供高质量的实例级注释，支持更精细的图像着色任务。

MT-Color的技术原理

像素级掩码注意力机制：将ControlNet提取的灰度图像特征与Stable Diffusion的潜在特征通过像素级交叉注意力机制对齐，防止不同实例间的像素信息交换，缓解色彩溢出问题。用分割掩码构建交叉注意力掩码，确保像素信息在不同实例间不会相互干扰。
实例掩码和文本引导模块：提取每个实例的掩码和文本表示，与潜在特征基于自注意力机制融合，基于实例掩码形成自注意力掩码，防止实例文本引导其他区域的着色，减少色彩绑定错误。
多实例采样策略：在采样过程中，对每个实例区域分别进行采样，将结果融合，进一步增强实例感知的着色效果。
GPT-Color数据集：基于预训练的视觉语言模型（如GPT-4和BLIP-2）在现有的图像数据集上自动生成高质量的实例级注释，包括细粒度的文本描述和对应的分割掩码，为模型训练提供丰富的训练数据。

MT-Color的项目地址

arXiv技术论文：https://arxiv.org/pdf/2505.08705

MT-Color的应用场景

历史照片修复：为黑白历史照片添加生动色彩，增强观赏性和历史感。
影视后期制作：修复和增强黑白或低质量彩色镜头，提升视觉效果。
艺术创作：帮助艺术家为黑白草图或插画添加色彩，实现创意。
医学图像处理：为医学图像添加色彩，提高诊断价值。
教育领域：为教学材料中的黑白图像添加色彩，增强学习体验。

FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架

Written by Chimy on May 15, 2025. Posted in AI工具, AI项目和框架.

FaceShot是什么

FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块，为各种角色生成精确且鲁棒的地标序列，基于潜在扩散模型的语义对应关系，跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制，适用于任何风格化的角色和驱动视频，或作为插件与任何地标驱动的动画模型兼容，显著提升整体性能。

FaceShot

FaceShot的主要功能

角色动画生成：为各种类型的角色生成流畅且自然的面部动画，保持角色的原始特征。
跨领域动画：支持从人类视频驱动非人类角色（如玩具、动物等）的动画，扩展肖像动画的应用范围。
无需训练：无需针对每个角色或驱动视频进行额外的训练或微调，直接生成高质量的动画。
兼容性：作为插件与任何地标驱动的动画模型无缝集成。

FaceShot的技术原理

外观引导的地标匹配模块：基于潜在扩散模型的语义对应关系，结合外观先验知识，为任意角色生成精确的面部地标。用DDIM逆过程从参考图像和目标图像中提取扩散特征，基于图像提示减少不同领域之间的外观差异。用余弦距离进行地标匹配，确保地标在语义上的一致性，引入外观画廊进一步优化匹配效果。
基于坐标的地标重定位模块：基于坐标系变换捕捉驱动视频中的细微面部动作，生成与之对齐的地标序列。模块分为全局运动和局部运动两个阶段，全局运动负责计算面部的整体平移和旋转，局部运动则分别对眼睛、嘴巴、鼻子、眉毛和面部边界等部分进行相对运动和点运动的重定位。基于简单的坐标变换公式，模块能精确捕捉面部的全局和局部运动，生成稳定的地标序列。
地标驱动的动画模型：模块将生成的地标序列输入预训练的动画模型（如MOFA-Video），生成最终的动画视频。将地标序列作为额外条件输入到动画模型的U-Net中，确保模型能精确跟踪地标序列中的运动。基于这种方式，动画模型能用地标序列生成与驱动视频一致的动画效果，保持角色的视觉身份，实现高质量的肖像动画生成。

FaceShot的项目地址

项目官网：https://faceshot2024.github.io/faceshot/
GitHub仓库：https://github.com/open-mmlab/FaceShot
arXiv技术论文：https://arxiv.org/pdf/2503.00740

FaceShot的应用场景

影视娱乐：为电影、电视剧中的角色生成生动动画，提升视觉效果。
游戏开发：快速生成游戏角色动画，增强表现力和趣味性。
教育领域：使教育内容更生动，提高学生学习兴趣和教学互动性。
广告营销：生成品牌吉祥物动画，提升品牌形象和用户参与感。
VR/AR应用：生成虚拟角色动画，提升沉浸感和交互体验。

Author: Chimy

LBM是什么

LBM的主要功能

LBM的技术原理

LBM的项目地址

LBM的应用场景

Stable Audio Open Small是什么

Stable Audio Open Small的主要功能

Stable Audio Open Small的技术原理

Stable Audio Open Small的项目地址

Stable Audio Open Small的应用场景

什么是上下文工程

多个维度理解

上下文工程 vs. 提示工程（Prompt Engineering）

上下文工程的核心特性

上下文工程的重要体现

上下文工程的工作原理

上下文工程 vs. 检索增强生成（RAG）

上下文工程的应用场景

上下文工程面临的挑战

上下文工程的发展前景

Shadow是什么

Shadow的主要功能

Shadow的官网地址

Shadow的应用场景

Speech-02是什么

Speech-02的主要功能

Speech-02的技术原理

Speech-02的项目地址

Speech-02的应用场景

Challympics 是什么

Challympics的主要功能

Challympics的官网地址

Challympics的主要赛事

Challympics的应用场景

主编悟语

AI应用生态的数像万干

AI应用行业的奇异风口

AI应用行业的格局之相

格局有志|头部公司的AI应用生态

OpenAI的经营之相

季度榜单汇

海外AI应用行业的中国色

结语

Medeo是什么

Medeo的主要功能

Medeo的官方示例

Medeo的官网地址

Medeo的应用场景

MT-Color是什么

MT-Color的主要功能

MT-Color的技术原理

MT-Color的项目地址

MT-Color的应用场景

FaceShot是什么

FaceShot的主要功能

FaceShot的技术原理

FaceShot的项目地址

FaceShot的应用场景

免责声明