Category: AI项目和框架

  • EmoLLM – 专注于心理健康支持的大语言模型

    EmoLLM是什么

    EmoLLM 是专注于心理健康支持的大型语言模型,通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多种数据形式,基于先进的多视角视觉投影技术,从不同角度捕捉情感线索,更全面地理解用户的情绪状态。EmoLLM 基于多种开源大语言模型进行指令微调,支持情绪识别、意图理解、幽默检测和仇恨检测等情感任务。

    EmoLLM

    EmoLLM的主要功能

    • 理解用户:通过对话交互,识别用户的情绪状态和心理需求。
    • 情感支持:提供情感支持,帮助用户缓解压力和焦虑。
    • 心理辅导:结合认知行为疗法等方法,引导用户改善情绪管理和应对策略。
    • 角色扮演:根据不同用户的需求,提供多种角色(如心理咨询师、温柔御姐、爹系男友等)的对话体验。
    • 个性化辅导:根据用户的反馈和进展,提供定制化的心理辅导方案。
    • 心理健康评估:使用科学工具评估用户的心理状态,诊断可能存在的心理问题。
    • 教育和预防:提供心理健康知识,帮助用户了解如何预防心理问题。
    • 多轮对话支持:通过多轮对话数据集,提供持续的心理辅导和支持。
    • 社会支持系统:考虑家庭、工作、社区和文化背景对心理健康的影响,提供社会支持系统的指导。

    EmoLLM的技术原理

    • 多视角视觉投影(Multi-perspective Visual Projection):EmoLLM 通过多视角视觉投影技术,从多个角度捕捉视觉数据中的情感线索。分析单个视角下的情感信息,通过构建基于图的表示来捕捉对象特征之间的关系。通过联合挖掘内容信息和关系信息,模型能提取出更适合情感任务的特征。
    • 情感引导提示(EmoPrompt):EmoPrompt 是用于指导多模态大型语言模型(MLLMs)正确推理情感的技术。通过引入特定任务的示例,结合 GPT-4V 的能力生成准确的推理链(Chain-of-Thought, CoT),确保模型在情感理解上的准确性。
    • 多模态编码:EmoLLM 集成了多种模态编码器,以处理文本、图像和音频等多种输入。例如,使用 CLIP-VIT-L/14 模型处理视觉信息,WHISPER-BASE 模型处理音频信号,以及基于 LLaMA2-7B 的文本编码器处理文本数据。
    • 指令微调:EmoLLM 基于先进的指令微调技术,如 QLORA 和全量微调,对原始语言模型进行精细化调整,能更好地适应心理健康领域的复杂情感语境。

    EmoLLM的项目地址

    EmoLLM的应用场景

    • 心理健康辅导:为用户提供情绪支持和建议。
    • 情感分析:用于社交媒体情感监测、心理健康监测等。
    • 多模态情感任务:如图像和视频中的情感识别。
  • VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

    VideoChat-Flash是什么

    VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频,显著减少计算量,同时保留关键信息。采用多阶段从短到长的学习方案,结合真实世界长视频数据集 LongVid,进一步提升对长视频的理解能力。

    VideoChat-Flash

    VideoChat-Flash的主要功能

    • 长视频理解能力:VideoChat-Flash 通过分层压缩技术(HiCo)有效处理长视频,能处理长达数小时的视频内容。在“针在干草堆中”(NIAH)任务中,首次在开源模型中实现了 10,000 帧(约 3 小时视频)的 99.1% 准确率。
    • 高效模型架构:模型通过将每个视频帧编码为仅 16 个 token,显著降低了计算量,推理速度比前代模型快 5-10 倍。多阶段从短到长的学习方案,结合真实世界的长视频数据集 LongVid,进一步提升了模型的性能。
    • 强大的视频理解能力:VideoChat-Flash 在多个长视频和短视频基准测试中均表现出色,超越了其他开源 MLLM 模型,甚至在某些任务中超过了规模更大的模型。
    • 多跳上下文理解:VideoChat-Flash 支持多跳 NIAH 任务,能追踪长视频中的多个关联图像序列,进一步提升了对复杂上下文的理解能力。

    VideoChat-Flash的技术原理

    • 分层压缩技术(HiCo):HiCo 是 VideoChat-Flash 的核心创新之一,旨在高效处理长视频中的冗余视觉信息。
      • 片段级压缩:将长视频分割为较短的片段,对每个片段进行独立编码。
      • 视频级压缩:在片段编码的基础上,进一步压缩整个视频的上下文信息,减少需要处理的标记数量。
      • 语义关联优化:结合用户查询的语义信息,进一步减少不必要的视频标记,从而降低计算量。
    • 多阶段学习方案:VideoChat-Flash 采用从短视频到长视频的多阶段学习方案,逐步提升模型对长上下文的理解能力。
      • 初始阶段:使用短视频及其注释进行监督微调,建立模型的基础理解能力。
      • 扩展阶段:逐步引入长视频数据,训练模型处理更复杂的上下文。
      • 混合语料训练:最终在包含短视频和长视频的混合语料上进行训练,以实现对不同长度视频的全面理解。
    • 真实世界长视频数据集 LongVid:为了支持模型训练,研究团队构建了 LongVid 数据集,包含 30 万小时的真实世界长视频和 2 亿字的注释。该数据集为模型提供了丰富的训练素材,使其能够更好地适应长视频理解任务。
    • 模型架构:VideoChat-Flash 的架构包括三个主要部分:视觉编码器、视觉-语言连接器和大语言模型(LLM)。通过这种分层架构,模型能高效地将视频内容编码为紧凑的标记序列,通过 LLM 进行长上下文建模。

    VideoChat-Flash的项目地址

    VideoChat-Flash的应用场景

    • 视频字幕生成与翻译:模型能生成详细且准确的视频字幕,适用于多语言翻译和无障碍字幕生成,帮助观众更好地理解视频内容。
    • 视频问答与交互:VideoChat-Flash 支持基于视频内容的自然语言问答,用户可以通过提问获取视频中的关键信息,例如电影剧情解析、纪录片中的知识点等。
    • 具身AI与机器人学习:在具身AI领域,VideoChat-Flash 可以通过长时间的自我视角视频帮助机器人学习复杂的任务,例如制作咖啡等,通过分析视频中的关键事件来指导机器人完成任务。
    • 体育视频分析与集锦生成:模型能分析体育比赛视频,提取关键事件并生成集锦,帮助观众快速了解比赛的精彩瞬间。
    • 监控视频分析:VideoChat-Flash 可以处理长时间的监控视频,识别和追踪关键事件,提高监控系统的效率和准确性。
  • WebWalker – 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具

    WebWalker是什么

    WebWalker是阿里巴巴自然语言处理团队开发的用于评估和提升大型语言模型(LLMs)在网页浏览任务中性能的工具。通过模拟网页导航任务,帮助模型更好地处理长上下文信息。WebWalker的核心功能包括多智能体框架,能有效管理内存并支持模型在网页浏览过程中保持记忆;垂直探索策略,深入探索单个页面或相关页面链,获取更深层次的信息;以及WebWalkerQA数据集,包含680个具有挑战性的查询,覆盖多语言和多领域的网页内容,用于测试模型的性能。

    WebWalker

    WebWalker的主要功能

    • 多智能体框架:WebWalker 使用多智能体框架来有效管理内存。框架支持模型在浏览网页时保持对之前交互的记忆,更好地处理需要长上下文信息的任务。
    • 垂直探索:WebWalker 强调在页面内的垂直探索,即深入探索单个页面或相关页面链,寻找和回答问题所需的信息。
    • WebWalkerQA 数据集:为了测试和评估,WebWalker 提供了名为 WebWalkerQA 的数据集,包含来自四个真实世界场景的 680 个查询,覆盖超过 1373 个网页。测试模型的性能。
    • 性能评估:WebWalker 提供了在线演示,支持用户尝试网页浏览,通过 HuggingFace 的 Leaderboard 来提交和比较不同方法的性能。

    WebWalker的特点和优势

    • 多源信息检索:数据集中的问题需要模型从多个来源检索信息,增加了任务的复杂性。
    • 多语言支持:WebWalkerQA 数据集包含中文和英文两种语言,使得模型需要处理多语言网页。
    • 多领域覆盖:数据集涵盖会议、组织、教育和游戏等多个领域,测试模型在不同领域的适应性。
    • 多难度级别:问题被分为简单、中等和困难三个难度级别,适应不同能力的模型。
    • 增强的信息检索能力:WebWalker 的垂直探索方法能够深入网页内容,获取更深层次的信息。
    • 有效的内存管理:多智能体框架使模型能有效地管理长上下文信息,提高了处理复杂任务的能力。
    • 适应性强:WebWalker 能适应不同的网页结构和内容,使在多种网页浏览任务中都有良好的表现。
    • 性能提升:实验结果表明,将 WebWalker 集成到标准的 RAG 系统中可以提升模型在所有难度级别上的性能,尤其是在多源类别中。
    • 可扩展性:WebWalker 可以作为一个模块集成到现有的 RAG 系统中,增强其垂直探索能力。

    WebWalker的项目地址

    WebWalker的应用场景

    • 智能信息检索系统:WebWalker 可以用于构建智能助手或信息检索系统,帮助用户从复杂的网页结构中快速提取所需信息。
    • 多源信息整合:WebWalker 的垂直探索策略使其能够从多个网页中整合信息,特别适用于需要多步骤交互和深度探索的场景,如学术研究、市场分析等。
    • 数据收集与分析:WebWalker 可用于收集特定网站的数据,如价格、评论等,进行统计分析。
    • 内容监控:可以监控网站的更新,及时获取新信息,适用于需要实时监控网页内容变化的场景。
  • OmniManip – 智元机器人联合北大推出的通用机器人操作框架

    OmniManip是什么

    OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,通过结合视觉语言模型(VLM)的高层次推理能力和精确的三维操作能力,实现机器人在非结构化环境中的通用操作。框架的核心在于以对象为中心的交互基元表示法,通过将任务分解为多个结构化阶段,基于 VLM 提供的常识推理能力,将自然语言指令转化为可执行的三维空间约束。

    OmniManip

    OmniManip的主要功能

    • 零样本泛化能力:OmniManip 能处理多样化的开放词汇指令和物体,无需训练即可在多种机器人操作任务中实现强泛化能力。
    • 跨机器人形态能力:OmniManip 是种硬件无关的方法,可以轻松部署在不同类型的机器人平台上,例如双臂人形机器人。
    • 大规模仿真数据生成:OmniManip 的设计使其能自动化生成大规模的机器人操作仿真数据,为未来的研究提供了强大的数据支持。

    OmniManip的技术原理

    • 以对象为中心的交互基元表示法:OmniManip 提出了一种以对象为中心的表示方法,通过对象的功能性空间(canonical space)定义交互基元(如交互点和方向),将 VLM 的输出转化为可执行的三维空间约束。这些交互基元在对象的标准空间中定义,能在不同场景中保持一致,实现更通用和可复用的操作策略。
    • 双闭环系统设计:OmniManip 采用双闭环系统,分别用于高级规划和低级执行:
      • 闭环规划:通过交互渲染和交互原语重采样,OmniManip 实现了 VLM 的闭环推理。这一机制可以检测并纠正 VLM 推理中的错误(如幻觉问题),确保规划结果的准确性。
      • 闭环执行:在执行阶段,OmniManip 使用 6D 姿态跟踪器实时更新物体的位姿,并将其转换为机械臂末端执行器的操作轨迹,从而实现鲁棒的实时控制。
    • 任务分解与空间约束:OmniManip 将复杂任务分解为多个阶段,每个阶段通过交互基元定义空间约束。例如,在“将茶倒入杯中”的任务中,系统会分解为“抓取茶壶”和“倾倒茶水”两个阶段,并为每个阶段生成相应的交互点和方向。

    OmniManip的项目地址

    OmniManip的应用场景

    • 日常生活中的物品操作:如倒茶、插花、整理桌面等。
    • 工业自动化:通过精确的三维操作能力,实现复杂任务的自动化。
    • 服务机器人:在非结构化环境中执行任务,如家庭服务或医疗辅助。
  • 豆包大模型1.5 – 字节跳动推出的最新版大模型

    豆包大模型1.5是什么

    豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得分在知识、代码、推理、中文等多个测评基准上优于GPT-4o和Claude 3.5 Sonnet等模型。豆包大模型1.5 还推出了豆包·实时语音模型(Doubao-1.5-realtime-voice-pro)和豆包·视觉理解模型(Doubao-1.5-vision-pro),具备低时延、可打断的语音对话能力以及更强的视觉推理和文档识别能力。模型训练过程中未使用任何其他模型生成的数据。

    豆包大模型1.5

    豆包大模型1.5的主要功能

    • 综合能力显著增强:在知识(如MMLU_PRO、GPQA)、代码(如McEval、FullStackBench)、推理(如DROP)、中文(如CMMLU、C-Eval)等多个权威测评基准上表现全球领先,综合得分优于GPT-4o、Claude 3.5 Sonnet等业界一流模型。
    • 高效模型结构与低成本:采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,远超业内常规效率。自研服务器集群方案支持低成本芯片,硬件成本大幅降低。
    • 多模态能力全面提升
      • 豆包·视觉理解模型(Doubao-1.5-vision-pro):在多模态数据合成、动态分辨率、多模态对齐、混合训练上全面升级,视觉推理、文字文档识别、细粒度信息理解能力显著增强。
      • 豆包·实时语音模型(Doubao-1.5-realtime-voice-pro):采用Speech2Speech端到端框架,支持端到端语音对话,具备低时延、可随时打断等特性,已全量上线豆包App。
    • 深度思考能力:基于豆包1.5基座模型,通过RL算法突破和工程优化,研发出深度思考模型Doubao-1.5-Pro-AS1-Preview,在AIME等评测中表现领先。
    • 数据独立性:模型训练过程中未使用任何其他模型生成的数据,构建了完全自主的数据生产体系,确保数据来源的独立性和可靠性。

    豆包大模型1.5的技术原理

    • 大规模稀疏MoE架构:豆包大模型1.5 采用了大规模稀疏MoE(Mixture of Experts)架构,通过较小的激活参数进行预训练,等效于7倍激活参数的Dense模型性能,远超业内常规的3倍杠杆效率。
    • 多模态融合技术:模型在多模态能力上进行了显著升级,支持文本、图像、语音等多种模态的输入和输出。
    • 高效的数据处理与训练:豆包大模型1.5 在训练过程中未使用任何其他模型生成的数据,是通过自主构建的数据生产体系,结合标注团队和模型self-play技术,确保数据来源的独立性和可靠性。模型通过自研服务器集群方案和优化技术,显著降低了硬件成本。
    • 强化学习与优化框架:豆包大模型团队提出了HybridFlow框架,是灵活且高效的强化学习(RL)训练框架,结合了单控制器和多控制器的优势,显著提升了训练吞吐量。
    • 模型优化与推理加速:豆包大模型1.5 通过精细量化、PD分离等技术,优化了模型的推理效率。

    如何使用豆包大模型1.5

    • 豆包APP:豆包大模型1.5已灰度上线,用户可在豆包APP中体验。
    • 火山引擎API:开发者可通过火山引擎直接调用API,支持多场景应用。
    • 价格优势:保持原有模型价格不变,加量不加价。

    豆包大模型1.5的项目地址

    豆包大模型1.5的应用场景

    • 情感分析与反馈:通过语音和文本的情感分析,更好地理解用户情绪,提供更有针对性的服务。
    • 智能作业辅导:帮助学生解答数学、科学等学科问题,提供解题思路和步骤。
    • 文本生成:支持长文本生成,适用于新闻报道、文案创作、故事创作等。
    • 视频生成:豆包视频生成模型可基于文本或图片生成高质量视频,支持动态海报和短视频创作。
    • 视觉理解:豆包视觉理解模型可识别图像中的物体、场景,并进行逻辑推理,适用于教育领域的题目解析、图表分析等。
    • 多语言学习:支持多语种语音识别和生成,可用于语言学习和教学。
  • 子曰-o1 – 网易有道推出国内首个输出分步式讲解的推理模型

    子曰-o1是什么

    子曰-o1是网易有道发布的国内首个输出分步式讲解的推理模型。模型采用14B轻量级架构,专为消费级显卡设计,能在低显存设备上稳定运行。通过思维链技术,模拟人类的思考方式,以“自言自语”和自我纠错的方式输出详细的解题步骤。这种分步式讲解功能特别适合教育场景,能帮助学生更好地理解和掌握知识。子曰-o1在教育领域的应用表现出色,特别是在K12数学教学中,能提供精准的解析思路和答案。模型已应用于网易有道旗下的AI全科学习助手“有道小P”,支持“先提供解析思路、再提供答案”的答疑过程。

    confucius-o1

    子曰-o1的主要功能

    • 分步式讲解:采用思维链技术,能以“自言自语”和自我纠错的方式输出详细的解题过程,帮助用户更好地理解和掌握知识。
    • 轻量化设计:作为14B参数规模的轻量级单模型,专为消费级显卡设计,能在低显存设备上稳定运行。
    • 强逻辑推理:具备强大的逻辑推理能力,能提供高准确度的解题思路和答案,尤其在数学推理方面表现出色。
    • 教育场景优化:基于教育领域数据深度优化,使用大量学生试卷习题作为训练样本,提升在教育场景中的应用效果。
    • 启发式学习:支持“先提供解析思路、再提供答案”的答疑过程,引导学生主动思考,提升自主学习能力。

    子曰-o1的技术原理

    • 思维链技术:子曰-o1采用思维链技术,通过模拟人类的思考方式,形成较长的思维链条,实现更接近人类的推理过程。模型在解题时会“自言自语”并自我纠错,最终输出分步解题过程。
    • 轻量化设计:模型采用14B参数规模,专为消费级显卡设计,能在低显存设备上稳定运行。这种轻量化设计降低了硬件门槛,使模型能在普通消费级显卡上高效运行。
    • 分步式讲解功能:作为国内首个输出分步式讲解的推理模型,子曰-o1能将复杂的解题过程分解为多个步骤,帮助用户逐步理解。
    • 自我纠错与多样化思路:模型在推理过程中具备自我纠错能力,能及时修正错误推理,并探索多种解题思路,确保最终答案的准确性。

    子曰-o1的项目地址

    子曰-o1的应用场景

    • K12数学教学:适用于学生辅导、家庭教育和教师备课。
    • 教育AI助手:作为AI家庭教师,提供精准的数学问题解析和推导,提升学习效率。
    • 智能问答系统:支持复杂问题的分步推理,适用于需要深度解析的智能问答场景。
  • Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具

    Textoon是什么

    Textoon是阿里巴巴集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型,能在一分钟内生成多样化且可交互的2D角色。生成的角色支持动画效果,适用于HTML5渲染,可广泛应用于影视、游戏、社交媒体和广告等领域。

    Textoon

    Textoon的主要功能

    • 文本解析:Textoon 使用微调的大语言模型(LLM),能够从复杂文本中提取详细信息,如发型、眼色、服装类型等。
    • 可控外观生成:通过文本到图像模型(如SDXL),Textoon 可以根据用户输入生成角色的外观,并确保生成结果符合用户描述。
    • 编辑与修复:用户可以对生成的角色进行编辑,调整细节或修复不理想的部分。
    • 动画增强:Textoon 集成了ARKit的面部表情参数,显著提升了角色的动画表现力。
    • 多语言支持:Textoon 支持中英文提示词,能满足不同用户的语言需求。

    Textoon的技术原理

    • 文本解析与意图理解:Textoon 基于微调的大语言模型(LLM),能从复杂的文本描述中提取详细信息,例如发型、发色、眼睛颜色、服装类型等。准确的文本解析能力使系统能理解用户输入的描述,转化为具体的视觉特征。
    • Live2D 技术集成:生成的角色以Live2D格式输出,这种格式支持高效的渲染性能和灵活的动画表现。Live2D技术通过多层次的2D绘制和骨骼绑定,赋予角色丰富的表情和动作能力。Textoon 还集成了ARKit的能力,进一步提升了角色的动画表现力。
    • 高效渲染与兼容性:生成的Live2D模型具有高效的渲染性能,适用于HTML5渲染,适合在移动设备和网页应用中使用。

    Textoon的项目地址

    Textoon的应用场景

    • 创意设计:Textoon 可以帮助设计师快速生成角色原型,节省设计时间和成本。通过简单的文本描述,用户可以在短时间内生成具有丰富细节的 2D 卡通角色,对其进行编辑和调整。
    • 游戏开发:在游戏开发中,开发者可以用 Textoon 快速生成角色原型,用于游戏概念设计或直接应用于游戏中的角色动画。
    • 动漫制作:Textoon 能根据详细的文本描述生成高质量的 2D 卡通角色,适用于动漫制作中的角色设计和动画制作。生成的角色可以直接用于动画视频的制作,或者作为动画师的参考。
    • 文学创作:对于文学创作者来说,Textoon 可以将文字描述中的角色形象具象化,帮助作者更好地构思角色外观和性格特点,增强创作的可视化效果。
    • 教育与培训:Textoon 可以用于制作教学视频或互动学习材料。通过生成生动的 2D 卡通角色,可以为学生提供更直观、有趣的学习体验,例如制作虚拟教师或动画讲解。
  • DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具

    DiffEditor是什么

    DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的图像编辑工具,通过引入图像提示(image prompts)和文本提示,结合区域随机微分方程(Regional SDE)和时间旅行策略,显著提升了图像编辑的准确性和灵活性。DiffEditor支持多种编辑任务,包括单图像内的对象移动、调整大小和内容拖动,以及跨图像的外观替换和对象粘贴。

    DiffEditor

    DiffEditor的主要功能

    • 细粒度图像编辑:DiffEditor能够对图像进行多种细粒度操作,包括:
      • 对象移动和调整大小:用户可以选择图像中的对象进行移动或调整其大小。
      • 内容拖动:用户可以对图像中的多个像素点进行精确的内容拖动。
      • 跨图像编辑:支持对象粘贴和外观替换,用户可以将一个图像中的对象粘贴到另一个图像中,或替换对象的外观。
    • 区域随机微分方程(SDE)策略:通过在编辑区域注入随机性,DiffEditor能在保持其他区域内容一致性的同时,增加编辑的灵活性。
    • 无需额外训练:DiffEditor无需针对每个具体任务进行额外训练,可实现精准的图像处理,提高了编辑效率。
    • 高效性和灵活性:DiffEditor通过自适应学习机制,能根据不同的编辑需求自动调整参数,适应各种复杂的图像编辑任务。

    DiffEditor的技术原理

    • 图像提示与文本提示结合:DiffEditor首次引入图像提示(image prompts),与文本提示(text prompts)相结合,为编辑内容提供更详细的描述。能显著提高编辑质量,尤其是在复杂场景下。
    • 区域随机微分方程(Regional SDE)策略:为了提升编辑的灵活性,DiffEditor提出了一种区域随机微分方程(SDE)策略。通过在编辑区域注入随机性,同时保持其他区域的内容一致性,实现更自然的编辑效果。
    • 时间旅行策略:为了进一步改善编辑质量,DiffEditor引入了时间旅行策略。该策略在单个扩散时间步内建立循环指导,通过这种方式精炼编辑效果,从而在保持内容一致性的同时,提升编辑的灵活性。
    • 自动生成编辑掩码:DiffEditor能根据文本提示自动生成编辑掩码,高亮显示需要编辑的区域。避免了用户手动提供掩码的繁琐操作,显著提高了编辑效率。
    • 扩散采样与区域引导:DiffEditor结合了随机微分方程(SDE)和普通微分方程(ODE)采样,通过区域梯度引导和时间旅行策略进一步优化编辑效果。

    DiffEditor的项目地址

    DiffEditor的应用场景

    • 创意设计和广告制作:轻松实现复杂的图像合成和特效处理。
    • 人像修复和优化:智能识别并增强面部特征,使修复后的图像更加自然逼真。
    • 风景照片优化:重点优化色彩和光影效果,提升整体视觉体验。
  • DITTO-2 – Adobe 联合加大推出的音乐生成模型

    DITTO-2是什么

    DITTO-2 是 Adobe 和加州大学研究人员联合推出的新型音乐生成模型,通过优化扩散模型的推理时间,实现快速且可控的音乐生成。模型基于扩散模型的推理时间优化(Inference-Time Optimization, ITO),通过模型蒸馏技术(如一致性模型 Consistency Model, CM 和一致性轨迹模型 Consistency Trajectory Model, CTM),将生成速度提升至比实时更快。DITTO-2 支持多种音乐生成任务,包括音乐修复、扩展、强度控制、旋律控制以及音乐结构控制。还能将无条件扩散模型转换为具有先进文本控制能力的模型,通过最大化 CLAP 分数实现高质量的文本到音乐生成。

    DITTO-2

    DITTO-2的主要功能

    • 音乐修复与扩展:DITTO-2 支持音乐修复(inpainting)和扩展(outpainting),能够对现有音乐片段进行填充或延续。
    • 强度控制:用户可以指定音乐的强度变化曲线,例如从低到高或高到低的强度变化。
    • 旋律控制:通过输入参考旋律,DITTO-2 能够生成与之匹配的音乐。
    • 音乐结构控制:支持对音乐结构的控制,例如定义 A 段和 B 段的时长。
    • 文本到音乐生成:DITTO-2 可以将无条件扩散模型转换为具有先进文本控制能力的模型,通过最大化 CLAP 分数实现高质量的文本到音乐生成。
    • 高效推理与优化:通过模型蒸馏技术(如一致性模型 CM 和一致性轨迹模型 CTM),DITTO-2 将生成速度提升至比实时更快,同时改善控制粘附性和生成质量。

    DITTO-2的技术原理

    • 扩散模型蒸馏:DITTO-2 使用了两种模型蒸馏技术:一致性模型(Consistency Model, CM)和一致性轨迹模型(Consistency Trajectory Model, CTM)。CM 将基础扩散模型蒸馏为一个单步采样的新网络,通过最小化学习模型与指数移动平均副本之间的局部一致性损失来训练。CTM 进一步扩展了 CM 的功能,允许在扩散轨迹上的任意两点之间进行跳跃,从而提供更高效的采样路径。
    • 推理时间优化(ITO):DITTO-2 通过推理时间优化(Inference-Time Optimization, ITO)在生成过程中实时调整模型状态,更好地符合控制条件或目标。ITO 的核心是优化初始噪声潜在变量,通过特征提取函数、匹配损失函数和优化算法(如梯度下降)来调整模型状态,实现对音乐强度、旋律、结构等的精准控制。
    • 代理优化与多步解码:DITTO-2 引入了代理优化(surrogate optimization),将优化过程与最终解码过程分离。优化阶段使用单步采样快速估计噪声潜在变量,解码阶段则通过多步采样生成高质量音乐。这种分离方法在保持快速推理的同时,显著提升了生成音乐的质量。
    • 高效训练与应用:DITTO-2 的训练成本较低,仅需在 A100 GPU 上训练 30 多小时。DITTO-2 还支持多种音乐生成任务,包括音乐修复、扩展、强度控制、旋律控制和音乐结构控制。

    DITTO-2的项目地址

    DITTO-2的应用场景

    • 音乐创作与生成:DITTO-2 可以通过文本描述生成高质量的音乐。模型能生成符合描述的音乐。
    • 实时音乐生成:DITTO-2 的生成速度比实时更快,适合需要快速生成音乐的场景,如实时音乐创作或现场表演。
    • 音乐教育工作者和学生:DITTO-2 可以实时生成示例音乐,帮助学生更好地理解和学习音乐理论。教师可以通过输入特定的旋律或和弦结构,快速生成示例音乐,用于教学演示。
    • 有声读物和多媒体内容创作者:DITTO-2 支持将文本描述转换为音乐,支持为有声读物、播客或多媒体项目生成背景音乐。
  • 3DIS-FLUX – 浙大联合哈佛推出的多实例生成框架

    3DIS-FLUX是什么

    3DIS-FLUX是基于深度学习的多实例生成框架,通过解耦实例合成实现高质量的图像生成。结合3DIS框架的深度驱动场景构建和FLUX模型的扩散变换器架构,分为两阶段:首先生成场景深度图,然后基于FLUX模型进行细节渲染。通过注意力机制控制,确保每个实例的图像令牌只关注对应的文本令牌,实现精确的实例渲染。3DIS-FLUX无需对预训练模型进行额外训练,保留了强大的生成能力,同时在实例成功率和图像质量上显著优于传统方法。

    3DIS-FLUX

    3DIS-FLUX的主要功能

    • 深度驱动的场景构建:3DIS-FLUX 将多实例生成分为两个阶段,首先通过布局到深度模型生成场景深度图,用于准确的实例定位和场景布局。
    • 细节渲染与属性控制:在第二阶段,3DIS-FLUX 使用 FLUX.1-Depth-dev 模型进行细节渲染。通过引入细节渲染器,基于布局信息操纵 FLUX 的联合注意力机制中的注意力掩码,确保每个实例的细粒度属性(如颜色、形状等)能够精确渲染。
    • 无需额外训练:框架仅在场景构建阶段需要适配器训练,在细节渲染阶段无需对预训练模型进行额外训练,显著降低了资源消耗。
    • 性能与质量提升:实验表明,3DIS-FLUX 在实例成功率和图像质量方面优于传统方法,如基于 SD2 和 SDXL 的 3DIS 框架,以及当前最先进的适配器方法。
    • 灵活性与兼容性:3DIS-FLUX 与多种预训练模型兼容,能无缝集成到现有的生成式 AI 系统中。

    3DIS-FLUX的技术原理

    • 两阶段生成流程
      • 场景构建阶段:使用布局到深度模型(Layout-to-Depth Model)根据用户提供的布局信息生成场景深度图。这一阶段需要适配器训练,确保场景的布局与用户定义的实例位置一致。
      • 细节渲染阶段:基于 FLUX.1-Depth-dev 模型根据深度图生成高质量的 RGB 图像。这一阶段无需额外训练,直接利用预训练的 FLUX 模型进行渲染。
    • FLUX 模型的集成:FLUX 是一种基于扩散变换器(DiT)的先进模型,具有强大的文本控制能力和图像生成质量。在细节渲染阶段,3DIS-FLUX 通过 FLUX 模型的联合注意力机制(Joint Attention)实现图像和文本嵌入的对齐,并通过注意力掩码(Attention Mask)确保每个实例的图像令牌仅关注其对应的文本令牌。
    • 注意力机制的优化:为了进一步提升实例的细粒度属性渲染精度,3DIS-FLUX 引入了细节渲染器(Detail Renderer),通过操纵 FLUX 模型的联合注意力机制中的注意力掩码,确保每个实例的渲染精度。

    3DIS-FLUX的项目地址

    3DIS-FLUX的应用场景

    • 电商设计与海报生成:3DIS-FLUX 可用于生成高质量的电商产品图和海报设计。通过定义多个实例的布局和属性,用户可以快速生成包含多个商品的场景图,满足电商设计中对产品展示和视觉效果的高要求。
    • 创意设计与艺术创作:能支持创意设计和艺术创作,生成具有精细属性的多实例图像,例如自然风光、城市景观、人物肖像等。用户可以通过文本描述和布局定义,生成符合创意需求的复杂场景。
    • 虚拟场景构建:3DIS-FLUX 可用于构建虚拟场景,如游戏背景、虚拟展览等。通过深度图和细节渲染的结合,能生成具有空间感和真实感的多实例图像,满足虚拟场景中对物体布局和细节的精确要求。
    • 广告与营销内容生成:在广告和营销领域,3DIS-FLUX 可以快速生成包含多个元素的视觉内容,如广告海报、宣传图等。