Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • TIGER – 清华大学推出的轻量级语音分离模型

    TIGER是什么

    TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的轻量级语音分离模型,通过时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,降低了参数量和计算量。 TIGER 的核心在于创新的时频交叉建模模块(FFI),能高效整合时间和频率信息,更好地提取语音特征。模型引入多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),进一步优化了特征提取能力。

    TIGER

    TIGER的主要功能

    • 高效语音分离:TIGER通过创新的时频交叉建模模块(FFI)和多尺度注意力机制,能高效地分离混合语音中的不同说话者。
    • 低计算量与低参数量:模型在压缩94.3%的参数量和95.3%的计算量后,性能仍与当前最先进的模型相当。
    • 复杂声学环境适应:TIGER通过EchoSet数据集模拟真实场景中的噪声和混响,提升模型在复杂环境下的鲁棒性。

    TIGER的技术原理

    • 时频交叉建模策略:TIGER 的核心在于时频交叉建模模块(FFI),通过交替处理时间和频率信息,有效整合时频特征。模块包含频率路径和帧路径,每个路径都包含多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),能融合局部和全局信息,提升语音分离效果。
    • 频带切分:语音信号的能量在不同频带上分布不均,中低频带包含更多语音信息,高频带包含更多噪声和细节。TIGER 通过频带切分策略,将频带划分为不同宽度的子带,减少计算量的同时,让模型专注于关键频带。
    • 多尺度注意力机制:TIGER 引入了多尺度选择性注意力模块(MSA),通过多尺度卷积层和选择性注意力机制,融合局部和全局信息,增强模型对多尺度特征的提取能力。
    • 整体流程:TIGER 的整体流程包括五个部分:
      • 编码器:将混合音频信号通过短时傅里叶变换(STFT)转换为时频表示。
      • 频带切分模块:将整个频带划分为多个子带,每个子带通过一维卷积转换为统一的特征维度。
      • 分离器:由多个时频交叉建模模块(FFI)组成,用于提取每个说话者的声学特征。
      • 频带恢复模块:将子带恢复到全频带范围。
      • 解码器:通过逆短时傅里叶变换(iSTFT)生成每个说话者的清晰语音信号。

    TIGER的项目地址

    TIGER的应用场景

    • 会议及演讲记录:在多人发言的会议或演讲场景中,TIGER 可以高效分离不同发言人的语音,提升会议记录的效率和准确性。
    • 视频剪辑与制作:在视频内容创作中,TIGER 能精确分离主播与背景音或其他人物的语音,方便后期制作和剪辑。
    • 电影音频处理:TIGER 在电影音频分离任务中表现出色,能分离出人声、音乐和音效,提升音频处理的灵活性和质量。
    • 智能语音助手:在智能语音助手应用中,TIGER 可以帮助分离用户语音和背景噪声,提升语音交互的体验。
  • Collaborative Gym – 支持人与AI代理实时交互协作的评估框架

    Collaborative Gym是什么

    Collaborative Gym(Co-Gym)是专注于人机协作(Human-Agent Collaboration)的框架,支持人类与AI代理之间的实时交互与协作。通过模拟和真实两种实验条件,支持开发者在受控环境中进行迭代开发,同时能在真实场景中部署和评估协作效果。Co-Gym支持异步交互,能处理代理、人类和任务环境之间的三方互动。

    Collaborative Gym

    Collaborative Gym的主要功能

    • 支持异步交互:Co-Gym突破传统多智能体框架中同步行动的限制,支持人类和AI代理在协作中灵活地发起行动,无需严格按顺序交互。更接近真实的人类协作模式。
    • 任务环境设计:Co-Gym将每个任务定义为部分可观测马尔可夫决策过程(POMDP),支持公共和私有观测空间。公共部分对所有参与者可见,私有部分仅对所有者可见,类似于人类团队中共享白板和个人笔记的区别。
    • 评估框架:Co-Gym关注任务完成的结果,重视协作过程本身。提供了综合评估框架,从协作质量和协作过程两个维度对代理进行评估。
    • 模拟与真实条件:Co-Gym支持模拟和真实两种实验条件。模拟条件使用预收集的任务实例和模拟人类行为,便于快速迭代开发;真实条件支持与真实人类在实际任务环境中协作,支持旅行规划、文献综述和表格分析等多种任务。

    Collaborative Gym的技术原理

    • 协作驱动的环境设计:Co-Gym借鉴了OpenAI Gym的设计思路,针对人机协作进行了优化。支持在观测空间中定义公共和私有部分:公共部分对所有参与者可见,私有部分仅对所有者可见。模拟了真实协作场景中共享信息和个人笔记的区别。
    • 异步交互:Co-Gym支持异步交互,支持人类和代理在必要时独立行动,无需等待对方响应。为此,Co-Gym引入了两种协作行为:发送消息(SendTeammateMessage)和等待对方继续(WaitTeammateContinue),采用通知协议实时通知参与者环境的变化。
    • 通知协议:Co-Gym通过Redis服务器实现通知协议,支持四种事件类型:共享观测更新、私有观测变化、新消息通知以及环境不活动超时通知。这支持代理实时监控环境变化,更好地与人类协作。
    • 任务环境接口(CoEnv):Co-Gym提供了灵活的任务环境接口,支持开发者轻松添加新的任务环境。开发者只需定义任务描述、动作空间和观测空间即可。Co-Gym支持多种任务环境,如旅行规划、文献综述和表格数据分析。

    Collaborative Gym的项目地址

    Collaborative Gym的应用场景

    • 旅行规划(Travel Planning):在旅行规划任务中,Co-Gym支持人类与AI代理协作制定详细的旅行行程。代理可以基于搜索和规划能力,人类可以提供偏好和专业知识,共同完成旅行计划。
    • 表格数据分析(Tabular Analysis):Co-Gym为代理和人类提供了共享工作空间和实时沟通能力,支持效的协作分析。
    • 文献综述(Related Work):在文献综述任务中,Co-Gym支持人类与AI代理协作完成学术文献的整理和分析。代理可以快速检索和筛选相关文献,人类可以提供领域专业知识,共同完成高质量的文献综述。
  • PIKE-RAG – 微软亚洲研究院推出的检索增强型生成框架

    PIKE-RAG是什么

    PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微软亚洲研究院推出的检索增强型生成框架,能解决传统RAG系统在复杂工业应用中的局限性。PIKE-RAG基于提取、理解和应用专业知识,构建连贯的推理逻辑,引导大型语言模型(LLM)生成准确的回答。PIKE-RAG引入知识原子化(Knowledge Atomizing),将知识分解为细粒度的原子单元,用问题形式存储,便于高效检索和组织。PIKE-RAG提出多智能体规划模块,用在处理创造性问题,从多个角度进行推理和规划。

    PIKE-RAG

    PIKE-RAG的主要功能

    • 专业知识提取与理解:从多样化的数据源中提取领域特定的知识,转化为结构化的知识单元,为复杂问题提供精准的知识支持。
    • 推理逻辑构建:基于动态任务分解和知识感知的推理路径规划,逐步构建连贯的推理逻辑,引导语言模型生成准确的答案。
    • 多跳问题处理:基于知识原子化和任务分解,将复杂问题分解为多个原子问题,逐步解决多跳推理任务。
    • 创造性问题解决:引入多智能体系统,从多个角度进行推理和规划,激发创新性解决方案。
    • 分阶段系统开发:根据任务复杂性,支持从基础的事实性问题到高级的创造性问题的分阶段开发,逐步提升系统能力。

    PIKE-RAG的技术原理

    • 知识原子化:将文档中的知识分解为细粒度的“原子知识”,用问题形式存储。原子知识作为检索的索引,更高效地匹配用户问题,提高知识检索的精度。
    • 知识感知任务分解:动态分解复杂问题为多个原子问题,根据知识库的内容选择最优的推理路径。基于迭代检索和选择,逐步收集相关信息并构建完整的推理逻辑。
    • 多智能体规划:在处理创造性问题时,引入多个智能体,每个智能体从不同角度进行推理和规划。基于多智能体的协同工作,生成更全面、更具创新性的解决方案。
    • 多粒度检索:在多层异构知识图谱中进行多粒度检索,从整体文档到细粒度的知识单元,逐步细化检索范围。结合多层知识图谱的结构,提升知识检索的效率和准确性。
    • 分阶段系统开发:根据任务复杂性,将RAG系统分为不同等级(L1-L4),逐步提升系统能力。每个等级针对特定类型的问题,从简单的事实性问题到复杂的创造性问题,逐步增强系统的推理和生成能力。

    PIKE-RAG的项目地址

    PIKE-RAG的应用场景

    • 法律领域:辅助法律专业人士解读法规、分析案例,提供精准的法律咨询和建议。
    • 医疗领域:帮助医生进行疾病诊断和治疗方案规划,提供基于专业知识的医疗建议。
    • 半导体设计:支持工程师理解复杂物理原理,优化半导体设计和研发流程。
    • 金融领域:用在风险评估和市场预测,为投资决策提供数据支持和分析报告。
    • 工业制造:优化生产流程和供应链管理,提升工业效率和质量控制。
  • NobodyWho – AI游戏引擎插件,本地运行 LLM 实现互动小说创作

    NobodyWho是什么

    NobodyWho是为 Godot 游戏引擎设计的插件,通过本地运行的大型语言模型(LLM)实现互动小说创作。支持 Windows、Linux 和 macOS 平台,用户无需联网即可使用高性能的 LLM 功能,如对话交互和文本生成。插件通过简单的节点系统(如 NobodyWhoModel 和 NobodyWhoChat)实现与模型的无缝对接,让创作者可以快速构建动态叙事内容。

    NobodyWho

    NobodyWho的主要功能

    • 本地运行:支持在本地运行 LLM,无需联网,避免了隐私问题。
    • 高性能推理:通过 GPU 加速(Linux/Windows 使用 Vulkan,MacOS 使用 Metal),确保快速的推理性能。
    • 多上下文支持:可以同时维护多个独立的“对话”或叙事线程,适用于不同角色或游戏状态。
    • 流式输出:生成文本时逐字输出,使游戏对话更具动态性和实时性。
    • 采样器功能:根据上下文动态调整生成参数(如温度、种子等),以控制对话风格。
    • 嵌入功能:通过 LLM 比较自然文本的语义内容,不仅是关键词或字面内容。
    • 工具调用:支持 LLM 与游戏内的功能或系统交互,例如访问库存、触发事件等。
    • 记忆功能:为 LLM 提供长期记忆,以便在叙事中引用过去的事件,确保故事连贯性。

    NobodyWho的技术原理

    • 本地运行与 GPU 加速:NobodyWho 支持用户在本地运行 LLM,无需联网即可实现快速推理。通过 Vulkan(Linux/Windows)或 Metal(macOS)技术实现 GPU 加速,确保高性能。
    • 节点系统集成:插件通过 Godot 的节点系统实现功能集成。用户需要在场景中添加 NobodyWhoModel 节点来加载 LLM 模型文件(如 GGUF 格式),通过 NobodyWhoChat 节点实现与模型的交互。

    NobodyWho的项目地址

    NobodyWho的应用场景

    • 互动故事创作:NobodyWho 可以让玩家与游戏中的角色进行实时对话,推动故事发展。例如,在一个科幻游戏中,玩家可以通过与空间站船员的对话来解开事故的真相。
    • 动态对话系统:通过本地运行的 LLM,开发者可以为游戏中的非玩家角色(NPC)创建自然、动态的对话系统。NPC 可以根据玩家的输入生成实时回应,游戏对话更加流畅和真实。
    • 多角色和多线叙事:NobodyWho 支持多上下文功能,支持开发者在同一游戏中维护多个独立的对话或叙事线程。
  • AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架

    AnyCharV是什么

    AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导:第一阶段用细粒度分割掩码和姿态信息进行自监督合成;第二阶段用自增强训练和粗粒度掩码优化角色细节保留。AnyCharV 在实验中展现出优越的性能,能自然地保留角色的外观细节,支持复杂的人-物交互和背景融合。AnyCharV能与文本到图像(T2I)和文本到视频(T2V)模型生成的内容结合,具有很强的泛化能力。

    AnyCharV

    AnyCharV的主要功能

    • 任意角色与目标场景的合成:将任意给定的角色图像与目标驱动视频结合,生成自然、高质量的视频。
    • 高保真角色细节保留:基于自增强训练和粗粒度掩码引导,保留角色的外观和细节,避免失真。
    • 复杂场景与人-物交互:支持角色在复杂背景下的自然交互,如运动、物体操作等。
    • 灵活的输入支持:结合文本到图像(T2I)和文本到视频(T2V)模型生成的内容,具有很强的泛化能力。

    AnyCharV的技术原理

    • 第一阶段:自监督合成与细粒度引导:用目标角色的分割掩码和姿态信息作为条件信号,将参考角色精确地合成到目标场景中。引入参考图像的 CLIP 特征和 ReferenceNet 提取的角色外观特征,保留角色的身份和外观。对分割掩码进行强增强,减少因形状差异导致的细节丢失。
    • 第二阶段:自增强训练与粗粒度引导基于生成的视频对进行自增强训练,用粗略的边界框掩码代替细分割掩码,减少对角色形状的约束。基于这种方式,模型能更好地保留参考角色的细节,在推理阶段生成更自然的视频。

    AnyCharV的项目地址

    AnyCharV的应用场景

    • 影视制作:将任意角色合成到目标场景,支持复杂交互,助力特效制作。
    • 艺术创作:结合文本生成内容,快速生成高质量角色视频,激发创意。
    • 虚拟现实:实时生成角色与虚拟场景的交互视频,增强沉浸感。
    • 广告营销:快速合成个性化广告视频,满足多样化需求。
    • 教育培训:生成特定角色和场景的视频,辅助教学和培训。
  • ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

    ENEL是什么

    ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,与文本标记拼接后输入到大型语言模型(LLM)中。模型通过两种关键策略实现高效语义编码和几何结构理解:一是LLM嵌入的语义编码策略,通过混合语义损失提取高级语义;二是分层几何聚合策略,使LLM能关注点云的局部细节。

    ENEL的7B模型在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。在Objaverse基准测试中,ENEL-7B的字幕生成任务GPT分数达到50.92%,分类任务达到55.0%,在3D MM-Vet数据集的VQA任务中达到42.7%,均与现有的13B模型(如ShapeLLM)相当。ENEL的无编码器架构在语义编码方面表现出色,能更好地捕捉点云与文本之间的语义相关性。

    ENEL

    ENEL的主要功能

    • 无编码器架构:ENEL去除了传统的3D编码器,直接将点云数据通过标记嵌入模块转换为离散点标记,与文本标记拼接后输入到LLM中。避免了编码器架构中常见的点云分辨率限制和语义嵌入不匹配问题。
    • 高级语义提取:ENEL通过LLM嵌入的语义编码策略,在预训练阶段引入混合语义损失(Hybrid Semantic Loss),能提取点云的高级语义特征,同时保留关键的几何结构。
    • 局部几何感知:在指令调优阶段,ENEL采用分层几何聚合策略,使LLM能主动感知点云的局部细节。通过聚合和传播操作,将局部几何信息融入LLM的早期层,实现对复杂3D结构的精细理解。
    • 多任务3D理解:ENEL在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。7B模型在Objaverse基准测试中达到了55.0%的分类准确率和50.92%的字幕生成GPT分数,性能与13B的ShapeLLM相当。
    • 高效语义对齐:ENEL通过无编码器架构实现了点云与文本模态之间的高效语义对齐,能更好地捕捉两者之间的语义相关性,为3D多模态任务提供了更强大的语义基础。

    ENEL的技术原理

    • LLM嵌入的语义编码(LLM-embedded Semantic Encoding):在预训练阶段,ENEL通过探索不同的点云自监督损失(如掩码建模损失、重建损失、对比损失和知识蒸馏损失),提出了一种混合语义损失(Hybrid Semantic Loss)。这种损失函数能将点云的高级语义信息嵌入到LLM中,替代传统3D编码器的功能。
    • 分层几何聚合(Hierarchical Geometry Aggregation):在指令调优阶段,ENEL引入了分层几何聚合策略。策略通过在LLM的早期层中对点云进行聚合和传播操作,将归纳偏置融入LLM,能关注点云的局部细节。具体而言,使用最远点采样(FPS)和k近邻(k-NN)算法对点云进行下采样和聚合,逐步整合点云的细粒度语义信息。

    ENEL的项目地址

    ENEL的应用场景

    • 3D对象分类:ENEL能对3D对象进行高效的分类,适用于工业自动化、机器人视觉和自动驾驶等领域,能快速识别和分类复杂的3D物体。
    • 3D对象字幕生成:可用于生成对3D模型的描述性文本,帮助用户快速理解3D场景中的关键信息,适用于虚拟现实(VR)、增强现实(AR)以及3D建模工具中。
    • 3D视觉问答(VQA):能回答与3D场景相关的问题,例如在医学影像分析、建筑设计和教育领域中,帮助用户快速获取3D数据中的关键信息。
    • 复杂3D几何结构理解:适用于需要精确理解复杂几何形状的场景,如航空航天、汽车制造和珠宝设计等领域,能帮助工程师和设计师更好地理解和优化3D模型。
  • 《Manus没有秘密》70页PPT解读AI Agent(PDF文件)

    《Manus没有秘密》简介

    《Manus没有秘密》由明浩老师撰写的解读 AI Agent 的70页PPT,主要介绍了 AI Agent(智能体)技术从L1到L3的过程,探讨了 AI Agent 的定义、实现原理、使用体验以及未来的发展趋势。通过对Manus等Agent产品的分析,深入讨论了AI技术的现状、挑战和未来方向。(文末附逐字稿)

  • 通古大模型 – 华南理工大学推出的古籍大语言模型

    通古大模型是什么

    通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用24.1亿古籍语料进行无监督训练,结合400万古籍对话数据进行指令微调。模型采用冗余度感知微调(RAT)技术,有效提升了古籍任务的性能。帮助用户更便捷地理解和翻译古籍文献。通过检索增强生成(CCU-RAG)技术,减少知识密集型任务中的幻觉问题,提高生成内容的准确性和可靠性。

    通古大模型

    通古大模型的主要功能

    • 古文句读:通古大模型能自动为古文添加标点符号,解决古籍中常见的断句问题,帮助用户更好地理解古文内容。
    • 文白翻译:模型支持文言文与白话文之间的双向翻译,将晦涩的古文翻译为现代文,同时也可将现代文转换为文言文,方便用户进行古籍阅读和研究。
    • 诗词创作:通古大模型可以生成符合古诗词格律和风格的诗歌,用户可以根据需求提供主题或关键词,模型生成相应的诗词作品。
    • 古籍赏析:模型能对古籍中的经典篇章进行赏析,解读其文学价值、历史背景和文化内涵,辅助用户深入学习古籍。
    • 古籍检索与问答:结合检索增强技术,通古大模型可以快速检索古籍内容,根据用户的问题提供准确的答案,帮助用户高效获取古籍信息。
    • 辅助古籍整理:模型能识别古籍中的文字错误、缺漏等问题,提供修复建议,辅助古籍整理和数字化工作。

    通古大模型的技术原理

    • 基础模型架构:通古大模型基于百川2-7B-Base进行增量预训练。百川2-7B-Base是强大的预训练语言模型,为通古大模型提供了基础的语言理解和生成能力。
    • 无监督增量预训练:模型在24.1亿古籍语料上进行无监督增量预训练。使模型学习古籍的语言风格和结构,为后续的古籍处理任务奠定基础。
    • 多阶段指令微调:通古大模型采用了多阶段指令微调技术,提出了冗余度感知微调(RAT)方法。在提升下游任务性能的同时,保留了基座模型的能力。通过指令微调,模型能更好地适应古籍处理的具体任务,如古文翻译、句读等。
    • 检索增强生成(RAG)技术:通古大模型结合了检索增强生成(RAG)技术,减少知识密集型任务中的幻觉问题。核心是将信息检索与文本生成相结合,通过从外部知识库中检索相关信息,作为上下文输入给语言模型,生成更准确、更符合上下文的答案。

    通古大模型的项目地址

    通古大模型的应用场景

    • 古籍处理与数字化:通古大模型能高效处理古籍文献,支持文白翻译、句读标点和古籍检索等功能。辅助古籍整理工作,通过智能识别和修复古籍中的文字错误,提升古籍数字化的效率。
    • 教育支持:教师可以用来生成教案、教学PPT,设计课堂互动环节。对于学生,模型能提供文言文翻译、成语解释和诗词创作等功能,帮助他们更好地理解古文。
    • 文化传承与普及:通古大模型通过降低古籍阅读难度,让更多人接触和理解中华传统文化。
    • 学术研究:通古大模型为古籍研究提供了强大的技术支持,能帮助学者快速检索和分析古籍内容。
  • 涌墨 – AI文档编写平台,智能解析关键信息生成文档内容

    涌墨是什么

    涌墨是智能文档编写平台,为用户提供全流程、智能化、高质量的文档生成解决方案。通过一站式文档工作流,以项目为单位管理文档,覆盖全业务流程,帮助用户高效完成文档编写任务。平台提供25类符合软件行业国标的文档模板,支持智能解析功能清单树图,确保文档内容连贯性,避免信息重复和遗漏。涌墨支持灵活定制,用户可以根据项目需求修改功能清单和文档内容,满足个性化需求。

    涌墨

    涌墨的主要功能

    • 全流程文档工作流管理:涌墨以项目为中心,提供全流程、一站式文档工作流管理。用户可以将项目相关的文档集中在一个平台上进行创建、编辑、修改和更新,覆盖从项目启动到交付的全生命周期,确保文档管理的系统性和连贯性。
    • 智能解析与内容生成:平台具备智能解析功能,能快速提取关键信息并生成文档内容。
    • 全面覆盖的文档模板:涌墨提供25类符合软件行业国标的文档模板,涵盖项目全流程的各类文档需求。支持用户根据实际需求进行灵活定制,满足不同项目和团队的个性化要求。
    • 智能关联与一致性管理:通过智能解析功能清单树图,涌墨能确保各阶段文档内容的连贯性和一致性。自动关联不同文档之间的内容,避免信息重复和遗漏,提升文档管理的整体效率。
    • 可视化增强:涌墨支持插入时序图、流程图、活动图等多种可视化元素,将复杂的概念和流程以直观的图形展示。有助于用户快速理解项目的关键环节和逻辑关系。
    • 灵活定制与个性化:用户可以根据项目需求,按需修改功能清单和各阶段文档内容。确保文档与项目实际需求高度契合,满足不同行业和团队的个性化需求。
    • 高效文档管理:涌墨提供统一的文档管理平台,支持快速查找、修改和更新文档。方便地管理项目中的所有文档,提升文档管理的整体效率。

    如何使用涌墨

    • 注册与登录:访问涌墨官网 yong-mo.com,完成注册并登录平台。
    • 上传文件:根据需求上传相关文件,例如招标文件、项目需求文档等。涌墨会自动解析文件内容,提取关键信息
    • 一键生成文档:涌墨可在短时间内生成高质量文档。用户只需上传招标文件,系统会自动解析并生成符合要求的文档。
    • 文档编辑与优化:用户可以在生成的文档基础上进行修改、扩写或重写,满足个性化需求。
    • 输出与使用:生成的文档可以直接导出使用,或根据需要进一步调整优化。

    涌墨的应用场景

    • 招投标文件生成:涌墨能快速生成高质量的投标文件,用户只需上传招标文件,系统会自动解析关键信息,如评分表、底线项、格式要求等,生成符合要求的文档内容。
    • 规范文档生成:涌墨提供了25类符合行业标准的规范文档模板,涵盖软件开发、工程管理等关键文档类型。
    • 日常办公文档:涌墨适用于日常办公文档的生成,如报告、计划、总结等。通过智能生成文章目录、段落扩写和重写等功能,用户可以快速搭建文档结构并优化内容。
    • 项目前期市场调研:涌墨能帮助用户快速收集和整理项目前期的市场调研信息,通过AI技术生成初步的调研报告,为项目决策提供支持。
  • BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术

    BAG是什么

    BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术,通过结合多视图图像扩散模型和控制网络(ControlNet),运用人体形状和姿态信息,自动生成与人体完美适配的3D可穿戴资产,如服装和配饰。 BAG的核心在于基于多视图生成器和3D扩散模型。首先通过多视图图像扩散模型生成与人体对齐的多视图图像,然后基于3D扩散模型将这些图像转化为3D资产。通过物理模拟和优化,生成的资产能自然地贴合人体,避免穿透问题。

    BAG

    BAG的主要功能

    • 多视图图像生成:通过多视图图像扩散模型,基于人体的形状和姿态信息生成与人体对齐的多视图图像。
    • 3D资产生成:将多视图图像输入3D扩散模型,生成高质量的3D可穿戴资产。
    • 多样化与个性化:支持从单个资产到多个组件组合的生成,满足不同场景下的多样化需求。
    • 高效适配:能快速生成与不同人体模型适配的资产,适用于虚拟服装试穿、游戏开发、VR和AR等领域。

    BAG的技术原理

    • 视图图像扩散模型:BAG首先构建了一个从单图像到一致多视图图像的扩散模型,在大规模Objaverse数据集上进行训练,实现多样性和泛化能力。模型通过控制网络(ControlNet)引导生成与人体对齐的多视图图像,控制信号利用目标人体的多视图2D投影,其中像素值表示规范化空间中人体表面的XYZ坐标。
    • 3D形状生成:生成的多视图图像被输入到本地3D扩散模型中,生成资产的3D形状。通过多视图轮廓监督恢复相似变换(Sim3),确保生成的3D资产与人体模型在空间上对齐。
    • 物理模拟与优化:为了确保生成的3D资产能自然地贴合人体,BAG采用物理模拟技术解决资产与身体之间的穿透问题。通过代理网格保留资产的基本几何形状,作为布料模拟的代表,最终实现无穿透的对齐。

    BAG的项目地址

    BAG的应用场景

    • 虚拟服装试穿:BAG能根据用户的身体模型快速生成适配的3D服装和配饰,用户可以在虚拟环境中实时试穿不同款式和风格的服装,提升购物体验,减少因尺寸不合适导致的退货率。
    • 游戏开发:在游戏开发中,BAG可用于为游戏角色生成多样化的服装和配饰,支持个性化定制,丰富玩家的角色体验。
    • 虚拟现实(VR)和增强现实(AR):BAG生成的3D资产可以无缝集成到VR和AR应用中,为用户提供沉浸式的服装试穿和设计体验,在虚拟展厅中试穿不同风格的服装。
    • 时尚设计:设计师可以用BAG快速生成和迭代3D服装模型,加速设计流程,在虚拟环境中预览设计效果,降低设计成本。