Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • EvoAgentX – 开源的AI Agent自动化生成与优化框架

    EvoAgentX是什么

    EvoAgentX 是开源的 AI Agent 自进化框架,通过进化算法实现多 Agent 系统的自动化生成与优化。能根据目标描述自动生成工作流,通过迭代优化提升性能。框架采用模块化设计,包含工作流生成器、Agent 管理器、执行器、评估器和优化器等核心组件,支持多种 LLM 模型,用户可通过自然语言提示轻松定制 Agent 和工作流。

    EvoAgentX

    EvoAgentX的主要功能

    • 自动工作流生成与执行:用户可以通过定义自然语言目标,用 WorkFlowGenerator 自动生成多智能体工作流,通过 AgentManager 实例化智能体,最终通过 WorkFlow 执行工作流。
    • 工作流优化:EvoAgentX 集成了进化算法,能对工作流进行优化,提升其性能。
    • 评估与基准测试:提供内置的基准测试和标准化评估指标,用于衡量不同任务和智能体配置下的工作流效果。
    • 灵活的智能体和工作流定制:用户可以使用自然语言提示轻松创建定制的智能体和工作流,将高层次的想法快速转化为实际系统。
    • 模块化设计与扩展性:采用模块化架构,包含工作流生成器、智能体管理器、执行器、评估器和优化器等核心组件,支持多种 LLM 模型,用户可以轻松扩展和自定义。
    • 可视化工具:集成了可视化工具,方便用户观察智能体行为和性能。
    • 多环境支持:支持多种不同的环境,可以模拟复杂的世界,适合多智能体学习和协作的研究。

    EvoAgentX的技术原理

    • 进化算法:EvoAgentX 将智能体的生成和优化视为一个进化过程。从初始的智能体框架开始,通过一系列进化操作(如变异、交叉和选择)生成多个具有不同技能和配置的智能体。模拟自然选择的过程,能自动优化智能体的性能。
    • 模块化设计:EvoAgentX 采用模块化架构,包含以下核心组件:
      • 工作流生成器:根据任务目标生成智能体的工作流。
      • 智能体管理器:负责智能体的创建、配置和部署。
      • 工作流执行器:高效运行工作流,确保智能体之间的正确通信。
      • 评估器:提供性能指标和改进建议,用于衡量工作流的有效性。
      • 优化器:通过进化算法优化工作流和智能体的配置。
    • 自进化能力:EvoAgentX 的自进化能力体现在能动态优化智能体的行为和工作流结构。通过进化算法,系统可以自动调整智能体的参数和工作流的组织方式,适应不同的任务需求。使 EvoAgentX 在处理复杂任务时具有更高的灵活性和效率。

    EvoAgentX的项目地址

    EvoAgentX的应用场景

    • 复杂系统模拟与研究:通过仿真群体中个体的交互行为,分析集体运动的规律。在复杂环境中仿真智能体的决策过程,研究其适应性和效率。
    • 自动化任务执行:自动生成代码,例如生成 Tetris 游戏的 HTML 代码。自动化处理和分析数据,生成相应的报告。
    • 个性化推荐:例如简历的智能职位推荐,通过分析用户需求提供精准的职位匹配。
    • 股票视觉分析:通过智能体对股票数据进行分析和可视化,辅助投资决策。
    • 游戏 AI:开发具有自适应能力的人工智能游戏角色,提升游戏的趣味性和挑战性。
  • Magentic-UI – 微软开源的人机协作AI Agent研究原型

    Magentic-UI是什么

    Magentic-UI 是微软推出的开源研究原型,用在探索人类参与的 AI Agent系统。Magentic-UI 是以人为中心的AI Agent,能与用户协作完成复杂的 Web 任务,如浏览网页、执行代码和处理文件。Magentic-UI 的核心特点是协作规划(co-planning)、协作执行(co-tasking)、安全机制(action guards)及从经验中学习(plan learning)。Magentic-UI 基于让用户在任务规划和执行过程中实时参与,提供透明且可控的交互体验。Magentic-UI 基于人类反馈提升任务完成效率,降低人工成本,为研究人类与 AI Agent的协作提供实验平台。

    Magentic-UI

    Magentic-UI的主要功能

    • 协作规划:在执行任务前生成分步计划,用户能修改、批准,确保任务按预期进行。
    • 协作执行:实时展示即将执行的操作,用户随时接管控制权,确保任务执行符合需求。
    • 安全机制:在执行关键或不可逆操作前征求用户批准,支持用户自定义审批策略,保障操作安全。
    • 学习复用:任务完成后保存执行计划,用户能在未来任务中复用或修改,提升效率。

    Magentic-UI的技术原理

    • 系统架构:Magentic-UI 基于 AutoGen 的 Magentic-One 系统,用多个专业代理(agents)组成,协同工作完成任务。Orchestrator(协调者)由大型语言模型(LLM)驱动,负责与用户进行协作规划,决定何时征求用户反馈,将子任务分配给其他Agent完成。WebSurfer(网页浏览者)配备浏览器控制能力的 LLM Agent,能执行点击、输入、滚动等操作,完成 Orchestrator 分配的网页浏览任务。Coder(代码执行者)配备 Docker 代码执行容器的 LLM Agent,将结果反馈给 Orchestrator。FileSurfer(文件处理者)配备 Docker 容器和文件转换工具的 LLM 代理,能定位文件、转换为 Markdown 格式,回答有关文件的问题。
    • 交互流程:用户输入文本消息和附加图像与 Magentic-UI 交互。Orchestrator 根据用户输入创建自然语言的分步计划,用户基于计划编辑界面进行修改。Orchestrator 根据计划的每一步决定由哪个Agent或用户完成,发送请求等待响应。所有步骤完成,Orchestrator 生成最终答案呈现给用户。如果在执行过程中发现计划不足,Orchestrator 在获得用户许可后重新规划执行新计划。
    • 安全与控制:用户设置 Magentic-UI 可访问的网站列表,访问列表外的网站需要用户明确批准。用户在 Magentic-UI 执行任务的任何阶段中断它,停止任何待执行的代码或网页浏览操作。Magentic-UI 控制的浏览器和代码执行器都在 Docker 容器中运行,避免对主机环境产生影响,防止登录凭证泄露等安全风险。用户配置行动审批策略,决定 Magentic-UI 在执行某些操作时是否需要用户批准。

    Magentic-UI的项目地址

    Magentic-UI的应用场景

    • 复杂任务自动化:帮助用户完成多步骤的 Web 任务,如比较产品价格、填写在线表单或预订旅行。
    • 代码编写与执行辅助:生成代码片段、安全运行代码,例如数据分析或脚本编写。
    • 文件处理与信息检索:转换文件格式、搜索文件内容回答相关问题。
    • 研究与开发:为研究人员提供实验平台,探索人机协作方式。
    • 教育与培训:作为教学工具,帮助学习任务规划和 AI 协作。
  • Agent Squad – 开源的多 Agents 对话编排框架

    Agent Squad是什么

    Agent Squad 是轻量级、开源的多 Agents 框架,用在协调多个 AI Agents 处理复杂对话。Agent Squad支持 Python 和 TypeScript 两种语言,根据用户输入动态路由到最合适的Agent,维护上下文实现连贯交互。Agent Squad 提供智能意图分类、灵活的Agent响应(流式与非流式)、上下文管理等功能,支持模块化安装,能轻松集成新Agent或定制现有功能。Agent Squad适用智能客服、规划助手、企业 Copilot 等场景,帮助开发者快速构建高效的多Agents系统。

    Agent Squad

    Agent Squad的主要功能

    • 智能意图分类:根据用户输入的内容、上下文和Agent描述,动态路由到最合适的Agent,确保请求被高效处理。
    • 双语言支持:提供 Python 和 TypeScript 两种语言版本,满足不同开发者的偏好。
    • 灵活的Agent响应:支持流式(实时)和非流式(一次性)响应方式,适用多种类型的Agent。
    • 上下文管理:在多个Agents之间维护和共享对话上下文,确保交互的连贯性和一致性。
    • 可扩展架构:模块化设计支持开发者轻松集成新的Agent或定制现有功能。
    • 通用部署:支持部署在 AWS Lambda、本地环境或其他云平台,具有高度的灵活性。
    • 团队协调功能(SupervisorAgent):支持复杂任务的团队协作,支持Agent并行协调多个专业Agents,保持上下文给出连贯响应。

    Agent Squad的技术原理

    • 用户输入分析:用户的请求首先被输入到框架中,由分类器(Classifier)进行分析。
    • Agent选择:分类器根据Agent的特征(如专长领域、能力描述)和对话历史,选择最适合处理当前请求的Agent。
    • Agent处理:被选中的Agent接收用户输入进行处理,生成响应内容。
    • 上下文更新与响应返回:协调器(Orchestrator)保存对话历史,更新Agent的上下文信息,将响应返回给用户。

    Agent Squad的项目地址

    Agent Squad的应用场景

    • 智能客服:基于多个专业Agens协同处理客户咨询,提升服务效率。
    • 旅行规划:整合机票、酒店、行程等智能体,提供一站式旅行服务。
    • 企业助手:作为企业内部的智能工具,协助员工完成工作任务。
    • 多角色对话:支持多角色交互,适用虚拟角色对话或教育辅导场景。
    • 电商支持:自动化处理电商客户咨询,结合人工干预,提升客户体验。
  • WeClone – 开源AI数字分身一站式解决方案

    WeClone是什么

    WeClone是从聊天记录创造数字分身的一站式解决方案。基于聊天记录微调大语言模型(LLM),让模型具有特定的风格,绑定到微信、QQ、Telegram等聊天机器人,实现数字分身。项目涵盖从数据导出、预处理、模型训练到部署的全链路方案,支持隐私信息过滤和本地化部署,确保数据安全。WeClone为用户提供智能的数字分身体验。

    WeClone

    WeClone的主要功能

    • 聊天记录微调:基于聊天记录对大语言模型进行微调,生成个性化数字分身。
    • 语音克隆:结合微信语音消息和Spark-TTS模型,实现高质量的声音克隆,增强数字分身的真实感。
    • 隐私保护:自动过滤敏感信息,支持本地化部署,确保数据安全。
    • 多平台支持:支持绑定到微信、QQ、Telegram等聊天机器人平台。
    • 灵活配置:提供参数调整和自定义模型选项,满足不同用户需求。

    WeClone的技术原理

    • 基础模型选择:用预训练的大语言模型(LLM)作为基础。模型经过大量文本数据训练,具备强大的语言理解和生成能力。
    • 微调技术:基于LoRA方法对基础模型进行微调。LoRA 是高效的微调方法,在模型的关键层插入低秩矩阵调整模型参数,能在较少的计算资源下实现较好的微调效果。
    • 数据预处理:将用户的聊天记录进行清洗和格式化,去除敏感信息,提取有效的对话数据。用预处理后的聊天记录对模型进行微调,调整模型的参数,生成符合用户风格的回复。
    • 隐私保护机制:基于正则表达式等技术识别、去除聊天记录中的敏感信息,如手机号、身份证号、邮箱等。支持在本地环境中进行微调和部署,确保用户数据不上传云端,保护用户隐私。

    WeClone的项目地址

    WeClone的应用场景

    • 个人助理定制:在用户忙碌时,数字分身代替用户回复消息,处理日常事务,如写邮件、回复评论等。
    • 内容创作:快速产出特定风格的个性化文本内容,帮助用户运营多个风格一致的小号,如写推文、写脚本、写解说等。
    • 数字永生:创建自己或他人的数字分身,实现永存,留住记忆中的TA。
    • 情感陪伴:为用户提供情感支持,模拟特定人物的聊天风格,给予用户陪伴和安慰。
    • 语言学习:与数字分身的互动,用户练习语言表达,学习特定风格或口吻的对话方式。
  • ScaleMCP – 普华永道推出的动态MCP工具检索器

    ScaleMCP是什么

    ScaleMCP是普华永道推出的工具选择方法,动态的为大型语言模型(LLM)Agents 配备Model Context Protocol(MCP)工具。基于自动同步工具存储系统与MCP服务器,解决现有框架依赖手动更新本地工具库导致的低效和不一致问题。ScaleMCP的核心是自动同步工具索引管道,基于CRUD操作(创建、读取、更新、删除)确保工具存储与MCP服务器保持一致。ScaleMCP推出了工具文档加权平均(TDWA)嵌入策略,能有选择地强调工具文档的关键部分,提升工具检索和Agent调用性能。

    ScaleMCP

    ScaleMCP的主要功能

    • 动态工具发现与配备:LLM Agents 在多轮交互中动态发现\加载所需的MCP工具,无需预先配置。
    • 自动同步工具存储系统:基于CRUD操作(创建、读取、更新、删除)与MCP服务器保持同步,确保工具存储系统的实时更新和一致性。
    • 支持多种检索和嵌入模型:兼容多种LLM模型、嵌入模型和检索器类型,具有良好的扩展性和灵活性。
    • 提升工具调用和任务完成率:提高LLM Agents 在复杂任务中的表现,特别是在多跳工具调用场景中。

    ScaleMCP的技术原理

    • Model Context Protocol(MCP):MCP是标准化协议,用在连接LLM和外部工具、数据源及提示,支持开发者基于MCP服务器暴露工具或API,简化AI系统访问必要数据的过程。ScaleMCP将MCP服务器作为工具的单一真实来源,基于CRUD操作与工具存储系统保持同步。
    • 自动同步工具存储系统:ScaleMCP基于自动同步工具索引管道,定期从MCP服务器获取工具列表,计算工具的SHA-256哈希值。将新获取的工具哈希与存储系统中的现有哈希进行比较,如果发现不匹配,更新存储系统中的工具索引。ScaleMCP支持多种存储系统,如向量数据库、图数据库等,根据工具的依赖关系选择合适的存储方式。
    • 工具文档加权平均(TDWA)嵌入策略:传统的工具文档嵌入方法(如简单拼接或平均)无法有效区分工具文档中不同部分的重要性。TDWA为工具文档的各个部分(如工具名称、描述、参数、合成问题等)分配权重,计算加权平均嵌入向量,更精准地表示工具的语义信息。
    • LLM代理的动态工具检索与调用:ScaleMCP为LLM Agents 提供一个MCP检索工具,Agent基于关键词检索相关的MCP工具,加载到上下文中。LLM Agents根据用户查询动态调用多个工具,获取工具响应后进行推理,最终生成回答。Agent在多轮交互中能重新查询工具存储系统,动态调整工具选择和调用策略。

    ScaleMCP的项目地址

    ScaleMCP的应用场景

    • 金融数据分析:动态加载金融API,实时更新数据,快速响应复杂财务查询。
    • 智能客服:集成企业API,实时调用工具,提供精准的客户支持。
    • 医疗健康咨询:连接医疗数据库和预约系统,支持疾病查询和预约服务。
    • 教育辅导:集成学校信息系统,动态调用工具,查询课程信息和考试成绩。
    • 智能办公:连接文件管理和日程系统,支持文件查询和会议安排。
  • Steamer-I2V – 百度推出的图像到视频生成模型

    Steamer-I2V是什么

    Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,通过将静态图像转化为动态视频,展现出卓越的视觉生成能力。模型在 VBench 国际权威的视频生成评测中荣获榜首,基于精准的视觉控制、高清画质以及对中文语义的深刻理解脱颖而出。 Steamer-I2V 细粒度的视频结构化描述语言,能实现像素级的画面控制与电影级的构图效果,支持多模态输入,包括中文文本提示、参考图像等,确保生成内容与创意高度一致。采用先进的 Transformer 扩散架构,生成高达 1080P 分辨率的高清视频,通过多阶段监督训练、美学条件微调等策略,优化时间一致性与运动规律性,使视频流畅连贯。

    Steamer-I2V

    Steamer-I2V的主要功能

    • 图像到视频生成:Steamer-I2V 能将静态图像转换为动态视频,通过生成连贯的帧序列,赋予图像以时间和空间上的动态变化,创造出具有故事性和视觉吸引力的视频内容。
    • 细粒度控制:通过精心设计的拍摄视角和视频描述语言,Steamer-I2V 能实现像素级的画面控制,确保生成视频中的视觉细节、物体运动轨迹、风格属性和镜头语言严格符合预设要求。
    • 多模态输入支持:支持中文文本提示、参考图像和引导信号等多种输入方式,用户可以通过这些输入精确指导视频生成,确保生成内容与创意意图高度一致。
    • 高清视频生成:基于先进的 Transformer 扩散架构,Steamer-I2V 能生成高达 1080P 分辨率的高清视频,具备平滑的过渡效果和逼真的物理运动模式。
    • 优化动态效果:通过多阶段监督训练、美学条件微调和多目标强化学习等技术,模型在时间一致性、电影构图和运动规律性方面进行了针对性优化,确保视频在逻辑上连贯且视觉上连续。
    • 大规模中文多模态数据库:Steamer-I2V 基于亿级规模的中文多模态训练数据,通过“筛选-净化-配比”的三级数据优化系统,确保文本指令与视觉元素之间的语义对齐精度。
    • 文化适应性:能精准捕捉中文语义中的文化特定元素和复杂语义关系,显著提升中文创意指令的视觉转化准确率,使其在中文内容创作领域具有独特优势。

    Steamer-I2V的技术原理

    • Transformer 扩散架构:Steamer-I2V 采用了前沿的 Transformer 扩散架构,能生成高达 1080P 分辨率的高清视频。通过扩散模型的逐步去噪过程,生成连贯且逼真的视频帧序列,结合 Transformer 的强大建模能力,确保视频在时间维度上的连贯性和视觉上的流畅性。
    • 多阶段优化策略:Steamer-I2V 实施了多种优化策略,提升生成视频的质量:
      • 多阶段监督式训练:通过从低到高分辨率和帧率的逐步监督微调(SFT),模型能够从宏观控制逐步学习到细节优化。
      • 美学条件微调:基于条件控制的微调(CFT)策略,帮助模型深入理解视频美学元素,而不仅仅是表面模仿。
      • 多目标强化学习:结合人工全局反馈和多维质量指标进行偏好对齐优化,逐步提升生成精度。
      • 提示增强技术:通过多模态大模型分析输入图像,增强原始提示词,预测视频帧中场景或物体的时间演变。
    • 中文语义精准理解:Steamer-I2V 构建了亿级规模的中文多模态训练数据库,通过“筛选-净化-配比”三级数据优化体系,确保文本指令与视觉元素的语义对齐精度。

    Steamer-I2V的项目地址

    Steamer-I2V的应用场景

    • 广告与营销:快速生成个性化的广告视频,根据品牌需求和目标受众生成吸引人的视觉内容。
    • 影视制作:辅助生成故事板、分镜头脚本,甚至直接生成初步的视频片段,加速影视制作流程。
    • 游戏开发:生成游戏中的过场动画或动态背景,提升游戏的视觉效果和沉浸感。
    • 内容创作:为创作者提供灵感,快速生成视频素材,降低创作门槛。
  • MathModelAgent – 开源的数学建模Agent,全自动建模流程

    MathModelAgent是什么

    MathModelAgent 是专为数学建模设计的Agent,能自动完成从问题分析到论文生成的全流程。基于多Agent协作,自动建立数学模型、编写代码、验证结果,生成格式规范的论文。MathModelAgent 支持多种大语言模型(LLM),内置本地代码解释器,能实时调试优化代码。适合数学建模竞赛、数据分析、学术论文撰写和教学辅助等场景。

    MathModelAgent

    MathModelAgent的主要功能

    • 全自动建模流程:自动分析问题背景,建立数学模型,编写代码实现,验证结果,生成格式规范的论文。
    • 内置代码解释器:支持本地代码运行和调试,实时反馈错误优化代码。
    • 多Agent协作:基于代码Agent、论文Agent等智能体分工合作,高效完成任务。
    • 支持多种LLM模型:每个Agent单独配置不同的大语言模型,灵活适应不同需求。
    • 低成本高效益:单次任务成本低至约1元人民币,性价比极高。

    MathModelAgent的技术原理

    • 多智能体架构:基于多Agent系统,将复杂的建模任务分解为多个子任务,分别由不同的智能体完成。
      • 问题分析Agent:负责理解问题背景和需求。
      • 建模Agent:根据问题分析结果,选择合适的数学模型。
      • 代码Agent:将数学模型转化为可运行的代码,并进行调试优化。
      • 论文Agent:将建模过程和结果整理成格式化的论文。
    • 大语言模型(LLM)驱动:每个Agent配置不同的大语言模型,用LLM的强大语言生成能力和逻辑推理能力,完成各自的任务。
    • 本地代码解释器:内置代码解释器支持本地代码运行和调试,实时反馈代码错误进行优化,确保生成的代码可运行且高效。
    • WebUI与命令行操作:提供WebUI界面和命令行模式,用户基于直观的界面或命令行指令操作工具,灵活适应不同用户的需求。
    • 任务流程自动化:基于任务流程的自动化设计,从问题输入到论文输出,实现全流程的自动化处理,大大提高数学建模的效率。

    如何使用MathModelAgent

    • 环境准备:安装 Python、Node.js 和 Redis。
    • 克隆项目
    git clone https://github.com/jihe520/MathModelAgent.git
    • 配置文件
      • 复制 /backend/.env.dev.example 为 /backend/.env.dev。
      • 复制 /frontend/.env.example 为 /frontend/.env。
      • 填写 API 密钥和模型。
    • 启动后端
    cd MathModelAgent/backend
    pip install uv
    uv sync
    source .venv/bin/activate  # MacOS/Linux
    venv\Scripts\activate.bat  # Windows
    ENV=DEV uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload
    • 启动前端
    cd MathModelAgent/frontend
    npm install -g pnpm
    pnpm i
    pnpm run dev
    • 访问 WebUI:打开浏览器,访问 http://localhost:3000。
    • 查看结果:结果保存在 backend/project/work_dir/xxx/ 文件夹中。

    MathModelAgent的项目地址

    MathModelAgent的应用场景

    • 数学建模竞赛:快速生成建模思路、代码和格式化的论文,节省时间。
    • 数据分析项目:用在需要建模和编程的场景,自动生成分析结果文档。
    • 学术论文撰写:提供论文初稿,辅助整理思路和优化内容。
    • 教学辅助:帮助教师和学生验证建模思路,提升教学效果。
    • 科研实验:作为自动化建模平台,生成模型对比实验,支持科研工作。
  • YuLan-OneSim – 人大高瓴AI团队推出的社会模拟器

    YuLan-OneSim是什么

    YuLan-OneSim(玉兰-万象)是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型(LLM)Agents 模拟人类社会行为,无需编程构建模拟场景,基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景,支持高达10万Agents的大规模模拟,基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功能,自动从研究主题生成报告,完成整个社会科学研究循环。YuLan-OneSim推动社会科学与AI的深度融合,为社会科学研究提供强大工具。

    YuLan-OneSim

    YuLan-OneSim的主要功能

    • 无需编程构建模拟场景:用户用自然语言交互描述和细化模拟场景,系统自动生成相应的执行代码,降低对编程技能的要求。
    • 丰富的默认场景库:提供50多个涵盖8个主要社会科学领域的默认模拟场景,包括经济学、社会学、政治学等,为研究者提供丰富的研究素材。
    • 可进化的模拟:根据外部反馈自动优化LLM,提升模拟的准确性和可靠性。
    • 大规模模拟能力:基于分布式架构,支持高达10万个Agent的模拟。
    • AI社会研究者:自动将研究主题转化为具体的模拟场景,生成研究报告,从研究主题的提出到报告的生成,实现研究过程的自动化。

    YuLan-OneSim的技术原理

    • 场景形式化:基于Overview, Design Concepts, and Details (ODD)协议将用户需求转化为结构化的场景描述。
    • 行为图构建:基于ODD协议,提取Agent类型和行为逻辑,生成行为图,定义Agent之间的交互逻辑。
    • 代码生成:根据行为图生成可执行的模拟代码,用模块化代码生成方法,确保代码的准确性和可维护性。
    • 场景规范:生成环境数据、Agent配置数据和Agent关系数据,确保模拟的完整性和一致性。
    • 模拟子系统:Agent由多个模块组成,包括配置、记忆、规划和行动模块,支持高度定制化。用事件驱动的异步事件总线,支持并行计算和高效的事件处理。基于主从节点架构,支持大规模Agent的并行计算,优化通信效率和资源分配。
    • 反馈驱动的进化子系统:基于多智能体框架(Verifier–Reasoner–Refiner–Tuner, VR²T),对模拟结果进行评估和优化。系统生成的提示响应对经过验证、推理、修正和微调,提高LLM的性能。
    • AI社会研究者子系统:实验设计模块将研究主题转化为具体的模拟场景,包括生成候选研究问题、评估场景可行性和生成ODD协议。报告生成模块基于模拟结果生成详细的分析报告,包括数据解读、报告结构生成、报告撰写和报告审查。

    YuLan-OneSim的项目地址

    YuLan-OneSim的应用场景

    • 经济领域:模拟市场动态,如劳动力匹配、拍卖市场、银行储备等,分析政策和机制影响。
    • 社会学领域:研究社会现象,如文化资本、信息传播、社会规范等,理解社会结构与个体行为互动。
    • 政治学领域:模拟选民行为、政策实施、选举极化等,分析制度和政策的社会影响。
    • 心理学领域:模拟认知失调、情绪传染、从众行为等,探究心理行为内在机制。
    • 公共卫生领域:模拟传染病传播、健康不平等、社区健康动员等,评估干预措施效果。
  • Custom-SVG – Adobe联合香港城市大学推出的SVG定制生成框架

    Custom-SVG是什么

    Custom-SVG 是Adobe和香港城市大学推出的两阶段风格的SVG定制生成框架,基于文本提示生成具有定制风格的高质量 SVG 图形。框架推出一种两阶段的生成流程,基于路径级表示的扩散模型学习 SVG 的结构和内容,从定制化的文本到图像(T2I)模型中提取风格信息,实现多样化的风格定制。Custom-SVG 结合前馈模型的高效性和扩散模型的强大生成能力,快速生成结构规整且风格一致的矢量图形,适用于设计、图标生成等场景。

    Custom-SVG

    Custom-SVG的主要功能

    • 保持 SVG 结构规则性:生成的矢量图形具有清晰的层次结构和规整的路径,便于后续编辑。
    • 实现风格定制:根据用户提供的少量风格示例,生成与之匹配的多样化风格的 SVG。
    • 高效生成:基于前馈式生成方式,快速生成结果,适合实际设计场景。
    • 语义对齐:生成的 SVG 内容与输入文本提示高度一致,确保图形的语义准确性。

    Custom-SVG的技术原理

    • 基于路径级表示的 T2V 扩散模型训练
      • 路径级表示:将 SVG 分解为路径级表示,每个路径由贝塞尔曲线和颜色等参数定义,基于预训练的 SVG VAE 编码为紧凑的潜空间向量。
      • 扩散模型:用扩散模型的去噪过程,从噪声中逐步恢复出与文本提示对齐的 SVG 张量。
      • Transformer 架构:用 Transformer 作为骨干网络,结合自注意力和交叉注意力机制,让模型理解文本语义生成对应的 SVG 结构。
    • 基于图像扩散先验进行风格定制
      • 风格提取:微调 T2I 扩散模型,用少量风格示例生成多样化的定制图像。
      • 图像级损失:将生成的 SVG 渲染为图像,基于图像级损失函数对 T2V 模型进行微调,让生成的 SVG 具有所需的风格。
      • 风格迁移:将定制图像的风格迁移到 SVG 生成过程中,实现风格的灵活定制。

    Custom-SVG的项目地址

    Custom-SVG的应用场景

    • 图形设计与插画:快速生成符合特定风格的矢量图形,设计概念验证、插画创作和品牌设计。
    • 用户界面(UI)设计:生成图标、按钮等界面元素,满足不同界面设计的需求。
    • 网页设计:生成动态矢量图形,增强网页视觉效果和响应式设计。
    • 教育与培训:生成教学图形和互动学习工具,辅助教学内容的展示。
    • 个性化内容生成:根据用户需求生成个性化图形,用在定制礼品、社交媒体内容等。
  • SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架

    SketchVideo是什么

    SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局和运动的精细控制。框架基于 DiT 视频生成模型,设计高效的草图控制网络,包含草图控制块和帧间注意力机制,能将稀疏的关键帧草图条件传播到所有视频帧中。SketchVideo 支持对真实或合成视频的细粒度编辑,基于视频插入模块和潜在融合技术,确保新内容与原始视频在空间和时间上的一致性,保留未编辑区域的细节。

    SketchVideo

    SketchVideo的主要功能

    • 视频生成:基于草图和文本生成视频。
    • 视频编辑:在关键帧上画草图修改视频内容。
    • 动态控制:支持运动插值和外推。
    • 细节保留:编辑时保留未修改区域的细节。
    • 高效生成:内存优化,快速生成高质量视频。

    SketchVideo的技术原理

    • 草图条件网络:基于DiT(Diffusion-based Transformer)视频生成模型,设计专门的草图条件网络。草图条件网络包含多个草图控制块,预测跳过的DiT块的残差特征。草图控制块均匀分布在DiT块中,在不同层次的特征中注入控制信号。
    • 帧间注意力机制:基于帧间注意力机制,将关键帧上的草图条件传播到所有视频帧。计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系,实现对草图特征的时空传播。
    • 视频插入模块:在视频编辑任务中,设计视频插入模块,分析输入草图与原始视频之间的关系。模块生成与原始视频空间和时间上一致的新内容,确保编辑后的视频与原始视频无缝融合。
    • 潜在融合技术:在推理过程中,基于DDIM(Denoising Diffusion Implicit Models)反演生成输入视频的噪声潜在码。在未编辑区域替换这些潜在码,保留原始视频的细节,确保编辑后的视频在视觉上自然、连贯。
    • 混合训练策略:基于混合训练策略,结合图像和视频数据进行训练。在训练的第一阶段,用图像和视频数据,加速收敛并解决视频数据有限的问题。在第二阶段,用视频数据,进一步优化时间连贯性。

    SketchVideo的项目地址

    SketchVideo的应用场景

    • 影视与广告:快速生成创意视频和特效预览,优化制作流程,节省时间和成本。
    • 教育与培训:辅助制作教学视频和培训材料,提升教学效果。
    • 游戏开发:快速生成关卡预览和角色动画,提高开发效率。
    • 个人创作:轻松创作个性化短视频,降低创作门槛。
    • 建筑设计:生成建筑和室内设计的动态预览,增强客户沟通。