Blog

  • Evo 2 – Acr研究所联合英伟达、斯坦福等推出的生物学AI模型

    Evo 2是什么

    Evo 2 是美国弧形研究所、英伟达、斯坦福大学等机构合作推出的DNA语言模型,用于基因组建模和设计,覆盖生命的所有领域。Evo 2 基于 StripedHyena 2 架构开发,以单核苷酸分辨率处理长达100万个碱基对的上下文长度。Evo 2 用 OpenGenome2 数据集进行自回归预训练,数据集包含来自生命所有领域的8.8万亿个标记,支持长序列建模、DNA序列生成和嵌入向量提取等功能,提供多个模型检查点满足不同需求。Evo 2 推动基因组学研究和应用,为生物医学和合成生物学等领域提供强大的工具支持。

    Evo 2

    Evo 2的主要功能

    • 长上下文建模:处理长达 100 万个碱基对 的 DNA 序列,支持高精度的基因组建模。
    • DNA 序列生成:根据给定的提示生成新的 DNA 序列,适用于合成生物学和基因编辑。
    • 嵌入向量提取:提取 DNA 序列的嵌入向量,用于下游分析,如基因功能预测和变异效应分析。
    • 零样本预测:支持零样本学习,例如预测基因变异对功能的影响(如 BRCA1 基因变异效应预测)。
    • 序列评分:计算 DNA 序列的似然分数,评估序列的稳定性和功能潜力。

    Evo 2的技术原理

    • 大规模数据训练:基于超过 9.3 万亿个核苷酸的数据进行训练的,据来自超过 12.8 万个基因组,涵盖细菌、古菌、真核生物等多个生命领域的生物。
    • 独特的 AI 架构:基于 StripedHyena 2 架构,处理长达 100 万个核苷酸的基因序列,理解基因组中相距较远部分之间的关系。
    • 深度学习与生成生物学:基于深度学习技术,像理解语言一样理解核酸序列。用学习进化过程中形成的生物序列模式,预测基因突变的影响并生成新的基因组。
    • 强大的计算支持:Evo 2 的训练利用英伟达的 DGX Cloud AI 平台和超过 2000 个 H100 GPU,展示了强大的计算能力和高效的模型训练。

    Evo 2的项目地址

    Evo 2的应用场景

    • 疾病预测:识别基因突变是否致病,辅助疾病诊断。
    • 基因治疗:设计细胞特异性基因治疗工具,减少副作用。
    • 合成生物学:设计新基因组,助力人工生命研究。
    • 进化研究:识别基因序列模式,研究生物进化。
    • 生物工具开发:设计生物传感器等工具,推动生物技术发展。
  • OOMOL – 基于 VSCode 的 AI 工作流集成开发环境

    OOMOL是什么

    OOMOL (悟墨)是基于 VSCode 打造的现代化集成开发环境(IDE),专为工作流自动化而设计。通过拖拽式图形化界面,让用户能直观地搭建复杂的工作流,无需编程基础。核心优势在于预装的 Python 和 Node.js 环境,结合容器化技术,实现开箱即用,同时支持跨平台共享和数据安全隔离。OOMOL 原生支持 AI 功能,内置丰富的 AI 节点和大模型 API,可广泛应用于数据科学、多媒体处理和 AI 模型开发等场景。

    OOMOL

    OOMOL的主要功能

    • 拖拽式工作流搭建:通过直观的图形交互界面,用户可以轻松构建复杂的工作流,无需编写大量代码。
    • 预装环境与容器化支持:内置 Python 和 Node.js,开箱即用,使用容器技术实现跨平台开发环境的一致性。
    • 强大的 AI 集成:原生支持 Python 和 JavaScript,内置丰富的 AI 功能节点和大模型 API,适用于 AI 模型开发和数据分析。
    • 社区共享与开源生态:支持将工作流和工具箱分享至 OOMOL 社区和 GitHub,开源了多个关键组件,促进知识共享。
    • 开发者友好:基于 VSCode,提供代码补全、高亮和 AI 提示,配备直观的工作流日志界面,便于调试。

    OOMOL的技术原理

    • 容器化技术:OOMOL 内置了基于 Podman 的容器化能力,支持 GPU 加速,兼容 Mac 的 M1/M2 芯片和 Intel 芯片,以及 Windows 平台。简化了开发环境的配置,确保了跨平台的一致性。
    • 基于 VSCode 的深度定制:OOMOL 基于 VSCode 深度定制,保留了开发者熟悉的操作界面,同时增强了功能。

    OOMOL的项目地址

    OOMOL的应用场景

    • 数据科学:支持使用 Python/JS 处理数据生成图表,构建现代化的 AI 数据分析工作流。
    • 多媒体处理:开发人员可以封装视频处理库为功能节点,内容创作者可以通过拖放创建音视频处理工作流,自动化完成多语言字幕等任务。
    • AI 模型开发:支持大模型 API 和 GPU 加速,例如制作双语电子书,通过 AI 翻译外文书籍并生成双语对照电子书。
  • Auto-Deep-Research – 香港大学开源的全自动个人 AI 助理

    Auto-Deep-Research是什么

    Auto-Deep-Research 是香港大学黄超教授实验室开源的全自动个人 AI 助理,作为 OpenAI Deep Research 的开源替代方案。基于 AutoAgent 框架开发,专注于深度研究功能,采用模块化的多 Agent 架构,包括 Web Agent、Coding Agent 和 Local File Agent。 Agent 分别负责互联网信息搜索、编程实现与调试以及多格式文件解析。支持多种大语言模型(LLM),如 Anthropic、OpenAI、Mistral、Hugging Face 等,仅基于 Claude-3.5-Sonnet 构建。Auto-Deep-Research 支持导入浏览器 Cookies,更好地访问特定网站。

    Auto-Deep-Research

    Auto-Deep-Research的主要功能

    • 深度研究功能:专注于复杂任务的自动化处理,如文件解析、网络搜索、数据分析与可视化,能生成详细的报告。
    • 多语言模型支持:兼容多种大语言模型(LLM),如 Anthropic、OpenAI、Mistral、Hugging Face 等。
    • 高性价比:基于 Claude-3.5-Sonnet 构建,成本效益显著,是开源方案中的最优解。
    • 社区驱动改进:根据社区反馈,增加了如一键启动和增强的 LLM 兼容性等功能。
    • 易于部署:支持通过 Conda 环境或 Docker 安装,提供详细的启动配置选项。

    Auto-Deep-Research的技术原理

    • 多 Agent 架构:包含 Web Agent(互联网信息搜索)、Coding Agent(编程实现与调试)和 Local File Agent(文件解析与理解),通过核心调度器(Orchestrator Agent)协同工作。
      • Web Agent:专注于互联网信息的无障碍访问和深度搜索。
      • Coding Agent:负责编程实现和调试,具备严密的逻辑分析能力。
      • Local File Agent:致力于多格式文件的解析和内容理解。

    Auto-Deep-Research的项目地址

    Auto-Deep-Research的应用场景

    • 科研与数据分析:研究人员可以用 Auto-Deep-Research 快速处理和分析数据,自动生成高质量的分析报告。
    • 金融与市场分析:金融分析师可以用工具追踪行业动态、评估市场趋势,生成投资研究报告,辅助数据驱动的决策。
    • 教育与学习:学生和教育工作者可以用 Auto-Deep-Research 进行文献综述、学习资料整理,生成学习报告。
    • 企业战略与商业决策:企业可以用工具进行行业分析、竞争对手调研和商业战略评估,优化产品规划和市场拓展策略。
  • ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手

    ComfyUI-Copilot是什么

    ComfyUI-Copilot 是阿里巴巴国际数字商业集团(AIDC-AI)推出基于 ComfyUI 框架深度开发的 AI 智能助手。ComfyUI-Copilot给予自然语言交互,为用户提供节点推荐、工作流构建辅助、模型查询等功能,降低 ComfyUI 的使用门槛,提升开发效率。帮助初学者和资深开发者,借助智能 Q&A 平台和实时交互支持,快速解决开发中的问题,优化工作流程。ComfyUI-Copilot自动参数调优和错误诊断等功能即将上线,进一步增强在 AI 开发中的实用性。

    ComfyUI-Copilot

    ComfyUI-Copilot的主要功能

    • 自然语言交互:基于自然语言对话,用户轻松查询节点信息、模型细节和参数设置,降低学习成本。
    • 智能节点推荐:根据用户需求,快速推荐合适的节点,提供工作流构建建议,提升开发效率。
    • 实时交互支持:提供 24 小时在线的交互支持,帮助开发者解决开发过程中遇到的问题。
    • 模型查询功能:根据任务需求,推荐基础模型和 LoRA,优化模型性能。
    • 智能工作流辅助:自动识别开发者需求,推荐和构建合适的工作流框架,减少手动设置时间。

    ComfyUI-Copilot的技术原理

    • 自然语言处理(NLP):基于 NLP 技术,解析用户的自然语言输入,理解其意图和需求。用预训练的语言模型(如 Transformer 架构),实现高效的语言理解和生成,为用户提供准确的回答和建议。
    • 知识图谱与语义搜索:构建 ComfyUI 的知识图谱,包含节点、模型、参数等信息。基于语义搜索技术,快速匹配用户需求与知识图谱中的内容,实现精准推荐。
    • 机器学习与数据分析:对用户行为和开发场景进行数据分析,优化推荐算法。用机器学习模型,实现自动参数调优和错误诊断等功能,进一步提升开发效率。
    • 集成与扩展:作为 ComfyUI 的自定义节点,深度集成到 ComfyUI 框架中,无缝扩展其功能。提供 API 接口,支持与其他工具和平台的集成,增强通用性和灵活性。

    ComfyUI-Copilot的项目地址

    ComfyUI-Copilot的应用场景

    • AI 开发入门:帮助初学者快速上手 ComfyUI,通过自然语言交互理解节点功能和工作流构建,降低学习曲线。
    • 工作流优化:为开发者推荐高效的工作流框架,减少手动设置时间,提升开发效率,尤其适用于复杂的 AI 项目。
    • 模型选择与调优:根据具体任务需求,推荐合适的基础模型和 LoRA,并支持自动参数调优,优化模型性能。
    • 实时问题解决:提供 24 小时在线的交互支持,帮助开发者快速解决开发中遇到的技术问题,确保开发流程顺畅。
    • 创意探索与实验:支持开发者通过自然语言快速验证想法,探索不同节点组合和参数设置,激发创意和实验性开发。
  • SignLLM – 多语言手语生成模型,文字输入生成对应的手语视频

    SignLLM是什么

    SignLLM 是创新的多语言手语生成模型,通过文字输入生成对应的手语视频。全球首个支持多国手语的模型,能覆盖美国手语(ASL)、德国手语(GSL)、阿根廷手语(LSA)、韩国手语(KSL)等八种语言。模型基于 Prompt2Sign 数据集开发,自动化技术采集和处理网络上的手语视频,结合新的损失函数和强化学习模块,实现了高效的数据抽取和模型训练。

    SignLLM

    SignLLM的主要功能

    • 手语视频生成:将输入文本转换为自然流畅的手语手势视频,适用于多种语言。
    • 多语言支持:支持八种手语,覆盖不同国家和地区。
    • 高效训练与优化:通过强化学习模块加速训练过程,提高数据采样质量。
    • 风格迁移与微调:将生成的模型输出转换为逼真的手语视频,接近真实人类外观。
    • 教育与翻译支持:可用于手语教学、手语翻译以及为聋人社群提供沟通支持。

    SignLLM的技术原理

    • 离散化与层次化表示:SignLLM 通过两个关键模块实现手语视频的离散化和层次化表示。首先,向量量化视觉手语(VQ-Sign)模块将手语视频分解为一系列离散的字符级标记,类似于语言中的字符。然后,码本重建与对齐(CRA)模块将这些字符级标记组合成词汇级标记,形成具有层次结构的手语句子。
    • 自监督学习与上下文预测:VQ-Sign 模块通过上下文预测任务进行自监督学习,不是传统的视频重建方法。能在不重建高维视频数据的情况下,捕捉手语视频的时间依赖性和语义关系。
    • 符号-文本对齐:为了进一步提高手语标记与文本标记的语义兼容性,SignLLM 使用最大平均差异(MMD)损失函数,将手语标记的嵌入空间与文本标记的嵌入空间对齐。
    • 与LLM的结合:SignLLM 将生成的手语句子与冻结的LLM结合,通过文本提示指导LLM生成目标语言的翻译。使SignLLM能基于LLM的强大翻译能力,实现高效的手语到文本翻译。
    • 训练与推理:SignLLM 的训练分为预训练和微调两个阶段。预训练阶段包括上下文预测任务和码本对齐,微调阶段进一步优化模型性能。

    SignLLM的项目地址

    SignLLM的应用场景

    • 教育领域:SignLLM 可作为虚拟手语老师,将文本转换为手语手势视频,帮助学生更直观地学习手语,加速学习过程。
    • 医疗场景:在医院等医疗环境中,SignLLM 能将医生的语音或文字实时转换为手语,帮助听障患者更准确地描述症状并理解医嘱,改善就医体验。
    • 法律与公共服务:在法庭或法律咨询中,SignLLM 可提供准确的手语翻译,确保听障人士在法律事务中有公平的沟通机会。此外,在公共服务或客户服务中,能提供即时手语翻译,方便听障群体。
    • 娱乐与媒体:SignLLM 可为电影、电视节目或网络视频提供实时手语翻译,丰富听障群体的文化生活。
    • 日常生活:个人用户可以用 SignLLM 进行日常沟通,例如与听障朋友聊天或在安静环境中交流。
  • Mercor – AI招聘求职平台,提供全球人才匹配

    Mercor是什么

    Mercor 是专注全球招聘的AI驱动平台,基于AI技术简化求职和招聘流程。求职者只需上传简历,完成20分钟的AI面试,Mercor能将用户的信息匹配到全球数千家公司的职位需求中,帮助用户快速找到远程工作的机会。Mercor为企业提供高效、合规的招聘解决方案,快速筛选和推荐顶尖候选人,助力企业在全球范围内组建团队。

    Mercor

    Mercor的主要功能

    • AI驱动的面试与评估:Mercor通过20分钟的AI视频面试,高效评估求职者的技能和经验。面试内容包括求职者的经历和相关案例分析。
    • 全球人才匹配:Mercor将求职者与全球的工作机会连接起来,求职者只需提交一次申请,可接触到数千家公司的职位。
    • 一键招聘与入职管理:Mercor为雇主提供“一键招聘”功能,企业可以在平台上即时浏览、选择和雇佣候选人,自动生成合同完成入职流程。
    • 简历和资料分析:平台基于AI技术分析求职者的简历和在线资料,精准匹配职位需求。Mercor的AI算法能快速筛选简历,根据职位描述推荐最合适的人选。
    • 合规的全球支付解决方案:Mercor提供合规的支付处理功能,确保跨国招聘的薪资支付合法且无缝。适合对于需要招聘远程员工的公司。
    • 快速人才搜索与筛选:Mercor支持自然语言描述职位需求,通过深度语义搜索技术在短时间内找到匹配的候选人。AI算法能快速评估候选人的匹配度,帮助企业在数秒内找到合适的人选。

    Mercor的官网地址

    Mercor的应用场景

    • 求职者:寻找远程工作机会、高薪职位或职业发展的个人,尤其是希望简化求职流程、提升求职效率的人群。
    • 应届毕业生:刚步入职场的毕业生,获得职业起点或开启早期职业生涯。
    • 技术人才:软件工程师、数据科学家等,用 AI 匹配功能找到最适合自己的岗位。
    • 跨国公司招聘人员:需要快速筛选和招聘全球人才的企业 HR 或招聘团队,简化招聘流程、降低招聘成本的企业。
    • 自由职业者和远程工作者:获得灵活工作机会、不受地理位置限制。
  • Together AI – 生成式AI云平台,支持从模型微调到零构建全流程服务

    Together AI是什么

    Together AI 是专注于生成式AI云平台,提供快速推理、模型微调和训练服务。Together AI支持从预训练模型的微调到从零开始构建自定义模型的全流程,具备高性能、低成本和生产级扩展能力。Together AI 提供无服务器或专用端点部署,支持企业级 VPC。Together AI提供强大的 GPU 集群,支持大规模 AI 工作负载。Together AI 强调用户对数据和模型的完全所有权,适合企业和开发者快速部署和优化生成式 AI 模型。

    Together AI

    Together AI的主要功能

    • 快速推理:提供高效的模型部署服务,支持无服务器(Serverless)或专用端点(dedicated endpoints)部署,支持在企业虚拟私有云(VPC)中运行,确保数据安全和合规性。
    • 模型微调:用户对开源模型(如 Llama)进行全量微调或低秩适应(LoRA Fine-Tuning),完全拥有微调后的模型,支持基于简单易用的 API 进行操作。
    • GPU 集群训练:提供高性能的 GPU 集群,支持大规模模型训练,支持 GB200、H200 和 H100 等高端 GPU。
    • 全流程 AI 生命周期管理:从预训练模型的微调到从零开始构建自定义模型,提供无缝的计算解决方案,支持生成式 AI 的完整生命周期。

    Together AI的官网地址

    Together AI的应用场景

    • 内容创作:生成文本、图像、音频或视频,提升内容生产效率。
    • 企业应用开发:微调模型用于智能客服、自动化办公等业务场景。
    • 网络安全:构建复杂模型,用于威胁检测和防御。
    • 视频生成:开发文本到视频模型,创新多媒体内容。
    • 行业定制:开发特定行业的语言模型,提升智能化水平。
  • Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

    Migician是什么

    Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练,用两阶段训练方法,结合多图像理解和单图像定位能力,实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路,推动多图像理解与细粒度视觉定位的融合。

    Migician

    Migician的主要功能

    • 跨图像定位:在多幅图像中找到与查询相关的对象或区域,给出其精确位置(如坐标框)。
    • 灵活的输入形式:支持文本、图像或两者的组合作为查询,例如“在图2中找到与图1相似的物体,但颜色不同”。
    • 多任务支持:处理多种与多图像相关的任务,如对象跟踪、差异识别、共同对象定位等。
    • 高效推理:基于端到端的模型设计,直接在多图像场景中进行推理,避免传统方法中的多步推理和错误传播问题。

    Migician的技术原理

    • 端到端的多图像定位框架:基于端到端的模型架构直接处理多图像定位任务,避免传统方法中将任务分解为多个子任务(如先生成文本描述再定位)的复杂性和效率问题。同时理解多幅图像的内容,根据查询直接输出目标对象的位置。
    • 大规模指令调优数据集(MGrounding-630k):包含超过63万条多图像定位任务的数据。数据集涵盖多种任务类型(如静态差异定位、共同对象定位、对象跟踪等),结合自由形式的指令,模型学习到多样化的定位能力。
    • 两阶段训练方法
      • 第一阶段:模型在多种多图像任务上进行训练,学习基本的多图像理解和定位能力。
      • 第二阶段:基于自由形式的指令调优,提升模型在复杂查询下的定位能力,保持对多样化任务的适应性。
    • 多模态融合与推理:结合视觉和语言模态的信息,基于多模态融合实现对复杂查询的理解和定位,处理抽象的视觉语义信息,例如通过对比、相似性或功能关联定位目标对象。
    • 模型合并技术:基于模型合并技术,将不同训练阶段的权重进行平均,优化整体性能。

    Migician的项目地址

    Migician的应用场景

    • 自动驾驶:快速定位车辆周围目标(如行人、障碍物),支持多视角感知和动态目标跟踪。
    • 安防监控:多摄像头联动识别异常行为或目标,分析人群聚集、快速移动等异常情况。
    • 机器人交互:精准定位目标物体,支持机器人在复杂环境中完成抓取、导航等任务。
    • 图像编辑:分析多幅图像内容,实现对象替换、删除或创意内容生成。
    • 医疗影像:融合多模态影像,快速定位病变区域或异常组织,支持动态监测。
  • Sitcom-Crafter – 北航联合港中文等高校推出的 3D 人类动作生成系统

    Sitcom-Crafter是什么

    Sitcom-Crafter 是北京航空航天大学、香港中文大学(深圳)、悉尼科技大学、中山大学等高校联合推出的 3D 场景中人类动作生成系统。基于用户提供的长剧情指导,生成多样化且物理真实的动作,包括人类行走、人类与场景交互及人类之间交互。系统包含八大模块,其中三大核心模块负责动作生成,五大增强模块用于优化动作流畅性、同步性、碰撞修正等。Sitcom-Crafter 创新的 3D 场景感知技术和自监督 SDF 策略,无需额外数据采集,生成符合物理逻辑的动作,显著提升了创作效率,为动画和游戏设计提供高效、智能化的解决方案。

    Sitcom-Crafter

    Sitcom-Crafter的主要功能

    • 人类行走:角色在 3D 场景中自然行走。
    • 人类与场景交互:角色与环境物体进行符合物理逻辑的交互。
    • 人类之间交互:角色之间进行协调的动作生成,减少碰撞并优化动作同步。
    • 增强功能
      • 剧情解析:AI自动拆解剧本,转化为具体的角色动作指令
      • 运动同步:确保不同模块生成的运动在时间上保持一致。
      • 手部姿态增强:通过检索数据库中的手部姿态来增强运动的自然性。
      • 碰撞修正:自动检测并修正人物之间的碰撞。
      • 3D重定向:将生成的运动映射到现有的3D数字人物模型,提升视觉效果。

    Sitcom-Crafter的技术原理

    •  运动生成模块
      • 人类行走生成:基于现有的先进方法(如GAMMA),通过深度学习模型生成人物的行走运动。
      • 人与场景交互生成:基于DIMOS等方法,结合场景信息生成人物与场景物体的交互运动。
      • 人与人交互生成:用自监督的场景感知方法,合成3D场景中的SDF(签名距离函数)点模拟周围环境,避免人物与场景的碰撞。基于扩散模型(diffusion model)生成多人交互,考虑人物之间的相对位置和运动。
    • 场景感知技术
      • SDF点合成:基于预处理运动数据,定义运动区域并随机生成周围物体的SDF点,模拟场景中的障碍物。
      • 碰撞检测与修正:SDF点检测人物与场景或彼此之间的碰撞,调整运动轨迹或速度避免碰撞。
    • 剧情理解与命令生成:用大型语言模型(如Gemini 1.5)解析剧情文本,转化为具体的运动指令。基于自然语言处理技术,将复杂的剧情分解为多个运动命令,分配给相应的运动生成模块。
    • 增强模块
      • 运动同步:基于插值技术(如Slerp)确保不同模块生成的运动在时间上平滑过渡。
      • 手部姿态检索:CLIP模型检索与文本描述最相似的手部姿态,融入生成的运动中。
      • 碰撞修正:调整运动速度或路径,避免人物之间的碰撞。
      • 3D重定向:将生成的运动映射到高质量的3D数字人物模型,提升视觉效果。
    • 统一的运动表示:系统采用标记点(marker points)作为统一的运动表示,支持从不同数据源(如SMPL、SMPL-X模型)提取运动数据,增强系统的扩展性和兼容性。

    Sitcom-Crafter的项目地址

    Sitcom-Crafter的应用场景

    • 动画制作:快速生成角色运动,减少手动动画工作量,支持多样化动作和剧情驱动的动画设计。
    • 游戏开发:为NPC设计自然行为和交互动作,支持动态剧情生成和实时动作反馈,提升游戏沉浸感。
    • 虚拟现实(VR)和增强现实(AR):生成虚拟角色的自然交互和场景模拟,增强用户体验和交互自然性。
    • 影视制作:用在早期创意验证、特效场景设计和动作捕捉替代,提升制作效率。
    • 教育和培训:生成模拟训练中的角色行为,创建虚拟教学助手,支持安全演示和复杂场景教学。
  • AgentSociety – 清华大学推出的社会模拟器

    AgentSociety是什么

    AgentSociety 是清华大学推出的基于大语言模型(LLM)的社会模拟器,通过构建具有“类人心智”的智能体来模拟复杂的社会行为和现象。结合社会学理论,赋予智能体情感、需求和认知能力,能在模拟的城市环境中进行移动、就业、消费和社交互动。AgentSociety 的核心功能包括真实的城市社会环境模拟、大规模社会模拟引擎以及智能社会科学研究工具箱。可用于分析社会现象,作为政策沙盒测试、危机预警和未来社会形态探索的实验平台。

    AgentSociety

    AgentSociety的主要功能

    • 大模型驱动的社会人智能体:AgentSociety 构建了具有“类人心智”的智能体,赋予其情感、需求、动机和认知能力,能在复杂的社会环境中进行移动、就业、消费和社交互动。
    • 真实城市社会环境模拟:平台能精准模拟城市空间,包括交通、基础设施和公共资源,确保智能体在真实环境约束下进行交互,形成逼真的社会生态。
    • 大规模社会模拟引擎:采用异步模拟架构和 Ray 分布式计算框架,结合 MQTT 高并发通信,实现高效、可扩展的智能体交互和行为模拟。
    • 智能社会科学研究工具箱:提供全面支持实验、访谈、问卷调查等社会学研究方法的工具,以及多种自动化数据分析工具,助力从定性到定量的社会科学研究。
    • 实时交互可视化:提供实时界面,方便研究人员在实验过程中监控和与智能体互动。

    AgentSociety的技术原理

    • 心智层面:智能体被赋予稳定的个体画像(如性格、年龄、性别)和动态的个人状态(如情感、经济状况和社会关系),确保其行为模式的个性化。
    • 心智-行为耦合:智能体的行为由其情感、需求和认知共同驱动,基于马斯洛需求层次理论和计划行为理论,实现从心理状态到行为执行的完整路径。
    • 行为层面:智能体能执行简单行为(如睡眠、饮食)和复杂社会行为(如移动、社交和经济活动),根据环境反馈动态调整行为。
    • 城市空间:模拟城市道路网络、兴趣区域(AOI)和兴趣点(POI),支持多种交通方式(如步行、驾车、公共交通)。
    • 社交空间:支持在线和离线社交互动,模拟社交网络的动态变化。
    • 经济空间:模拟宏观经济活动,包括就业、消费、税收和利息机制,支持经济行为的模拟。
    • 异步模拟架构:每个智能体作为独立的模拟单元,通过消息系统进行信息交换,避免了传统多智能体系统中严格的执行顺序。
    • 分布式计算:基于 Ray 框架和 Python 的 asyncio 机制,实现多核计算资源的高效利用,支持分布式集群扩展。
    • MQTT 通信协议:支持大规模智能体之间的高并发、低延迟消息传输,确保模拟的实时性和可靠性。

    AgentSociety的项目地址

    AgentSociety的应用场景

    • 社会舆论传播:模拟信息在社交网络中的传播路径和影响。
    • 公众政策响应:评估政策对个体和群体行为的影响。
    • 社会极化:研究观点分化和对立阵营的形成机制。
    • 自然灾害响应:模拟极端事件下的人群行为和社会动态。