Category: AI项目和框架

  • PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架

    PartGen是什么

    PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图像或现有的3D模型生成。PartGen用多视图扩散模型自动提取和重建3D对象的各个部分,同时考虑上下文确保组件之间的正确配合。PartGen支持3D部分编辑,支持用户根据文本指令对3D对象的特定部分进行修改,提高3D建模的灵活性和控制力。

    PartGen

    PartGen的主要功能

    • 3D对象生成: 从文本、图像或现有的3D对象生成由有意义部分组成的3D对象。
    • 3D部分编辑: 用户基于文本指令对3D对象的特定部分进行编辑,增加灵活性。
    • 自动部分分割: 识别并分割3D对象中的不同部分,为后续操作提供基础。
    • 3D重建: 完成部分分割后,重建每个部分的3D结构。

    PartGen的技术原理

    • 多视图扩散模型: 基于多视图扩散模型处理3D对象的多个视图,模型能识别出合理的部分分割。
    • 部分分割网络: 训练一个网络处理多视图图像,并输出每个部分的分割掩码。
    • 部分完成网络: 对于被遮挡或不可见的部分,用多视图扩散模型补全这些部分的视图。
    • 3D重建网络: 将补全后的2D视图输入到3D重建网络中,来恢复每个部分的3D结构。
    • 上下文整合: 在补全和重建过程中,模型考虑整个对象的上下文信息,确保各部分协调一致地整合在一起。

    PartGen的项目地址

    PartGen的应用场景

    • 3D打印与制造:PartGen生成的3D模型直接用在3D打印,制造个性化产品或零件。
    • 游戏开发:在游戏设计中,快速生成具有复杂结构和细节的游戏资产,如角色、武器和环境元素。
    • 电影与动画制作:创建电影或动画中的3D模型和场景,提高制作效率并减少手动建模的工作量。
    • 虚拟现实(VR)和增强现实(AR):在VR或AR应用中,生成逼真的3D对象,增强用户体验。
    • 教育与培训:创建教育材料中的3D模型,如生物结构、机械零件等,帮助学生更好地理解复杂概念。
  • PeterCat – AI问答机器人,自动抓取 GitHub 上的文档和 issue 作为知识库

    PeterCat是什么

    PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub的issue、PR和Discussion进行互动,提供对话式答疑服务。PeterCat项目支持一键生成智能答疑机器人,支持私有化部署,满足不同用户的需求。未来,PeterCat计划增加更多功能和集成方式,进一步优化用户体验。

    PeterCat

    PeterCat的主要功能

    • 对话式答疑:提供对话式的答疑服务,自动回答技术问题。
    • 知识库自动构建:自动从GitHub仓库中提取信息,构建知识库。
    • GitHub集成:与GitHub的issue、PR和Discussion进行互动。
    • 多模型支持:支持不同的底座模型,适应不同的需求。
    • 多集成方式支持:支持多种集成方式,如浏览器插件、IDE插件等。

    PeterCat的技术原理

    • 自然语言处理(NLP):基于NLP技术理解和生成自然语言,与用户进行流畅的对话。
    • 机器学习模型:基于预训练的机器学习模型处理和回应查询。
    • 知识库构建:分析GitHub仓库的issue、PR、Discussion和Markdown文件,构建一个知识库,作为其提供答案的基础。
    • 自动化工具:PeterCat用自动化工具生成机器人配置,包括Prompt、名字、头像、开场白等。
    • 集成开发环境(IDE)插件:支持集成到IDE中,如VSCode,便于开发者在编码时直接获得帮助。

    PeterCat的项目地址

    PeterCat的应用场景

    • 开源项目支持:在开源项目中,为全球开发者提供多语言的技术支持和问题解答。
    • 企业内部论坛:作为企业内部论坛的智能助手,帮助员工解决工作中遇到的技术难题。
    • 在线教育平台:在在线编程课程中,辅助学生理解复杂概念,提供即时的编程指导。
    • 客户服务自动化:在客户服务中,基于聊天机器人自动回答常见问题,提高响应效率。
    • 技术文档中心:在技术文档中心,帮助用户快速找到解决方案,提升文档的可用性。
  • Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架

    Poetry2Image是什么

    Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。Poetry2Image能提高图像生成的元素完整性和语义一致性,与五种流行的图像生成模型结合使用时,平均元素完整性达到70.63%,语义一致性达到80.09%。

    Poetry2Image的主要功能

    • 自动化反馈和校正:Poetry2Image通过使用外部诗歌数据集,建立了一个自动化的反馈和校正循环,能增强诗歌与图像之间的对齐度,提高生成图像的质量和准确性。
    • 减少人工干预:该框架降低了传统方法中所需的大量人工干预和专业知识需求,使图像生成过程更加高效。
    • 提高效率和质量:相较于传统的微调方法,Poetry2Image在保持生成图像质量的同时,显著减少了训练成本和时间。
    • 搜索和翻译:系统会在诗歌数据库中搜索用户提供的古诗,并找出它的现代汉语翻译和赏析。
    • 生成初始图像:基于诗歌的现代汉语翻译,系统会生成一幅初步的图像。
    • 提取关键元素:系统会使用一个大型的语言模型来识别并提取诗歌中的关键元素。
    • 图像修正:系统会检查生成的图像是否包含了所有这些关键元素,并在必要时提出修改建议,比如添加缺失的元素或调整元素的位置。
    • 迭代优化:如果图像中的元素不完整或不正确,系统会根据建议再次生成图像,这个过程会不断重复,直到图像能够准确反映诗歌的意境。

    Poetry2Image的技术原理

    • 图像元素的识别与校正:基于开放词汇检测器(OVD)识别图像中的元素信息,然后通过LLM提供修改建议,这些建议以图像中的框选形式呈现,指导图像编辑模型对初始图像进行编辑。
    • 兼容性与训练成本:Poetry2Image没有对用于初始图像生成的文本到图像生成模型的限制,并且迭代校正操作消除了额外训练成本的需求,同时自动化的图像生成和反馈过程显著减少了手动注释。

    Poetry2Image的项目地址

    Poetry2Image的应用场景

    • 古诗词文化传播:Poetry2Image通过生成与古诗词意境相符的图像,促进了古诗词文化的传播,使得传统文化以更生动的形式被现代人所理解和欣赏。
    • 艺术创作辅助:能帮助艺术家和设计师在创作过程中,快速生成与古诗词相匹配的视觉元素,提供灵感和素材。
    • 教育与学习:在教育领域,Poetry2Image可以作为教学工具,帮助学生更好地理解和记忆古诗词,通过图像与诗词的结合,增强学习体验。
    • 图像生成技术研究:Poetry2Image提供了一个研究平台,用于探索和改进文本到图像的生成技术,特别是在处理具有丰富文化内涵和复杂语义的中文古诗词时。
  • 启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型

    启元重症大模型是什么

    启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量达到万亿级别,经过大量医学文本数据训练,涵盖285万医学实体、1250万医学关系,覆盖98%医学知识的医学知识图谱和医学文献。能在5秒内总结患者的病情,1分钟内完成病历撰写,准确率高达95%,极大提升了重症医疗的精准度与效率。目前,启元重症大模型已在浙江大学医学院附属第一医院的ICU进行试点应用,能够实时监测病人的生命体征,24小时辅助医生,为重症患者争取更早的诊疗时机。

    启元重症大模型

    启元重症大模型的主要功能

    • 病情问答:能在5秒内梳理患者病情历程,提取关键指标,生成数字画像,预测病情趋势,并提供治疗建议,帮助医生快速决策。
    • 病历撰写:整合诊疗数据后,启元能高效生成条理清晰、格式规范的病历,1分钟内完成整个撰写过程,效率提高30倍。
    • 知识查询:基于九大亚组重症医学知识图谱,启元可精准定位关键知识,分析准确率高达95%,为医生提供高效、权威的决策支持。
    • 诊疗建议:结合患者数据和重症思维训练,启元提供个性化治疗方案,助力医生快速制定精准的诊疗计划。

    启元重症大模型的技术原理

    • 混元大模型:启元重症大模型是基于腾讯的混元大模型构建的,模型提供了万亿级参数和7万亿Tokens的支持,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。
    • 医学知识图谱:启元大模型涵盖了285万医学实体、1250万医学关系,覆盖了98%的医学知识,使模型能理解和生成医学文本,准确理解和回答医疗相关问题。
    • 数据处理与分析:启元大模型能整合患者的海量数据,生成数字画像,用重症思维对画像进行深度分析,预测病情发展,提出干预建议。
    • 模型量化、蒸馏和压缩技术:启元大模型通过这些技术实现“瘦身”,能在医院现有计算资源上高效运行,支持本地化部署,降低使用门槛,同时保障数据隐私。
    • 临床逻辑推理能力:启元大模型通过与临床实践的交互,逐步塑造其重症思维,建立高效的反馈机制,鼓励医护人员对模型的输出结果进行评估与及时反馈,强化临床逻辑推理能力。
    • 多轮对话和内容生成:启元大模型具备医学多轮对话、医学内容生成、AI辅助临床决策等多项能力,能够提供精准的医学信息和建议。

    启元重症大模型的应用场景

    • ICU监护与诊疗支持:启元重症大模型能够实时监测患者的生命体征,快速生成病情总结,帮助ICU医生掌握患者整体状况,并为复杂病情提供诊疗建议,有效提升重症医疗效率。
    • 智能辅助诊疗:通过医学知识图谱和强大的知识问答功能,启元大模型可以回答复杂的医学问题,精准分析病情并提供个性化诊疗建议,辅助医生快速决策。
    • 病历自动生成:模型基于已录入数据自动生成符合临床标准的病历,提升病历记录的规范性和效率,将病历生成时间缩短30倍,减轻医生的文书负担。
    • 基层与远程医疗支持:在边远地区和医疗资源有限的场景下,启元大模型为基层医生提供诊疗建议和知识支持,帮助提升医疗质量,弥补经验和资源不足的短板。
    • 医院运营与效率优化:通过标准化的病历生成和复杂病例管理,启元大模型帮助医院优化诊疗流程,提高资源利用率,增强对重症患者的管理能力。
  • MNN – 阿里开源的移动端深度学习推理框架

    MNN是什么

    MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和内存优化技术,能适应不同设备的算力和内存限制。MNN提供模型转换、压缩工具和丰富的API,让开发者能轻松地将深度学习模型部署到各种平台上。

    MNN

    MNN的主要功能

    • 模型转换:支持将不同深度学习框架训练的模型(如TensorFlow、Caffe、ONNX等)转换为MNN格式,便于在不同平台上运行。
    • 模型量化:提供模型量化工具,将FP32(浮点32位)模型转换为INT8(整数8位)或INT4,减少模型大小和提高运行速度,同时保持模型精度。
    • 硬件加速:针对不同硬件平台进行优化,包括CPU、GPU和NPU,充分利用硬件特性加速模型推理。
    • 跨平台支持:支持在多种操作系统和硬件架构上运行,包括iOS、Android、Linux等。
    • 内存和性能优化:基于混合存储策略和计算优化技术,减少模型运行时的内存占用并提高推理速度。
    • 多模型支持:支持同时加载多个模型,适用于多任务处理和复杂应用场景。

    MNN的技术原理

    • 计算图优化:在执行前对计算图进行优化,包括节点融合、内存复用等,减少冗余计算和内存占用。
    • 指令级优化:根据目标硬件平台的指令集进行优化,比如用SIMD指令加速数据处理。
    • 异构计算:支持CPU、GPU和NPU的异构计算,根据任务需求动态分配计算资源。
    • 内存管理:基于先进的内存管理技术,如内存池和混合存储策略,减少内存碎片和溢出风险。
    • 量化技术:用量化技术将模型的权重和激活从浮点数转换为整数,减少模型大小并加速计算。
    • 数据重排序:基于数据重排序优化内存访问模式,提高缓存命中率,减少内存延迟。

    MNN的项目地址

    MNN的应用场景

    • 图像识别:在智能手机上实现实时拍照识物功能。
    • 语音识别:在智能音箱中进行语音指令的实时识别和响应。
    • 智能家居控制:通过人脸识别技术实现智能门锁的自动开锁。
    • 工业缺陷检测:在生产线上用MNN进行产品缺陷的自动检测。
    • 健康监测:在可穿戴设备中监测心率和血压等生命体征。
  • DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

    DiTCtrl是什么

    DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。基于分析MM-DiT的注意力机制,DiTCtrl采用KV共享和潜在混合策略,实现不同提示间的平滑过渡,提升视频生成的连贯性和自然度。在新基准MPVBench上,DiTCtrl在保持计算效率的同时,取得最先进的性能,标志着多提示视频生成技术的重要进展。

    DiTCtrl

    DiTCtrl的主要功能

    • 多提示视频生成:DiTCtrl能处理多个文本提示,生成连贯的视频内容,对于反映现实世界中动态、多动作场景尤为重要。
    • 无需额外训练:与传统视频生成模型不同,DiTCtrl无需额外的训练数据或计算资源即可生成视频,实现零样本(zero-shot)的多提示视频生成。
    • 平滑过渡:DiTCtrl能在不同提示的视频片段之间实现平滑过渡,保持视频内容的连贯性和视觉一致性。
    • 精确语义控制:分析和基于MM-DiT的注意力机制,精确控制视频内容,确保生成的视频与文本提示紧密对应。

    DiTCtrl的技术原理

    • MM-DiT架构:基于多模态扩散变换器(MM-DiT)架构,将文本和视频映射到统一序列进行注意力计算,有效处理多模态数据。
    • 注意力机制分析:首次分析MM-DiT的3D全注意力机制,发现其与UNet类扩散模型中的交叉/自注意力模块相似,为精确的语义控制提供基础。
    • KV共享机制:采用键值(KV)共享机制,支持在不同提示的视频片段之间共享注意力信息,保持关键对象的语义一致性。
    • 潜在混合策略:为实现视频片段间的平滑过渡,DiTCtrl用潜在混合策略,基于在相邻视频片段的重叠区域应用位置依赖的权重函数,实现不同语义片段间的平滑过渡。
    • 掩码引导的注意力融合:提取特定对象的注意力掩码,并用掩码引导注意力融合,生成新提示的注意力特征,实现不同提示间的一致性。
    • MPVBench基准:为评估多提示视频生成的性能,引入MPVBench基准,包含多种过渡类型和专门的评估指标。

    DiTCtrl的项目地址

    DiTCtrl的应用场景

    • 电影和视频制作:用于生成电影预告片、特效场景或动画视频,减少实际拍摄成本和时间。
    • 游戏开发:在游戏制作中,生成动态背景视频或游戏剧情动画,提高游戏的沉浸感和故事性。
    • 广告行业:根据广告文案快速生成吸引人的视频内容,提高广告的创意和吸引力。
    • 社交媒体内容创作:用户生成个性化的视频内容,用在社交媒体平台,如抖音、Instagram等。
    • 新闻和报道:制作新闻报道中的动态图表或事件重演,让信息传递更加直观和生动。
  • 联通元景 – 中国联通AI开源的中文原生文生图模型

    联通元景是什么

    联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块,优化中文长文本和特色词汇理解,提升图像生成质量。联通元景基于预训练海量中文图文数据,减少信息损失,准确生成高质量图片。元景文生图模型支持国产全栈训推,适配自定义数据集,实现跨平台平滑切换。已在多个行业如文创、服装等领域应用,助力企业提效降本。

    UniT2IXL

    联通元景的主要功能

    • 中文语义理解:基于复合语言编码模块,精确理解中文长文本和多属性对应词汇,提升中文语义理解能力。
    • 高质量图像生成:根据中文文本生成高质量的对应图像,支持中文特色词汇和表达。
    • 预训练与推理:引入海量中文图文对数据进行预训练,提高模型对中文专属名词和复杂表达的理解能力。
    • 算力适配:在国产昇腾AI基础软硬件平台上实现训练和推理,适配国产算力。

    联通元景的技术原理

    • 复合语言编码模块:在SDXL架构中融合复合语言编码模块,替换英文CLIP模型为中文CLIP,增强中文短文本的理解能力。
    • encoder-decoder架构:引入基于encoder-decoder架构的语言模型到语言编码器部分,支持超过CLIP长度限制的长文本输入。
    • 昇腾AI算力集群:在昇腾AI大规模算力集群上实现模型的训练和推理,提供强大的计算支持。
    • 接口与Diffusers对齐:模型推理接口与Diffusers对齐,简化使用流程,支持单卡和多卡推理,单卡推理支持UNet Cache加速。

    联通元景的项目地址

    联通元景的应用场景

    • 文物数字化:用联通元景文生图模型生成文物的三维图像,为博物馆提供虚拟展览服务,让观众在线浏览和学习文物。
    • 个性化服装定制:根据客户的具体需求,用模型生成定制服装的设计图,为客户提供个性化的服装设计服务。
    • 智能家居产品设计:基于模型生成智能家居产品的概念图,帮助设计师快速验证和迭代产品设计。
    • 广告创意生成:为广告公司提供快速生成广告创意图像的服务,根据广告文案自动生成吸引人的视觉内容。
    • 在线教育平台:在在线教育平台上,根据教学内容自动生成教学辅助图像,提高学生的学习兴趣和效果。
  • Valley – 字节跳动推出的多模态大模型

    Valley是什么

    Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩,并在OpenCompass测试中展现出色性能,尤其是在小于10B参数规模的模型中排名第二。Valley-Eagle版本基于引入VisionEncoder增强模型在极端场景下的性能,能灵活调整令牌数量,并与原始视觉令牌并行处理。

    Valley

    Valley的主要功能

    • 多模态理解:能处理文本、图像和视频数据,提供对不同模态数据的深入理解。
    • 任务处理:支持多种涉及多模态数据的任务,如图像和视频描述、内容分析等。
    • 性能优化:在内部基准测试和OpenCompass测试中展现出色性能,特别是在电子商务和短视频领域。
    • 模型扩展性:引入VisionEncoder,Valley能灵活调整令牌数量,增强在极端场景下的性能。

    Valley的技术原理

    • LargeMLP和ConvAdapter:结合LargeMLP(大型多层感知机)和ConvAdapter(卷积适配器)构建投影器,有助于模型在处理视觉数据时的性能。
    • VisionEncoder:Valley-Eagle版本引入VisionEncoder,一个额外的编码器,能并行处理视觉令牌,且能灵活调整令牌数量,适应不同的处理需求。
    • 并行处理:与原始视觉令牌并行处理,增强模型在处理大量视觉数据时的效率和效果。
    • 模型对齐:Valley与Siglip和Qwen2.5等其他模型对齐,在设计上参考这些模型的成功元素,确保性能和兼容性。

    Valley的项目地址

    Valley的应用场景

    • 内容分析与理解:分析和理解文本、图像和视频内容,为内容审核、内容推荐和内容生成提供支持。
    • 图像和视频描述:生成图像和视频的描述性文本,适用于社交媒体、新闻报道和教育材料。
    • 电子商务:在电子商务领域,用在产品推荐、用户行为分析和客户服务自动化。
    • 短视频平台:辅助短视频平台进行内容创作、内容审核和用户体验优化。
    • 智能助手:作为智能助手,理解和响应用户的查询,提供基于图像和视频的信息检索和推荐。
  • Enhance-A-Video – 上海AI Lab 联合新加坡国立等推出的视频生成质量增强算法

    Enhance-A-Video是什么

    Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生成增强算法。算法能够显著提升AI视频生成质量,特别是在对比度、清晰度以及细节真实性上有显著改进。核心原理是通过调整时间注意力层输出的关键参数来优化视频帧间的一致性和视觉质量。

    Enhance-A-Video的主要功能

    • 提升视频质量:Enhance-A-Video能够显著提升视频的对比度、清晰度以及细节真实性。
    • 优化时间注意力分布:通过调整时间注意力层输出的关键参数,Enhance-A-Video优化了视频帧间的一致性和视觉质量。
    • 高效增强:该算法能够快速提升视频质量,无需额外的性能和内存负担。
    • 无需训练:可以直接应用于现有的视频生成模型,无需重新训练。
    • 即插即用:Enhance-A-Video灵活适配多种场景和需求,可以直接集成到多个主流推理框架中。

    Enhance-A-Video的技术原理

    • 增强系数引入:算法通过引入一个增强系数来优化时间注意力的分布,实现高效增强、无需训练和即插即用。
    • 温度参数控制:受到LLMs(大型语言模型)中Temperature parameter(tau)pre-softmax的启发,研究团队首次发现时间注意力的Temperature决定了跨帧相关性的强度,更高的值使能够更广泛地关注时间上下文。
    • 增强块设计:设计了一个增强块作为并行分支,用于计算非对角线元素的平均值作为跨帧强度。
    • 细节丰富度和语义匹配度提升:Enhance-A-Video在细节丰富度和语义匹配度上表现更优,生成的视频内容与用户输入的文本提示更加吻合。
    • 深度学习技术:基于深度学习技术来自动学习和理解视频内容,识别并提升视频中的关键信息,如人脸、文字、物体等,提高视频的清晰度和细节。

    Enhance-A-Video的项目地址

    Enhance-A-Video的应用场景

    • 视频内容创作:视频内容创作者可以用Enhance-A-Video来提升他们的作品质量,使视频更加逼真和吸引人。
    • 学术研究:研究人员可以用Enhance-A-Video在学术研究中提高视频生成模型的性能,发表高质量的学术论文。
    • 在线视频平台:在线视频平台可以用Enhance-A-Video来改善用户体验,提供更高质量的视频内容。
    • 广告制作:广告公司可以用Enhance-A-Video为新产品制作宣传视频,简化拍摄和后期制作过程,节省时间和成本。
    • 影视特效:在影视制作中,Enhance-A-Video可以用于生成复杂的场景,如太空场景,提供逼真的视觉效果。
  • AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架

    AGUVIS是什么

    AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面、移动设备)上操作。AGUVIS基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。AGUVIS结合显式规划和推理,增强代理在复杂数字环境中的自主导航和交互能力。框架通过大规模数据集和两阶段训练流程,实现了在离线和在线场景中超越现有方法的性能,成为首个不依赖外部闭源模型独立完成任务的纯视觉GUI代理。

    AGUVIS

    AGUVIS的主要功能

    • 跨平台自主GUI交互:在不同平台(如网站、桌面和移动设备)上自主执行GUI任务。
    • 图像观察与自然语言指令关联:将自然语言指令映射到视觉界面元素,实现基于图像的交互。
    • 显式规划与推理:集成规划和推理能力,让代理够分析环境并生成有效的操作步骤。
    • 大规模数据集构建:创建包含多模态推理和基础的大规模GUI代理轨迹数据集。

    AGUVIS的技术原理

    • 纯视觉框架:采用纯视觉方法,将界面观察统一为图像,将指令基础到图像坐标,提高跨环境的泛化能力。
    • 统一动作空间:用标准化的动作空间和插件系统,在不同平台间进行一致的学习与交互。
    • 视觉-语言模型(VLM):VLM作为基础,如Qwen2-VL,处理任意分辨率的高分辨率图像,并动态转换为视觉令牌。
    • 两阶段训练范式
      • 第一阶段:基础训练:专注于使模型理解和与单个GUI截图中的对象交互。
      • 第二阶段:规划与推理训练:在基础训练的基础上,引入更复杂的决策制定和推理过程,基于多样化的代理轨迹数据训练模型。
    • 内省式独白(Inner Monologue):在训练中生成详细的内省式独白,包含观察描述、思考和低级动作指令,模拟代理的思考过程、提升其规划能力。
    • 插件系统:为不能直接映射到现有动作空间的动作提供灵活性,让模型能够适应新环境和任务。

    AGUVIS的项目地址

    AGUVIS的应用场景

    • 自动化测试:在软件开发中自动化测试各种图形用户界面,包括网站、桌面应用和移动应用,确保软件的稳定性和可靠性。
    • 虚拟助手:作为虚拟助手,帮助用户自动化日常的计算机任务,如日程管理、邮件处理和数据输入。
    • 业务流程自动化:在企业中自动化执行特定的业务流程,如财务报告生成、客户数据管理等,提高工作效率。
    • 教育和培训:创建交互式教育软件,模拟真实世界的GUI操作,用于教学和培训目的。
    • 客户服务自动化:在客户服务领域自动处理客户请求,基于GUI界面提供快速响应和解决方案。