Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • AI Developer – Skywork Super Agents推出的AI编程助手

    AI Developer是什么

    AI Developer 是天工超级智能体(Skywork Super Agents)在海外版上线的Vibe Coding Agent,能帮助非专业开发人员,通过自然语言交互快速构建、部署和管理全栈 Web 应用程序。AI Developer能生成前端页面,能与 Supabase 深度集成,实现后端功能,如数据库管理、用户鉴权等,支持第三方服务集成,如 Stripe 支付和 Resend 邮箱服务,大大简化开发流程,降低开发门槛,使用户能专注于业务逻辑和创造力,快速实现功能丰富的网站开发。

    AI Developer

    AI Developer的主要功能

    • 前端页面设计:根据自然语言指令快速生成、自定义各种前端页面,满足不同设计需求。
    • 后端功能实现:与 Supabase 深度集成,实现数据库管理、用户鉴权、文件存储、实时更新及外部服务调用等后端功能。
    • 第三方服务集成:集成 Stripe 支付和 Resend 邮箱服务,满足电商、邮件通知等业务需求。
    • 端到端解决方案:提供从前端到后端的全栈开发及一键部署功能,简化开发和发布流程。
    • 交互与管理:支持自然语言交互,方便非专业开发人员使用,且提供应用管理功能。

    如何使用AI Developer

    • 注册登录:访问海外Skywork官网 https://skywork.ai/,完成张合注册和登录。
    • 创建项目:选择项目模板,输入项目名称,开始新项目。
    • 描述需求:用自然语言描述页面功能和设计需求,如“创建一个营销页面,包含图片轮播和表单”。
    • 生成编辑:AI 自动生成页面,通过可视化编辑器调整布局、颜色等细节。
    • 配置后端:在 Supabase 配置数据库、用户登录和文件存储等后端功能。
    • 集成服务:集成 Stripe 支付和 Resend 邮箱等第三方服务。
    • 测试优化:本地测试页面功能,根据结果优化体验。
    • 一键部署:选择云平台,点击部署按钮,快速上线应用。

    AI Developer的应用场景

    • 电商网站:快速搭建包含商品展示、购物车、支付等功能的电商平台,助力商家快速上线销售。
    • 营销落地页:创建吸引用户的营销页面,用在推广活动、产品介绍,提高转化率。
    • 企业官网:构建展示企业信息、产品服务、团队介绍等的官方网站,提升企业形象。
    • 在线教育平台:开发课程展示、学习管理、在线测试等功能的教育网站,支持远程教学。
  • Learn Your Way – 谷歌推出的实验性AI学习工具

    Learn Your Way是什么

    Learn Your Way是谷歌推出的基于先进人工智能技术重新构想传统教材的实验性学习工具。将教材内容转化为动态且引人入胜的学习体验,为每个学习者量身定制。工具能将内容转化为沉浸式文本、章节测验、幻灯片和旁白、音频课程、思维导图等多种形式,满足不同学习风格的需求。例如,学生可以选择通过思维导图快速了解全局,通过沉浸式文本加深理解,或者通过小测验验证自己是否真正掌握。结合了谷歌前沿的AI研究与有效的学习科学,由教育专家共同开发,为每个学习者提供高质量和有效性的学习体验。

    Learn Your Way

    Learn Your Way的主要功能

    • 个性化内容呈现:根据学习者的年级、兴趣和学习需求,自动调整教材内容,使其更贴合个人需求。
    • 多样化学习形式:将教材内容转化为多种互动形式,如沉浸式文本、章节测验、幻灯片和旁白、音频课程、思维导图等,满足不同学习风格。
    • 实时反馈与互动:通过互动测验实时反馈学习情况,帮助学习者发现并解决问题,并根据回答动态调整推荐内容,助力复习薄弱部分。
    • 结合先进AI与学习科学:融合谷歌前沿的AI研究和有效的学习科学,由教育专家共同开发,确保学习质量和效果。

    如何使用Learn Your Way

    • 访问官网:访问 Learn Your Way 的官网:https://learnyourway.withgoogle.com/。
    • 选择学习内容:根据自己的学习需求,选择感兴趣的学科或主题。
    • 个性化设置:输入年级、兴趣等信息,系统将根据这些信息调整教材内容。
    • 体验不同形式:选择适合自己的学习形式,如沉浸式文本、幻灯片、音频课程等。
    • 参与互动测验:完成章节测验,获取实时反馈,系统会根据表现提供进一步的学习建议。
    • 申请完整体验:如果需要更全面的功能,可以申请体验完整功能,以获得更深入的学习体验。

    Learn Your Way的应用场景

    • 个性化学习体验:根据学生年级、兴趣和学习情况自动调整教材内容,使教材像私人订制的App,更好地满足不同学生的需求。
    • 多样化学习形式:将教材内容转化为沉浸式文本、章节测验、幻灯片和旁白、音频课程、思维导图等多种形式,学生可以根据自己的喜好和学习习惯选择不同的学习形式。
    • 实时反馈与互动:通过互动测验实时反馈学生的学习情况,帮助学生发现并解决问题,根据回答动态调整推荐内容,助力复习薄弱部分。
    • 教育研究与实验:作为Google Research的实验项目,为教育领域的研究提供新的思路和方法,探索如何利用生成式AI技术来创造更加有效和互动的学习体验。
    • 提升学习效果:在实验中,使用“Learn Your Way”的学生在理解测验中表现优于使用传统数字阅读器的学生,且在3-5天后的测试中成绩更高,学习体验更积极。
  • InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

    InternVLA·M1是什么

    InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策略,先通过空间感知预训练,增强空间推理与规划能力;再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练,大幅降低成本。在 SimplerEnv 等公开操作基准测试中,InternVLA·M1 达到国际领先水平,其指令跟随与未见物体泛化能力显著优于其他同类模型。依托自研仿真平台 InternData-M1 完成大规模预训练,适用于复杂场景及长程任务。

    InternVLA·M1

    InternVLA·M1的主要功能

    • 高阶空间推理与任务规划:负责复杂环境下的空间推理和任务规划,能理解指令并生成相应的操作序列。
    • 双系统操作架构:采用两阶段训练策略,先进行空间感知预训练,再进行动作后训练,提升模型的推理和规划能力。
    • 高效训练与成本控制:通过“空间规划提示”实现高效训练,大幅降低训练成本和时间。
    • 指令跟随与泛化能力:在多种公开基准测试中表现优异,尤其在指令跟随和未见物体泛化方面表现突出。
    • 自主学习与闭环控制:构建了“思考-行动-自主学习”的完整闭环,能够通过自主学习不断优化操作策略。
    • 复杂场景适应性:在真机复杂场景及长程任务中表现出色,适用于多种实际应用场景。

    InternVLA·M1的技术原理

    • 双系统架构:结合空间感知预训练和动作后训练,增强模型对空间环境的理解和操作能力。
    • 空间感知预训练:通过大规模仿真数据,训练模型对空间关系的感知和推理能力,为后续任务规划奠定基础。
    • 动作后训练:利用隐式空间推理方式,使模型能高效地学习具体动作的执行,提升操作精度。
    • 空间规划提示:引入空间规划提示机制,帮助模型更高效地进行任务规划和动作生成,降低训练复杂度。
    • 闭环控制:构建“思考-行动-自主学习”的闭环系统,使模型能在实际操作中不断学习和优化,适应复杂环境。
    • 大规模仿真数据:依托自研仿真平台 InternData-M1,生成大量高质量的训练数据,支持模型的大规模预训练。
    • 指令驱动:模型能接收自然语言指令,解析指令内容,生成相应的操作序列,实现指令跟随功能。

    InternVLA·M1的项目地址

    • 项目官网:https://internrobotics.github.io/internvla-m1.github.io/
    • Github仓库:https://github.com/InternRobotics/InternVLA-M1
    • HuggingFace模型库:https://huggingface.co/collections/InternRobotics/internvla-m1-68c96eaebcb5867786ee6cf3
    • HuggingFace数据链接:https://huggingface.co/datasets/InternRobotics/InternData-M1
    • 技术论文:https://github.com/InternRobotics/InternVLA-M1/blob/InternVLA-M1/assets/InternVLA_M1.pdf

    InternVLA·M1的应用场景

    • 工业自动化:在工厂环境中,用于自动化生产线上的复杂任务,如零部件组装、物料搬运和质量检测,提高生产效率和精准度。
    • 物流与仓储:优化物流中心的货物分拣、搬运和存储操作,实现自动化仓库管理,提升物流效率和准确性。
    • 服务机器人:在家庭、酒店、医院等场景中,为人们提供清洁、送餐、护理等服务,提升生活质量和服务效率。
    • 智能安防:用于安防监控中的异常行为检测、区域巡逻和安全检查,增强安防系统的智能化水平。
    • 教育与科研:作为教学和科研工具,帮助学生和研究人员探索机器人技术、人工智能和自动化控制等领域。
    • 灾难救援:在地震、火灾等灾害现场,执行搜索、救援和物资运输任务,减少人员伤亡和提高救援效率。
    • 农业自动化:用于农作物种植、采摘和灌溉等环节,实现农业生产的自动化和智能化,提高农业生产力。
  • 通义DeepResearch – 阿里推出的开源深度研究智能体

    通义DeepResearch是什么

    通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic CPT)、监督微调(SFT)和强化学习(RL),形成完整的端到端训练链路。通义 DeepResearch 已赋能阿里巴巴内部多个应用,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”。

    通义 DeepResearch

    通义DeepResearch的主要功能

    • 长周期深度信息检索:专为复杂、长周期的信息检索任务设计,能处理多步骤的推理和规划,适用于学术研究、市场分析、政策制定等场景。
    • 多模式推理支持:支持 ReAct 模式和深度模式(Heavy Mode)。ReAct 模式严格遵循“思考-行动-观察”循环,适合评估模型的核心能力;深度模式通过迭代研究范式(IterResearch)提升复杂推理能力。
    • 全流程合成数据生成:采用自研的全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限,支持从预训练到微调再到强化学习的完整训练链路。
    • 端到端强化学习:通过定制化的强化学习算法(如 Group Relative Policy Optimization, GRPO),确保智能体的行为与高阶目标保持一致,提升模型在动态环境中的适应性和稳定性。
    • 实际应用赋能:已成功应用于阿里巴巴内部多个场景,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”,展现出强大的实用性和价值。
    • 开源共建:项目完全开源,提供完整的代码、模型和数据,鼓励开发者参与共建,推动深度研究智能体的发展和创新。

    通义DeepResearch的技术原理

    • 全流程合成数据方案:无需人工干预,自动生成高质量数据集,支持从预训练到微调再到强化学习的完整训练链路,突破智能体能力上限。
    • 迭代研究范式(IterResearch):将复杂任务分解为多个研究回合,每个回合动态重构精简工作区,通过“思考-综合-行动”流程,提升复杂推理能力和决策质量。
    • 端到端强化学习:采用定制化的强化学习算法,如 Group Relative Policy Optimization (GRPO),确保学习信号与模型当前能力精准匹配,提升模型在动态环境中的适应性和稳定性。
    • 大规模持续预训练:利用持续更新的知识文档、爬虫数据、知识图谱等构建开放世界知识记忆,生成多风格的(问题,答案)对,持续扩展模型能力。
    • 自动化数据管理:在训练动态的指导下实时优化数据,通过全自动数据合成和数据漏斗动态调整训练集,确保训练的稳定性和性能提升。
    • 稳定高效的工具沙盒:开发统一的沙盒环境,处理并发和故障,确保工具调用的稳定性和可靠性,为智能体提供快速且鲁棒的交互环境。

    通义DeepResearch的项目地址

    • 项目官网:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
    • Github仓库:https://github.com/Alibaba-NLP/DeepResearch
    • HuggingFace模型库:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

    通义 DeepResearch 的家族成员

    • WebWalker:专注于网页遍历任务,用于评估语言模型在网页导航中的表现。
    • WebDancer:致力于实现自主信息寻求能力,推动智能体在信息检索中的自主性。
    • WebSailor:用于导航复杂的网页环境,提升智能体的超人级推理能力。
    • WebShaper:通过信息寻求的形式化,实现智能体数据的合成,提升数据质量和模型性能。
    • WebWatcher:探索视觉语言智能体的新边界,结合视觉和语言能力进行深度研究。
    • WebResearcher:释放长周期智能体的无界推理能力,提升其在复杂任务中的表现。
    • ReSum:通过上下文总结解锁长周期搜索智能,优化智能体的信息管理能力。
    • WebWeaver:利用动态提纲结构化网络规模的证据,支持开放式的深度研究。
    • WebSailor-V2:通过合成数据和可扩展的强化学习,缩小与专有智能体的差距。

    通义DeepResearch的应用场景

    • 学术研究:能快速整理文献综述,帮助学者们高效完成复杂的学术研究任务,提升研究效率。
    • 市场分析:为企业提供竞争对手分析、行业趋势报告等,助力企业制定精准的市场策略。
    • 法律研究:在法律领域,如“通义法睿”应用,自动检索法条、类案和裁判文书,进行深度归纳分析,为法律从业者提供强大的生产力工具。
    • 出行规划:与高德地图合作,推出 AI 原生出行 Agent,结合实时数据为用户提供精准的出行建议和规划。
    • 复杂信息检索:适用于需要多步骤推理和规划的复杂信息检索任务,如跨领域研究、政策制定等,帮助用户快速获取和整合信息。
  • RustGPT – AI语言模型,根据输入内容自动文本补全

    RustGPT是什么

    RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离,便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者,是一个优秀的学习项目。

    RustGPT

    RustGPT的主要功能

    • 事实文本补全:RustGPT 能根据输入的文本片段,生成合理的后续内容。
    • 指令微调:模型经过指令微调,能理解和生成符合人类指令的文本。
    • 交互式聊天模式:RustGPT 支持交互式聊天模式,用户输入问题或提示,模型能生成相应的回答。
    • 动态词汇表:模型支持动态构建词汇表,能根据输入数据自动扩展词汇表,适应不同的文本内容。

    RustGPT的技术原理

    • 基于 Transformer 的架构:RustGPT 使用 Transformer 架构,一种基于注意力机制的神经网络架构,能处理长序列数据、捕捉长距离依赖关系。Transformer 架构包括多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。
    • 自定义分词:模型使用自定义的分词方法,将文本分割成标记(tokens),标记包括单词、子单词或字符。分词后的文本被嵌入到高维向量空间中,用在模型的输入。
    • 矩阵运算:模型的计算主要依赖于矩阵运算,用 ndarray 库实现。矩阵运算包括嵌入层的矩阵乘法、多头自注意力机制中的矩阵运算、前馈网络中的矩阵运算等。
    • 预训练和微调
      • 预训练:模型首先在大量文本数据上进行预训练,学习语言的基本模式和结构。预训练的目标是最大化预测下一个标记的概率。
      • 指令微调:在预训练的基础上,模型进一步进行指令微调,学习如何生成符合人类指令的文本。微调过程中,模型根据特定的任务或指令进行优化。

    RustGPT的项目地址

    • GitHub仓库:https://github.com/tekaratzas/RustGPT

    RustGPT的应用场景

    • 文本补全:根据用户输入的部分文本,自动生成合理的后续内容,帮助用户快速完成写作或输入。
    • 创意写作:为作家和内容创作者提供灵感,生成故事、诗歌、文章等创意文本。
    • 聊天机器人:构建智能聊天机器人,用于客服、虚拟助手等场景,理解和生成自然语言对话。
    • 机器翻译:将一种语言的文本翻译成另一种语言,帮助跨越语言障碍。
    • 多语言对话:支持多语言交互,帮助用户进行跨语言交流。
  • Orchids – AI全栈开发工具,生成完整应用与网站

    Orchids是什么

    Orchids 是全球首款具备全栈开发能力的 AI 工具,能实现从前端到后端的全流程开发。工具在 UI 设计和全栈开发性能上表现卓越,超越多个主流竞品,如 LovableBoltv0 等。用户无需依赖外部服务,能构建原型、设计 UI 模型,生成完整应用程序与网站。Orchids 的出现,有望推动开发者更专注于创意实现,减少重复性编码工作,为全栈开发领域带来新的变革。

    Orchids

    Orchids的主要功能

    • 全栈开发能力:Orchids 提供从前端到后端的全流程开发功能,包括数据库管理、身份验证和支付功能,无需依赖外部服务。
    • UI 设计与原型构建:基于 AI 技术快速生成高质量的 UI 设计和原型,支持多平台开发,包括 Web、iOS 和 Android。
    • 代码生成与优化:自动生成、优化代码,支持多种编程语言和框架,提供代码审查功能,确保代码质量和效率。
    • 协作与团队管理:支持多人实时协作,提供灵活的角色和权限管理,及项目管理功能,确保团队高效协作。

    Orchids的官网地址

    • 官网地址:https://www.orchids.app/

    Orchids的应用场景

    • 快速原型开发:快速构建产品原型,帮助团队在早期阶段验证想法,节省时间和成本。
    • 小型项目开发:适合独立开发者或小型团队快速开发小型应用或网站,从设计到上线一站式完成。
    • 企业内部工具开发:企业快速开发内部管理工具,如 CRM、ERP 系统等,提高工作效率。
    • 教育与培训:在教育领域作为教学工具,帮助学生快速掌握全栈开发流程,提升实践能力。
    • 电商与商业应用开发:适合开发电商平台、在线教育平台等商业应用,快速上线投入运营。
  • VLAC – 上海AI实验室开源的具身奖励大模型

    VLAC是什么

    VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效区分正常推进与异常/停滞行为,支持通过in-context learning实现小样本快速泛化。具备局部平滑性和负向奖励机制,确保强化学习的稳定性和有效性。VLAC不仅输出奖励信号,还能输出机器人动作指令,助力机器人在真实世界中自主学习和快速适应新场景。VLAC支持人机协作模式,进一步提升训练效率。

    VLAC

    VLAC的主要功能

    • 提供过程奖励和完成情况估计:为机器人在真实世界的强化学习提供连续、可信的监督信号,判断任务是否完成并估计完成进度。
    • 区分正常与异常行为:有效识别机器人操作中的正常推进、异常或停滞行为,避免无效探索。
    • 支持小样本快速泛化:通过in-context learning,实现小样本快速泛化,提升模型在新场景下的适应能力。
    • 输出机器人动作指令:在提供奖励信号的同时,还能输出机器人执行的动作指令,助力机器人自主学习和调整行为。
    • 搭建强化学习框架:围绕VLAC搭建的VLA强化学习框架,使机器人在真实世界交互中快速适应新场景,提升任务成功率。
    • 支持人机协作模式:通过多种人机协作范式,进一步提升训练灵活性和强化学习效率。

    VLAC的技术原理

    • 多模态融合:基于InternVL多模态大模型,融合视觉、语言等多种模态数据,提升对任务和环境的综合理解能力。
    • 数据驱动奖励生成:利用互联网视频数据和机器人操作数据,通过学习生成密集的奖励信号,为强化学习提供稳定反馈。
    • 任务进度估计:通过模型对任务的实时理解,估计任务的完成进度,为强化学习提供过程奖励。
    • 异常行为检测:通过分析机器人操作数据,识别异常或停滞行为,避免无效探索,提高学习效率。
    • 上下文学习机制:支持in-context learning,通过少量样本快速适应新任务,提升模型的泛化能力。
    • 动作指令生成:在提供奖励信号的同时,生成机器人动作指令,实现从感知到行动的闭环控制。
    • 强化学习框架集成:搭建VLA强化学习框架,结合过程奖励和任务完成情况,提升机器人在真实世界中的学习和适应能力。
    • 人机协作增强:通过人机协作模式,如专家数据回放和手动协助探索,进一步优化模型的训练过程。

    VLAC的项目地址

    • 项目官网:https://vlac.intern-ai.org.cn
    • Github仓库:https://github.com/InternRobotics/VLAC
    • HuggingFace模型库:https://huggingface.co/InternRobotics/VLAC

    VLAC的应用场景

    • 机器人强化学习:为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计,助力机器人快速适应新任务和环境。
    • 人机协作任务:支持人机协作模式,通过专家数据回放、手动协助探索等方式,提升机器人训练的灵活性和效率。
    • 多机器人协同学习:在多机器人环境中,通过VLA强化学习框架,实现多个机器人同时在真实世界交互和学习,提高任务成功率。
    • 复杂任务分解与学习:将复杂任务分解为多个子任务,为每个子任务提供奖励信号,帮助机器人逐步完成复杂任务。
    • 新场景快速适应:通过小样本快速泛化能力,使机器人在新场景下能快速学习并适应,提升任务完成率。
  • MasterGo Agent – MasterGo推出的UI设计AI Agent

    MasterGo Agent是什么

    MasterGo Agent是MasterGo AI推出的全球首个数字界面生产级AI Agent,支持基于设计系统(DSM)的文生UI,能调用团队已有设计规范,实现高效协作和生产。MasterGo Agent具备批量生成页面、图片编辑、文案翻译、智能修改、设计规范检查等功能,能提升设计效率和品质,实现AI与人类协同工作,推动企业从团队协作向AI驱动的集体智能升级。

    MasterGo Agent

    MasterGo Agent的主要功能

    • 文生UI:帮助设计师生成原型或者设计稿,直接调用团队已有的设计规范,包括样式、组件和图标,真正服务于实际业务生产。
    • 图片生成与编辑:具备批量生成风格一致的页面、图片生成与编辑的能力,能无缝融入用户在画布中的工作,辅助用户高效创作。
    • 文案改写与翻译:提供翻译或优化文本内容的功能,帮助设计师和团队提升文案的质量和一致性。
    • 智能批量修改:能进行设计规范检查与替换、智能生成图表/图标资源,及智能答疑等能力,提升输出品质。
    • 设计规范生成与检查:根据设计稿提取设计规范,确保设计稿符合预设的设计标准,同时支持检查与修复,保证设计一致性。
    • 性能优化:具备性能优化功能,如降缓存或重新渲染字形,提高设计稿的加载和处理速度。
    • 多语种版本翻译:支持一键翻译多语种版本,方便国际化项目的设计需求。

    如何使用MasterGo Agent

    • 申请试用:填写申请问卷信息 https://jwzg.feishu.cn/share/base/form/shrcnERaxs7KotZUJfqKJgTFk7e 等待开通。
    • 登录平台:开通后,访问MasterGo AI官网登录账户。
    • 选择工具:在MasterGo Agent的工具列表中选择需要的功能。
    • 输入指令:根据所选工具的功能,输入相应的指令或参数。
    • 上传资源:如果需要,上传设计文件、文本或图片等资源。
    • 监控进度:监控MasterGo Agent的工作进度,查看是否按照要求进行操作。
    • 检查结果:完成操作后,检查MasterGo Agent生成的结果是否符合预期。
    • 调整和优化:如果结果需要进一步调整,根据需要修改指令或参数,重新执行操作。
    • 应用结果:将MasterGo Agent生成的设计、文本或图片应用到项目中。

    MasterGo Agent的应用场景

    • 设计协作:设计师和团队成员调用和应用统一的设计规范,确保整个设计过程中的一致性。
    • 快速原型制作:在产品开发的早期阶段,快速生成原型,以便进行概念验证和用户测试。
    • 多语言产品开发:对于需要支持多种语言的产品,MasterGo Agent能一键翻译设计稿和文案,加速国际化进程。
    • 图像和图标自动化:自动生成或编辑图像和图标,减少设计师在图像处理上的时间消耗。
    • 文案和翻译:自动生成或优化文案,以及翻译文本内容,适应不同市场的需求。
  • PromptEnhancer – 腾讯开源的文本到图像提示词增强框架

    PromptEnhancer是什么

    PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEvaluator,显著提升T2I模型对复杂用户指令的理解和图像生成的准确性。框架无需修改T2I模型的权重,具有通用性和即插即用的特性,适用多种预训练模型。PromptEnhancer通过两阶段训练(监督微调和强化学习)优化提示,使生成图像更符合用户意图。

    PromptEnhancer

    PromptEnhancer的主要功能

    • 提升文本到图像模型的准确性和对齐精度:PromptEnhancer通过优化用户输入的文本提示,显著提升文本到图像(T2I)模型生成图像的准确性和与用户意图的对齐精度,能更好地处理复杂的用户指令,包括属性绑定、否定指令和复杂的关系描述。
    • 通用性和即插即用:无需修改任何预训练T2I模型的权重,能作为通用模块适配多种预训练模型,如HunyuanImage、Stable Diffusion、Imagen等,降低优化成本。
    • 提供高质量基准测试数据集:开源包含6000条Prompt及对应多维度精细标注的高质量基准测试数据集,为研究人员提供重要的参考资源,推动提示优化技术的可解释性和可复现性研究。

    PromptEnhancer的技术原理

    • 思维链(Chain-of-Thought,CoT)提示重写:引入思维链机制,模拟人类设计师的思考过程,将简洁的用户指令拆解为“核心元素-潜在歧义-细节补充”三步骤。
    • 专用奖励模型AlignEvaluator:构建一个覆盖6大类别、24个关键维度的评价体系,通过大规模标注数据训练AlignEvaluator,能针对每个维度给出生成图像的“精准分数”。维度包括语言理解(如否定指令、代词指代)、视觉属性(如物体数量、材质、表情)和复杂关系(如包含关系、相似关系、反事实场景)等。
    • 两阶段训练
      • 第一阶段:监督微调(SFT):通过监督微调初始化CoT重写器,能生成符合语法逻辑的精细化提示。用大模型生成的大量“原始提示-思维链-精细化提示”数据进行训练。
      • 第二阶段:基于生成奖励的策略优化(GRPO):将重写器生成的多个候选提示输入冻结的T2I模型,用AlignEvaluator对生成图像打分。通过“奖励越高的提示越受重视”的逻辑,优化重写器的策略,使其生成的提示能最大化图像与用户意图的对齐。

    PromptEnhancer的项目地址

    • 项目官网:https://hunyuan-promptenhancer.github.io/
    • GitHub仓库:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
    • HuggingFace模型库:https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
    • arXiv技术论文:https://www.arxiv.org/pdf/2509.04545

    PromptEnhancer的应用场景

    • 广告设计:快速生成高质量的广告海报和宣传材料,提升设计效率。
    • 插画创作:帮助插画师快速生成创意草图,节省时间和精力。
    • 游戏设计:为游戏开发者快速生成游戏角色、场景和道具的概念图,加速游戏开发流程。
    • 社交媒体内容:快速生成吸引人的社交媒体图片和视频,提升内容的吸引力。
    • 视频制作:在视频内容创作中,生成高质量的视频帧或概念图,辅助视频剪辑和特效制作。
  • Marble – 李飞飞World Labs推出的3D世界生成平台

    Marble是什么

    Marble是李飞飞的创业公司World Labs推出的3D世界生成平台,基于先进的世界模型技术,用户只需提供一张图片或文本提示,能生成可无限探索的3D世界。Marble生成的世界具有持久性、风格多样性和清晰的3D几何结构,支持自由导航与交互,能导出为高斯点云用于下游项目。目前Marble处于限量访问的Beta测试阶段,用户能在官网创建和浏览3D世界,体验强大的空间智能和创作能力。

    Marble

    Marble的主要功能

    • 3D世界生成:用户上传图片或输入文本提示,AI能快速生成一个3D世界。世界具有丰富的几何结构和多样化的风格,从卡通到写实风格都能实现。
    • 自由导航与交互:用户能在生成的3D世界中自由移动和探索,支持在浏览器中进行360度视角调整,甚至探索输入视角之外的隐藏空间。
    • 持久性与一致性:生成的3D世界是永久持续的,不会随时间变化导致变形或出现不一致的情况,用户能随时访问、保存链接。
    • 导出功能:用户能将生成的3D世界导出为高斯点云(Gaussian splats),用World Labs提供的开源渲染库Spark无缝集成到Three.js中,用在构建基于网页的3D体验。
    • 组合生成大型环境:支持用户将多个生成的场景组合起来,构建出更大规模的虚拟世界,实现连续的空间扩展。
    • 多平台支持:生成的3D体验能在多种设备上高效运行,包括台式机、笔记本、移动设备和VR头显。
    • 创作与分享:用户能创建自己的3D世界,活通过Marble平台分享给他人,支持社交互动和创意交流。

    如何使用Marble

    • 访问官网:访问Marble官网:https://marble.worldlabs.ai/。
    • 申请访问:填写表格 thttps://docs.google.com/forms/d/e/1FAIpQLSe7eNQ4sFAyNiEjBch498zCmQrY_Il-1pB-TCTRE0p5z6k16w/viewform,获取访问权限。
    • 登录平台:通过后点击邮件中的链接,用提供的登录信息进入Marble平台。
    • 上传图片或输入文本:在平台上选择“创建新世界”,上传一张图片或输入一个文本提示描述想要生成的3D世界。
    • 调整参数(如果支持):根据需要调整生成参数,如风格、细节级别等。
    • 开始生成:点击“生成”按钮,等待系统生成3D世界。
    • 探索3D世界:用键盘和鼠标在生成的3D世界中自由移动和调整视角。探索世界中的各个角落,查看不同视角下的细节和结构。
    • 导出和应用(如果需要):如果需要将生成的3D世界用于其他项目。用World Labs提供的开源渲染库Spark,将高斯点云无缝集成到Three.js中,用于构建基于网页的3D体验。
    • 分享和社交:将生成的世界创建一个链接,分享给其他人查看。或在平台上与其他用户交流,分享创作经验和灵感。

    Marble的应用场景

    • 3D环境设计:艺术家和设计师快速生成3D环境,用在电影、游戏、广告等项目的背景设计。
    • 虚拟展厅:创建虚拟展厅,展示艺术作品、产品设计或历史文物,用户能在虚拟空间中自由浏览。
    • 建筑可视化:建筑师生成建筑模型的3D世界,用在展示设计方案,让客户更好地理解建筑的空间布局和外观。
    • 虚拟实验室:创建虚拟实验室,学生在其中进行科学实验,观察物理、化学和生物现象。
    • 历史场景重现:重现历史事件或古代文明的场景,让学生更直观地了解历史背景。