Blog

  • RealDevWorld – MetaGPT推出的AI自动化测试工具

    RealDevWorld是什么

    RealDevWorld 是 MetaGPT 团队开发的新一代自动化测试工具。基于多智能体框架,通过模拟真实开发团队的工作流程,将需求分析、测试用例生成、代码调试到最终部署的全流程实现自动化。用户只需用自然语言描述需求,RealDevWorld 能自动生成测试用例,降低技术门槛。具备自愈测试脚本功能,能自动修复因 UI 更新失效的脚本,减少维护成本。RealDevWorld 支持 Web、移动端、API、桌面应用等多平台测试,覆盖全栈工作流,与 Jenkins、GitHub Actions 等主流 CI/CD 工具无缝集成,支持自动化测试在开发流水线中的高效运行。具备实时反馈与优化机制,根据测试结果进行迭代优化,确保测试用例与实际需求高度契合。RealDevWorld 在 RealDevBench 基准测试中表现出色,精准度达 92%,评估一致性超越了 Claude 等前沿模型。

    RealDevWorld

    RealDevWorld的主要功能

    • 自然语言驱动测试:用户通过自然语言描述测试需求,RealDevWorld 自动生成测试用例,降低技术门槛。
    • 自愈测试脚本:自动修复因 UI 更新失效的测试脚本,减少维护成本。
    • 全栈测试覆盖:支持 Web、移动端、API、桌面应用等多平台测试,覆盖前端到后端的完整工作流。
    • CI/CD 无缝集成:与 Jenkins、GitHub Actions 等主流 CI/CD 工具深度整合,支持自动化测试在开发流水线中的高效运行。
    • 实时反馈与优化:根据测试结果进行迭代优化,确保测试用例与实际需求高度契合。

    RealDevWorld的技术原理

    • 多智能体框架:RealDevWorld 基于多智能体框架,模拟真实开发团队的工作流程,实现从需求分析到测试用例生成、代码调试和最终部署的全流程自动化。
    • 自然语言处理:通过自然语言处理技术,理解用户以自然语言形式描述的测试需求,将其转化为具体的测试用例,降低用户的技术门槛。
    • 自愈机制:利用 AI 和机器学习技术,自动检测并修复因 UI 更新或其他变更导致失效的测试脚本,减少手动维护成本。
    • 全栈测试覆盖:支持多种平台(Web、移动端、API、桌面应用等)的测试,覆盖从前端到后端的完整工作流,确保全面的测试覆盖。
    • 实时反馈与优化:内置反馈机制,根据测试结果实时进行迭代优化,确保测试用例与实际需求高度契合,提高测试的精准度和一致性。

    RealDevWorld的项目地址

    • 项目官网:https://realdevworld.metadl.com/
    • Github仓库:https://github.com/tanghaom/AppEvalPilot
    • arXiv技术论文:https://arxiv.org/pdf/2508.14104
    • HuggingFace数据集:https://huggingface.co/datasets/stellaHsr-mm/RealDevBench

    RealDevWorld的应用场景

    • 软件开发团队:帮助开发团队快速生成测试用例,减少手动编写测试代码的工作量,提高开发效率。
    • 持续集成/持续部署(CI/CD)流程:与主流 CI/CD 工具集成,实现自动化测试在开发流水线中的无缝运行,确保软件质量。
    • 多平台应用测试:支持 Web、移动端、API 和桌面应用等多种平台的测试,满足不同应用场景的需求。
    • 敏捷开发环境:适应敏捷开发的快速迭代需求,实时反馈和优化测试用例,确保开发团队能够快速响应需求变更。
    • 企业级应用开发:为大型企业和复杂项目提供高效的测试解决方案,降低测试成本,提升软件交付质量。
  • 《GEO白皮书:AI搜索时代的品牌增长新范式》

    《GEO白皮书:AI搜索时代的品牌增长新范式》普及 GEO 相关知识,涵盖基础学习、科普资料、实践案例与论文解读,遵循持续更新、重底层原理与实践等原则。内容以学习指南为框架,分五部分展开:首部分阐述 GEO 基础与背景,含定义、与传统 SEO 对比等;第二部分揭秘 GEO 方法,涉及核心技术等;第三部分聚焦 GEO 内容,探讨权威性等要点;第四部分通过问答解答多维度问题;第五部分收录相关论文,为 GEO 学习提供全面参考。白皮书为企业在 AI 搜索时代的营销提供新思路,帮助企业精准触达用户、提升品牌影响力,是企业应对 AI 搜索变革的重要参考资料。

    白皮书的主要内容

    GEO 基础认知

    • GEO 定义与核心目标

    GEO 即生成式引擎优化,主要针对 AI 答案引擎进行内容优化。核心目标是让内容契合 AI 答案引擎的抓取和理解逻辑,增加被选中的机会,进而借助 AI 生成的回答,将品牌信息、产品价值等精准传递给目标用户,提升品牌曝光度与影响力 。例如,当用户在 AI 搜索工具中询问某类产品的选购建议时,经过 GEO 优化的品牌内容,就更有可能出现在 AI 给出的答案里。

    • GEO 与传统 SEO 的对比
    对比维度 传统 SEO GEO
    核心目标 提升网页在搜索引擎结果页的排名,吸引用户点击进入网页获取信息 让内容直接被 AI 答案引擎整合到生成式回答中,用户无需跳转网页
    优化对象 搜索引擎算法,侧重于关键词排名、外链数量、网页权重等因素 AI 答案引擎的内容理解和生成算法,更注重内容的权威性、准确性和结构化程度
    用户触达路径 用户搜索→查看搜索结果→点击链接→进入网页查看内容 用户搜索→AI 直接生成包含目标内容的回答→用户直接获取信息
    内容呈现形式 完整的网页,包含标题、正文、图片、导航等多种元素 碎片化、具有高价值的核心信息,如关键知识点、解决方案、产品核心优势等
    • GEO 的商业价值与趋势

    在 AI 搜索日益普及的当下,GEO 的商业价值愈发凸显,帮助品牌抢占 AI 答案引擎这一重要流量入口,当用户搜索相关内容时,优化后的品牌内容能优先展示,获取更多流量。同时,减少用户获取信息的成本,提升用户对品牌的好感度。从长期来看,持续输出优质的 GEO 内容,有助于品牌在 AI 答案引擎中树立权威形象,沉淀品牌认知度和信任度。随着 AI 技术的不断发展,GEO 在未来的商业活动中将发挥更为关键的作用。

    • 行业影响与挑战

    GEO 的兴起给各行业带来新的机遇和挑战。一方面,推动行业内容质量的整体提升,促使品牌提供更权威、准确的内容;对于中小品牌而言,更是提供凭借优质内容快速获得曝光的机会。另一方面,AI 答案引擎算法的不透明性,使优化工作需要不断尝试和探索;若众多品牌采用相似的 GEO 策略,容易导致内容同质化,难以形成差异化竞争优势。

    GEO 方法解析

    • 核心技术揭秘

    AI 答案引擎在工作时,首先通过爬虫技术抓取内容,倾向于抓取来源权威(如官方网站、行业知名平台)、格式清晰(如结构化文档、分点论述的内容)的信息。接着,用自然语言处理(NLP)技术分析内容,提取核心信息,判断准确性和相关性。依据 “优先级规则” 筛选内容,将满足权威性高、信息准确、贴合用户需求的内容整合到生成式回答中。用户在进行 GEO 优化时,应着重提升内容的可抓取性、可理解性和优质性。

    •  AI 答案的生成过程

    AI 答案的生成包含信息整合、逻辑组织和语言生成三个阶段。在信息整合阶段,AI 根据用户搜索关键词筛选相关信息,符合权威、准确、相关特点的内容会被优先选取。逻辑组织阶段,AI 按照用户需求逻辑对信息进行排序。语言生成阶段,AI 将组织好的信息转化为自然流畅的回答,简洁精准的内容更易被引用或改写。要使内容更好地融入 AI 答案,需在这三个阶段提高适配度。

    • 法律与道德考量

    在实施 GEO 策略时,必须严格遵守法律规定和道德准则。法律方面,要注重版权保护,不能抄袭盗用他人内容,引用时需注明出处;涉及品牌宣传和产品推广的内容,要符合《广告法》要求,不得使用绝对化用语和进行虚假宣传。道德层面,不能为了被 AI 选中而生成低质、重复的内容,干扰 AI 回答的准确性;内容要真实客观,尊重用户权益,特别是在医疗等特殊领域,要确保信息的专业性和安全性。

    GEO 内容创作

    • 权威性与 E-E-A-T

    E-E-A-T 是评估内容质量的重要框架,同样适用于 GEO。E(Experience)代表经验,创作者最好具备相关领域的实践经验;E(Expertise)表示专业度,内容应体现专业知识;A(Authoritativeness)指权威性,内容来源要可靠;T(Trustworthiness)是可信度,内容要有事实依据。提升内容 E-E-A-T 的方法包括添加创作者介绍、引用权威来源、加入真实案例等。

    •  内容结构与格式

    为让 AI 能轻松读懂内容,创作时要注意结构和格式。标题应清晰包含核心关键词,明确内容主题。采用分点论述的方式组织内容,避免大段文字堆砌。通过加粗、下划线等方式突出关键信息,且不要过度装饰。保持格式统一,减少 AI 理解内容的干扰因素。

    • 内容差异化策略

    在众多 GEO 内容中,实现差异化能提升竞争力。从角度差异化入手,选择小众但有价值的内容角度;尝试形式差异化,采用 AI 偏好的新型内容形式,如流程图、对比表等;或提供价值差异化,分享独家信息,如实践总结的技巧、内部数据统计的行业趋势等。

    GEO 问答

    按 “认知 – 方法 – 技术 – 应用 – 效果 – 挑战 – 趋势” 7 个维度,回应实践中常见问题。
    • 基础认知:“所有行业都需要做 GEO 吗?”“GEO 会取代传统 SEO 吗?”;
    • 方法论与实践:“如何判断内容被 AI 收录?”“内容更新频率如何设定?”;
    • 技术与工具:“新手适合哪些 GEO 工具?”“无技术基础能做 GEO 吗?”;
    • 效果与衡量:“GEO 效果用什么指标衡量?”“多久能看到效果?”;
    • 挑战与误区:“如何应对 AI 算法不透明?”“避免哪些内容优化误区?”;
    • 未来趋势:“GEO 技术会如何发展?”“行业应用方向有哪些?”。

    GEO 论文

    以核心论文《GEO:生成式引擎优化》为切入点,解读 GEO 的底层逻辑,例如:GEO 的本质是 “人机协同”(AI 需优质人类内容作为素材)、“语义相关性比关键词匹配更重要”(AI 更看重内容贴合用户需求而非关键词堆砌)、“品牌信息一致性助力长期权威”(多平台内容一致可提升 AI 对品牌的信任度),为深度研究者提供理论参考。

    白皮书关键内容提炼:必掌握的 10 个核心要点

    • GEO 的核心: “让内容进入 AI 回答”,而非 “让网页排到搜索结果前列”;
    • 与传统 SEO 的核心差异:优化对象从 “搜索引擎算法” 变为 “AI 内容理解 / 生成算法”,用户触达从 “跳转网页” 变为 “直接读 AI 回答”;
    • 商业价值核心:抢占 AI 搜索流量入口、降低用户决策成本、长期沉淀品牌权威;
    • AI 选内容的三大偏好:来源权威、结构清晰、信息优质;
    • E-E-A-T :内容权威度的核心标准,四要素缺一不可;
    • 内容结构化是 AI 适配的关键:分点、标题、突出重点,格式统一;
    • 差异化是 GEO 内容突围的关键:角度、形式、价值三方面找差异;
    • 效果衡量三指标:曝光量(被 AI 引用次数)、转化率(引导用户行为)、权威度(被引用 / 优先选择频率);
    • 新手实操门槛低:无需复杂技术,掌握 “权威 – 结构化 – 差异化” 原则即可入门;
    • 长期趋势:GEO 将与品牌营销深度融合,技术会更适配垂直行业、服务更轻量化。

    白皮书的地址

    • 地址:https://yaojingang.feishu.cn/docx/Jv85dXAeZoKJ7exJi4Yc4Edrnhf

    白皮书的适用人群

    • 企业决策者与管理者:需要了解 GEO 行业发展现状、核心技术,以便为企业制定战略决策,在复杂的 AI 生态中精准定位,实现可持续增长。
    • 市场营销人员:掌握 GEO 优化实战方法,可优化内容表达方式,让 AI 主动推荐企业内容,在微信、抖音、知乎等 AI 对话场景中精准触达用户,提升品牌影响力与营销效果。
    • 中小企业从业者:中小企业预算有限、技术资源匮乏,白皮书提供的轻量化 GEO 服务相关信息,能帮助用户用较低成本快速验证 GEO 效果,探索适合自身的发展路径。
    • 行业研究人员:借助白皮书对 GEO 行业的深度剖析,了解行业动态、技术发展趋势以及市场参与者的情况,为研究提供参考依据。
  • 编码面试解题助手 – 开源的AI编程辅助工具

    编码面试解题助手

    编码面试解题助手是面向中文用户的编程辅助工具,能通过快捷键抓取屏幕上的编程题目,实时借助AI生成解题思路和代码。在面试或笔试时,工具窗口能半透明置顶,不会导致原页面失焦,支持在屏幕分享时隐身,避免被发现。编码面试解题助手支持多种编程语言,如Python、JavaScript、Java、C++等,简单易用,只需配置API就能使用。

    编码面试解题助手

    编码面试解题助手的主要功能

    • 屏幕内容抓取:通过快捷键快速抓取屏幕上的编程题目内容。
    • 实时解题辅助:将抓取到的题目内容发送给AI模型,实时生成解题思路和代码。
    • 隐身功能:在面试或笔试时,窗口可半透明置顶,不会导致原页面失焦,且在屏幕分享时不会被发现。
    • 多语言支持:支持多种编程语言,包括Python、JavaScript、Java、C++等。
    • 自定义配置:用户能自定义提示词,适应不同场景(如英语机试等)。

    编码面试解题助手的技术原理

    • 屏幕内容抓取:用快捷键触发屏幕截图功能,捕获当前屏幕上的题目内容。
    • AI模型交互:将截图内容发送给配置好的AI模型(如OpenAI或其他支持OpenAI API的代理服务商),AI模型对内容进行分析并生成解题思路和代码。
    • 窗口管理:基于特定技术实现窗口的半透明、置顶及在屏幕分享时的隐身效果,确保工具在使用过程中不被发现。

    编码面试解题助手的项目地址

    • GitHub仓库:https://github.com/ooboqoo/interview-coder-cn

    编码面试解题助手的应用场景

    • 编程面试:在面试中,能为候选人提供隐蔽的解题支持,助力展现最佳水平。
    • 编程笔试:适用在线和线下笔试,帮助考生在不违规的情况下快速获取解题思路,提升答题效率。
    • 自我学习与练习:作为学习辅助工具,加速算法学习和项目开发,为开发者提供即时的代码参考和思路启发。
    • 其他编程场景:通过自定义提示词,应用在英语机试、技术竞赛等更多场景,拓展使用范围。
  • Prompt Tools – 开源AI提示词管理工具,支持跨平台运行

    Prompt Tools是什么

    Prompt Tools 是开源的桌面应用程序,能帮助用户高效管理 AI 提示词(Prompt)。工具支持跨平台运行(Windows、macOS、Linux),提供快速、安全的体验。用户能像管理笔记一样轻松创建、编辑、搜索和组织 Prompt,所有数据存储在本地,确保隐私安全。Prompt Tools是一个工具,更是一种高效的工作方式,能将零散的 Prompt 汇集成强大的知识库,提升 AI 使用效率。

    Prompt Tools

    Prompt Tools的主要功能

    • Prompt管理:用户能像管理笔记一样轻松创建、编辑、搜索和组织所有的Prompt,方便对积累的优质Prompt进行系统性整理和优化。
    • 跨平台运行:支持Windows、macOS和Linux等多种操作系统,用户能在不同设备上获得原生般流畅的体验,不受设备限制。
    • 轻量与高效:基于Rust和Web前沿技术构建,启动速度快,占用系统资源少,运行流畅。
    • 本地优先,安全私密:所有数据都存储在本地计算机上,无需上传至云端,确保用户数据的安全性和隐私性。

    Prompt Tools的技术原理

    • 技术栈:Prompt Tools基于多种先进的技术构建。前端用Web技术,后端基于Rust语言,利用其高性能和内存安全的特点。工具借助Tauri框架,Tauri是用在构建桌面应用程序的框架,能将Web应用打包成桌面应用,实现跨平台运行,并提供原生应用的体验。
    • 开发与构建:用户通过克隆项目仓库,安装相关依赖,在本地运行或构建应用。开发过程中,用pnpm作为包管理工具,及Rust的Cargo工具链等。项目代码全部开源,方便用户查看和参与贡献。
    • 数据存储:用本地优先的存储方式,将用户的数据存储在本地计算机上,不依赖外部服务器或云服务,确保数据的安全性和隐私性,同时减少网络延迟对应用性能的影响。

    Prompt Tools的项目地址

    • GitHub仓库:https://github.com/jwangkun/Prompt-Tools

    Prompt Tools的应用场景

    • 文案创作:文案策划人员整理各类文案 Prompt,快速生成广告、宣传等文案,提升创作效率。
    • 编程开发:程序员收集常用代码片段 Prompt,快速查找复用,提高编程速度和质量。
    • 学术研究:研究人员管理文献阅读、实验设计等 Prompt,方便梳理思路、记录灵感,助力科研工作。
    • 教学辅助:教师整理教学 Prompt,如课堂提问、作业布置模板等,提升教学设计和课堂互动效果。
    • 企业培训:企业培训师收集培训课程 Prompt,快速准备培训内容,提高培训效率和质量。
  • 夸克文档 – AI全能写作助手,提供丰富写作模版

    夸克文档是什么

    夸克文档是AI驱动的全能写作助手,提供丰富多样的写作模板,涵盖作文、论文、文案、工作总结、PPT模板、求职简历等,满足学生、职场人士等不同用户在各种场景下的写作需求。夸克文档包含实用文档模板、备考资料、手抄报、开题答辩助手等,助力高效创作。平台界面简洁,操作便捷,基于AI技术为用户提供智能写作建议,提升写作效率,是学习和工作中不可或缺的实用工具。

    doc.quark

    夸克文档的主要功能

    • 写作助手:提供多种写作支持,如作文、议论文、论文、文案、工作总结、心得体会、小说、发言稿等,覆盖从学生到职场人士的多种写作需求。
    • 文档模板:提供实用文档模板,如房屋租赁合同、入党申请书、工作证明、离职证明等,方便用户快速创建标准文档。
    • PPT模板:涵盖教育教学、人事工作、党政民生、职场办公、节日热点、营销策划等多个领域的PPT模板,帮助用户制作专业演示文稿。
    • 求职简历:提供多种简历模板,包括单列式、表格式、简约风等,适合不同求职场景和个人风格。
    • 表格大全:提供考勤表、离职申请单、发票模板、工资表、课程表等常用表格模板,方便用户进行日常管理和记录。
    • 备考资料:提供高考备考资料、四六级英语真题、考研真题与备考资料、公考真题试卷等,助力学生和考生备考。
    • 手抄报:提供节日纪念日、节气、安全教育、爱国教育、环保公益等主题的手抄报模板,适合学生制作手抄报。
    • 开题答辩助手:提供开题报告、论文答辩的PPT模板,帮助学生和研究人员准备学术报告。
    • 大学生比赛竞赛:提供职业生涯规划书、创新创业计划书等PPT模板,助力大学生参加各类比赛。
    • 党政党建资料:提供入党申请书、两会心得、党史读书笔记、党政PPT等资料,满足党政工作人员和党员的学习和工作需求。

    如何使用夸克文档

    • 访问平台:访问夸克文档官网 https://doc.quark.cn/。
    • 注册/登录:完成账号注册和登录。
    • 使用模板:在模板库中选择需要的模板。点击模板预览,查看模板内容。选择“使用模板”或“在线编辑”开始编辑。
    • 自由写作在主界面,看到不同的写作类型选项,如“通用”、“作文”、“议论文大师”、“论文”等。根据写作需求,点击相应的选项。输入写作主题或内容描述。根据写作需求,选择字数限制。
    • 开始写作点击“下一步”或类似的按钮,进入写作界面。
    • 编辑和格式化用平台提供的编辑工具,如字体、段落、样式等,进行格式调整。
    • 保存和同步编辑完成后,保存文档。文档自动同步到云端,方便在其他设备上访问。
    • 导出和分享将文档导出为不同的格式,如PDF、Word等,或将文档分享给他人

    夸克文档的应用场景

    • 教育和学习:夸克文档帮助学生和教师撰写论文、教案和准备考试资料,提高教学和学习效率。
    • 商务和办公:职场人士撰写报告、计划书和会议记录,提升工作效率和文档质量。
    • 个人发展:个人用户创建简历、自我评估和生活规划,促进个人成长和职业发展。
    • 创意写作:作家和博主撰写小说、文章和博客内容,激发创意和表达思想。
    • 法律和合同:法律专业人士起草合同和法律文件,确保文档的准确性和专业性。
  • flolife.me – Flowith团队推出的AI人生模拟器

    flolife.me是什么

    flolife.me 是 Flowith 团队推出的 AI 人生模拟器。玩家创建角色时,需输入名字、性别、出生地等基本信息,分配智力、外貌、家庭背景和健康四项属性,可添加人格描述或兴趣爱好。角色创建后,AI 会接手生成整个人生,包括事件、分支、插图,最终形成一条完整的时间线。模拟器基于多模态画布和 Nano Banana 图像模型,利用先进的 Multi-Agent 技术,带来丰富且具有随机性的游戏化体验。玩家可从生成的人生中挑选四个高光瞬间,制作成海报分享。flolife.me 的体验过程像翻阅一本互动漫画,荒诞、现实和奇迹混杂在一起,让玩家在几分钟内体验不同的人生,暂时跳脱出现实的焦虑。

    flolife.me

    flolife.me的主要功能

    • 角色创建:玩家可以自定义角色的名字、性别、出生地等基本信息,能分配智力、外貌、家庭背景和健康四项属性,甚至添加人格描述或兴趣爱好来丰富角色设定。
    • AI生成人生:角色创建后,AI会接手生成整个人生,包括事件、分支、插图,最终形成一条完整的时间线,为玩家呈现不同的人生走向和故事。
    • 高光瞬间分享:玩家可从生成的人生中挑选四个高光瞬间,制作成海报分享到讨论区,与他人交流有趣的案例。

    flolife.me的官网地址

    • 访问平台:访问 flolife.me 官网 https://flolife.me/ 。
    • 创建角色:输入角色的名字、性别、出生地等基本信息,并分配智力、外貌、家庭背景和健康四项属性,还可以添加人格描述或兴趣爱好。
    • AI 生成人生:完成角色创建后,AI 会根据这些信息生成整个人生,包括事件、分支和插图,形成一条完整的时间线。
    • 体验人生:浏览 AI 生成的人生故事,了解角色在不同阶段的经历和关键节点。
    • 分享高光瞬间:从生成的人生中挑选四个高光瞬间,制作成海报分享到讨论区,与其他用户交流有趣的案例。

    flolife.me的应用场景

    • 个人娱乐:用户可以通过创建不同角色,体验多种人生路径,满足好奇心和探索欲,获得娱乐和放松。
    • 社交互动:用户可以将生成的人生故事和高光瞬间制作成海报分享到讨论区,与其他用户交流有趣的案例,增加社交乐趣。
    • 创意启发:为创作者提供灵感,帮助他们构思不同的人物背景和故事发展,用于写作、绘画或其他创意项目。
    • 教育体验:用于教育领域,帮助学生更好地理解人生选择的多样性和不同决策可能带来的后果,培养他们的思考和决策能力。
  • 谷歌推出Nano Banana官方使用指南,6条提示词模板

    prompting-nano-banana

    认识一下Nano Banana(又名Gemini 2.5 Flash Image):这是我们最新、最快速且最高效的模型。其原生多模态架构可同步处理文本和图像,解锁对话式编辑、多图像组合与逻辑推理等强大功能。

    您可以通过官方文档中的代码尝试这些功能,或立即登录Google AI Studio(ai.studio/banana)开始创作。

    您可以通过以下核心功能实现创作:

    • 文本生成图像:根据简单或复杂的文字描述生成高质量图像。
    • 图像+文本编辑:上传图像并结合文本指令添加、移除或修改元素、改变风格或调整色彩。
    • 多图融合与风格迁移:通过多张输入图像组合新场景或将某种风格迁移至其他图像。
    • 迭代优化:通过多轮对话逐步调整图像细节,直至完美呈现。
    • 文字渲染:生成包含清晰精准文字的图像,特别适用于标志、图表和海报设计。

    推荐阅读:全网最全Nano Banana 玩法教程大全,附4个免费使用方法

    本指南将教您如何编写提示,并提供一些说明,帮助您从 Gemini 2.5 Flash 中获得最佳效果。一切都遵循一个基本原则:

    描述场景,不要仅仅列出关键词。模型的核心优势在于其深厚的语言理解能力。与一连串不相关的字词相比,叙述性描述段落几乎总是能生成更好、更连贯的图片。

    从文本创建图像

    生成图像的最常见方式是描述您想要看到的内容。

    1.逼真的场景

    对于逼真的图片,请使用摄影术语。提及拍摄角度、镜头类型、光线和细节,引导模型生成逼真的效果。

    模板:以[环境]为背景的[主题]、[动作或表情]的逼真[镜头类型]。场景由[灯光描述]照亮,营造[情绪]氛围。使用[相机/镜头细节]拍摄,突出[关键纹理和细节]。图像应采用[宽高比]格式。

    示例提示:一张写实的特写肖像,描绘了一位年长的日本陶艺家,他脸上挂着温暖而睿智的微笑,脸上布满了深深的皱纹。他正仔细地端详着一只刚刚上釉的茶碗。背景是他那充满乡村气息、阳光普照的工作室。柔和的金色阳光透过窗户洒进画面,照亮了画面,凸显了陶土的细腻质感。这张照片使用85毫米人像镜头拍摄,背景虚化效果柔和,显得格外模糊。整体氛围宁静而精湛。竖向人像拍摄。

    一位年长的日本陶艺家的照片级写实特写肖像…

    2. 风格化插画和贴纸

    如需创建贴纸、图标或素材资源,请明确说明样式并要求使用透明背景。

    模板:一个 [主题] 的 [风格] 贴纸,包含 [主要特征] 和 [配色方案]。设计应包含 [线条样式] 和 [阴影样式]。背景必须为白色。

    示例提示:一张卡哇伊风格的贴纸,画着一只戴着小竹帽的快乐小熊猫。它正在咀嚼一片翠绿的竹叶。该设计采用大胆清晰的轮廓、简单的卡通渲染和鲜艳的配色。背景必须为白色。

    一张可爱风格的贴纸,上面是一只快乐的小熊猫…

    3.图片中的文字准确无误

    Gemini 在渲染文本方面表现出色。清楚说明文字、字体样式(描述性)和整体设计。

    模板:为[品牌/概念]创建[图片类型],并在[字体样式]中添加[待渲染文本]文本。设计应为[样式描述],并搭配[配色方案]。

    提示:为一家名为“The Daily Grind”的咖啡店设计一个现代简约的标志。文字应采用简洁、粗体的无衬线字体。设计应以简洁、风格化的咖啡豆图标为特色,并与文字无缝衔接。配色方案为黑白。

    为一家名为“The Daily Grind”的咖啡店设计一个现代简约的徽标…

    4.产品模型和商业摄影

    为电子商务、广告或品牌宣传制作清晰专业的商品照片。

    模板:一张高分辨率、工作室灯光下的产品照片,照片中[产品描述]位于[背景表面/描述]之上。灯光采用[照明设置,例如三点柔光箱设置],以达到[照明目的]。拍摄角度采用[角度类型],以展现[特定功能]。超逼真,清晰对焦[关键细节]。[宽高比]。

    示例提示:一张高分辨率、工作室灯光下的产品照片,展现了一个极简主义的哑光黑色陶瓷咖啡杯,放置在抛光混凝土表面上。灯光采用三点式柔光箱设置,旨在营造柔和的漫射高光,并消除刺眼的阴影。相机角度略微抬高了45度,以突出其简洁的线条。画面极其逼真,清晰地聚焦于咖啡升腾的蒸汽。方形图像。

    一张极简陶瓷咖啡杯的高分辨率产品照片,采用工作室灯光…

    5.极简风格和负空间设计

    非常适合用于创建网站、演示或营销材料的背景,以便在其中叠加文字。

    模板:极简主义构图,单一[主体]位于画面[右下/左上/等等]。背景是一块巨大的空白[彩色]画布,营造出显著的负空间。柔和细腻的灯光。[宽高比]。
    示例提示:一幅极简主义的构图,画面右下角是一片精致的红色枫叶。背景是一块巨大的空白灰白色画布,为文字营造出明显的负空间。柔和的漫射光从左上角照射进来。方形图像。
    一幅极简主义构图,画面中只有一片精致的红枫叶…

    6.连续艺术(漫画分格 / 故事板)

    以角色一致性和场景描述为基础,为视觉故事讲述创建分格。

    模板:采用[艺术风格]风格的单幅漫画画板。前景为[人物描述和动作]。背景为[场景详情]。画板内有一个[对话/标题框],其中包含[文本]文字。灯光营造出[氛围]氛围。[宽高比]。
    示例提示:一幅漫画书,采用粗粝的黑色艺术风格,以高对比度的黑白墨水绘制。前景中,一位身穿风衣的侦探站在闪烁的路灯下,雨水浸湿了他的肩膀。背景中,一家荒凉酒吧的霓虹灯招牌映照在水坑中。顶部的标题框写着“这座城市曾是一个难以保守秘密的地方”。光线刺眼,营造出一种戏剧性而忧郁的氛围。风景。
    采用粗犷的黑色电影艺术风格的单幅漫画书画面…
  • 全网最全Nano Banana 玩法教程大全,附4个免费使用方法

    谷歌最新发布的AI图像生成模型 Google Gemini 2.5 Flash Image (Nano Banana),靠一致性和飞快的生图速度,在各大平台持续霸屏。

    我也每天都收到群友催更:K姐快介绍 Nano Banana 玩法啊,这个太牛了。

    这篇我们就一起来聊一聊 Nano Banana。内容主要包含3个部分:Nano Banana 核心团队的技术解读、Nano Banana 的种玩法,以及可以免费用 Nano Banana 的5种方法。

    欢迎大家评论区补充、交流~

     

    01. Nano Banana 技术揭秘

     

    在最近《Release Notes》的访谈里,邀请到了 Nano Banana 的4位核心团队成员,帮助我们更好地了解 Nano Banana 关键功能背后的技术:

    原生图像生成

    Nano Banana 的核心突破是原生图像生成,能在生成过程中不断参考上下文,一步步完成复杂任务。

    和传统的文生图工具不同的是, Imagen 更像是单点高手,而 Nano Banana 是全能型选手,可以跨模态、支持复杂交互。

    这也将是团队的发展方向:未来模型不仅要画得漂亮,还要有更强的理解和推理能力。

    角色与场景的一致性

    一致性是 Nano Banana 的另一个亮点。过去的模型在编辑图像时常翻车,比如我只是想换个窗帘,结果床和沙发也跟着变了,又或是给人物图像换个角度,就换了张脸。

    这次团队现场演示了一个案例,用主持人的脸部特写,生成一张他穿着巨大香蕉服的全身图像。

    prompt:zoom out and show him wearing a giant banana costume.keep his face visble.

    提示词:拉远镜头,展示他穿着巨大的香蕉服装,确保脸部可见。

    Nano Banana 一致性保持得非常好,脸依旧是那张脸,但场景、服装都完全换掉了,画面还非常自然,整个生成过程也就十多秒。

    另一个细节是,Gemini 团队和 Imagen 团队的合作,让图像更自然。以前的结果有时像“贴上去”的,现在已经能做到整体连贯。

    文本渲染

    很多人可能觉得“在图里写几个字”没什么大不了,但 Nano Banana 把文本渲染当做长期的核心指标。他们认为:文字是结构化的内容,如果模型能够学会如何处理文本,也能掌握图像中的纹理等更复杂的结构。

    目前 Nano Banana 对一些简单的文字渲染效果很好,但是也存在一些不足。

    prompt:now write”Gemini nano”on the image.

    提示词:在图片上写“Gemini nano”

    几年前几乎没有模型能把文字处理好,哪怕是很短的提示词都经常崩。于是 Nano Banana 团队决定长期跟踪这个指标,无论做什么实验,只要持续观测,就能避免性能退步。他们发现,很多看似无关的改动,也会在文本渲染上产生提升。

    团队其实是从“找模型的短板”开始,慢慢摸索出一条能推动整体质量进步的路径。

    理解力与创造性

    Nano Banana 具备世界知识,能够理解模糊的指令,还能发挥一些创造力。

    团队在访谈中提到一个很有意思的概念——报告偏差(reporting biases)。比如,当你去朋友家做客,回来后和别人聊天,几乎不会提到他们家里那张普通的沙发。但如果给别人看照片,画面是有沙发的。

    所以,我们想真正了解世界,通过文本可能需要更多描述,而视觉信号就像是理解世界的捷径,可以直接把环境、物体、关系展现出来,不需要额外解释。

    理解和生成就是这样相辅相成的。模型在读懂图像和语言的过程中,积累了更扎实的世界知识,也因此能在创作时更稳定、更自然。有时候甚至能生成超出用户预期的内容

     

    02. Nano Banana玩法大全

     

    从热门玩法、单图、多图以及生成视频的多种玩法。欢迎补充~

    热门玩法

    1.将任意图片变成手办

    prompt:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on.

    将这张照片转化为一个角色形象。在其背后放置一个盒子,盒子上印有该角色的图像,盒子上方的电脑屏幕上显示Blender建模过程。在盒子前方添加一个圆形塑料底座,角色形象站立其上。

    2.根据地图画出真实场景

    prompt:draw what the red arrow sees.

    提示词:画出红箭头所看到的东西。

    Draw a DEM with contour lines.

    draw the real world view from the red circle in the direction of the arrow.

    绘制带有等高线的数字高程模型

    从红圈处沿箭头方向绘制真实世界视图。

    以上案例来自X博主 @Simon

    3.卡通变现实

    prompt:Depict as a live big budget costume test on set, shot on film.

    Variant Prompt: For easier additional editing.Depict as a live big budget costume test on set, shot on film against green screen.

    描绘成在片场进行的大预算服装试穿,使用胶片拍摄。

    变体提示:为了更轻松地进行额外编辑,描绘成现场的大预算服装测试,在片场拍摄,使用胶片对绿幕拍摄。

    以上案例来自 X 博主@Brent Lynch

    4.360度产品展示

    prompt:This exact car in this exact environment.

    Change Perspective: Perfect side angle view.

    这辆汽车及其确切环境。

    改变视角:完美的侧面角度视图

    生成不同视角的图片后,用可灵2.1通过首尾帧生成视频。

    以上案例来自 X 博主@Rory Flynn

    5.修复老照片

    prompt:Restore and colorize the picture without altering, removing, or adding any detail or element.

    提示词:恢复图片着色,但不要改变、删除或添加任何细节或元素。

    以上案例来自X博主 @Rodrigo Bressane

    6.等距3D视图

    将设计图纸变为3D视图。

    以上案例来自X博主 @levelsio

    从2D图纸到3D模型,看起来挺惊艳的。不过目前反馈生成的图像还不够精准,比如会比较模糊、窗户的位置会不准确。

    7.切换视角

    prompt:aerial perspective of a camera behind the blurry ceiling fan looking down at the girl sitting in an hospital waiting room.

    一个模糊吊扇后面的相机从上方俯视坐在医院候诊室的女孩的空中透视。

    单图编辑

    1.改文字

    提示词:把图片中的文字改为:你为什么不问问神gemini呢

    2.改服饰

    提示词:把人物的衣服改为羽绒服。

    3.参考人物生成场景

    提示词:让图中人物与海绵宝宝共进晚餐。

    4.消除

    提示词:移除图片左边的人物。

    5.更改元素

    提示词:把图片背景中Twitter的旧logo换成现在的X形状logo。

    6.模糊指令理解

    提示词:让图片中的人物看起来像印第安人。

    7.换背景

    第一步用绿幕替换背景,后续更换背景效果会更好。

    prompt:Replace the background with a solid color green screen

    提示词:用纯色绿色屏幕替换背景

    prompt:replace the background with the attached image.  Make sure [subject] is lit to match the image;

    replace the background with [describe your scene].  Make sure [subject] is lit to match the scene.

    提示词:用附加的图片替换背景。确保[主体]的照明与图片匹配。

    用[描述你的场景]替换背景。确保[主体]的照明与场景匹配。

    8.用 Nano Banana 做室内设计

    原图:

    Nano Banana “装修”后:

    9.真实场景变成游戏素材

    prompt:Concisely name the key entity in this image (e.g. person, object, building). Create 3d pixel art of the isolated key entity in isometric perspective, 8-bit sprite on a white background. No drop shadow.

    提示词:简洁地命名图片中的关键实体(比如,人物、物体、建筑。)以等视角创建独立的3D像素元素,8-bit透明图,没有阴影效果。

    10.将城市建筑变成3D

    【】中的内容根据实际城市修改即可。

    prompt:Turn this photograph of a 【Parisian building】 into a isometric tile, in the style of the five other 3D.

    提示词:将这张图片中的巴黎建筑转化为3D等距模型。

    以上案例来自 X 博主@Emm | scenario.com

    多图修改

    1.姿态参考

    Prompt: take the anime man and woman in the first image and put them in the poses of the stick man in blue and stick woman in red. erase the stick figures.
    提示词:将第一张图中的动漫男性和女性放置成蓝色小人男和红色小人女的姿势,并擦除小人。

    以上案例来自 X 博主@Justine Moore

    prompt:Model pose like the sketch.

    提示词:模特姿势变得像草图一样。

    2.图像位置参考

    直接在图中标记位置,Nano Banana 就可以生成准确的图像。

    3.漫画
    准备角色参考的图片,三视图缺一不可。 

    标记分区

    在图中加入提示词,生成漫画:

    以上案例来自 X 博主@けいすけ / AIマンガ&開発

    4.元素融合
    使用 Nano Banana 将 13 张图像合并成一张图像。

    prompt:A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it’s attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones.

    提示词:一个模特靠着粉色的宝马,浅灰色背景,她穿戴着以下物品:绿色外星人是钥匙扣,挂在粉色的手提包上,模特肩上还站着一只粉色的鹦鹉。旁边有一只贵宾犬,它带着粉色的项圈和金色的耳机。

    此案例来自X博主 @Travis Davids

    系列IP/动漫角色

    比如,我们有这样一张角色图像。

    prompt:First, please set up the basic color palette and the shadows and saturation.

    提示词:首先,请设置基本色板和阴影与饱和度。

    prompt:Next, please do the character model sheet.

    接下来,请制作角色模型表。

    prompt:Next, please provide the [basic action set].

    接下来,请提供基本动作集。

    prompt:Please give me the costume design set.

    提示词:请给我服装设计套装。

    prompt:Please make an expression sheet.

    提示词:请制作表情表。

    将图像转为线稿,再使用品牌色上色

    步骤:

    – Prepare the original image

    – Convert to line art

    – Color the line art with a color palette

    – Change the character to brand colors

    – 准备原始图像

    – 转换为线稿

    – 使用调色板为线稿上色

    – 将角色改为品牌色

    视频(分镜)创作

    1.第一人称骑马漫步二十世纪。

    先用 Nano Banana 生成各种场景:

    prompt:dashcam google street view shot | Hobbiton streets | hobbits carrying out daily tasks like gardening and smoking pipes | sunny day.

    提示词:行车记录仪谷歌街景拍摄丨霍比特镇街道丨霍比特人进行日常任务,比如园艺和抽烟丨晴天

    prompt:dashcam google street view shot | Seat of Seeing on Amon Hen | Ruined pavilion atop the hill, a hobbit-like figure from behind climbing the steps, the winding path down visible overlooking the river and lands beyond | panoramic view under emerging stars at dusk.

    提示词:行车记录仪谷歌街景拍摄丨阿蒙·亨的观视之座山顶残破的亭阁,一个霍比特人般的身影从后面攀爬台阶,可见蜿蜒下行的路径,俯瞰着河流及远处的土地,傍晚时分,星光初现下的全景视角。

    用提示词创建骑马的第一人称视角图片:

    prompt:dashcam google street view shot

    提示词:第一人称视角在草地上骑马。十二世纪

    用可灵2.1的首尾帧动画来生成视频片段。

    prompt:”scene_description”: “The rider gallops out from the ruins of the ivy-covered statues, leaving the storm-lit plains behind. The path winds through rugged terrain as the pace remains fast. Ahead, a towering dark castle glows with eerie green light atop jagged cliffs, its spires piercing the stormy sky. Cloaked figures march steadily toward the fortress across a massive stone bridge.”,  “visual_style”: “dark epic fantasy, cinematic, continuous POV”,  “camera_movement”: “smooth forward gallop, first-person view without cuts, transitioning naturally from the ruined statues across the plains to the castle bridge”,  “main_subject”: “the white horse’s head and rider’s gloved hands, centered as they race toward the looming fortress”,  “background_setting”: “storm-darkened mountains and cliffs, a vast stone bridge spanning a deep chasm, leading to the glowing green-lit castle”,  “lighting_mood”: “ominous twilight with green highlights from the fortress and flashes of distant lightning”

    prompt:”scene_description”: “The rider gallops out from the ruins of the ivy-covered statues, leaving the storm-lit plains behind. The path winds through rugged terrain as the pace remains fast. Ahead, a towering dark castle glows with eerie green light atop jagged cliffs, its spires piercing the stormy sky. Cloaked figures march steadily toward the fortress across a massive stone bridge.”,  “visual_style”: “dark epic fantasy, cinematic, continuous POV”,  “camera_movement”: “smooth forward gallop, first-person view without cuts, transitioning naturally from the ruined statues across the plains to the castle bridge”,  “main_subject”: “the white horse’s head and rider’s gloved hands, centered as they race toward the looming fortress”,  “background_setting”: “storm-darkened mountains and cliffs, a vast stone bridge spanning a deep chasm, leading to the glowing green-lit castle”,  “lighting_mood”: “ominous twilight with green highlights from the fortress and flashes of distant lightning

    将这些视频剪辑到一起,就生成了这条长穿越效果的视频。

    此案例来自X博主 @TechHalla

    2.涂鸦-3D图像-视频

    此案例来自X博主 @Alex Patrascu

    3.让名画中的人物在现实世界中相遇

    此案例来自X博主 @Alex Patrascu

    4.AI动漫

    此案例来自X博主 @Framer

     

    03. 怎么使用Nano Banana

     

    谷歌Gemini(需要Pro会员)

    Gemini 官网首页,选择 Gemini 2.5 Pro 模型,在对话框中选择 Tool 中的 Create images。

    此时默认使用的就是 Nano Banana 模型。

    上传图片,输入提示词,即可使用。

    谷歌 AI Studio(免费)

    打开Geogle AI Studio 网站,点击右上角的设置。

    在设置中选择Nano Banana。

    上传图片,并输入提示词,就可以啦。

    LMArena(免费)

    LMArena 首页上方选择 Direct Chat 模式。

    继续选择 gemini-2.5-flash-image-preview(nano-banana)模型,就可以直接使用啦。

    Lovart(限时免费)

    点击 Lovart 首页的 Nano Banana 模型入口。

    就可以直接使用 Nano Banana 模型啦,不过免费有期限,9月2日截止。

    Freepik

    首页轮播图有 Google Nano Banana 入口,直接点击进入。

    官网:Freepik

    选择 Nano Banana 模型,即可免费使用,每天可以免费生成10张图片。

     

    04. 一些分享

     

    以往做一套高质量、细节统一的图,得有专业技能,还要花大量的时间。

    现在用 Nano Banana,只用一句简短的指令,你说的,它十几秒都能联想并复现出来。

    受冲击最大的,是内容行业。现在真正敢用 AI 来做广告创意的公司还不多,但这之后,可能就大不一样了。

    品牌一句 prompt,几小时内就能生成几十版广告创意。

    动漫、短剧也是一样,过去得靠整个团队几个月才能磨完的细节,以后可能一个人就能边改边出片。

    未来可能会“按需生成”的剧情——观众一刷弹幕,模型立刻接着往下编。

    内容创作都会进入一种全新的生产方式。

    原文链接:Nano Banana全网最全玩法大全(附4个免费白嫖方法)

  • USO – 字节跳动推出的内容与风格解耦与重组统一框架

    USO是什么

    USO(Unified Style-Subject Optimized)是字节跳动 UXO 团队推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合,生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。USO 通过构建大规模三元组数据集,采用解耦学习方案同时对齐风格特征并分离内容与风格,引入风格奖励学习(SRL)来进一步提升模型性能。USO 发布了 USO-Bench 基准测试,用于综合评估风格相似性和主体保真度。实验表明,USO 在主体一致性和风格相似性两个维度上均达到了开源模型的顶尖水平。

    USO

    USO的主要功能

    • 风格与主体融合:能将任意主题与任意风格自由组合,生成既保留主体特征又符合指定风格的图像,解决了风格与主体难以融合的问题。
    • 高保真度生成:在生成图像时,能保持高度的主体一致性和风格保真度,确保生成的图像自然且具有高质量。
    • 多场景应用:适用于多种场景,可广泛应用于艺术创作、广告设计、游戏开发等领域。
    • 开源支持:项目全面开源,包括训练代码、推理脚本、模型权重和数据集,为研究者和开发者提供了丰富的资源。
    • 性能领先:在主体一致性和风格相似性两个维度上均达到了开源模型的顶尖水平,通过大规模三元组数据集和解耦学习方案实现性能提升。
    • 基准测试:发布了 USO-Bench 基准测试,用于综合评估风格相似性和主体保真度,为后续模型提供统一的比拼标准。

    USO的技术原理

    • 大规模三元组数据集构建:创建了包含内容图像、风格图像和对应风格化图像的三元组数据集,为模型训练提供了丰富的数据基础。
    • 解耦学习方案:通过风格对齐训练和内容 – 风格解耦训练两个阶段,同时对齐风格特征并分离内容与风格,避免特征串扰,实现精准融合。
    • 风格奖励学习(SRL):引入奖励信号优化生成质量,平衡风格相似性与主体一致性,进一步提升模型性能。
    • 统一框架:将风格驱动和主体驱动两类任务合并到单一模型框架中,解决了传统方法中两者对立的问题,实现了风格与主体的协同优化。
    • 两阶段训练流程:第一阶段通过风格对齐训练使模型具备风格复现能力;第二阶段通过内容 – 风格解耦训练实现联合条件生成,最终通过风格奖励学习监督整个训练过程。

    USO的核心价值

    • 提出了创新的协同解耦范式:打破了风格和主体生成任务各自为战的局面,证明了通过跨任务的联合学习可以实现更彻底的内容-风格解耦,并相互促进。
    • 构建了强大的统一生成模型:USO是首个在单一框架内同时实现SOTA级别主体一致性和风格相似性的模型,其效果和通用性都令人印象深刻。
    • 引入了奖励学习增强:将奖励学习范式成功应用于风格生成,为进一步提升生成模型的精细控制力和美学质量提供了有效途径。
    • 发布了首个联合评估基准:USO-Bench填补了该领域在综合评估上的空白,为后续研究提供了公平、全面的比较平台。

    USO的项目地址

    • 项目官网:https://bytedance.github.io/USO/
    • Github仓库:https://github.com/bytedance/USO
    • arXiv技术论文:https://arxiv.org/pdf/2508.18966

    USO的模型效果

    • 风格迁移精准:能将不同风格精准地迁移到新的内容上,生成的图像在保留原始风格的笔触和色彩的同时,不会使主体变形,风格相似度高。
    • 主体特征保留:在风格变化时,能锁定主体特征,适配多种风格,保持人物或物体的原样,主体一致性好。
    • 联合生成能力强:可以同时满足风格和主体的双需求,一步生成既符合指定风格又完整保留主体布局的图像,实现风格与主体的完美融合。
    • 生成质量高:在主体驱动生成、风格驱动生成以及联合风格 – 主体驱动生成任务上均取得了 SOTA(State-of-the-Art)效果,生成的图像自然、逼真,具有高质量。
    • 适应性强:模型对不同的主体和风格具有很强的适应性,能够处理多种类型的内容,如人物、动物、场景等,以及多种风格,如油画、水墨、漫画等。
    • 定量比较:在USO-Bench上,无论是在主体驱动任务还是风格驱动任务中,USO的各项指标(如CLIP-I, DINO, CSD)均显著优于现有的所有开源SOTA模型。在更具挑战性的风格-主体联合驱动任务上,USO同样大幅领先,证明了其强大的统一生成能力。

    USO的应用场景

    • 艺术创作:艺术家可以用USO将不同的艺术风格应用到同一主体上,快速生成多种风格的草图或成品,激发创作灵感,提高创作效率。
    • 广告设计:广告设计师可以借助USO根据不同的广告主题和目标受众,快速生成具有特定风格和主体特征的广告图像,提升广告的吸引力和针对性
    • 游戏开发:游戏开发者可以用USO为游戏角色和场景生成不同风格的图像,丰富游戏的视觉效果,增强游戏的沉浸感。例如,将游戏角色的外观风格从写实风格转换为卡通风格。
    • 影视制作:在影视特效制作中,USO可以用于快速生成具有特定风格的场景或角色形象,辅助特效师进行创意构思和效果预览。比如,为一部科幻电影生成具有未来感风格的角色形象。
    • 教育领域:在艺术教育和设计教育中,USO可以作为教学工具,帮助学生更好地理解和掌握不同艺术风格的特点,以及如何将这些风格应用到实际创作中。例如,教师可以用USO展示同一幅作品在不同风格下的表现。
  • img-cool – 开源的AI绘图工具,支持多种绘图功能

    img-cool是什么

    img-cool 是开源的 AI 智能绘图工具,集文本生图、几何图形 AI 处理、思维导图等功能于一体。支持通过自然语言描述生成高质量图像,能将基础几何图形智能转换为精美图像。具备快捷提示词功能,用户可以使用预设模板或自定义管理提示词,快速生成内容。基于 React 18 + TypeScript 开发,支持多种绘图功能,如思维导图、流程图绘制,提供画笔、自由绘制、插入图片等功能。支持无限画布,可缩放、滚动,具备自动保存、主题模式等特性,适配移动设备。

    img-cool

    img-cool的主要功能

    • AI图像生成功能:用户可以通过输入文本描述来生成图像,支持对几何图形进行AI处理,将其转换为更精美的图像。
    • 快捷提示词系统:提供预设的提示词模板,用户也可以自定义管理提示词,以便快速生成内容。
    • 多样化绘图工具:支持绘制思维导图、流程图,具备画笔和自由绘制功能,提供多种几何图形,还可以插入图片。
    • 便捷的导出与保存:用户可以将作品导出为PNG、JSON(.drawnix)格式,支持自动保存功能,方便随时恢复工作进度。
    • 良好的兼容性与适配性:支持无限画布,可自由缩放和滚动,具备主题模式,适配移动设备,还支持mermaid语法转流程图、markdown文本转思维导图等功能。

    img-cool的项目地址

    • Github仓库:https://github.com/joeseesun/img-cool
    • 在线地址:https://nano.qiaomu.ai/

    如何使用img-cool

    • 在线体验:访问在线版本地址,无需安装,即可开始创作。
    • 一键部署:点击GitHub页面上的“Deploy with Vercel”按钮,可快速部署自己的img-cool实例。
    • 本地开发:通过克隆项目仓库、安装依赖、启动开发服务器等步骤,在本地进行开发和使用。
    • AI图像生成:点击魔法棒图标,输入图像描述或使用快捷提示词,等待AI生成图像。
    • 几何图形AI处理:绘制或选中几何图形,按Tab键或点击AI处理按钮,输入转换提示词,查看AI生成结果。
    • 配置API:在设置中输入AI服务API Key,保存后即可使用AI功能。
    • 使用快捷提示词:点击⚡图标查看预设提示词,或在设置中管理自定义提示词模板,一键应用到输入框。

    img-cool的应用场景

    • 创意设计:使用文本生图和几何图形AI处理功能,快速生成创意图像和图形设计,为设计师提供灵感和素材。
    • 思维导图制作:通过markdown文本转思维导图功能,将复杂的信息结构化,方便进行知识管理和项目规划。
    • 流程图绘制:借助mermaid语法转流程图功能,清晰地展示业务流程、工作流程或算法逻辑。
    • 绘图与绘画:使用画笔和自由绘制功能,进行手绘风格的创作,适合绘画爱好者和插画师。
    • 教育与学习:教师可以制作教学图表,学生可以绘制思维导图整理知识,提高学习效率。
    • 项目规划与管理:团队可以使用流程图和思维导图功能,规划项目进度,梳理任务分工,提升协作效率。