谷歌最新发布的AI图像生成模型 Google Gemini 2.5 Flash Image (Nano Banana),靠一致性和飞快的生图速度,在各大平台持续霸屏。
我也每天都收到群友催更:K姐快介绍 Nano Banana 玩法啊,这个太牛了。
这篇我们就一起来聊一聊 Nano Banana。内容主要包含3个部分:Nano Banana 核心团队的技术解读、Nano Banana 的种玩法,以及可以免费用 Nano Banana 的5种方法。
欢迎大家评论区补充、交流~
01. Nano Banana 技术揭秘
在最近《Release Notes》的访谈里,邀请到了 Nano Banana 的4位核心团队成员,帮助我们更好地了解 Nano Banana 关键功能背后的技术:
原生图像生成
Nano Banana 的核心突破是原生图像生成,能在生成过程中不断参考上下文,一步步完成复杂任务。
和传统的文生图工具不同的是, Imagen 更像是单点高手,而 Nano Banana 是全能型选手,可以跨模态、支持复杂交互。
这也将是团队的发展方向:未来模型不仅要画得漂亮,还要有更强的理解和推理能力。
角色与场景的一致性
一致性是 Nano Banana 的另一个亮点。过去的模型在编辑图像时常翻车,比如我只是想换个窗帘,结果床和沙发也跟着变了,又或是给人物图像换个角度,就换了张脸。
这次团队现场演示了一个案例,用主持人的脸部特写,生成一张他穿着巨大香蕉服的全身图像。
prompt:zoom out and show him wearing a giant banana costume.keep his face visble.
提示词:拉远镜头,展示他穿着巨大的香蕉服装,确保脸部可见。
Nano Banana 一致性保持得非常好,脸依旧是那张脸,但场景、服装都完全换掉了,画面还非常自然,整个生成过程也就十多秒。
另一个细节是,Gemini 团队和 Imagen 团队的合作,让图像更自然。以前的结果有时像“贴上去”的,现在已经能做到整体连贯。
文本渲染
很多人可能觉得“在图里写几个字”没什么大不了,但 Nano Banana 把文本渲染当做长期的核心指标。他们认为:文字是结构化的内容,如果模型能够学会如何处理文本,也能掌握图像中的纹理等更复杂的结构。
目前 Nano Banana 对一些简单的文字渲染效果很好,但是也存在一些不足。
prompt:now write”Gemini nano”on the image.
提示词:在图片上写“Gemini nano”
几年前几乎没有模型能把文字处理好,哪怕是很短的提示词都经常崩。于是 Nano Banana 团队决定长期跟踪这个指标,无论做什么实验,只要持续观测,就能避免性能退步。他们发现,很多看似无关的改动,也会在文本渲染上产生提升。
团队其实是从“找模型的短板”开始,慢慢摸索出一条能推动整体质量进步的路径。
理解力与创造性
Nano Banana 具备世界知识,能够理解模糊的指令,还能发挥一些创造力。
团队在访谈中提到一个很有意思的概念——报告偏差(reporting biases)。比如,当你去朋友家做客,回来后和别人聊天,几乎不会提到他们家里那张普通的沙发。但如果给别人看照片,画面是有沙发的。
所以,我们想真正了解世界,通过文本可能需要更多描述,而视觉信号就像是理解世界的捷径,可以直接把环境、物体、关系展现出来,不需要额外解释。
理解和生成就是这样相辅相成的。模型在读懂图像和语言的过程中,积累了更扎实的世界知识,也因此能在创作时更稳定、更自然。有时候甚至能生成超出用户预期的内容
02. Nano Banana玩法大全
从热门玩法、单图、多图以及生成视频的多种玩法。欢迎补充~
热门玩法
1.将任意图片变成手办
prompt:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on.
将这张照片转化为一个角色形象。在其背后放置一个盒子,盒子上印有该角色的图像,盒子上方的电脑屏幕上显示Blender建模过程。在盒子前方添加一个圆形塑料底座,角色形象站立其上。
2.根据地图画出真实场景
prompt:draw what the red arrow sees.
提示词:画出红箭头所看到的东西。
Draw a DEM with contour lines.
draw the real world view from the red circle in the direction of the arrow.
绘制带有等高线的数字高程模型。
从红圈处沿箭头方向绘制真实世界视图。
以上案例来自X博主 @Simon
3.卡通变现实
prompt:Depict as a live big budget costume test on set, shot on film.
Variant Prompt: For easier additional editing.Depict as a live big budget costume test on set, shot on film against green screen.
描绘成在片场进行的大预算服装试穿,使用胶片拍摄。
变体提示:为了更轻松地进行额外编辑,描绘成现场的大预算服装测试,在片场拍摄,使用胶片对绿幕拍摄。
以上案例来自 X 博主@Brent Lynch
4.360度产品展示
prompt:This exact car in this exact environment.
Change Perspective: Perfect side angle view.
这辆汽车及其确切环境。
改变视角:完美的侧面角度视图
生成不同视角的图片后,用可灵2.1通过首尾帧生成视频。
以上案例来自 X 博主@Rory Flynn
5.修复老照片
prompt:Restore and colorize the picture without altering, removing, or adding any detail or element.
提示词:恢复图片着色,但不要改变、删除或添加任何细节或元素。
以上案例来自X博主 @Rodrigo Bressane
6.等距3D视图
将设计图纸变为3D视图。
以上案例来自X博主 @levelsio
从2D图纸到3D模型,看起来挺惊艳的。不过目前反馈生成的图像还不够精准,比如会比较模糊、窗户的位置会不准确。
7.切换视角
prompt:aerial perspective of a camera behind the blurry ceiling fan looking down at the girl sitting in an hospital waiting room.
一个模糊吊扇后面的相机从上方俯视坐在医院候诊室的女孩的空中透视。
单图编辑
1.改文字
提示词:把图片中的文字改为:你为什么不问问神gemini呢
2.改服饰
提示词:把人物的衣服改为羽绒服。
3.参考人物生成场景
提示词:让图中人物与海绵宝宝共进晚餐。
4.消除
提示词:移除图片左边的人物。
5.更改元素
提示词:把图片背景中Twitter的旧logo换成现在的X形状logo。
6.模糊指令理解
提示词:让图片中的人物看起来像印第安人。
7.换背景
第一步用绿幕替换背景,后续更换背景效果会更好。
prompt:Replace the background with a solid color green screen
提示词:用纯色绿色屏幕替换背景
prompt:replace the background with the attached image. Make sure [subject] is lit to match the image;
replace the background with [describe your scene]. Make sure [subject] is lit to match the scene.
提示词:用附加的图片替换背景。确保[主体]的照明与图片匹配。
用[描述你的场景]替换背景。确保[主体]的照明与场景匹配。
8.用 Nano Banana 做室内设计
原图:
Nano Banana “装修”后:
9.真实场景变成游戏素材
prompt:Concisely name the key entity in this image (e.g. person, object, building). Create 3d pixel art of the isolated key entity in isometric perspective, 8-bit sprite on a white background. No drop shadow.
提示词:简洁地命名图片中的关键实体(比如,人物、物体、建筑。)以等视角创建独立的3D像素元素,8-bit透明图,没有阴影效果。
10.将城市建筑变成3D
【】中的内容根据实际城市修改即可。
prompt:Turn this photograph of a 【Parisian building】 into a isometric tile, in the style of the five other 3D.
提示词:将这张图片中的巴黎建筑转化为3D等距模型。
以上案例来自 X 博主@Emm | scenario.com
多图修改
1.姿态参考
Prompt: take the anime man and woman in the first image and put them in the poses of the stick man in blue and stick woman in red. erase the stick figures.
提示词:将第一张图中的动漫男性和女性放置成蓝色小人男和红色小人女的姿势,并擦除小人。
以上案例来自 X 博主@Justine Moore
prompt:Model pose like the sketch.
提示词:模特姿势变得像草图一样。
2.图像位置参考
直接在图中标记位置,Nano Banana 就可以生成准确的图像。

标记分区
在图中加入提示词,生成漫画:
以上案例来自 X 博主@けいすけ / AIマンガ&開発
prompt:A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it’s attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones.
提示词:一个模特靠着粉色的宝马,浅灰色背景,她穿戴着以下物品:绿色外星人是钥匙扣,挂在粉色的手提包上,模特肩上还站着一只粉色的鹦鹉。旁边有一只贵宾犬,它带着粉色的项圈和金色的耳机。
此案例来自X博主 @Travis Davids
系列IP/动漫角色
比如,我们有这样一张角色图像。
prompt:First, please set up the basic color palette and the shadows and saturation.
提示词:首先,请设置基本色板和阴影与饱和度。
prompt:Next, please do the character model sheet.
接下来,请制作角色模型表。
prompt:Next, please provide the [basic action set].
接下来,请提供基本动作集。
prompt:Please give me the costume design set.
提示词:请给我服装设计套装。
prompt:Please make an expression sheet.
提示词:请制作表情表。
将图像转为线稿,再使用品牌色上色
步骤:
– Prepare the original image
– Convert to line art
– Color the line art with a color palette
– Change the character to brand colors
– 准备原始图像
– 转换为线稿
– 使用调色板为线稿上色
– 将角色改为品牌色
视频(分镜)创作
1.第一人称骑马漫步二十世纪。
先用 Nano Banana 生成各种场景:
prompt:dashcam google street view shot | Hobbiton streets | hobbits carrying out daily tasks like gardening and smoking pipes | sunny day.
提示词:行车记录仪谷歌街景拍摄丨霍比特镇街道丨霍比特人进行日常任务,比如园艺和抽烟丨晴天
prompt:dashcam google street view shot | Seat of Seeing on Amon Hen | Ruined pavilion atop the hill, a hobbit-like figure from behind climbing the steps, the winding path down visible overlooking the river and lands beyond | panoramic view under emerging stars at dusk.
提示词:行车记录仪谷歌街景拍摄丨阿蒙·亨的观视之座山顶残破的亭阁,一个霍比特人般的身影从后面攀爬台阶,可见蜿蜒下行的路径,俯瞰着河流及远处的土地,傍晚时分,星光初现下的全景视角。
用提示词创建骑马的第一人称视角图片:
prompt:dashcam google street view shot
提示词:第一人称视角在草地上骑马。十二世纪
用可灵2.1的首尾帧动画来生成视频片段。
prompt:”scene_description”: “The rider gallops out from the ruins of the ivy-covered statues, leaving the storm-lit plains behind. The path winds through rugged terrain as the pace remains fast. Ahead, a towering dark castle glows with eerie green light atop jagged cliffs, its spires piercing the stormy sky. Cloaked figures march steadily toward the fortress across a massive stone bridge.”, “visual_style”: “dark epic fantasy, cinematic, continuous POV”, “camera_movement”: “smooth forward gallop, first-person view without cuts, transitioning naturally from the ruined statues across the plains to the castle bridge”, “main_subject”: “the white horse’s head and rider’s gloved hands, centered as they race toward the looming fortress”, “background_setting”: “storm-darkened mountains and cliffs, a vast stone bridge spanning a deep chasm, leading to the glowing green-lit castle”, “lighting_mood”: “ominous twilight with green highlights from the fortress and flashes of distant lightning”
prompt:”scene_description”: “The rider gallops out from the ruins of the ivy-covered statues, leaving the storm-lit plains behind. The path winds through rugged terrain as the pace remains fast. Ahead, a towering dark castle glows with eerie green light atop jagged cliffs, its spires piercing the stormy sky. Cloaked figures march steadily toward the fortress across a massive stone bridge.”, “visual_style”: “dark epic fantasy, cinematic, continuous POV”, “camera_movement”: “smooth forward gallop, first-person view without cuts, transitioning naturally from the ruined statues across the plains to the castle bridge”, “main_subject”: “the white horse’s head and rider’s gloved hands, centered as they race toward the looming fortress”, “background_setting”: “storm-darkened mountains and cliffs, a vast stone bridge spanning a deep chasm, leading to the glowing green-lit castle”, “lighting_mood”: “ominous twilight with green highlights from the fortress and flashes of distant lightning
将这些视频剪辑到一起,就生成了这条长穿越效果的视频。
此案例来自X博主 @TechHalla
2.涂鸦-3D图像-视频
此案例来自X博主 @Alex Patrascu
3.让名画中的人物在现实世界中相遇
此案例来自X博主 @Alex Patrascu
4.AI动漫
此案例来自X博主 @Framer
03. 怎么使用Nano Banana
谷歌Gemini(需要Pro会员)
在 Gemini 官网首页,选择 Gemini 2.5 Pro 模型,在对话框中选择 Tool 中的 Create images。
此时默认使用的就是 Nano Banana 模型。
上传图片,输入提示词,即可使用。
谷歌 AI Studio(免费)
打开Geogle AI Studio 网站,点击右上角的设置。
在设置中选择Nano Banana。
上传图片,并输入提示词,就可以啦。
LMArena(免费)
在 LMArena 首页上方选择 Direct Chat 模式。
继续选择 gemini-2.5-flash-image-preview(nano-banana)模型,就可以直接使用啦。
Lovart(限时免费)
点击 Lovart 首页的 Nano Banana 模型入口。
就可以直接使用 Nano Banana 模型啦,不过免费有期限,9月2日截止。
Freepik
首页轮播图有 Google Nano Banana 入口,直接点击进入。
官网:Freepik
选择 Nano Banana 模型,即可免费使用,每天可以免费生成10张图片。
04. 一些分享
以往做一套高质量、细节统一的图,得有专业技能,还要花大量的时间。
现在用 Nano Banana,只用一句简短的指令,你说的,它十几秒都能联想并复现出来。
受冲击最大的,是内容行业。现在真正敢用 AI 来做广告创意的公司还不多,但这之后,可能就大不一样了。
品牌一句 prompt,几小时内就能生成几十版广告创意。
动漫、短剧也是一样,过去得靠整个团队几个月才能磨完的细节,以后可能一个人就能边改边出片。
未来可能会“按需生成”的剧情——观众一刷弹幕,模型立刻接着往下编。
内容创作都会进入一种全新的生产方式。