刚刚，Nano Banana 2 发布！便宜又大碗，体验后我发现这些细节

用 AI 生图，总绕不开一道两难题：要快，还是要好？

但速度与质量之间，未必是鱼和熊掌不可兼得。就在刚刚，Google 正式发布了他们的新一代图像生成模型：Nano Banana 2（Gemini 3.1 Flash Image）。

没有太多颠覆世界的口号，它只是把更好的画质和更懂人话的理解力，一起塞进了全新的底层架构里。就这一件事，却让 AI 生图少了几分「看运气」的感觉，多了几分真正能用的踏实。

▲官方博客地址：https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

接入了整个互联网，这次的 AI 真的懂你在说什么

要说清楚这次的变化，得先回想一下三年前 AI 生图有多难用。

你让它画「红烧肉」，它可能老老实实给你画一块正在燃烧的肉；你让它在海报上写句中文，它往往会给你凑出一堆毫无意义的鬼画符。缺乏对真实世界的常识，是第一代 AI 最容易让人崩溃的地方。

现在的 Nano Banana 2，改变了不少。它和前代 Nano Banana Pro 一样，接入了 Gemini 积累的庞大真实世界知识库，还能结合网页搜索的实时信息，用起来更像是一个见过世面、懂点常识的人。

最先感受到的变化，是它开始更好地理解空间和比例了。

▲提示词：画面中，【东方明珠广播电视塔】被一只超级巨大、超级可爱的【猫】占据。周围的建筑物看起来就像玩具模型一样小，而【猫】则非常巨大。游戏背景设定在一个逼真的城市环境中。整体氛围安静、温暖、舒缓、可爱。

在上面这个案例中，AI 精准地还原了上海的地标，并极其自然地处理了巨猫与微缩城市之间的光影和透视关系。

最直观的改变，是它终于认字、也会写字了。比如让它画一幅《枫桥夜泊》的水墨画。画面上方不仅端端正正地用书法写出了「月落乌啼霜满天」等全句，甚至连排版和水墨的意境都拿捏得比较准。

▲当然，也不是没有瑕疵，仔细看上方悄悄多出了一个「满」字。

除了诗意，它还能处理相当复杂的 UI 场景——在下面这张图里，复杂的半透明数据面板、悬浮的购物清单、精准的中文显示，被 AI 有条不紊地安排得井井有条，信息之间的层级关系也真正理清楚了。

▲提示词：第一人称视角，置身于灯光明亮的超市货架通道中。人类双手将一瓶芬达汽水举到镜头前方。鲜艳的橙色饮料装在其标志性的品牌瓶身里，周围环绕着多层全息增强现实界面，用中文展示营养相关数据，包括热量数值、含糖量、咖啡因水平、新鲜度指示、保质/到期日期，以及基于芬达推荐的清爽饮品配方和鸡尾酒调制方案。玻璃质感的 UI 面板，柔和的环境光晕，逼真的光照与阴影，自然的景深效果，沉浸式第一人称交互界面，2K

排版极其讲究的双页黑白日式漫画，也是手拿把掐。

▲提示词：设计一份逼真的双页漫画杂志样张。每一页都应包含多个漫画风格分镜，以富有动感的版式排列，呈现出专业印刷的日本漫画质感。整体风格为黑白稿，使用粗犷有力的墨线、网点效果（screen tones）以及富有表现力的人物绘制。画面中加入对白气泡、中文拟声词，并通过分镜之间的过渡来传达动作、情绪与节奏。左右两页需要连贯衔接，像同一场景或同一话章节的一部分。采用传统漫画镜头语言：特写、远景、斜向分镜以及戏剧化的视角与构图。整体观感要真实可信，仿佛来自一本真正的漫画杂志的跨页内容。

或者这张带步骤说明的「功夫茶」中文信息图，从排版到意境，都给出了一套可以直接用的视觉方案。

▲生成提示词：一张关于中国传统功夫茶道设计精美的垂直信息图。中国传统水墨画背景。顶部有巨大的、优雅的中文书法标题，明确写着「功夫茶」。向下有三个图文并茂的步骤：步骤 1 展示用沸水温杯，配有中文「温杯」；步骤 2 展示将茶叶放入盖碗，配有中文「投茶」；步骤 3 展示倒出茶汤，配有中文「出汤」。优雅、极简、温暖的大地色调，平衡的布局。

一位很早就接触到 Nano Banana 2 的内测用户，给出了一个相当中肯的评价：「它并不完美，但它是第一个能够以一定一致性，去处理真正复杂图像和图表的模型。」

为了测试这个新模型的理解极限，他随手甩出了一道极其刁钻的测试题：「给我画一张设定在古威尼斯的《寻找沃尔多（Where’s Waldo）》，但里面要找的不能是人，得是一只穿着蓝色条纹飞行服的水獭。」

Nano Banana 2 最终也真的理清了逻辑，不仅没画串，还稳稳地交出了答卷。

快和好，终于不用二选一了？

除了懂常识，强大的「主体一致性」是这次 Nano Banana 2 更新的另一大杀手锏。

在一次生成过程中，它最多能保持 5 个角色的脸不崩，或者 14 个物品的样子不变。这意味着，你可以放心大胆地拿它来画连载漫画或者做影视分镜了。

不仅如此，它的画质也达到了可以直接干活的标准。

从 512px 的配图到 4K 级别的超高清海报，它都能拿捏。输入一段关于「重庆老火锅」的提示词，它能生成一张赛博朋克风的雨夜街景，湿漉漉的柏油路上，红蓝霓虹灯的倒影和「24 小时营业」的招牌都细致入微。

▲提示词：一张繁忙亚洲城市雨夜的电影感街头照片。一个巨大的、发光的红色霓虹灯牌挂在一座老建筑上，上面清晰地写着「重庆老火锅」。在它下面，一个较小的蓝色霓虹灯牌写着「24 小时营业 – 欢迎光临」。湿漉漉的柏油路反射着霓虹灯光。

色彩张力极强的波普艺术风格，它也驾驭得住。

或者是这种带着几分荒诞、又透着高级感的时尚大片：

▲提示词：This high-resolution bird’s-eye view photograph was taken with a LOMO Ic-a. The ground is covered with countless black-and-white billboard advertisements of beautiful fashion models, and standing on top of the advertisements is an incredibly beautiful chinese film actress wearing a long black coat.

在这个俯视视角的案例中，AI 极好地模拟了老式 LOMO 相机的特殊质感。女演员孑然独立于铺满黑白海报的地面上，画面的电影张力和故事感呼之欲出。

不过也不是没有明显短板，让它将二次元人物、铅笔素描和黏土人强行塞进同一个真实咖啡馆的场景中，素描人物的融入就显得十分生硬，边缘过渡也不够自然。

显然，在跨维度融合上，它远不及前代模型效果来得自然，还有进步的空间。

▲提示词：A photo of an everyday scene at a busy cafe serving breakfast. In the foreground is an anime man with blue hair, one of the people is a pencil sketch, another is a claymation person

其实整体体验下来，尽管官方博客将 Nano Banana 2（Gemini 3.1 Flash Image）吹的天花乱坠，但实际体感中，生成的质量效果和速度并未得到肉眼可见的提升，甚至在部分场景中还不及前代模型。

真正让 Nano Banana 2 站稳脚跟的，其实是它极其接地气的性价比。

今天起，在 Gemini 应用和 Google 搜索框里，你都能顺手用上它。没有订阅方案的普通用户，24 小时内也能白嫖 100 张；而 Pro 订阅用户的额度则高达 1000 张。

对于开发者而言，API 的价格更是直接腰斩，仅为上一代 Pro 模型的一半。折算下来，生成一张 4K 高清图的成本被硬生生打到了 0.15 美元左右。

▲ 附上地址：https://ai.google.dev/gemini-api/docs/pricing#gemini-3.1-flash-image-preview

当然，当 AI 能够以极低的成本、极快的速度批量生产高清图片时，大家心里其实越没底。现在网上的假图满天飞，「眼见为实」这句话早就靠不住了。如果任何人都能在一秒钟内生成一张几可乱真的照片，我们该如何分辨图片？

Google 自己也十分清楚这一点，所以他们也一并升级了防伪技术。Nano Banana 2 继续加深了对 SynthID 数字水印和 C2PA 内容凭证的支持，能够更清楚地看到一张图到底是不是 AI 画的，以及它是怎么被修改的。

据统计，自去年 11 月以来，Gemini 里的这个验证功能已经被调用了超过 2000 万次。

AI 绘图这两年的发展，确实快得让人眼花缭乱。我们经历过 Nano Banana Pro 的一眼惊艳，也经历过繁琐的调教与漫长的等待。Nano Banana 2 的出现，则尝试进一步把好和快揉在了一起，并大大降低了使用的门槛。

你脑子里的一个灵感，不用再经过反复的修改和焦躁的等待。敲下回车的瞬间，它就在那里了。自然、简单，且立等可取，这件事听起来平常，但能做到，其实已经很难得了。

刚刚，Nano Banana 2 发布！便宜又大碗，体验后我发现这些细节

接入了整个互联网，这次的 AI 真的懂你在说什么

快和好，终于不用二选一了？

推荐文章

本篇来自栏目

深度解析谷歌版「豆包手机」：Android 的统治者下了一盘什么棋？｜AI 器物志