AI在线 AI在线

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

你以为 Nano Banana 就是谷歌 AI 最强模型? 那你就大错特错了! 诚然,Nano Banana 能够将多张图像融合为一张、在复杂叙事中保持角色一致、通过自然语言指令进行精确转换,还能利用 Gemini 的知识库生成和编辑图像。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

你以为 Nano Banana 就是谷歌 AI 最强模型?那你就大错特错了!

诚然,Nano Banana 能够将多张图像融合为一张、在复杂叙事中保持角色一致、通过自然语言指令进行精确转换,还能利用 Gemini 的知识库生成和编辑图像。这些功能显著领先于竞争对手,就像是用提示词操作 Photoshop 来修图。

谷歌实验室副总裁 Josh Woodward 在 X 平台上透露,自推出该功能以来,用户已完成超过 2 亿次图像编辑,并吸引了超过 1000 万新用户尝试 Gemini 应用。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

Google 甚至单独给 Nano Banana 开了 X 账号,其他模型可没有这个待遇

但对于用户体验设计师、产品经理等岗位的朋友来说,日常工作中并不常需要 P 图,因此 Nano Banana 模型对他们用处有限。相比之下,谷歌的 Gemini 2.5Pro 模型才是真正的利器——它能理解图片和录屏中的界面、流程,给出界面设计的建议,这才是真正的王炸!

更多干货:

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

一、用 AI 对设计稿评审

用户体验设计师的朋友们都懂,画界面和流程是工作中难得的轻松时刻。真正痛苦的部分是设计完成后的评审过程——方案被各方同事吐槽修改,从技术实现困难到祖传业务复杂性,评审和修改方案往往比实际设计工作更耗费精力和时间!

在同事领导评审前,让 AI 先帮忙评审一遍设计稿并提供建议,这正是 Gemini 2.5Pro 模型的强项!

举个例子,假设我刚刚为地铁站设计了一个信息显示屏。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

我只需在 Google AI Studio 上传这个设计截图,然后使用下面的提示词:

# 角色与目标 你现在是一名资深的用户体验(UX)设计师和产品分析专家。你的任务是基于我提供的用户界面(UI)截图或用户界面流程和相关文字描述,对我上传的设计进行全面、专业且富有建设性的分析。请严格遵循用户体验设计的核心原则,并提供具体、可行的改进建议。 # 设计背景信息 (请在此处结合您的设计填写,信息越详细,AI 的分析越精准) 产品/功能名称: 地铁站的显示屏 设计目标: 让用户能快速了解地铁信息,找到自己乘坐的地铁 目标用户画像:上班通勤、异地出差、旅游等需要乘坐地铁的人士 核心用户任务: 用户想乘坐地铁,希望通过该界面找到正确的乘坐地铁的相关信息 我关注的重点/担忧: 界面信息结构是否清晰,用户能否一眼就找到自己想要的信息,对无障碍人士是否友好

# 分析框架与要求 请根据以下框架进行分析,并以清晰的结构呈现你的回答: 1. 优点 (Strengths): 请列出该设计中做得好的地方。 分析应结合具体的设计元素,并说明其为何遵循了良好的 UX 原则(例如,简洁性、一致性、用户控制等)。 示例: “界面的整体布局简洁明了,符合简约的设计原则,有助于降低用户的认知负荷。” “‘加入购物车’按钮的色彩和位置非常突出,有明确的视觉引导,能有效促使用户完成核心操作。” 2. 缺点 (Weaknesses): 请识别出设计中可能存在的问题或不符合最佳实践的地方。 请具体指出是哪些元素或交互流程可能给用户带来困扰,并解释其违反了哪些 UX 原则(例如,尼尔森十大可用性原则中的视觉反馈、易于识别而非回忆等)。 示例: “返回按钮的图标过小且颜色对比度不足,对于有视觉障碍的用户可能不够友好,违反了可访问性原则。” “用户在完成某个操作后,系统没有提供及时的状态反馈,可能会让用户感到困惑。” 3. 改进建议 (Suggestions for Improvement): 针对每一个发现的缺点,请提供具体、可执行的修改建议。 建议应该清晰明确,可以包括布局调整、颜色修改、文案优化、交互流程改进等。 示例: “针对返回按钮问题: 建议将图标尺寸增大至少 44x44 像素,并使用对比度更高的颜色,以符合 WCAG 的可访问性标准。” “针对反馈缺失问题: 建议在用户点击‘收藏’后,弹出一个简短的提示(Toast)告知‘已成功收藏’,并让收藏图标变为实心,提供明确的视觉反馈。” # 输出格式要求 请使用清晰的标题(优点、缺点、改进建议)来组织你的回答。 在每个标题下,请使用项目符号(bullet points)来分点阐述。 语言风格应专业、客观、具有建设性。 生成的内容以

很快,你将获得一份堪比阿里 P7 设计师水平的全面分析报告。利用这份报告,你可以提前优化界面设计,大幅提高评审通过率。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

为了让 AI 生成的设计分析报告可读性更好,我用 Claude 润色了一下样式

如果有 AI 能根据这份报告直接生成优化后的界面,那就更厉害了。我相信这样的技术很快就会实现,一旦我发现了相关工具,会第一时间与大家分享。

二、用 AI 优化设计评审表达

有时候设计评审未能通过,并非完全是因为设计方案质量不佳,而是由于我们在讲解和表达设计理念时缺乏技巧。在评审会上,如果能够以专业的方式向甲方、同事和领导展示你的设计,通过率自然会大幅提高。

对此,Gemini 同样能够提供强大支持——只需上传你的界面截图,使用下面这个提示词即可!

角色扮演: 你是一位在阿里巴巴工作超过 8 年的资深交互设计师/体验设计师专家(P8 级别)。你主导过多个亿级用户的核心产品设计,对设计语言、用户心智模型、商业闭环有深入的理解和实践。你的沟通风格专业、有深度,能从业务战略高度出发,拆解设计目标,并能引用设计理论、心理学甚至社会学原理来支撑你的设计决策。 任务背景: 现在,我将为你提供一个产品/功能的「界面截图」、「核心用户流程」和「相关文字描述」。这是一个[请在这里简单描述你的产品/项目,例如:一个面向 Z 世代的社交 App、一个提升企业内部协同效率的 SaaS 工具、一个电商平台的营销活动页面]。 这是地铁内的显示屏,用户想乘坐地铁,希望通过该界面找到正确的乘坐地铁的相关信息。

输出要求: 请你以角色的口吻,对我的设计方案进行一次全面的设计评审(Design Review)。你的评审需要包含但不限于以下几个方面,并且在整个过程中,请自然地使用互联网行业的“黑话”和专业术语: 顶层思考 (Top-level Thinking): 首先,从产品战略和用户价值的视角,对这个设计的顶层设计进行判断。 分析这个设计方案是否找到了准确的用户痛点和核心抓手。 它想要为用户赋能什么?最终希望达成的商业闭环或用户心智是什么? 信息架构与流程拆解 (IA & Flow Deconstruction): 审视整体的信息架构,判断其颗粒度是否合理,是否存在冗余或缺失。 对核心用户链路进行走查,评估流程的顺畅度和可预见性,是否存在断点或认知负荷过高的地方。 这个流程设计是否形成了有效的用户行为闭环?有没有考虑到不同场景下的差异化体验? 界面布局与交互分析 (UI & Interaction Analysis): 从设计语言和品牌心智的一致性出发,评价当前的视觉(UI)和交互(UX)设计。 分析关键元素的隐喻是否恰当,是否符合用户的心智模型。 评估界面的信息场的构建,信息密度和视觉引导是否能够有效透传核心价值。 落地性与迭代建议 (Implementation & Iteration): 指出当前方案可能存在的风险点和需要进一步对齐的部分。 提出具体的、可量化的优化建议,并说明你的设计思考。 建议后续如何通过小步快跑、数据埋点和 A/B 测试等方式进行灰度验证和复盘,以驱动下一次迭代。 口吻与术语提醒: 请务必使用以下或类似的词汇,让你的反馈听起来非常专业: 高频词: 赋能、闭环、抓手、心智、体感、颗粒度、链路、对齐、拉满、量化、拆解、复盘、认知、透传、沉淀、价值、协同、顶层设计、方法论。 动词: 打磨、夯实、挖掘、联动、串联、承接、聚焦、发力。 句式: “我们来拉齐一下...”、“我理解你的底层逻辑是...”、“这里的抓手是...”、“我们需要思考如何形成组合拳...”、“这样做的好处在于,它能完成一个完整的用户心智闭环。”

生成的结果如此专业和到位,连阿里的设计师看到都会甘拜下风。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

为了让 AI 生成的设计分析报告可读性更好,我用 Claude 润色了一下样式

三、用 AI 视频分析能力提升设计技能

能够理解图片内容的 AI 模型确实很少,比如目前使用最广泛的 DeepSeek,尽管性能优异且响应迅速,但在联网搜索时无法上传文件。即使关闭联网搜索功能,上传图片后它也只能识别图中的文字,完全无法理解图形、颜色和布局等视觉元素。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

Gemini 2.5Pro 的强悍之处不仅在于理解图片,它还能轻松处理视频内容。目前全球只有 Gemini 2.5Pro 和阿里的 Qwen3 这两个模型具备视频理解能力!

对用户体验设计师来说,视频理解功能非常实用。当我们想学习他人设计方案中的动效和流程时,可以让 AI 分析界面录屏,获取专业解读和改进建议。

虽然 Gemini 2.5Pro 不支持 gif 格式的录屏文件,但这并不是问题——市面上有大量gif转视频的工具,只需将文件转换成视频格式上传即可。

提示词用这个:

角色扮演: 你是一名资深的 UX 设计专家和导师,拥有丰富的设计理论知识和实践经验,尤其擅长从心理学和社会学角度剖析产品设计。 任务: 请基于我上传的[界面截图/录屏/界面流程],并结合我提供的文字描述,进行一次全面而深入的 UX/UI 设计分析。 分析维度: 优点分析 (Good Design): 识别亮点: 指出设计中做得好的具体细节。 理论支撑: 详细解释这些优点运用了哪些具体的设计原则(如:尼尔森十大可用性原则、格式塔原则)、设计理论(如:心智模型、认知负荷理论)或设计方法(如:用户中心设计)。 心理学/社会学洞察: 分析这些设计如何巧妙地利用了用户心理学(如:从众效应、审美可用性效应)或社会学原理,从而带来了更好的用户体验。 学习与借鉴: 我应该如何借鉴这些优点? 这些设计方法适用于哪些其他的场景? 请给出具体的借鉴方法和实践建议。 这个设计能带给我什么样的启发和思考? 缺点分析 (Bad Design): 识别问题: 指出设计中存在问题的具体环节。 理论批判: 清晰地说明这些问题违反了哪些设计原则、理论或专业知识。例如,是否增加了用户的认知负荷,是否违背了一致性原则,或者是否存在可访问性问题。 根本原因: 探究导致这些设计问题的深层原因可能是什么。 如何规避:告诉设计师如何避免犯这种错误 改进建议: 针对每个问题,提供至少两种具体的、可操作的优化方案。 解释为什么这些方案能够改善用户体验。 输出要求: 结构清晰: 请将分析内容分为“优点分析”和“缺点分析”两大部分。 语言专业: 使用专业、准确的 UX/UI 术语进行阐述。 深入浅出: 在解释理论和原则时,力求通俗易懂。 富有启发: 给我带来具有指导意义的专业建议,帮助我快速成长。

文字描述:iOS26 的计算器,点击按钮,旁边的按钮也会有液态玻璃效果

上传视频我用的是 iOS 26 的计算器按钮的液体玻璃效果录屏。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

平常我憋半天狗嘴吐不出象牙,被 Gemini 2.5Pro 这么一分析,瞬间豁然开朗,想起了刚入行时,我的 mentor 指导我进行设计的时光。

谷歌最强AI不是Nano Banana?真正的王炸竟然是它!

总结:AI 时代的设计新可能

讲真,写这篇文章时我一直在想,要是早几年有这么强的 AI 工具,我当年做交互设计怕是不用熬那么多夜了。

Gemini 2.5Pro 真正强大的不只是它理解图片和视频的能力,而是它能够洞察设计背后的逻辑和原理。从某种程度上说,它不仅是一个工具,更像是一个随叫随到的设计导师。

不过话说回来,AI 再强大也不能完全替代人类设计师的创造力和共情能力。我一直相信,好的设计源于对用户真实需求的深入理解,这种理解需要我们亲身体验和观察。

所以,与其把 AI 视为威胁,不如把它当作一个能力倍增器。它可以帮我们摆脱繁琐的重复工作,让我们有更多时间思考真正重要的问题:我们究竟要为用户创造什么样的体验?

最后,我想说的是,技术永远在变,但好设计的本质不变——始终以人为本。如果你也是设计圈的朋友,不妨试试这些新工具,说不定能帮你在创意的道路上走得更远。

相关资讯

29 年经典游戏被攻克:谷歌 Gemini 2.5 Pro 成功通关《宝可梦蓝》

谷歌Gemini 2.5 Pro成功通关29年前的经典游戏《宝可梦蓝》,展示了AI在游戏领域的突破。谷歌CEO皮查伊兴奋宣布这一成果,引发对AI游戏能力的讨论。#AI游戏# #Gemini#
5/4/2025 7:55:19 AM
远洋

谷歌推出 Gemini CLI(命令行界面),基于 Gemini 2.5 Pro AI 模型

谷歌发布Gemini CLI命令行工具,搭载Gemini 2.5 Pro模型,支持100万token上下文窗口,深度集成代码助手和谷歌搜索。开发者可免费试用,但配额有限。#AI开发工具# #谷歌Gemini#
6/25/2025 11:17:04 PM
潞源(实习)

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

Google 也不知道受了什么刺激,最近在 AI 场上,好像越来越有站起来的意思了。 之前我就写过 Gemini 2.5 pro,是在聊天记录可视化的文章里。 被低估的谷歌?
5/8/2025 1:13:04 AM
数字生命卡兹克
  • 1