谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

作者： 2025-03-14 12:14

谷歌推出Gemini原生图像生成，测试版瞬间引爆网络。如果你迟到了，但没有好的借口，甚至还没有出家门——只需要一张自拍，然后让AI把你P到地铁故障现场。图片也可以凭空生成一个人物形象，把它放到原神游戏画面中（不用上传游戏截图），让角色往前走两步，再把视角往左移，走近一个建筑，开始爬墙。

谷歌推出Gemini原生图像生成，测试版瞬间引爆网络。

如果你迟到了，但没有好的借口，甚至还没有出家门——只需要一张自拍，然后让AI把你P到地铁故障现场。

图片

也可以凭空生成一个人物形象，把它放到原神游戏画面中（不用上传游戏截图），让角色往前走两步，再把视角往左移，走近一个建筑，开始爬墙。

图片

二次元选手最喜欢的玩法，是草稿一句话变线稿，再上色，再上阴影等操作，注意每一步执行后人物形象都是保持一致的。

图片

有漫画创作者用它来改变构图视角，同时保持画面内容的一致性。

图片

游戏开发者则可以用一些素材组件自动拼成关卡场景。

图片

除了精准遵循指令一键P图之外，还支持图文混排输出。

谷歌官方演示了生成菜谱，每个操作步骤都配上写实的图像，学起来更直观。

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

现在，这些功能都可以在Google AI Studio免费试玩。

模型命名很乱，请认准Gemini 2.0 Flash Experimental。

图片

原生图像输出首次开放

目前Gemini 2.0 Flash原生图像输出能力还没有公开技术细节，简短的介绍中只讲了“结合多模态输入、增强推理和自然语言理解”。

而其他AI产品语言大多是语言模型把图像生成模型当做工具去调用，如ChatGPT调用Dall·E 3，Grok调用flux.1。

新范式下，Gemini 2.0 Flash的主要优势包括：

图文故事模式：始终保持人物和场景的一致性。也可以中途提意见，让AI重新讲述故事或改变绘画风格。
对话式图像编辑：支持多轮编辑，可以一句话p图，反复完善图像，实现实时协作和创意探索。
基于世界知识的图像生成：利用大模型内置的知识和推理能力，生成与上下文更相关的图像
改进文本渲染：减少拼写错误或字符扭曲，适合生成广告、甚至邀请函。

其实早在2024年5月，OpenAI总裁Brockman就曾展示过GPT-4o的这种原生多模态能力，但后来就没了消息。

现在谷歌抢先部署这项功能，让网友不禁好奇，出于什么原因让OpenAI放弃一年以上的领先优势。

图片

OpenAI员工也只能感叹，谷歌真的回来了。

图片

还有隐藏玩法

除常规玩法之外，还有网友探索出了一种隐藏玩法：用文字提问，要求AI只用图片回答。

他的问题是“生命的意义是什么”，AI用一系列图片来表达，画面逐渐诡异起来，令人毛骨悚然。

图片

他把整个过程录制成视频，下面一起来看看。

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

在线试玩https://aistudio.google.com/

参考链接：[1]https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

[2]https://x.com/goodside/status/1900349595718148455

[3]https://x.com/ilumine_ai/status/1900017235898622025

[4]https://x.com/nobisiro_2023/status/1900150873734733859

[5]https://x.com/linaqruf_/status/1899977818563633466

[6]https://x.com/scaling01/status/1899932304388051216

Gemini 2.5 Pro再更新！编程能力屠榜！一句话、一张草图变应用

出品 | 51CTO技术栈（微信号：blog51cto）AI 编码模型的新王者登基了！今天，Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版，这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型（LLM）的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示：“这是我们迄今为止打造的最佳编码模型！

5/7/2025 10:09:08 AM

Gemini负责人爆料！多模态统一token表示，视觉至关重要

一水闻乐发自凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。

7/3/2025 3:06:44 PM 闻乐

过年了！Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）昨晚十点，Kimi弹了条推送。大晚上的，他们就这么波澜不惊地发了一个SOTA 模型出来！就是这个 k1.5 多模态思考模型，性能实现有多逆天呢：在 short-CoT 模式下， Kimi k1.5 的多项能力，大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 550%；在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，也达到长思考 SOTA 模型 OpenAI o1 满血版的水平！

1/21/2025 1:15:15 PM 伊风

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

原生图像输出首次开放

还有隐藏玩法

相关资讯

Gemini 2.5 Pro再更新！编程能力屠榜！一句话、一张草图变应用

Gemini负责人爆料！多模态统一token表示，视觉至关重要

过年了！Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！