AI在线 AI在线

谷歌大招网友玩疯了!Gemini原生图像输出抢先推出,OpenAI一年领先优势归零

谷歌推出Gemini原生图像生成,测试版瞬间引爆网络。 如果你迟到了,但没有好的借口,甚至还没有出家门——只需要一张自拍,然后让AI把你P到地铁故障现场。 图片也可以凭空生成一个人物形象,把它放到原神游戏画面中(不用上传游戏截图),让角色往前走两步,再把视角往左移,走近一个建筑,开始爬墙。

谷歌推出Gemini原生图像生成,测试版瞬间引爆网络。

如果你迟到了,但没有好的借口,甚至还没有出家门——只需要一张自拍,然后让AI把你P到地铁故障现场。

图片图片

也可以凭空生成一个人物形象,把它放到原神游戏画面中(不用上传游戏截图),让角色往前走两步,再把视角往左移,走近一个建筑,开始爬墙。

图片图片

二次元选手最喜欢的玩法,是草稿一句话变线稿,再上色,再上阴影等操作,注意每一步执行后人物形象都是保持一致的。

图片图片

图片图片

有漫画创作者用它来改变构图视角,同时保持画面内容的一致性。

图片图片

游戏开发者则可以用一些素材组件自动拼成关卡场景。

图片图片

除了精准遵循指令一键P图之外,还支持图文混排输出。

谷歌官方演示了生成菜谱,每个操作步骤都配上写实的图像,学起来更直观。

谷歌大招网友玩疯了!Gemini原生图像输出抢先推出,OpenAI一年领先优势归零

现在,这些功能都可以在Google AI Studio免费试玩。

模型命名很乱,请认准Gemini 2.0 Flash Experimental

图片图片

原生图像输出首次开放

目前Gemini 2.0 Flash原生图像输出能力还没有公开技术细节,简短的介绍中只讲了“结合多模态输入、增强推理和自然语言理解”。

而其他AI产品语言大多是语言模型把图像生成模型当做工具去调用,如ChatGPT调用Dall·E 3,Grok调用flux.1。

新范式下,Gemini 2.0 Flash的主要优势包括:

  • 图文故事模式:始终保持人物和场景的一致性。也可以中途提意见,让AI重新讲述故事或改变绘画风格。
  • 对话式图像编辑:支持多轮编辑,可以一句话p图,反复完善图像,实现实时协作和创意探索。
  • 基于世界知识的图像生成:利用大模型内置的知识和推理能力,生成与上下文更相关的图像
  • 改进文本渲染:减少拼写错误或字符扭曲,适合生成广告、甚至邀请函。

其实早在2024年5月,OpenAI总裁Brockman就曾展示过GPT-4o的这种原生多模态能力,但后来就没了消息。

现在谷歌抢先部署这项功能,让网友不禁好奇,出于什么原因让OpenAI放弃一年以上的领先优势。

图片图片

OpenAI员工也只能感叹,谷歌真的回来了。

图片图片

还有隐藏玩法

除常规玩法之外,还有网友探索出了一种隐藏玩法:用文字提问,要求AI只用图片回答。

他的问题是“生命的意义是什么”,AI用一系列图片来表达,画面逐渐诡异起来,令人毛骨悚然。

图片图片

他把整个过程录制成视频,下面一起来看看。

谷歌大招网友玩疯了!Gemini原生图像输出抢先推出,OpenAI一年领先优势归零

在线试玩https://aistudio.google.com/

参考链接:[1]https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

[2]https://x.com/goodside/status/1900349595718148455

[3]https://x.com/ilumine_ai/status/1900017235898622025

[4]https://x.com/nobisiro_2023/status/1900150873734733859

[5]https://x.com/linaqruf_/status/1899977818563633466

[6]https://x.com/scaling01/status/1899932304388051216

相关资讯

Gemini 2.5 Pro再更新!编程能力屠榜!一句话、一张草图变应用

出品 | 51CTO技术栈(微信号:blog51cto)AI 编码模型的新王者登基了! 今天,Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版,这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型(LLM)的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示:“这是我们迄今为止打造的最佳编码模型!
5/7/2025 10:09:08 AM

91.1% 准确率,性能远超 GPT-4 系列模型,谷歌推出多模态医学大模型 Med-Gemini

编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战:需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力,为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势,谷歌的研究人员推出了 Med-Gemini,这是一个功能强大的多模态模型系列,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini,在其中 10 项上建立了新的最先进(S
5/7/2024 6:43:00 PM
ScienceAI

谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)今天(8 月 28 日)在 X 平台发布推文,宣布推出 3 款 Gemini 实验性模型。AI在线附上谷歌本次推出的 3 款实验性 Gemini AI 模型如下:Gemini 1.5 Flash-8BGemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80 亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。Gemini 1.5 Pro Exp-0827主要增强编程、复杂
8/28/2024 11:02:41 AM
故渊
  • 1