AI在线 AI在线

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

大家好,我是言川。 Google 在上周还整了个大活:在 I/O 大会上正式发布了全新的视频生成模型——Veo 3。 说实话,当我第一次看到它的演示视频时,脑子里冒出来的第一个词就是:离谱。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

大家好,我是言川。

Google 在上周还整了个大活:在 I/O 大会上正式发布了全新的视频生成模型——Veo 3。说实话,当我第一次看到它的演示视频时,脑子里冒出来的第一个词就是:离谱。

过去我们印象中的 AI 生成视频,顶多也就是“动图级别”的尴尬拼贴,没声音、没氛围、没情绪,像个木偶剧。

而现在,Veo 3 直接把这套标准打碎重建。现在你看到的,不再是冰冷的片段,而是真正“会说话”“有情绪”的拟人级视频生成。

我直接放几个案例,大家感受下:

一位游戏主播在直播《堡垒之夜》,视频中的人物情绪、表情、手势,全是 AI 一次生成的。

作者@Matt Shumer

甚至连游戏操作画面,Veo 3 都能“凭空捏造”。

作者@Matt Shumer

你能想象古希腊的毕达哥拉斯,亲口讲解他的定理吗?AI 让他“复活”了。

作者@Pietro Schirano

一只大猩猩对你说“我要检查你的早餐”……离谱,但好笑。

作者@MattVidPro Al

一个街头采访视频,完全由 AI 生成——我第一次看的时候,真的没看出来,这竟然不是实拍。

作者@Min choi

最后这个,堪称“AI 致敬好莱坞”:一段充满电影质感的动作镜头,如果不是我刷过好几遍《头号玩家》,我真不会怀疑这居然是模型生成的。

当视频在手机上无法加载,可前往PC查看。

作者@Rishi

没错,以上这些令人头皮发麻的片段,全部都出自 Google 最新的视频生成模型:Veo 3。

更多案例:

8秒出大片!10个案例实测谷歌Veo 3视频生成功能

前几天的 2025 年 Google I/O 开发者大会上,谷歌发布了一系列先进的图像和视频生成工具,好玩的太多了,我还没来得及一一体验,今天先尝试一下最近超级火的 Veo 3 视频生成。

阅读文章 >

那么本篇文章,我将带大家深入了解 Veo 3 的使用方式。同时,在文章结尾,我也会手把手教你:如何使用 AI 撰写视频生成提示词,帮你提升提示词质量,打造更符合预期的视频内容。

目前,在 Google 现有的产品矩阵中,支持 Veo 3 模型的路径有两个,分别是:Google Flow 和 Google Gemini,我们先从 Flow 开讲:

一、Google Flow 是什么?

1. 产品介绍

简单说,Google Flow 是一款全新的 AI 视频创作工具。你只需要输入一句话,或者上传一张图片,它就能自动生成一段具有电影质感的视频片段,甚至还内置了视频编辑能力。

Flow 工具背后的三大核心引擎,分别是 Veo 3 视频模型、Imagen 4 图像模型以及 Gemini 2.5 系列模型。

而这些模型也就是 Google 上周在 I/O 大会上同步亮相的全新模型,用一句话概括 Flow 的定位:“一句话 / 一张图,出一部短片”。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

Flow 官方地址在这: https://labs.google/flow/about

但要注意两个使用门槛:

  1. 登录地区必须是美国(其他地区基本打不开)。
  2. 需要订阅 Google AI Pro 或 Ultra 套餐,才能解锁最新的 Veo 3 模型。

第一个门槛大家自行解决。我教大家如何白嫖 Pro 订阅计划,两种方式:

① 首月免费使用,前提是你需要一张海外支付卡(如美区虚拟卡),可随时取消订阅,地址: https://one.google.com/about/google-ai-plans/

② 申请学生免费计划,最长可获得 15 个月免费 Pro 会员,这个你们可以自己想办法申请,地址在这: https://gemini.google/students/

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

我自己测试用的是第一种:首月免费试用 Pro 会员,开完会员后系统会赠送 1000 积分,Veo 3 视频模型生成所消耗的积分是 100,也就是说,最多可生成 10 个视频。

2. 使用说明

模型设置

首先是模型设置的部分。目前 Flow 一共提供了三档模型选项:Fast、Quality、Highest Quality。

其中,前两者其实用的是上一代的 Veo 2 模型,而真正支持音频生成 + 情绪细节控制的,是第三个选项:Highest Quality,也就是最新的 Veo 3 模型。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

生成模式

Flow 目前支持三种生成模式,分别是:文本到视频、帧转视频和素材转视频。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

文本到视频:这个是最推荐也最主流的用法。只需要输入一句话或一段描述文字,Flow 就能直接生成一段 8 秒左右的视频。

提示词:olympic skateboarder being interviewed by a reporter with a gold medal hanging around her neck. the reporter asks "and what are you doing next?" the skateboarder says "I'm going to sell enterprise software in SF!"

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

Veo 3 的指令遵循度非常高,视频中的角色对话完全按提示词来,甚至连口型都跟语音高度同步。

作者@Justine Moore

帧转视频:上传 1~2 张图片,Flow 可以基于图像内容生成中间帧视频,实现首尾帧的效果。目前首尾帧功能只支持 Veo 2 模型。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

该模式支持预设镜头运动轨迹,让你控制画面如何过渡,但依旧只有 Veo 2 模型可用。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

提示词:Astronauts leave the museum across the bridge.

素材转视频:这个模式主打“风格迁移”和“视频延展”,你可以上传多张图像,Flow 会自动补齐缺失的画面逻辑,甚至做风格重建。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

但该功能目前仅对 Ultra 会员 开放。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

提示词:a woman that has a transparent glass torso containing reddish-orange lava-like blobs rides in the back of a cab.

视频编辑

最后,就是 Flow 的 Scene Builder 功能。它就像是拼故事的时间轴,让你把多个短视频片段像拼图一样组装成一个连贯、有情节的完整影片。你可以在 Flow 的顶部找到它。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

或者是,在生成视频后,点击“Add to scene”功能,快速将该视频加入到“Scene Builder”中。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

加入进来后,你就可以对该视频片段进行后续的编辑修改了。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

在编辑视频片段时,有两个功能:Jump to 和 Extend。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

Jump to:将选定片段的后面部分重新生成,比如让这个女孩下车后跑向森林。 提示词:She runs through the forest.

Extend:将所选视频片段延长,比如女孩到家参加街上的庆祝活动。 提示词:She arrives home to a celebration in the street

完成多个片段后,使用“Arrange”功能,可以重新调整各个视频段落的顺序

最后,一键导出即可。但为啥这个视频没有配音呢,其原因在于目前 Flow 的视频编辑功能,仅支持 Veo 2 模型编辑生成。

当视频在手机上无法加载,可前往PC查看。

总结一下,Flow 和以往的 AI 视频工具有本质上的不同,它不仅能生成高质量视频,还能对视频进行结构化编辑。

背靠 Veo 3 的多模态能力,Flow 不仅可以生成“有声音、有情绪、有互动”的视频片段,还能借助 Scene Builder 保持角色一致性、逐帧叠加修改,实现真正意义上的“一站式 AI 视频创作”。

二、Gemini 生成视频

除了 Flow,Veo 3 现在也已经集成进了 Google 自家的多模态对话平台——Gemini。

你可以像平时聊天一样,在对话框中直接输入提示词,通过 Gemini 的“视频”功能,就能一键生成视频内容。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

地址在这: https://gemini.google.com

目前,Gemini Pro 用户享有 10 次免费生成配额,生成 Veo 3 视频不会消耗积分。想白嫖的朋友,可以回顾上文提到的 Pro 会员开通方式~

我们来看一个实际案例,直接在对话框中输入提示词:

提示词:A beautiful young woman ASMR creator, sitting in a cozy, softly lit room. She types on a noisy mechanical keyboard, then looks up with a playful smile and gently blows into the microphone. As she whispers sweetly into the mic, she says, "Brother Yanchuan is really so handsome!"

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

翻译成中文:一位年轻漂亮的 ASMR 创作者坐在一间温馨、灯光柔和的房间里。她敲击着发出咔嗒声的机械键盘,然后抬头露出俏皮的笑容,轻轻地对着麦克风吹气。她轻声细语地对着麦克风说:“言川哥哥真的好帅!”

在使用 Veo 3 模型生成视频时,你是可以指定视频中人物说话的内容,比如“言川哥哥真的好帅!”

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

ASMR!!!我酥了......来听听这段视频:

三、提示词模板

接下来,是大家呼声最高的部分:怎么写 Veo 3 的视频提示词?

我们先来拆解一套标准的提示词结构:

提示词核心构成要素:

  1. 主体 : 视频中主要的对象、人物、动物或场景。
  2. 动作 : 主体正在做什么。这是视频的核心动态。
  3. 背景/环境 :视频发生的地点和周围环境。
  4. 风格:视频的视觉美学或艺术风格。这可以是通用的,也可以非常具体。
  5. 运镜:摄像机如何移动以及镜头如何构图。这能极大地影响视频的氛围和叙事。
  6. 氛围/光线:视频的整体情绪、色调和光照条件。
  7. 音频:Veo 3 支持音频生成,包括环境音效、背景噪音甚至对话。请明确指定你想要的音频。

申明:这只是一套提示词结构规范,你也可以挑选部分要点进行组合描述,甚至是只有一句话也能生成高质量的视频,毕竟 Veo 3 模型对语义的理解非常强。但如果你想更准确的控制 AI 生成,那么提示词越详细越好。

当提示词结构出来后,可能你还是不知道如何去描述你想要的画面,或者是觉得太麻烦了。那么我推荐你使用大语言模型来生成提示词,而你只需要提供几个核心的关键词即可。

指令模板如下,【】中的内容,就是你可以修改的主题关键词。

我需要使用 Google 的 Veo 3 模型生成一段【电影级别的枪战】视频,请按照我给你提供的提示词结构,帮我提供完整的视频提示词。

提示词结构:

  1. 主体 : 视频中主要的对象、人物、动物或场景。
  2. 动作 : 主体正在做什么。这是视频的核心动态。
  3. 背景/环境 :视频发生的地点和周围环境。
  4. 风格:视频的视觉美学或艺术风格。这可以是通用的,也可以非常具体。
  5. 运镜:摄像机如何移动以及镜头如何构图。这能极大地影响视频的氛围和叙事。
  6. 氛围/光线:视频的整体情绪、色调和光照条件。
  7. 音频:Veo 3 支持音频生成,包括环境音效、背景噪音甚至对话。请明确指定你想要的音频。

注意以下几点:、

  1. 最后输出的结果需要是一整段不带分类标签(如主体、动作等)的提示词。
  2. 分别提供中英文两套提示词。

你可以使用 ChatGPT、Gemini、Deepseek 等 AI 聊天工具,但建议你将“搜索”功能开启,这样的话,AI 可以根据你提供的主题关键词,自动检索相关的资料信息,写出的提示词效果会更好。

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

你可能会问:为什么还要写一份中文提示词?

原因很简单:目前 Flow 只支持英文输入,但中文提示词更方便像我这种英语苦手先理解画面,再翻译确认~所以,中英双份提示词 = 更高效率 + 更低试错成本。

战争片场景--提示词:On a war-torn urban street, two special forces soldiers in tactical gear engage in an intense firefight amidst the rubble, bullets whizzing through the air, sparks flying, and deafening explosions. The street is lined with burning vehicles and collapsed buildings, with thick smoke billowing and flames lighting up the night sky. The scene adopts a cinematic action movie style, with rapid cuts capturing the soldiers' tense expressions and swift movements. The camera employs handheld tracking, weaving through the combat scene to create an immersive sense of urgency. The overall color tone is cool, highlighting the brutality and tension of the battlefield, with lighting primarily from explosions and muzzle flashes. Audio includes intense gunfire, explosions, soldiers' shouts, and background sirens, enhancing the realism and urgency of the scene.

生成的效果有点尴尬,这三个人不知道在干嘛......

换个主题,你可以继续对 AI 下达指令:

对话指令:换个主题案例,脱口秀演员

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

脱口秀俱乐部--提示词:In a dimly lit comedy club, a casually dressed stand-up comedian stands center stage, holding a microphone and smiling as they share humorous anecdotes from everyday life, eliciting bursts of laughter from the audience. The background features red velvet curtains, with spotlights hanging above the stage, creating a warm and intimate atmosphere. The camera uses medium shots, occasionally cutting to audience reactions, capturing their laughter and applause. The overall style is documentary-like, with warm tones and soft lighting, emphasizing the authenticity of the live performance. Audio includes the comedian's clear voice, audience laughter, and occasional clapping, enhancing the ambiance of a live show.

好了,以上就是本次提示词撰写的全部内容。前段时间就有不少宝子私信催我更新,这次借着 Flow 的上线,我特地围绕 Veo 3 做了一个完整提示词教学,希望能帮你在生成视频时少走弯路、少烧积分。

最后我们再来欣赏几个视频案例:

提示词:Two men filming in a podcast studio. First man says "We did it—my grandma could start a podcast now."The second man responds "Should I call her for content ideas?"

提示词:A 50mm cinematic medium shot of a Latina business woman in her 30s, standing on a staircase in a Hogwarts library at night. Her arms are wide, eyes closed, as a glowing vortex of books swirls around her. Her medium-length dark hair blows in an electric wind, with golden motes of light connecting the flying books in a storm of knowledge. The setting is a magical, golden Hogwarts library. Cinematic, dramatic lighting.

提示词:A short video scene of two muffins baking in an oven. The camera is inside the oven, cinematic close-up with soft golden lighting. Steam rises slightly as the muffins rise in the heat.First muffin: "I can't believe this Veo 3 thing can do dialogue now!"Second muffin: "AAAAH, a talking muffin!"The scene should be comedic and surreal, with subtle facial expressions on the muffins to convey surprise and confusion.

提示词:A college professor doing a class on Gen Z slang and the video pans over to all the boomers taking notes and seeming super interested.

好了,这就是我这次对 Veo 3 的完整体验分享。

写到这里,其实我脑子里只有一个感受:AI 正在把“创作”这件事,变成一件越来越轻的事情,但对创作者的要求,其实变得越来越重。

轻,是因为门槛真的降低了:你不需要懂拍摄,不需要懂剪辑,也不需要后期调色,你只要输入一句话,就能得到一段“像模像样”的电影级短片。

重,是因为“那句话”该怎么写,成了新的壁垒——提示词写得清不清楚?逻辑顺不顺?细节有没有落下?这些决定了 AI 能不能听懂你。

而这,也正是我们未来创作力的分水岭。

AI 不会取代谁,但它确实正在逼着每个人“表达得更准确、思考得更具体”。

所以,别把它当成灵感的终点,而是把它当成表达的放大器:你说得越清楚,它就做得越极致。 而你要做的,就是成为那个能让 AI 明白你想法的人。

如果你想学习 AIGC,可以加入我主理的《优设 AI 俱乐部》,俱乐部内沉淀有 2000+ 优质 AI 学习资料,涵盖 AI 绘画、AI 视频、AI 提示词、AI 工具库、AI 商业设计案例、研究报告......

也可以点击链接: https://wx.zsxq.com/group/15288828142182

实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)

相关资讯

8秒出大片!10个案例实测谷歌Veo 3视频生成功能

前几天的 2025 年 Google I/O 开发者大会上,谷歌发布了一系列先进的图像和视频生成工具,好玩的太多了,我还没来得及一一体验,今天先尝试一下最近超级火的 Veo 3 视频生成。 后续再尝试下 Imagen 4 和 Flow 平台和大家分享。 先简单介绍一下。
5/27/2025 7:31:45 AM
阿真Irene

早报速读!2025年5月最新AI视频产品评测&优秀案例

备注:这篇文章写于 Veo3 发布前夕. 自 24 年 H2 开始,AI 视频行业以周为单位高速发展,GenLumio 是我从 24 年开始 0-1 规划 - 设计 - 开发的 AI 视频项目,旨在为大家带来每周最新鲜的 AI 视频优秀作品、产品动向。 我计划通过这个系列的文章选取新鲜产品动向、优质作品案例为大家介绍。
5/26/2025 1:50:21 AM
Bay的设计奥德赛

谷歌计划融合 Gemini 与 Veo 模型,打造全能 AI 助手

谷歌DeepMind CEO透露,计划将Gemini AI与Veo视频生成模型融合,提升AI对物理世界的理解能力。Gemini已支持多模态,可生成图像、文本和音频,行业正朝“全能”模型发展。#AI技术##谷歌Gemini#
4/13/2025 8:53:57 AM
远洋
  • 1