谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

作者：远洋 2025-04-10 02:54

谷歌为视频AI模型Veo 2推出修复、外扩等新功能，可自动移除干扰元素或扩展画面，支持电影技巧预设，提升视频编辑效率。同步更新的还有Imagen 3图像模型及音频AI工具。#谷歌AI# #视频生成技术#

感谢谷歌为其视频 AI 模型 Veo 2 推出新功能，旨在帮助用户更轻松地生成具有电影质感的画面以及编辑真实视频。这些新增的 Veo 2 功能目前可通过谷歌云的 Vertex AI 平台进行预览，与此同时，谷歌还对文本转图像生成器 Imagen 3 以及音频相关 AI 模型进行了更新。

据AI在线了解，Veo 2 的新功能包括修复功能（inpainting）和外扩功能（outpainting）。谷歌表示，修复功能可以自动移除视频中的“不想要的背景图像、标志或干扰元素”，而外扩功能则能够将原始视频的画面进行扩展，该工具会用 AI 生成的视频片段填充新增的空间，使其与原始片段自然融合，类似于 Adobe 为图像提供的生成式扩展功能。

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

此次更新还允许 Veo 2 用户在生成画面时，将电影拍摄技巧预设与文字描述一同选用，以便指导最终结果中的镜头构图、拍摄角度和节奏。例如，预设包括延时效果、无人机视角以及模拟不同方向的镜头平移等。

此外，Veo 2 新增了一种插值功能，能够为两个静态图像之间创建视频过渡，为开头和结尾序列填充新的帧。

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

Adobe 的竞争产品 Firefly 视频模型也具备一些类似的功能，其生成式 AI 视频扩展功能于上周在 Premiere Pro 中推出。谷歌还在其 AI 生成的输出中加入了 SynthID 数字归属水印，类似于 Adobe 的内容凭证系统。不过，Adobe 进一步承诺其工具完全可用于商业用途，因为它们是基于授权和公有领域内容进行训练的，而谷歌在训练其 AI 模型时大量抓取了网络上的内容，无法达到这一标准。

在文本转图像模型 Imagen 3 方面，谷歌对其编辑功能进行了更新，声称可以“显著”提升自动移除物体的效果，使移除干扰元素后的结果看起来更加自然。Veo 2 和 Imagen 3 已被包括欧莱雅和卡夫亨氏在内的公司用于营销内容制作。卡夫亨氏的数字体验负责人贾斯汀・托马斯表示，过去需要八周才能完成的任务，现在只需八小时。

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

在音频领域，谷歌推出了其文本转音乐模型 Lyria 的私人预览版，并为其合成语音模型 Chirp 3 推出了“即时定制语音”功能。谷歌称，Chirp 3 现在能够从 10 秒的音频输入中生成“逼真的定制语音”，并且正在推出一项新的转录功能预览，该功能可以识别并分离出多人对话中的各个说话者，从而为多参与者的谈话提供更清晰的转录。

这些更新只是谷歌今日宣布的一系列 AI 相关消息中的一部分。谷歌效率优化型 Flash 模型的最新版本 Gemini 2.5 Flash 即将登陆 Vertex AI。谷歌表示，Gemini 2.5 Flash 会根据任务的复杂程度“自动调整处理时间”，以便为简单请求提供更快的结果。

此外，谷歌本周还将更新其面向企业的 Agentic AI 工具，使 AI 代理能够在不同平台（如 PayPal 和 Salesforce）之间相互沟通并执行任务。同时，谷歌云市场将推出一个新板块，供企业浏览和购买由第三方谷歌合作伙伴构建的 AI 代理。

谷歌推出 Imagen 4 / Ultra 系列 AI 文生图模型，每张图片 0.04 美元起

谷歌发布最新文本生成图像模型Imagen 4系列，包含标准版和高端Ultra版，定价分别为0.04美元和0.06美元每张。谷歌称其效果优于Dall-E和Midjourney，但实际表现仍显机械化。目前已在Gemini API付费预览版上线。#AI绘画##谷歌AI#

6/26/2025 11:05:36 AM 远洋

Midjourney 迎来最强对手，种子轮融资大佬云集，测试版让马斯克一「键」穿越

机器之能报道编辑：SIA一直以来，Midjourney 稳坐 AIGC 文生图的王座，少有威胁，直到这家公司的出现。8 月 23 日，生成式人工智能创业公司 Ideogram AI 正式官宣：「我们正在开发最先进的人工智能工具，使创意表达变得更容易、更有趣、更高效。」官网写道。团队核心成员也是谷歌大脑 Imagen 团队主要成员， Ideogram AI 也被认为试图将 Imagen 发扬光大：Mohammad Norouzi（CEO ）、Jonathan Ho (联合创始人）、 William Chan 和 C

8/24/2023 5:35:00 PM 机器之能

文生图技能再进化，谷歌推出 Imagen 3：更准确、更具创造性

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布推出了 Imagen 3，进一步增强了文本生成图片的技术能力。谷歌人工智能研究部门 DeepMind 负责人德米斯-哈萨比斯（Demis Hassabis）说，与前代产品 Imagen 2 相比，Imagen 3 能更准确地理解文字提示，并将其转化为图像，而且其生成的图像更具“创造性和细节”，且模型产生的干扰元素和错误也更少。为了打消人们对 Deepfake 可能性的担忧，谷歌表示，Imagen 3 将使用 DeepMind 开发的 SynthID 方法

5/15/2024 2:36:36 AM 故渊

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

相关资讯

谷歌推出 Imagen 4 / Ultra 系列 AI 文生图模型，每张图片 0.04 美元起

Midjourney 迎来最强对手，种子轮融资大佬云集，测试版让马斯克一「键」穿越

文生图技能再进化，谷歌推出 Imagen 3：更准确、更具创造性