备注:这篇文章写于 Veo3 发布前夕
自 24 年 H2 开始,AI 视频行业以周为单位高速发展,GenLumio 是我从 24 年开始 0-1 规划 - 设计 - 开发的 AI 视频项目,旨在为大家带来每周最新鲜的 AI 视频优秀作品、产品动向。
我计划通过这个系列的文章选取新鲜产品动向、优质作品案例为大家介绍。
上期资讯合集:
一、AI 视频模型 & 产品主要更新
Runway
Runway 发布了 Gen-4 文本转图像及图片 References 功能,测试案例达到了令人吃惊的地步 —— 可以通过添加结构参考图,将主体物可以置于参考场景中,同时可通过Prompt控制新的摄像机角度、构图、角色造型等细节。混合后的新图片中,有非常适宜的灯光、阴影和构图效果,甚至能识别简单的构图标注进行图像生成。同时也支持对图片风格进行参考。
该功能可以用于主体物多角度一致性、绿幕图生成、甚至 3D 模型在不同场景的渲染,以下是一些案例:
该能力可以快速实现 3D 白模在不同场景的渲染
这里值得一提的是 Runway 参考图片引用的交互方式,就像@某个人那样,你可以通过@来引用需要参考的图像,来替代在历史图片库中查找。
Veo2 可以免费体验了
Veo2 的体验入口终于被我找到了,Google 的产品入口比较分散,交互体验也很一般,但这不影响我对 Veo2 模型能力的赞美之情。Veo2 支持生成 8s 视频,并且可以上传图片体验 I2V,测了几条感觉 T2V 的效果是真不错,I2V 的部分案例非常惊艳,提示词遵循能力做的很好,绝对是当下第一梯队的模型能力。例如这个篮球进入篮筐的镜头,我测试过世面上大部分模型只有 Veo2 干净利落的成功了。
当视频在手机上无法加载,可前往PC查看。现在每日可以免费生成几个无水印视频,日常需求已足够:https://aistudio.google.com/generate-video
Pixverse
刚刚更新了 4.5 模型,更新了 20+ 摄像机控制功能、多元素参考和融合,并且模型价格相比 4.0 降低了一些,但比起其他产品还是偏贵的,效果也不在第一梯队,就不过多介绍了。
HeyGen
HeyGen 近期进行了产品大幅更新。真实人物、宠物、插画都可以生成对口型视频,除了对口型的准确度提高,另外还支持了多角度对口型:侧面、仰视视角都可以生成。嘴巴以外,人物的面部肌肉有自然的运动,看了一些案例,通常人物的手部、整体画面也有轻微运动,但如果这样的运动可以更多,再配合一些镜头移动效果,视频的真实感会得到极大提升。
当视频在手机上无法加载,可前往PC查看。使用 HeyGen 制作音乐 MV
其中语音镜像功能很有趣,AI 可以模仿你输入的真实音调、语调和节奏,并且匹配对应口型,这个功能极大提高了视频制作的可控性。
当视频在手机上无法加载,可前往PC查看。HeyGen 语音镜像
另外推荐一则 HeyGen 制作的创意短片。
当视频在手机上无法加载,可前往PC查看。visiblemakers 使用 HeyGen 制作的短片
新产品
① Pippit 字节电商营销新产品
继去年写过 HeyGen、Opus Clip 之后,在 AI 视频进展中还没有提过电商营销新产品,近期 Capcut 背后的新产品 Pippit 在 Product Hunt 登顶,提供的能力非常丰富。
我输入了 GenLumio 的网页链接,消耗 120 积分让 Pippit 帮我的网站制作视频,Pippit 一次性生成了 10 条视频,看上去每条视频的数字人语气都真的像那么回事的。只是在爬取了网页信息后,AI 撰写的文本对 GenLumio 的功能进行了夸大,产品介绍文本基本没法用,需要后期人工调整。
当视频在手机上无法加载,可前往PC查看。同时,该领域还有 Creatify、Captions 值得关注。
② Medeo
一款 AI 视频剪辑的 Agent 产品,支持输入 URL、文章、文件内容进行视频生成。
我先是输入了此前 AI Coding 的文章和 GenLumio 网站进行测试。和 Pippit 不同,Medeo 并没有使用文章或者网页中的相关资源,而是通过对内容进行一定总结后生成了一段总结性文本,并且根据内容生成了图片,再进行图生视频。生成的效果有点像科普风(也可能和我的内容有关),如果想要建立有特色的个人账号,可能还是要花一些功夫,但是对一些新闻科普、小说故事剧情讲解视频来说,这种快速低成本制作出来的视频已经够用了。
下面的视频分别是让 Medeo 生成间谍过家家动漫介绍短片;对 AI Coding 文章进行总结,在短视频平台介绍我的 AI Coding 经验:
当视频在手机上无法加载,可前往PC查看。交互上 Medeo 提交 Prompt 后会直接消耗大额积分进行视频生成,生成视频中的文本也和输入 Prompt 的语言匹配,这点前置感知也非常不强烈。Medeo 缺乏了 Gemini、Lovart 等产品分布完成或主动确认任务的可控感。如果在执行几十秒视频生成的复杂任务前,事先进行任务理解、偏好询问,并对生图、文案进行分步确认,会让结果更具备可控性。
Gemini 和 Lovart 的确认过程
感兴趣的朋友可以试用,每个账号可免费生成一次: https://ai.medeo.app
③ Ponder
一个即将发布的 AI 视频编辑器,可以通过 Prompt 命令对原始拍摄素材进行 AI 剪辑
这里加入 waitlist: https://ponder.ai/
当视频在手机上无法加载,可前往PC查看。二、最新优秀案例
动漫短片
传统动画师使用 Runway 做了非常优秀的动画剧集《Mars and Siv. 》,现推出了第一集。整体风格创作模仿了小时候的动画片,分镜、角色设计和场景建模均由传统流程中的人工完成,通过 Runway 对渲染图进行连贯动画生成,然后刻意抽取中间帧,做成了定格效果。
文章中讲述了详细创作过程: https://runwayml.com/customers/the-making-of-mars-and-siv
视频中很多画面采取了分角色生成+绿幕合成的制作:
当视频在手机上无法加载,可前往PC查看。再次被 yachimat 的作品惊艳到,不论画面美感、配音、BGM、动画效果都是日漫风格创作者中的绝佳了。
当视频在手机上无法加载,可前往PC查看。叙事短片
来自 Runway CEO Cristóbal Valenzuela 发表的作品,讲述了一只猫在城市中的生活,短片中动物肢体运动协调真实,镜头跟随猫咪进入不同场景,镜头切换非常自然。
当视频在手机上无法加载,可前往PC查看。广告片两则
来自汗青团队的新作(创意真的没有瓶颈),这是一条 Lovart 的广告片,讲述 AI 是如何做梦露的 IP 商业化设计的,视频故事从一次安迪沃霍尔的设计师面试开始说起。
当视频在手机上无法加载,可前往PC查看。Snoop Dogg 的作品。由 Dave Meyers 执导。携手 30 多位艺术家,将传统艺术(3D、绘画等)与 AI 结合,画面有一些拼贴艺术效果。
当视频在手机上无法加载,可前往PC查看。4 个视频制作经验分享
来自 Freepik 官方的视频,这套面部表情的提示效果非常好
当视频在手机上无法加载,可前往PC查看。来自 Ray (movie arc)分享的案例:Gen-4 提示词技巧:“视图突然被四等分,同一镜头的不同未来发生在四个四分之一中”(二等分和“细分为 X”也有效)
当视频在手机上无法加载,可前往PC查看。来自 madpencil_分享的案例:上传一张黑色空白图片,然后在上面提示任何内容,这个技巧几乎适用于所有平台,尤其是在像 Gen 4 这样的模型上:低角度拍摄,摄像机跟踪一滴清澈的水摆动并弹跳下来/漂浮/(地点设置),水滴溅到摄像机镜头上,形成了文字“XYZ”。
当视频在手机上无法加载,可前往PC查看。来自 Cristobal Valenzuela 分享的案例:如果你希望在 Gen-4 中实现有趣的摄像机运动,一个很好的建议是使用如下提示结构:“允许摄像机在整个场景中完全自由地移动,采用动态技术,例如俯冲空中运动、戏剧性的俯冲过渡、快速鞭打摇摄和平滑跟踪”。
当视频在手机上无法加载,可前往PC查看。三、近期 AI 视频产品调研结论
记录下近期 AI 视频产品的观察结论:
- Runway、Luma 等产品这几个月一直在发力生图模型能力,AI Wrapper 忙着把所有模型能力集成在一起。在 AI 生图、视频方向上,也许存在定义下一代交互方式的机会,没有创业者会不为此心动
- 主体物参考(画面内容一致性、风格迁移)、首尾帧是视频创作的刚需,前者除了 Veo 和 Sora,其他主流产品几乎全部支持,后者 Hailuo AI 还没有补齐
- 调研了一圈 AI 视频模型每秒生成成本,Veo($0.3/s)以微弱差异高于 Runway Gen4($0.29/s)成为最贵模型,但 Veo 的效果真的让人没话说,Google 在 AI 模型领域的长期发展还是可期待的。
综合价格和生成效果来看,Vidu Q1($0.06/s)依然是动漫领域性价比较高的选择,和同价格档位其他产品相比 Q1 可以直出 1080P 画质,近期还推出了升级 2K、4K 能力,生成速度很快,继续推荐。
Kling 1.6 720P($0.04/s)确实是最便宜的模型,偏好真实系方向的朋友可选择。