6秒造一个「视频博主」，Pika让一切图片开口说话

作者： 2025-08-13 11:49

制作一个视频需要几步？可以简单概括为：拍摄配音剪辑。还记得 veo3 发布时引起的轰动吗？

制作一个视频需要几步？可以简单概括为：拍摄 + 配音 + 剪辑。

还记得 veo3 发布时引起的轰动吗？「音画同步」功能的革命性直接把其他视频生成模型按在地上摩擦，拍摄 + 配音 + 粗剪一键搞定。

那如果我就是想用自己迷人的声音呢？或者我自带精妙绝伦的配音？有没有其他解决方案？

有的朋友，有的！

8 月 11 日，Pika 推出了一个名为「音频驱动表演模型」（Audio-Driven Performance Model）的新模型。

Pika 允许用户上传音频文件（如语音、音乐、说唱或任何声音片段），并结合静态图像（如自拍或任意图片）生成高度同步的视频。视频中的角色会自动匹配音频，实现精确的口型同步（lip sync）、自然的表情变化和流畅的身体动作。

6秒造一个「视频博主」，Pika让一切图片开口说话

更通俗一点说就是，让任何一张静态图片，跟着你给的音频动起来，而且是活灵活现的那种。

你随便扔给它一张自拍，再配上一段马保国的「年轻人不讲武德」，你照片里那张帅气的脸，马上就能口型神同步，连眉毛挑动的时机都分毫不差，主打一个「本人亲授」。

这事儿要是放以前，你起码得是个顶级特效师，捣鼓个十天半个月才能弄出来。现在，Pika 告诉你，平均只要 6 秒。

你没看错，就是 6 秒。你上个厕所的功夫，那边视频都生成好了，而且还是 720p 高清，长度不限，想让蒙娜丽莎给你唱一整首《忐忑》都行。

不过目前功能仅限 iOS 端，且需要邀请码，期待功能尽快开放。

话不多说，我们来看看网友测评。

首先来看看我们前面提到的自拍 + 音频，效果可以说是相当惊艳了。

6秒造一个「视频博主」，Pika让一切图片开口说话

地址：https://x.com/WilliamLamkin/status/1954940047624372508

不论是说唱部分还是歌曲部分，唇同步准确性非常高，避免了以往 AI 视频中常见的「假唱」问题。

你如果仔细观察会发现说唱部分中间有一段停顿，人物的表情神态也很自然，活人感十足。不过也不是完美无缺，男歌手的手看起来就怪怪的。

Pika 官方也分享了几个用户制作的精彩视频。

地址：https://x.com/pika_labs/status/1955007656302924192

对于不同语言，Pika 生成的效果看起来也非常不错。

6秒造一个「视频博主」，Pika让一切图片开口说话

还可以生成一段不是吉米的吉米秀，AI 演员的表现力非常不错。

6秒造一个「视频博主」，Pika让一切图片开口说话

用来拍电影怎么样？让亚洲面孔的大叔一口印式英语，吐槽露营的糟糕体验。

6秒造一个「视频博主」，Pika让一切图片开口说话

还可以直接来一场 live 秀！

6秒造一个「视频博主」，Pika让一切图片开口说话

我们可以预见，它将很快成为社交媒体上的新宠，诞生无数有趣的 Meme 和创意短片。

但它的潜力远不止于此：独立游戏开发者可以用它快速生成 NPC 对话动画，教育工作者可以制作更生动的讲解视频，甚至在不远的将来，我们每个人都能拥有一个专属的、能言善辩的 AI 数字分身。

当然，技术总是一把双刃剑。当任何图片都能被赋予任何声音时，如何辨别信息的真伪也成了我们必须面对的新课题。

但无论如何，一个全民参与、创意迸发的视频新时代，似乎已经敲响了大门。下一个引爆全网的病毒视频，或许就将出自你我之手。

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"（Stable Audio Open Small）的紧凑型文本转音频模型，该模型能够在约7秒内生成长达11秒的高质量立体声音频片段，且经过优化可在智能手机等移动设备上运行。这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"（Adversarial Relativistic-Contrastive，ARC）技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人，能够在仅75毫秒内完成44kHz立体声音频的生成，实现了近乎实时的音频合成能力。

5/19/2025 10:01:05 AM AI在线

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型，这款专注于音频理解的AI模型在性能和效率两个维度都实现了显著突破。该模型不仅在22个公开评测集上刷新了多模态大模型的最好成绩，更在推理效率上展现出惊人优势——单样本推理的首Token延迟仅为业界先进模型的四分之一，数据吞吐效率更是高出20倍以上。技术架构:双核心设计实现音频全域理解MiDashengLM-7B采用了创新的双核心架构设计，以Xiaomi Dasheng作为音频编码器，结合Qwen2.5-Omni-7B Thinker作为自回归解码器。

8/5/2025 11:19:01 AM AI在线

没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源 33 款、31 款各类型大模型。

9/17/2025 6:11:00 PM 机器之心

6秒造一个「视频博主」，Pika让一切图片开口说话

相关资讯

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

没想到，音频大模型开源最彻底的，居然是小红书