字节跳动 OmniHuman 多模态视频生成模型即将上线，图片 + 音频便可生成视频

作者：浩渺 2025-02-07 05:17

据第一财经报道，即梦 AI 相关负责人透露，OmniHuman 模型未来会进行小范围内测，官方也会对这一功能设置严格的安全审核机制，并对输出的视频标注水印以作提醒。

据第一财经报道，字节跳动旗下一站式 AI 创作平台即梦 AI 将上线多模态视频生成模型 OmniHuman，仅需一张图片与一段音频便可生成一条 AI 视频，该模型为字节自研闭源模型。

即梦 AI 相关负责人透露，该模型未来会进行小范围内测，官方也会对这一功能设置严格的安全审核机制，并对输出的视频标注水印以作提醒。

AI在线注意到，字节跳动的研究人员近日展示了一款 AI 模型，可以通过一张图片和一段音频生成半身、全身视频。字节跳动表示，和一些只能生成面部或上半身动画的深度伪造技术不同，OmniHuman-1 能够生成逼真的全身动画，且能将手势和面部表情与语音或音乐精准同步。

字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

想象一下，仅凭一张照片，就能在几秒钟内看到这个人说话、做动作，甚至进行表演，这就是字节跳动推出的 OmniHuman-1的魅力所在。这款近期在网上走红的人工智能模型，可以通过生成高度逼真的视频，使静态图像焕发活力，配合音频片段，实现口型同步、全身肢体动作和丰富的面部表情。与传统的深度伪造技术不同，OmniHuman-1不仅仅局限于人脸替换，而是能够完整地动画化整个身躯，包括自然的手势、姿态，以及与物体的互动。

2/11/2025 10:23:00 AM AI在线

不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂

想象一个虚拟人，他不仅能精准地对上你的口型，还能在你讲到关键点时做出恍然大悟的表情，在你讲述悲伤故事时流露出同情的神态，甚至能根据你的话语逻辑做出有意义的手势。这不再是科幻电影的场景。 8 月底，字节跳动数字人团队推出了 OmniHuman-1.5，提出了一种全新的虚拟人生成框架，让虚拟人真正拥有了「思考」和「表达」的能力。

9/5/2025 3:22:00 PM 机器之心

字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统，能够将单张照片转化为逼真的视频，展示人物的讲话、歌唱以及自然的动作。这一突破性技术有望彻底改变数字娱乐和通讯领域。 OmniHuman 能够生成全身视频，展现人物在讲话时的手势和动态，超越了以往仅能动画面部或上半身的 AI 模型。

2/5/2025 10:56:00 AM AI在线

字节跳动 OmniHuman 多模态视频生成模型即将上线，图片 + 音频便可生成视频

相关资讯

​字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂

​字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频