AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

作者：清源 2024-07-11 04:48

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。 AI在线附相关链接：项目地址： G

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。

该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。

其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。

AI在线附相关链接：

项目地址：https://badtobest.github.io/echomimic.html

Github：https://github.com/BadToBest/EchoMimic

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

感谢快手旗下可灵 AI 官方宣布，新增对口型功能，并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后，上传音频，即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成的视频，只要满足视频画面的人脸条件，均支持对口型（目前仅支持人物类角色（真实 / 3D / 2D）进行对口型，动物类角色对口型暂不支持）。AI在线获悉，可灵 AI 正式面向所有用户开放 API 服务，支持在平台自助购买 API 资源包。官方表示，API 的效果与平台效果完全一致，1.5 模型和运动笔刷目前暂不支持 API，会尽快迭

10/3/2024 4:56:28 PM 沛霖（实习）

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 逼真对口型人像视频

据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就能够生成精确逼真的对口型视频（生成念稿子的视频），据称在表情和头部动作方面特别自然。IT之家获悉，目前业界相关许多研究都集中在对口型上，而面部动态行为及头部运动情况通常被忽视，因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往面部生成技术的限制，研究人员利用了扩散 Transformer 模型，在整体面部动态和头部运动方面进行训练，该模型将所有可

4/21/2024 6:20:39 PM 漾仔

提前 0.9 秒预测，Emo 机器人问世：能同步模仿你的面部表情

名为 Emo 的仿人机器人近日问世，它会观察你的面部表情，然后可以镜像模仿你的面部表情，达到你笑它也笑的效果。人工智能（AI）目前快速发展，现在固然可以在很大程度上模仿人类语言，不过放在实体机器人中，互动往往会产生“恐怖谷理论”（Uncanny Valley），一个重要的原因是机器人无法复制复杂的非语言暗示和举止。纽约哥伦比亚大学的霍德・利普森（Hod Lipson）及其同事们创造了一个名为 Emo 的机器人，它利用人工智能模型和高分辨率摄像头预测人们的面部表情，并试图复制这些表情。它能在某人微笑前约 0.9 秒预

3/29/2024 2:08:15 PM 故渊

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

相关资讯

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 逼真对口型人像视频

提前 0.9 秒预测，Emo 机器人问世：能同步模仿你的面部表情