AI在线 AI在线

快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。 然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。 大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入,缺乏真正的交互能力。
图片

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入,缺乏真正的交互能力。

为了解决这些问题,快手可灵团队(Kling Team) 提出了一种名为 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通过自回归视频生成结合轻量化扩散去噪头,实现了多模态条件下实时、流畅的数字人视频合成。该系统具备三大核心优势:

  • 64× 高压缩比自编码器,将每帧压缩至最多 60 个 token,大幅降低计算负荷;

  • 低于 500ms 端到端生成延迟,支持实时流式交互;

  • 4 步扩散去噪,在效率与视觉质量间取得最佳平衡。

该项研究已被广泛实验验证,在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色,为数字人实时交互提供了全新解决方案。

图片
  • 论文标题:MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation

  • 论文地址:https://arxiv.org/pdf/2508.19320

  • 主页地址:https://chenmingthu.github.io/milm/

核心创新

1. 多模态指令控制机制

MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器,将不同模态编码到共享潜在空间,形成全局指令令牌,构建 frame-by-frame 的 chunk 注入,引导自回归模型生成语义和空间一致的数字人动作与表情。

图片

2. 因果潜在预测 + 扩散渲染

模型可嵌套任意类似大语言模型的自回归架构,逐帧预测潜在表示,再由一个轻量级扩散头进行去噪和高清渲染。这种设计既保证了生成的连贯性,也大幅降低了计算延迟,适合实时流式生成。

3. 高压缩率自编码器(DC-AE)

为实现高效的自回归建模,团队设计了压缩比高达 64 倍的 DC-AE,将每帧图像表示为最多 60 个令牌,支持分辨率最高达 384×640 的图像重建,并引入因果时序卷积与 RoPE 注意力机制保障时序一致性。

图片

4. 大规模多模态对话数据集

为训练模型,研究者构建了一个约 2 万小时的大规模对话数据集,涵盖单人、双人对话场景,涵盖多语言、多风格内容,为模型提供了丰富的语境与交互样本。

方法概要

  • 模型架构:采用 Qwen2.5-3B 作为自回归主干网络,扩散头基于 PixArt-α /mlp 结构。

  • 训练策略:引入可控噪声注入,通过 20 级噪声桶和对应嵌入,缓解自回归模型在推理阶段的曝光偏差问题。

  • 推理机制:支持分块流式生成,每块 6 帧,可实现 480ms 级别的低延迟响应。

图片

效果展示

1. 双人对话生成

系统可实时处理双人对话音频流,生成与语音同步的口型、表情和倾听姿态,支持自然轮流对话:快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

      双工对话示例

2. 跨语言歌唱合成

在没有显式语言标识的情况下,模型精准实现中文、日文、英文歌曲的唇形同步,生成视频可达 4 分钟无显著漂移:快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

      多语言歌唱合成效果

3. 通用交互世界模型

通过在 Minecraft 数据集上训练,MIDAS 可响应方向控制信号,展现出良好的场景一致性与记忆能力,验证了其作为交互式世界模型的潜力:快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

      Minecraft 环境下的交互生成示例

总结

MIDAS 在双边对话、多语言生成等任务中,MIDAS 均实现实时生成(<500ms 延迟), 并且扩散头仅需 4 步去噪,在效率与质量间取得最佳平衡,支持长达几分钟的连续生成,且质量衰减显著低于基线方法。

MIDAS 不仅为实时数字人生成提供了端到端的解决方案,更探索了多模态自回归模型在交互式媒体生成中的潜力。其模块化设计允许灵活扩展至更多模态与控制信号,为虚拟人直播、元宇宙交互、多模态 AI 智能体等应用奠定了技术基础。

团队表示,未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力,并推进系统在真实产品环境中的部署。

相关资讯

可灵AI全球发布2.0模型,史上最强视觉模型来了!网友:人人都能手搓科幻片

这次,可灵 AI 又出尽了风头。 4 月 15 日,可灵 AI 开了场发布会,高调推出最新升级的两款基础模型 —— 可灵 2.0 视频生成模型和可图 2.0 图像生成模型。 新模型效果好到什么程度?
4/17/2025 10:35:00 AM
机器之心

号称效果对标 Sora:快手视频生成大模型“可灵”开放邀测

感谢快手“可灵”视频生成大模型今日正式上线。官方表示,可灵大模型为快手 AI 团队自研,其采用 Sora 相似的技术路线,号称结合多项自研技术创新、效果对标 Sora。 据介绍,可灵大模型具备如下优势:可生成大幅度的合理运动可模拟物理世界特性具备强大概念组合能力、想象力生成视频分辨率为 1080p,时长 2 分钟(帧率 30fps),支持自由调整宽高比IT之家从快手方面获悉,可灵大模型已在快影 App 开放邀测体验。此外,基于“可灵”大模型,未来还将有更多应用方向即将落地,近期将首发“AI 唱跳”新玩法,可以同时驱
6/6/2024 3:58:22 PM
清源

快手可灵 AI 网页端上线:所有功能限时免费,单次视频生成时长增至 10 秒

感谢快手今日宣布可灵 AI 网页端正式上线,所有功能限时免费(需自行申请)。“文生视频”开放最长 10 秒生成能力,“图生视频”新增运镜控制、自定义首尾帧等功能。官方演示视频: IT之家实测,可灵 AI 网页端提供 AI 图片、AI 视频以及即将上线的视频编辑三大板块。AI 图片可以登录后直接使用,用户通过文字描述即可获得自动生成的图片,另外还可以添加参考图使用。AI 视频支持最长 3 分钟的高清视频生成,目前需要申请使用,审核结果将通过手机短信通知,想要体验的朋友需要耐心等待一下。在今日举行的世界人工智能大会上
7/6/2024 2:22:03 PM
浩渺
  • 1