腾讯开源混元语音数字人模型：一张图一段音频就能让图中人物说话唱歌

作者：清源 2025-05-28 04:47

腾讯混元公众号今日发文宣布开源混元语音数字人模型，仅需一张图和一段音频，就能让图中的主角自然地说话、唱歌。

IT 之家 5 月 28 日消息，腾讯混元公众号今日发文宣布开源混元语音数字人模型，仅需一张图和一段音频，就能让图中的主角自然地说话、唱歌。

此次发布的并开源的语音数字人模型 HunyuanVideo-Avatar，由腾讯混元视频大模型（HunyuanVideo）及腾讯音乐天琴实验室 MuseV 技术联合研发，支持头肩、半身与全身景别，以及多风格、多物种与双人场景，面向视频创作者提供高一致性、高动态性的视频生成能力。

用户可上传人物图像与音频，HunyuanVideo-Avatar 模型会自动理解图片与音频，比如人物所在环境、音频所蕴含的情感等，让图中人物自然地说话或唱歌，生成包含自然表情、唇形同步及全身动作的视频。

HunyuanVideo-Avatar 适用于短视频创作、电商与广告等多种应用场景，可以生成人物在不同场景下的说话、对话、表演等片段，快速制作产品介绍视频或多人互动广告，降低制作成本。

HunyuanVideo-Avatar 的单主体能力已经开源，并在腾讯混元官网上线，用户可以在“模型广场-混元生视频-数字人-语音驱动-HunyuanVideo-Avatar”中体验，目前支持上传不超过 14 秒的音频进行视频生成，后续将逐步上线和开源其他能力。

IT 之家附有关链接如下：

体验入口：https://hunyuan.tencent.com/ modelSquare / home / play?modelId=126
项目主页：https://hunyuanvideo-avatar.github.io
Github：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
CNB：https://cnb.cool/tencent/hunyuan/HunyuanVideo-Avatar
技术报告：https://arxiv.org/ pdf/2505.20156

AI 技术首次亮相美国法庭：家属用“数字人”呈现已故被害人言辞

亚利桑那州一名公路暴力案件的凶手上周被判刑10年半，这一判决背后涉及一起创新的法律程序：受害人通过AI向法庭发表了讲话。官方称，这可能是首次使用该技术的案件。

5/8/2025 5:38:01 PM 清源

美团开源虚拟人视频生成模型 LongCat-Video-Avatar：号称“不说话”时都像人

AI在线 12 月 18 日消息，据“龙猫 LongCat”公众号今晚的推文，美团 LongCat 团队正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。该模型基于 LongCat-Video 基座打造，延续“一个模型支持多任务”的核心设计，原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写等核心功能，同时在底层架构上全面升级，实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。据官方介绍，该模型具备如下技术亮点。

12/18/2025 5:57:08 PM 清源

松下集团以 AI“复活”松下幸之助，借数字人传承创办者经营理念

松下控股株式会社内部直接接受过创始人熏陶的员工日渐减少，该公司因此决定利用生成式 AI 在集团内部探究和启发松下幸之助的理念，并传递给下一代员工。

11/29/2024 4:26:57 PM 溯波（实习）

腾讯开源混元语音数字人模型：一张图一段音频就能让图中人物说话唱歌

相关资讯

AI 技术首次亮相美国法庭：家属用“数字人”呈现已故被害人言辞

美团开源虚拟人视频生成模型 LongCat-Video-Avatar：号称“不说话”时都像人

松下集团以 AI“复活”松下幸之助，借数字人传承创办者经营理念