腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

作者：AI在线 2025-05-28 02:00

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型，并将其开源。这一技术能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频，标志着短视频创作进入了全新阶段。 HunyuanVideo-Avatar 模型的核心功能在于其智能理解能力。

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型，并将其开源。这一技术能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频，标志着短视频创作进入了全新阶段。

HunyuanVideo-Avatar 模型的核心功能在于其智能理解能力。用户只需上传一张人物图像和相应的音频，模型便能自动分析音频中的情感和人物所处环境。例如，如果上传一张在海滩上弹吉他的女性的照片，并搭配抒情音乐，模型将自动生成一段该女性在弹唱的动态视频，展现自然的表情、唇形同步及全身动作。

适用广泛的应用场景

这一技术的应用场景非常广泛，涵盖短视频创作、电商广告等多种领域。HunyuanVideo-Avatar 能够生成各种场景下的对话、表演等视频片段，极大地降低了视频制作的时间和成本。无论是快速制作产品介绍视频，还是进行多人互动广告，HunyuanVideo-Avatar 都能提供出色的支持。

业内领先的效果

在技术方面，HunyuanVideo-Avatar 展现了显著的优势。与传统工具相比，HunyuanVideo-Avatar 不仅支持头部驱动，还能实现半身和全身场景的表现，提升视频的真实感和表现力。同时，模型在主体一致性和音画同步方面的表现超越了多种开闭源方案，处于业内顶尖水平。

多样化的风格支持

HunyuanVideo-Avatar 支持多种风格、物种和多人场景，包括赛博朋克、2D 动漫和中国水墨画等。创作者可以轻松上传卡通角色或虚拟形象，生成风格化的动态视频，满足动漫、游戏等领域的创作需求。此外，在多人互动场景中，模型能够精准驱动多个角色，确保各角色的唇形、表情和动作与音频完美同步，实现自然的互动。

这一切的背后是腾讯混元团队与腾讯音乐天琴实验室共同研发的技术创新，包括角色图像注入模块、多模态扩散 Transformer 架构、音频情感模块和面部感知音频适配器等，确保了视频的动态性和角色一致性。

HunyuanVideo-Avatar 的单主体能力已在腾讯混元官网上线，用户可以通过 “模型广场” 体验这一技术。目前支持上传不超过14秒的音频生成视频，未来还将逐步推出更多功能。

体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
项目主页:https://hunyuanvideo-avatar.github.io
Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐

科技媒体 Windows Report 昨日（10 月 4 日）发布博文，报道称微软公司获得了一项新的专利，构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注：微软该专利名为《Artificial intelligence model for composing audio scores》，主要探讨了基于输入内容，来创建音乐的方法。该专利主要概述了以下步骤：收集数据：收集大量的训练数据，这些数据包括许多包含视频和音频组件的视听数据集。分析提取：分析数据

10/5/2024 2:32:54 PM 故渊

Luo Yonghao's digital person achieves success in its first live broadcast on Baidu e-commerce: GMV exceeds that of a real person in an hour in 26 minutes

The much-anticipated digital avatar of Luo Yonghao recently made its debut on Baidu's e-commerce platform and achieved remarkable results. According to reports, within just 26 minutes of going live, the goods and services transaction volume (GMV) of the digital avatar exceeded the sales amount generated by Luo Yonghao's real-life persona in an hour, showcasing the immense potential of digital avatar live streaming for product promotion.Baidu introduced that the success of this first live streaming session of Luo Yonghao’s digital avatar was mainly due to breakthroughs in key technologies such as high-persuasion digital avatars. These technological advancements have led to a qualitative leap in the interactivity and expressiveness of digital avatar hosts.Data from Baidu's e-commerce platform shows that the platform has already accumulated over 100,000 digital avatar hosts, widely applied in dozens of industries including e-commerce, education, and healthcare.

6/16/2025 11:01:50 AM AI在线

美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar

近日，美团旗下的 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar，标志着虚拟人技术的又一次重要突破。该模型在长视频生成领域表现优异，具有多项核心功能，吸引了广泛的开发者关注。 LongCat-Video-Avatar 基于此前的 LongCat-Video 模型，延续了 “一个模型支持多任务” 的设计理念，原生支持音频文本转视频（AT2V）、音频文本图像转视频(ATI2V)及视频续写等功能。

12/19/2025 12:16:17 PM AI在线

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

相关资讯

氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐

Luo Yonghao's digital person achieves success in its first live broadcast on Baidu e-commerce: GMV exceeds that of a real person in an hour in 26 minutes

美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar