AI在线 AI在线

美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar

近日,美团旗下的 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar,标志着虚拟人技术的又一次重要突破。 该模型在长视频生成领域表现优异,具有多项核心功能,吸引了广泛的开发者关注。 LongCat-Video-Avatar 基于此前的 LongCat-Video 模型,延续了 “一个模型支持多任务” 的设计理念,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)及视频续写等功能。

近日,美团旗下的 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar,标志着虚拟人技术的又一次重要突破。该模型在长视频生成领域表现优异,具有多项核心功能,吸引了广泛的开发者关注。

LongCat-Video-Avatar 基于此前的 LongCat-Video 模型,延续了 “一个模型支持多任务” 的设计理念,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)及视频续写等功能。相较于前代产品 InfiniteTalk,该模型在动作拟真度、视频稳定性和身份一致性上实现了显著提升,致力于为开发者提供更高效、实用的创作解决方案。

QQ20251219-105318.png

该模型的核心创新之一是采用了名为 Cross-Chunk Latent Stitching 的训练策略,能够有效解决长视频生成中的视觉质量退化问题。通过在隐空间内进行特征替换,LongCat-Video-Avatar 不仅消除了由反复解码引起的画质损失,还显著提高了生成效率。

此外,为了保持长视频中的角色一致性,LongCat-Video-Avatar 还引入了带位置编码的参考帧注入模式和 Reference Skip Attention 机制。这一创新使得生成过程中的身份语义保持稳定,同时避免了常见的动作重复和僵化问题。

根据在 HDTF、CelebV-HQ、EMTD 和 EvalTalker 等权威公开数据集上的评测,LongCat-Video-Avatar 在多个核心指标上达到了 SOTA 水平,尤其是在唇音同步精度和一致性指标上表现优异。同时,通过大规模的人工评测,该模型在自然度与真实感方面也获得了良好反馈,展现了强大的应用潜力。

QQ20251219-105325.png

LongCat 团队表示,LongCat-Video-Avatar 是其在数字人生成技术上的又一次迭代,旨在解决开发者在长视频生成中面临的实际问题。该团队始终坚持开源理念,期望通过社区的共同参与与反馈不断优化和迭代这一技术。

此次 LongCat-Video-Avatar 的发布不仅为虚拟人技术的应用提供了更为广阔的可能性,也为创作者们在数字内容创作上开辟了新的路径。开发者们可通过 GitHub 和 Hugging Face 等平台获取该模型,开始探索 “千人千面” 的数字世界。

项目地址:

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face: 

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:

https://meigen-ai.github.io/LongCat-Video-Avatar/

相关资讯

冲上热搜!美团大模型,靠「快」火了

冲上热搜!美团大模型,靠「快」火了

国内外开发者:亲测,美团新开源的模型速度超快! 当 AI 真的变得像水和电一样普及之后,模型强不强已经不是大家唯一关心的问题了。 从年初的 Claude 3.7 Sonnet、Gemini 2.5 Flash 到最近的 GPT-5、DeepSeek V3.1,走在前面的模型厂商无一不在思考:在保证准确性的前提下,如何让 AI 既能以最少的算力去解决每一个问题,又能在最短的时间内给出回应?
9/2/2025 1:10:00 PM 机器之心
实测美团 LongCat:快到极致,但是别说追平 DeepSeek

实测美团 LongCat:快到极致,但是别说追平 DeepSeek

如果你这几天刷社交媒体,应该已经注意到,美团的 LongCat-Flash-Chat 正在频频刷屏,标题大多是将其与DeepSeek作对比,称美团推出的第一款开源大模型已经追平了DeepSeek-V3.1。 事实果真如此吗? AI 科技评论想要一探究竟。
9/5/2025 3:03:00 PM 郑佳美
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅,复旦大学自然语言处理实验室硕士生,在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇,LongCat Team 核心成员,研究方向为大模型的复杂推理和长序列建模,指导老师为桂韬老师。 郭林森,硕士毕业于东南大学,在 NAACL、EMNLP、Recsys 等会议发表论文多篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型评测与数据价值挖掘。 王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型训练与复杂推理。
10/22/2025 4:57:00 PM 机器之心