微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 真切对口型人像视频

据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就可能生成精确真切的对口型视频（生成念稿子的视频），据称在脸色和头部举措方面特别自然。IT之家获悉，目前业界相关许多研究都集中在对口型上，而脸部动向行动及头部静止情况通常被忽视，因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往脸部生成技能的限制，研究人员行使了扩散 Transformer 模型，在整体脸部动向和头部静止方面进行训练，该模型将所有可

据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就可能生成精确真切的对口型视频（生成念稿子的视频），据称在脸色和头部举措方面特别自然。

IT之家获悉，目前业界相关许多研究都集中在对口型上，而脸部动向行动及头部静止情况通常被忽视，因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往脸部生成技能的限制，研究人员行使了扩散 Transformer 模型，在整体脸部动向和头部静止方面进行训练，该模型将所有可能的脸部动向，包括嘴唇举措、脸色、眼睛注视和眨眼等行动均视为单一潜在变量（即一次生成整个具有高度细节的人脸），号称可能即时生成 512×512 分辨率 40 FPS 的视频。

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 真切对口型人像视频

IT之家同时注意到，微软还行使了 3D 技能辅助标记人脸脸部特征，并额外设计了损失函数，号称可能让 VASA-1 不仅可能生成高品质的脸部视频，还可能有效地捕捉和重现脸部 3D 结构。

{{userData.name}}已认证

微软推出 VASA-1 AI 框架，可即时生成 512×512 40FPS 真切对口型人像视频

GPT-4 化身黑客搞破坏，顺利率 87%！OpenAI 要求保密提醒词，网友复现 ing

海外写作平台 Medium 5 月起阻止颁布完整由 AI 生成的付费类文章

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能