AI在线 AI在线

多模态视频大模型

拳打可灵,脚踢 Veo 3,谁是物理世界的「懂王」?

一个优秀的多模态视频生成大模型永远是一套复杂的系统级工程,它包括但不限于:跨模态理解与对齐能力,时序一致性的控制能力,精细化的编辑和修正能力,以及高效计算和成本控制的能力等。 这让它看起来总像是一个巨头的游戏:字节、快手,谷歌、OpenAI,他们手握着深如湖海的现金,宽似江河的流量动员能力。 不过在这条巨龙扎堆的赛道上,有三两个身影站出来做点新东西。
6/20/2025 4:04:00 PM
郭海惟
  • 1