AI在线 AI在线

BPE

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

在多模态模型里,CLIP-style encoder 往往把视觉表征过早地拉近到文本空间:对于抽象层面的问答,如总结图片大致内容,这样的表征其实是没有什么问题的,但一旦追问与语言无强依赖的细节,模型就更易出现幻觉。 根本原因之一,是在文本空间对齐之前,原生视觉结构已被不可逆地压缩 / 丢失,而语言模型不得不「二次解码」来自他模态的 embedding,导致对齐脆弱、推理链条变长。 为此,北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。
10/9/2025 10:40:00 AM
机器之心
  • 1