BPE

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

在多模态模型里，CLIP-style encoder 往往把视觉表征过早地拉近到文本空间：对于抽象层面的问答，如总结图片大致内容，这样的表征其实是没有什么问题的，但一旦追问与语言无强依赖的细节，模型就更易出现幻觉。根本原因之一，是在文本空间对齐之前，原生视觉结构已被不可逆地压缩 / 丢失，而语言模型不得不「二次解码」来自他模态的 embedding，导致对齐脆弱、推理链条变长。为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。

10/9/2025 10:40:00 AM

机器之心

资讯热榜

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！如何把ChatGPT嵌入到自己的应用中？ ChatGPT 涉嫌“诱导”美国 16 岁少年自杀，家属指控 OpenAI 事发前放松安全措施微软AI主管苏莱曼:微软不会开发情色类AI，与OpenAI划清界限消息称软银批准对 OpenAI 追加 225 亿美元投资，助力未来上市 OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务全网刷屏的「电影感」三宫格图片，教你用AI快速生成！ Transformer 之父“叛逃”：我已经受够了 Transformer！警告：AI研究变得越来越窄，我们需要找到新的架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science Agent 芯片腾讯苹果 Stable Diffusion Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人 RAG 研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉预测 Transformer AI模型伟达亚马逊特斯拉