AI在线 AI在线

最新研究揭示视觉模型与人脑的对齐机制

AI看世界的方式,与人类大脑保持一致。 但究竟是什么因素驱动了这种脑-模型相似性,至今仍缺乏清晰认识。 为此,FAIR与巴黎高等师范学院通过训练自监督视觉Transformer模型(DINOv3),并使用功能性磁共振成像(fMRI )和脑磁图(MEG)从不同指标评估脑-模型相似性。

AI看世界的方式,与人类大脑保持一致。

但究竟是什么因素驱动了这种脑-模型相似性,至今仍缺乏清晰认识。

为此,FAIR与巴黎高等师范学院通过训练自监督视觉Transformer模型(DINOv3),并使用功能性磁共振成像(fMRI )和脑磁图(MEG)从不同指标评估脑-模型相似性。

最新研究揭示视觉模型与人脑的对齐机制

结果发现,模型大小训练数据量图像类型都会影响模型与大脑的相似度,而且这些因素之间还有相互作用。

特别是,规模最大、训练量最多,并使用人类相关图像训练的DINOv3模型,在脑相似性评分最高。

最新研究揭示视觉模型与人脑的对齐机制

研究还发现,类脑表征在AI模型中的出现遵循特定的时间顺序:模型先对齐人类早期感觉皮层表征,而要像大脑的高层区域(例如前额叶)一样处理信息,则需更多训练数据。

这一发展轨迹与人类大脑皮层的结构与功能特性高度一致。模型在训练后期学到的表征,恰好对应大脑中发育最晚、最厚、髓鞘最少、处理速度最慢的区域。

DINOv3是一种自监督视觉Transformer模型,已在17亿张自然图像上进行训练。

为了进行全面评估,研究人员从零训练了DINOv3模型的8个变体,以覆盖不同的模型规模、训练数据量和数据类型。

最新研究揭示视觉模型与人脑的对齐机制

为了对比不同类型图像对模型训练的效果,研究者重新训练了三种DINOv3模型,分别使用人类中心图像、细胞图像和卫星图像,且每类图像数量均为1000万张。

在评估DINOv3模型与人类大脑视觉表征的相似度时,研究从功能性磁共振成像(fMRI )和脑磁图(MEG)中筛选出15个具有代表性的感兴趣区域(ROIs) ,覆盖从低级视觉皮层到高级前额叶皮层的完整视觉加工层级。

结果显示,随着训练的进行,DINOv3学到的表征会逐步与人脑的表征相一致。

其次,DINOv3学会的这种表征层级,与大脑中的空间层级和时间层级相对应。

为了继续探究DINOv3中类脑表征的出现,研究人员在DINOv3每个选定训练步骤上评估编码评分、空间评分和时间评分,并用“半达时间”总结其发展速度,即达到最终评分一半所对应的训练步骤。

令人惊讶的是,这些编码、空间和时间相关的评分都会在训练过程中出现,但出现的速度各不相同。

最新研究揭示视觉模型与人脑的对齐机制

低级视觉区表征通常在DINOv3训练的早期就获得,而要学到与前额叶皮层类似的表征,则需要更多的训练。

最新研究揭示视觉模型与人脑的对齐机制

其次是模型大小,更大的模型在训练中更快表现出类脑特征,脑评分更高,尤其是在高级脑区表现明显。

最新研究揭示视觉模型与人脑的对齐机制

最后是图像类型,即使只使用卫星图像或细胞图像训练的模型,也能显著捕捉到脑信号,但使用人类中心图像训练的模型在所有脑区的编码效果更高。

这一结果可能是因为人类中心图像更接近大脑日常接触的视觉输入,而卫星图像和细胞图像则是大脑未经过训练处理的图像类型。

最新研究揭示视觉模型与人脑的对齐机制

为探讨类脑表征与皮层的关系 ,研究人员分析了编码半达时间与皮层四种特性的相关性。

1、皮层扩展:他们比较婴儿与成人皮层结构的图谱,发现半达时间与皮层扩展高度正相关。这表明发育增长较大的皮层区域,其在AI模型中对应的表征出现较晚。

最新研究揭示视觉模型与人脑的对齐机制

2、皮层厚度:皮层较厚的区域半达时间更长。

最新研究揭示视觉模型与人脑的对齐机制

3、皮层动力学:内在动力学最慢的区域也往往具有最长的半达时间,即DINOv3的深层表征通常对应大脑反应较慢的区域。

最新研究揭示视觉模型与人脑的对齐机制

4、皮层髓鞘:髓鞘可加快神经信号传导,其浓度与半达时间呈显著负相关,说明髓鞘浓度越高,表征出现越早。

最新研究揭示视觉模型与人脑的对齐机制

论文链接:https://arxiv.org/abs/2508.18226 参考链接:https://x.com/JeanRemiKing/status/1962453435199983982

相关资讯

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。
5/13/2025 2:48:39 PM
问舟

智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
7/2/2025 5:00:55 PM
AI在线

视觉模型进入MoE时代!DeepSeek开源全新视觉模型VL2,逆向由图生成代码、梗图解析、几张图生成一篇童话!

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)12月13日晚,国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。 这次DeepSeek视觉模型给这一领域带来了不少看新看点:1、模型层面,视觉模型也可以使用 MoE 架构,而且可以配合动态切图2、新增了不少生成玩法,如:视觉定位,模型可以根据提示识别出物体的边界范围,再比如梗图理解和解析。 3、图表理解:可以根据plot图逆向生成代码。
12/17/2024 1:55:21 PM
言征
  • 1