视觉模型
最新研究揭示视觉模型与人脑的对齐机制
AI看世界的方式,与人类大脑保持一致。 但究竟是什么因素驱动了这种脑-模型相似性,至今仍缺乏清晰认识。 为此,FAIR与巴黎高等师范学院通过训练自监督视觉Transformer模型(DINOv3),并使用功能性磁共振成像(fMRI )和脑磁图(MEG)从不同指标评估脑-模型相似性。
9/2/2025 12:57:59 PM
时令
智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破
智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
7/2/2025 5:00:55 PM
AI在线
苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。
5/13/2025 2:48:39 PM
问舟
视觉模型进入MoE时代!DeepSeek开源全新视觉模型VL2,逆向由图生成代码、梗图解析、几张图生成一篇童话!
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)12月13日晚,国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。 这次DeepSeek视觉模型给这一领域带来了不少看新看点:1、模型层面,视觉模型也可以使用 MoE 架构,而且可以配合动态切图2、新增了不少生成玩法,如:视觉定位,模型可以根据提示识别出物体的边界范围,再比如梗图理解和解析。 3、图表理解:可以根据plot图逆向生成代码。
12/17/2024 1:55:21 PM
言征
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉