AI在线 AI在线

视觉模型

MinerU2.5源码拆解:双后端架构设计与企业级部署实践

8月中旬的时候,我去MinerU的办公室交流过一次。 当时对方有位工作人员表示,接下来会很快基于视觉模型的路线实现全面 SOTA。 说实话,那个时候我还挺怀疑的。
10/24/2025 11:16:41 AM
韦东东

告别“提示词魔咒”?通义千问发布Qwen3-VL官方指南,手把手教你调用最强视觉模型

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)就在今天,通义千问发布了Qwen3-VL官方指南,并将其称为“Cookbooks”烹饪书。 图片这本“烹饪书”可谓让用户告别“魔咒”。 因为对于强大的AI模型,尤其是多模态模型,我们常常需要反复尝试、精心设计非常复杂和精确的指令(即“提示词”),才能让模型输出理想的结果。
10/11/2025 4:10:59 PM
听雨

最新研究揭示视觉模型与人脑的对齐机制

AI看世界的方式,与人类大脑保持一致。 但究竟是什么因素驱动了这种脑-模型相似性,至今仍缺乏清晰认识。 为此,FAIR与巴黎高等师范学院通过训练自监督视觉Transformer模型(DINOv3),并使用功能性磁共振成像(fMRI )和脑磁图(MEG)从不同指标评估脑-模型相似性。
9/2/2025 12:57:59 PM
时令

智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
7/2/2025 5:00:55 PM
AI在线

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。
5/13/2025 2:48:39 PM
问舟

视觉模型进入MoE时代!DeepSeek开源全新视觉模型VL2,逆向由图生成代码、梗图解析、几张图生成一篇童话!

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)12月13日晚,国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。 这次DeepSeek视觉模型给这一领域带来了不少看新看点:1、模型层面,视觉模型也可以使用 MoE 架构,而且可以配合动态切图2、新增了不少生成玩法,如:视觉定位,模型可以根据提示识别出物体的边界范围,再比如梗图理解和解析。 3、图表理解:可以根据plot图逆向生成代码。
12/17/2024 1:55:21 PM
言征