AI在线 AI在线

视觉模型

智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
7/2/2025 5:00:55 PM
AI在线

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。
5/13/2025 2:48:39 PM
问舟

视觉模型进入MoE时代!DeepSeek开源全新视觉模型VL2,逆向由图生成代码、梗图解析、几张图生成一篇童话!

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)12月13日晚,国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。 这次DeepSeek视觉模型给这一领域带来了不少看新看点:1、模型层面,视觉模型也可以使用 MoE 架构,而且可以配合动态切图2、新增了不少生成玩法,如:视觉定位,模型可以根据提示识别出物体的边界范围,再比如梗图理解和解析。 3、图表理解:可以根据plot图逆向生成代码。
12/17/2024 1:55:21 PM
言征
  • 1