视觉模型

MinerU2.5源码拆解：双后端架构设计与企业级部署实践

8月中旬的时候，我去MinerU的办公室交流过一次。当时对方有位工作人员表示，接下来会很快基于视觉模型的路线实现全面 SOTA。说实话，那个时候我还挺怀疑的。

10/24/2025 11:16:41 AM

韦东东

告别“提示词魔咒”？通义千问发布Qwen3-VL官方指南，手把手教你调用最强视觉模型

编辑 | 听雨出品 | 51CTO技术栈（微信号：blog51cto）就在今天，通义千问发布了Qwen3-VL官方指南，并将其称为“Cookbooks”烹饪书。图片这本“烹饪书”可谓让用户告别“魔咒”。因为对于强大的AI模型，尤其是多模态模型，我们常常需要反复尝试、精心设计非常复杂和精确的指令（即“提示词”），才能让模型输出理想的结果。

10/11/2025 4:10:59 PM

听雨

智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking，基于GLM-4V架构，新增思维链推理机制，显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入，擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景，覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越，其中23项达成10B级模型最佳成绩，18项持平或超越72B参数的Qwen-2.5-VL，涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。

7/2/2025 5:00:55 PM

AI在线

苹果发布 FastVLM 视觉语言模型，为新型智能眼镜等穿戴设备铺路

技术文档显示，FastVLM 在保持精度的前提下，实现了高分辨率图像处理的近实时响应，同时所需的计算量比同类模型要少得多。

5/13/2025 2:48:39 PM

问舟

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）12月13日晚，国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。这次DeepSeek视觉模型给这一领域带来了不少看新看点：1、模型层面，视觉模型也可以使用 MoE 架构，而且可以配合动态切图2、新增了不少生成玩法，如：视觉定位，模型可以根据提示识别出物体的边界范围，再比如梗图理解和解析。 3、图表理解：可以根据plot图逆向生成代码。

12/17/2024 1:55:21 PM

言征

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 Sora、可灵、即梦哪家强？AI视频软件深度测评！ LangChain V1.0 深度解析：手把手带你跑通全新智能体架构深度拆解！这可能是全网最详细的AI视频创作教程

标签云