vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

作者：AI在线 2025-07-11 11:12

近日，vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效，更具备了理解图形用户界面（GUI）的能力，标志着人工智能在处理文本和图像方面迈出了重要一步。 BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式，并引入了思考预算控制机制，帮助 AI 更好地平衡思考的深度与效率。

近日，vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效，更具备了理解图形用户界面（GUI）的能力，标志着人工智能在处理文本和图像方面迈出了重要一步。

BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式，并引入了思考预算控制机制，帮助 AI 更好地平衡思考的深度与效率。这使得该模型在多项文本和多模态评测任务中表现优异，尤其在理解和推理方面，有望超过许多同类产品。

vivo 001

在20余项评测中，BlueLM-2.5-3B 显示出了强大的文本处理能力，成功缓解了多模态模型常见的 “遗忘问题”。在长思考模式下，模型在推理类任务中，如数学和逻辑推理，的表现显著优于其他同规模的模型。此外，其在多模态理解方面也表现不俗，能够与更大规模的模型媲美，体现了它的强大。

不仅如此，BlueLM-2.5-3B 在理解 GUI 方面的表现尤为突出，得益于对大量中文应用程序截屏数据的训练。在这方面，它的得分超过了许多竞争对手，展示了 vivo 在人工智能领域的实力。

为了支撑如此出色的表现，BlueLM-2.5-3B 采用了精巧的模型结构，参数量仅为2.9B，且训练和推理成本相对较低。通过优化的数据利用策略和高效的训练流程，该模型在数据利用效率上有了显著提升，为 AI 的普及和应用打下了坚实的基础。

BlueLM-2.5-3B 的发布不仅为用户带来了更加智能的应用体验，也为人工智能技术的进步增添了新的动力。

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

11/29/2024 2:40:00 PM 机器之心

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

12月16日，无问芯穹宣布正式开源其“端模型端软件端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。据介绍，Megrez-3B-Omni是一个为端而生的全模态理解模型，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最大领先同精度模型300%。作为一个全模态模型，Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了最优性能。

12/16/2024 2:26:00 PM 新闻助手

腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率全场景输入

腾讯混元团队近日发布了全新的多模态理解模型——混元Large-Vision，该模型采用腾讯混元擅长的MoE（专家混合）架构，激活参数达到52B规模，在性能与效率之间实现了良好平衡。混元Large-Vision的核心亮点在于其强大的多模态输入支持能力。该模型不仅支持任意分辨率的图像处理，还能处理视频和3D空间输入，为用户提供了全方位的视觉理解体验。

8/13/2025 10:32:39 AM AI在线

vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

相关资讯

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率全场景输入