AI在线 AI在线

vivo 新多模态模型登场,AI 理解GUI界面能力再升级!

近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。 这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。 BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式,并引入了思考预算控制机制,帮助 AI 更好地平衡思考的深度与效率。

近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。

BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式,并引入了思考预算控制机制,帮助 AI 更好地平衡思考的深度与效率。这使得该模型在多项文本和多模态评测任务中表现优异,尤其在理解和推理方面,有望超过许多同类产品。

vivo  001

在20余项评测中,BlueLM-2.5-3B 显示出了强大的文本处理能力,成功缓解了多模态模型常见的 “遗忘问题”。在长思考模式下,模型在推理类任务中,如数学和逻辑推理,的表现显著优于其他同规模的模型。此外,其在多模态理解方面也表现不俗,能够与更大规模的模型媲美,体现了它的强大。

不仅如此,BlueLM-2.5-3B 在理解 GUI 方面的表现尤为突出,得益于对大量中文应用程序截屏数据的训练。在这方面,它的得分超过了许多竞争对手,展示了 vivo 在人工智能领域的实力。

为了支撑如此出色的表现,BlueLM-2.5-3B 采用了精巧的模型结构,参数量仅为2.9B,且训练和推理成本相对较低。通过优化的数据利用策略和高效的训练流程,该模型在数据利用效率上有了显著提升,为 AI 的普及和应用打下了坚实的基础。

BlueLM-2.5-3B 的发布不仅为用户带来了更加智能的应用体验,也为人工智能技术的进步增添了新的动力。

相关资讯

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
11/29/2024 2:40:00 PM
机器之心

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

12月16日,无问芯穹宣布正式开源其“端模型 端软件 端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。 据介绍,Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。 作为一个全模态模型,Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了最优性能。
12/16/2024 2:26:00 PM
新闻助手

中山大学团队“梗王”大模型,靠讲笑话登上 CVPR

谁能想到,只是让大模型讲笑话,论文竟入选了顶会 CVPR(国际计算机视觉与模式识别会议)!没开玩笑,这还真真儿的是一项正儿八经的研究。例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么?现在的大模型看完后会说:脑子短路。再看一眼 蜘蛛侠 的海报,大模型会配一句“刚擦的玻璃不能弄脏”。李云龙 、 奥本海默 也被玩得飞起:导师读了我的论文之后……真男人不回头看爆炸。还有酱紫的:不得不说,大模型这脑洞还是挺大的。这项研究正是来自中山大学 HCP 实验室林倞教授团队、Sea AI Lab 和哈佛大学等单位,主打的
4/11/2024 5:56:51 PM
清源
  • 1