作者 | 徐浚哲、尹宇阳
我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:
https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview
我们训练了一个3B的“小”模型,使用了强化学习训练方式,增强了推理性能。达到了同级别模型中推理能力第一(SOTA)。
主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~
同时对比了多个banchMark结果,Average第一~
Model | Average | MathVista | MathVision | MathVerse | DynaMath | WeMath | LogicVista |
Qwen2-VL-2B | 20.5 | 48.0 | 16.1 | 17.5 | 3.8 | 10.8 | 26.6 |
InternVL2.5-2B | 21.2 | 51.1 | 14.0 | 22.3 | 4.4 | 8.0 | 27.3 |
InternVL3-2B | 29.1 | 57.6 | 20.2 | 24.5 | 14.8 | 22.9 | 40.3 |
Qwen2.5-VL-3B | 31.8 | 61.2 | 21.9 | 31.2 | 13.2 | 22.9 | 40.3 |
VLM-R1-3B-Math-0305 | 33.4 | 62.7 | 21.9 | 32.2 | 13.0 | 30.0 | 40.5 |
Taichu-VLR-3B | 33.6 | 64.9 | 23.1 | 32.1 | 12.6 | 30.4 | 38.7 |
VLAA-Thinker-Qwen2.5VL-3B | 35.4 | 61.0 | 24.4 | 36.4 | 18.2 | 33.8 | 38.5 |
TBAC-VLR1-3B-preview | 35.7 | 64.8 | 25.0 | 33.2 | 17.7 | 32.4 | 40.8 |
正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。
现在试着撸个自己的“AI作业帮”,帮干活。
一、AI作业助手
要说明的是,AI作业助手,特别是数学作业助手,仅仅有答案还不够,更重要的是给出推导过程。这也是VLR1-3B的重要能力,就是它的推理能力。
下面来看一下搭载了VLR1-3B模型后,我这个丐版的“作业帮”真实的答题效果。
1. 多项式计算
先从真题试卷中截取了两道基础计算题进行测试:
哪怕是拍照的试卷问题也可以准确的识别,计算过程也清晰,答案正确👌,通过。再试一道:
很好,应用了正确的公式👌,邻居家小孩似乎可以愉快的抄写作业了呢😝
2. 坐标系理解
接下来要稍微上一点难度,看看 VLR1-3B 对平面直角坐标系的理解如何:
不错,一开始就理解了这一题的考点,并告知了题点,横纵坐标都为负的点,然后还分析了每个选项,给出正确答案。解释的有理有据👌。以后还会有家长给熊孩子讲题讲到心梗吗😉
3. 函数计算
下面要进行的是函数计算,依然考验模型从图片中正确的读取函数公式,并依靠推理能力得出函数计算结果:
问题:f(4)等于多少?
函数识别👌,计算过程👌,答案✅。
4. 平面几何
接下来是重中之重的测试,平面几何。先来两道填空题:
问题:△ABC的两内角平分线OB、OC相交于点O,若∠A=110°,则∠BOC=()
表现依然出色,不仅给出了详尽的推理过程,还给出了准确的答案 ✅
接下来再来一题:
问题:如图,在△ABC中,AB=8,BC=12,点D、E分别是边AB、AC的中点,点F是线段DE上的一点,连接AF、BF,若∠AFB=90°,则线段EF的长为()
非常棒平面几何解题能力👌,在应用了正确的公式定理下,还会用“∵”,“∴”等专业的数学推理符号
平面几何是中学数学的重点,与填空和选择不同,模型有可能靠蒙答对题(人也会哈),这种证明类型的题目更考验模型的“真本事”,再来测试一道平面几何的证明题:
没问题,证明过程清晰,测试通过 ✅。
5. 物理
既然 VLR1-3B 在数学方面表现的这么好,何不再挑战一下,做个物理题试试?
哦吼~,物理题也能答,还能解释对自己的选择。
二、What's more?
从之前的测试来看,VLR1-3B 有确实有着出众的数学能力,从图片的公式理解到答案的推理求解,甚至格式的输出都有着令人满意的效果。既然如此,当然就要“强模型所难”, 考验一下VLR1-3B 在其他通用多模态场景的表现:
先用我最喜欢的猫咪开始测试,询问它图中猫的花纹、品种和年龄:
Bingo,回答很准确~
再来,因为有从事的是自动驾驶算法研究的经验,所以凡是遇到有视觉能力的模型,都会被我拿来测一下:
连自动驾驶车辆都认识,那真实道路场景表现怎么样呢?
相当可以,车辆数量、颜色、类型都判断正确 ✅,同时天气和驾驶环境也准确识别。再来个夜晚场景,问问前方车辆的行驶意图:
看来可以呀,到这,发现这确实是个麻雀虽小,五脏俱全的多模态模型~
三、结语
总体测试下来,过程中虽然也遇到了该级别模型的常见问题——如思考过程中的幻觉,特别是一些测试中,结果是正确的,但思考过程却明显失误。但在后续更新和实际落地场景中,使用场景数据来Fine-tune后的模型能取得更好的效果。
话又说回来,毕竟是一个只有 3B的模型,它有望成为开源本地 “家庭 AI 作业帮”的的选手,后续会发表详细的技术报告和论文。同时公开更多尺度的模型~