AI在线 AI在线

可能是目前最好的3B多模态模型,有望做“AI作业帮”

作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:“小”模型,使用了强化学习训练方式,增强了推理性能。 达到了同级别模型中推理能力第一(SOTA)。 主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~同时对比了多个banchMark结果,Average第一~ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。

作者 | 徐浚哲、尹宇阳

我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:

https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview

可能是目前最好的3B多模态模型,有望做“AI作业帮”

可能是目前最好的3B多模态模型,有望做“AI作业帮”

我们训练了一个3B的“小”模型,使用了强化学习训练方式,增强了推理性能。达到了同级别模型中推理能力第一(SOTA)。

可能是目前最好的3B多模态模型,有望做“AI作业帮”

主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~

可能是目前最好的3B多模态模型,有望做“AI作业帮”

同时对比了多个banchMark结果,Average第一~

可能是目前最好的3B多模态模型,有望做“AI作业帮”

Model

Average

MathVista

MathVision

MathVerse

DynaMath

WeMath

LogicVista

Qwen2-VL-2B

20.5

48.0

16.1

17.5

3.8

10.8

26.6

InternVL2.5-2B

21.2

51.1

14.0

22.3

4.4

8.0

27.3

InternVL3-2B

29.1

57.6

20.2

24.5

14.8

22.9

40.3

Qwen2.5-VL-3B

31.8

61.2

21.9

31.2

13.2

22.9

40.3

VLM-R1-3B-Math-0305

33.4

62.7

21.9

32.2

13.0

30.0

40.5

Taichu-VLR-3B

33.6

64.9

23.1

32.1

12.6

30.4

38.7

VLAA-Thinker-Qwen2.5VL-3B

35.4

61.0

24.4

36.4

18.2

33.8

38.5

TBAC-VLR1-3B-preview

35.7

64.8

25.0

33.2

17.7

32.4

40.8

正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。

现在试着撸个自己的“AI作业帮”,帮干活。

一、AI作业助手

要说明的是,AI作业助手,特别是数学作业助手,仅仅有答案还不够,更重要的是给出推导过程。这也是VLR1-3B的重要能力,就是它的推理能力。

下面来看一下搭载了VLR1-3B模型后,我这个丐版的“作业帮”真实的答题效果。

1. 多项式计算

先从真题试卷中截取了两道基础计算题进行测试:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

哪怕是拍照的试卷问题也可以准确的识别,计算过程也清晰,答案正确👌,通过。再试一道:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

很好,应用了正确的公式👌,邻居家小孩似乎可以愉快的抄写作业了呢😝

2. 坐标系理解

接下来要稍微上一点难度,看看 VLR1-3B 对平面直角坐标系的理解如何:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

不错,一开始就理解了这一题的考点,并告知了题点,横纵坐标都为负的点,然后还分析了每个选项,给出正确答案。解释的有理有据👌。以后还会有家长给熊孩子讲题讲到心梗吗😉

3. 函数计算

下面要进行的是函数计算,依然考验模型从图片中正确的读取函数公式,并依靠推理能力得出函数计算结果:

问题:f(4)等于多少?

可能是目前最好的3B多模态模型,有望做“AI作业帮”

函数识别👌,计算过程👌,答案✅。

4. 平面几何

接下来是重中之重的测试,平面几何。先来两道填空题:

问题:△ABC的两内角平分线OB、OC相交于点O,若∠A=110°,则∠BOC=()

可能是目前最好的3B多模态模型,有望做“AI作业帮”

表现依然出色,不仅给出了详尽的推理过程,还给出了准确的答案 ✅

接下来再来一题:

问题:如图,在△ABC中,AB=8,BC=12,点D、E分别是边AB、AC的中点,点F是线段DE上的一点,连接AF、BF,若∠AFB=90°,则线段EF的长为()

可能是目前最好的3B多模态模型,有望做“AI作业帮”

非常棒平面几何解题能力👌,在应用了正确的公式定理下,还会用“∵”,“∴”等专业的数学推理符号

平面几何是中学数学的重点,与填空和选择不同,模型有可能靠蒙答对题(人也会哈),这种证明类型的题目更考验模型的“真本事”,再来测试一道平面几何的证明题:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

没问题,证明过程清晰,测试通过 ✅。

5. 物理

既然 VLR1-3B 在数学方面表现的这么好,何不再挑战一下,做个物理题试试?

可能是目前最好的3B多模态模型,有望做“AI作业帮”

哦吼~,物理题也能答,还能解释对自己的选择。

二、What's more?

从之前的测试来看,VLR1-3B 有确实有着出众的数学能力,从图片的公式理解到答案的推理求解,甚至格式的输出都有着令人满意的效果。既然如此,当然就要“强模型所难”, 考验一下VLR1-3B 在其他通用多模态场景的表现:

先用我最喜欢的猫咪开始测试,询问它图中猫的花纹、品种和年龄:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

Bingo,回答很准确~

再来,因为有从事的是自动驾驶算法研究的经验,所以凡是遇到有视觉能力的模型,都会被我拿来测一下:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

连自动驾驶车辆都认识,那真实道路场景表现怎么样呢?

可能是目前最好的3B多模态模型,有望做“AI作业帮”

相当可以,车辆数量、颜色、类型都判断正确 ✅,同时天气和驾驶环境也准确识别。再来个夜晚场景,问问前方车辆的行驶意图:

可能是目前最好的3B多模态模型,有望做“AI作业帮”

看来可以呀,到这,发现这确实是个麻雀虽小,五脏俱全的多模态模型~

三、结语

总体测试下来,过程中虽然也遇到了该级别模型的常见问题——如思考过程中的幻觉,特别是一些测试中,结果是正确的,但思考过程却明显失误。但在后续更新和实际落地场景中,使用场景数据来Fine-tune后的模型能取得更好的效果。

话又说回来,毕竟是一个只有 3B的模型,它有望成为开源本地 “家庭 AI 作业帮”的的选手,后续会发表详细的技术报告和论文。同时公开更多尺度的模型~

相关资讯

Moonshot AI开源轻量级MoE多模态模型Kimi-VL,2.8B参数媲美SOTA模型!

最近有点忙,没来得及更新,但一直保持着对前沿技术的紧密关注,不得不感叹当今技术日新月异。 多模态推理模型进展,现有的开源大型视觉语言模型在可扩展性、计算效率和高级推理能力方面显著落后于纯文本语言模型。 OpenAI的GPT-4o和Google的Gemini等模型能够无缝感知和解释视觉输入,但不开源,DeepSeek-R1等模型虽然采用了MoE架构,但在长上下文推理和多模态任务上仍有不足。
4/14/2025 12:30:00 AM
Goldma

徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂

在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是:在底层模型并没有变得更智能的情况下,能够跨多种模态进行推理的模型必然是更加通用的。 因为其不仅具备多种功能,还能以不同模态传递知识。
6/20/2024 3:28:00 PM
王悦

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。 (VLA:视觉-语言-动作模型,代表一类用于处理多模态输入的模型)简单来说,DeeR-VLA就像人的决策系统:简单任务快速思考,复杂任务仔细思考。
12/2/2024 7:10:00 AM
  • 1