可能是目前最好的3B多模态模型，有望做“AI作业帮”

作者：腾讯技术工程 2025-05-27 08:30

作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版（preview），欢迎大家尝试：“小”模型，使用了强化学习训练方式，增强了推理性能。达到了同级别模型中推理能力第一（SOTA）。主要是数学相关的测试，在MathVista和MathVision这两个权威AI数学榜单的官网上，VLR1-3B 这“小”模型不仅都在榜，而且比很多商业闭源大模型（如Gemini1.5和GPT-4V）表现都要强，甚至在MathVista的评测中领先GPT-4o～同时对比了多个banchMark结果，Average第一～ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业，被多项式计算和几何证明搞得焦头烂额的。

作者 | 徐浚哲、尹宇阳

我们团队近期开源多模态模型VLR1-3B的预览版（preview），欢迎大家尝试：

https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview

可能是目前最好的3B多模态模型，有望做“AI作业帮”

可能是目前最好的3B多模态模型，有望做“AI作业帮”

我们训练了一个3B的“小”模型，使用了强化学习训练方式，增强了推理性能。达到了同级别模型中推理能力第一（SOTA）。

可能是目前最好的3B多模态模型，有望做“AI作业帮”

主要是数学相关的测试，在MathVista和MathVision这两个权威AI数学榜单的官网上，VLR1-3B 这“小”模型不仅都在榜，而且比很多商业闭源大模型（如Gemini1.5和GPT-4V）表现都要强，甚至在MathVista的评测中领先GPT-4o～

可能是目前最好的3B多模态模型，有望做“AI作业帮”

同时对比了多个banchMark结果，Average第一～

可能是目前最好的3B多模态模型，有望做“AI作业帮”

Model	Average	MathVista	MathVision	MathVerse	DynaMath	WeMath	LogicVista
Qwen2-VL-2B	20.5	48.0	16.1	17.5	3.8	10.8	26.6
InternVL2.5-2B	21.2	51.1	14.0	22.3	4.4	8.0	27.3
InternVL3-2B	29.1	57.6	20.2	24.5	14.8	22.9	40.3
Qwen2.5-VL-3B	31.8	61.2	21.9	31.2	13.2	22.9	40.3
VLM-R1-3B-Math-0305	33.4	62.7	21.9	32.2	13.0	30.0	40.5
Taichu-VLR-3B	33.6	64.9	23.1	32.1	12.6	30.4	38.7
VLAA-Thinker-Qwen2.5VL-3B	35.4	61.0	24.4	36.4	18.2	33.8	38.5
TBAC-VLR1-3B-preview	35.7	64.8	25.0	33.2	17.7	32.4	40.8

正巧最近正愁帮邻居刚上初中的孩子批数学作业，被多项式计算和几何证明搞得焦头烂额的。

现在试着撸个自己的“AI作业帮”，帮干活。

一、AI作业助手

要说明的是，AI作业助手，特别是数学作业助手，仅仅有答案还不够，更重要的是给出推导过程。这也是VLR1-3B的重要能力，就是它的推理能力。

下面来看一下搭载了VLR1-3B模型后，我这个丐版的“作业帮”真实的答题效果。

1. 多项式计算

先从真题试卷中截取了两道基础计算题进行测试：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

哪怕是拍照的试卷问题也可以准确的识别，计算过程也清晰，答案正确👌，通过。再试一道：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

很好，应用了正确的公式👌，邻居家小孩似乎可以愉快的抄写作业了呢😝

2. 坐标系理解

接下来要稍微上一点难度，看看 VLR1-3B 对平面直角坐标系的理解如何：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

不错，一开始就理解了这一题的考点，并告知了题点，横纵坐标都为负的点，然后还分析了每个选项，给出正确答案。解释的有理有据👌。以后还会有家长给熊孩子讲题讲到心梗吗😉

3. 函数计算

下面要进行的是函数计算，依然考验模型从图片中正确的读取函数公式，并依靠推理能力得出函数计算结果：

问题：f(4)等于多少？

可能是目前最好的3B多模态模型，有望做“AI作业帮”

函数识别👌，计算过程👌，答案✅。

4. 平面几何

接下来是重中之重的测试，平面几何。先来两道填空题：

问题：△ABC的两内角平分线OB、OC相交于点O，若∠A＝110°，则∠BOC＝（）

可能是目前最好的3B多模态模型，有望做“AI作业帮”

表现依然出色，不仅给出了详尽的推理过程，还给出了准确的答案 ✅

接下来再来一题：

问题：如图，在△ABC中，AB＝8，BC＝12，点D、E分别是边AB、AC的中点，点F是线段DE上的一点，连接AF、BF，若∠AFB＝90°，则线段EF的长为（）

可能是目前最好的3B多模态模型，有望做“AI作业帮”

非常棒平面几何解题能力👌，在应用了正确的公式定理下，还会用“∵”，“∴”等专业的数学推理符号

平面几何是中学数学的重点，与填空和选择不同，模型有可能靠蒙答对题（人也会哈），这种证明类型的题目更考验模型的“真本事”，再来测试一道平面几何的证明题：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

没问题，证明过程清晰，测试通过 ✅。

5. 物理

既然 VLR1-3B 在数学方面表现的这么好，何不再挑战一下，做个物理题试试？

可能是目前最好的3B多模态模型，有望做“AI作业帮”

哦吼~，物理题也能答，还能解释对自己的选择。

二、What's more?

从之前的测试来看，VLR1-3B 有确实有着出众的数学能力，从图片的公式理解到答案的推理求解，甚至格式的输出都有着令人满意的效果。既然如此，当然就要“强模型所难”，考验一下VLR1-3B 在其他通用多模态场景的表现：

先用我最喜欢的猫咪开始测试，询问它图中猫的花纹、品种和年龄：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

Bingo，回答很准确~

再来，因为有从事的是自动驾驶算法研究的经验，所以凡是遇到有视觉能力的模型，都会被我拿来测一下：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

连自动驾驶车辆都认识，那真实道路场景表现怎么样呢？

可能是目前最好的3B多模态模型，有望做“AI作业帮”

相当可以，车辆数量、颜色、类型都判断正确 ✅，同时天气和驾驶环境也准确识别。再来个夜晚场景，问问前方车辆的行驶意图：

可能是目前最好的3B多模态模型，有望做“AI作业帮”

看来可以呀，到这，发现这确实是个麻雀虽小，五脏俱全的多模态模型～

三、结语

总体测试下来，过程中虽然也遇到了该级别模型的常见问题——如思考过程中的幻觉，特别是一些测试中，结果是正确的，但思考过程却明显失误。但在后续更新和实际落地场景中，使用场景数据来Fine-tune后的模型能取得更好的效果。

话又说回来，毕竟是一个只有 3B的模型，它有望成为开源本地 “家庭 AI 作业帮”的的选手，后续会发表详细的技术报告和论文。同时公开更多尺度的模型～

相关标签：

AI 多模态模型 VLR1-3B

相关资讯

Moonshot AI开源轻量级MoE多模态模型Kimi-VL，2.8B参数媲美SOTA模型！

Moonshot AI开源轻量级MoE多模态模型Kimi-VL，2.8B参数媲美SOTA模型！

最近有点忙，没来得及更新，但一直保持着对前沿技术的紧密关注，不得不感叹当今技术日新月异。多模态推理模型进展，现有的开源大型视觉语言模型在可扩展性、计算效率和高级推理能力方面显著落后于纯文本语言模型。 OpenAI的GPT-4o和Google的Gemini等模型能够无缝感知和解释视觉输入，但不开源，DeepSeek-R1等模型虽然采用了MoE架构，但在长上下文推理和多模态任务上仍有不足。

4/14/2025 12:30:00 AM Goldma

徐图智能徐东：文生视频创业，要用坚定信仰对抗 fomo 的大厂

徐图智能徐东：文生视频创业，要用坚定信仰对抗 fomo 的大厂

在 GPT-4 发布一年多后，OpenAI 推出 GPT-4o，是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是：在底层模型并没有变得更智能的情况下，能够跨多种模态进行推理的模型必然是更加通用的。因为其不仅具备多种功能，还能以不同模态传递知识。

6/20/2024 3:28:00 PM 王悦

清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高，机器人使用多模态模型的障碍被解决了！来自清华大学的研究者们设计了DeeR-VLA框架，一种适用于VLA的“动态推理”框架，能将LLM部分的相关计算、内存开销平均降低4-6倍。（VLA：视觉-语言-动作模型，代表一类用于处理多模态输入的模型）简单来说，DeeR-VLA就像人的决策系统：简单任务快速思考，复杂任务仔细思考。

12/2/2024 7:10:00 AM