VLR1-3B
可能是目前最好的3B多模态模型,有望做“AI作业帮”
作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:“小”模型,使用了强化学习训练方式,增强了推理性能。 达到了同级别模型中推理能力第一(SOTA)。 主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~同时对比了多个banchMark结果,Average第一~ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。
5/27/2025 8:30:00 AM
腾讯技术工程
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用