AI在线 AI在线

视觉推理

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。 图片这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。
9/15/2025 2:42:55 PM

上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。 第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取-结构化-推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。 论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。
8/9/2025 12:41:00 PM
机器之心

王炸!中国AI再添“王牌军”!昆仑万维 Skywork R1V 多模态推理模型震撼开源!

昆仑万维今日正式宣布,他们打造的 Skywork R1V 多模态推理模型,正式开源了!这不仅是中国首个工业界开源的多模态推理模型,更标志着中国AI力量在多模态理解和推理领域,迈出了里程碑式的一步!即日起,模型权重和技术报告完全对外敞开怀抱!想象一下,一个AI模型不仅能看懂图片,还能像人类一样进行逻辑推理,解决复杂的视觉难题——这不再是科幻电影里的场景,而是 Skywork R1V 正在实现的能力!这款模型就像一位“AI界的福尔摩斯”,它擅长抽丝剥茧,通过多步骤的逻辑分析,从海量视觉信息中挖掘出深层含义,最终给出精准答案。 无论是破解视觉逻辑谜题,解答高难度的视觉数学题,还是分析图像中的科学现象,甚至是辅助医学影像的诊断推理,Skywork R1V 都能展现出惊人的实力。 要衡量一个AI模型的“智商”,数据最有说服力!在 Reasoning 推理能力方面,Skywork R1V 在权威的 MATH500和 AIME 基准测试中,分别斩获94.0和72.0的超高分!这意味着,无论是破解复杂的数学难题,还是进行严谨的逻辑推理,Skywork R1V 都能轻松胜任。
3/18/2025 6:05:00 PM
AI在线
  • 1