视觉推理
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。 图片这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。
9/15/2025 2:42:55 PM
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。 第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取-结构化-推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。 论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。
8/9/2025 12:41:00 PM
机器之心
王炸!中国AI再添“王牌军”!昆仑万维 Skywork R1V 多模态推理模型震撼开源!
昆仑万维今日正式宣布,他们打造的 Skywork R1V 多模态推理模型,正式开源了!这不仅是中国首个工业界开源的多模态推理模型,更标志着中国AI力量在多模态理解和推理领域,迈出了里程碑式的一步!即日起,模型权重和技术报告完全对外敞开怀抱!想象一下,一个AI模型不仅能看懂图片,还能像人类一样进行逻辑推理,解决复杂的视觉难题——这不再是科幻电影里的场景,而是 Skywork R1V 正在实现的能力!这款模型就像一位“AI界的福尔摩斯”,它擅长抽丝剥茧,通过多步骤的逻辑分析,从海量视觉信息中挖掘出深层含义,最终给出精准答案。 无论是破解视觉逻辑谜题,解答高难度的视觉数学题,还是分析图像中的科学现象,甚至是辅助医学影像的诊断推理,Skywork R1V 都能展现出惊人的实力。 要衡量一个AI模型的“智商”,数据最有说服力!在 Reasoning 推理能力方面,Skywork R1V 在权威的 MATH500和 AIME 基准测试中,分别斩获94.0和72.0的超高分!这意味着,无论是破解复杂的数学难题,还是进行严谨的逻辑推理,Skywork R1V 都能轻松胜任。
3/18/2025 6:05:00 PM
AI在线
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
AI模型