AI在线 AI在线

Rex-Omni

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

多模态大语言模型(MLLM)在目标定位精度上被长期诟病,难以匹敌传统的基于坐标回归的检测器。 近日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。 该模型将所有视觉感知任务统一为「下一个点预测」,并结合高效的 4-Token 坐标编码和两阶段 GRPO 强化学习后训练。
11/13/2025 4:43:00 PM
机器之心