AI在线 AI在线

VLMs

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG

VLMs 在多模态推理中虽表现强大,但在处理特定场景时易产生 “幻觉”,如:复杂场景适配问题:面对第一视角图像(如智能眼镜拍摄的实时画面)、长尾实体(罕见物体 / 概念)、多跳推理问题(需多步逻辑推导)时,模型易因知识不足或误判生成错误结论;知识时效性问题:模型依赖内部先验知识,对涉及时效性的内容(如实时事件、动态变化的信息)易输出过时答案。 图片比赛链接:。 该框架通过四个核心阶段的协同运作,实现“减少幻觉”与“保证信息量”的平衡,同时兼顾效率与可靠性。
7/31/2025 5:15:00 AM
llmnlp

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

在机器学习模型日益应用于开放世界场景中,如何有效识别和处理分布外(Out-of-Distribution, OOD)数据成为一个重要研究领域[1]。分布外数据的存在可能导致模型过度自信和错误预测,这在安全关键应用(如自动驾驶和医疗诊断)中尤为危险。因此,发展一种有效的OOD检测机制,对于提高模型在实际应用中的安全性和可靠性至关重要。传统的OOD检测方法主要集中在单一模态,特别是图像数据上,而忽视了其他潜在有用的信息源,例如文本数据。随着视觉-语言模型(VLMs)的兴起,它们在多模态学习场景中展示了强大的性能,特别是
5/6/2024 12:12:00 PM
TMLRGroup
  • 1