VLMs

多阶段的多模态RAG幻觉缓解方案：智能眼镜等实时交互场景比赛方案-MM-RAG

多阶段的多模态RAG幻觉缓解方案：智能眼镜等实时交互场景比赛方案-MM-RAG

VLMs 在多模态推理中虽表现强大，但在处理特定场景时易产生 “幻觉”，如：复杂场景适配问题：面对第一视角图像（如智能眼镜拍摄的实时画面）、长尾实体（罕见物体 / 概念）、多跳推理问题（需多步逻辑推导）时，模型易因知识不足或误判生成错误结论；知识时效性问题：模型依赖内部先验知识，对涉及时效性的内容（如实时事件、动态变化的信息）易输出过时答案。图片比赛链接：。该框架通过四个核心阶段的协同运作，实现“减少幻觉”与“保证信息量”的平衡，同时兼顾效率与可靠性。

7/31/2025 5:15:00 AM llmnlp

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

在机器学习模型日益应用于开放世界场景中，如何有效识别和处理分布外（Out-of-Distribution, OOD）数据成为一个重要研究领域[1]。分布外数据的存在可能导致模型过度自信和错误预测，这在安全关键应用（如自动驾驶和医疗诊断）中尤为危险。因此，发展一种有效的OOD检测机制，对于提高模型在实际应用中的安全性和可靠性至关重要。传统的OOD检测方法主要集中在单一模态，特别是图像数据上，而忽视了其他潜在有用的信息源，例如文本数据。随着视觉-语言模型（VLMs）的兴起，它们在多模态学习场景中展示了强大的性能，特别是

5/6/2024 12:12:00 PM TMLRGroup

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉