AI在线 AI在线

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

AI读不懂HTML、Markdown长文档的标题和结构,找信息总踩坑? 解决方案来了——SEAL全新对比学习框架通过带结构感知 元素对齐,让模型更懂长文。 该方法创新性地将文档的宏观层级结构和微观元素语义同时融入到统一的Embedding空间中,显著增强了预训练语言模型对结构化数据的理解和表示能力。

AI读不懂HTML、Markdown长文档的标题和结构,找信息总踩坑?

解决方案来了——

SEAL全新对比学习框架通过带结构感知+元素对齐,让模型更懂长文。

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

该方法创新性地将文档的宏观层级结构微观元素语义同时融入到统一的Embedding空间中,显著增强了预训练语言模型对结构化数据的理解和表示能力。

在BGE-M3模型上将MRR@10(信息检索能力评估集)指标从73.96%提升到77.84%,并在真实的线上A/B测试中验证了其有效性。

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

团队不仅提升了长文档检索准确率,还开源了万级字数长文档数据集。

下面具体来看。

对Embedding模型进行的两项专门“辅导”

结构化长文档检索中的常见挑战

在日常工作和学习中,我们常常需要从篇幅浩繁的文档中寻找特定信息,例如技术手册、法律文书或研究报告。面对这些结构复杂的长文本,即便是先进的Embedding模型,也可能在信息检索时表现不佳。

一个关键原因是,现有方法在处理结构化长文档时,大多将其视为一长串无差别的纯文本,忽略了标题、段落、列表等固有的结构信息。

这种对文档层次脉络的“视而不见”,可以称之为结构性失明(Structural Blindness),它限制了Embedding模型对文档深层语义的理解能力。

针对这一挑战,团队提出了名为SEAL (Structure and Element Aware Learning) 的对比学习框架,尝试让Embedding模型更好地理解和利用文档的结构信息。

核心解读:SEAL框架的设计思路

该研究旨在解决长文档检索中的两个具体问题:

  • 一是如何让模型感知文档的层次结构;
  • 二是如何促进用户查询与文档内部具体元素之间的精准对齐。

SEAL框架为此设计了两种相辅相成的训练策略。可以将其理解为对Embedding模型进行的两项专门“辅导”。

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

结构感知学习(SAL)尝试理解文档的“骨架”

传统的Embedding模型在读取HTML等格式的文档时,往往会剥离等结构标签。SAL的核心思路则有所不同。

它在训练时会向模型同时展示一份文档的两个版本:一个保留了结构标签,另一个则去除了标签。

通过对比学习的任务,模型被鼓励去发现,即使没有明确的标签,某些文本片段(如标题)的内容和位置也蕴含着其结构功能。通过这种方式,模型能够逐步学习到文档的内在”骨架”,区分不同部分的逻辑功能。

元素感知对齐(EAL)关注局部元素的语义角色

为了进一步提升模型对细节的把握,EAL策略引入了一种基于元素(如一个标题或一个段落)的Mask机制。在训练中会按照固定比例随机Mask文档中的一小部分元素,然后要求模型判断这份信息不完整的文档是否与给定的Query相关。

为了完成任务,模型必须更依赖文本内容本身以及周围未被遮盖的元素来推断文档的整体相关性。这个过程促使模型更深入地理解每个文本片段的语义角色及其在上下文中的作用。

实验结果表明,这两种训练策略的结合能够带来积极效果。

在BGE-M3模型上的测试显示,应用SEAL框架后,衡量检索排序质量的关键指标MRR@10从73.96%提升至77.84%。

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

这一数据表明,模型在将更相关的结果排在靠前位置的能力上有所增强。同时,线上A/B测试的结果也初步显示了该方法在实际应用场景中的积极影响。

开源万词级文档数据集

同时,该团队还发布了一个名为StructDocRetrieval的新数据集,其中包含带有结构标注的万词级别长文档。

该数据集的文档词数远超MS MARCO等典型短数据集(MS MARCO大多文档不到700字,最长1670字 ),填补了该领域的数据空白。

并且,它利用HTML格式来表示文档,包含了丰富的结构语义标注。

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

△StructDocRetrieval的一个数据样例

这个资源的公开,为社区评估和开发面向长文档的检索模型提供了一个新的Benchmark。

总的来说,通过SEAL方法这种对结构信息的精细理解,不仅能为RAG等下游任务提供更可靠信息来源(如助力AI助手精准定位技术文档答案),也在企业知识库、法律科技等专业领域展现出广阔应用前景。

感兴趣的朋友可以到原文查看更多内容~

论文地址:https://arxiv.org/abs/2508.20778

相关资讯

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。 然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。 这些限制凸显了系统地量化蒸馏过程及其影响的必要性。
1/22/2025 9:32:30 AM
新智元

随手一拍,高效重建大型3D开放场景,港科广GraphGS突破传统重建技术瓶颈|ICLR 2024

从手机随手拍、汽车行车记录仪到无人机航拍,如何从海量无序二维图像快速生成高精度三维场景? 传统方法依赖精确的相机位姿参数,实际应用成本高昂。 港科广团队提出全新框架GraphGS,突破技术瓶颈——无需精准相机位姿,仅凭RGB图像即可实现大规模开放场景的高效重建和高保真新视角合成,相关论文入选ICLR 2025,代码即将开源。
3/26/2025 9:55:14 AM
量子位

双人动作生成新SOTA!浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA! 针对Human-human motion generation问题,浙江大学提出了一种对双人运动序列进行时序和因果建模的架构TIMotion,论文已发表于CVPR 2025。 具体来说,通过分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系,TIMotion设计了两种有效的序列建模方式。
4/3/2025 9:27:44 AM
量子位
  • 1