AI在线 AI在线

RAG分块优化之语义分块方法CrossFormer模型技术思路

笔者在前期文章中总结了RAG的分块《RAG常见13种分块策略大总结(一览表)》,本文介绍一个语义分段的工作,该工作解决的问题是文本语义分割,即将文档分割成多个具有连续语义的段落。 传统方法通常依赖于预处理文档以分段来解决输入长度限制问题,但这会导致段间关键语义信息的丢失。 RAG系统中的文本分块方法主要分为基于规则和基于LLM的方法。

笔者在前期文章中总结了RAG的分块《RAG常见13种分块策略大总结(一览表)》,本文介绍一个语义分段的工作,该工作解决的问题是文本语义分割,即将文档分割成多个具有连续语义的段落。传统方法通常依赖于预处理文档以分段来解决输入长度限制问题,但这会导致段间关键语义信息的丢失。RAG系统中的文本分块方法主要分为基于规则和基于LLM的方法。

插入一个思路,其实,语义分段的方式笔者在很早实践过一个思路,不管是RAG分块还是基于规则分块,都会或多或少的都是段落信息,如何通过语义的方式分割段落?笔者之前的思路最初的想法来源于序列标注模型,那么是否能应用序列标注的方法,来预测文本行之间的跳转概率?答案是肯定的,以pdf为例,具体实施步骤如下: 先放上笔者之前的老图:

标注方式标注方式

  1. 从pdf读取程序或ocr引擎中得到文本行及其坐标;
  2. 使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
  3. 提取对应行的图像,得到图像嵌入向量img_emb(i);
  4. 提取字号、文字长度特征,并进行归一化得到特征向量;
  5. 聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
  6. 使用神经网络对行向量序列[line_emb(i)]进行序列标注。

整体方案流程图如下:

图片图片

接下来,本文介绍的方法有异曲同工之处,也是采用序列标注的方式进行,供参考。

方法-CrossFormer

图片图片

任务定义

RAG分块优化之语义分块方法CrossFormer模型技术思路

文档预处理

图片图片

由于文本语义分割任务通常涉及长文档,需要采用适当的建模方法来有效处理这些文档。论文中采用了截断和分段的方法。步骤如下:

RAG分块优化之语义分块方法CrossFormer模型技术思路

跨段融合模块 (CSFM)

CSFM 是 CrossFormer 的核心组件,用于增强文档段之间的语义连贯性。原理如下:

RAG分块优化之语义分块方法CrossFormer模型技术思路

训练模型使用交叉熵损失函数即可。

通过这种方式,CSFM 能够有效地捕捉文档段之间的语义依赖关系,提高分割性能。

CrossFormer 作为 RAG 文本块分割器

图片图片

CrossFormer 可以作为RAG系统中的文本块分割器,生成更具语义连贯性的文本块。流程如下:

流程图流程图

  1. 分割长文档:首先使用 CrossFormer 对输入文档进行分割,生成一系列文本块。
  2. 长度评估:评估每个文本块的长度。如果长度超过预设阈值,则将其输入分割队列进行进一步处理,直到确定不需要额外分割或文本块长度低于指定阈值。
  3. 检索和生成:使用分割后的文本块进行检索和生成。通过检索器和问题提示进行相关性检索,生成上下文,并将其输入到LLM中以获得最终答案。
局限性
  • CrossFormer不能精确控制文本块长度的上限。因此,可能需要结合基于规则的方法来输出合适的长度。
  • 作为线性文本语义分割模型,CrossFormer不能输出部分重叠的文本块,这在RAG系统的某些场景中是必需的。

实验效果

文本语义分割的结果文本语义分割的结果

在RAG基准测试上的结果在RAG基准测试上的结果

图片图片

参考文献:CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation,https://arxiv.org/pdf/2503.23671v1

相关资讯

PNAS顶刊 | 抗体中和活性提升1000倍,百奥几何生成式AI高效反击病毒新变种

编辑丨Science AI近日,百奥几何(BioGeometry)携手上海交通大学药学院朱建伟团队,基于生成式 AI 驱动的抗体优化策略,在短时间内精准优化 8G3 抗体,实现其对最新病毒变异株 JN.1 的中和活性 1000-1500 倍的跃升。 相关研究成果已正式发表在国际顶级期刊《美国国家科学院院刊》(PNAS)上【1】,继 CR3022 抗体、肿瘤抗原 5T4 纳米抗体【2】等多个优化案例后,再次证明了生成式 AI 驱动抗体工程的广泛适用性和变革潜力。 论文地址: AI 抗体工程:精准优化 8G3 抗体,中和活性提升 1000-1500 倍由于病毒基因组的快速进化和新变种的不断产生增加了治疗的复杂性,大多数早期开发的抗体已无法精准识别并有效结合目标,导致中和能力大幅下降。
2/10/2025 2:53:00 PM
ScienceAI

新手必看:用DeepSeek轻松产出爆款,三分钟掌握自媒体全流程

今天来分享如何利用 DeepSeek 高效创作自媒体文章,自媒体账号的打造和内容创作是一个系统性工程。 本文将详细拆解如何利用 DeepSeek 完成从账号定位到爆款内容创作的全流程,帮助你快速脱颖而出。 一、账号定位与赛道分析:知己知彼,精准切入1.
2/19/2025 12:07:56 AM
宇宙之一粟

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。
2/24/2025 9:15:00 AM
量子位
  • 1