AI在线 AI在线

攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

本工作核心作者为汤子瑞(上海交通大学)、牛博宇(上海交通大学)。 合作者为李帛修、周炜、王健楠、李国良、张心怡、吴帆。 通讯作者为上海交通大学计算机学院博士生导师周煊赫。
图片

本工作核心作者为汤子瑞(上海交通大学)、牛博宇(上海交通大学)。合作者为李帛修、周炜、王健楠、李国良、张心怡、吴帆。通讯作者为上海交通大学计算机学院博士生导师周煊赫。团队长期从事人工智能与数据交叉研究。

半结构化表格是我们日常工作中常见的 “拦路虎”—— 布局五花八门、结构复杂多变,让自动化数据处理变得异常困难。

图片

面对这样的挑战,传统的表格处理工具往往力不从心。研究发现,现有的大模型以及表格理解领域模型在 NL2SQL / 结构化表格已经有了较好的效果(准确率超 80%),但是在那些诸如金融报表、库存表、企业管理表等具有合并单元格、嵌套表格、层次结构等特征的复杂半结构化表格上表现明显退化。

图片

为了解决这一痛点,来自上海交通大学计算机学院、西蒙菲莎大学、清华大学、中国人民大学的合作团队,带来基于树形框架的智能表格问答系统(ST-Raptor),其不仅能精准捕捉表格中的复杂布局,还能自动生成表格操作指令,并一步步执行这些操作流程,最终准确回答用户提出的问题 —— 就像给 Excel 装上了一个会思考的 “AI 大脑”。

目前,该论文已被数据库领域国际顶尖学术会议 ACM SIGMOD 2026 接收。

图片
  • 论文标题:ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

  • 论文链接:https://arxiv.org/abs/2508.18190

  • 项目仓库:https://github.com/weAIDB/ST-Raptor

该项目发布后得到广泛关注与转发:

图片

现有的 NL2SQL 方法需要将半结构化表格转换为结构化表格处理,这通常会导致大量的信息丢失。此外,现有的 NL2Code 和多模态 LLM 问答都无法准确捕捉半结构化表格独特的信息组织方法,因此无法准确回答相应的问题。下图展示了一些基线方法在半结构化表格问答上的表现。在总共 100 个问题的回答中,大模型的错误率均较高,且其在涉及到表格结构理解,数据获取,问题推理三方面表现均不佳。

图片

准确率低的原因主要由于以下几点:(1)半结构化表格结构个性化程度高,结构复杂多样且隐含了部分语义信息,大模型难以捕捉到布局的微妙之处。(2)在进行表格数据检索时,模型容易产生幻觉,造成失真。(3)模型对问题的理解能力不足,不能从表格里获取解决问题需要的信息。

HO-Tree  创新性的半结构化表格表示方案

为了定制解决半结构化表格信息的复杂分布问题,本文提出了层次正交树(HO-Tree)这一数据结构。HO-Tree 由 Meta Tree(MTree)和 Body Tree(BTree)嵌套组合形成,其中 MTree 代表了表头中的元数据,BTree 代表了表内容中的信息数据。

图片

上图展示了构建 HO-Tree 的基本步骤。对于一个 excel 表格,首先将表内容转化为 HTML 格式并渲染,接着用 VLM 提取图片中的表头信息,在对齐后得到元信息组。接着,根据得到的元信息将表格进行分层级的区域划分,最后根据这一层级得到 HO-Tree。通过这一步骤,半结构化表格被转化为了计算机易于操作的数据形式,为后续处理提供了便利。

树上操作与流程设计  精准回答问题的 “手术刀”

在建构好 HO-Tree 之后,本文继续设计了一套在树上进行检索的操作,通过迭代地使用这些操作,LLM 可以按步骤分析表格,最终获取信息回答问题。这些操作可以分为以下四类:

  1. 数据获取操作:可以获取树上子节点,父节点等信息,递归地进行数据获取操作可以有效去除冗余信息,得到回答问题所必要的信息。

  2. 数据处理操作:根据问题需要的形式,将得到的数据进行处理(如求和,计数,按条件筛选等)。

  3. 对齐操作:将过程中的信息和表格内容进行对齐,增强检索时的健壮性。

  4. 推理操作:将获取的最终答案和问题进行对齐,得到满足格式要求的最终答案输出。

这些操作可以帮助 LLM 以直观的方法获取数据,分析表格,并且以可信的方式得到最终答案。结合这些操作,可以搭建一套流水线回答问题。如下图例子所示,在得到问题后,ST-Raptor 将其拆解为三个子问题,通过预定义的树上操作进行搜索,处理,最后经过推理得到答案。

图片

实验结论

现有的表格数据集大多以结构化为主,一些半结构化的数据集也都并不涉及复杂嵌套关系,和真实情境不符。因此,本文构建了一个半结构化表格数据集 SSTQA,共有 102 张复杂的真实情境表格和 764 个针对这些表格的问题,总共包含了 19 个代表性的真实场景。如下图所示,在 SSTQA 上,ST-Raptor 相较其余方法而言,取得了很高的准确率提升,尤其是在结构复杂困难的表格上远超其余方法。

图片

在其余两个半结构化表格问题数据集 WikiTQ 和 TempTabQA 上的测试结果如下表所示,ST-Raptor 准确率位于榜首,展现出了优秀的泛化能力。

图片

综上所述,ST-Raptor 提供了一套行之有效的半结构化表格问答解决方案,为现实生活中的半结构化表格自动化处理提供了新思路。通过挂载 ST-Raptor,LLM 可以增加对半结构化表格的理解能力和分析能力,提升表格问答的准确性。在未来,可以优化 HO-Tree 的表示和创建,使其囊括更多复杂表格;同时可以定制更多树上操作,使问题回答更流畅便捷。

ST-Raptor 立足于表格结构解析这一核心挑战,有效弥补了大语言模型在处理二维表格结构时的能力短板,能够直接支持包括 Excel 在内的多种复杂半结构化表格输入。尽管如此,现实场景中的半结构化表格仍普遍存在格式不规范、布局多样、语义歧义以及跨表关联等复杂问题,值得在模型架构、语义理解与泛化能力等方面展开长期而深入的探索。

相关资讯

Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布

本届 ACM Fellow 包揽了万维网发明者、深度学习三巨头等重磅名人学者。今天,美国计算机协会 ACM(Association for Computing Machinery)公布了最新一届 Fellow 名单。ACM 创立于 1947 年,是全世界计算机领域影响力最大的专业学术组织之一。ACM Fellow 是由该组织授予资深会员的荣誉,目的为表彰会员中对于计算机相关领域贡献前 1% 的学者,其审查过程十分严格,每年遴选一次,研究员由同行提名,提名由委员会审查。本年度新入选科学家中共有 68 人,他们的贡献涉
1/25/2024 3:16:00 PM
机器之心

准确率达95.16%,快速识别恶性肿瘤细胞,厦大和上海交大团队开发域泛化深度学习算法

编辑 | 萝卜皮单细胞和空间转录组测序是两种最近优化的转录组测序方法,越来越多地用于研究癌症和相关疾病。细胞注释,特别是恶性细胞注释,对于这些研究中的深入分析至关重要。然而,当前的算法缺乏准确性和泛化性,使得难以一致、快速地从泛癌数据中推断出恶性细胞。为了解决这个问题,厦门大学和上海交通大学的研究团队提出了 Cancer-Finder,一种基于域泛化(Domain Generalization,DG)的深度学习算法,可以快速识别单细胞数据中的恶性细胞,平均准确率达到 95.16%。重要的是,通过用空间转录组数据集替
3/25/2024 5:52:00 PM
ScienceAI

天津:力争到 2026 年智能算力规模超 10EFLOPS,支持企业加快 AI 芯片布局

天津市人民政府办公厅今日印发《天津市算力产业发展实施方案(2024—2026 年)》,目标到 2026 年,全市算力中心国产算力芯片使用占比超过 60%,全市建成 5 个以上赋能成效显著的大规模智算中心,全市算力赋能标杆应用场景超过 30 个,加快形成特色突出、协同发展的算力产业布局。AI在线汇总部分重点任务如下:加大智能算力供给:鼓励基础电信企业、互联网企业等结合市场需求,建设“万卡”智能算力资源池,打造京津冀地区重要算力节点。力争到 2026 年,全市智能算力规模达到 10EFLOPS 以上。推动国家超级计算天
7/18/2024 5:55:22 PM
清源
  • 1