您所在的位置:首页 - 科学研究 - 科研动态

科研动态

LASDTab:基于局部注意力和语义联合解码器的中文工程表格结构解析方法

中文题目:LASDTab:基于局部注意力和语义联合解码器的中文工程表格结构解析方法

论文题目:LASDTab: A Complex Chinese Engineering Table Parsing Method Based on Local Attention and Semantic-Aware Unified Decoder

录用期刊/会议:The 2025 Twentieth International Conference on Intelligent Computing (CCF C)

录用/见刊时间:2025.4.28

作者列表

1)李晓雪 中国天天色天天(北京)人工智能学院 硕23

2)王智广 中国天天色天天(北京)人工智能学院 计算机系教师

3)刘志强 中国天天色天天(北京)人工智能学院 硕23

4)刘若冰 中国天天色天天(北京)人工智能学院 硕24

5)周   静 中国天天色天天(北京)人工智能学院 硕22

6)鲁   强 中国天天色天天(北京)人工智能学院 计算机系教师

文章简介:

当前方法应用于中文工程表格时,仍然面临两大核心问题。其一,中文工程表格往往包含数百个单元格,导致结构序列极为冗长,从而使模型在解析此类表格时难以取得理想效果。其二,表格解析通常涵盖结构预测、单元格位置预测与单元格内容生成三个核心任务,这些任务在空间与语义层面紧密耦合,但现有方法多将其独立建模,忽略了多任务之间的相互依赖性。针对上述两个问题,本文开展了一系列研究工作。

摘要:

中文工程表格往往包含数百个单元格,并且在解析时需要将复杂的表格结构信息转换为较长的序列表示,使得模型在解析此类表格时难以取得理想效果。此外,表格结构预测、单元格位置预测和单元格内容预测三个核心子任务在建模过程中通常相互独立,当前的研究未能充分考虑其在空间结构与语义层面的紧密关联。为应对上述难题,本文提出了一种基于局部注意力和语义感知联合解码器的复杂中文工程表格解析框架——LASDTab。

设计与实现:

首先,为了解决长表格问题,我们在结构解码器中引入了一种局部注意力机制,该机制仅关注输入序列中与当前位置邻近的标记,在降低计算复杂度的同时,能够捕获重要的局部结构依赖。

传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系,如图1(a),这在很大程度上限制了模型的输入不能太长。而局部注意力使用掩码矩阵将注意力限制在一个窗口内,从而增强transformer对长序列的处理效率和准确性,如图1(b)。

image.png 

图1 不同注意力机制的注意力范围

其次,为了解决多任务建模分离问题,我们在语义感知联合解码器中,设计了一种语义信息驱动的联合解码机制。在联合解码过程中,内容生成过程中的隐藏状态被映射到一个共享的语义空间,并与位置预测特征进行对齐,这种机制使位置预测模块能够直接从内容生成的语义信息中获益,从而显著提升其对单元格边界的预测准确性。此外,我们通过结构解码器的动态触发机制,在每次解码到结构标签<td></td>时,激活联合解码器解析当前单元格的位置和内容,保证任务之间的时序一致性。整体模型结构图如图2所示。

image.png 

图2 模型结构图

实验结果及分析:

1、数据集

我们使用公共数据集 PubTabNet、FinTabNet,以及自建的 Long_PutTabNet 和 EGTabNet。Long_PutTabNet 是在 PubTabNet 的表结构中选取的具有 300 个以上结构标记的表图像,共有 82,027 个表。EGTabNet是一个由多层嵌套实体关系构建的中文工程表数据集。

2、对比实验结果及分析

表1展示了各模型在三个数据集上的实验结果。从实验结果可以看出,本文方法在所有数据集上的 S-TEDS 、AP50和 TEDS 指标均超过现有方法,充分验证了其在复杂表格解析任务中的有效性。

表1 不同模型在表格解析任务中的 S-TEDS , TEDS和AP50 对比

image.png 

结论:

我们提出了LASDTab,这是一个结合了局部注意力和语义感知联合解码器的新框架,用于增强表结构预测、单元格位置预测和单元格内容预测。局部注意机制提高了长且结构紧密的表的结构解码精度,而SAUD通过共享注意力机制和语义对齐机制实现了单元位置和内容的联合建模,确保了任务之间的一致性。在三个数据集上的实验结果表明,LASDTab在TEDS、S-TEDS和AP50指标上显著优于六种主流表解析方法。这些结果验证了该方法在高效准确地解析复杂中文工程表中的有效性和鲁棒性。未来的工作将进一步探索该模型对于多语言表格数据和跨域表解析的可扩展性。

作者简介:

王智广,教授,博士生导师,北京市教学名师。中国计算机学会(CCF)高级会员,全国高校实验室工作研究会信息技术专家指导委员会委员,全国高校计算机专业(本科)实验教材与实验室环境开发专家委员会委员,北京市计算机教育研究会常务理事。长期从事分布式并行计算、三维可视化、计算机视觉、知识图谱方面的研究工作,主持或承担国家重大科技专项子任务、国家重点研发计划子课题、国家自然科学基金、北京市教委科研课题、北京市重点实验室课题、地方政府委托课题以及企业委托课题20余项,在国内外重要学术会议和期刊上合作发表学术论文70余篇,培养了100余名硕士博士研究生。