咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于上下文Transformer的化验单表格结构识别算法研究 收藏
基于上下文Transformer的化验单表格结构识别算法研究

基于上下文Transformer的化验单表格结构识别算法研究

作     者:仲宗锋 

作者单位:山东师范大学 

学位级别:硕士

导师姓名:万洪林;孙希强

授予年度:2023年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 10[医学] 

主      题:化验单 表格识别 关键信息提取 Transformer 双模态融合 

摘      要:近年来,人工智能、大数据技术以及计算机硬件集成和储存技术取得了快速发展。这无疑引发了新一代的产业革命,催生了诸多以无人驾驶、智慧城市、虚拟现实、人机交互、智慧医疗等为代表的新兴产业技术。此外,各行业尤其以医疗领域中数据的爆发式增长,给数字化存储和分析提出了新的要求。在“互联网+医疗的时代背景下,深度学习能够借助大数据,实现对海量化验数据的智能处理。其中,化验单作为医学检验报告的呈现形式,包含了患者的诸多体检信息,在病情分析中有重要作用。利用深度学习使机器识别化验单文本信息,再用大数据进行病情分析,实现智能化医疗辅助诊断系统。化验单表格识别是机器理解体检报告的第一步,也是亟待解决的实际问题。其主要任务是分析化验单的表格结构,识别单元格的内容,将自然场景下的化验单图像重建为电子表格,以进一步存储和分析处理。由于中文化验单是一种无线的复杂结构表格,且种类繁多,又包含各种类型的字符,实现其精准识别仍是一个难点问题。本文提出了一种基于上下文Transformer的化验单表格结构识别算法CoT_SRN。该算法主要由CoT编码器和SRN解码器两部分组成。CoT编码器结合了能够充分利用上下文信息的Transformer模块,构建了更适用于无线复杂中文化验单表格识别场景的CoT_Net50Vd骨干网络,用以提取输入图像特征并编码。SRN解码器以Attention+GRU结构,构成序列识别的Attention_Head,预测编码后的特征序列并输出表格结构序列和单元格位置信息。最后,通过表格结构序列与文本检测和文本识别结果聚合,将化验单图像重建为完整的电子表格。本文还提出了一种基于STC_Unet的空间双模态融合化验单关键信息提取算法来实现表格结构化识别。该算法由双模态融合模块、图推理模块和分类与后处理模块三部分组成。使用Swin_Transformer与Unet结合的STC_Unet网络提取视觉特征,使用Bi_LSTM提取语义特征,再由克罗内克积进行视觉和语义双模态特征融合。将上述特征输入到空间推理模型提取最终的节点特征,最后再由分类模块进行多分类任务,经后处理步骤结构化所需的关键信息。此外,本文还优化了损失函数,提高了关键信息提取的精度。本文表格识别算法CoT_SRN使用TEDS作为评价指标。在大型公开表格识别数据集Pub Tab Net和Sci TSR上与近年来优秀算法进行比较,取得了有竞争力的TEDS得分。本文还使用真实医疗场景下采集的化验单表格图像进行标注和处理,制作了化验单图像数据集CMDD+,用以进行实验模型的训练和测试,包括消融、对比实验和交叉验证实验。实验证明,本文算法方案在化验单表格识别场景取得了最高的TEDS得分。本文的化验单关键信息提取算法分别在购物小票数据集Wildreceipt、常见票据数据集CSIG_Datasets和化验单数据集CMDD+上进行了消融实验,均取得了最高的准确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分