基于编码器—解码器和注意力机制神经网络的数学公式识别方法
作者单位:厦门大学
学位级别:硕士
导师姓名:吴梅红
授予年度:2019年
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 12[管理学] 13[艺术学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:数学公式识别是纸质文献进行电子化转录领域的一项关键技术,同时随着近年来触摸设备的普及,在线手写体数学公式识别技术也变得越发重要,该技术的发展可以促进一种新型的人机交互方式,尤其在数字化教学、数学文档撰写等领域将带来极大的便利。数学公式识别问题属于光学字符识别的一种,但又有其自身的特殊性。数学公式识别问题的特殊性体现在:公式中存在大量书写歧义、字符歧义、分割歧义以及结构歧义等难点。这些难点使得该问题存在诸多的挑战,因此并不能使用传统光学字符识别技术来解决该问题。根据数学公式的表示格式来划分的话,可以分为印刷体和书写体两种。手写体公式会引入更多歧义,因此相对印刷体公式来说识别也更加困难,本文将主要研究手写体数学公式识别问题。根据是否是实时数据来划分的话,手写体数学公式又可以分为在线的和离线的。所谓在线指的是公式被表示为动态轨迹坐标信息;所谓离线指的是公式被表示为静态图片像素信息;当然根据动态轨迹信息可以得到静态图片信息,反之则不然。由于近来便携式电子触摸设备的流行,使得在线数学公式识别问题受到研究者越来越多的重视,因此本文的研究重点是在线手写体数学公式识别问题,并且本文将采用在线手写体数学公式识别领域较为权威的数据集—CROHME来展开相关研究工作,最终将开发一套系统用于将数学公式手写轨迹信息转录为数学公式所对应的LaTeX符号序列。在线手写体数学公式识别问题,可以看成是序列到序列进行转录的学习问题,并且是多数据模态序列数据之间的学习问题,也即轨迹坐标序列到LaTeX符号序列之间的学习问题。近年来,研究者采用编码器-解码器架构来解决多模态序列学习问题,如图片描述、语音识别等各种问题,均取得了不错的成果,因此本文将尝试采用编码器-解码器架构来解决在线手写体数学公式识别问题。考虑到手写体数学公式识别问题的特点,本文编码器和解码器都采用LSTM架构,同时还引入了机器翻译领域最新的研究成果,如注意力机制、覆盖机制等。此外本文依照机器翻译领域大规模的模型实践经验,来仔细的调整了编码器-解码器模型的各种超参,如模型深度、隐单元结构、隐单元维度、词向量维度等。本文编码器-解码器模型在2016届CROHME竞赛的测试集上公式识别率达到50.57%,超过同届仅使用官方数据集的其它参赛队伍。此外近来有研究表明,预训练语言模型对各种自然语言处理任务的性能提升有巨大帮助,因此本文使用了 CROHME数据集中的符号分割信息以及LaTeX语料库来分别对编码器和解码器进行预训练,然后再将其迁移到编码器-解码器模型中进行微调。由于编码器-解码器架构中的编码器和解码器组件本质上分别完成了轨迹信息表征和LaTeX语法学习的任务,因此通过引入辅助任务对模型进行预训练使得公式识别率进一步提升到58.76%。