彝文联机手写体识别的研究与应用
作者单位:西南大学
学位级别:硕士
导师姓名:陈善雄;张继燕
授予年度:2021年
学科分类:0501[文学-中国语言文学] 0304[法学-民族学] 03[法学] 05[文学] 050107[文学-中国少数民族语言文学(分语族)] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:文字既是民族文化的灵魂,也是知识传承的重要载体,在人们的日常交流中,文字扮演着重要的角色,因此关于文字处理的研究也是计算机研究领域中重要的组成部分。文字识别是文字处理的一个重要分支,联机手写文字识别是文字识别的一个分支。联机手写文字识别就是将在手写笔、触摸屏等设备上采集的书写轨迹识别成文字的技术。目前,关于汉字联机手写识别的研究已经较为成熟和完善。近年来开始有很多关于少数民族文字识别的研究,如:蒙古文、藏文、维吾尔文等。在中华民族众多的民族中,还有很多民族也有自己特有的文字,但是这些民族文字的数字化进程尚待发展和完善。彝族作为我国的第六大少数民族,在历史的长河中积累了自身独特的文化以及彝族特有的文字:彝文。彝文的使用人数超过百万,虽然目前彝文已经有了规范彝文编码、字体、输入法,但彝文的数字化进程还是相对滞后,针对彝文的语音识别、联机手写识别等研究较为稀少。因此,针对彝文的字符的联机手写识别和彝文文字检索对彝文数字化工作的推进具有重要的意义。本文针对较为通用的规范彝文文字,构建了一个可以用于彝文联机手写识别的规范彝文联机手写识别样本库,提出了一种彝文笔画结构分析和处理的方法,建立了两个彝文联机手写识别的模型,实现了彝文联机手写识别系统以及彝文文字检索系统。本文的具体工作如下:(1)设计并实现了彝文联机手写识别字符样本库构建中所需要的采集系统和样本整理需要的筛选工具等。完成了彝文联机手写识别样本的采样、筛选。一共为规范彝文中所有的1165个字符采集了92830个样本,平均每个字符79个样本。并参照OLHWDN数据集的数据格式进行了存储。然后针对彝文笔画数量较少,除主笔以外的笔画大多较短、主笔较长且多弧形等特点,使用了一系列的分析处理方法。首先对样本进行移位和归一化处理,减少采样设备分辨率差异对样本带来的影响。然后依据笔画中的线段在极坐标中极角的变化判断笔画的走向,将除起始点、转折点和结束点等关键点以外的大多数点去除。这能在保留样本整体轮廓的前提下有效地降低样本中点的数量,让同一个字的不同样本中点的数量接近。最后根据样本中笔画的位置、长短、走向等结构信息构建一个新的特征,这个特征可以辅助识别模型进行识别。(2)建立了两个基于循环神经网络的彝文联机手写识别模型:RnnNet-Yi和ParallelRnnNet-Yi。其中RnnNet-Yi将单个字符样本的所有笔画视为一个完整的序列进行识别,先使用双向的循环神经网络对整个序列进行特征提取,然后通过后续的全连接网络进行分类识别并输出。而ParallelRnnNet-Yi将单个字符样本的每一笔分开进行识别,通过一系列并联的循环神经网络独立地对笔画进行特征提取,再通过后续的全连接网络进行分类识别并输出。实验结果表明,ParallelRnnNet-Yi拥有较好的top5识别准确率,RnnNet-Yi相对ParallelRnnNet-Yi拥有更高的识别准确率。但RnnNet-Yi模型的规模和内存开销远高于ParallelRnnNet-Yi。因此,RnnNet-Yi可以应用于计算资源充足,且对识别的top1准确率要求较高的场景,而ParallelRnnNet-Yi则可以应用于计算资源有限,对top1准确率要求相对较低的场景,如手机或嵌入式设备中进行彝文手写输入等。(3)设计并实现了彝文联机手写识别系统和检索系统。将识别模型进行了封装,可以对书写的单个的彝文进行识别并给出识别结果。然后将彝文联机手写识别系统整合在彝文单字检索系统中,检索系统可以通过输入彝文、手写彝文、输入Unicode、输入彝文拼音等方式进行检索。