融合多粒度特征的越南语文本语法纠错方法研究
作者单位:昆明理工大学
学位级别:硕士
导师姓名:余正涛
授予年度:2022年
学科分类:0502[文学-外国语言文学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 050210[文学-亚非语言文学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:越南语语法纠错 语法错误检测 数据增强 多粒度特征融合
摘 要:研究越南语文本语法纠错方法对于面向东南亚语言的自然语言处理工程应用具有重要意义。针对越南语的语法纠错相关工作较少,而且越南语的语法纠错人工标注语料极少,可以利用的数据资源稀缺。利用现有的预训练语言模型和序列生成模型实现越南语的语法纠错时会存在以下问题:训练数据不足导致模型性能较差;模型的编码端进行词嵌入时缺失音节的声调、词性和短语成分等不同粒度的语义信息,导致错误识别和错误纠正效果不佳;序列生成模型生成句子时不可控,导致模型纠错的准确率不高。针对上述问题,论文提出了一种融合越南语字符、音节以及句子等粒度特征的针对越南语文本的语法纠错方法,具体完成了如下研究工作:(1)越南语语法纠错语料库构建:针对语法纠错语料资源稀缺的问题,提出一种利用正确的越南语文本生成对应错误文本的数据增强算法,来构造“错误-纠正平行句对,生成错误时利用了人工构建的音节混淆集词典和开源的词性标注工具,然后设计了一个对错误句子进行自动标注的算法。根据提出的方法人工构造了20.8万带有标注的“错误-纠正平行句对,为后续研究提供了基础数据。(2)融合越南语字符和音节特征的语法错误检测方法:针对多语言BERT模型在编码端进行词嵌入时缺失音节声调信息而导致的语法错误识别效果不好的问题,提出一种融合越南语字符与音节特征的方法,在多语言BERT模型的编码端增加额外的字符与音节特征嵌入,使得检测模型学到更多语义知识。实验结果表明,提出的方法在测试集上的F值和F值均为最高,分别为71.36%和72.91%。(3)融合不同粒度特征的越南语语法错误纠正方法:针对序列生成模型生成句子时不可控并且未能有效利用越南语句子特征而导致的纠错准确率不高的问题,在语法错误检测模型的基础上进一步融合越南语句子特征,提出一种基于“错误检测-错误纠正的流水线模型,然后利用BERT掩码语言模型重新预测错误位置的音节,纠错部分再利用语言模型对纠正候选句子进行打分,选择句子得分最高的候选句子作为模型最终的输出。在构建的纠错语料库上的实验结果表明,提出的方法在测试集上取得了42.59%的F值和42.67%F值,比最好基线模型的F值和F值分别高出16.69%和17.84%。(4)越南语文本纠错原型系统:在上述研究的基础上,实现了一个基于“错误检测-错误纠正的Web原型系统,系统包括文本输入模块、文本检测模块、文本纠错模块等,文本检测模块和文本纠错模块使用了深度神经网络模型和N-gram语言模型来实现功能。系统可以实现对输入越南语文本的拼写和语法检测,并且能够对错误的拼写和语法进行纠正。