The Key Technology on Chinese Word Segmentation Based on Bi-LSTM-CRF Model
作者单位:华中师范大学
学位级别:硕士
导师姓名:Guangyou Zhou
授予年度:2019年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:BI-LSTM-CRF模型 中文分词 机器学习 神经网络 条件随机场
摘 要:自然语言处理是人工智能领域的核心技术之一,而自然语言处理中的汉语分词是自然语言处理的基础。目前主流的分词方法是基于传统的机器学习模型。近年来,随着人工智能浪潮的再次兴起,无论是短期记忆还是长期记忆的LSTM神经网络模型都对传统的循环神经网络模型进行了改进,该模型能长期依赖于信息的不足,并广泛应用于自然语言处理各种任务,取得了良好的效果。作为自然语言处理模块的重要组成部分,中文分词的好坏会影响到基于自然语言处理的相关研究,中文分词盼段将会影响相关的精度,因此中文分词阶段的精度将会其他例如语义和语法层次以及应用层次,分词的精度是衡量这一阶段的重要指标。在中文分词的精度提升上,必须解决如下几个关键问题:1.在中文分词中3如何拥有更高的识别精度是该自然语言处理子方向的首要解决的问题。不仅仅通过该词在句子中的位置来预測分词结果往往是不够的,而对上下文进行依赖,通过句子位置和上下文之间的关系进行分词更加的具有研究价值和重要意义。2.传统的神经模型LSTM模型已经证明在处理信息学习有着相当大的优势,但是LSTM神经网络的前向传导的特点,在训练过程中会导致部分后文的关系并没有被考虑学习,解决全文的上下文关系的学习,防止文本依赖不足所导致的问题也是需要研究的方向。3.对于根据上下文之间的潜在关系进行研究所得出来的结果是基于非规则的研究,但这些上下文关系有的时候并不以一定具有普遍的确定性,这样会导致尽管上下文有联系但是会出现一些前词和后词逻辑性并没有关联的结果,如何增加中文分词的逻辑性对提升中文分词精度有相当的理论研究价值。4.对每一个通过神经网络进行模型都有者自己最佳的参数学习方式,以此来达到局部最优解,对模型相关的参数需要通过不断调整来达到较优以接近最优值。通过上述对问题的阐述,本文在解决上述问题的主要贡献是(1)首先对经典的单向LSTM模型进行了改进,通过增加正向LSTM层并设针双向LSTM模型。这样通过对文本进行前向和后向的传导,以此来改善单向LSTM对以下文本的依赖不足。(2)在神经网络通过添加CRF层,增加了单词间的约束。通过使用CRF所具有的转移矩阵特性来学习单词之间的逻辑,提高因逻辑错误所导致的分词结果精度降低。(3)通过验证词向量嵌入的必要性和设置最佳Dropout防止过拟合,以及动态调整学习率等参数设置来达到模型最佳的精度。在整体的设计上,首先在传统神经网络的基础上,对增加的字向量进行改进,利用字嵌入预处理,然后扩展到LSTM层的双向LSTM,并通过整个连接增加了CRF层的密集度。本文利用Bakeoff提供的SIGAN2006会议进行了主要对比实验。通过实验,基于本文的BI-LSTM-CRF模型取得了较好的效果。通过北京大学的数据集PKU和微软的数据集MSA,准确率和查全率都达到了很好的效果。在机器学习方面,条件随机场可以达到很好的分词效果,在深度学习方面,分词效果得到了更明显的提高。本文主要通过结合双向记忆相关神经网络模型的优化,原LSTM单元结构的神经网络每时每刻、每一步都在执行一种记忆机制,但每一个计算量随着句子长度的增加而激增,导致分词阶段的任务效果较差,逻辑问题较多。本文的改进是词向量用于维度预处理,然后双向段记忆神经深度学习神经网络模型是用来进行隐藏的多个循环传输层,从而达到最好的中文分词的效果。该方法较好地解决了单隐层、防止过拟合以及卷积神经网络不能处理长依赖序列信息的缺点。同时,双向短记忆和长记忆依赖神经网络解决了简单循环神经网络长期依赖和单向LSTM无法利用方向序列信息的问题。经过softmax和dense层处理后,输出将是每个单词所携带的标签的概率。为了解决一些单词没有逻辑的问题,将输出放入CRF层进行传输矩阵处理。最后,合并后的BI-LSTM-CRF模型可以更好地从语义角度进行分词。在最终的实验中,在预实验中人民日报1998语料库的数据集P值为95.3359%,R值为95.1864%,F1值为95.3359%。人民日报2014语料库的数据集P值为96.7524%,R值为94.7981%,F1值为95.7653%。国家数据集P值为93.1640%,R值为93.2534%,F1值为93.2087%。在最终对比实验数据中,在微软的MSRA数据集,通过F1值的比较,通过F1值的比较,可以看出bi-lstm-crf模型的F1值约为2.9%高于CRF++模型,和高于LSTM模型0.9%,bilstm模型高出0.8%,高于Istm-crf模型0.8%。从p值和r值可以看出,基于MSRA数据集的bi-lstm-crf模型比其他模型工作得更好。在PKU数据集中,在P值比较中,bi-lstm-CRF模型比LSTM-CRF模型低0.2%,但比CRF++模型高0.7%左右,比LSTM模型高0.4%左右,比bilstm模型高0.4