文献详情 >The Key Technology on Chinese ... 收藏

The Key Technology on Chinese Word Segmentation Based on Bi-...

The Key Technology on Chinese Word Segmentation Based on Bi-LSTM-CRF Model

作者：Qianli Ma

作者单位：华中师范大学

学位级别：硕士

导师姓名：Guangyou Zhou

授予年度：2019年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：BI-LSTM-CRF模型中文分词机器学习神经网络条件随机场

摘要：自然语言处理是人工智能领域的核心技术之一,而自然语言处理中的汉语分词是自然语言处理的基础。目前主流的分词方法是基于传统的机器学习模型。近年来,随着人工智能浪潮的再次兴起,无论是短期记忆还是长期记忆的LSTM神经网络模型都对传统的循环神经网络模型进行了改进,该模型能长期依赖于信息的不足,并广泛应用于自然语言处理各种任务,取得了良好的效果。作为自然语言处理模块的重要组成部分,中文分词的好坏会影响到基于自然语言处理的相关研究,中文分词盼段将会影响相关的精度,因此中文分词阶段的精度将会其他例如语义和语法层次以及应用层次,分词的精度是衡量这一阶段的重要指标。在中文分词的精度提升上,必须解决如下几个关键问题:1.在中文分词中3如何拥有更高的识别精度是该自然语言处理子方向的首要解决的问题。不仅仅通过该词在句子中的位置来预測分词结果往往是不够的,而对上下文进行依赖,通过句子位置和上下文之间的关系进行分词更加的具有研究价值和重要意义。2.传统的神经模型LSTM模型已经证明在处理信息学习有着相当大的优势,但是LSTM神经网络的前向传导的特点,在训练过程中会导致部分后文的关系并没有被考虑学习,解决全文的上下文关系的学习,防止文本依赖不足所导致的问题也是需要研究的方向。3.对于根据上下文之间的潜在关系进行研究所得出来的结果是基于非规则的研究,但这些上下文关系有的时候并不以一定具有普遍的确定性,这样会导致尽管上下文有联系但是会出现一些前词和后词逻辑性并没有关联的结果,如何增加中文分词的逻辑性对提升中文分词精度有相当的理论研究价值。4.对每一个通过神经网络进行模型都有者自己最佳的参数学习方式,以此来达到局部最优解,对模型相关的参数需要通过不断调整来达到较优以接近最优值。通过上述对问题的阐述,本文在解决上述问题的主要贡献是（1）首先对经典的单向LSTM模型进行了改进,通过增加正向LSTM层并设针双向LSTM模型。这样通过对文本进行前向和后向的传导,以此来改善单向LSTM对以下文本的依赖不足。（2）在神经网络通过添加CRF层,增加了单词间的约束。通过使用CRF所具有的转移矩阵特性来学习单词之间的逻辑,提高因逻辑错误所导致的分词结果精度降低。（3）通过验证词向量嵌入的必要性和设置最佳Dropout防止过拟合,以及动态调整学习率等参数设置来达到模型最佳的精度。在整体的设计上,首先在传统神经网络的基础上,对增加的字向量进行改进,利用字嵌入预处理,然后扩展到LSTM层的双向LSTM,并通过整个连接增加了CRF层的密集度。本文利用Bakeoff提供的SIGAN2006会议进行了主要对比实验。通过实验,基于本文的BI-LSTM-CRF模型取得了较好的效果。通过北京大学的数据集PKU和微软的数据集MSA，准确率和查全率都达到了很好的效果。在机器学习方面,条件随机场可以达到很好的分词效果,在深度学习方面,分词效果得到了更明显的提高。本文主要通过结合双向记忆相关神经网络模型的优化,原LSTM单元结构的神经网络每时每刻、每一步都在执行一种记忆机制,但每一个计算量随着句子长度的增加而激增,导致分词阶段的任务效果较差,逻辑问题较多。本文的改进是词向量用于维度预处理,然后双向段记忆神经深度学习神经网络模型是用来进行隐藏的多个循环传输层,从而达到最好的中文分词的效果。该方法较好地解决了单隐层、防止过拟合以及卷积神经网络不能处理长依赖序列信息的缺点。同时,双向短记忆和长记忆依赖神经网络解决了简单循环神经网络长期依赖和单向LSTM无法利用方向序列信息的问题。经过softmax和dense层处理后,输出将是每个单词所携带的标签的概率。为了解决一些单词没有逻辑的问题,将输出放入CRF层进行传输矩阵处理。最后,合并后的BI-LSTM-CRF模型可以更好地从语义角度进行分词。在最终的实验中,在预实验中人民日报1998语料库的数据集P值为95.3359%,R值为95.1864%,F1值为95.3359%。人民日报2014语料库的数据集P值为96.7524%,R值为94.7981%,F1值为95.7653%。国家数据集P值为93.1640%,R值为93.2534%,F1值为93.2087%。在最终对比实验数据中,在微软的MSRA数据集,通过F1值的比较,通过F1值的比较,可以看出bi-lstm-crf模型的F1值约为2.9%高于CRF++模型,和高于LSTM模型0.9%,bilstm模型高出0.8%,高于Istm-crf模型0.8%。从p值和r值可以看出,基于MSRA数据集的bi-lstm-crf模型比其他模型工作得更好。在PKU数据集中,在P值比较中,bi-lstm-CRF模型比LSTM-CRF模型低0.2%,但比CRF++模型高0.7%左右,比LSTM模型高0.4%左右,比bilstm模型高0.4

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

The Key Technology on Chinese Word Segmentation Based on Bi-LSTM-CRF Model

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

The Key Technology on Chinese Word Segmentation Based on Bi-LSTM-CRF Model

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：