基于Tensorflow的中文分词训练优化-南通市图书馆

文献详情 >基于Tensorflow的中文分词训练优化收藏

基于Tensorflow的中文分词训练优化

作者：董亚萍

作者单位：宁夏大学

学位级别：硕士

导师姓名：车进

授予年度：2020年

学科分类：08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：深度学习词向量循环神经网络语言模型

摘要：语音识别、图像处理等多个领域的发展都离不开深度学习技术,利用深度学习构造的语言模型可以自动进行特征学习,由于这一特点,这些语言模型被大规模利用到自然语言处理领域当中。统计语言模型就是通过基于统计的方法建造的自然语言模型,例如log-linear、n-gram 等模型。近几年,中文分词技术发展迅速,为处理自然语言处理领域的相关问题奠定了基础,同时也在数据挖掘、精准推荐等工作中得到了广泛应用。本文通过制作语料库、搭建skip-gram学习模型、初始训练和训练优化这四个主要步骤,采用深度学习的概念将循环神经网络应用到词向量训练任务当中。制作语料库的过程包括了下载语料、对语料进行预处理和建立词典。选择新闻作为语料,因为新闻相较其他类型的文章语义信息更丰富一些。对语料库的预处理包括了去标点符号、繁体转简体、去停用词、去低频词、用jieba分词器进行中文分词等。建立词典的作用就是让学习模型知道语料库当中有多少个不重复的词汇。在深度学习建立的框架之中,利用word2vec工具构建skip-gram模型,在这个学习模型下进行的词向量训练,将每次训练结果可视化,并通过计算测试集的平均查准率评判训练效果。skip-gram学习模型的结构只有三层,对应循环神经网络结构的输入层、隐藏层和输出层,skip-gram学习模型的搭建包括构建词向量变量、定义负采样中逻辑回归的权重和偏置、训练的接入、最小化loss值等内容。本文制定了两种优化方案,一种是参数优化,另一种是算法优化。参数优化就是利用控制变量法,对七个参数分别进行优化,优化过程中改变其中一个参数的质量,其他六个参数保持不变。算法优化就是建立层次词库的方式提高词向量训练的质量。在优化过程中,根据训练效果,通过不断优化学习模型各项参数和进行算法优化的方法,旨在能够更加精确地发掘出中文文本中词语之间所蕴含的语义信息。本文在成功搭建训练模型后进行了多次优化,最终将平均查准率从初始训练时的0.467提高到优化训练后的0.768,相较于初始训练,训练效果提高了64.5%,优化效果显著。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Tensorflow的中文分词训练优化

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Tensorflow的中文分词训练优化

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：