咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Tensorflow的中文分词训练优化 收藏
基于Tensorflow的中文分词训练优化

基于Tensorflow的中文分词训练优化

作     者:董亚萍 

作者单位:宁夏大学 

学位级别:硕士

导师姓名:车进

授予年度:2020年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:深度学习 词向量 循环神经网络 语言模型 

摘      要:语音识别、图像处理等多个领域的发展都离不开深度学习技术,利用深度学习构造的语言模型可以自动进行特征学习,由于这一特点,这些语言模型被大规模利用到自然语言处理领域当中。统计语言模型就是通过基于统计的方法建造的自然语言模型,例如log-linear、n-gram 等模型。近几年,中文分词技术发展迅速,为处理自然语言处理领域的相关问题奠定了基础,同时也在数据挖掘、精准推荐等工作中得到了广泛应用。本文通过制作语料库、搭建skip-gram学习模型、初始训练和训练优化这四个主要步骤,采用深度学习的概念将循环神经网络应用到词向量训练任务当中。制作语料库的过程包括了下载语料、对语料进行预处理和建立词典。选择新闻作为语料,因为新闻相较其他类型的文章语义信息更丰富一些。对语料库的预处理包括了去标点符号、繁体转简体、去停用词、去低频词、用jieba分词器进行中文分词等。建立词典的作用就是让学习模型知道语料库当中有多少个不重复的词汇。在深度学习建立的框架之中,利用word2vec工具构建skip-gram模型,在这个学习模型下进行的词向量训练,将每次训练结果可视化,并通过计算测试集的平均查准率评判训练效果。skip-gram学习模型的结构只有三层,对应循环神经网络结构的输入层、隐藏层和输出层,skip-gram学习模型的搭建包括构建词向量变量、定义负采样中逻辑回归的权重和偏置、训练的接入、最小化loss值等内容。本文制定了两种优化方案,一种是参数优化,另一种是算法优化。参数优化就是利用控制变量法,对七个参数分别进行优化,优化过程中改变其中一个参数的质量,其他六个参数保持不变。算法优化就是建立层次词库的方式提高词向量训练的质量。在优化过程中,根据训练效果,通过不断优化学习模型各项参数和进行算法优化的方法,旨在能够更加精确地发掘出中文文本中词语之间所蕴含的语义信息。本文在成功搭建训练模型后进行了多次优化,最终将平均查准率从初始训练时的0.467提高到优化训练后的0.768,相较于初始训练,训练效果提高了64.5%,优化效果显著。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分