咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于神经网络的维吾尔文词向量表示方法及其应用研究 收藏
基于神经网络的维吾尔文词向量表示方法及其应用研究

基于神经网络的维吾尔文词向量表示方法及其应用研究

作     者:艾力·海如拉 

作者单位:新疆大学 

学位级别:硕士

导师姓名:吾守尔·斯拉木

授予年度:2018年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:词表示 形态归纳 神经网络 情感分类 

摘      要:数据表示是自然语言处理的基础任务,传统的数据表示指的是通过人工整理特征信息的过程。近几年来,随着深度学习和表示学习的普遍使用,基于神经网络的数据表示在各领域表现出色。在自然语言处理任务中词袋模型作为主要的语义表示方法,该方法由于数据量的欠缺而导致数据稀疏问题。因此,早期的方法一般使用在解决某一类问题,应用层面具有极大的局限性。本文将对神经网络词表示技术进行总结与分析,并将该技术用到维吾尔语形态归纳技术和文本情感分类任务中。在研究词向量表示方法时,对现有的词表示技术进行了理论分析和实验评估。在理论上,研究了Skip-gram模型与CBOW模型的理论体系,并对其进行了实验结果的对比。实验过程中,从模型,语料和参数角度分析了词表示技术。用上述两种模型生成词向量后,对这两类模型在语义、形态和神经网络分类任务中的表现来评价实验结果。由于语料规模有限,本文实验结果呈现CBOW模型的性能比Skip-gram的强。基于无监督学习的形态归纳方法而言,在整个过程中只需要对语料进行训练,而不需要额外的形态语言学知识。利用词向量根据语义相似性和形态上的不同评价差异规律,而且在语义上的关联来评估形态变换过程中训练出的形态规则,并将此规则用到建立形态分析器上。用1000个手工整理的形态切分测试集来评估形态分析规则,最终得到了81%的精度。基于神经网络情感分类任务中,对CNN模型,LSTM模型和BiLSTM模型等进行了理论分析和实验评估。情感分类任务中,首先,在预处理部分生语料进行了词干提取、降噪和维度下降等操作,其次,引入预先训练的词向量,使模型能够获取词与词之间的语义信息,从而弥补和增加语料包含的情感特征信息。实验证明,在相同的情感分类语料上,预处理阶段的形态归纳和词向量初始化模型输入后的CNN模型提升1.8%,LSTM模型提升3.7%,BiLSTM模型提升3.9%,总体上体现了本文分类方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分