基于fastText模型的词向量表示改进算法
Base on fastText model to improve the word embedding of phrases and morphology作者机构:福州大学至诚学院计算机工程系福建福州350002 福州大学数学与计算机科学学院福建福州350108
出 版 物:《福州大学学报(自然科学版)》 (Journal of Fuzhou University(Natural Science Edition))
年 卷 期:2019年第47卷第3期
页 面:314-319页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:福建省自然科学基金资助项目(2017J01755) 福建省教育厅中青年教师教育科研项目(JAT170102)
主 题:词向量 skip-gram模型 fastText模型 自然语言处理
摘 要:传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰.实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率.