基于词亲和度的微博词语语义倾向识别算法
Semantic Orientation Identification for Terms From Chinese Micro-blogs Based on Word Affinity Measure作者机构:解放军信息工程大学信息系统工程学院郑州450001
出 版 物:《数据采集与处理》 (Journal of Data Acquisition and Processing)
年 卷 期:2015年第30卷第1期
页 面:137-147页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家高技术研究发展计划("八六三"计划)(2011AA7032030D)资助项目 全军军事研究生课题(2011JY002-158)资助项目
摘 要:准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。