咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于半监督学习的观点挖掘算法的研究与实现 收藏
基于半监督学习的观点挖掘算法的研究与实现

基于半监督学习的观点挖掘算法的研究与实现

作     者:吴春叶 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:曲昭伟

授予年度:2019年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:半监督学习 观点挖掘 方面提取 情感分析 

摘      要:随着大数据时代的到来,互联网每天产生大量的数据,但数据价值稀疏。如何从海量的文本数据中提取数据价值,变得越来越重要。尤其是电商业务发展迅速,基于产品和服务所产生的用户评论数据信息,对于用户和商家具有重要价值,用户越来越倾向于根据评论信息来帮助进行决策,用户也更加关注评论的细粒度的信息,因此基于文本的观点挖掘技术是个重要的研究方向。传统的机器学习方法在文本挖掘方面效果显著,近年来,由于互联网数据量的海量增长和机器性能的提升,越来越多的学者致力于机器学习和数据挖掘领域的研究,然而,机器学习尤其是监督学习需要大量的标签数据作为训练样本,标注文本需要消耗大量的人力成本。虽然标签数据获取困难但是互联网上存在着大量的未标签数据,这样的数据仍然具有数据价值,充分利用未标签数据的价值避免文本标注是数据挖掘技术继续解决一个问题。本文从实际问题出发,面对用户对海量文本信息的挖掘需求同时针对目前存在的标签数据不足问题进行大量的理论研究和实践探索,采用一种半监督学习的观点挖掘算法来解决目前存在的问题。首先,为了挖掘文本评论的多方面信息,采用观点挖掘技术,包括对文本的方面实体提取,以及基于实体方面的情感分析两部分的内容,基于半监督学习的自训练算法进行方面提取,构建自训练方面提取模型,通过计算单词的重要程度来获取文本的黄金方面,进一步利用词向量模型并依据黄金方面信息生成方面表示词集,获取文本的方面实体信息。这种半监督的学习方法避免了标签数据问题。其次,为了获取方面实体的情感信息并判断情感倾向,采用关联规则来获取方面实体的频繁项集,进一步通过点互信息(PMI)来计算单词直接的关联强度,来获得实体与情感单词之间的匹配。为了提取文本的情感单词并判断情感倾向,构建情感分析模型,采用半监督自训练算法利用种子情感单词和文本语料库生成情感极性词典。并根据方面表示和情感词典对文本进行情感表达提取。这样针对文本数据产生的实体内容和基于实体内容的情感信息,对用户具有更高的参考意义。最后,将方面提取和基于方面实体的情感分析结合生成观点挖掘系统,本系统可以根据互联网大量的文本评论数据,自动的进行数据预处理,通过本文研究的算法模型进行观点挖掘,并生成对于产品或服务的评论摘要。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分