互联网产品评论量化关键技术研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:刘远超
授予年度:2011年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:近年来,在互联网上出现了很多的电子商务网站,随之相关的在线用户评论也与日俱增。虽然这些大量的用户评论有助于潜在消费者做出正确的购买决策,但是如何对不同的厂家做全面和直观的比较仍然是一项具有挑战性的工作。为了实现这一目标,本文对互联网产品评论的量化关键技术进行了研究,具体的研究内容包括以下几个方面: 首先,本文介绍了基于细颗粒度产品评论语料的标注工具的实现,以及目前进行的语料标注工作。本文中的标注虽然以手机产品为例,但语料标注系统具有良好的可移植性,可以扩展应用到其他的领域。 其次,介绍了面向产品评论量化的特征词-情感块的抽取模块。为了提高情感挖掘的性能,本文设计了一些新的机制和方法来提高特征词-情感块的抽取精度,包括基于词性规则的算法、基于统计的算法和二者相结合的算法。实验证明,这些算法在大规模的语料库中能很好地提高抽取的结果。 最后,介绍了融合本体知识的产品口碑量化及排序模块。领域本体的引入有效地解决了产品评论语句的稀缺、同一特征词的多重表达形式和不同层的特征词的量化比较问题。在该模块中,可以得到二维结构的口碑值信息,这不仅方便了消费者、供应商和生产商的查询,同时产品的趋向信息可以被挖掘和可视化。实验结果表明,该方法是有效可行的。