面向信息检索的微博帖权威性计算方法研究
作者单位:华中师范大学
学位级别:硕士
导师姓名:涂新辉
授予年度:2017年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着无线网技术不断发展以及智能移动设备的进一步普及,微博,作为当今最受欢迎的沟通方式之一,逐渐成为了人们实时分享信息和讨论热点话题的重要平台。面对微博中如此海量的信息数据,用户想要从中获取真正有质量的信息的需求也变得越来越迫切。微博检索,是一种有效获取信息的方式,引起了信息检索领域学者的广泛关注。同时,微博检索也存在一些问题,例如实体搜索,情感分析以及权威和质量方面的抽象建模。微博文本由互联网上大量不同的用户创作而成,针对特定的话题,不同用户的权威性表现出很大的差异,把微博帖的权威性融入到微博文本的排序过程可以提高微博信息检索的效果。本文的主要任务有:第一,目前中文微博的检索测试集欠缺,限制了中文微博信息检索研究的发展。信息检索测试集的构建是一件非常艰巨的工作,需要大量的人力标注。本文利用微博标签构建微博检索测试集,在保证质量的同时大大降低了人工标注的工作量。测试集主要由文档语料库,查询主题集以及相关性判定的标准集三部分组成。在构建测试集的过程中,使用的腾讯微博下载的微博数据集作为文档集,并抽取微博数据集中的标签,通过标签对应的相关文档和检索效果确定一个包含52个查询文本的查询主题集。针对每一个查询主题,检索与该查询主题相关的文档,并生成了 一个相关性标准集用于判定检索的效果。第二,提出了两种微博帖权威性的计算方法。一种是基于绝对转发数的微博帖权威性计算方法。通过挖掘微博文本中的丰富语义信息并结合用户的行为,发现微博帖的质量与用户的行为信息直接相关,其中,微博中的转发行为具有传播功能,表明了用户对微博信息质量的认可度。在计算微博帖权威性的过程中,在基于语言模型信息检索方法的框架下,使用微博帖的绝对转发数作为文档的先验概率,计算微博帖的权威性分值并实现文档初始排序。另外一种是基于PostRank算法的微博帖权威性计算方法。根据初始排序中微博帖之间的转发关系,构建微博帖转发关系图,并利用链接分析算法PageRank计算微博文档得分,再结合初始排序中文档得分,重新计算微博帖权威性分值,实现文档重排,在中文微博检索测试集上的实验证明了方法的有效性。