面向信息检索的微博帖权威性计算方法研究-南通市图书馆

文献详情 >面向信息检索的微博帖权威性计算方法研究收藏

面向信息检索的微博帖权威性计算方法研究

作者：危艳华

作者单位：华中师范大学

学位级别：硕士

导师姓名：涂新辉

授予年度：2017年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：测试集语言模型权威性文档排序

摘要：随着无线网技术不断发展以及智能移动设备的进一步普及,微博,作为当今最受欢迎的沟通方式之一,逐渐成为了人们实时分享信息和讨论热点话题的重要平台。面对微博中如此海量的信息数据,用户想要从中获取真正有质量的信息的需求也变得越来越迫切。微博检索,是一种有效获取信息的方式,引起了信息检索领域学者的广泛关注。同时,微博检索也存在一些问题,例如实体搜索,情感分析以及权威和质量方面的抽象建模。微博文本由互联网上大量不同的用户创作而成,针对特定的话题,不同用户的权威性表现出很大的差异,把微博帖的权威性融入到微博文本的排序过程可以提高微博信息检索的效果。本文的主要任务有:第一,目前中文微博的检索测试集欠缺,限制了中文微博信息检索研究的发展。信息检索测试集的构建是一件非常艰巨的工作,需要大量的人力标注。本文利用微博标签构建微博检索测试集,在保证质量的同时大大降低了人工标注的工作量。测试集主要由文档语料库,查询主题集以及相关性判定的标准集三部分组成。在构建测试集的过程中,使用的腾讯微博下载的微博数据集作为文档集,并抽取微博数据集中的标签,通过标签对应的相关文档和检索效果确定一个包含52个查询文本的查询主题集。针对每一个查询主题,检索与该查询主题相关的文档,并生成了一个相关性标准集用于判定检索的效果。第二,提出了两种微博帖权威性的计算方法。一种是基于绝对转发数的微博帖权威性计算方法。通过挖掘微博文本中的丰富语义信息并结合用户的行为,发现微博帖的质量与用户的行为信息直接相关,其中,微博中的转发行为具有传播功能,表明了用户对微博信息质量的认可度。在计算微博帖权威性的过程中,在基于语言模型信息检索方法的框架下,使用微博帖的绝对转发数作为文档的先验概率,计算微博帖的权威性分值并实现文档初始排序。另外一种是基于PostRank算法的微博帖权威性计算方法。根据初始排序中微博帖之间的转发关系,构建微博帖转发关系图,并利用链接分析算法PageRank计算微博文档得分,再结合初始排序中文档得分,重新计算微博帖权威性分值,实现文档重排,在中文微博检索测试集上的实验证明了方法的有效性。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

面向信息检索的微博帖权威性计算方法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

面向信息检索的微博帖权威性计算方法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：