基于改进PageRank算法的引文推荐系统研究
作者单位:郑州大学
学位级别:硕士
导师姓名:周春雷
授予年度:2021年
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 081203[工学-计算机应用技术] 08[工学] 120502[管理学-情报学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:引文推荐 学术授信评价 引文网络 PageRank算法 LSI模型 Dh指数
摘 要:随着各种文献资源数量的迅猛增长,学者们开展文献调研工作的难度也日益增大。研究人员需要耗费大量时间与精力去研判文献的相关性及价值,科研效率也随之受到影响。在学术信息过载的背景下,引文推荐研究应运而生。引文推荐系统可以对用户输入的某些主题词或上下文段落,有针对性地为其推荐相关研究成果。目前,学术界致力于结合各种理论和技术对引文推荐方法进行创新,以求提供更精准的引文推荐列表,但鲜有从借助学术影响力对引文推荐列表排序优化的研究。此外,现有的引文推荐系统或模型研究,其推荐依据多为文献的元数据信息,可能导致因元数据信息涵盖不全导致的遗漏现象。针对以上情况,本文开展了基于改进Page Rank算法的引文推荐系统研究,主要分为三个部分:(1)利用学术授信评价理论对Page Rank算法进行改进,提出了ACPage Rank算法,利用该算法对引文推荐列表进行优化排序。该算法的核心思路为:识别引文网络中的专家群体,根据专家群体的引用情况调整引文网络中部分文献的权重。(2)使用文献全文本构建特征向量,以降低用户漏引概率。将ACPage Rank算法与构建特征向量常用的LSI模型相结合,设计出一套引文推荐系统。该系统不仅可以显示推荐文献列表的篇名,还能向用户展示文献中最相关的段落,以及该主题的高产作者及机构。(3)建立样本数据集,对本研究开发出的系统进行测试,并对实验结果进行分析与总结。实验结果表明:LSI模型比TF-IDF模型更适用于引文推荐系统,它不仅能较好地解决同义词问题,且查全率和查准率均可以较TF-IDF模型提升4%以上。采用ACPage Rank算法的LSI模型能进一步优化文献推荐效果,将专家群体引用、认可的高质量文献优先呈现给用户。本文所设计系统的推荐结果综合考虑了文献的被引情况、获得专家群体学术授信情况等多种因素,较好地体现了“内行视角的相关文献发现过程,帮助用户快速发现专业领域内的高价值文献。总之,该系统有助于减少非相关文献的干扰,帮助用户提高文献调研效率。