基于引用语义联系的科学文献影响力评估与预测
作者单位:江苏大学
学位级别:硕士
导师姓名:吴胜利
授予年度:2019年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文献影响力 语义联系 PageRank 梯度提升回归树 评估与预测
摘 要:随着科学的发展与信息技术的进步,科学文献的数量呈现出爆炸式的增长,导致研究人员在寻找高质量文献时需要花费大量的时间与精力。为了帮助研究人员更方便的挖掘高质量文献,了解研究领域的最新动态,科学文献影响力的评估与预测研究受到了学术界的广泛关注。现有的大部分研究方法通常基于文献被引量进行影响力评估。然而,这些方法将所有引用视为同等重要,忽略了文献的影响力受多种因素影响,如被引与施引文献间的主题相关性、发表时间、引用来源的权威性。另一方面,新文献不断发表,而基于被引量的传统评估方法具有滞后性,新文献存在时间短,引用量却需要时间积累,通过被引量评估其影响力并不合理。本文的研究目的是利用科学语料的语义联系,分析文献影响力的影响因素,进而客观评估文献影响力并预测新发表文献影响力。论文的主要工作内容如下:(1)针对传统评估方法忽略引用存在差异性的问题,提出了一种基于PageRank的科学文献影响力评估算法(STVRank)。首先,从文献语义联系角度对文献建模,定量分析施引文献和被引文献之间的主题相关性,同时分析了时间间隔因素、施引文献的刊物影响力因素对被引文献影响力的影响。其次,基于PageRank算法,综合考虑三种因素进行权重设计,进而通过排序结果评估文献影响力。最后,在数据集AAN上的实验结果表明,与基准模型PageRank、WC以及SPRank算法相比,STVRank算法可以显著提高科学文献影响力评估结果的有效性与稳定性。(2)针对现有方法难以识别新发表文献潜在影响力的问题,提出一种基于梯度提升回归树的科学文献未来影响力预测模型(GBDT-Hot)。首先,从文献、作者、期刊三个方面分析驱动科学文献未来影响力产生变化的因素,同时根据关键词之间的语义联系,对研究主题关注度进行建模,进而通过文献受关注度分析研究人员关注度对新文献未来影响力产生的影响。其次,基于梯度提升回归树模型,构建文献未来影响力预测模型,预测文献在未来获得的引用量。最后,在数据集AAN上的实验结果表明,与基准模型TCM、FIP模型相比,GBDT-Hot模型在预测准确性上表现更优,同时也表明文献受关注度在预测新发表文献未来影响力时的作用是极具竞争力的。