基于ts2net模型的睡美人系数预测方法研究
作者机构:中国科学院成都文献情报中心 中国民用航空飞行学院理学院
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2024年
核心收录:
学科分类:12[管理学] 03[法学] 07[理学] 08[工学] 070104[理学-应用数学] 1204[管理学-公共管理] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0701[理学-数学] 0306[法学-公安学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:“国家社会科学基金”科学数据复用行为特征与知识扩散规律研究(项目编号:23XTQ006)的研究成果之一
摘 要:[目的] 解决现有睡美人文献识别方法需要依赖长期引文曲线的问题,探索基于早期引文曲线的睡美人系数预测方法。[方法] 本文提出基于ts2net模型的预测方法,将文献的引文曲线转化为NVG、HVG和QG三种复杂网络,提取每个网络平均度、平均路径长度、聚集系数、社团数量、模块度等5个特征并基于机器学习模型构建预测方法。[结果] 在WOS收集计算机领域89681篇文献的实验表明,B系数与Bcp系数均与复杂网络特征具有相关性,结合机器学习模型构建的预测方法中,MLP与GBRT效果最好,MLP在Bcp系数预测上最优,误差为5.9%;GBRT在B系数预测上最优,误差为31.18%。[局限]对于引文频率波动较大、睡眠周期较长的文献,本文方法的预测准确性会下降。此外,预测得到睡美人系数仅是睡美人文献的可能性指标,需结合下游睡美人文献识别模型或任务作进一步判别。[结论]本文验证了将引文曲线转化为复杂网络进而利用网络特征构建睡美人系数预测具有可行性。