学术论文同名作者消歧问题研究
作者单位:湖北大学
学位级别:硕士
导师姓名:胡婕
授予年度:2016年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:同名作者消歧 层次聚类 启发式规则 语义抽取 话题树
摘 要:当今社会的学术研究活动越来越依赖于以DBLP为代表的学术搜索引擎。然而大部分学术搜索引擎并不能很好地解决同名作者歧义导致的按作者名搜索学术论文结果有误的问题。本文在形式化定义学术论文同名作者消歧问题后,在对传统消歧方法的研究基础上提出了基于高置信度特征属性的分层聚类方法,并进一步提出基于语义的作者相关话题模型来进行同名作者消歧工作。具体的研究内容如下:第一,进行数据集的构建和数据预处理。为测试传统方法的优劣和适用范围,同时为更进一步的研究工作提供数据基础,本文总结了同名作者消歧问题中的数据集特点,并构建覆盖大部分特点的测试数据集。在数据预处理环节,通过研究不同语言体系国家的命名规则,采用构建同名歧义组的方法解决了同名作者歧义问题中的同义问题。第二,提出基于高置信度特征属性的分层聚类方法。本文针对不同的特征属性单独采取不同的算法进行消歧工作,并得出不同特征属性的置信度排名。以此为基础,基于高置信度特征属性的分层聚类方法使用高置信度的特征属性。该方法一方面根据特征属性选择不同的相似度函数,另一方面聚类过程采取启发式规则每一次运行合并多个类簇。与传统的层次聚类算法相比,该方法获得的平均准确率提高了约10.7%,召回率提高了约2.9%,同时具有更高的执行效率。第三,进一步提出基于语义的作者相关话题模型。针对传统基于语义的消歧方法不能有效考虑学术论文话题分布的问题,本文首先训练测试数据集并构建话题树,然后通过话题模型将论文映射在对应的话题上,并生成对应的话题树,最后根据不同论文的话题在话题树上的分布计算其相似度进而聚类。实验表明该方法能够有效挖掘学术论文的语义信息并融入话题分布的因素,因而在同名作者消歧工作上能够获得较好的表现。第四,在TLDW系统中实现同名作者消歧。本文将同名作者消歧模块集成在TLDW系统中,并通过系统中的实际数据,进一步验证了本文方法的有效性。