引书的自动识别及文献计量学分析
Automatic Recognition and Bibliometric Analysis of Cited Books作者机构:南京农业大学信息科学技术学院南京210095 南京农业大学领域知识关联研究中心南京210095
出 版 物:《情报学报》 (Journal of the China Society for Scientific and Technical Information)
年 卷 期:2021年第40卷第12期
页 面:1325-1337页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120502[管理学-情报学]
基 金:国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(15ZDB127)
摘 要:古籍文本中存在大量事实上的引文条目,即引书。目前,引文分析法多基于现代文本开展研究,学术界对古籍文本中的引用现象的关注较少。本文将引文分析法应用于古籍文本,计算和分析引书的引文指标,为古籍文本的引书计量学研究建立初步框架。本文选择《十三经注疏》中的《论语注疏》《毛诗正义》《春秋左传正义》三部典籍为研究对象,分别基于CRF(conditional random field)模型、Bi-LSTM(bidirectional long short-term memory)模型以及Bi-LSTM-CRF模型,从古籍文本中自动识别引书条目,并对比抽取性能,利用引文分析方法计算并分析了三部典籍中引书的各项引文计量指标,进而分析古籍文本之间的知识关联,探讨古人的引用行为。研究结果表明,机器学习模型应用于引书条目的自动识别整体效果良好,两种深度学习模型表现更佳,CRF模型存在明显差距。在两种深度学习模型中,Bi-LSTM-CRF模型性能略好。古籍文本之间的关联强度不一,引书的规模受多方因素影响,经部文献的被引次数占比最高,经部文献中的礼制类文献尤甚。此外,古人的引用行为也受成书目的、学者知识背景、引书文献获取难易程度等多重因素的影响。