中文学术论文全文语步识别研究
Research on Recognition of Moves in Full-text Chinese Academic Papers作者机构:北京信息科技大学计算机学院
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2023年
核心收录:
学科分类:12[管理学] 1205[管理学-图书情报与档案管理] 08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:“国家自然科学基金类型”基金项目(项目编号:61672105)的研究成果之一
摘 要:[目的] 针对学术论文语步识别相关研究存在的问题,即:只能处理少量的语步,语步识别粒度较粗,缺少公开的语步分类数据集,本文研究学术论文的全文语步识别,为机器自动理解论文内容提供基础。 [方法] 基于BERT模型,采用多阶段微调的方式构建学术论文语步分类数据集;并提出一种融入章节标题文本的语步识别方法,在细粒度层面实现中文学术论文全文语步的识别。 [结果] 实验结果表明,学术论文语步的22类别分类任务中,RoBERTa-wwm-ext模型总体准确率提升3.1个百分点,达到0.909,Micro-F1值提升2.2个百分点,达到0.837。 [局限] 本文所构建的学术论文语步分类数据集尚存在少量数据不平衡问题,所提方法受限于论文质量,这些问题得到改进后,模型对语步的识别能力应能得到进一步提高。 [结论] 本文的方法达到了较高的语步识别准确率,研究成果可用于学术论文的自动理解、论文质量评价及论文语义检索等领域,对科技文献的有效利用具有重要作用。