科学论文全文语步自动识别研究
The Research on Automatic Recognition of Moves in Full-text Scientific Papers作者机构:南京大学信息管理学院江苏南京210023
出 版 物:《现代情报》 (Journal of Modern Information)
年 卷 期:2021年第41卷第11期
页 面:3-11页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 120502[管理学-情报学]
基 金:国家社会科学基金重点项目“基于关联数据的学术文献内容语义发布及其应用研究”(项目编号:17ATQ001)
摘 要:[目的/意义]科学论文的语步结构对于读者理解论文内容、快速定位特定信息具有重要作用。[方法/过程]本文对化学领域科学论文的语步自动识别方法进行了探索,比较了基于文本分类和序列标注两种解决模式以及机器学习和深度学习两种技术的多种语步识别模型的效果,并在此基础上提出了将深度学习预训练模型BERT与传统机器学习分类算法深度森林相结合的混合模型。[结果/结论]实验结果表明,文本分类模式的语步识别效果要优于序列标注模式;传统机器学习技术和深度学习技术的语步识别效果总体相近;通过将两者进行结合的混合模型可以获得更好的语步识别效果,在整篇论文7个语步类别上的宏平均F1值达到73%。