面向被引片段识别的改进混合方法
A Modified Hybrid Method to Identify Cited Spans作者机构:南京大学信息管理学院南京210023
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2023年第7卷第1期
页 面:113-127页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 0810[工学-信息与通信工程] 12[管理学] 081203[工学-计算机应用技术] 08[工学] 120502[管理学-情报学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金重点项目(项目编号:17ATQ001)的研究成果之一
摘 要:【目的】“无监督排序+分类模式的两阶段混合方法存在无监督排序可靠性较低、分类得到的被引句数量不稳定问题,并且被引片段的识别粒度仅限于单句。本研究对混合方法中的上述问题予以改进以提高其性能,同时解决不同粒度被引片段的识别问题。【方法】提出一种面向被引片段识别的改进混合方法,在第一阶段采用有监督排序从所有被引文献句中筛选出候选被引句,在第二阶段通过回归方法确定最终被引片段。此外,引入包含不同数量连续句子的n元句输入方式以及组内标准化方法以识别不同粒度的被引片段。【结果】在CL-SciSumm 2019和2020竞赛语料测试集上进行测评,本研究所提改进混合方法的句子重合度F1值为0.167;以3元句为输入,采用组内Z值标准化,其句子重合度F1值由0.083提高到0.158。【局限】未使用被引文献句的位置特征;在下游任务中的应用尚待探索。【结论】本研究所提改进混合方法在被引片段识别粒度为单句和多个连续单句时均取得良好效果。