咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >数据要素视角下的科学数据非正式引用识别研究 收藏

数据要素视角下的科学数据非正式引用识别研究

作     者:刘禹彤 刘茹 杨波 

作者机构:南京农业大学信息管理学院 

出 版 物:《情报科学》 (Information Science)

年 卷 期:2024年

核心收录:

学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120502[管理学-情报学] 

基  金:国家社会科学基金项目“科学数据集的自组织模式和质量评价研究”的研究成果 项目编号:18BTQ077 

主  题:数据要素 数据引用 文本分类 深度学习 科学数据管理 

摘      要:【目的/意义】科学数据作为科学研究成果的表现形式之一,多以非正式引用的形式隐藏于学术论文之中。从学术论文中自动识别数据引用信息从而提取数据要素,为科学数据要素的组织提供了新思路。【方法/过程】为提高正例文本占比进而提升数据引用句的识别效果,基于生物信息学领域论文全文数据,采用篇章结构识别和数据增强、随机欠采样、特征词筛选3种不平衡语料采样方法构建语料集,再分别结合5种文本分类模型构建数据引用识别流程。【结果/结论】研究发现,从学术论文中识别数据引用句是细化数据要素组织的有效环节;篇章结构识别和不平衡语料采样方法可以有效提升数据引用句的识别性能;较之传统的机器学习模型,BERT类深度学习模型在数据引用文本分类中性能更优。【创新/局限】从学术论文中识别非正式数据引用句为数据要素组织带来新的视角,是收集高价值数据要素的高效方法。然而,由于论文中数据引用不规范且数量稀疏,分类精确率仍有提升空间。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分