咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于实例的词性标注数据错误检测 收藏

基于实例的词性标注数据错误检测

Instance-Based Error Detection for Part-of-Speech Tagging Dataset

作     者:崔秀莲 严福康 李正华 CUI Xiulian;YAN Fukang;LI Zhenghua

作者机构:苏州大学计算机科学与技术学院 

出 版 物:《山西大学学报(自然科学版)》 (Journal of Shanxi University(Natural Science Edition))

年 卷 期:2024年第47卷第2期

页      面:251-259页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(62176173) 江苏高校优势学科建设工程资助项目 

主  题:词性分类 标注错误数据集 语义相似度 CTB7数据集 

摘      要:由于深度学习框架在可解释性上的缺乏,本文将基于实例的方法首次应用到词性标注数据错误检测任务,旨在充分利用模型学到的实例之间的相似度信息。首先,本文基于预训练语言模型,实现了基于实例的词性标注模型,在CTB7数据集上的预测准确率和基于标准分类器的模型相当,达96.76%。进而,本文提出了一种基于实例的标注错误检测方法。为了获得真实检错数据集,本文采用不同方法对CTB7测试集进行自动错误检测,并人工标注候选错误,最终获得2 016个真实标注错误,约占所有8万多词中的2.5%。检错数据集上的实验表明,基于实例的方法的检错准确率达41.48%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分