咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向标注稀缺问题的命名实体识别方法 收藏
面向标注稀缺问题的命名实体识别方法

面向标注稀缺问题的命名实体识别方法

作     者:郭江涛 

作者单位:山西大学 

学位级别:硕士

导师姓名:彭甫镕

授予年度:2023年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:全局节点 多片段 格栅 命名实体识别 主动学习 

摘      要:命名实体识别在自然语言处理应用中具有重要的作用,可以为许多自然语言处理任务提供基础支持和优化方案。一些先进的模型和算法需要大量的数据进行训练,而真实的数据集并不容易获取到,尤其是在一些特殊领域,数据集的标注需要耗费大量的人力和财力。数据标注的代价昂贵,而主动学习能够极大的减少数据标注量,因此,基于主动学习技术设计面向标注稀缺问题的命名实体识别方法具有重要的应用价值和意义。本文以命名实体识别的主动学习为研究对象,在标注数据稀缺的情形下,致力于在保证性能的前提下最小化人工标注成本。本文的研究工作分为以下两个内容:(1)针对Transformer的全连接结构对标注数据高度依赖的问题,提出基于全局节点和多片段的格栅命名实体识别方法。首先,为了在保持精度的情况下降低标注代价,提出一种基于全局节点和多片段的结构,替换FLAT模型中Transformer的全连接结构,减少标注数据量要求。然后,将当前结构与平面格栅思想融合,不仅可以避免分词,而且能有效利用词汇边界信息。在MSRA,Onto Notes5,Weibo和People Daily四个命名实体识别数据集上的评测结果表明,所提出的基于全局节点和多片段的格栅方法,相较于FLAT模型,所需的标注数据量分别降低了39.9%,2.17%,34.6%和35.67%。(2)为了进一步提高标注数据利用率,提出一种结合主动学习和数据扩充的命名实体识别方法。首先,在主动学习策略选择出高价值样本后将样本中实体随机替换为同种类型的实体,实现高价值样本的扩充。然后,为了在主动学习策略中进一步利用深度学习模型的输出参数,提出句子边际策略,使用各个跨度概率和CRF层的转移矩阵计算未标注样本的整体分数,并取最大两种预测序列分数的差异性作为挑选未标记样本的准则。在MSRA,Onto Notes5,Weibo和People Daily四个数据集上的评测结果表明,所提出的结合主动学习和数据扩充的命名实体识别方法在只使用38%数据集的情况下分别达到原模型99.1%、95.9%、98.9%和99.2%的F1分数,验证了主动学习策略和数据扩充方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分