基于半监督学习的域适应实体解析算法
Domain-adaptive Entity Resolution Algorithm Based on Semi-supervised Learning作者机构:国防科技大学信息系统工程全国重点实验室长沙410073
出 版 物:《计算机科学》 (Computer Science)
年 卷 期:2024年第51卷第9期
页 面:214-222页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:实体解析旨在查找两个数据实体是否引用同一实体,是许多自然语言处理任务中的一项基本任务。现有的基于深度学习的实体解析解决方案通常需要大量的标注数据,即使利用预训练的语言模型进行训练,仍然需要数千个标签才能达到令人满意的准确性。现实场景中,这些标注数据并不容易获得。针对上述问题,提出了一个基于半监督学习的域适应实体解析模型。首先,在源域上训练一个分类器,然后利用域适应减小源域和目标域的分布差异,同时用数据增强后的目标域软伪标签加入源域迭代训练,从而实现从源域到目标域的知识迁移。在13个来自相同或不同领域的数据集上对所提模型进行了对比实验和消融实验,实验结果表明,与无监督基线模型相比,所提模型在多个数据集上的F1值平均提升了2.84%,9.16%和7.1%;与有监督基线模型相比,所提模型只需要20%~40%的标签就可以达到与有监督学习相当的性能。消融实验进一步证明了所提模型的有效性,其总体上可以获得更好的实体解析结果(相关代码已开源1))。