基于主题多视图表示的零样本实体检索方法
作者机构:山西大学计算机与信息技术学院 山西同方知网数字出版技术有限公司 山西工程科技职业大学现代物流学院 计算智能与中文信息处理教育部重点实验室(山西大学)
出 版 物:《广西师范大学学报(自然科学版)》 (Journal of Guangxi Normal University(Natural Science Edition))
年 卷 期:2025年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:山西省重点研发计划项目(202102020101008) 山西省科技合作交流专项项目(202204041101016) 山西省基础研究计划项目(202203021211286,202403021211092)
摘 要:零样本实体检索旨在将实体提及链接到训练阶段未见过的实体,在多种自然语言处理任务中起着关键作用,然而现有的方法依然存在2个问题:1)仅使用实体描述的前k个句子来构建实体的多视图表示导致实体多视图语义的冗余与缺失,很难充分学习提及与实体之间的匹配关系;2)仅以提及为中心构造正负例,对提及与实体之间的对比关系覆盖度较低,导致其匹配错误。针对以上两个问题,本文提出基于主题的多视图实体表示(Topic-MVER)方法,该方法基于主题为实体构建了多视图表示,并使用对比学习建模了提及与实体之间的三种关系,提升了提及和实体对表示的匹配性。最后,该方法在ZESHEL和MedMentions数据集上的Recall@1分别达到了48.13%和73.86%,较基线模型分别提升了2.73%和1.21%,验证了该文方法的有效性。