HTLR:层次融合多元知识的命名实体识别框架
作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室 闽江学院福建省信息处理与智能控制重点实验室
出 版 物:《计算机应用》 (Journal of Computer Applications)
年 卷 期:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:北京市自然科学基金(4212020) 国家自然科学基金(62171043) 华能集团总部科技项目(煤矿机电设备系统知识库关键技术研究,HNKJ21-HF43) 福建心理健康人机交互技术研究中心(2020L3024) 北京市教育委员会研究与发展计划(KM202111232001)
主 题:命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
摘 要:中文命名实体识别(NER)任务旨在抽取出非结构化文本中包含的实体并分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时导致的语义学习不足问题,提出一种层次融合多元知识的命名实体识别新框架(HTLR),通过分层次融合多元知识,帮助模型学习到更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇集和词汇向量表识别出语料中包含的潜在词汇并向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以此学习中文的词汇知识;其次,通过汉典网站发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-CNN)模型提取深层次的字形知识;最后,提出Hierarchical Transformer模型,由低层模块分别学习字符和词汇、字符和字形的语义关系,由高层模型进一步融合字符、词汇、字形等多元知识,帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA、Ontonotes4.0公开数据集进行了实验,与主流方法 NFLAT的F1值相比,所提出方法的F1值在四个数据集中分别提升了9.43、0.75、1.76、6.45个百分点,达到最优水平。实验结果表明,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及模型性能是有效的。