构词规则驱动的工艺规范文本实体识别模型
作者机构:辽宁省知识工程与人机交互专业技术创新中心 上海飞机制造有限公司航空制造技术研究所 沈阳航空航天大学计算机学院
出 版 物:《计算机集成制造系统》 (Computer Integrated Manufacturing Systems)
年 卷 期:2024年
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:辽宁省应用基础研究计划资助项目(2022JH2/101300248) 全国科技名词审定委员会科研资助项目(YB2022015) 国家自然科学基金资助项目(U1908216)
主 题:实体识别 工艺规范文本 实体构词正则规则 有限状态转换器
摘 要:实体识别是理解工艺规范文本的基本任务之一,对构建工艺知识图谱等应用至关重要。针对有限训练数据情况下,模型训练不充分导致实体识别效果不佳问题,提出一种构词规则驱动的神经概率有限状态转换器(Neural Probability Finite State Transducer, NPFST)。通过将实体构词正则规则与神经网络整合建模,将构词规则转化为有限状态转换器并张量化其状态和转移函数,NPFST在未经训练时即具备实体识别能力。NPFST作为编码器和辅助识别模块,能够弥补字符嵌入层在少样本下的不足,并防止迭代训练中先验知识的遗忘。实验显示,NPFST在各种样本量下的性能均优于对比方法,5-shot和全样本数据下的最高F1值分别达24.73%和71.26%,展现了NPFST在实体识别任务中的有效性。