基于字词向量的BiLSTM-CRF水利工程巡检文本实体识别模型
Text Entity Recognition Model of BiLSTM-CRF Hydraulic Engineering Inspection Based on Word Vector作者机构:华北水利水电大学信息工程学院河南郑州450046 河南省水利勘测设计研究有限公司河南郑州450016 华北水利水电大学管理与经济学院河南郑州450046 黄河水利水电开发集团有限公司河南郑州450003
出 版 物:《华北水利水电大学学报(自然科学版)》 (Journal of North China University of Water Resources and Electric Power:Natural Science Edition)
年 卷 期:2024年第45卷第3期
页 面:9-17页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(72271091) 河南省科学院科技开放合作项目(220901008)
主 题:巡检文本 实体识别 双向长短期记忆神经网络 Word2Vec 条件向量场
摘 要:命名实体识别是构建水利知识图谱的核心技术。水利工程巡检文本是水利工程最为常见的数据类型,以文本形式记录,没有固定格式与结构,但其包含水利工程安全潜在风险信息,具有价值密度高的特点。针对水利工程巡检文本命名实体识别问题,提出字词向量融合的BiLSTM-CRF模型,首先将巡检文本分别在字维度和词维度进行向量化处理,合并字词向量获取字词向量特征;然后利用BiLSTM神经网络获取序列化后的上下文特征;最后通过CRF进行解码并提取相应实体。以南水北调中线工程巡检文本为例,实验结果表明:字词向量结合之后的方法能有效提高识别性能,对实体边界的识别效果更优,模型准确率、召回率和F1值分别可以达到93.79%、93.06%、93.42%;时间效率较BERT-BiLSTM-CRF模型的时间效率提高82.86%。基于字词向量的BiLSTM-CRF模型可为水利工程知识图谱的快速构建提供技术支撑。