咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >危险化学品事故信息命名实体识别方法研究 收藏
危险化学品事故信息命名实体识别方法研究

危险化学品事故信息命名实体识别方法研究

作     者:戴慧 

作者单位:中国矿业大学 

学位级别:硕士

导师姓名:袁冠

授予年度:2023年

学科分类:100405[医学-卫生毒理学] 1004[医学-公共卫生与预防医学(可授医学、理学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:危险化学品 嵌套实体 命名实体识别 主题聚类 主动学习 

摘      要:化学工业作为我国重要的基础性产业,推动着国民经济快速发展。然而由于危险化学品(危化品)不稳定的理化性质,其在生产、运输和储存过程中均存在巨大风险。一旦发生事故就会给人民生命健康带来重大威胁,给社会和谐稳定带来极大挑战。为落实安全生产,应急管理部门就危化品安全生产提出“智能化事故信息反馈与“建立相关应急资源知识图谱。因此,面向危化品事故领域的命名实体识别逐渐成为现阶段研究热点。本课题围绕危化品事故数据,应用自然语言处理技术,探究危化品事故致因图谱的构建,为危化品的安全生产、运输、存储、应急处置等提供有力的数据支撑和科学的处理方法。本课题主要工作包括以下几个方面:(1)融合规则模板和Global Pointer的危化品事故实体识别。根据危化品事故实体特点对危化品事故数据进行划分:一类具有明显结构特征,格式相对固定(如:日期、时间等);另一类结构特征不明显,表述形式多样、多种实体相互重叠、相互嵌套(如:组织机构、事故原因等),提出融合规则模板和Global Pointer的危化品事故实体识别方法。对于第一类实体,抽象其结构特征,设计规则匹配模板进行识别。对于第二类实体采用基于Global Pointer的模型进行识别。真实数据集下的实验结果验证了本文提出的方法在危化品事故领域的实体识别效果高于目前流行的实体识别方法。(2)融合样本不确定性和多样性的危化品事故实体主动识别。针对危化品领域缺乏标注语料问题,借助主动学习选出高质量样本进行标注,提出融合样本不确定和多样性的危化品事故实体主动识别方法。首先,利用隐含狄利克雷分布进行主题聚类,选出具有代表性的初始样本。其次,综合考虑样本信息量、多样性以及初始主题聚类信息,通过对样本的不确定性和多样性进行评估,选出综合得分较高的样本进行标注并加入模型训练。最后,根据模型F1值设定主动学习终止条件,结束整个迭代过程。实验结果表明,本研究提出的方法能够有效减少数据标注工作并提升整体识别F1值。(3)危化品事故信息实体识别系统设计与实现。应用本文的研究成果,设计并开发危化品事故信息实体识别系统。该系统以可视化的方式展示了危化品事故信息实体识别的关键步骤,同时该系统内集成了大量命名实体识别算法,对本文研究成果进行对比验证与分析。此外,在实体识别的基础上,构建了危化品事故知识图谱并设计neo4j知识模型对图谱进行存取与查询。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分