结合触发事件及词性分析的敏感信息识别方法
Sensitive Information Recognition Method Combining Trigger Event and Part of Speech Analysis作者机构:南京理工大学计算机科学与工程学院南京210094 南瑞集团有限公司/国网电力科学研究院有限公司江苏瑞中数据股份有限公司南京210094 国家电网有限公司客户服务中心南京210094
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2020年第56卷第20期
页 面:132-137页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(No.61170035,No.61272420,No.81674099,No.61502233) 中央高校基本科研业务费专项资金项目(No.30916011328,No.30918015103) 南京市科技计划项目(No.201805036) “十三五”装备领域基金(No.61403120501) 中国工程院2019年度咨询研究项目(No.2019-ZD-1-02-02)
摘 要:针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。