基于情感分析的敏感信息识别方法研究
作者单位:南京理工大学
学位级别:硕士
导师姓名:王永利
授予年度:2020年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:敏感信息识别 情感分析 特征构建 自注意力机制 敏感触发事件
摘 要:自进入信息时代以来,各种良莠不齐的信息充斥着人们的生活,不少境外势力和不法分子通过互联网散布和传播一些敏感信息,以煽动并引导网络舆情。以微博为代表的各种网络媒体包含了大量关于暴力事件、恐怖袭击事件、政治时事等话题的文本,这些文本反映了用户对事件的态度,观点和倾向。敏感信息识别作为避免网络舆论被恶意引导的重要手段,近几年成为了一个重要研究问题。本文针对网络文本中的暴恐敏感信息识别任务中的情感分析和敏感信息识别方法进行研究。本文的主要工作如下:(一)针对敏感文本中情感分析问题,提出了面向敏感信息识别的情感分析模型构建方法。在模型中,在传统word2vec语义特征提取方法上,改进了文本语义提取的方法,提取出文本中的情感特征,情感词和敏感词的相对位置特征。并结合双向长短时记忆模型和self-attention机制,得到面向敏感信息识别的情感分析模型(Sentiment Analysis Model For Sensitive Information Recognition,SAMFSIR),该模型对文本进行情感分析,得到三种情感极性。通过实验表明,本文提出的方法在情感分析性能上优于现有的情感分析方法。(二)针对文本中敏感信息识别任务,提出了结合情感分析的敏感信息识别方法。本文通过构建敏感触发事件,并结合关键词词性对文本相似度算法进行改进,提出了一种结合敏感触发事件中关键词词性的敏感信息相似度算法(Text Similarity Algorithm Combining Part of Speech,STEAP)。然后结合SAMFSIR模型和STEAP算法计算文本的敏感度。通过实验证明,该方法在识别精确率上超过了传统的敏感信息识别方法,同时,也证明了文本敏感性与文本情感极性具有较强的联系。(三)针对网络文本中敏感信息识别任务,提出了构建基于情感分析的敏感信息识别系统。根据本文提出的方法,设计并实现了一个基于情感分析的敏感信息识别系统。根据需求对系统架构和各个模块的功能进行设计、实现,并通过用例测试验证系统的有效性。