咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的诈骗电话文本分类方法研究 收藏
基于深度学习的诈骗电话文本分类方法研究

基于深度学习的诈骗电话文本分类方法研究

作     者:周俊杰 

作者单位:山东建筑大学 

学位级别:硕士

导师姓名:许鸿奎

授予年度:2023年

学科分类:0301[法学-法学] 03[法学] 030104[法学-刑法学] 08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:诈骗电话 文本分类 BiLSTM BiGRU CNN Transformer 多头注意力机制 

摘      要:随着互联网经济和通信技术的迅速发展,社会不断进步,人们的生活也变得更加便利。但是,科技进步的同时也使得电信诈骗手段呈现多样化。电话诈骗作为电信诈骗中最具代表性的类型,近年来愈演愈烈,此类案件一般团队作案,利用诈骗话术在短时间内取得受害人的信任,令人防不胜防。诈骗案件已经成为社会的一大隐患,这严重影响了社会的和谐安定,严重危害了人民的生命和财产安全,治理诈骗电话刻不容缓。诈骗电话文本从本质上讲是一些包含诈骗话术的语句集合,可通过语音转化技术将通话内容以文字的形式记录形成文本,这种文本蕴含诈骗语义信息,这些信息蕴含在语句的序列结构、词语之间的局部相关性、文本的上下文相关性以及关键词等文本特征中。在国内外基于深度学习的文本分类的研究中,有许多经典的算法已经被开发用于社交媒体攻击性文本识别和情感分析。这些算法同样适用电话文本的诈骗性识别,但与上述分类任务相比,诈骗文本的语义更为复杂,相对来说更难以区分。循环神经网络(Recurrent Neural Networks,RNN),RNN的变体,卷积神经网络(Convolutional Neural Networks,CNN)和混合神经网络提取文本特征是大多数文本分类研究使用的。然而,单一的网络或简单的网络组合相对而言无法获得丰富的诈骗电话文本特征知识。并且选择合适的文本向量表示有助于丰富诈骗电话文本的诈骗语义信息,这极为影响模型的分类结果。为解决上述问题,本文基于深度学习的文本分类方法,融合多方面文本知识构建诈骗电话文本分类模型,论文主要研究内容如下:(1)制作了一个包含上万条诈骗电话文本的数据集,从各大互联网网站上获取诈骗电话相关的数据,同时人工编写修改部分诈骗文本数据集。数据集涵盖了多种类型的诈骗,例如教育、刷单、冒充公职人员和聊天交友等类型的诈骗。(2)为了充分提取诈骗电话文本的特征,使模型能够充分学习诈骗语义知识,本文基于深度学习的文本分类方法,融合多方面的文本知识,提出了四种不同的诈骗电话文本分类模型。模型一为PEAGCNN(Position Embedding and Attention are introduced into Bi GRU and CNN),采用不同频率的正弦、余弦函数对文本位置信息编码并融入词向量,然后分别利用Bi GRU(Bidirectional Gated Recurrent Unit)和CNN(Convolutional Neural Network)提取文本上下文相关信息、语句序列以及局部相关性,Attention机制对提取出的信息重新分配权重,突出关键信息的作用,最后将两种信息融合;模型二为TEBi LSTM(Transformer-Encoder-Bidirectional Long Short-Term Memory),该模型是一种基于改进Transformer和Bi LSTM相结合的混合神经网络,多头注意机制可以从不同子空间的文本中提取深度语义信息,双向长短期记忆网络(Bi LSTM)可以利用文本的远距离依赖性;模型三为LMHACL(Bi LSTM-Multi-Head Attention Mechanism Module with Convolution-Bi LSTM),该模型将Bi LSTM或Bi GRU与具有卷积的多头注意机制模块相结合。使用Bi LSTM或Bi GRU构建编解码层,具有卷积的多头注意机制模块(MultiHead Attention Mechanism Module with Convolution,MHAC)增强了模型学习诈骗语句中全局交互信息和多粒度局部交互信息的能力;模型四为BERT_Bi LCNN(Bidirectional Encoder Representation from Transformers-Bi LSTM and CNN),词嵌入部分采用基于Transformer的BERT表示诈骗文本,同时采用Bi LSTM以及CNN的混合神经网络(Bi LCNN)学习文本的时序知识和局部交互知识。(3)为进一步提升模型的性能,在模型四的构建过程中,本文对Word2Vec和BERT进行了实验比较,从中选择出具有最丰富诈骗语义特征的词嵌入向量。实验结果表明,BERT作为词嵌入模型具有最好的实验结果。(4)在诈骗电话文本数据集上进行大量的实验,选取经典的文本分类模型作为基线模型,实验结果表明,本文提出的四种诈骗电话文本模型实验结果均高于基线模型,准确率和F1值等评价指标均在90%以上,其中BERT_Bi LCNN具有最好的实验结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分