咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于全样本信息的伪孪生自编码器在支付欺诈识别上的应用研究 收藏
基于全样本信息的伪孪生自编码器在支付欺诈识别上的应用研究

基于全样本信息的伪孪生自编码器在支付欺诈识别上的应用研究

作     者:徐丁香 

作者单位:华东师范大学 

学位级别:硕士

导师姓名:吴贤毅

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 

主      题:伪孪生自编码器 全样本信息 欺诈检测 

摘      要:随着大数据时代经济与互联网科技的高速发展,线上交易量得到爆炸式增长,使得不法分子将目光瞄准线上交易市场,致使欺诈事件频发。目前根据样本数据标签的特性,将欺诈检测划分为有监督、无监督和半监督。欺诈场景的数据集具有极度不均衡性和高维性的特征,在使用监督分类算法时,通常需要引入采样或人工降维的方式对原始数据预处理。但过多的人工干预可能会改变原始样本的分布特征,影响预测结果的准确性。而在无监督场景中,学者们主要采用自编码器算法,即仅学习正常交易样本的信息,但这一定程度上会导致欺诈样本点信息的浪费。针对监督机器学习算法存在大量繁琐耗时的人工预处理导致预测结果不准确的问题,本研究将自编码器欺诈检测算法的场景应用到有监督数据中,通过对正负样本分别训练深度神经网络,提出新的伪孪生自编码器欺诈检测模型。该模型不仅具有较高的鲁棒性,而且无需对原始样本采样、降维,保持数据原有特性的同时也实现了全样本信息的利用和无监督自编码器的应用拓展。本研究通过设置低维均衡、低维不均衡、高维均衡和高维不均衡的模拟数据集,运用自编码器模型、伪孪生自编码器模型以及传统机器学习模型进行多次模拟对比实验。实验表明,相比于传统自编码器模型,伪孪生自编码器模型的AUC指标提升约1个百分点;相比逻辑回归分类器,AUC指标普遍提升约1.5个百分点;相较丁集成分类模型LightGBM,AUC指标实现部分提升。此外,还对伪孪生自编码器指标随超参数α的变化规律进行了分析。分析表明,在均衡和不均衡数据集中AUC指标呈现不同的走势,均衡样本下在α取0.5左右达到峰值,不均衡样本下在α取0.8附近达到峰值。同时,为了进一步验证伪孪生自编码器模型在欺诈场景下的实际效果,对信用卡交易数据集和Vesta线上交易数据集采用重复留出法进行实例应用。结果表明,在信用卡交易数据集,伪孪生堆叠自编码器模型AUC为0.9769,超过集成模型LightGBM一个百分点;在高维Vesta线上交易数据集,伪孪生堆叠自编码器模型AUC达到0.8260,优于常规堆叠自编码器模型和机器学习模型。由上述研究结论可得,伪孪生自编码器模型可以运用到监督欺诈检测等相关领域,提高欺诈样本识别的效率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分