基本医疗保险欺诈识别算法研究
作者单位:燕山大学
学位级别:硕士
导师姓名:宫继兵
授予年度:2019年
学科分类:12[管理学] 02[经济学] 08[工学] 0202[经济学-应用经济学] 1204[管理学-公共管理] 120402[管理学-社会医学与卫生事业管理(可授管理学、医学学位)] 1004[医学-公共卫生与预防医学(可授医学、理学学位)] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 120404[管理学-社会保障] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学]
主 题:医疗保险欺诈识别 特征提取 模型融合 梯度下降决策树
摘 要:近年来,全民医保已经基本实现,随之而来的就是医疗保险服务的监控形势面临更严峻的挑战,即基本医疗保险(简称“医保)欺诈骗保的案例急剧增多,给国家财产带了巨大损失的同时也损害了社会的公平性和医疗的保障性。为了能够加强对门诊、住院,购药等各医疗服务环节的高效智能监控,国家人社部门采取了诸多手段,包括了人工诊疗规则筛查、专家介入和数据比对等,这些方法都取得了一定的成果,但是由于技术手段比较落后,还存在着很大的局限性。因此能否结合新的特征提取方法和模型融合技术来有效解决基本医疗保险欺诈骗保行为的识别问题(简称医保欺诈识别)便成为了本文研究的出发点。首先,针对基本医疗保险欺诈识别场景中传统方法提取的特征不完善,本文提出了基于行为相似度和多类别算法的二次特征提取方法,该方法在传统特征提取基础上将模型训练过程中产生的中间结果作为统计特征,其中多类别算法包括多项式组合,Boosting树模型叶子节点特征提取以及基于Word2vec的embedding特征提取。该方法有效避免了传统特征提取方法的特征生成质量不高的问题,达到了为后续预测模型提供完善而高质量特征的效果,以保证预测性能的大幅提升。其次,针对医疗保险欺诈识别场景中类比分布不平衡问题,本文摒弃传统的过采样,降采样以及再缩放等技术手段,提出了基于样本占比均衡化思想的样本划分方法,充分利用已有样本信息,达到了样本占比均衡的效果,避免了过拟合的问题。再次,基于前面提出的特征提取方法和新的样本划分策略,本文提出了一种新的模型融合算法(THBagging)以解决传统医保欺诈识别方法的识别率低和自动化程度弱的问题。该方法具有两层算法结构,利用多组基于Boosting的树模型算法进行融合,不仅克服了已有方法算法结构不合理的缺点,还有效提升了识别方法的智能性,最终达到了提升基本医保欺诈识别准确率的效果。最后,在由阿里巴巴天池大数据竞赛平台和中国社会保险协会联合提供真实的基本医疗保险数据集上对本文所提出的以上方法进行了性能验证和对比分析,并给出了结论。