基于信息论的自筛选贝叶斯分类模型的研究与设计
作者单位:吉林大学
学位级别:硕士
导师姓名:徐沛娟
授予年度:2015年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:贝叶斯网络 自筛选 局部互信息 贝叶斯分类器 动态结构
摘 要:2012年,随着大数据时代的降临,人们意识到信息爆炸产生的海量数据对企业的重要性。在很多领域中,决策将逐渐增加对数据分析的依赖,并最终脱离传统经验和直觉。比如在医学领域,伴随着数据挖掘技术和医学的快速发展,在积存大量病人数据的情况下,人们逐渐聚焦到数据挖掘技术在医学领域上的辅助诊疗应用。如果应用得当,辅助诊疗将会极大地降低医生的工作量和误诊率。 目前已有的很多数据挖掘技术都无法给出域中各个变量间的因果关系。而贝叶斯网络擅长使用互信息寻找依赖关系,并通过图形化网络展示出因果关系,它是处理不确定信息的重要手段。因此提出一个高分类准确率的贝叶斯模型是非常有现实意义的。 最简单的受限贝叶斯分类器是朴素贝叶斯(NB),基于NB,学者们又提出了许多的更高分类性能的贝叶斯模型,如TAN和KDB等。但是NB和TAN虽然在较小数据集上表现优秀,在大数据集上很难满足需求。KDB(K=2)作为二阶依赖贝叶斯分类器,在大数据集上性能优于NB和TAN,但是不够明显,而在小数据集上又明显不如前者。 本文的目的是在研究以上经典贝叶斯分类器的基础上,提出一种能清晰展示因果关系的分类准确率高的贝叶斯分类模型。首先在KDB的基础上提出了分类性能更好的动态二阶依赖贝叶斯(D2-DB)分类模型,简称全局模型,为了让该模型更精确,在对分类属性排序时考虑了已添加属性对新添加属性的影响,然后在已添加属性中为新添加寻找父节点,最终构建出一个完整的贝叶斯网络。全局模型提升幅度较低,为了大幅提升分类准确率,采用局部互信息和局部条件互信息按照D2-DB分类模型构造规则构建了局部二阶依赖贝叶斯分类模型(L2-DB),简称局部模型,该模型分类性能很不稳定。之后本文总结出了一个规律:优秀的贝叶斯分类器,其误判情况是相对模糊的。使用该规律能有效消除两个贝叶斯算法不相交的误判部分,因此可以利用其设计一个更精确的分类算法。使用错分模糊规律将局部模型与全局模型结合使用,取长补短,这就是自筛选贝叶斯分类器。实验证明,自筛选贝叶斯分类器适用范围更广,并具有更高的分类准确率。