基于对数似然分析的贝叶斯网络结构扩展研究
作者单位:吉林大学
学位级别:硕士
导师姓名:时小虎
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:贝叶斯网络分类器 对数似然 平均一阶依赖估计器 结构扩展
摘 要:如何建立一个能够用结构来表示隐藏在领域知识内的分类模型是人工智能领域内的一个关键问题。贝叶斯网络(Bayesian networks,BNs)为不确定性背景下的推理提供了一种紧凑直观的图形表示,并已成为许多概率专家系统的基础。然而,学习一个拥有最优的网络拓扑结构的贝叶斯网络已经被证明是NP-hard问题。自从朴素贝叶斯(Naive Bayes,NB)在良好的分类表现和最小时间开销两方面取得优良平衡的巨大成功后,限制性贝叶斯网络分类器(Bayesian network classifiers,BNCs)就受到了许多研究者的关注,并且研究者们提出了很多方法来改进NB。在改进NB的众多方法中,平均一阶依赖估计器(Averaged one-dependence estimators,AODE)取得了优越的分类表现,尽管对应于AODE中的每一个超父属性一阶依赖估计器(Superparent one-dependence estimator,SPODE)的独立性假设在实际情况中很少成立。模型选择和模型加权都已经被认为是用于放松AODE的独立性假设和提高其分类性能的有效且高效的解决办法。与模型选择和模型加权相比,对于改进AODE模型来说,结构扩展更能为逼近隐含在训练数据中的真实概率分布提供一种可靠的方式。在贝叶斯网络分类器的结构学习中,结构扩展通常被用来探索条件依赖而忽略了依赖的方向关系,这会对贝叶斯网络分类器在不确定性下的推理表达能力产生负面影响。目前随着数据规模的不断增长,具有高表达能力和低偏差的鲁棒性AODE模型也是十分急需的。本文引进了对数似然函数用于度量编码在网络拓扑结构中用于描述训练数据的比特数。同时,由于条件对数似然函数具有非对称性,因此其可以衡量属性和其父变量集合之间的方向关系。从对数似然函数角度出发,本文通过识别属性之间的有向依赖关系来向AODE中的超父节点一阶依赖估计器的拓扑结构中增加增广边。本文提出了一种启发式搜索策略用于最大化对数似然函数并且通过探索属性之间更高阶的条件依赖关系来放松AODE模型的独立性假设。本文提出了一种名为平均树增广的一阶依赖估计器(Averaged tree-augmented one-dependence estimators,ATODE)的贝叶斯网络分类器,其结合了生成式学习的高表达能力和判别式学习的低偏差优势。因此,ATODE继承了AODE模型的有效性而且还在建模高阶依赖时获得了更大的灵活性。为了评估ATODE模型的有效性,0-1损失、偏差-方差分解、均方根误差以及它们对应的Friedman检验和Nemenyi检验被用来进行实验比较分析。在36个UCI数据集(属性个数从5到64,实例个数从57到164860)上的实验结果表明,与一系列单模型贝叶斯网络分类器(例如CFWNB和SKDB)和集成型贝叶斯网络分类器(例如TAODE和IWAODE)相比,ATODE可以取得相当的或者更好的分类性能。