基于距离相关系数的局部实例加权朴素贝叶斯文本分类算法
A Locally Instance Weighting Naive Bayes Text Classification Algorithm Based on Distance Correlation Coefficient作者机构:东华理工大学理学院江西 南昌 东华理工大学经济与管理学院江西 南昌
出 版 物:《应用数学进展》 (Advances in Applied Mathematics)
年 卷 期:2024年第13卷第6期
页 面:2901-2911页
学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本分类 朴素贝叶斯 实例选择 实例加权 距离相关系数
摘 要:朴素贝叶斯算法具有简单高效的特点,被广泛应用于文本分类。方法要求属性之间满足条件独立性假设,然而该假设在现实中很难满足。同时,随着大数据时代到来,文本数据呈现非线性结构的特点,经典朴素贝叶斯算法拟合效果不高。为解决以上问题,本文提出了一种基于距离相关系数的局部实例加权朴素贝叶斯分类算法。首先,计算属性和类别的距离相关系数,并将其作为属性权重嵌入到文档距离测度中,构建一种新的距离度量方法;其次,测算训练样本和测试样本的距离,进行实例选择和实例加权,构建局部实例加权贝叶斯文本分类器;最后,利用WEKA平台上的15个文本数据集对算法性能进行实验比较。结果表明新提出的算法在分类精度上均优于三种经典的朴素贝叶斯文本分类器。