烟叶原料高维指标信息聚类算法
作者单位:湖南师范大学
学位级别:硕士
导师姓名:杨家红
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 0822[工学-轻工技术与工程]
摘 要:因为烟草产品的消费面广、量大、税高,在我国经济中占有重要地位,所以如何有效的给烟叶品质评级,提高烟叶的质量来创收是烟草工业面临的重要问题。烟叶数据具有维度高、计算复杂度大等特点。对烟叶数据的处理主要面临的问题有:一是怎么有效的对海量、高维的烟叶数据进行特征提取;二是如何利用特征提取的数据来提高烟叶原料品质评级的准确率。针对以上问题,本文的工作内容如下:1)针对高维烟叶数据,简单介绍了烟草领域的研究背景,以及降维方法和聚类分析的国内外研究现状。同时对常用的线性降维方法、非线性降维方法和聚类分析算法结合如何处理高维烟叶原料数据这一实际问题,进行了讨论和分析。2)烟叶原料指标信息维数过高,计算量大,非常不不利于聚类。本文针对LLE算法的数据分类性能不好,通过加入平移和缩放变换,提出一种局部线性判别嵌入(LLDE)模型,来对烟叶原料指标信息进行降维。来减少烟叶高维数据降维时的计算量,同时提高烟叶数据降维后数据的可分性能。针对烟叶数据建立模型,通过实验确定了LLDE算法的关键参数k和?的取值,当k取10和?取10的时候对烟叶数据的特征提取效果最好,并且与主成分分析进行对比发现降维后的数据可分性能大大提高。3)在训练样本较少的情况下,运用K-近邻(KNN)、支持向量机(SVM)等方法,对烟叶进行品质分类时会导致分类准确率低而导致难以实现烟叶品质的正确分类。为解决这一问题,使用一种混合K调和聚类方法结合LLDE算法,构建LLDE-K模型来进行烟叶品质评级的分类。使用实际工业生产中的烟叶数据对模型进行测试,与PCA+KNN和ISOMAP+KNN来作比较,LLDE-K模型在识别过程中最高达到了95.2%正确率,而PCA+KNN的最高识别率是94.9%,ISOMAP+KNN的最高识率是94.8%。LLDE-K方法对烟叶各品质的平均识别率有94.96%,而PCA+KNN的是94.30%,ISOMAP+KNN的是94.34%,并且LLDE-K的算法耗时均小于另外两种方法。验证了LLDE-K方法的可行性,这也为烟叶原料高维指标信息的品质分类的研究和分析提供了一种新途径。