基于双核范数低秩表示的子空间聚类
作者单位:青岛大学
学位级别:硕士
导师姓名:彭冲
授予年度:2021年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:高维数据通常存在于低维子空间中,随着现实世界中数据量变得越来越多,数据类型越来越复杂,通过恢复低维子空间来揭示数据内部结构性信息的技术也变得尤为重要。数据量的增多给予了数据标记工作很大的压力,而聚类作为无监督学习方法则有效的避免了这一难题。随着数据维数越来越大,信息量越来越复杂,传统的聚类算法在聚类分析时效果不理想。在多种聚类算法中,子空间聚类从数据本身的性质出发,利用数据集的低秩性和稀疏性,成功解决了这种现象,在近几年来广受学者青睐。现存的子空间聚类算法仍然具有一定的局限性,SSC和LRR因其具有较高的效率和完整的理论分析,被视为子空间聚类领域的经典算法。然而,对于像灰度图像这种每个样本以矩阵形式表示的二维数据,它们都通过将二维数据拉伸成一维向量进行数据处理,这样的方式对二维数据来讲,往往不能够充分利用数据本身的结构信息。本文在基于低秩的子空间算法领域提出了基于双核范数低秩表示实现的子空间聚类算法,创新点如下:1.考虑到之前的子空间聚类算法,在对数据处理时,通常把数据拉伸成向量的形式,这样做在数据分析过程中,无可避免的存在数据结构性信息丢失的问题。因此,本文提出使用二维矩阵的形式保存数据集,从而保留了数据的结构性信息。2.本文提出双核范数方式,分别对低秩部分和函数拟合部分同时使用核范数。相比于Frobenius范数对数据元素处理时较为独立的性质而言,核范数能够更好的利用数据中的结构化信息。并且对于系数矩阵块状对角的性质而言,利用低秩性质更好的核范数有助于恢复系数矩阵的这一特点。本文算法利用核范数的性质,从数据中获取相对应的结构化信息,基于构造恢复出的子空间,用于聚类分析,从而获得理想的聚类效果。3.本文通过在模型中引入流形项,来保证数据间非线性关系的分析。流形项的加入可以保证,当数据样本在高维非线性空间中相似度高时,那么流形项转化后的低维的线性空间中,新的表达形式仍然具有相似度高的特征。根据这一性质,本文引入流形项可以使模型具有非线性关系分析的能力。总的来说,本文提出的基于双核范数低秩表示实现的子空间聚类算法,在现存的子空间聚类算法的基础上进行改进创新。大量的实验结果证明,本文提出的算法在聚类的准确率,纯度指标上都有明显的提升。