基于数据深度的多元函数型数据的监测方法及应用
作者单位:厦门大学
学位级别:硕士
导师姓名:张志强
授予年度:2022年
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学]
主 题:统计过程控制 数据深度 函数型数据分析 变点检测 控制图
摘 要:统计过程控制是一种质量控制方法,在工业产品设计和生产中有着广泛的应用。它是通过监测过程特性或者产品的质量特征来判断生产过程是否处于受控状态。在传统的统计过程控制中,我们关心的质量特征往往是一个或者多个变量。而随着数据采集技术的应用和发展,需要处理的数据结构也越来越复杂,对于多元函数型数据的监测问题也越来越受到关注。最新的关于多元函数型数据监测的研究是通过多元函数型主成分分析方法提取数据的关键特征,并构建检验统计量和控制图(Paynabar 等,2015;Wang 等,2018;Ren 等,2019)[15][20][6],这类方法考虑了多元函数型数据的结构信息,但是需要假设多元函数型数据在不同维度上具有相同的特征结构,因此只适用于某些特定情形,在实际应用中不能普遍使用。统计数据深度是衡量多元数据中心度的一个重要分析工具,具有中心向外排序的良好特性。不仅能够提取多元函数型数据的位置信息,还能对结构复杂的数据进行降维,为多元函数型数据的离群值检测、聚类、分类等问题提供了新的分析方法。本文从统计数据深度的角度出发,将极值深度的概念拓展到了多元函数型数据。该方法关注的是函数型数据的局部极端值,对于局部的极端离群情况施加更多的惩罚。然后利用多元函数型数据的极值深度对样本的中心度进行排序,得到基于深度的秩,在此基础上构建控制图的Q检验统计量,并从理论上证明了在多元函数型数据的情形下,Q检验统计量服从渐近正态分布。进而利用Q检验统计量对多元函数型数据进行第二阶段的过程监测,该监测方法不需要假定受控状态下的分布,也不需要过多的历史数据。模拟研究和实例分析的结果表明本文提出的多元函数型极值深度对于多元函数型数据的变点检测十分有效,特别是对于局部的极端离群情况的检测效果较好。