基于模板的不完备关系修正方法
作者单位:东华大学
学位级别:硕士
导师姓名:常姗
授予年度:2017年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:SSG 数据不一致 扩展B-Tree 空值修正 多维、多模式关联规则
摘 要:在当今信息技术高速发展的时代,计算机技术在各个领域得到了广泛的应用,产生了大量数据,例如:工业领域中的生产设备数据。这些数据往往来自多个数据源,在数据的收集、加工、存储到数据库的过程中很难保证数据的一致性与完整性,容易产生数据不一致、空值等问题,进而影响数据的质量。高的数据质量不仅关系到数据的全面性、真实性,更是确保数据分析结果有意义的基本条件。因此,如何将不一致数据一致化以及如何对空值进行处理,以提升数据质量具有重要的研究意义以及应用价值。本文针对瑞典SSG公司(Standard Solution Group,SSG)的工业生产设备数据集,从数据不一致修正以及空值修正两个方面进行研究。针对数据不一致问题,本文提出了基于模板的不完备关系修正方法,引入模板作为标准,对不完备关系进行数据不一致修正;对于空值问题,本文提出了多维、多模式关联规则,利用数据间潜在的关联关系完成空值的修正。本文主要工作如下:1)提出了待修正的不完备关系数据与模板数据的查找方法。利用基于互信息、N-Gram以及信息熵的分词算法,对待修正的不完备关系数据进行分词处理,用分词后的结果集构建扩展B-Tree索引,利用模板匹配B-Tree索引,初步判定模板数据与不完备关系数据间是否存在对应关系。2)提出了基于模板的不完备关系修正算法,对不一致数据进行修正。人工构造模板的正则语言模式,利用正则语言模式结合模板数据生成相应的正则语言,通过正则语言判定不完备关系的不一致数据是否可以修正。3)提出一种基于多维、多模式关联规则的空值填补方法。利用基于前缀树(Prefix-Tree)的查找方法生成频繁前缀、频繁后缀,利用Apriori算法生成频繁项集,然后基于频繁项集生成三种形式的关联规则:项→项、前缀→项、后缀→项,利用生成的关联规则填补空值。4)以SSG公司的供应商数据对本文方法进行实验验证,实验结果表明,相比于现有的基于编辑距离的数据修正方法以及基于普通关联规则的空值填补方法,本文方法在不一致修正率以及空值修正率上都有所提高,分别达到46.01%、54.87%。