基于不同属性数据流的离群数据挖掘算法的研究
作者单位:燕山大学
学位级别:硕士
导师姓名:任家东
授予年度:2010年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:数据流 离群点检测 混合属性 闭合频繁模式 滑动窗口
摘 要:对国内外数据流离群数据挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。多数离群数据挖掘方法往往忽略了混合属性数据流的分类属性;简单的分类属性数据流离群数据挖掘由于没有采用合理的加权思想,挖掘出的离群数据偏差较大。这些问题的研究对金融欺诈检测、网络入侵检测、以及天气预报等风险控制领域具有重要的意义。 文中首先提出了一种混合属性数据流离群点检测算法HDSOD,引入聚类参考存储数据流的概要信息,先对数据流进行分区,对于每一分区进行聚类,将聚类结果存储于聚类参考中,充分利用聚类参考的存储信息计算其代表度,以及与其相邻的聚类参考的个数,判断该聚类参考是否为离群参考对象,离群参考对象所代表样本点为可能的离群点。该算法在有限内存中有效的对混合属性数据流进行离群点检测。 其次,提出了分类属性数据流的离群数据挖掘方法CFPOD-Stream。该算法定义了加权闭合频繁模式离群因子,通过动态发现和维护频繁闭项集来计算离群度,采用带有衰减因子的查询索引结构来处理数据的概念转移现象,有效地检测出离群数据。 最后,将离群数据挖掘方法应用于软件漏洞分析,该算法对算法CFPOD-Stream进行改进,发现与离群事务相偏离的闭合频繁项集,用以解释其软件漏洞发生不频繁的原因。 本课题使用C++语言对上述算法进行实现,使用现实数据集KDD-CUP-99和仿真数据集对文中提出的算法进行测试,通过对不同处理结果的对比分析,所提出的算法在解决各自的问题上是有效的。