改进的关联规则挖掘算法在个性化推荐系统中应用
作者单位:大连交通大学
学位级别:硕士
导师姓名:黄明
授予年度:2008年
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:数据挖掘是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。数据挖掘(Data Mining),通常又称数据库中的知识发现(Knowledge Discover in Database),是自动的模式提取。关联规则(Association Rules)挖掘是数据挖掘的重要研究方向之一,它是发现大量数据中项集之间有趣的关联或相互联系。可以辅助许多商务经营者做决策,如分类设计、交叉购物和购物篮分析等。 本课题是以辽宁省信息产业厅项目“嵌入式网上智能教学平台为背景,主要通过对数据挖掘技术的相关分析与比较,提出改进的关联规则挖掘算法,并将此算法用于挖掘用户购买模式,从海量的购买记录中提取出隐藏于其中的用户感兴趣的信息。本文开发了嵌入式网上智能教学平台的个性化推荐系统,该系统能自动向用户推荐其可能感兴趣的信息,为用户提供个性化服务。 本文针对传统的Apriori算法需要产生大量的候选项目集和多次扫描数据库的不足,提出了一种新的基于向量内积的生成频繁项集的算法,称为VipApriori算法(Vector Inner Product Apriori)。该算法通过对事务数据库的布尔化表示,搜寻布尔矩阵的行向量,通过内积运算规则直接生成频繁项集。VipApriori算法只需扫描一次数据库,无需生成候选项集。此外,VIPApriori从最大项集开始查找,当频繁项集可能是大项集时,可以缩短查找时间。 本文使用Java语言进行了传统的Apriori算法与本文改进的VipApriori算法的对比实验。理论分析与实验表明,改进的VipApriori算法具有很高的效率,因为它只扫描事务数据库一次。K-项频繁集通过扫描事务扩展矩阵的行来直接生成,不需要对(K-1)-项频繁集进行连接,也不需要对K-项候选集进行剪枝和模式匹配的操作。在计算过程中对事务矩阵进行了两次有效的剪裁,这些操作都大大降低了时间复杂度。 本文将改进的VipApriori算法应用到个性化推荐系统中,并成功整合到网上教学中,根据客户的爱好,向用户推荐可能感兴趣的商品,可使用户在面对教学平台提供的上万甚至上百万种产品时,能够更好地选择到自己满意的商品。从而提高了网站的智能性。