Top-rank-k频繁模式挖掘算法优化及其并行化研究-南通市图书馆

文献详情 >Top-rank-k频繁模式挖掘算法优化及其并行化研究收藏

Top-rank-k频繁模式挖掘算法优化及其并行化研究

作者：龙玉航

作者单位：湖南师范大学

学位级别：硕士

导师姓名：唐文胜

授予年度：2020年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：大数据并行化 Spark top-rank-k频繁模式混合搜索

摘要：数据挖掘（Data Mining）是当前数据库和信息决策领域的前沿研究方向之一,top-rank-k频繁模式挖掘是数据挖掘中挖掘rank不大于k的频繁模式的方法,可以解决传统频繁模式挖掘支持度阈值设置困难的问题。但主流的top-rank-k频繁模式挖掘算法效率有待提高,且这类算法普遍基于串行设计,难于突破单机硬件资源限制,无力应对“大数据时代的海量数据挖掘任务,因此关于top-rank-k频繁模式挖掘算法优化及其并行化研究具有重要意义。本文的主要工作如下:（1）针对当前top-rank-k频繁模式挖掘时空耗费大的问题,提出了一种基于混合搜索的top-rank-k频繁模式挖掘算法HTK（Hybrid-search-based Algorithm of Top-rank-k Frequent Patterns）,其主要思想是:定义名为RSL（Static Doubly-linked List of Top-rank-k）的静态双链表存储top-rank-k频繁模式,采用1-模式的支持度及其在事务中后缀项的基数设计了模式区分方法,把模式区分为短模式和长模式。挖掘过程中,首先利用基于贪心策略的rank-first-search方法挖掘频繁短模式,始终连接RSL中尚未连接的rank最高的模式,使具有高rank的频繁模式优先产生;然后,利用长度最长的短模式,通过逐级搜索挖掘频繁长模式。此外,算法还设计了合理的剪枝策略,优化了包含索引的生成方式,使挖掘工作面对稀疏或稠密数据集同样有效。（2）为了应对海量数据的挖掘任务,提出了一种基于Spark的top-rank-k频繁模式并行挖掘算法STK（Spark-based Mining Algorithm of Top-rank-k Frequent Patterns）,其基本思想是:首先,引入分治思想,对项进行编组分发至各节点,并将事务根据各节点所属的项切割划分;然后各节点执行HTK算法,挖掘前缀项为该节点所属项的top-rank-k频繁模式;最后聚合各节点挖掘结果,输出目标模式。为实现负载均衡,STK还依据数据特性设计了负载均衡策略和数据划分方法。利用真实数据集与合成数据集,分别对提出的HTK和STK算法进行了实验验证,结果表明:HTK算法比现有单机算法具有更好的时空效率;STK算法能够有效挖掘大数据环境下的top-rank-k频繁模式。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

Top-rank-k频繁模式挖掘算法优化及其并行化研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

Top-rank-k频繁模式挖掘算法优化及其并行化研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：