基于FP-Growth算法和ARIMA模型的音乐播放数据挖掘研究-南通市图书馆

文献详情 >基于FP-Growth算法和ARIMA模型的音乐播放数据挖掘... 收藏

基于FP-Growth算法和ARIMA模型的音乐播放数据挖掘研究

作者：杨兴宇

作者单位：华南农业大学

学位级别：硕士

导师姓名：田绪红;黄栋

授予年度：2017年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：音乐数据频繁项集 FP-Growth算法 ARIMA模型

摘要：频繁项集挖掘是数据挖掘领域的一个重要研究方向,其目的是从数据中发现出现频率较高的项。研究在不同业务背景下的频繁集挖掘过程,不但可以发现数据中的高频项,而且还可以对频繁集生成的关联规则进行分析。利用得到的关联规则,发现在海量数据中项之间的潜在关系。研究频繁集在大规模数据集中的挖掘过程,有着重要的研究意义。本文以海量用户的音乐播放记录数据为研究对象,围绕音乐播放记录中的频繁项集挖掘和时间序列建模展开相关的研究工作。音乐的种类和用户量的规模过大会限制频繁项集挖掘的效率,而播放量的周期性变化会影响时间序列建模的拟合效果。对于在用户音乐播放记录挖掘过程中的问题,从三个方面展开研究工作。首先,根据用户播放行为的特点以语种、年代和歌手类型作为分类标准对用户进行粗粒度分类。通过对比不同分类标准下FP-Growth算法得到的频繁集数量和频繁集中项目的数量,比较分类前后频繁项集的挖掘效果。改进后的方法在相同支持度阈值下,能够得到更多频繁集,并且频繁集中的项目数量也多于改进之前的方法。按照分类的思想对用户音乐播放历史数据中的频繁项集挖掘过程进行改进,在频繁项集挖掘的效果上有较大的提高,为个性化音乐推荐等方面的工作提供了有效的方法。其次,分析播放量的时间序列,在存在上升趋势的序列中加入惩罚项,使序列满足平稳序列的约束条件。对时间序列建立ARIMA模型。根据建模结果对播放量变化情况作预测,比较预测值与实际值间的误差。通过建立时间序列模型,研究播放量的变化规律。对播放量时间序列中的不规则序列进行加权处理,提高了模型拟合效果。此外,为了适应大规模数据处理的需要,在频繁项集挖掘过程中引入了分布式计算框架SPARK。研究了FP-Growth算法在SPARK上的并行情况,提高了频繁集挖掘过程的效率。使音乐数据的挖掘工作能够适应数据规模的增长,适应在大规模数据下的数据挖掘工作。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于FP-Growth算法和ARIMA模型的音乐播放数据挖掘研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于FP-Growth算法和ARIMA模型的音乐播放数据挖掘研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：