基于文本挖掘的陕西旅游线路推荐-南通市图书馆

文献详情 >基于文本挖掘的陕西旅游线路推荐收藏

基于文本挖掘的陕西旅游线路推荐

作者：刘贝贝

作者单位：兰州大学

学位级别：硕士

导师姓名：严定琪

授予年度：2022年

学科分类：02[经济学] 0202[经济学-应用经济学] 020202[经济学-区域经济学]

主题：旅游资源网络爬虫 LDA主题模型 k-means聚类

摘要：随着旅游业的快速发展,旅游带来的经济收入呈现出不断上涨的趋势.但同时,旅游景点分布不平衡,旅游线路缺少个性化推荐等问题也慢慢浮现出来.基于对此问题的考虑,本文以陕西为例,首先依靠网络爬虫技术爬取了Maigoo网站所记录的陕西A级及A级以上旅游景点文本数据359个,并对得到原始的样本点进行分词、去停用词、提取特征词等预处理.然后,在得到经过预处理之后的样本后,比较各文本处理模型之间的优劣,最终选用LDA主题模型对文本数据进行特征提取.在LDA主题建模过程当中,最关键的问题是如何确定主题数目,本文基于传统的困惑度曲线确定了主题数目的取值范围为[2,9].为防止过拟合问题的出现,在此基础上考虑将困惑度曲线方法与主题平均余弦相似度方法相结合,并最终确定最佳主题数目为4.就得到的文本的主题分布进行k-means聚类分析.研究发现,基于LDA主题模型的聚类效果要比基于传统的VSM向量空间模型的聚类效果要好很多.其中,在基于LDA主题模型聚类的结果中,将传统的困惑度曲线方法与主题平均余弦相似度方法结合来确定最佳主题数是效果最好的.其簇内误差平方和是最小的,为26.7553.且轮廓系数是最大的,达到0.6093.最后,根据最终的聚类结果,充分整合旅游资源,将相似景点整合在一起,并以其表现出的共同特征为主题,结合景点之间的语义信息和距离信息设计了四类推荐线路.为游客选取旅游线路提供一定的参考意见.

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于文本挖掘的陕西旅游线路推荐

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于文本挖掘的陕西旅游线路推荐

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：