咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本挖掘的陕西旅游线路推荐 收藏
基于文本挖掘的陕西旅游线路推荐

基于文本挖掘的陕西旅游线路推荐

作     者:刘贝贝 

作者单位:兰州大学 

学位级别:硕士

导师姓名:严定琪

授予年度:2022年

学科分类:02[经济学] 0202[经济学-应用经济学] 020202[经济学-区域经济学] 

主      题:旅游资源 网络爬虫 LDA主题模型 k-means聚类 

摘      要:随着旅游业的快速发展,旅游带来的经济收入呈现出不断上涨的趋势.但同时,旅游景点分布不平衡,旅游线路缺少个性化推荐等问题也慢慢浮现出来.基于对此问题的考虑,本文以陕西为例,首先依靠网络爬虫技术爬取了Maigoo网站所记录的陕西A级及A级以上旅游景点文本数据359个,并对得到原始的样本点进行分词、去停用词、提取特征词等预处理.然后,在得到经过预处理之后的样本后,比较各文本处理模型之间的优劣,最终选用LDA主题模型对文本数据进行特征提取.在LDA主题建模过程当中,最关键的问题是如何确定主题数目,本文基于传统的困惑度曲线确定了主题数目的取值范围为[2,9].为防止过拟合问题的出现,在此基础上考虑将困惑度曲线方法与主题平均余弦相似度方法相结合,并最终确定最佳主题数目为4.就得到的文本的主题分布进行k-means聚类分析.研究发现,基于LDA主题模型的聚类效果要比基于传统的VSM向量空间模型的聚类效果要好很多.其中,在基于LDA主题模型聚类的结果中,将传统的困惑度曲线方法与主题平均余弦相似度方法结合来确定最佳主题数是效果最好的.其簇内误差平方和是最小的,为26.7553.且轮廓系数是最大的,达到0.6093.最后,根据最终的聚类结果,充分整合旅游资源,将相似景点整合在一起,并以其表现出的共同特征为主题,结合景点之间的语义信息和距离信息设计了四类推荐线路.为游客选取旅游线路提供一定的参考意见.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分