基于改进LDA主题模型的MOOC推荐方法
作者单位:江西财经大学
学位级别:硕士
导师姓名:徐军
授予年度:2023年
学科分类:0202[经济学-应用经济学] 02[经济学] 020208[经济学-统计学] 0401[教育学-教育学] 04[教育学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 040110[教育学-教育技术学(可授教育学、理学学位)]
主 题:MOOC推荐 评论主题 K-Prototype模型 隐狄利克雷分布(LDA)
摘 要:2020年全球疫情全面爆发,我国政府、高校等相关机构积极研判形势,开始实行网络线上教学,在线学习已经成为当前时代不可或缺的教学形式。中国大学MOOC(以下简称慕课)就是这种全新教学形式的代表平台。慕课平台学习资源广泛,涵盖学科门类齐全,学生、进入职场的新人都能找到自己感兴趣的课程,其开课机构以各大高校为主,以培训团队为辅。各大高校开设的课程免费,同时有相关高校背景作质量保证,深受广大学习者欢迎,越来越多的老师、专家在慕课上发布自己讲授的课程,带来更多课程选择的同时,也加重了平台的信息过载,尽管平台本身提供相关信息检索服务,但仍不足以解决这个问题,为了应对这个挑战,慕课推荐成为近年来的研究热点。本文通过爬取慕课平台10150门课程信息数据及1048575条对应课程的评论、评分相关数据,通过数据清洗,得到课程的评分、评论研究基础数据。以此为基础进行了如下三个方面的研究工作:(1)处理评论数据时,在利用LDA模型生成“主题-词矩阵基础上,引入Word2Vec模型将此矩阵转换为“主题-词向量矩阵。(2)词向量具有数字特征,主题分类具有文本特征,用K-Prototype模型将二者相结合,完成了对此矩阵的聚类操作,使评论的主题带有语义信息,从而计算得到改进LDA模型的课程相似度矩阵。(3)运用多元线性回归,将课程基于评分和基于改进LDA评论主题的相似度矩阵进行汇总,将已完成构造的测试评分矩阵与汇总后的课程相似度矩阵二者进行相乘,从而生成较为精确的预测分数矩阵,进而产生课程推荐。本文以MAE和RMSE为评估指标,通过对本文详细阐述的基于课程评分相似度的MOOC推荐算法、基于LDA主题相似度的MOOC推荐算法和基于改进LDA主题模型的MOOC推荐算法三者内比,MAE值分别为5.1921、4.5066、3.2031,RMSE值分别为5.2722、4.6004、3.2869;同时重新构造5个数据集与Slope One算法、TMCF算法外比,本文所改进的算法RMSE值整体表现最佳,同时当课程的平均评论数增加时,其课程预测分数表现更好,证明了本文所提算法能够为MOOC推荐助力。