基于随机森林的高中数学试题难易度分类研究
作者单位:东北师范大学
学位级别:硕士
导师姓名:周东岱
授予年度:2019年
学科分类:12[管理学] 0401[教育学-教育学] 04[教育学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着“个性化标签的广泛流行,将其应用于教育领域已成为各界的焦点。而实现教育领域的“个性化,无论是自由组卷的个性化,还是试题推荐的个性化,都首先需要确定试题的难易度,故本文的研究目标为寻找新的方法来解决基于试题难易度的分类问题,并提高分类的准确率。近年来,随机森林在其他领域回归与分类问题上有出色的表现,也让教育领域“个性化问题即试题难易度分类问题有了新的研究思路。本文利用随机森林算法探索高中数学试题难易度分类问题,在经典的随机森林算法的基础上对参数进行改进优化,并基于该模型实现了高准确率的试题难易度分类算法。本文主要工作如下:通过随机森林算法将高考数学试题按照客观难易程度进行分类,为试题个性化推荐和自由组卷系统奠定基础。首先,对试题难易度和分类算法的国内外研究现状进行分析;其次,收集高考数学试题数据,标记各个属性特征,并利用python的matplotlib包等和matlab实现数据的可视化,分析数据的分布,计算相关度系数并考虑哪些属性对试题难易度有显著影响,删除无关属性;最后构建决策树模型,基于R语言实现随机森林,并用训练集进行模型训练、参数调优,最后将测试集输入训练好的模型进行测试,通过测试给出初步实验结果,验证了方法的可行性,并与朴素贝叶斯、k近邻、决策树分类算法进行试验对比,验证了该模型能够提高高中数学试题难易度的分类准确率。