(1)计算信息熵
对于23个训练样本,其中成绩C1类有14个样本,成绩C2类有5个样本,成绩C3类有4个样本。根据公式得到信息熵为:
(1)
(2)计算条件熵
检查样本属性A,“每周的出勤率情况”,并由出勤情况进行评定,包含优秀、一般和差三等。据此,将23个训练样本也分为三类(S1,S2,S3),属性A S1类的值是4个样本,代表优秀;S2类是15个样本,代表一般;S3类有4个样本,代表差值等。S1类中C1、C2、C3分别有3个、1个和0个。根据公式,S1,S2,S3的信息熵分别为:
(2)
(3)
(4)
因此,可得到以属性 A 为分类的条件熵:
(5)
3)计算信息增益和信息增益率
属性A的信息增益和信息增益率为:
(6)
(7)
同理,可求出其他属性(课程兴趣B,考勤C,试卷难易 D)的信息增益和信息增益率。由于试卷难易结果都为中,对构建决策树没有影响。
(8)
(9)
(10)
(11)
图学生成绩分析决策树
课题研究采用23个训练样本,使用C4.5建立决策树模型,该模型可以完成对某一类学生学习成绩的分析,但是其对其他样本通用性还需要进一步研究证实。根据该模型分析了12个测试样本数据,其中11个学生数据与模型结果相符,准确度达91%。控制课程变量不变,对多尔专业的学生学习数据分析,其测试的准确率可达到86%以上,由此可表明本模型的有效性,能够很好的指导学生学习。
第四章 结论
本课题以决策树算法为主要研究对象,应用该算法对学生的学习成绩进行分析,由此辅助学生学习,并为教师及教育工作者提供参考,通过决策树中的ID3和C4.5算法构建决策树模型,并将收集到的学生学习数据加入到模型数据中去,由此来对影响学生成绩的因素尽心分析,最后由剪枝技术获取最终决策树结果。结果表明,学生对课堂上教师教学的接收能力及学生对课程的学习兴趣是影响成绩的主要因素,将测试的23个样本数据带入到决策树分析模型中,测试其准确率可达到85%。但本次实验也存在不足之处,就是其样本太少,实验研究结果不具备通用性,后续过程需进一步完善。
参考文献
[1]梁利亭.决策树算法在高职院校成绩分析中的应用研究[J].湖北开放职业学院学报,2019,32(22):37-38.
[2]顾金池.学生成绩影响因素分析与预测研究——基于多元回归和决策树模型[J].管理观察,2019(25):156-157.
[3]胡明明. 决策树算法在学生课程成绩分析中的应用研究[D].哈尔滨师范大学,2019.
[4]刘萃花,朱娟.基于决策树的学生成绩分析[J].电脑知识与技术,2019,15(05):13-15.
[5]吴强,方睿,韩斌,贾川,浦东.基于决策树-LMBP神经网络的学生成绩分析及预测模型的研究[J].成都信息工程大学学报,2018,33(03):274-280.
[6]李梅. 基于决策树的中职学生体质测试成绩分析研究[D].西北师范大学,2018.
[7]阳黎黎. 决策树算法在中职数学成绩分析中的应用[D].重庆师范大学,2018.
决策树算法在学生成绩分析中的应用研究(三)由免费论文网(www.jaoyuw.com)会员上传。