摘要
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。本研究以我校2019-2020年度第一学期所讲授的“计算机原理”课程为作为研究对象,将已有的数据及信息进行汇总,提出了研究预设,即学生的性别、学科性质、任课教师职称、班额设置、课程成绩中的各部分占比例成绩(考试成绩、平时成绩等)会对学生的成绩产生影响,以挖掘分析影响学生学习效果主因素为目的,采用了能够对数据进行挖掘分析并直观展示结果的决策树技术方法,通过某班学生某门课程的学习信息数据进行挖掘分析的试验,采用ID3和C4.5算法生成决策树, 并使用后剪枝技术精简决策树, 最终找出决定本门课程学习效果的主要因素-考勤。从而为分析学生学习情况,给予个性化提示与指导提供有效的建议。
关键词:决策树;计算机课程;学生成绩
第一章 决策树算法及基本概念
决策树类似于树的形状,生成模型里面的各个节点就是属性测试,而模型里的各个分支则是输出,各个叶节点代表某一个类的分布状况。决策树里最高的那一层上的节点也称为根节点。这也代表,决策树依据最高那一层中根节点向叶节点的排序来分类数据,各个叶节点表示一个分类属性,每一个分支则表示其衔接上一节点分类属性上的可能性取值。矩形代表的是各个属性,叶节点表示类别。
决策树算法使用从上至下的递归方法。在决策环节中,对比各个内部属性,并依据各种属性值确定节点下方的分支,在叶节点来判断决策后的分类结果。用决策树分类主要有两步:首先借助现有的数据集来搭建一个决策树模型,其次是通过已经创建好的决策树模型对未知数据样本进行分类。其中,最重要的步骤还是在于创建决策树。
①决策树的算法思想
决策树构建过程也就是生成树的过程,首先对收集的数据集进行分析找到根节点,然后再对剩下的数据进行分析找到下一个节点,最后就构造出决策树模型。这里对决策树算法过程进行详细介绍。
算法:决策树是由数据集的集合构造的。
输入:训练样本-Data,属性集-Attribute其中属性集数离散数值。
输出:构造决策树。
a.创建节点N;
b.如果训练集-Data中的数据属于C类,则将N作为一个节点标志为C类;
c.如训练集-Data中的数据不完全属于某一类,则将N这个节点为普通类;
d.从属性集-Attribute计算出最大的信息增益率,将属性命名为T-Attribute;
e.节点N标记为候选属性集T-Attribute;
f.Foreach候选属性集T-Attribute中的已知值ai;候选属性T-Attribute=ai是节点N生长出的一个分枝;
g.假设S是用于测试T-Attribute=ai的数据集合;
h.如果S=Null则加一个叶子,标记为数据中的普通类;
决策树算法在学生成绩分析中的应用研究(一)由免费论文网(www.jaoyuw.com)会员上传。