关于学习《教育统计学》的心得体会
教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学。它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验等途径所获得的数字^^文档,并以此为依据,进行科学推断,从而揭示蕴含在教育现象中的客观规律。目前,使用的教育统计指标并不多,主要仍集中在平均分和“三率”的计算,对于标准分这样的统计量也鲜有学校使用,其原因主要是学校领导和一线教师对常用的统计量缺乏必要的认识。在本学期的网络教育学习中,又再一次系统学习了《教育统计学》,其教材选用了华东师范大学王孝玲教授编写的《教育统计学》。下面,就常规的教育统计方法和相关统计量归纳如下。
一、计算平均值和标准差 在教育测试中,采集的原始数据首先就是计算平均值和标准差。此处的平均值是指算术平均数,算术平均数简称为平均数或均值,符号为M(Mean),有总体均数和样本平均数之分。算术平均数是由所有数据之和除以数据个数所得的商数,算术平均数是一个良好的集中量数,它简明易懂,计算方便,受抽样变动的影响较小,在计算方差、标准差、相关系数以及进行统计推断时,都要用到它。但算术平均数也有其缺点,主要体现在:易受两极端数值(极大或极小)的影响,一组数据中某个数值的大小不够确切时就无法计算其算术平均数。 标准差是一种精确的、重要的差异量数。标准差是方差的平方根,作为统计量用S或SD表示,作为总体参数用σ表示。标准差的单位和原始数据的单位是一致的.在运用标准差时,必须是“同质数据”才能用标准差来比较数据离散程度的大小。对于考试成绩分数来说,只有同学科、同一次考试的分数才属于同质数据。还需注意,即使是同质数据,当两组数据的平均数相差很大时,也不用标准差直接比较它们的离散程度。这是因为,若两组数据的平均数相差很大,说明它们的整体水平明显不同,直接比较标准差的大小是没有意义的。比如,同年级的两个班在同一次考试中,甲班的平均成绩是91分,乙班的平均成绩只有65分,在这种情况下,比较两个班成绩标准差的大小就没有实际意义了,在教学中我们更加关注的是采取什么措施来提高乙班的整体水平。
二、其它的集中量集中量数是代表一组数据典型水平或集中趋势的统计量。集中量数也称平均的数,平均的数也是次数分布中的一个点,反映大量数据向某一点集中的情况,可以说明典型观察值的特征。常用的集中量数包括算术平均数、加权平均数、几何平均数、中位数、众数等,它们的作用都是度量次数分布的集中趋势。在教育统计中还会经常用到中位数和众数。1、中位数 中位数又称中数,它也是一个集中量数。中数是划分一组数据中较大的一半和较小的一半的数目界线,是一组数据中由小到大排列最中间的那个数。中数用Md表示。
数据的个数为奇数:当被观测的数据的数目为奇数而又无重复数值时,先将各个数 由小到大按顺序排列好,序号为(N+1)/2的数值就是中数。N是数据的个数。数据的个数为偶数:当被观测的数据的数目为奇数而又无重复数值时,先将各个数 由小到大按顺序排列,取序号为N/2个和的两个数值的平均数为中数。 中数的优点主要是不受极大值或极小值的影响,因为影响中数数值的只是中间几个位置上的数据。例如,当学生成绩出现个别极值时,平均分显然不如用中数表示平均值更具有代表性。 2、众数 众数是指一组数据中出现次数最多的那个数。它也是一种集中量数,也可以代表数据的集中情况。众数用Mo表示。 数据比较少时可以直接观察计算,当数据很多时,可以将数据制成次数分布表后,将次数分布表中次数最多的一组的组中值作为众数。众数的概念简单明了、容易理解,也不受极端数据的影响;众数不能做进一步的代数运算,是一种粗略的集中量数。当需要快速而粗略地寻求一组数据的代表值时,或当出现极端数据时,可用众数做代表值。 众数适用的范围较广,计数数据和测量数据中的比率变量、等距变量、等级变量均可使用众数。
三、其它的差异量 数据具有变异性和离散性。而集中量数只能描述数据的集中趋势和典型情况,却不能描述数据的变异程度和离散程度。实际上,集中量数是量尺上的一个点,而差异量数是量尺上的一段距离。差异量数越大,表示数据分布的范围越广,越分散,集中量数的代表性就越小;反之,差异量数越小,表示数据分布得越集中,变动范围越小,集中量数的代表性就越大。 教育统计中的变异指标主要有全距、标准差、方差、百分位差、平均差、变异系数等表现形式。其中标准差是应用最广的,在教育统计中还会经常用到方差和变异系数。 1、方差 方差:也称变异数,均方,作为样本统计量常用S2表示,若作为总体的参数则用σ2 表示,方差即全体数据离差平方的算术平均数。方差即是标准差的平方,在教育统计中,方差和标准差一般仅根据要求计算其一即可。 2、变异系数 标准差作为离中趋势的度量,可以用于比较不同数组之间的离散程度,但当要比较的几组^^文档的单位不同或均数相差悬殊时,用标准差就不合适。此时需要用到变异系数(Coefficient of variation),它实际上是标准差占均数的百分比例,计算公式是: CV =σ/X×100% 变异系数实际上是一种相对差异量,它表示数据的相对离散程度。因为标准差和算术平均数的单位是相同的,所以二者相除,变异系数是无名数,即变异系数在应用时不受测量单位的限制。 变异系数主要应用于:同一团体不同测量指标的离散程度的比较,如不同的学科;不同团体的同一种测量指标的离散程度的比较,如高低年级。
四、标准分数 标准分数又称Z分数,是以标准差为单位来表示一个数据在团体中所处相对位置的量数。一组数据中的任何一个数据的标准分可用公式计算(S为标准差)。从Z分数的定义可以看出,它表示了一个数与平均数之差除以标准差所得的商,即用标准差为单位,来度量一个数与平均数之间的差异。如果一个数小于平均数,其Z分数为负数,如果一个数大于平均数,其Z分数为正数,若Z分数的绝对值越大,它离平均数也就越远,所以Z分数表示了一个数在它所在的数组中的位置。一组数据中所有数据的Z分数的平均数是0,标准差为1。 在考试中,显然不能用负分来代表学生的分数,这就需要对标准分作适当的变换,其中a,b为常数,计算时是先用某考生的卷面得分Xi计算它所对应的标准分数Zi,然后再计算标准测验分数Ti,不过在我们用一个已经编制好的量表进行测试时,测验结果的标准测验分数并不需要我们采用上述步骤来计算,而是直接用卷面得分去查该测验中已经编制好的一个得分转换表。常用的标准测验分数如:韦克期勒智商表示为:IQ=15Z+100,比纳-西蒙智商表示为:IQ=16Z+100;广东省高考中各科分数用的是T=100Z+500。 标准分可以用于合成不同质的数据。当已知不同质的观测数据的次数分布为正态时,可用Z分数求不同观测值的总和或总平均分。如高考成绩的计算,由于各门课程本身的难易程度不同,以及考题的难易程度不同,各科成绩是不同质的,如语文的120分与数学的120分(总分150),按现行的计分办法是同等看待的,但语文的120可能表示该生的语文成绩已经相当好了,而数学的120只不过中等水平甚至中等以下,所以同样是120分它们所表示的含义是不同的,可见现行的计分办法存在一些不合理的地方,按计算平均数的要求,不同质的数据是不能计算平均数和总和的(身高+体重得什么呢?),这时一个合理的方法就是将原始分数转化为Z分数,再用总的Z分数或平均Z分数来表示学生的总体水平,即用学生在所有考生中的平均位次(排名)来表示他的成绩,这也正好与高考是竞赛考试(即择优录取,从高分往低分录取)相吻合。广东省高考中的总成绩,就是用各科标准分的平均分表示的。 在标准分的应用中还有一个“三个标准差原则”,即一组数据中当某数的Z分数在正负3以外,可以认为它是一个极端数据而舍去,因为它太偏离整组数据的大多数数据所在的位置了,这种被舍去的机率是万分之二十七。