用于描述一组数字性数据的工具是变异(variation)。变异是分散或者散布的量,以作为样本或者一个总体的一系列数据的形式。三个常用的衡量变异的方式是极差(range)、方差(variance)以及标准差(standard deviation)。
1、极差
极差是描述变异的最简单形式。极差等于最大值减去最小值:
极差=最大值-最小值
在早晨准备时间中,使用与时间有关的数据:
极差=最大值-最小值
极差=52-29=23(分钟)
这一数值意味着两天里在早晨准备时间差上最大是23分钟。
在表1、图1里订单的完成时间数据中,极差是54.3分钟。也就是说在两个订单的完成时间上最大的差值是54.3分钟。
表1 使用Minitab计算完成时间的描述性统计
图1 使用JMP计算完成时间的描述性统计量
2、方差和标准差
尽管极差可以衡量总的离散程度,但是极差并没有考虑变量值是如何围绕均值分布的。两个常用的衡量所有变量值是如何绕均值分布的方法是方差和标准差。这两个统计变量能衡量变量值是如何绕均值波动的。
一个简单的对均值考察的方式是考虑每个值与均值的差异,然后把这些差异加起来。但是,如果我们这样做的话会发现,因为均值是一系列数据的平衡点,对任何一个系列数据而言如果把这些差异加起来它们的和为零。一种衡量变异的方式是将每个值与均值的差值进行平方,再将平方和相加。在统计上这个数据叫做平方和,这一平方和除以变量个数减一(对样本数据)就可以得到样本方差。样本方差的平方根就是样本标准差(S)。这一统计方法是对于变异的最常用衡量方法。计算样本方差和样本标准差的步骤如下。
计算样本均值S2步骤如下:
1、计算每个值与均值之间的差值;
2、对每个差值进行平方;
3、将差值的平方进行相加;
4、将所得的和除以n-1。
取样本方差的平方根就是样本标准差。
表2介绍了计算样本方差和标准差的步骤,使用这一步骤计算早上准备时间数据(见表2)。我们可以发现个体值和均值间差值的总和是零。
表2 早上准备时间
计算样本方差S2可以通过差值平方和(412.4)除以样本个数(10)减1:
样本方差(S2)=412.4/9=45.82
因为差值是以平方的形式,计算样本标准差可以用样本方差的平方根,因此:
对于表1和图1中的订单完成时间数据,标准差是10.411分钟。怎样去理解这个值呢?标准差可以帮助我们去知道一组数据是如何分布在均值周围的。对于几乎所有系列数据都有一个简单的模型。大多数数据在均值的加减3标准差区间里面。因此知道均值和标准差通常可以帮助我们定义极差。对于订单的完成时间数据,认为大多数完成时间在69.637±(3)×10.411或者38.404分钟和100.87分钟。
我们可以对极差、方差、标准差的性质做如下表述:
1、数据分布越分散,极差、方差、标准差的值越大;
2、数据分布越集中,极差、方差、标准差的值越小;
3、如果数据值相同(数据间没有方差),数据分布越分散,极差、方差、标准差的值都为零;
4、极差、方差、标准差都会大于或者等于零。
上一篇:测量分析中四分位数的应用介绍
下一篇:什么是数据分布的形状