形状是衡量一组数据的第三个重要特征。形状是数据的分布特性,我们可以使用直方图和点图(dot plot)来研究数据分布的形状。
一个分布要么是对称的,当高的值和低的值相互平衡抵消;要么有偏斜,当非对称并且在高值和低值间不平衡。要判定一组数据的形状,我们必须比较均值和中位数。如果这两个值相等,CTQ或者X被认为对称的(零偏斜)。如果均值小于中位数,变量被称为负偏斜,又叫左偏斜。如果均值大于中位数,变量被称为正偏斜,又叫右偏斜。因此:
均值>中位数:正偏斜(positive),又叫右偏斜。
均值<中位数:负偏斜(negative),又叫左偏斜。
均值=中位数:对称的(symmetry),又叫零偏斜。
当均值由于某些非正常的大数值而增加时,正偏斜会发生。当均值由于某些非正常的小数值而减少时,负偏斜会发生。当分布为对称形状时,是没有某一极端方向特别的数据出现的(见图1)。
图1 三组数据的分布形状比较
图1a中的数据是负偏斜的,又叫左偏斜。在此图中,有一个由于某些特别小的数据引起的长尾和偏向左侧的弯曲。这些特别小的数据将会使均值减小以致均值小于中位数。图1b中是对称的,曲线两侧部分和对方对称,大小值相互平衡,均值等于中位数。图1c为正偏斜,又叫右偏斜。在此图中有一个由于某些特别大的数据引起的长尾和偏向右侧的弯曲。这些特别大的数据将会使均值变大以致均值大于中位数。
在下表中,Minitab计算偏斜统计量等于0.10,因为此数很接近于零,我们可以得出如下结论:订单完成时间是对称的。
使用Minitab计算完成时间的描述性统计
为了判定一组数据是对称的或者有偏斜的,我们可以考虑在样本值分布中是否有超过一个的集中值(concentrations)。有两个集中值的分布被称为双峰的(bimodal)。双峰分布的存在常常意味着这组数据是由两组数据被不合理的结合在一起的。
为了说明双峰分布,有一家银行收集了200个在高峰期抵达的客户的样本数据来判定客户的原意等待时间。图2为用Minitab直方图表示的等待时间:
图2 等待时间的Minitab直方图
在等待时间的分布上有两个波峰,一个在3.5和4.5之间,另外一个在6和7.5之间。事实上,这些数据是来自一家银行的两个不同分行的。第一家分行的等待时间数据是来源于周五中午12点到下午2点(这家分行位于城市的中心商业区)。第二家分行的等待时间数据是来源于周五下午5点到下午7点(这家分行位于居民区)。
图3为两家分行等待时间的Minitab点图:
图3 顾客等待时间的Minitab点图
从图3我们可以发现两家分行的顾客等待时间分布是不同的。第一家分行的顾客等待时间分布集中于3~4分钟,而第二家分行的顾客等待时间集中在7~8分钟。