箱线图提供了一个在五数概括基础上的对于数据的图形展示。图中线条表示数据中中位数的位置。在图的底端的线条表示Q1位置,在图的顶端的线条表示Q3的位置。因此,箱线图包含了在分布中位于的中间50%的数据,数据的下25%部分由一条线表示,它连接了图形最底端和最小值所在的位置。类似的,数据的上25%部分也由一条线表示,它连接了图形最顶端和最大值所在的位置。图1说明了箱线图和多边形间的关系,箱线图描述了四种不同的分布类型。
图1 用箱线图和对应分布来检验四个假设检验分布
当一个数据组是完全对称的时候,如同图1a和图1d那样,此时均值和中位数是相等的。此外左边图形的长度等于右边图形的长度,中位数的线将图形分成相等的两部分。
当一个数据组如图1b那样是左偏斜的,那些小的样本值分布于左侧。对于这个假设的左偏斜的分布,75%的样本值位于图形的左端和右端之间。因此,长的左侧或者右侧包括最小的25%数据分布,描述了对称分布的扭曲。
对于图1c中右偏斜的数据,数值的集中趋势位于范围的底端。因此,所有样本值中的75%位于图形的最左端与右端之间,而且剩下的25%数据分散于图形顶端。早晨准备时间Minitab箱线图如图2:
图2 早晨准备时间数据的Minitab箱线图
这个箱线图表明准备时间近似为一个对称分布。位于图形中部的中位数线长度几乎等于盒子两端距离,而且whiskers的长度也不相同。
图3展示了关于订单完成时间的Minitab箱线图,图4展示了关于订单完成时间的JMP箱线图。
图3 订单准备时间的Minitab箱线图
图4 订单准备时间的JMP箱线图
注意到在图3中,一个星号出现在箱线图的右端。它表示一个数据中存在一个特别的值。与这个特别值不同,分布中的其他值近似于对称的。在图4中,JMP提供了沿着直方图的两个不同的箱线图。上面的箱线图是一个特别值的箱线图并且可以分辨出特别值。
当对两个或更多个组进行比较时,箱线图就会特别有用。在这样一种情况下,箱线图会一个挨一个的展示,可以直接对不同组进行关于集中趋势、变异和形状的比较。
上一篇:什么是数据分布的形状
下一篇:什么是概率?