1.中心极限定理
随着样本量的增加,无论个体值组成的总体的分布形状如何,均值的抽样分布都可以用正态分布来表示。
图1显示了三个不同群体平均值的抽样分布。对于每个群体,样本量有三种可能性:3、5和30。样本平均值的样本分布如图所示:
图l 对不同总体的均值的抽样分布
在图1中,描述了正态分布平均值的样本分布。当总体为正态分布时,样本均值的抽样分布是正态的,与样本大小无关。随着样本量的增加,样本间的均值差会变小。原因是随着样本量的增加,异常个体值对单个样本平均值的影响变小。
第1b部分描述了均匀分布类型的总体抽样分布。当样本量n为2时,分布存在峰值或中心趋势,中心附近样本平均值较多。当样本量n为5时,抽样分布呈钟形,接近正态分布。当样本量n为30时,抽样分布将非常接近正态分布。一般来说,样本空间越大,抽样分布越接近正态分布。与上面的例子一样,每个样本分布的平均值等于整个总体的平均值,并且随着样本空间的增加,差异将变得更小。
图1c描绘了右偏斜指数分布的采样分布。当n等于2时,抽样分布仍明显向右偏斜,但偏斜度小于总体分布。当n等于5时,采样分布几乎对称,只有轻微的右偏。当n等于30时,抽样分布接近正态分布。抽样分布的均值等于总体均值,变异程度随着样本空间的增大而减小。
这些统计分布中呈现的结果使天行健管理咨询公司能够得出图2中列出的结论:
图2 均值的抽样分布
2.比例抽样分布
最简单的质量数据是数据中的任何变量都可以分为两类的数据。例如,每一种发生的概率都服从二项分布。然而,当平均事件数和平均不发生事件数分别至少为5时,我们可以用正态分布来估计二项式分布。在大多数情况下,当我们从样本中推断群体的特征时,样本的大小通常不足以满足正态分布估计。