真实数据并不是完全正态的,正态性是很多统计分析工具的前提,那么很多统计分析工具在实践中是如何工作的呢?在实践中,不需要完全正态,只需要近似正态。
一、正态假设的第一原则:
这种假设通常不适用于未经处理的原始数据,而是用于模型的残差项或误差项。例如,根据公司的总资产(x1)和摊销年限(x2),您可以使用此标准回归模型来预测收购的商誉(Y):
Y=b0+β1X1+β2X2+ε,其中ε代表残差或预测误差(模型预测与你实际观测的差异);B0代表常数项;β1,β2代表预测变量X1,X2的系数。在这个模型中,商誉(Y)不是正常假设的,而是残值ε。所以,在这种情况下,衡量正态性假设的有效性不是衡量商誉的正态性,而是通过回归分析计算残差,衡量残差的正态性。在这种情况下,我们应该寻求近似正态,而不是完全正态。原始数据商誉的极端非正态性是残差很可能是极端非正态性的指标,是成立的。但在很多情况下,原始数据并不是近似正态的,残差才是。这是因为原始数据包含了X变量的影响,在本例中是总资产和摊销。
第二,关于正态分布和正态假设的第二个重要原理是中心极限定理:
极限定理指出,无论原始数据的分布是什么,随机样本中计算出的平均值都趋向于服从正态分布。换句话说,即使商誉极度偏斜,我们也可以通过分析五次不同收购的平均值,发现它是一个近似的正态分布。这个理论的实际影响是,当我们用统计分析工具分析均值不是单一值的时候,可以不那么关注正态性。例如,标准t检验和方差分析均值检验。所以均值分析的统计分析工具对正态假设都不敏感,即在原始数据不正态时也非常有效。所以我建议在讲授T检验和方差分析之前,不必过于强调正态性检验。
对于非正态数据(或偏态分布),我通常会采取以下策略处理,供读者参考。
1.什么都不做:也就是说,像数据正态分布一样继续做。当满足以下三个标准中的任何一个时,这个方法是理想的:
A.数据大致正常;
B.统计分析工具的使用是基于均值的;
C.使用的统计分析工具对正态假设不敏感。
对于超常数据,经过正态检验分析,一般不是正态分布。因为现实中的数据并不是完全正态的,同时,上万甚至十万的大容量样本提供了足够的统计能力,可以检测出与完全正态分布的微小差异。在许多这样的情况下,数据图表揭示了一个近似的正态分布,这对于实际应用是足够的。如果用T检验或方差分析等技术来比较平均值,中心极限定理会降低正态假设的重要性。所以有了这个方法,你很少需要考虑常态。即使只有五个样本,不管是否正常,都可以继续使用这些建议。此外,回归分析中的系数估计是另一个对正态假设不敏感的技术例子。
2.使用适当的分布识别技术:在某些情况下,您可以确定数据服从哪种特殊的非正态分布。例如,一些周期性时间数据往往服从威布尔分布。幸运的是,一些统计分析工具有处理威布尔分布数据的特殊菜单。类似于广义线性模型的回归分析方法可以使用户恰当地分析大量服从不同分布的数据,包括指数分布甚至离散分布。
3.使用非参数统计分析工具:这个方法特别适用于你不知道数据会满足什么分布的时候。这些方法没有特殊的概率分布假设,因此适用于大量的潜在问题和数据;但有一点要记住,一般的非参数建议不如基于特定分布的检验有效。
4.使用变换:当变换是一个非线性函数时,至少在某些情况下,可以将偏斜的数据归一化为近似正态。常用的有对数,平方根,(特别是对于离散数据)和倒数。为了找到合适的变换,可以使用Box-Cox方法。但是分享成果的时候,记得把换的单位转回原单位,不然别人看不懂。
总之,制造领域之外的六西格玛中的很多数据都不是正态分布或者接近正态分布。尽管正态假设在统计学中可能很重要,但在许多情况下并非如此。即使这个假设很重要,六西格玛黑带应该能够使用有效的分析工具来分析这些数据。所以,正规性不足是一个值得考虑的技术问题,但并不是恰当应用六西格玛 方法的障碍。