假设检验是六西格玛团队项目中应用最广泛的统计工具,比如判断以下结论是否正确:“新员工收到的投诉会比老员工多”、“改进后平均产量有所增加”、“垫片180度时的断裂强度高于160度时”等等。由于观测样本数据总是有误差的,我们不能根据简单样本统计的结果得出结论,必须使用严格的统计假设检验方法才能得到准确的判断结论。下面重点介绍假设检验的基本概念和简单的检验方法。
参数估计和假设检验是统计推断的两个重要方面。参数估计以“数”为输出结果,假设检验以“判断”为输出结果。
假设检验:根据所获样本, 运用统计分析方法对总体X的某种假设做出接受或拒绝的判断。
在实际工作中,当样本均值不等于总体均值或样本均值不等于样本均值时,应考虑两种可能:由于采样错误所致;两者来自不同的总体。如何做出判断?统计上这个问题是通过假设检验来解答。
假设检验的步骤可以总结如下:
(1)建立假设。假设检验的第一步是建立假设,通常需要建立两个假设:原假设H0和备选假设H1。
对总平均值执行检验时,有三种类型的假设:
前两个是单边假设检验,第二个是双边假设检验。假设检验的任务是根据样本x1、x2、…、xx判断原来的假设是否为真。
(2)选择检验统计,确定拒收域的形式。如果总体的平均值为检验,则样本平均值x用于导出检验统计量;如果正态总体的方差为检验,则从样本方差s2中导出检验统计量。
根据统计量的值,整个样本空间分为拒绝域W和非拒绝域a两部分,当样本统计量的值落在拒绝域时,原假设被拒绝,否则原假设不能被拒绝。因此,被拒绝的域必须在假设检验中找到。
根据可选的假设,拒绝域可以是双边的或单边的。在确定了拒绝域的类型后,还应确定临界值C,临界值C应根据允许的错误概率来确定。
(3)在检验中给出显著性水平a。在判断原始假设是否为真时,由于样本的随机性,判断中可能存在两种错误,如下表所示。第一种错误是当原假设为真时,由于样本的随机性,样本的观测值落入拒绝域W,从而做出拒绝原假设的决定。其出现的概率称为做出第一类错误的概率,也称为拒绝真理的概率,记录为a,即pH (w) =a,第二类错误是当原假设为假时,由于样本的随机性,样本的观测值落入非拒绝域A,从而做出原假设不能被拒绝的判定。其出现的概率称为犯第二类错误的概率,也称为取假概率,记录为β,即PH1(A)=β。
如果要求犯第一类错误的概率不超过a,由此给出的检验称为水平为a的检验,称a为显著性水平,通常取0.05,有时也可能取0.10等。
要真正理解假设检验结论的含义,就要具体理解犯两种错误的现实意义。
第一种错误的解释:一般来说,H0建立的时候,拒绝了H0,这是第一种错误。一般以a=0.05作为犯第一类错误的风险概率。
第二种错误的解释:一般来说,当H0失败时,它没有拒绝H0,这是第二种错误。
(4)给出临界值,确定拒绝域。有了显著性水平a,我们就可以根据给定的检验统计量分布,查表得到临界值,从而确定具体的拒绝域。在假设的不同替代下,拒绝域、临界值和显著性水平a的关系不同,其示意图如下图所示。
备择假设、拒绝域和显著性水平
(5)根据样本的观测值,计算检验统计量的值。收集样本数据,计算检验统计值。
(6)根据检验统计量的值是否属于拒绝域进行判断。
1)将检验统计量的值与拒绝临界值进行比较,当其落入拒绝域时,做出拒绝原假设的结论,否则,做出不能拒绝原假设的结论。
2)根据检验统计量计算P值。p是原假设成立时当前形势的概率(严格来说是当前形势或更不利形势对原假设的概率,即原假设成立时对备选假设更有利的形势)。当这个概率很小(例如小于0.05)时,在原假设成立的情况下,这个结果不应该出现在实验中。但现在确实出现了,所以有理由认为“原假设成立”的前提是错误的,所以我们应该拒绝原假设而接受替代的假设。所以有一个普遍规律:如果P<a,则拒绝原假设。目前大多数统计软件都提供了与假设检验对应的P值,不必再查统计表确定拒绝域就可以根据P值做出判断。
3)根据样本的观测值,可以得到总体参数的置信区间。如果原假设的参数值不落入该置信区间,则做出拒绝原假设的结论,否则作出保留原假设的结论。目前大多数统计软件都提供了相应的置信区间,不需要自己计算,所以用这种方法判断也很方便。
如果总体平均值为假设检验,用户通常会提前指定显著性水平,以确定第一类错误的概率。在此基础上,通过控制样本量,也可以控制第二类误差的概率。以下描述了如何在总平均值的单侧检验中确定样本量。
式中,μ0为原假设总体均值。
由于两类错误造成的损失类型不同,严重程度不同,不同的人对两类错误发生的概率可能会做出不同的限制。但是,在确定样本量之前,必须明确定义两种类型错误的允许概率。
在假设检验中,经常使用一个名词:探测能力。它的定义是1-β,相当于备选假设成立时不犯第二类错误的概率,或者备选假设成立时拒绝原假设的概率。
1.单样本Z检验;
2.单样本t检验;
3.双样本t检验;
4.成对t检验;
5.单比例检验;
6.双比例检验;
7.双样本方差假设检验;
单样本Z检验/t检验:计算连续单样本总体均值或均值的假设检验的置信区间。
单个样本Z检验:
用于计算单个样本总体均值的置信区间,或当总体标准差已知时均值的假设检验。 当样本量大于30时,通常使用单样本Z检验。
单样本t检验:
用于在总体标准差未知的情况下,计算连续单样本总体均值或均值的假设检验的置信区间。 当样本量小于或等于30时,通常使用单样本t检验。
双样本t检验:计算来自不同总体均值和总和假设检验的两个连续样本的置信区间。
当总标准偏差未知时使用; 从不同总体均值计算两个样本的置信区间,并进行假设检验。
成对t检验:
当两组数据成对出现时使用(即在不同条件下连续两次测量同一种群得到的数据); 计算两对数据平均值的置信区间或进行假设检验。
单比例检验:对单个比例进行假设检验和置信区间的计算。
双比例检验:对两个比例间的差异进行假设检验和置信区间的计算。
双样本方差假设检验:可以进行两个样本总体方差的假设检验和置信区间的计算。
上一篇:六西格玛,能用于餐馆么?