有三个基本原则在试验设计中必须要考虑:重复试验(replication),随机化(randomization)和区组化(blocking)。
1.第一个原则:重复测试
重复测试意味着一种处理应用于多个测试单元。这些单位是在我们的统计推断中由一个过程形成的总体的代表,它使我们能够估计检验误差的大小。通常,显著性检验是用随机误差比较不同处理之间的差异。只有当处理间差异显著大于随机误差时,才能说“处理间差异显著”。没有随机误差就没有统计推断,所以在实验设计中安排重复试验是很重要的。
应该注意的是,不同的单元必须是可复制的,而不仅仅是同一个单元。换句话说,我们必须重新做测试,也就是重复测试,而不仅仅是重复观察或取样。比如上面的例子。必须在相同的工艺条件下生产两罐或更多罐的合成氨,而不是仅仅从同一罐合成氨中取不同的样品来测试纯度。显然,从同一罐合成氨中取不同样品测得的纯度差异较小,而从不同罐合成氨中取不同样品测得的纯度差异较大。用重复相同单元得到的差值来估计随机误差,会低估测试误差,结论不可靠。实验中必须有真实的重复。
2.第二个原则:随机化
随机化意味着以完全随机的方式安排每个实验和/或测试单元的顺序。这样做的目的是防止对响应变量的一些未知的系统影响。如果我们按照订单在同一天进行八项测试,会有什么问题?如果当天的电压有由高变低的趋势,而恰恰是电压的降低会导致纯度的降低,那么很明显,前四次测试是在电压较高的情况下进行的,后四次测试是在电压较低的情况下进行的。如果完全打乱这八项测试的顺序,就不会再出现上述问题。随机化并不能减少测试误差本身,但随机化可以防止一些未知的系统影响反应变量。
3.第三个原则:区域化
测试单元之间难免会有一些差异。如果我们能够按照一定的方式将它们分组,并且每组内部的差异能够保证很小,也就是同质的,那么我们就可以很大程度上消除大的测试误差对分析造成的不利影响。
一组同质的试验单元称为一个区块,将所有试验单元分成若干个区块的方法称为分区或分组。通过比较同一区块内各处理间的差异,可以在处理效果的比较中消除区块效应,从而使整个实验的分析更加有效。
比如假设上(下)午时段差别不大。但是上午和下午可能会有很大的区别,所以我们会把上午和下午当作两个区块。这时,在分析中,我们可以摆脱上午和下午的差异的影响,或者尽量把所有的实验都安排在上午(或下午)。如果划分组是有效的,这种方法可以分离分析中各块之间的差异,可以大大降低可能存在的未知变量的系统影响,这就是划分组的优点。当然,还应该使用随机化来安排测试顺序和测试单元在块中的分配。什么时候使用分区组,什么时候使用随机化?在实验设计时,应遵循以下原则:“能分组者分组,不能分组者随机化”
上一篇:如何进行多变量分析