了解方差分析(ANOVA)和F检验

话题:Anova.假设检验数据分析

方差分析(ANOVA)可以确定三个或更多个组的装置是否不同。ANOVA使用F-Tests统计测试手段的平等。在这篇文章中,我将向您展示如何使用单向ANOVA示例的ANOVA和F-Tests工作。

但等一下......你有没有停止过,想知道为什么你使用分析方差确定是否方法是不同的?我还将展示Variances如何提供有关手段的信息。

在我的帖子里了解T-Tests,我将专注于概念和图表而不是方程来解释ANOVA F-Tests。

什么是f统计和f-test?

F-Tests在其测试统计文件之后命名,F统计为纪念罗纳德费舍尔。F统计只是两个差异的比例。差异是分散的度量,或者数据从平均值散射多远。更大的值表示更大的色散。

f是f-test

方差是标准偏差的平方。对于我们人类来说,标准偏差比差异更容易理解,因为它们与数据相同的单位而不是平方单元。然而,许多分析实际上在计算中使用差异。

F统计基于平均方方的比率。术语 ”均方方,这听起来可能令人困惑,但这只是对人口方差的估计自由度用于计算该估计。

尽管f检验是一个方差比率,但您可以在各种情况下使用f检验。不出所料,f检验可以评估方差的相等性。然而,通过改变比率中包含的方差,f检验成为一个非常灵活的检验。例如,可以使用f -统计和f -检验检验回归模型的整体显著性,比较不同模型的配合,测试特定的回归术语,并测试手段的平等。

在单因素方差分析中使用f检验

为了使用F-Test确定组手段是否相等,这只是包括比率的正确差异的问题。在单向ANOVA中,F统计是这种比例:

f =样品内样品装置/变化之间的变化

理解这个比率的最好方法是浏览一个单向方差分析的例子。

我们将分析四个塑料样本,以确定它们是否具有不同的平均优点。你可以下载样本数据如果你想跟我来的话。(如果你没有Minitab,你可以下载免费30天试用当我解释概念时,我将参考单向ANOVA输出。

在Minitab,选择stat> Anova>单向Anova ...在对话框中,选择“强度”作为响应,以及“示例”作为因素。按OK,Minitab的会话窗口显示以下输出:

Minitab的单向方差分析的输出

分子:样本意味着之间的变化

单向ANOVA已经计算了塑料四个样本中的每一个的平均值。本集团的手段是:11.203,8.938,10.683和8.838。这些组手段围绕所有40个观察的总体平均值分布,这是9.915。如果组手段靠近整体平均值,则它们的方差低。但是,如果组手段从整体平均值进一步展开,则它们的方差更高。

显然,如果我们想表明小组意味着不同,它有助于如果手段彼此进一步分开。换句话说,我们希望手段中的更高变化。

想象一下,我们执行两种不同的单向ANOVA,每个分析有四组。下图显示了手段的扩展。每个点代表整个组的平均值。进一步的点被展开,F函数的分子中的变异性的值越高。

点图显示高和低变异性组之间的平均值

我们使用哪些值来测量塑性强度示例的样本装置之间的差异?在单向ANOVA输出中,我们将使用调整后的均线(ADJ MS)进行因子,这是14.540。不要试图解释这个号码,因为它不会有意义。它是平方偏差的总和除以因子DF。只要记住,该数量越大,该数量就会进一步分开。

分母:样品中的变化

我们还需要估计每个样本内的变异性。为了计算这种方差,我们需要计算所有40个观察结果的每个观察的距离。从技术上讲,从其组的每个观察的平方偏差的总和是由误差Df除以误差Df。

如果对每组的观察靠近组而平均值,则样品内的方差低。但是,如果对本组的观察结果进一步是均值,则样品内的方差更高。

在组内显示出高低变化的曲线

在图表中,左侧的面板显示样品的低变化,而右侧的面板显示出高变化。观察结果越分散,越多,它们的意思是,F统计的分母中的值越高。

如果我们希望表明手段是不同的,则在组内方差低时,它很好。您可以将组内差异视为可能掩盖手段之间差异的背景噪声。

对于这种单向ANOVA示例,我们将在样本内使用的值是误差的ADJ MS,即4.402。它被认为是“错误”,因为它是由于因素未解释的可变性。

Minitab-statistical-software-talk-minitab

F统计:样品在样品中的样本方式/变异之间的变化

F统计是检验统计量野生。一般来说,f统计量是两个在零假设下大致相等的量的比值,由此得到的f统计量约为1。

F型统计包括上面讨论的这两种可变性措施。让我们来看看这些措施如何共同努力,以产生低和高的F值。查看下面的图表,并将组的扩展宽度与每个组内的扩展宽度进行比较。

图表显示产生低f值的示例数据 图表显示产生高f值的示例数据

低f值图显示了相对于每个组内的变异性的组装置靠近(低可变性)的情况。高F值图显示了组装置的变化相对于内部变异性很大的情况。为了拒绝组装置等于的空假设,我们需要高f值。

对于我们的塑料强度示例,我们将使用因子ADJS MS用于分子(14.540)和用于分母(4.402)的误差ADJ MS,这为我们提供了3.30的F值。

我们的f价值足够高吗?单个F值很难自己解释。在我们解释它之前,我们需要将我们的f值放入更大的背景中。为此,我们将使用F分发来计算概率。

F分布和假设检测

对于单向ANOVA,组间可变性与组内变异性之间的比率遵循f分布当零假设是真的时。

当您为单项研究执行单向ANOVA时,您可以获得单个F值。但是,如果我们从相同的人群中汲取相同大小的多个随机样本并执行相同的单向ANOVA,我们将获得许多F值,我们可以绘制所有这些的分布。这种分布被称为a抽样分发

因为F分布假定为真的假设是真的,所以我们可以将F值从我们的研究中放置在F分发中,以确定我们的结果与空假设的结果一致,并计算概率。

我们想要计算的概率是观察至少与我们的研究获得的价值一样高的F级统计的可能性。概率允许我们确定我们的F值是多么常见或稀有的假设,即零假设是真实的。如果概率足够低,我们可以得出结论,我们的数据与空假设不一致。样本数据中的证据足以拒绝整个人口的零假设。

我们正在计算的这个概率也被称为p值!

为了绘制我们的塑性强度示例的f分布,我将使用Minitab的概率分布图。为了绘制适合我们特定设计和样本大小的F分布,我们需要指定正确的DF数。查看我们的单向ANOVA输出,我们可以看到我们有3个DF为分子和36 df用于分母。

具有概率的F分布的概率分布曲线

该图显示如果零假设是真实的,则显示我们获得的F值的分布,我们多次重复我们的学习。阴影区域表示观察至少与我们的研究获得的F值一样大的F值的概率。F值落在此阴影区域内约为3.1%的时间,其中null假设是真的。这种概率足够低,可以使用常见拒绝零假设意义程度0.05。我们可以得出结论,并非所有组手段都是平等的。

了解如何正确解释p值。

分析变异评估手段

ANOVA使用F-TEST来确定组装置之间的可变性是否大于组内观测的可变性。如果该比率足够大,可以得出结论,并非所有手段都是相等的。

这让我们回到为什么我们分析变化以使判断意味着意味着。想想这个问题:“小组是不同的吗?”您隐含地询问了手段的可变性。毕竟,如果小组意味着不同,或者不随意允许的多种机会而变化,那么你不能说手段是不同的。这就是为什么你使用对差异分析来测试手段的原因。

Minitab-on-Linkedin