单因素方差分析检验假设,对于单因素试验方差分析的数学模型
SPSS单因素方差分析
1)判断3个及以上独立的组间均数是否存在差异;
2)判断前后变化的差值是否存在差异。
假设1:因变量为连续变量;
假设2:有一个包含2个及以上分类、且组别间相互独立的自变量;
假设3:每组间和组内的观测值相互独立;
假设4:每组内没有明显异常值;
假设5:每组内因变量符合正态分布;
假设6:进行方差齐性检验,观察每组的方差是否相等。
1.方差分析拒绝H0,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较;两两比较分为事前比较和事后比较,前者借助于对比(Contrast),后者借助于两两比较(Post Hoc )提供的许多方法;
2.在分组变量包含次序信息时,如果方差分析做出了各组间差异有统计学意义的结论,并且Means-Plot均数图提示各组均数的某种趋势时,可以利用趋势分析讨论观察值与分组变量取值间的数量依存关系。借助于对比(Contrast)完成。
有研究者认为,体力活动较多的人能更好地应对职场的压力。为了验证这一理论,某研究招募了31名受试者,测量了他们每周进行体力活动的时间(分钟),以及应对职场压力的能力。根据体力活动的时间数,受试者被分为4组:久坐组、低、中、高体力活动组,变量名为group。利用Likert量表调查的总得分来评估应对职场压力的能力,分数越高,表明应对职场压力的能力越强,变量名coping_stress。研究者想知道coping_stress变量的平均得分是否随着group变量的不同而不同。
前三假设需要自己根据实际情况判断,这里不赘述。在SPSS中利用箱图(Boxplots)验证假设4:每组内没有明显异常值。点击【分析】-【探索】模块实现。
SPSS中将距离箱子边缘超过1.5倍箱身长度的数据点定义为异常值,以圆点表示;将距离箱子边缘超过3倍箱身长度的数据点定义为极端值(极端异常值),以星号(*)表示。为容易识别,在Data View窗口异常值均用其所在行数标出。
下面验证假设5:每组内因变量符合正态分布。
正态性检验有很多方法,这里只介绍最常用的一种:Shapiro-Wilk正态性检验(其他还有偏度和峰度值、直方图等)。如果样本量较小,并且对正态Q-Q图或其他图形方法的结果诠释不够有把握,推荐采用Shapiro-Wilk检验。如果样本量大于50,推荐使用正态Q-Q图等图形方法进行正态判断,因为当样本量较大时,Shapiro-Wilk检验会把稍稍偏离正态分布的数据也标记为有统计学差异,即数据不服从正态分布。
验证假设6:方差齐性检验,观察每组的方差是否相等。
A、当满足方差齐性的条件时:
B、当不满足方差齐性的条件时:
当方差不齐,而且关心所有组间的两两比较时,推荐采用Games-Howell检验。Games-Howell检验不仅提供了每两个组间比较的P值,也给出了均数差值的可信区间
采用单因素方差分析方法,判断不同水平体力活动组间的应对职场压力的能力(CWWS得分)是否有差异。受试者被分为4组:久坐组7人、“低”体力活动组9人、“中”体力活动组8人、“高”体力活动组7人。
1)经箱线图判断,数据无异常值;
2)经Shapiro-Wilk检验,各组数据服从正态分布(P0.05);
3)经Levene's方差齐性检验,各组数据方差齐(P=0.120)。数据以均数±标准差的形式表示。
不同体力活动组间的CWWS得分差异具有统计学意义,F(3,27)=8.316,?P0.0005,ω2=0.42。CWWS得分按照从久坐组(4.2±0.8)、“低”体力活动组(5.9±1.7)、“中”体力活动组(7.1±1.6)、“高”体力活动组(7.5±1.2)的顺序增加。?
??4)Tukey检验结果表明,从久坐组到“中”体力活动组,CWWS平均得分增加2.97(95%CI:0.99~4.96),差异具有统计学意义(P=0.002);从久坐组到“高”体力活动组,CWWS平均得分增加3.35(95%CI:1.30~5.40),差异具有统计学意义(P=0.001);其他组间两两比较的结果差异无统计学意义。

方差分析(一元单因素)
本例中像素数pixel便是影响因变量的一个因素,其具有5个水平。
如销售人员奖金对销售量的影响,奖金可作为影响销售量的一个协变量。
把每一类不同像素的数码相机总销量分别看成是不同的总体,该问题便转化为如下的假设检验问题:
得到数据透视表
可以看到数据的箱型图分布
一元单因素方差分析应当满足方差齐性假设,其原假设是不同水平所代表总体的方差是相同的。对于医院方差分析常用levene's检验,多元方差分析多使用Bartlett's球形检验法。
组内离差平方和为4682.125,组内方差为133.7750,组间离差平方和为10472.850,组间方差为2618.2125,于是得出F统计量为19.57。对应的P值几乎为0,所以可以认为像素大小对相机销量影响是非常显著的。
得出结论:在显著性a=0.05水平下,可以拒绝根据像素变量划分的各总体均值相等的原假设。即,不同的像素大小对相机销量影响非常显著。
进一步研究因素的哪一水平对观测变量产生了显著影响,即那种像素大小对销量有显著影响。这就是单因素方差分析的均值多重比较检验。
statsmodels.stats.multicomp中提供了pairwise_tukeyhsd函数可进行TukeyHSD事后多重比较检验。
系统自动将不同像素进行两两对比,并在reject列给出了是否应该拒绝原假设--两组属性没有差异的检验结果。(meandiff表示二者对应的因变量均值差,返回True表示二者对销量的影响有差异)
结果表明600万像素以下的数码相机由于技术比较落后,消费者需求不大,与中高像素的数码相机进行对比,销量明显萎缩,且差异最为显著;消费者对于像素数量的要求不同,对销售量也产生了显著影响,像素高的相机明显比像素低的相机销量大。
方差分析实际上是对一般线性模型进行分析,其还可以对于用方差分析的线性模型进行参数估计和假设检验。根据参数估计结果,可以得出当从一个水平变为另一个水平时对因变量产生的具体影响,并据此进行预测。
第一张表主要展示模型诊断的总体信息,如拟合优度判定系数R2,F统计量值、P值、AIC和BIC等信息指数等。第二章表主要反映方差分析模型的参数估计结果及其检验结果。
这个图中的C(pixel)[500万像素及以下] 没有出现,而是由截距项intercept表示该像素下对因变量的影响:销量为81.125台。其他水平对于因变量的影响都是一截距项为基准进行衡量,其对应的参数估计代表了各个水平对因变量影响与截距项对因变量影响的差距。
为了避免手工繁琐的计算,需要估计不含截距项的模型参数的绝对数值,在程序定义formula的右边加上‘-1’即可。
这样的出的结果更清晰明了,高像素(800万以上)的数码相机销量比较大,中低像素(500-800万)的相机销售一般,低像素(500万以下)销量最小。
使用模型的参数估计值对 因变量进行预测
确保预测较为准确的前提就是估计出的模型要依据统计理论模型进行模型诊断。本利模型参数估计均非常显著,且拟合优度与F值均较大,可以认为该模型适合进行检测。
数据预处理
画数据箱型图
方差同质性检验
对方差来源进行分解
多重比较检验
参数估计和预测
方差分析模型的预测
单因素方差分析的零假设是什么?用什么统计量检验它
单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。
单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。
示例:例如,将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效。下表列出了5种常用的抗生素注入到牛的体内时,抗生素与血浆蛋白质结合的百分比。现需要在显著性水平α = 0.05下检验这些百分比的均值有无显著的差异。设各总体服从正态分布,且方差相同。
青霉素 ? ?四环素 ? ?链霉素 ? ?红霉素 ? ?氯霉素 ?
29.6 ? ?27.3 ? ?5.8 ? ?21.6 ? ?29.2 ?
24.3 ? ?32.6 ? ?6.2 ? ?17.4 ? ?32.8 ?
28.5 ? ?30.8 ? ?11.0 ? ?18.3 ? ?25.0 ?
32.0 ? ?34.8 ? ?8.3 ? ?19.0 ? ?24.2 ?
在这里,试验的指标是抗生素与血浆蛋白质结合的百分比,抗生素为因素,不同的5种抗生素就是这个因素的五个不同的水平。假定除抗生素这一因素外,其余的一切条件都相同。这就是单因素试验。试验的目的是要考察这些抗生素与血浆蛋白质结合的百分比的均值有无显著的差异。即考察抗生素这一因素对这些百分比有无显著影响。这就是一个典型的单因素试验的方差分析问题。
单因素方差分析的目的是检验
? ?单因素方差分析的目的是检验多个总体均数是否相同。
进行方差分析的条件:
? ? ?①各样本相互独立
? ? ? ?②各样本均来自正态总体
? ? ? ③各总体方差齐性
公式如图
单因素方差分析法的自由度F为(k-1,N-k)
单因素方差分析的步骤:
(1)检验假设Ho:μ1=μ2=……μk
(2)计算统计量F=Sa2/Se2
(3)确定显著水平α,查临界值Fα(k-1,N-k)
(4)若F≥Fα,则拒绝Ho,则为各水平间有显著差异 ? ?若F<Fα,则接受Ho,各水平间没有显著差异
? ? 方差分析表:
数理统计教材
方差分析的假设检验
1. 方差分析的假定条件为:
(1)各处理条件下的样本是随机的。
(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。
(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。
(4)各处理条件下的样本方差相同,即具有齐效性。
2. 方差分析的假设检验
假设有K个样本,如果原假设H0样本均数都相同,K个样本有共同的方差σ ,则K个样本来自具有共同方差σ和相同均值的总体。
如果经过计算,组间均方远远大于组内均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。否则承认原假设,样本来自相同总体,处理间无差异。
应用条件: 各样本是相互独立的随机样本 各样本均来自正态分布总体 3. 各样本的总体方差相等,即具有方差齐性
4.在不满足正态性时可以用非参数检验