内容正文:
8.3 2×2列联表
第八章 成对数据的统计分析
沪教版选择性必修第二册·高二
学 习 目 标
1
2
能够利用2×2列联表进行独立性检验,提升利用图表进行数据分析的能力.
了解随机变量χ2的意义,通过对典型案例分析,了解独立性检验的基本思想和方法.
3
通过对独立性检验和统计等知识的综合应用,体会数学知识的交汇运用.
1
情景导入
饮用水的质量是人类普遍关心的问题,某高校学生做了一组调查,数据显示,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.
问题:人的身体健康状况与饮用水的质量之间有怎样的关系呢?
要回答这个问题,我们先一起来学习本课时的知识吧!
2
问题提出
在实际问题中经常遇到要证实两类变量是相关的,或者反过来,证实它们是相互独立的.如何利用取自这两类变量的样本来判断它们是否相互独立呢?
下面通过具体案例来加以说明.
某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表所示.
问题:患慢性气管炎与吸烟是否相互独立呢?
3
新知讲授
某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表8-7所示.
问题:患慢性气管炎与吸烟是否相互独立?
3
新知讲授
分析:上表对50岁以上的公民进行了两种分类:按是否吸烟进行分类及按是否患慢性气管炎进行分类.
从是否吸烟的角度来看,吸烟的公民是一类,不吸烟的公民是另一类,这种变量的不同“值”表示公民所属的不同类别,这类变量称为分类变量(categorical variable)
3
新知讲授
分析:上表中,两个分类变量分别占两行和两列,形成4个格子,每个格子中的数据是同时满足所在行列对应类别的个体的频数.例如,第1行第1列中的数据121表示“不吸烟同时不患慢性气管炎”的样本人数.这些数据都是通过实际调查得到的,称为观察值.这些观察值形成的2行、2列的频数表格,称为2行×2列列联表,简称2×2列联表,也称为四格表.
3
新知讲授
由上表的数据可以计算其中一个分类变量的不同类别在另一个分类变量中的百分比.例如,在不吸烟者中,有9.70%患慢性气管炎,而在吸烟者中,有20.98%患慢性气管炎,两者相差较大.因此,我们可以初步推断:患慢性气管炎可能与吸烟有关,吸烟者患慢性气管炎的可能性更大.
思考:有了2×2列联表,以及初步判断,那我们有多大把握认为患慢性气管炎与吸烟有关呢?
3
新知讲授
思考:有了2×2列联表,以及初步判断,那我们有多大把握认为患慢性气管炎与吸烟有关呢?
需要用到2×2列联表独立性检验方法.
要检验两个随机变量是否有关,统计上一般先假设它们没有关系,即相互独立,再进行统计检验.这种假设称为原假设(null hypothesis)也称为零假设,习惯上用 表示.
3
新知讲授
问题:患慢性气管炎与吸烟是否相互独立?
解:设:患慢性气管炎与吸烟没有关系,即它们相互独立.
3
新知讲授
由表可知,总计339位样本公民中有56位患有慢性气管炎,其百分比为
假设患慢性气管炎与吸烟没有关系,那么205位吸烟者中应该有 位患有慢性气管炎.通过计算,可以得到预期值与观测值的表格,如下表
预期值是当原假设成立时的预期结果
3
新知讲授
为了描述观察值与预期值之间的总体偏差,我们引入统计量
的值越大,说明观察值与预期值的总体偏差越大,原假设成立的可能性越小.
3
新知讲授
P(χ2≥xα)=α 0.1 0.05 0.025 0.01
xα 2.706 3.841 5.024 6.635
通过查阅分布概率表,得到因此我们可以推断原假设“患慢性气管炎与吸烟没有关系”成立的可能性小于5%.
或者说,我们有95%的把握认为患慢性气管炎与吸烟有关.
0.05、0.01等小概率值在统计上称为显著水平,记作α.方便起见,本书的显著水平规定为0.05.可以理解为错误拒绝的概率不超过0.05.
4
归纳小结
A组 B组 总计
0 a b a+b
1 c d c+d
总计 a+c b+d a+b+c+d
设有两组分类数据 A、B , 每组数据的两种状态分别用 0和1表示, 则可得到下面的 2×2 列联表 :
2×2列联表独立性检验
其中,a,b,c,d为实际观察值
(其中,n=a+b+c+d)
用检验方法在统计中称为2×2列联表独立性检验.
4
归纳小结
统计学家建议,用随机变量取值的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.
依据在合理的假设前提下,小概率事件几乎不会发生.若小概率事件发生了,则认为原假设不成立.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
4
归纳小结
2×2列联表独立性检验通常有如下步骤:
(1)提出两个随机变量没有关系的原假设.
(2)确定显著水平α,本书规定α=0.05,也即
(3)计算统计量 的值.
(4)统计决断:比较上述值与3.841的大小,若值,则拒绝(或否定);若值<3.841,则不能拒绝(或否定),即接受,根据上述推断作出结论.
归纳小结
5
新知应用
例1 为了研究色盲与性别是否有关,随机抽取480位男性和520位女性,测得他们是否为色盲的数据如表8-10所示.
问:色盲与性别是否有关?
例1
5
新知应用
解 : 把性别作为一个分类变量,把是否为色盲作为另一个分类变量,问题为判断色盲与性别是否有关,因此可采用2×2列联表独立性检验
(1)提出原假设:色盲与性别无关.
(2)确定显著性水平α=0.05.
(3)计算χ2的值,直接把上表数据代入得
(4)统计决断:由而27.139>3.841,超过了α所确定的界限,从而否定原假设,即判定色盲与性别有关.
例2 一次语文测验,王老师所任教的甲、乙两个班级的成绩情况如下表所示
根据表中数据,判断甲、乙两个班级语文测验的成绩是否有显著差异.
5
新知应用
例2
5
新知应用
解 : 把班级作为一个分类变量,把语文测验的成绩是否优秀作为另一个分类变量,问题为判断语文测验的成绩与所在的班级是否有关.
(1)提出原假设:甲、乙两个班级语文测验的成绩没有显著差异.
(2)确定显著性水平α=0.05.
(3)计算χ2的值:直接把上表数据代入得
(4)统计决断:由而0.006<3.841,小概率事件没有发生,故不能否定原假设.
因此,甲、乙两个班级语文测验的成绩没有显著差异.
例3 为了研究55岁以上的人群与50岁以下的人群服用一种胶囊药物后的反应是否有显著差异,某医学院进行了志愿者口服该胶囊的观察试验,试验结果如下表所示.根据表中数据,能否作出这两类人群对此药物的反应有显著差异的结论?
5
新知应用
例3
5
新知应用
解 : 把两个年龄范围的人群作为一个分类变量,把对药物 有无反应作为另一个分类变量,问题是判断两类人群对此药物的反应是否有显著差异.
(1)提出原假设:两类人群对此药物的反应没有显著差异.
(2)确定显著性水平α=0.05.
(3)计算χ2的值:直接把上表数据代入得
(4)统计决断:由而1.840<3.841,因此根据试验数据,不能认为55岁以上人群对此胶囊药物的反应与50周岁以下人群有显著差异.
5
新知应用
练习巩固:为了调查髋关节保护器在减少老年人髋部骨折中的作用,随机选择一些老年人,其中一部分佩戴髋关节保护器,而另一部分不佩戴,作为对照组.得到如下列联表:
根据表中的数据回答:髋关节保护器是否可以降低老年人髋部骨折的可能性?
5
新知应用
解 : 把是否佩戴髋关节保护器作为一个分类变量,把有无髋部骨折作为另一个分类变量,问题是佩戴髋关节保护器能否降低老年人髋部骨折的可能性.
(1)提出原假设:佩戴髋关节保护器不能降低老年人髋部骨折的可能性.
(2)确定显著性水平α=0.05.
(3)计算χ2的值:直接把上表数据代入得
(4)统计决断:由而14.50>3.841,因此原假设不成立,即佩戴髋关节保护器可以降低老年人髋部骨折的可能性.
课堂小结
感谢聆听!
沪教版选择性必修第二册·高二
$