内容正文:
8.3 列联表与独立性检验
第二课时
8.3.2 独立性检验
人教A版选择性必修第三册第八章第三单元
课时目标
1.理解分类变量与列联表的含义,能用等高堆积条形图、列联表探讨两个分类变量的关系;(重点)
2.了解χ2的含义及其应用,理解独立性检验的基本思想及其解题步骤,并能应用其解决实际问题.(重点、难点)
复习回顾,引入新知
2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为2×2列联表.
2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量,一年后,这位数学家发现,所记录数据的均值为950g,于是庞加莱推断这家面包店的面包分量不足.
假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包份量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果.
0.课题引入
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.
因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
0.课题引入
0.课题引入
【问题的提出】考虑以为样本空间的古典概型,设X和Y为定义在上,取值于{0,1}的分类变量.我们希望判断事件事件{X=1}和{Y=1}之间是否有关联.
注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互相对立的事件,我们判断下面的假定关系
H0:P(Y=1|X=0)=P(Y=1|X=1)
是否成立,通常称H0为零假设或原假设.
H0:P(Y=1|X=0)=P(Y=1|X=1) P(Y=1)
{X=1}与{Y=1}相互独立.
同时{X=0}与{Y=0}独立;
{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;
{X=1}与{Y=1}独立.
P(Y=0)
P(Y=1)
P(Y=0)
P(Y=1)
相互独立
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d n=a+b+c+d
0.课题引入
假定我们通过简单随机抽样得到了X和Y的抽样数据列联表8.3-3.
【问题1】如何基于上述四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否独立作出推断?
P(Y=0) ≈
事件发生的频数的期望值 ≈
则事件发生的频数的观测值a与期望值应该比较接近.
1.独立性检验
较小
同理
{X=0,Y=0}发生频数的期望值Ea
{X=0,Y=0}发生频数的观测值
1.独立性检验
【追问1】那么究竟大到什么程度,可以推断不成立呢?或者说,怎样确定判断大小的标准呢?
忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得下面关系成立:,我们称为的临界值,这个临界值就可作为判断大小的标准,概率值越小,临界值越大.
当总体很大时,抽样有、无放回对的分布影响较小,因此,用随机变量取值的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.
依据在合理的假设前提下,小概率事件几乎不会发生,若小概率事件发生了,则认为原假设不成立.
1.独立性检验
【追问2】基于小概率值的检验规则是什么?
基于小概率值的检验规则是:
(1)当时,我们就推断不成立,既认为和不独立,该推断犯错误的概率不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和独立.
1.独立性检验
例如,对于小概率值,我们有如下的具体检验规则:
(1)当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和独立.
α 0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
下表给出了独立性检验中几个常用的小概率值和相应的临界值.
1.独立性检验
独立性检验
假定通过简单随机抽样得到了分类变量和的抽样数据的2×2列联表如下:
合计
合计
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(1)χ2越小,独立性越强,相关性越弱;χ2越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
其中,.
2.独立性检验的应用
【例1】依据小概率值的独立性检验,分析上节课例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
解:零假设为:分类变量与相互独立,即两校学生的数学成绩优秀率无差异.根据表中的数据,计算得到.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
α 0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
2.独立性检验的应用
【问题2】例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?
在[例1]只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.
在[例2]中,我们用独立性检验对零假设进行了检验.通过计算,发现小于所对应的临界值2.706,因此认为没有充分证据推断不成立,所以接受,推断出两校学生的数学成绩优秀率没有显著差异的结论,这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的.
因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
2.独立性检验的应用
【例3】某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解:零假设为:疗法与疗效独立,
即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,如表所示.
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
根据列联表中的数据,经计算得到
.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即两种疗法效果没有差异.
2.独立性检验的应用
【追问1】在[例3]的2×2列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中a, b, c, d的赋值都会相应地改变,这样做会影响χ2取值的计算结果吗?
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.
对调前
疗法 疗效 合计
未治愈 治愈
乙 6 63 69
甲 15 52 67
合计 21 115 136
对调后
【例4】为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌得风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
2.独立性检验的应用
解:零假设为:吸烟与患肺癌之间无关联,根据列联表中的数据,经计算得到.
根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
【追问2】解决独立性检验问题的基本步骤有哪些?
1.假设:提出零假设H0:X、Y之间无关;
2.列表:列出2×2列联表;
3.计算:根据公式计算出的值,并与临界值进行比较;
4.结论:由临界值比较给出相应结论.
2.独立性检验的应用
【追问3】独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
2.独立性检验的应用
反证法 独立性检验
先假设结论A不成立 提出零假设
在A不成立的前提下进行推理 在成立的条件下进行推理
推出矛盾,意味着结论A成立 与相矛盾的小概率事件发生,意味着不成立
没有找到矛盾,不能对A下任何结论 与相矛盾的小概率事件没有发生,接受原假设
【追问4】你能说一说独立性检验的本质吗?
独立性检验的本质是比较观测值与期望值之间的差异,来判断事件发生的概率大小.
具体地,由所代表的这种差异的大小是通过确定适当的小概率值进行判断的,这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
2.独立性检验的应用
【例4】 (1)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的 1 000名骑行人员中,年龄低于40岁的占60%,记录其年龄和是否佩戴安全头盔的情况,得到2×2列联表如表所示.
①完成上面的列联表;
②依据小概率值α=0.01的独立性检验,能否认为遵守佩戴安全头盔与年龄有关?
附:χ2=,其中n=a+b+c+d.
年龄 安全头盔 合计
佩戴 未佩戴
低于40岁 540
不低于40岁
合计 880 1 000
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
2.独立性检验的应用
年龄 安全头盔 合计
佩戴 未佩戴
低于40岁 540 60 600
不低于40岁 340 60 400
合计 880 120 1 000
2.独立性检验的应用
解析:①年龄低于40岁的有1000×60%=600(人),完成2×2列联表如表所示.
解析:②零假设为H0:遵守佩戴安全头盔与年龄无关,
由公式得χ2==≈5.682<6.635=x0.01,
∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为遵守佩戴安全头盔与年龄无关.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【例4】 (2)为了了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查,得到如下列联表.已知从这30名学生中随机抽取1人,抽到肥胖学生的概率为.
①请将上面的列联表补充完整;
②依据小概率值α=0.005的独立性检验,能否认为肥胖与常喝碳酸饮料有关?
附:χ2=,其中n=a+b+c+d.
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 2
不肥胖者 18
合计 30
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
2.独立性检验的应用
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 6 2 8
不肥胖者 4 18 22
合计 10 20 30
2.独立性检验的应用
解析:①因为从这30名学生中随机抽取1人,抽到肥胖学生的概率为,
所以这30名学生中,肥胖学生的人数为30×=8,完善2×2列联表如表所示.
解析:②零假设为H0:肥胖与常喝碳酸饮料无关,由公式得
χ2=≈8.523>7.879=x0.005,
依据小概率值α=0.005的独立性检验,推断H0不成立,即认为肥胖与常喝碳酸饮料有关.
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
(1)零假设:即先假设两变量无关.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
反
思
感
悟
独立性检验的一般步骤
25
【练习】某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
α 0.05 0.01 0.005
xα 3.841 6.635 7.879
附表:
2.独立性检验的应用
2.独立性检验的应用
2×2列联表如表所示:
教师年龄 对新课程教学模式的态度 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
【练习】某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的态度与教师年龄是否有关系.
α 0.05 0.01 0.005
xα 3.841 6.635 7.879
附表:
2.独立性检验的应用
解析:零假设为H0:对新课程教学模式的态度与教师年龄无关.
由公式得χ2=≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为对新课程教学模式的态度与教师年龄无关.
课堂小结
总结
解决独立性检验问题的基本步骤
课堂小结
练习
解析
练习
练习
解析
练习
解析
练习
5.在一次独立性检验中,得出列联表如下:
且最后发现,两个分类变量A和B没有任何关系,则a的可能值是
A.200 B.720 C.100 D.180
题卡点评
A 合计
B 200 800 1 000
180 a 180+a
合计 380 800+a 1 180+a
答案 B解析 由题意χ2=,
当a=200时,χ2=≈103.366>10.828=x0.001,
根据小概率值α=0.001的独立性检验,可以认为此时两个变量有关系;
当a=720时,χ2==0,此时两个分类变量A,B没有关系.
8.在一次恶劣气候的飞行航程中,调查男女乘客在飞机上晕机的情况如表所示:
附表:
参考公式:χ2=,其中n=a+b+c+d.
则下列说法中正确的是
A.>
B.χ2<2.706
C.依据小概率值α=0.1的独立性检验,可以认为在恶劣气候飞行中,晕机与性别有关
D.没有理由认为在恶劣气候飞行中,晕机与性别有关
题卡点评
性别 晕机情况 合计
晕机 不晕机
男 a 15 a+b
女 6 d c+d
合计 a+c 28 46
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
题卡点评
答案 ABD
解析 由列联表数据,得d=28-15=13,
c+d=6+13=19,a+b=46-19=27,a=27-15=12,a+c=12+6=18.
填表如下:
所以=,==,>,所以A正确;
计算χ2=≈0.775<2.706=x0.1,所以B正确;
则没有理由认为在恶劣气候飞行中,晕机与性别有关,所以C错误,D正确.
性别 晕机情况 合计
晕机 不晕机
男 12 15 27
女 6 13 19
合计 18 28 46
题卡点评
10.在第24届北京冬季奥林匹克运动会中,为了解运动员的饮食习惯,对30名运动员的饮食习惯进行了一次调查,依据统计所得数据可得到如下的2×2列联表:
根据以上列联表中的数据,依据小概率值α= 的独立性检验,认为运动员饮食习惯与性别有关. 参考公式:χ2=,其中n=a+b+c+d.
附表:
性别 饮食习惯 合计
中餐 西餐
女性 d 8 c
男性 16 2 18
合计 a b 30
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
答案 0.005
解析 由列联表可得a=20,b=10,c=12,d=4,
可得χ2==10>7.879=x0.005,所以依据小概率值α=0.005的独立性检验,认为运动员饮食习惯与性别有关.
题卡点评
11.(13分)某校在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如表所示(单位:人)
(1)求m,n的值;(6分)
(2)能否在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系?(7分)
参考公式:χ2=,其中n=a+b+c+d.
附表:.
班级 成绩 合计
80及80分以上 80分以下
试验班 35 15 50
对照班 20 m 50
合计 55 45 n
α 0.010 0.005 0.001
xα 6.635 7.879 10.828
题卡点评
解 (1)由表得,m=50-20=30,n=55+45=100,即m=30,n=100.
(2)零假设为H0:教学方式与成绩无关.
由表得χ2=≈9.091>7.879=x0.005,依据小概率值α=0.005的独立性检验,我们推断H0不成立,所以能在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系.
12.(14分)某校对有心理障碍的学生进行测试得到如下列联表:
试说明在这三种心理障碍中哪一种与性别关系最大?
性别 心理障碍 合计
焦虑 说谎 懒惰
女生 5 10 15 30
男生 20 10 50 80
合计 25 20 65 110
题卡点评
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
解析:三种心理障碍焦虑、说谎、懒惰分别构造三个随机变量,,.
可得=≈0.863<2.706=x0.1,没有充分证据推断H0不成立,因此可以认为H0成立,即认为焦虑与性别无关.
性别 焦虑 合计
焦虑 不焦虑
女生 5 25 30
男生 20 60 80
合计 25 85 110
同理得=≈6.366>3.841=x0.05,
依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为说谎与性别有关.
同理得=≈1.410<2.706=x0.1.
依据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为懒惰与性别无关.
综上,三种心理障碍中说谎与性别关系最大.
【练习1】某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个
列联表;
(2)判断是否有
的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
0.050
0.010
0.005
3.841
6.635
7.879
.
(1)
列联表如下所示.
赞同
不赞同
合计
老教师
10
10
20
青年教师
24
6
30
合计
34
16
50
(2)零假设
:对新课程教学模式的赞同情况与教师年龄无关.
由公式得
EMBED Equation.DSMT4 ,
故假设
成立,
所以没有
的把握认为对新课程教学模式的赞同情况与教师年龄有关.
【练习2】2024年6月5日《中国教育报》刊发了教育部的“呵护好孩子的眼睛,共创光明的未来”的文章,其中特别强调“幼儿单次使用电子产品的时间不宜超过15分钟,累计每天不超过1小时”等内容.为切实提升儿童青少年视力健康整体水平,某学校积极推进近视综合防控,落实“明眸”工程,开展了近视原因的调查以备有效进行预防.在已近视的学生中随机调查了100人,同时在未近视的学生中随机调查了100人,得到如下数据:
电子产品
近视
未近视
非长时间使用电子产品
40
70
长时间使用电子产品
60
30
(1)依据小概率值
的
独立性检验,能否认为患近视与长时间使用电子产品有关?
(2)用频率估计概率,从已经近视的学生中采用随机抽样的方式选出1名学生,利用“物理+药物”治疗方案对该学生进行治疗.已知“物理+药物”治疗方案的治愈数据如下:在已近视的学生中,对非长时间使用电子产品的学生的治愈率为
,对长时间使用电子产品的学生的治愈率为
,求该近视学生被治愈的概率;
(3)若按样本数据利用分层随机抽样的方法从近视学生中抽取5人,再从这5人中抽取3人进行近视矫正实验,记
表示这3人中长时间使用电子产品的人数,求
的分布列与数学期望.
(1)零假设为
:学生患近视与长时间使用电子产品无关,
,
依据小概率值
的独立性检验,我们推断
不成立,即认为学生患近视与长时间使用电子产品有关联,此推断犯错误的概率不大于0.001.
(2)设事件
表示使用“物理十药物”治疗方案并且治愈,事件
表示非长时间使用电子产品的近视学生,事件
表示长时间使用电子产品的近视学生,
由题意可得
,且
,
则
EMBED Equation.DSMT4 ,
所以该近视学生被治愈的概率为
.
(3)由样本数据可知近视学生中长时间使用电子产品与非长时间使用电子产品的人数比例为
,
所以抽取的5人中有3人是长时间使用电子产品,有2人是非长时间使用电子产品,
所以
的可能取值为
,
且
,
;
,
所以
的分布列为:
1
2
3
所以数学期望为
.
$