内容正文:
第八章 成对数据的统计分析》同步配套分层练习-2024-2025学年高二数学教材解读与拓展(沪教版2020)选择性必修第二册
【原卷版】 8.3.1 2x2列联表独立性检验
【附录】相关考点
考点一
分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量;这类随机变量称为分类变量,分类变量的取值可以用实数表示;
考点二
原假设与零假设
要检验两个随机变量是否有关,统计上一般先假设它们没有关系,即相互独立,再进行统计检验;这种假设称为原假设,也称为零假设;习惯上用H0表示;
考点三
两组分类变量的2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
其中a、b、c、d为实际观察值;
2×2列联表独立性检验
根据
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
其中a、b、c、d为实际观察值;
由,经过变形可得的一般计算公式:
,其中(注意使用公式时分子的平方不要忽略了)
这种检验方法在统计学中称为2×2列联表独立性检验;
特别提醒:
(1)χ2越小,独立性越强,相关性越弱;χ2越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立;
说明:
1、2×2列联表有什么特征?
【解析】总计a+ b+c +d为样本的容量,即n=a+ b+c +d;
注意:在列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0;
因此|ad-bc|越小,说明两个分类变量之间的关系越弱;
|ad-bc|越大,说明两个分类变量之间的关系越强;
2.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
【解析】观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
3、应用独立性检验的基本思想对两个分类变量关系作出的推断一定是正确的吗?
【解析】不一定.所有的推断只代表一种可能性,不代表具体情况.
4、你能说一下用χ2进行独立性检验的依据吗?
【解析】独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量χ2的值,如果χ2值很大,说明假设不合理.χ2越大,两个分类变量有关系的可能性越大;
【必做题】落实与理解教材要求的基本教学内容;
1、为了解某大学的学生是否爱好体育锻炼,用简单随机抽样的方法在校园内调查了120位学生,得到如下2×2列联表:
男
女
总计
爱好
a
b
73
不爱好
c
25
总计
74
则a-b-c等于( )
A.7 B.8 C.9 D.10
2、下面是一个2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
21
73
X=1
8
25
33
合计
b
46
则表中a,b处的值分别为( )
A.94,96 B.52,50 C.52,60 D.54,52
3、在2×2列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( )
A.与 B.与 C.与 D.与
4、根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为( )
A.变量与不独立,这个结论犯错误的概率不超过
B.变量与不独立,这个结论犯错误的概率不超过
C.变量与独立,这个结论犯错误的概率不超过
D.变量与独立,这个结论犯错误的概率不超过
【标答题】掌握与体验用相关数学知识与方法规范审题、析题、答题;
5、χ2的大小可以决定是否拒绝原来的统计假设H0,如果χ2值较大,就拒绝H0,即接受两个分类变量________关系;(填“有”或“无”)
6、某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的2×2列联表中,a+b+d= .
会外语
不会外语
合计
男
a
b
20
女
6
d
合计
18
50
7、若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的命题序号是
①在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系
②1个人吸烟,那么这个人有99%的概率患有肺癌
③在100个吸烟者中一定有患肺癌的人
④在100个吸烟者中可能一个患肺癌的人也没有
8、某校对学生课外活动进行调查,结果整理成下表:试根据小概率值α=0.005的独立性检验,分析喜欢体育还是文娱与性别是否有关系.
性别
喜欢
合计
体育
文娱
男生
21
23
44
女生
6
29
35
合计
27
52
79
【自选题】提升与拓展课本知识与方法,具有知识与方法的交汇与综合,由学生自主选择尝试。
9、针对短视频热,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N,m≥1),男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为( )
附:χ2=.
α
0.05
0.01
xα
3.841
6.635
A.7 B.8
C.9 D.10
10、有两个分类变量X,Y,其2×2列联表如下所示:
X
Y
合计
Y1
Y2
X1
a
20-a
20
X2
15-a
30+a
45
合计
15
50
65
其中a,15-a均为大于5的整数,若依据小概率值α=0.05的独立性检验,认为X,Y有关,
则a的值为
11、为进一步提升摩托车、电动自行车骑乘人员和汽车驾乘人员安全防护水平,有效减少交通事故死亡人数,2020年4月,公安部交通管理局部署在全国开展“一盔一带”安全守护行动.为研究交通事故中摩托车驾乘人员致死与是否戴头盔有关,现对发生交通事故的摩托车驾乘人员做相关调查,制成如下2×2列联表:
交通事故致死
交通事故不致死
总计
不戴头盔
80
20
100
戴头盔
20
80
100
总计
100
100
200
试问:有多大把握认为交通事故中摩托车驾乘人员致死与不戴头盔有关?
附: χ2=(其中n=a+b+c+d).
α
0.100
0.050
0.010
0.001
xα
2.706
3.841
6.635
10.828
12、为了解使用手机是否对学生的学习有影响,某校随机抽取50名学生,对学习成绩和使用手机情况进行了调查,统计数据如表所示(不完整):
使用手机
不使用手机
总计
学习成绩优秀
5
20
学习成绩一般
总计
30
50
(1)补充完整所给表格,并根据表格数据计算是否有99.9%的把握认为学生的学习成绩与使用手机有关.
参考公式:χ2=,其中n=a+b+c+d.
参考数据:
α
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
xα
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(2)随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
①完成下列2×2列联表:
运动
非运动
总计
男性
女性
总计n
②若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?
第1页
学科网(北京)股份有限公司
$$第八章 成对数据的统计分析》同步配套分层练习-2024-2025学年高二数学教材解读与拓展(沪教版2020)选择性必修第二册
【解析版】 8.3.1 2x2列联表独立性检验
【附录】相关考点
考点一
分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量;这类随机变量称为分类变量,分类变量的取值可以用实数表示;
考点二
原假设与零假设
要检验两个随机变量是否有关,统计上一般先假设它们没有关系,即相互独立,再进行统计检验;这种假设称为原假设,也称为零假设;习惯上用H0表示;
考点三
两组分类变量的2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
其中a、b、c、d为实际观察值;
2×2列联表独立性检验
根据
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
其中a、b、c、d为实际观察值;
由,经过变形可得的一般计算公式:
,其中(注意使用公式时分子的平方不要忽略了)
这种检验方法在统计学中称为2×2列联表独立性检验;
特别提醒:
(1)χ2越小,独立性越强,相关性越弱;χ2越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立;
说明:
1、2×2列联表有什么特征?
【解析】总计a+ b+c +d为样本的容量,即n=a+ b+c +d;
注意:在列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0;
因此|ad-bc|越小,说明两个分类变量之间的关系越弱;
|ad-bc|越大,说明两个分类变量之间的关系越强;
2.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
【解析】观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
3、应用独立性检验的基本思想对两个分类变量关系作出的推断一定是正确的吗?
【解析】不一定.所有的推断只代表一种可能性,不代表具体情况.
4、你能说一下用χ2进行独立性检验的依据吗?
【解析】独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量χ2的值,如果χ2值很大,说明假设不合理.χ2越大,两个分类变量有关系的可能性越大;
【必做题】落实与理解教材要求的基本教学内容;
1、为了解某大学的学生是否爱好体育锻炼,用简单随机抽样的方法在校园内调查了120位学生,得到如下2×2列联表:
男
女
总计
爱好
a
b
73
不爱好
c
25
总计
74
则a-b-c等于( )
A.7 B.8 C.9 D.10
【答案】C ;
【解析】根据题意,可得,c=120-73-25=22,a=74-22=52,b=73-52=21,
即2×2列联如下:
男
女
总计
爱好
52
21
73
不爱好
22
25
47
总计
74
46
120
所以,a-b-c=52-21-22=9;故选C;
2、下面是一个2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
21
73
X=1
8
25
33
合计
b
46
则表中a,b处的值分别为( )
A.94,96 B.52,50 C.52,60 D.54,52
【答案】C
【解析】因为,a+21=73,所以,a=52,b=a+8=52+8=60;
3、在2×2列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( )
A.与 B.与 C.与 D.与
【答案】A;
【解析】当ad与bc相差越大,两个分类变量有关系的可能性越大,此时与相差越大.故选A.
4、根据分类变量与的观测数据,计算得到.依据的独立性检验,结论为( )
A.变量与不独立,这个结论犯错误的概率不超过
B.变量与不独立,这个结论犯错误的概率不超过
C.变量与独立,这个结论犯错误的概率不超过
D.变量与独立,这个结论犯错误的概率不超过
【答案】B;
【解析】因为时,所以,
所以变量与不独立,且这个结论犯错误的概率不超过,故选:B.
【标答题】掌握与体验用相关数学知识与方法规范审题、析题、答题;
5、χ2的大小可以决定是否拒绝原来的统计假设H0,如果χ2值较大,就拒绝H0,即接受两个分类变量________关系;(填“有”或“无”)
【答案】有;
6、某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的2×2列联表中,a+b+d= .
会外语
不会外语
合计
男
a
b
20
女
6
d
合计
18
50
【答案】44
【解析】由题意得a+b+d+6=50,所以a+b+d=50-6=44.
7、若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的命题序号是
①在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系
②1个人吸烟,那么这个人有99%的概率患有肺癌
③在100个吸烟者中一定有患肺癌的人
④在100个吸烟者中可能一个患肺癌的人也没有
【答案】①④;
【解析】独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生;
8、某校对学生课外活动进行调查,结果整理成下表:试根据小概率值α=0.005的独立性检验,分析喜欢体育还是文娱与性别是否有关系.
性别
喜欢
合计
体育
文娱
男生
21
23
44
女生
6
29
35
合计
27
52
79
【解析】零假设为H0:喜欢体育还是喜欢文娱与性别没有关系.
因为 a=21,b=23,c=6,d=29,n=79,
所以 χ2=
=≈8.106>7.879=x0.005.
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关;
【说明】用χ2进行“相关的检验”步骤
(1)零假设:即先假设两变量间没关系.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
【自选题】提升与拓展课本知识与方法,具有知识与方法的交汇与综合,由学生自主选择尝试。
9、针对短视频热,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N,m≥1),男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为( )
附:χ2=.
α
0.05
0.01
xα
3.841
6.635
A.7 B.8
C.9 D.10
【答案】C;
【解析】根据题意,不妨设a=4m,b=m,c=3m,d=2m,
于是χ2===,
由于依据α=0.05的独立性检验认为喜欢短视频和性别不独立,
根据表格可知≥3.841,解得m≥8.0661,于是m的最小值为9;
10、有两个分类变量X,Y,其2×2列联表如下所示:
X
Y
合计
Y1
Y2
X1
a
20-a
20
X2
15-a
30+a
45
合计
15
50
65
其中a,15-a均为大于5的整数,若依据小概率值α=0.05的独立性检验,认为X,Y有关,
则a的值为
【答案】a=8或9;
【解析】由题意可知
χ2=
=>3.841,根据a>5且15-a>5,a∈Z,
求得当a=8或9时满足题意.
11、为进一步提升摩托车、电动自行车骑乘人员和汽车驾乘人员安全防护水平,有效减少交通事故死亡人数,2020年4月,公安部交通管理局部署在全国开展“一盔一带”安全守护行动.为研究交通事故中摩托车驾乘人员致死与是否戴头盔有关,现对发生交通事故的摩托车驾乘人员做相关调查,制成如下2×2列联表:
交通事故致死
交通事故不致死
总计
不戴头盔
80
20
100
戴头盔
20
80
100
总计
100
100
200
试问:有多大把握认为交通事故中摩托车驾乘人员致死与不戴头盔有关?
附: χ2=(其中n=a+b+c+d).
α
0.100
0.050
0.010
0.001
xα
2.706
3.841
6.635
10.828
【解析】由表计算得χ2==72>10.828,故在犯错误的概率不超过0.001的情况下,即有99.9%的把握认为摩托车驾乘人员交通事故致死与不戴头盔有关.
12、为了解使用手机是否对学生的学习有影响,某校随机抽取50名学生,对学习成绩和使用手机情况进行了调查,统计数据如表所示(不完整):
使用手机
不使用手机
总计
学习成绩优秀
5
20
学习成绩一般
总计
30
50
(1)补充完整所给表格,并根据表格数据计算是否有99.9%的把握认为学生的学习成绩与使用手机有关.
参考公式:χ2=,其中n=a+b+c+d.
参考数据:
α
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
xα
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(2)随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
①完成下列2×2列联表:
运动
非运动
总计
男性
女性
总计n
②若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?
【解析】(1)补充表格如下:
使用手机
不使用手机
总计
学习成绩优秀
5
20
25
学习成绩一般
15
10
25
总计
20
30
50
零假设为H0:学生的学习成绩与使用手机无关,
χ2==≈8.333<10.828=x0.001,
根据小概率α=0.001的独立性检验,没有充分证据推断H0不成立,所以,没有99.9%的把握认为学生的学习成绩与使用手机有关.
(2)①补全2×2列联表如下:
运动
非运动
总计
男性
n
n
n
女性
n
n
n
总计
n
n
n
②若在犯错误的概率不超过0.05的前提下,
可认为“性别与休闲方式有关”,则χ2≥x0.05=3.841.
由于χ2==,故≥3.841,
即n≥138.276.又由n∈Z,故n≥140.
故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,
那么本次被调查的至少有140人;
第1页
学科网(北京)股份有限公司
$$