内容正文:
2024-2025学年沪教版2020选择性必修第二册同步培优课程(强基篇)
专题19 列联表与独立性检验
1.分类变量
用随机变量的不同“值”表示个体所属的不同类别(对某一类研究对象按不同的现象或性质进行分类),这种变量称为分类变量.例如:是否吸烟,是否患肺癌,国籍等。分类变量的取值可以用实数表示.
2.2×2列联表(四格表)
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
Y1
Y2
总计
X1
+
X2
+
总计
+
+
2×2列联表给出了成对分类变量数据的交叉分类频数.要解释这些事实,还可列出分布表和条形图
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此直观反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,
观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类变量之间有关系
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
4.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表.
,
进一步变形得一般公式.总体偏差越大,原假设成立可能性越小。
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
因为4.232介于临界值3.841和5.024之间,=0.05,所以两个分类变量没有关系的概率是,即两个分类变量有关系的概率为.
4、温馨提示
(1)独立性检验的必要性:为什么不能只凭列联表和图形下结论?原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此需要用列联表检验这个方法来确认所得得结论在多大程度上适用于总体.
(2)独立性检验的思想来自于统计上的假设性检验,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出矛盾来确定结论是否成立.但是二者的矛盾的含义不同,反证法中的矛盾是指不符合逻辑的事情发生;而假设检验中的矛盾是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.
理解:大于卡方值,小概率的事件成立,假设不成立,变量有关系
小于卡方值,小概率事件不发生,假设成立,变量间没有关系
题型1:列联表完善与分析
【例1】下面是一个列联表,其中a、b处填的值分别为( )
总计
a
21
73
2
25
27
总计
b
46
100
A.52、54 B.54、52
C.94、146 D.146、94
【答案】A
【解析】由题意可得,解得,
所以a、b值分别为52、54.
故选:A.
【例2】假设2个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
a+c
40
100
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=40,c=20 B.a=45,c=15 C.a=35,c=25 D.a=30,c=30
【解题思路】当b,d一定时,a、c相差越大,与相差就越大,K2的观测值k就越大,由此得出X与Y有关系的可能性越大.
【解答过程】解:根据2×2列联表和独立性检验的关系知,
当b、d一定时,与相差越大,X与Y有关系的可能性就越大;
即a、c相差越大,与就相差越大;
选项B中a﹣c=45﹣15=30,与其它选项比较相差最大.
故选:B.
【跟踪训练】
1.如表是一个2×2列联表,则表中,的值分别为( )
合计
21
73
22
25
47
合计
46
120
A.94,72 B.52,50 C.52,74 D.74,52
【答案】C
【解析】由题意,根据2×2列联表,可得,.故选:C.
2. 假设有两个分类变量X和Y的2×2列联表如下:
X
Y
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
注:K2的观测值.
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=45,c=15 B.a=40,c=20 C.a=35,c=25 D.a=30,c=30
【解题思路】根据题意,当b,d一定时,a、c相差越大,与相差就越大,K2的观测值k就越大,由此得出X与Y有关系的可能性越大.
【解答过程】解:根据2×2列联表与独立性检验的相关知识,
当b,d一定时,与相差越大,K2就越大,即X与Y有关系的可能性越大;
即a、c相差越大,与就相差越大;
选项A中a﹣c=45﹣15=30与其它选项比较相差最大.
故选:A.
3.在如下的2×2列联表中,若分类变量X和Y有关系,比值相差大的应该是( )
X1
X2
总计
Y1
a
b
a+b
Y2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.与 B.与 C.与 D.与
【解题思路】当ad与bc差距越大,两个变量有关的可能性就越大,则分类变量X和Y有关系,ad与bc差距会比较大,进而可得答案.
【解答过程】解:∵k2,
则分类变量X和Y有关系时,ad与bc差距会比较大,
由,
故与的比值相差应该大,
故选:A.
4.下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
【答案】有显著差异,且中学更愿意报考
【分析】分别计算中学报考某类大学的比例,对比即可得到结论.
【详解】中学愿意报考某类大学的比率为;
中学愿意报考某类大学的比例为;
,即中学愿意报考某类大学的比例比中学高了,
两所中学的学生对报考某类大学的态度有显著差异,且中学更愿意报考.
题型2: 等高堆积条形图的应用
【例3】为考察某种药物对新冠肺炎的治疗的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对治疗该种疾病有效果的条形图是( )
A. B.
C. D.
【解题思路】根据四个列联表中的等高条形图看出不服药与服药时患新冠肺炎的差异大小,从而得出结论.
【解答过程】解:根据四个列联表中的等高条形图知,图形C中不服药与服药时患新冠肺炎的差异最大,它最能体现该药物对预防新冠肺炎有效果.
故选:C.
【例4】如图是调查某地区男女中学生是否喜欢理科的等高条形图,从如图可以看出该地区的中学生( )
A.性别与是否喜欢理科无关 B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大 D.男生中喜欢理科的比例为80%
【解题思路】根据等高条形图,比较分析数据即可得出结论.
【解答过程】解:从图中可以看出,男生喜欢理科的比例为60%,而女生比例为仅为20%,
这两个比例差别较大,说明性别与是否喜欢理科是有关系的,
男生比女生喜欢理科的可能性更大一些.
故选:C.
【跟踪训练】
1.四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
【答案】C
【解析】根据等高条形图图1可知样本中选择物理学科的人数较多,故C正确;
根据等高条形图图2可知样本中男生人数多于女生人数,故D错误;
样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,
所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;
样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.
故选:C.
题型3: 独立性检验概念辨析
【例5】某课外兴趣小组通过随机调查,利用2×2列联表和统计量研究数学成绩优秀是否与性别有关.计算得,经查阅临界值表知,则下列判断正确的是( )
A.每100个数学成绩优秀的人中就会有1名是女生
B.若某人数学成绩优秀,那么他为男生的概率是0.010
C.有99%的把握认为“数学成绩优秀与性别有关
D.在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别无关”
【答案】C
【解析】每100个数学成绩优秀的人中可能没有女生,也可能有多名女生,
已知数据不能确定结论,A选项错误;
若某人数学成绩优秀,已知数据不能判断他为男生的概率,B选项错误;
∵,∴有99%的把握认为“数学成绩优秀与性别有关”,
即在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”,
C选项正确,D选项错误.故选:C
【例6】对于独立性检验,下列说法中错误的是( )
A.的值越大,说明两事件相关程度越大
B.的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
【答案】C
【分析】结合观测值计算公式,因越大,的值就越大,从而两事件关系越强,否则越弱;理解观测值的意义可知,当时,零假设不成立,即认为事件与有关,否则当时,没有充分理由说明零假设不成立,即认为事件与无关.
【详解】对于A,B,因观测值,的值越大,越大,事件A与事件B关系越强;反之,事件A与事件B关系越弱,故A,B项均正确;
对于C,D,因只有时,说明在犯错误的概率不超过0.05的前提下认为事件与有关,而,故C错误;D正确.
故选:C.
【跟踪训练】
1.给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关
B.喝酒者得胃病的概率
C.喜欢喝酒与性别是否有关
D.学习成绩与体重是否有关
【答案】B
【解析】独立性检验是对两个分类变量是否有关进行检验,
对于A,参加体育锻炼有喜欢、不喜欢,性别有男女,
是对两个分类变量是否有关进行检验;
对于B,喝酒者得胃病的概率不涉及分类变量,不可以用独立性检验解决;
对于C,喝酒有喜欢、不喜欢,性别有男女,
是对两个分类变量是否有关进行检验;
对于D,学习成绩有好与坏,体重有轻与重,
是对两个分类变量是否有关进行检验.故选:B
2.下列关于独立性检验的说法正确的是( )
A.用独立性检验推断的结论可靠,不会犯错误
B.用独立性检验推断的结论可靠,但会犯随机性错误
C.独立性检验的方法适用普查数据
D.对于不同的小概率值,用独立性检验推断的结论相同
【答案】B
【解析】A.独立性检验取决于样本,来确定是否有把握认为“两个分类变量有关系,
样本不同,所得结果会有差异,不会犯错误的说法太绝对,A错;
B.用独立性检验推断的每个结论都会犯随机性错误,B正确
C.根据普查数据,我们可以通过相关的比率给出准确回答,不需要用独立性检验,
依据小概率值推断两个分类变量的关联性,
所以独立性检验的方法不适用普查数据,C错;
D.对于不同的小概率值,结论可能不相同,
有时有把握,有时无把握,把握率不同,D错误.故选:B.
题型4:卡方的计算与判断
【例7】某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如表2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
附:参考公式和临界值表K2.
A.90% B.95% C.99% D.99.9%
【解题思路】根据列联表中数据计算K2,结合附表得出结论.
【解答过程】解:根据列联表中数据,计算K26.944>6.635,
可以说其亲属的饮食习惯与年龄有关的把握为99%.
故选:C.
【例8】随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
【答案】3.968
【分析】由题意,根据列联表中所给数据补全列表,将数据代入公式得,计算即可得到答案.
【详解】补全列联表
室外工作
室内工作
总计
有呼吸系统疾病
150
200
350
无呼吸系统疾病
50
100
150
总计
200
300
500
.
故答案为:3.968.
【跟踪训练】
1.经研究表明健康的饮食和科学的运动能够有效减少低密度脂蛋白浓度.为了调查某地青年人的低密度脂蛋白浓度是否与肥胖有关,随机调查该地100名青年大,得到2×2列联表如下:
肥胖
不肥胖
总计
低密度脂蛋白不高于3.1mmol/L
10
65
75
低密度脂蛋白高于3.1mmol/L
10
15
25
总计
20
80
100
由此得出的正确结论是( )
A.在犯错误的概率不超过0.5%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖有关”
B.在犯错误的概率不超过0.5%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖无关”
C.在犯错误的概率不超过0.1%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖有关”
D.在犯错误的概率不超过0.1%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖无关”
【答案】A
【解析】由题表知
所以,在犯错误的概率不超过0.5%的前提下,
认为“该地青年人的低密度脂蛋白浓度与肥胖有关”故选:A
2.某学校调查学生对2022年卡塔尔世界杯的关注是否与性别有关,随机抽样调查了110名学生,进行独立性检验,列联表及临界值表如下:
男生
女生
合计
关注
50
不关注
20
合计
30
110
0.15
0.1
0.05
0.025
0.01
2.072
2.076
3.841
5.024
6.635
附:,其中.
则下列说法中正确的是( )
A.有97.5%的把握认为学生对卡塔尔世界杯的关注与性别无关
B.男生不关注卡塔尔世界杯的比例低于女生关注卡塔尔世界杯的比例
C.在犯错误概率不超过1%的前提下可认为学生对卡塔尔世界杯的关注为性别有关
D.在犯错误概率不超过1%的前提下可认为学生对卡塔尔世界杯的关注与性别无关
【答案】C
【解析】列联表如下:
男生
女生
合计
关注
50
10
60
不关注
30
20
50
合计
80
30
110
则
对于A:,
则有97.5%的把握认为学生对卡塔尔世界杯的关注与性别有关,故A错误;
对于B:男生不关注卡塔尔世界杯的比例为,
女生关注卡塔尔世界杯的比例为,且,
则男生不关注卡塔尔世界杯的比例高于女生关注卡塔尔世界杯的比例,故B错误;
对于C、D;,
则在犯错误概率不超过1%的前提下可认为学生对卡塔尔世界杯的关注为性别有关.
故C正确,D错误.故选:C
题型5:独立性检验与统计图综合应用
【例9】为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.
数学成绩优秀
数学成绩不优秀
合计
经常整理
不经常整理
合计
(1)求图1中的值以及学生期中考试数学成绩的上四分位数;
(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?
(3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.
附:
【解析】(1)由题意可得,
解得,
学生期中考试数学成绩的上四分位数为:分;
(2)数学成绩优秀的有人,不优秀的人人,经常整理错题的有人,不经常整理错题的是人,经常整理错题且成绩优秀的有人,则
数学成绩优秀
数学成绩不优秀
合计
经常整理
35
25
60
不经常整理
15
25
40
合计
50
50
100
零假设为:数学成绩优秀与经常整理数学错题无关,
根据列联表中的数据,经计算得到可得,
根据小概率值的独立性检验,我们推断不成立,
即认为数学成绩优秀与经常整理数学错题有关联,此推断犯错误的概率不大于;
(3)由分层抽样知,随机抽取的5名学生中经常整理错题的有3人,不经常整理错题的有2人,则可能取为0,1,2,
经常整理错题的3名学生中,恰抽到k人记为事件,则
参与座谈的2名学生中经常整理错题且数学成绩优秀的恰好抽到人记为事件
则,,,,
,,
,
,
,
故X的分布列如下:
X
0
1
2
P
则可得X的数学期望为
【例10】2022年3月“两会”在北京召开,会议吸引了全球的目光,对我国以后的社会经济发展有巨大的历史意义,遂宁市某媒体为调查市民对“两会”了解情况,进行了一次“两会”知识问卷调查(每位市民只能参加一次),随机抽取年龄在15~75岁之间的100人进行调查,并按年龄绘制的频率分布直方图如下图所示,其分组区间为:[15,25),[25,35),[35,45),[45,55),[55,65),[65,75],把年龄落在区间[15,35)和[35,75]内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11.
(1)求图中a、b的值和年龄的中位数(中位数保留一位小数);
(2)若“青少年人”中有15人在关注两会,根据已知条件完成下面的2×2列联表,根据列联表,判定是否有99%的把握认为“中老年人”比“青少年人”更加关注两会?
关注
不关注
合计
青少年人
15
中老年人
合计
50
50
100
附:.
P(K2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
【解题思路】(1)依频率分布直方图列出方程求解可得 ,据此结合频率分布直方图可求出中位数;
(2)根据题目所给数据,填写好表格,根据公式计算 K2≈9.091,即可判断.
【解答过程】解:(1)依频率分布直方图可知:,解之,得 ,
设中位数为x,因为年龄在[15,45)内人数所占频率为0.15+0.3=0.45,故x∈[35,45),
则(x﹣35)×0.035=0.5﹣0.45=0.05,
解得x≈36.4,即中位数为36.4;
(2)依题意可知:“青少年人”共有人,“中老年人”共有100﹣45=55 人,
完成的 2×2 列联表如下:
关注
不关注
合计
青少年人
15
30
45
中老年人
35
20
55
合计
50
50
100
结合列联表的数据得:
,
因为P(K2>6.635)=0.01,9.091>6.635,
所以有超过99%的把握认为“中老年人”比“青少年人”更加关注两会.
【跟踪训练】
1.劳动教育具有树德、增智、强体、育美的综合育人价值.某学校为了解学生参加家务劳动的情况,随机抽查了100名学生,其中有40名男生,并统计了这些学生在某个休息日做家务劳动的时间,将劳动时间分为5组:[0.5,1),[1,1.5),[1.5,2),[2,2.5),[2.5,3],得到如图所示的频率分布直方图.
(Ⅰ)已知该校学生李华在该休息日做了1.6小时的家务劳动,根据绘制的频率分布直方图,试用统计的知识分析李华做家务劳动的时间处于什么水平(同一组中的数据以这组数据所在区间中点的值作代表);
(Ⅱ)若做家务劳动的时间不低于2小时称为“喜欢做家务”,已知调查数据中喜欢做家务劳动的男生有5人,据所给数据,完成下面的2×2列联表,并判断是否有95%的把握认为“是否喜欢做家务劳动与性别有关”.
喜欢做家务
不喜欢做家务
男生
女生
附:.
P(K2≥k0)
0.10
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
【解题思路】(Ⅰ)由频率和为1求出m的值,再计算样本数据的平均数,由此得出结论.
(Ⅱ)根据题意填写列联表,计算观测值,对照临界值得出结论.
【解答过程】解:(Ⅰ)由频率和为1得0.5×(0.3+0.5+m+0.4+0.1)=1,解得m=0.7,
计算样本数据的平均数为0.75×0.3×0.5+1.25×0.5×0.5+1.75×0.7×0.5+2.25×0.4×0.5+2.75×0.1×0.5=1.7625>1.6,
所以李华做家务劳动的时间稍微低于平均水平.
(Ⅱ)做家务劳动的时间不低于2小时的人数为100×(0.4+0.1)×0.5=25,其中男生有5人,由此填写2×2列联表,
喜欢做家务
不喜欢做家务
合计
男生
5
35
40
女生
20
40
60
合计
25
75
100
计算K25.556>3.841,
所以有95%的把握认为“是否喜欢做家务劳动与性别有关”.
题型6:独立性检验与概率综合应用
【例11】某校为普及安全知识,随机抽取了400名学生开展一次校园安全知识答题活动.满分100分,计分分为两类:60分及以上为合格,60分以下为不合格.统计结果如下:
合格
不合格
男生
40%
15%
女生
25%
20%
(1)判断能否有的把握认为“校园安全知识答题合格与性别有关”;
(2)现从答题不合格的学生中按性别分层抽样抽取7人,再从7人中任选4人进行安全知识学习,求恰好抽到一名女生的概率.
附:列联表参考公式:,其中.
临界值表:
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)有的把握认为“校园安全知识答题合格与性别有关”;(2)
【解析】(1)依题意有列联表
合格
不合格
合计
男生
女生
合计
故有的把握认为“校园安全知识答题合格与性别有关”.
(2)由分层抽样比得男生抽取人,女生抽取人,
人中任选人恰好抽到一名女生的概率为.
【例12】溺水、校园欺凌、食品卫生、消防安全、道路交通等与学生安全有关的问题越来越受到社会的关注和重视.学校安全工作事关学生的健康成长,关系到千万个家庭的幸福和安宁,关系到整个社会的和谐稳定.为了普及安全教育,某市准备组织一次安全知识竞赛.某学校为了选拔学生参赛,按性别采用分层抽样的方法抽取200名学生进行安全知识测试,根据200名同学的测试成绩得到如下表格:
性别
了解安全知识的程度
得分不超过85分的人数
得分超过85分的人数
男生
20
100
女生
30
50
(1)现从得分超过85分的学生中根据性别采用分层随机抽样抽取6名学生进行安全知识培训,再从这6名学生中随机抽取3名学生去市里参加竞赛,求这3名学生中有至少一名女生的概率;
(2)根据小概率值的独立性检验,能否推断该校男生和女生在了解安全知识的程度与性别有关?
附:参考公式,其中.
下表是独立性检验中几个常用的小概率值和相应的临界值
a
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1);(2)我们认为性别与了解安全知识的程度有关
【解析】(1)200名学生中得分超过85分的人数为150人,
其中男生人数为100人,女生人数为50人,
因此按性别进行分层抽样得:
样本中男生人数为:人,样本中女生人数为:人,
设这3名学生中有至少一名女生为事件,则;
(2)根据列联表可:,
根据小概率值的独立性检验,
我们认为性别与了解安全知识的程度有关,此推断犯错误的概率不大于0.001.
【跟踪训练】
1.在“双减”政策背景之下,某校就推进学校、家庭、社会体育教育的“一体化”,实现“教会、勤练、常赛”的核心任务.学校组织人员对在校学生“是否喜爱运动”做了一次随机调查.共随机调查了18名男生和12名女生,调查发现,男、女生中分别有12人和6人喜爱运动,其余不喜爱.
喜欢运动
不喜欢运动
总计
男
女
总计
(1)根据以上数据完成以下列联表:
0.40
0.25
0.10
0.010
0.708
1.323
2.706
6.635
根据小概率值的独立性检验,能否据此推断性别与喜爱运动有关?
(2)从被调查的女生中抽取3人,若其中喜爱运动的人数为,求的分布列及数学期望.
附参考公式及参考数据:
,其中.
【解析】(1)由已知数据完成列联表如图,
喜爱运动
不喜爱运动
总计
男
12
6
18
女
6
6
12
总计
18
12
30
假设是否喜爱运动与性别无关,由已知数据可求得:
,
因此,没有充分的把握判断喜爱运动与性别有关.
(2)喜爱运动的人数为的取值分别为:0,1,2,3,
则有:;;;.
所以喜爱运动的人数为的分布列为:
0
1
2
3
故数学期望.
2.第31届世界大学生夏季运动会,是中国西部第一次举办世界性综合运动会,共设篮球、排球、田径、游泳等18个大项、269个小项.该届赛事约有来自170个国家和地区的1万余名运动员及官员赴蓉参加,该届赛事于2023年7月28日至8月8日在中国四川省成都市举行.为了了解关注该赛事是否与性别有关,某体育台随机抽取2000名观众进行统计,得到如下2×2列联表.
男
女
合计
关注该赛事
600
300
900
不关注该赛事
400
700
1100
合计
1000
1000
2000
(1)在所有女观众中,试估计她们关注该赛事的概率(结果用百分数表示);
(2)根据小概率值的独立性检验,能否认为是否关注该赛事与性别有关联?
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【解析】(1)女观众关注该赛事的概率约为:.
(2)零假设为:是否关注该赛事与性别无关联.
根据列联表中的数据,经计算得到
,
根据小概率值的独立性检验,推断不成立,即认为是否关注该赛事与性别有关联.
一、填空题
1、(2023上海专题练习)下表是一个列联表,则表中,的值分别为( )
总计
21
25
33
总计
100
A.46,54 B.54,46 C.52,54 D.50,52
【答案】B
【解析】由表格中的数据可得,,
所以,.故选:B.
2、(2024大同中学高三上期中)为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
【答案】C
【解析】由列联表中的数据可知,乙校共抽的样本人,其中优秀的有人.故选:C
3.(2023·上海·统考模拟预测)某校团委对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢网络游戏的人数占男生人数的,女生喜欢网络游戏的人数占女生人数的.若根据独立性检验认为喜欢网络游戏和性别有关,且此推断犯错误的概率超过0.01但不超过0.05,则被调查的学生中男生可能有 人.(请将所有可能的结果都填在横线上)
附表:,其中.
0.050
0.010
3.841
6.635
【答案】45,50,55,60,65
【解析】设男生有x人,由题意可得列联表如下,
喜欢
不喜欢
合计
男生
x
女生
x
合计
若认为喜欢网络游戏和性别有关,且该推断犯错误的概率超过0.01但不超过0.05,
则.
∵,
∴,解得,
又x为5的整数倍,∴被调查的学生中男生可能人数为45,50,55,60,65.
故答案为:45,50,55,60,65.
4.(21-22高二下·上海黄浦·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关“作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为中学生追星与性别有关,则女生至少有 人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
,.
【答案】20
【分析】设男生人数为x,可得列联表,由此计算的表达式,根据有的把握认为中学生追星与性别有关,可得不等式,结合,可求得答案.
【详解】设男生人数为x,则可得列联表如下:
喜欢追星
不喜欢追星
合计
男生
女生
合计
则计算 ,
若有的把握认为中学生追星与性别有关,则需,
解得,
又,故x至少为60,则女生至少有20人,
即有 的把握认为中学生追星与性别有关时,女生至少有20人,
故答案为︰20.
5.(24-25高三上·上海·单元测试)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是 %.参考数据:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】97.5
【分析】根据独立性检验知识,对照表格中的数据分析即可.
【详解】由,
可知市政府断言市民收入增减与旅游需求有关的可信度是97.5%,
故答案为:97.5
6.(24-25格致中学高二期末)某高校统计课程的教师随机调查了选择该课的学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,所以有 的把握判定主修统计专业与性别有关系.
性别
非统计专业(人)
统计专业(人)
男
13
10
女
7
20
【答案】
【分析】根据卡方的运算结果,结合独立性检验中相应的临界值进行求解即可
【详解】小概率值0.05对应的临界值为,
因为,
所以有的把握判定主修统计专业与性别有关系.
故答案为:
7.(25-26高三上·上海·单元测试)某校对“学生性别和喜欢某热门软件是否有关”作了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该软件的人数占男生人数的,女生喜欢该软件的人数占女生人数.若有95%的把握认为是否喜欢该软件和性别有关,则男生至少有 人.
0.050
0.010
3.841
6.635
【答案】12
【分析】由有的把握认为是否喜欢该软件和性别有关可得,列方程求男生人数的范围,结合条件确定男生的人数的最小值.
【详解】设男生人数为,则女生人数为,则列联表如下:
喜欢该软件
不喜欢该软件
合计
男生
女生
合计
若有的把握认为是否喜欢该软件和性别有关,则,
即,解得.
又因为,,,为整数,所以男生至少有人.
故答案为:12.
二、选择题
8.(2023复兴高级中学月考)在考察儿童出生月份X与学习成绩Y是否优秀的独立性检验中,得出如图的列联表:如果最后发现,这两个分类变量X和Y没有任何关系,则表中正数a的值最有可能是( )
上半年出生
下半年出生
合计
学习成绩优秀
200
800
1000
学习成绩非优秀
180
a
180+a
合计
380
800+a
1180+a
A.200 B.720 C.100 D.690
【解题思路】由X与Y没有任何关系,得上半年出生的优秀率与下半年出生的优秀率近似相等,从而得a的值.
【解答过程】解:∵X与Y没有任何关系,
∴上半年出生的优秀率与下半年出生的优秀率近似相等,
∴,
∴a≈720,
故选:B.
9.为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻的经常性有影响,随机抽取了300名学生,对他们是否经常锻炼的情况进行了调查,调查发现经常锻炼人数是不经常锻炼人数的2倍,绘制其等高堆积条形图,如图所示,则不正确的是( )
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
C.依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1
D.假设调查人数为600人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的等高堆积条形图也不变,依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05
附:,
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】C
【解析】对于A,由题意知经常锻炼人数是不经常锻炼人数的2倍,
故经常锻炼人数为200人,不经常锻炼人数为100人,
故男生中经常锻炼的人数为人,不经常锻炼的人数为人,
故男生中经常锻炼的人数比不经常锻炼的人数多,A正确;
对于B,经常锻炼的女生人数为人,不经常锻炼的人数为人,
故从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为,B正确;
对于C,由题意结合男女生中经常锻炼和不经常锻炼的人数,可得列联表:
经常锻炼
不经常锻炼
合计
男
100
60
160
女
100
40
140
合计
200
100
300
则,
故依据的独立性检验,不能认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1,C错误;
对于D,由题意可得:
经常锻炼
不经常锻炼
合计
男
200
120
320
女
200
80
280
合计
400
200
600
则此时,
故依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05,D正确,
故选:C
10.(2023·高二课时练习)“独立性检验”中,在犯错误的概率不超过0.05的前提下认为事件A和B有关,则算出的数据满足( )
A. B. C. D.
【答案】C
【解析】由临界值表可知:当时,
满足在犯错误的概率不超过0.05的前提下认为事件和有关,
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.46
0.71
1.32
2.07
2.71
3.84
5.02
6.64
7.88
10.83
结合选项可知,故选:C.
11.(2022春·广西北海·高二统考期末)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
附表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.若的观测值,我们有99.9%的把握认为吸烟与患肺病有关系,那么在1000个吸烟的人中必有999人患有肺病
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病
C.从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误
D.以上三种说法都不正确
【答案】C
【解析】对于选项A:若的观测值,
我们有的把握认为吸烟与患肺病有关系,
但在1000个吸烟的人中未必有999人患有肺病,故选项A不正确;
对于选项B:从独立性检验可以知道有的把握认为吸烟与患肺病有关系时,
是指吸烟与患肺病有关系的概率,而不是吸烟的人有的可能性患有肺病,
故选项B不正确;
对于选项C:若从统计量中求出有的把握认为吸烟与患肺病有关系,
则有的可能性使得判断出现错误,故选项C正确.故选:C
12.(2023崇明区高二统考期末)若由一个列联表中的数据计算得,则有( )把握认为两个变量有关系.
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.95% B.97.5% C.99% D.99.9%
【答案】C
【解析】由于,
因为,则,
那么有的把握认为两个变量有关系.故选:C.
13.(2024复旦附中校级月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如表2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
附:参考公式和临界值表K2
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
A.90% B.95% C.99% D.99.9%
【解题思路】计算观测值,与临界值比较,即可得出结论.
【解答过程】解:设H0:饮食习惯与年龄无关.
因为K210>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
故选:C.
14.(2024徐汇中学高二期末)第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下2×2列联表:
关注冰雪运动
不关注冰雪运动
合计
男
45
10
55
女
25
20
45
合计
70
30
100
下列说法正确的是( )
参考公式:,其中n=a+b+c+d.
附表:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
A.有99%以上的把握认为“关注冰雪运动与性别有关”
B.有99%以上的把握认为“关注冰雪运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“关注冰雪运动与性别无关”
D.在犯错误的概率不超过0.1%的前提下,认为“关注冰雪运动与性别有关”
【解题思路】由列联表中的数据计算K2,对照附表得出结论.
【解答过程】解:根据列联表中的数据,计算K28.129>6.635,
所以在犯错误的概率不超过1%的前提下,认为“关注冰雪运动与性别有关,
即有99%以上的把握认为“关注冰雪运动与性别有关”.
故选:A.
三、解答题
15.(2019•新课标Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有的把握认为男、女顾客对该商场服务的评价有差异?
附:.
0.050
0.010
0.001
3.841
6.635
10.828
【解析】(1)由题中数据可知,男顾客对该商场服务满意的概率,
女顾客对该商场服务满意的概率;
(2)由题意可知,,
故有的把握认为男、女顾客对该商场服务的评价有差异.
16.(2023普陀区校级期末)某校用随机抽样的方法调查学生参加校外补习情况,得到的数据如下表:
分数等级人数
不及格
及格
良好
优秀
学生人数
8
52
29
11
参加校外补习人数
5
15
7
3
(1)从中任取一名学生,记“该生参加了校外补习”,“该生成绩为优秀”.求及;
(2)能否在犯错误的概率不超过0.1的前提下认为学生成绩优秀或良好与校外补习有关?
附:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1),;(2)不能在犯错误的概率不超过为0.1的前提下认为学生成绩优秀或良好与校外补习有关.
【解析】(1)由给定的数表得:,,,
所以.
(2)由已知得列联表:
参加校外
不参加校外
合计
成绩优秀或良好
10
30
40
成绩不为优秀且良好
20
40
60
合计
30
70
100
的观测值为,
所以不能在犯错误的概率不超过为0.1的前提下
认为学生成绩优秀或良好与校外补习有关.
17.(2023嘉定区高二期末)被赞誉为“波士顿比利”的美国知名跑者比尔·罗杰斯曾经说过:“跑步是全世界最棒的运动.”坚持跑步可以增强体质、提高免疫力、改善精神状态.某数学兴趣小组从某地大学生中随机抽取200人,调查他们是否喜欢跑步,得到的数据如下表所示.
喜欢跑步
不喜欢跑步
总计
男生
50
120
女生
30
总计
200
(1)分别估计该地男、女大学生喜欢跑步的概率;
(2)能否有的把握认为该地大学生是否喜欢跑步与性别有关?
参考公式:,其中.
参考数据:
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1);(2)有99%的把握认为该地大学生是否喜欢跑步与性别有关
【解析】(1)由题意可得样本中女大学生有200-120=80人,则女大学生喜欢跑步的频率是,
故该地女大学生喜欢跑步的概率是.
由题意可知样本中喜欢跑步的男大学生有人,
则男大学生喜欢跑步的频率是,
故该地男大学生喜欢跑步的概率是.
(2)由题意可得.
查表可得,
由于8.333>6.635,所以有99%的把握认为该地大学生是否喜欢跑步与性别有关.
18.(2023上海·高二课时练习)随着节能减排意识深入人心,共享单车在各大城市大范围推广,越来越多的市民在出行时喜欢选择骑行共享单车.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:
每周使用次数
1次
2次
3次
4次
5次
6次及以上
男
4
3
3
7
8
30
女
6
5
4
4
6
20
合计
10
8
7
11
14
50
(1)如果用户每周使用共享单车超过3次,那么认为其“喜欢骑行共享单车”.请完成下面的列联表,并判断依据的独立性检验,能否认为“喜欢骑行共享单车”与性别有关;
不喜欢骑行共享单车
喜欢骑行共享单车
合计
男
女
合计
(2)每周骑行共享单车6次及6次以上的用户称为“骑行达人”,将频率视为概率,在我市所有的“骑行达人”中随机抽取4名,求抽取的这4名“骑车达人”中,既有男性又有女性的概率.
【答案】(1)表格见解析,不能认为“喜欢骑行共享单车”与性别有关;(2)
【解析】(1)由题目表格中的数据可得如下列联表:
不喜欢骑行共享单车
喜欢骑行共享单车
合计
男
10
45
55
女
15
30
45
合计
25
75
100
将列联表中的数据代入公式,得,
所以依据的独立性检验,不能认为“喜欢骑行共享单车”与性别有关.
(2)将频率视为概率,在我市的“骑行达人”中随机抽取1名,
则该“骑行达人”是男性的概率为,
是女性的概率为.故抽取的这4名“骑行达人”中,
既有男性又有女性的概率.
19.(2022•全国卷模拟)某学校共有2000名学生,其中女生1200人,为了解该校学生在学校的月消费情况,采取分层抽样随机抽取了200名学生进行调查,月消费金额分布在550~1050元之间.根据调查的结果绘制的学生在校月消费金额的频率分布直方图如图所示,将月消费金额不低于850元的学生称为“高消费群”.
(1)求a的值,并估计该校学生月消费金额的平均数;(同一组中的数据用该组区间的中点值作代表)
(2)若样本中属于“高消费群”的男生有10人,完成下列2×2列联表,并判断是否有99.9%以上的把握认为该校学生属于“高消费群”与“性别”有关.
属于“高消费群”
不属于“高消费群”
合计
男
女
合计
P(K2≥k0)
0.025
0.010
0.005
0.001
k0
5.024
6.635
7.879
10.828
(,其中n=a+b+c+d)
【解题思路】(1)根据概率和为1列方程求出a,再求样本的平均数.
(2)根据题意填写列联表,计算K2,对照附表得出结论.
【解答过程】解:(1)由题意知100×(0.0015+0.0035+a+0.0015+0.0010)=1,解得a=0.0025,
所以样本平均数为600×0.15+700×0.35+800×0.25+900×0.15+1000×0.10=770元.
(2)由题可知,样本中男生80人,女生120人,属于“高消费群”的有200×0.25=50人,其中男生10人,得出以下2×2列联表:
属于“高消费群”
不属于“高消费群”
合计
男生
10
70
80
女生
40
80
120
合计
50
150
200
计算K211.111>10.828,
所以有99.9%的把握认为该校学生属于“高消费群”与“性别”有关.
20.(2024七宝中学高二期末)很多人都爱好抖音,为了调查手机用户每天使用抖音的时间,某通讯公司在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用抖音的时间(单位:h)分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.
(1)根据频率分布直方图估计女性平均每天使用抖音的时间;(同一组中的数据用该组区间的中点值为代表)
(2)若每天玩抖音超过4h的用户称为“抖音控”,否则称为“非抖音控”,完成如下列联表,判断是否有90%的把握认为是否是“抖音控”与性别有关.
抖音控
非抖音控
总计
男性
女性
总计
【解题思路】(1)根据频率分布直方图中同一组的数据用该组区间的中点值为代表,计算平均数即可;
(2)填写列联表,计算观测值,对照观测值得出结论.
【解答过程】解:(1)根据频率分布直方图估计女性平均每天使用抖音的时间为
(0.08×1+0.12×3+0.14×5+0.10×7+0.06×9)×2=4.76;
(2)根据题意填写列联表如下:
抖音控
非抖音控
总计
男性
38
12
50
女性
30
20
50
总计
68
32
100
计算K22.941>2.706,
所以有90%的把握认为是否是“抖音控”与性别有关.
(
1
)
学科网(北京)股份有限公司
学科网(北京)股份有限公司
2 / 2
学科网(北京)股份有限公司
$$
2024-2025学年沪教版2020选择性必修第二册同步培优课程(强基篇)
专题19 列联表与独立性检验
1.分类变量
用随机变量的不同“值”表示个体所属的不同类别(对某一类研究对象按不同的现象或性质进行分类),这种变量称为分类变量.例如:是否吸烟,是否患肺癌,国籍等。分类变量的取值可以用实数表示.
2.2×2列联表(四格表)
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
Y1
Y2
总计
X1
+
X2
+
总计
+
+
2×2列联表给出了成对分类变量数据的交叉分类频数.要解释这些事实,还可列出分布表和条形图
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此直观反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,
观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类变量之间有关系
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
4.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表.
,
进一步变形得一般公式.总体偏差越大,原假设成立可能性越小。
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
因为4.232介于临界值3.841和5.024之间,=0.05,所以两个分类变量没有关系的概率是,即两个分类变量有关系的概率为.
4、温馨提示
(1)独立性检验的必要性:为什么不能只凭列联表和图形下结论?原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此需要用列联表检验这个方法来确认所得得结论在多大程度上适用于总体.
(2)独立性检验的思想来自于统计上的假设性检验,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出矛盾来确定结论是否成立.但是二者的矛盾的含义不同,反证法中的矛盾是指不符合逻辑的事情发生;而假设检验中的矛盾是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.
理解:大于卡方值,小概率的事件成立,假设不成立,变量有关系
小于卡方值,小概率事件不发生,假设成立,变量间没有关系
题型1:列联表完善与分析
【例1】下面是一个列联表,其中a、b处填的值分别为( )
总计
a
21
73
2
25
27
总计
b
46
100
A.52、54 B.54、52
C.94、146 D.146、94
【例2】假设2个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
a+c
40
100
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=40,c=20 B.a=45,c=15 C.a=35,c=25 D.a=30,c=30
【跟踪训练】
1.如表是一个2×2列联表,则表中,的值分别为( )
合计
21
73
22
25
47
合计
46
120
A.94,72 B.52,50 C.52,74 D.74,52
2. 假设有两个分类变量X和Y的2×2列联表如下:
X
Y
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
注:K2的观测值.
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=45,c=15 B.a=40,c=20 C.a=35,c=25 D.a=30,c=30
3.在如下的2×2列联表中,若分类变量X和Y有关系,比值相差大的应该是( )
X1
X2
总计
Y1
a
b
a+b
Y2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.与 B.与 C.与 D.与
4.下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
题型2: 等高堆积条形图的应用
【例3】为考察某种药物对新冠肺炎的治疗的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对治疗该种疾病有效果的条形图是( )
A. B.
C. D.
【例4】如图是调查某地区男女中学生是否喜欢理科的等高条形图,从如图可以看出该地区的中学生( )
A.性别与是否喜欢理科无关 B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大 D.男生中喜欢理科的比例为80%
【跟踪训练】
1.四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
题型3: 独立性检验概念辨析
【例5】某课外兴趣小组通过随机调查,利用2×2列联表和统计量研究数学成绩优秀是否与性别有关.计算得,经查阅临界值表知,则下列判断正确的是( )
A.每100个数学成绩优秀的人中就会有1名是女生
B.若某人数学成绩优秀,那么他为男生的概率是0.010
C.有99%的把握认为“数学成绩优秀与性别有关
D.在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别无关”
【例6】对于独立性检验,下列说法中错误的是( )
A.的值越大,说明两事件相关程度越大
B.的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
【跟踪训练】
1.给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关 B.喝酒者得胃病的概率
C.喜欢喝酒与性别是否有关 D.学习成绩与体重是否有关
2.下列关于独立性检验的说法正确的是( )
A.用独立性检验推断的结论可靠,不会犯错误
B.用独立性检验推断的结论可靠,但会犯随机性错误
C.独立性检验的方法适用普查数据
D.对于不同的小概率值,用独立性检验推断的结论相同
题型4:卡方的计算与判断
【例7】某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如表2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
附:参考公式和临界值表K2.
A.90% B.95% C.99% D.99.9%
【例8】随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
【跟踪训练】
1.经研究表明健康的饮食和科学的运动能够有效减少低密度脂蛋白浓度.为了调查某地青年人的低密度脂蛋白浓度是否与肥胖有关,随机调查该地100名青年大,得到2×2列联表如下:
肥胖
不肥胖
总计
低密度脂蛋白不高于3.1mmol/L
10
65
75
低密度脂蛋白高于3.1mmol/L
10
15
25
总计
20
80
100
由此得出的正确结论是( )
A.在犯错误的概率不超过0.5%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖有关”
B.在犯错误的概率不超过0.5%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖无关”
C.在犯错误的概率不超过0.1%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖有关”
D.在犯错误的概率不超过0.1%的前提下,认为“该地青年人的低密度脂蛋白浓度与肥胖无关”
2.某学校调查学生对2022年卡塔尔世界杯的关注是否与性别有关,随机抽样调查了110名学生,进行独立性检验,列联表及临界值表如下:
男生
女生
合计
关注
50
不关注
20
合计
30
110
0.15
0.1
0.05
0.025
0.01
2.072
2.076
3.841
5.024
6.635
附:,其中.
则下列说法中正确的是( )
A.有97.5%的把握认为学生对卡塔尔世界杯的关注与性别无关
B.男生不关注卡塔尔世界杯的比例低于女生关注卡塔尔世界杯的比例
C.在犯错误概率不超过1%的前提下可认为学生对卡塔尔世界杯的关注为性别有关
D.在犯错误概率不超过1%的前提下可认为学生对卡塔尔世界杯的关注与性别无关
题型5:独立性检验与统计图综合应用
【例9】为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.
数学成绩优秀
数学成绩不优秀
合计
经常整理
不经常整理
合计
(1)求图1中的值以及学生期中考试数学成绩的上四分位数;
(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?
(3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.
附:
【例10】2022年3月“两会”在北京召开,会议吸引了全球的目光,对我国以后的社会经济发展有巨大的历史意义,遂宁市某媒体为调查市民对“两会”了解情况,进行了一次“两会”知识问卷调查(每位市民只能参加一次),随机抽取年龄在15~75岁之间的100人进行调查,并按年龄绘制的频率分布直方图如下图所示,其分组区间为:[15,25),[25,35),[35,45),[45,55),[55,65),[65,75],把年龄落在区间[15,35)和[35,75]内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11.
(1)求图中a、b的值和年龄的中位数(中位数保留一位小数);
(2)若“青少年人”中有15人在关注两会,根据已知条件完成下面的2×2列联表,根据列联表,判定是否有99%的把握认为“中老年人”比“青少年人”更加关注两会?
关注
不关注
合计
青少年人
15
中老年人
合计
50
50
100
附:.
P(K2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
【跟踪训练】
1.劳动教育具有树德、增智、强体、育美的综合育人价值.某学校为了解学生参加家务劳动的情况,随机抽查了100名学生,其中有40名男生,并统计了这些学生在某个休息日做家务劳动的时间,将劳动时间分为5组:[0.5,1),[1,1.5),[1.5,2),[2,2.5),[2.5,3],得到如图所示的频率分布直方图.
(Ⅰ)已知该校学生李华在该休息日做了1.6小时的家务劳动,根据绘制的频率分布直方图,试用统计的知识分析李华做家务劳动的时间处于什么水平(同一组中的数据以这组数据所在区间中点的值作代表);
(Ⅱ)若做家务劳动的时间不低于2小时称为“喜欢做家务”,已知调查数据中喜欢做家务劳动的男生有5人,据所给数据,完成下面的2×2列联表,并判断是否有95%的把握认为“是否喜欢做家务劳动与性别有关”.
喜欢做家务
不喜欢做家务
男生
女生
附:.
P(K2≥k0)
0.10
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
题型6:独立性检验与概率综合应用
【例11】某校为普及安全知识,随机抽取了400名学生开展一次校园安全知识答题活动.满分100分,计分分为两类:60分及以上为合格,60分以下为不合格.统计结果如下:
合格
不合格
男生
40%
15%
女生
25%
20%
(1)判断能否有的把握认为“校园安全知识答题合格与性别有关”;
(2)现从答题不合格的学生中按性别分层抽样抽取7人,再从7人中任选4人进行安全知识学习,求恰好抽到一名女生的概率.
附:列联表参考公式:,其中.
临界值表:
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【例12】溺水、校园欺凌、食品卫生、消防安全、道路交通等与学生安全有关的问题越来越受到社会的关注和重视.学校安全工作事关学生的健康成长,关系到千万个家庭的幸福和安宁,关系到整个社会的和谐稳定.为了普及安全教育,某市准备组织一次安全知识竞赛.某学校为了选拔学生参赛,按性别采用分层抽样的方法抽取200名学生进行安全知识测试,根据200名同学的测试成绩得到如下表格:
性别
了解安全知识的程度
得分不超过85分的人数
得分超过85分的人数
男生
20
100
女生
30
50
(1)现从得分超过85分的学生中根据性别采用分层随机抽样抽取6名学生进行安全知识培训,再从这6名学生中随机抽取3名学生去市里参加竞赛,求这3名学生中有至少一名女生的概率;
(2)根据小概率值的独立性检验,能否推断该校男生和女生在了解安全知识的程度与性别有关?
附:参考公式,其中.
下表是独立性检验中几个常用的小概率值和相应的临界值
a
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【跟踪训练】
1.在“双减”政策背景之下,某校就推进学校、家庭、社会体育教育的“一体化”,实现“教会、勤练、常赛”的核心任务.学校组织人员对在校学生“是否喜爱运动”做了一次随机调查.共随机调查了18名男生和12名女生,调查发现,男、女生中分别有12人和6人喜爱运动,其余不喜爱.
喜欢运动
不喜欢运动
总计
男
女
总计
(1)根据以上数据完成以下列联表:
0.40
0.25
0.10
0.010
0.708
1.323
2.706
6.635
根据小概率值的独立性检验,能否据此推断性别与喜爱运动有关?
(2)从被调查的女生中抽取3人,若其中喜爱运动的人数为,求的分布列及数学期望.
附参考公式及参考数据:
,其中.
2.第31届世界大学生夏季运动会,是中国西部第一次举办世界性综合运动会,共设篮球、排球、田径、游泳等18个大项、269个小项.该届赛事约有来自170个国家和地区的1万余名运动员及官员赴蓉参加,该届赛事于2023年7月28日至8月8日在中国四川省成都市举行.为了了解关注该赛事是否与性别有关,某体育台随机抽取2000名观众进行统计,得到如下2×2列联表.
男
女
合计
关注该赛事
600
300
900
不关注该赛事
400
700
1100
合计
1000
1000
2000
(1)在所有女观众中,试估计她们关注该赛事的概率(结果用百分数表示);
(2)根据小概率值的独立性检验,能否认为是否关注该赛事与性别有关联?
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
一、填空题
1、(2023上海专题练习)下表是一个列联表,则表中,的值分别为( )
总计
21
25
33
总计
100
A.46,54 B.54,46 C.52,54 D.50,52
2、(2024大同中学高三上期中)为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
3.(2023·上海·统考模拟预测)某校团委对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢网络游戏的人数占男生人数的,女生喜欢网络游戏的人数占女生人数的.若根据独立性检验认为喜欢网络游戏和性别有关,且此推断犯错误的概率超过0.01但不超过0.05,则被调查的学生中男生可能有 人.(请将所有可能的结果都填在横线上)
附表:,其中.
0.050
0.010
3.841
6.635
4.(21-22高二下·上海黄浦·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关“作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为中学生追星与性别有关,则女生至少有 人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
,.
5.(24-25高三上·上海·单元测试)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是 %.参考数据:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
6.(24-25格致中学高二期末)某高校统计课程的教师随机调查了选择该课的学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,所以有 的把握判定主修统计专业与性别有关系.
性别
非统计专业(人)
统计专业(人)
男
13
10
女
7
20
7.(25-26高三上·上海·单元测试)某校对“学生性别和喜欢某热门软件是否有关”作了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该软件的人数占男生人数的,女生喜欢该软件的人数占女生人数.若有95%的把握认为是否喜欢该软件和性别有关,则男生至少有 人.
0.050
0.010
3.841
6.635
二、选择题
8.(2023复兴高级中学月考)在考察儿童出生月份X与学习成绩Y是否优秀的独立性检验中,得出如图的列联表:如果最后发现,这两个分类变量X和Y没有任何关系,则表中正数a的值最有可能是( )
上半年出生
下半年出生
合计
学习成绩优秀
200
800
1000
学习成绩非优秀
180
a
180+a
合计
380
800+a
1180+a
A.200 B.720 C.100 D.690
9.为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻的经常性有影响,随机抽取了300名学生,对他们是否经常锻炼的情况进行了调查,调查发现经常锻炼人数是不经常锻炼人数的2倍,绘制其等高堆积条形图,如图所示,则不正确的是( )
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为
C.依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1
D.假设调查人数为600人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的等高堆积条形图也不变,依据的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05
附:,
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
10.(2023·高二课时练习)“独立性检验”中,在犯错误的概率不超过0.05的前提下认为事件A和B有关,则算出的数据满足( )
A. B. C. D.
11.(2022春·广西北海·高二统考期末)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
附表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.若的观测值,我们有99.9%的把握认为吸烟与患肺病有关系,那么在1000个吸烟的人中必有999人患有肺病
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病
C.从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误
D.以上三种说法都不正确
12.(2023崇明区高二统考期末)若由一个列联表中的数据计算得,则有( )把握认为两个变量有关系.
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.95% B.97.5% C.99% D.99.9%
13.(2024复旦附中校级月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如表2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
附:参考公式和临界值表K2
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
A.90% B.95% C.99% D.99.9%
14.(2024徐汇中学高二期末)第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下2×2列联表:
关注冰雪运动
不关注冰雪运动
合计
男
45
10
55
女
25
20
45
合计
70
30
100
下列说法正确的是( )
参考公式:,其中n=a+b+c+d.
附表:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
A.有99%以上的把握认为“关注冰雪运动与性别有关”
B.有99%以上的把握认为“关注冰雪运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“关注冰雪运动与性别无关”
D.在犯错误的概率不超过0.1%的前提下,认为“关注冰雪运动与性别有关”
三、解答题
15.(2019•新课标Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有的把握认为男、女顾客对该商场服务的评价有差异?
附:.
0.050
0.010
0.001
3.841
6.635
10.828
16.(2023普陀区校级期末)某校用随机抽样的方法调查学生参加校外补习情况,得到的数据如下表:
分数等级人数
不及格
及格
良好
优秀
学生人数
8
52
29
11
参加校外补习人数
5
15
7
3
(1)从中任取一名学生,记“该生参加了校外补习”,“该生成绩为优秀”.求及;
(2)能否在犯错误的概率不超过0.1的前提下认为学生成绩优秀或良好与校外补习有关?
附:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
17.(2023嘉定区高二期末)被赞誉为“波士顿比利”的美国知名跑者比尔·罗杰斯曾经说过:“跑步是全世界最棒的运动.”坚持跑步可以增强体质、提高免疫力、改善精神状态.某数学兴趣小组从某地大学生中随机抽取200人,调查他们是否喜欢跑步,得到的数据如下表所示.
喜欢跑步
不喜欢跑步
总计
男生
50
120
女生
30
总计
200
(1)分别估计该地男、女大学生喜欢跑步的概率;
(2)能否有的把握认为该地大学生是否喜欢跑步与性别有关?
参考公式:,其中.
参考数据:
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
18.(2023上海·高二课时练习)随着节能减排意识深入人心,共享单车在各大城市大范围推广,越来越多的市民在出行时喜欢选择骑行共享单车.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:
每周使用次数
1次
2次
3次
4次
5次
6次及以上
男
4
3
3
7
8
30
女
6
5
4
4
6
20
合计
10
8
7
11
14
50
(1)如果用户每周使用共享单车超过3次,那么认为其“喜欢骑行共享单车”.请完成下面的列联表,并判断依据的独立性检验,能否认为“喜欢骑行共享单车”与性别有关;
不喜欢骑行共享单车
喜欢骑行共享单车
合计
男
女
合计
(2)每周骑行共享单车6次及6次以上的用户称为“骑行达人”,将频率视为概率,在我市所有的“骑行达人”中随机抽取4名,求抽取的这4名“骑车达人”中,既有男性又有女性的概率.
19.(2022•全国卷模拟)某学校共有2000名学生,其中女生1200人,为了解该校学生在学校的月消费情况,采取分层抽样随机抽取了200名学生进行调查,月消费金额分布在550~1050元之间.根据调查的结果绘制的学生在校月消费金额的频率分布直方图如图所示,将月消费金额不低于850元的学生称为“高消费群”.
(1)求a的值,并估计该校学生月消费金额的平均数;(同一组中的数据用该组区间的中点值作代表)
(2)若样本中属于“高消费群”的男生有10人,完成下列2×2列联表,并判断是否有99.9%以上的把握认为该校学生属于“高消费群”与“性别”有关.
属于“高消费群”
不属于“高消费群”
合计
男
女
合计
P(K2≥k0)
0.025
0.010
0.005
0.001
k0
5.024
6.635
7.879
10.828
(,其中n=a+b+c+d)
20.(2024七宝中学高二期末)很多人都爱好抖音,为了调查手机用户每天使用抖音的时间,某通讯公司在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用抖音的时间(单位:h)分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.
(1)根据频率分布直方图估计女性平均每天使用抖音的时间;(同一组中的数据用该组区间的中点值为代表)
(2)若每天玩抖音超过4h的用户称为“抖音控”,否则称为“非抖音控”,完成如下列联表,判断是否有90%的把握认为是否是“抖音控”与性别有关.
抖音控
非抖音控
总计
男性
女性
总计
2 / 2
学科网(北京)股份有限公司
$$