内容正文:
第14讲 2×2列联表
知识清单
知识点01:2×2列联表
知识点02:独立性检验定义
知识点03:独立性检验公式
题型讲解
(举三反三)
题型1:2×2列联表独立检验
题型2:卡方的计算
题型3:独立性检验的基本思想
题型4:独立性检验解决实际问题
强化训练
一、填空题(12)
二、单选题(4)
三、解答题(5)
知识点01 2×2列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点02 独立性检验定义
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
知识点03 独立性检验公式
其中(注意使用公式时分子的平方不要忽略了)
题型1:2×2列联表独立检验
【例1-1】(24-25高三·上海·课堂例题)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【答案】D
【分析】根据题意先得出的值,进而再得的值,进而可知的值.
【详解】因为抽取的村民中,老年人有25名,年轻人有25名,所以,
所以,A、B对;
所以,则对;
则错.
故选:.
【例1-2】下面是一个列联表:
总计
35
70
15
15
30
总计
50
100
其中、处填的值分别为__________.
【答案】35,50
【分析】根据总计的计算公式进行求解即可.
【详解】在第二行中,,
在第三列中,,
故答案为:35,50
【例1-3】(24-25高二·上海·课堂例题)某高中社会实践小组设计了一个研究性学习项目,研究学习成绩(以单科为准)与手机使用(电子产品)的相关性,他们从全校随机抽样调查了40名学生,其中有四成学生经常使用手机.40名同学的物理成绩(百分制)的茎叶图如图所示.小组约定物理成绩低于70分为一般,70分以上为良好.
(1)根据以上资料完成以下2×2列联表格,
物理成绩一般
物理成绩良好
合计
不使用手机
经常使用手机
合计
(2)现将40个成绩分为,,,,共5组,补全频率分布直方图,并依据频率分布直方图计算这40名学生的物理平均成绩的估计值;
(3)从这40名学生成绩高于90分的人中随机选取2人,求至少有一人不使用手机的概率.
【答案】(1)列联表见解析
(2)频率分布直方图见解析,75.25
(3)
【分析】(1)根据成绩一般的标准,结合茎叶图表示数据的方法进行计算填表即可;
(2)根据五组中的人数,再计算出频率与组矩的比值,然后画出每个小矩形,再根据题中表示该代表数据的方法进行求解即可;
(3)用列举法,结合古典概型计算公式进行求解即可.
【详解】(1)从茎叶图可知:
不使用手机的学生中,物理成绩一般有6个,物理成绩良好的有18,共计24人,
经常使用手机学生中,物理成绩一般有10个,物理成绩良好的有6,共计16人,
列联表如下:
物理成绩一般
物理成绩良好
合计
不使用手机
6
18
24
经常使用手机
10
6
16
合计
16
24
40
(2)根据茎叶图,结合题中给定的小组,填表如下:
频数
频率
频率与组距的比值
6
0.15
0.015
10
0.25
0.025
8
0.2
0.02
9
0.225
0.0225
7
0.175
0.0175
频率直方图如下图:
设40名学生物理平均成绩估计值为
;
(3)高于90分经常使用手机的有2人,分别设为A、B
不使用手机的有5人,分别设为a、b、c、d、e高于90分人中随机抽取2人共有:AB,Aa,Ab,Ac,Ad,Ae;Ba,Bb,Bc,Bd,Be;ab,ac,ad,ae;bc,bd,be,cd,ce,de,共21种
则至少有一人不使用手机的概率为
【变式1-1】下列是关于出生男婴与女婴调查的列联表
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么__________.
【答案】82
【分析】根据列联表,可得方程,解之即可得到结论.
【详解】解:由题意,,,,,
,,,,
故答案为: 82.
【变式1-2】如下是一个列联表,则__________.
y1
y2
总计
x1
a
35
45
x2
7
b
n
总计
m
73
s
【答案】90
【分析】完善列联表即可求解.
【详解】由表格有,
故答案为:.
【变式1-3】下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
【答案】有显著差异,且中学更愿意报考
【分析】分别计算中学报考某类大学的比例,对比即可得到结论.
【详解】中学愿意报考某类大学的比率为;
中学愿意报考某类大学的比例为;
,即中学愿意报考某类大学的比例比中学高了,
两所中学的学生对报考某类大学的态度有显著差异,且中学更愿意报考.
题型2:卡方的计算
【例2-1】(24-25高三·上海·随堂练习)研究两个事件A、B之间的关系时,根据数据信息列出如下的列联表,则以下计算公式中正确的是( )
B
B
总计
A
A
总计
n
A. B.
C. D.
【答案】A
【分析】根据独立性检验计算公式代入即可得到答案;
【详解】根据独立性检验计算,
故选:A.
【例2-2】(25-26高三上·上海·单元测试)根据下表计算:
不看电视
看电视
男
37
85
女
35
143
__________.(结果保留3位小数)
【答案】4.514
【分析】完善列联表,直接根据卡方计算公式计算卡方即可得解.
【详解】由题意
性别
是否看电视
合计
不看电视
看电视
男
37
85
122
女
35
143
178
合计
72
228
300
故答案为:4.514.
【例2-3】(24-25高三·上海·随堂练习)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则________.(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
【答案】3.968
【分析】由题意,根据列联表中所给数据补全列表,将数据代入公式得,计算即可得到答案.
【详解】补全列联表
室外工作
室内工作
总计
有呼吸系统疾病
150
200
350
无呼吸系统疾病
50
100
150
总计
200
300
500
.
故答案为:3.968.
【变式2-1】假设有两个变量和,它们的取值分别为和,其列联表为( )
根据以下选项中的数据计算的值,其中最大的一组为( )
A.
B.
C.
D.
【答案】C
【分析】计算出四个选项中,比较大小即可得解.
【详解】对于A,,
对于B,,
对于C,,
对于D,,
显然最大,故C正确.
故选:C.
【变式2-2】(24-25高三·上海·课堂例题)下表是甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的列联表,则的值为__________.(精确到0.001)
不及格(人)
及格(人)
合计(人)
甲班
12
33
45
乙班
9
36
45
合计
21
69
90
【答案】0.559
【分析】利用卡方的计算公式计算即可得到答案.
【详解】
故答案为:.
【变式2-3】(24-25高二下·上海奉贤·期末)随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到下表(单位:人)
经常网购
偶尔或不用网购
合计
男性
50
100
女性
70
100
合计
(1)完成上表,并根据以上数据判断是否有99%的把握认为我市市民网购与性别有关?
(2)现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;
参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)表格见解析;有
(2)
【分析】(1)完成列联表,由列联表,得,然后根据独立性检验判断即可;
(2)由题知抽取10人中,经常网购的有人,偶尔或不用网购的有人,由可计算选取的3人中至少有2人经常网购的概率.
【详解】(1)完成列联表:
经常网购
偶尔或不用网购
合计
男性
50
50
100
女性
70
30
100
合计
120
80
200
由列联表得,,
有99%的把握认为我市市民网购与性别有关.
(2)由题知女市民中利用分层抽样的方法抽取10人中,
经常网购的有人,偶尔或不用网购的有人,
选取的3人中至少有2人经常网购的概率,
所以所求概率为.
题型3:独立性检验的基本思想
【例3-1】(25-26高二下·上海·期中)为研究蔬菜植株感染红叶螨能否引起植株形成某种抗体,使用列联表独立性检验.随机抽取一定量植株,获得观察数据,制作列联表.提出原假设:感染与形成抗体__________;确定显著性水平;若计算得;依据,从而__________原假设,即得统计决断.( )
A.有关;拒绝 B.有关;接受 C.无关;拒绝 D.无关;接受
【答案】D
【详解】在独立性检验中,提出原假设:感染与形成抗体无关,当计算得到的统计量小于临界值时,就接受原假设.
【例3-2】(24-25高三上·上海·单元测试)下列说法中正确的是__________.
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量、的相关系数为,则越接近于0,和之间的线性相关程度越强;
④在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大.
【答案】①④
【分析】利用方差的性质判断①的正误;利用回归直线的性质判断②,相关系数判断③,独立检验判断④.
【详解】对于①,将一组数据中的每一个数据都加上或减去同一个常数后,方差不变,满足方差的性质,①正确;
对于②,设有一个线性回归方程,变量x增加1个单位时,平均减少5个单位;所以②不正确;
对于③,设具有相关关系的两个变量x,y的相关系数为r,则越接近于0,x和y之间的线性相关程度越弱,所以③ 不正确;
对于④,在一个2×2列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,所以④正确;
故答案为:①④.
【例3-3】(24-25高三·上海·课堂例题)在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是__________(填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【答案】③④
【分析】由独立性检验中观测值和临界值的意义,即可得出正确的答案.
【详解】在独立性检验中,由
表示的意义是:有的把握认为变量与变量没有关系,所以④正确;
即有的把握认为变量与变量有关系,所以③正确.
故答案为:③④
【变式3-1】(24-25高三上·上海·单元测试)对于独立性检验,下列说法中错误的是( )
A.在样本总量相同的情况下,的值越大,说明两事件相关程度越大
B.在样本总量相同的情况下,的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
【答案】C
【分析】结合观测值计算公式,因越大,的值就越大,从而两事件关系越强,否则越弱;理解观测值的意义可知,当时,零假设不成立,即认为事件与有关,否则当时,没有充分理由说明零假设不成立,即认为事件与无关.
【详解】对于A,B,因观测值,的值越大,越大,事件A与事件B关系越强;反之,事件A与事件B关系越弱,故A,B项均正确;
对于C,D,因只有时,说明在犯错误的概率不超过0.05的前提下认为事件与有关,而,故C错误;D正确.
故选:C.
【变式3-2】(24-25高三·上海·课堂例题)某高校统计课程的教师随机调查了选择该课的学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,所以有__________的把握判定主修统计专业与性别有关系.
性别
非统计专业(人)
统计专业(人)
男
13
10
女
7
20
【答案】
【分析】根据卡方的运算结果,结合独立性检验中相应的临界值进行求解即可
【详解】小概率值0.05对应的临界值为,
因为,
所以有的把握判定主修统计专业与性别有关系.
故答案为:
【变式3-3】证明:
【答案】见解析
【分析】利用频率代替概率,求出估计值,借助平方思路,得出的结果.
【详解】解:总数为,事件发生的频数为,事件发生的频数为,事件发生的频数为,事件发生的频数为,
合计
合计
假设:事件与事件没有关系.
用频率代替概率,则,,
故,
因此,在成立的条件下,
事件且事件发生的频数为:,
同理可得:
事件且事件发生的频数为:,
事件且事件发生的频数为:,
事件且事件发生的频数为:,
为描述观测值与估计值之间的差异,同时为避免正负相消及消除样本容量对差异大小的影响,可以将它们分别平方并除以对应的估计频数,最后相加,得到
化简得,.
题型4:独立性检验解决实际问题
【例4-1】某地政府调查育龄妇女生育意愿与家庭年收入高低的关系时,随机调查了当地3000名育龄妇女,用独立性检验的方法处理数据,并计算得,则根据这一数据以及临界值表,判断育龄妇女生育意愿与家庭年收入高低有关系的可信度( )
参考数据如下:,.
A.低于 B.低于 C.高于 D.高于
【答案】C
【分析】根据临界值表求得正确答案.
【详解】由于,
而,
所以可信度高于.
故选:C
【例4-2】(25-26高二下·上海·期中)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
【答案】21
【分析】根据定义算出的表达式,由题意得,可得出的最小值.
【详解】由题意得,并令,即,近似解得,即,注意到,故的最小值为.
【例4-3】(25-26高三·上海·二轮复习)调查1000人是否患某疾病与超声波检测结果的列联表如下:
检测结果是否患病
正常
不正常
合计
患病
20
180
200
不患病
780
20
800
合计
800
200
1000
(1)若检测结果不正常者患病的概率为,求的估计值;
(2)能否根据小概率的独立性检验认为样本数据中超声波检测结果与是否患该疾病有关?
【答案】(1)
(2)认为样本数据中超声波检测结果与患该疾病有关
【分析】(1)利用古典概型的概率公式即可求解;
(2)提出零假设,计算出的估计值,结合临界值表可得出结论.
【详解】(1)超声波检查结果不正常患者有200人,患病有180人,
所以
(2)零假设为:样本数据中超声波检测结果与患该疾病无关,
,
依据据小概率的独立性检验,我们推断不成立,
所以,认为样本数据中超声波检测结果与患该疾病有关.
【变式4-1】(24-25高三下·上海浦东新·月考)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
根据表中数据,以下叙述正确的是( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
【答案】C
【分析】根据题意求出的值,再与临界值比较即可得出结论.
【详解】由题意可知,,
所以有的把握认为“吸烟与患肺癌有关”.
故选:C.
【变式4-2】(24-25高二下·上海·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查.在全校学生中随机抽取(是正整数)个学生,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有________人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【答案】
【分析】设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,求出观测值同临界值进行比较,列不等式即可得出结论.
【详解】因为抽取个学生,女生人数是男生人数的,
所以抽取个男生,个女生,为了便于计算,我们令,
设男生人数为,依题意可得列联表如下:
喜欢追星
不喜欢追星
总计
男生
女生
总计
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,由,解得,
由题知应为6的整数倍,
而根据小概率值的独立性检验,判断中学生追星与性别有关,
则男生至少有30人,
故答案为:30.
【变式4-3】(25-26高三上·上海徐汇·期中)某地同城闪送为了提高服务质量,进行了服务改进,并对服务进行评分.已知服务改进前某天共有1000个订单,其好评率为85%;服务改进后某天共有1500个订单,其中好评订单为1350个.
(1)已知某100个好评订单评分的极差为2,数据如下(其中,是正整数)
服务评分
8.5
9
9.5
10
订单数量
32
13
11
4
求这100个好评订单的第40百分位数.
(2)根据服务改进前后的这两天的订单数据完成下列列联表,并依据的独立性检验,判断订单获得好评与服务改进是否有关.
好评订单
非好评订单
合计
服务改进前
1000
服务改进后
1350
1500
合计
附:,.
【答案】(1)8.25
(2)列联表见解析,订单获得好评与服务改进有关,该推断犯错误的概率不超过0.05.
【分析】(1)先根据题意计算出和的值,再依据百分位数的计算方法求解即可;
(2)先根据题意计算出服务改进前好评订单的数量,进而完成列联表,进行独立性检验时,提出零假设,计算,根据与临界值大小关系即可判断结论.
【详解】(1)根据题意,这100个好评订单评分的极差为2,
因此,解得,
又有,解得,
因为,
所以这100个好评订单的第40百分位数为服务评分按从小到大的顺序排列后的第40个订单和第41个订单服务评分的平均数,即.
故这100个好评订单的第40百分位数为8.25.
(2)根据题意,服务改进前好评订单的数量为,由此可得列联表如下:
好评订单
非好评订单
合计
服务改进前
850
150
1000
服务改进后
1350
150
1500
合计
2200
300
2500
零假设:订单获得好评与服务改进无关,
,
所以根据小概率值的独立性检验,我们推断不成立,
即订单获得好评与服务改进有关,该推断犯错误的概率不超过0.05.
一、填空题
1.(24-25高三·上海·课堂例题)如果有95%的把握说事件和有关,那么具体算出的数据满足__________.
【答案】
【分析】根据给定条件,借助独立性检验的临界值表即可得出结果.
【详解】依题意,算出的数据满足.
故答案为:
2.(24-25高三上·上海·单元测试)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是________%.参考数据:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】97.5
【分析】根据独立性检验知识,对照表格中的数据分析即可.
【详解】由,
可知市政府断言市民收入增减与旅游需求有关的可信度是97.5%,
故答案为:97.5
3.(24-25高三·上海·随堂练习)某市政府调查市民收入与旅游愿望时,采用独立检验法抽取3000人,计算发现,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是_______.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】99%
【分析】根据所给的这组数据的观测值,把观测值同临界值进行比较,得到市政府断言市民收入增减与旅游愿望有关系的可信程度.
【详解】因为做出,,
所以市民收入培养与旅游欲望有关系的可信程度是.
4.(24-25高三·上海·课堂例题)利用独立性检验来考虑两个分类变量与是否有关系时,通过查阅下表来确定“和有关系”的可信度.如果,那么就有把握认为“和有关系”的百分比为__________.
()
0.50
0.25
0.10
0.05
0.025
0.010
0.005
0.001
0.455
1.323
2.706
3.841
5.024
6.635
7.879
10.83
【答案】97.5%
【分析】根据所给的观测值与临界值表的数据比较可得结论.
【详解】因为,
所以有0.025的几率认为这两个变量之间的关系是不可信的,
所以有的把握认为和有关系.
故答案为:.
5.(24-25高三下·上海·月考)已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍______.
【答案】4
【分析】分别将和代入公式求解即可.
【详解】因为,
所以.
故答案为:4.
6.(24-25高二下·上海黄浦·期末)已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别________(选填“有关”或“无关”).
【答案】有关
【分析】根据题中所给数据,结合独立性检验的基本思想即可求解.
【详解】∵,∴根据小概率值的独立性检验,喜欢该体育运动与性别有关.
故答案为:有关.
7.(25-26高三上·上海·单元测试)某校对“学生性别和喜欢某热门软件是否有关”作了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该软件的人数占男生人数的,女生喜欢该软件的人数占女生人数.若有95%的把握认为是否喜欢该软件和性别有关,则男生至少有__________人.
0.050
0.010
3.841
6.635
【答案】12
【分析】由有的把握认为是否喜欢该软件和性别有关可得,列方程求男生人数的范围,结合条件确定男生的人数的最小值.
【详解】设男生人数为,则女生人数为,则列联表如下:
喜欢该软件
不喜欢该软件
合计
男生
女生
合计
若有的把握认为是否喜欢该软件和性别有关,则,
即,解得.
又因为,,,为整数,所以男生至少有人.
故答案为:12.
8.(24-25高三·上海·课堂例题)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为:能否一次考试通过与是否集中培训__________.(选填“有关”或“无关”)
【答案】有关
【分析】列出列联表,根据数据求得并判断.
【详解】依题意,列联表如下:
集中培训
分散培训
合计
一次考试通过
45
30
75
一次考试未通过
10
20
30
合计
55
50
105
则,
因此认为“能否一次考试通过与是否集中培训有关”的把握为97.5%,
所以能否一次考试通过与是否集中培训有关.
故答案为:有关
9.(24-25高二下·上海松江·月考)某校对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握判断是否喜欢抖音和性别有关,则调查人数中男生至少有________人.
参考数据:,
【答案】45
【分析】设被调查的男女生为人,写出列联表,应用卡方公式求卡方值,结合求参数范围,进而确定被调查的男生为,即可答案.
【详解】设被调查的男女生为人,则男生喜欢抖音有人,女生喜欢抖音有人,
所以列联表如下:
喜欢抖音
不喜欢抖音
总计
男生
女生
总计
则,解得,
因此被调查的男生为,又,则人数是5的正整数倍,
所以大于等于45的5的整数倍都符合题意,调查人数中男生至少有人.
故答案为:
10.(24-25高三上·上海·单元测试)某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的列联表,则根据列联表可知:
年轻人
非年轻人
总计
经常用流行用语
125
25
150
不常用流行用语
35
15
50
总计
160
40
200
有________的把握认为经常用流行用语与年轻人有关系.
【答案】95%
【分析】根据列联表求出观测值,对照临界值表,利用独立性检验的基本思想即可求解.
【详解】零假设为:经常用流行用语与是否为年轻人没有关系,
,
所以拒绝零假设,故有95%的把握认为经常用流行用语与是否为年轻人有关系.
故答案为:95%.
11.(25-26高三上·上海·单元测试)某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品(人)
不喜欢甜品(人)
总计(人)
南方学生
60
20
80
北方学生
10
10
20
总计
70
30
100
根据表中数据,__________(选填“有”或“没有”)95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
【答案】有
【分析】由卡方公式计算求解.
【详解】,
对照临界值知,有的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
故答案为:有
12.(24-25高二下·上海松江·月考)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取20名15至16周岁的男生,将他们的身高和体重制成的列联表,根据列联表的数据,至少有______的把握认为该学校15至16周岁的男生的身高与体重之间有关系.
身高
体重
超重
不超重
总计
偏高
4
1
5
不偏高
3
12
15
总计
7
13
20
附表:
0.1
0.05
0.01
2.706
3.841
6.635
【答案】95%
【分析】先计算卡方,对照参考表即可求解.
【详解】由题意有,
所以至少有95%的把握认为该学校15至16周岁的男生的身高与体重之间有关系,
故答案为:95%.
二、单选题
13.下列命题中错误的是( )
A.在回归分析中,相关系数的绝对值越大,两个变量的线性相关性越强
B.对分类变量与,它们的观察值与预期值总体偏差越大,说明“与有关系”的可能性越小
C.线性回归直线恒过样本中心
D.在回归分析中,离差平方和越小,模型的拟合效果越好
【答案】B
【分析】对于选项,在回归分析中,相关系数越接近,说明拟合效果越好;对于选项,观察值与预期值总体偏差越大,说明“与有关系”的可能性越大;对于选项,由回归直线恒过样本中心可判断;对于选项,离差平方和越小,模型的拟合效果越好.
【详解】对于选项:在回归分析中,对于相关系数,当越接近时,相关程度越大,说明拟合效果越好,故选项正确;
对于选项:对于分类变量与,它们的观察值与预期值总体偏差越大,说明“与有关系”的可能性越大,故选项错误;
对于选项:已知线性回归直线,其中,
所以回归直线恒过样本中心,故选项正确;
对于选项:在回归分析中,离差平方和越小,模型的拟合效果越好,故选项正确.
故选:.
14.为了了解疾病是否与性别有关,在某医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:则认为疾病与性别有关的把握约为( )
患疾病
不患疾病
总计
男
20
5
25
女
10
15
25
总计
30
20
50
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
A. B. C. D.
【答案】C
【分析】根据所给的列联表数据计算,将其与临界值表进行比较,即可得到答案.
【详解】由公式得,
故有的把握认为疾病与性别有关,
故选:C
15.(24-25高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
【答案】B
【分析】命题①,根据条件,利用古典概率公式,求出概率,即可判断命题①的正误;根据表中数据,求出,即可判断出命题②和③的正误,即可求解.
【详解】因为对主办方表示满意的男性运动员的人数为,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,
又因为,所以命题②错误,命题③正确,
故选:B.
16.(25-26高三下·上海·月考)下列命题中正确的是( )
A.将一组数据中的每个数都加上或减去同一个常数后,均值与方差都不变
B.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为
C.在吸烟与患肺病这两个分类变量的计算中,若由独立性检验知,在犯错误率不超过0.05的前提下,认为吸烟与患肺病有关系.若某人吸烟,则他有95%的可能性患肺病
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和
【答案】D
【分析】对A,由均值的理解可知;对B,由线性相关系数的理解与求法都可得;对C,根据对独立性检验思想的理解可知;对D,非线性转化线性回归,由换元的关系可得.
【详解】对A,将一组数据中的每个数都加上或减去同一个常数后,
均值也应加上或减去同一个常数,故A错误;
对B,所有样本点都在直线上,
由此成对样本数据的两个分量之间满足一种线性关系,
则线性相关系数,由成对样本数据负相关,则,故B错误;
对C,在犯错误率不超过0.05的前提下,认为吸烟与患肺病有关系,
我们可以认为吸烟更容易引发肺病.独立性检验可以推断分类变量吸烟与患肺病是否独立,
而不能得到一个吸烟的人有多大可能性患病的结论,故C错误;
对D,由,,且,若线性回归方程为,
则,即,的值分别是和,故D正确.
三、解答题
17.(24-25高三下·上海·月考)截至2024年底,我国新能源汽车保有量达到3140万辆,占汽车总量的.某市调查了1000名汽车驾驶员对新能源汽车的偏好程度,调查结果如下:
偏好燃油汽车
偏好新能源汽车
合计
男性驾驶员
女性驾驶员
100
400
合计
400
1000
(1)请根据所给数据,完成上面的列联表;
(2)判断是否有的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关;
(3)用频率估计概率,在所有参加调查的驾驶员按男性和女性进行分层抽样,随机抽取10名驾驶员,再从这10名驾驶员中随机抽取2人进行问卷调查.抽取的2人中,求在有女性驾驶员参加问卷调查的条件下,恰有1名男性驾驶员也参加问卷调查的概率.
附:, 其中
【答案】(1)列联表见解析
(2)有的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关
(3)
【分析】(1)根据题干数据完善列联表;
(2)计算出卡方,即可判断;
(3)利用古典概率及条件概率公式计算得解.
【详解】(1)依题意可得列联表如下:
偏好燃油汽车
偏好新能源汽车
合计
男性驾驶员
300
300
600
女性驾驶员
100
300
400
合计
400
600
1000
(2)由(1)可得,
所以有的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关.
(3)抽取的名驾驶员中,女性驾驶员有(人),男性驾驶员有6人,
记有女性驾驶员参加问卷调查的事件为,恰有1名男性驾驶员参加问卷调查的事件为,
则,,
所以,
所以在有女性驾驶员参加问卷调查的条件下,恰有1名男性驾驶员也参加问卷调查的概率为.
18.(24-25高二下·上海·期末)某学生兴趣小组从一年365天中随机调查了100天中每天的空气质量等级和当天到莘庄公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)一年365天中到莘庄公园锻炼的人次大于400人的约有多少天(精确到1天);
(2)估计一天中到莘庄公园锻炼的平均人次;
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.判断是否有95%的把握认为一天中到莘庄公园锻炼的人次不超过400人与当天的空气质量有关?()
【答案】(1)天
(2)天
(3)有把握,理由见解析
【分析】(1)算出天中到莘庄公园锻炼的人次大于400人的天数后可求365天中到莘庄公园锻炼的人次大于400人的天数;
(2)写出各锻炼人次区间对应的频数,利用中间值作代表,利用公式求解即可;
(3)先根据题目中给的数据补充列联表,利用公式求出,再与临界值比较即可.
【详解】(1)由题设可得天中到莘庄公园锻炼的人次大于400人的约有天,
故天中到莘庄公园锻炼的人次大于400人的约有天.
(2)锻炼人次为的有天,
锻炼人次为的有天,
锻炼人次为有天,
利用中间值作代表,一天中到该莘庄公园锻炼的平均人次的估计值为:
.
(3)根据所给数据,可得列联表:
人次≤400
人次>400
合计
空气质量好
33
37
70
空气质量不好
22
8
30
合计
55
45
100
设一天中到该公园锻炼的人次与该市当天的空气质量无关,
根据列联表得,
因为,,由小概率事件原理否定,
故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
19.(24-25高三下·上海虹口·期中)已知某区组建了一支120人的志愿者队伍,并由其中72人组成“志愿模范队”.经过一年的实践,全队共有72人的周平均服务时长超过2小时,其中有54人来自“志愿模范队”,如下表所示.
是“志愿模范队”成员
不是“志愿模范队”成员
总计
周平均服务时长超过2小时
54
72
周平均服务时长不超过2小时
总计
72
120
(1)已知一名志愿者是“志愿模范队”成员,求其周平均服务时长超过2小时的概率.
(2)请完成列联表,并根据表中数据回答:是否有99.9%的把握认为“是‘志愿模范队’成员”与“周平均服务时长超过2小时”有关系?
(3)现从周平均服务时长超过2小时的人员中按照是否为“志愿模范队”成员进行分层抽样,选取8人组建“志愿突击队”,并从这8人中再随机选取2人做深度访谈,记随机变量为这2人中来自于“志愿模范队”的人数,求的分布与方差
附录:,其中.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)
(2)有99.9%的把握认为“是‘志愿模范队’成员”与“周平均服务时长超过2小时”有关系.
(3)见解析.
【分析】(1)利用古典概率求解即可;
(2)计算出的值,即可判断;
(3)利用超几何分布求出分布列,然后利用期望和方差的公式求解即可.
【详解】(1)由表可知,若一名志愿者是“志愿模范队”成员,则其周平均服务时长超过2小时的概率:.
(2)根据题意,可将表格补充完整:
是“志愿模范队”成员
不是“志愿模范队”成员
总计
周平均服务时长超过2小时
54
18
72
周平均服务时长不超过2小时
18
30
48
总计
72
48
120
故,
所以有99.9%的把握认为“是‘志愿模范队’成员”与“周平均服务时长超过2小时”有关系.
(3)由分层抽样可知,这8人中有6个来自“志愿模范队”,2个不是“志愿模范队”成员,
故随机变量可能为
且,
故分布列如下:
0
1
2
所以期望:,
方差:.
20.(24-25高二下·上海·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有的把握认为患慢性气管炎与吸烟有关?
(2)常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.现从340人中任选一人,表示“选到的人是吸烟者”,表示“选到的人患慢性气管炎者”请利用样本数据,估计的值;
附:.
【答案】(1)有的把握认为患慢性气管炎与吸烟有关:
(2)
【分析】(1)利用卡方计算公式求解并判断即可;
(2)利用条件概率公式进行化简,再计算交事件发生的概率,最后比较频数即可.
【详解】(1)假设:患慢性气管炎与吸烟无关,
根据的列联表中的数据,可得,
从而否定原假设,所以有的把握认为患慢性气管炎与吸烟有关.
(2)根据表格中的数据,可得:
21.(24-25高二下·上海·期末)2024年末公司的一经发布,引发全球轰动,其科技水准直接对标公司的.某调研公司随机抽取公司和公司各25名客户,对其使用时产生的技术成本进行调研,并绘制成如图所示的茎叶图.(茎为十位数,叶为个位数)
(1)请根据茎叶图判断,与哪家公司的技术成本较低?并说明理由;
(2)若将技术成本小于80称为低成本运营,反之称为高成本运营.结合图表数据,补全下方列联表;
低成本运营
高成本运营
公司
公司
(3)根据(2)中的列联表,能否有95%的把握认为运营成本与公司有关?
附:,.
【答案】(1)D公司技术成本较低;A公司平均技术成本为83.4,D公司平均技术成本为75.96
(2)8,17;17,8
(3),有95%把握
【分析】(1)计算出两家公司的技术成本,再比较即可得出结论;
(2)根据低成本运营的定义即可得解;
(3)计算卡方,对比临界值即可得解.
【详解】(1)A公司平均技术成本为:,
公司平均技术成本为:,
所以D公司技术成本较低;
(2)由题意补全下方列联表:
低成本运营
高成本运营
公司
8
17
公司
17
8
(3)由(2)可知,
,
有95%的把握认为运营成本与公司有关.
1
学科网(北京)股份有限公司
$
第14讲 2×2列联表
知识清单
知识点01:2×2列联表
知识点02:独立性检验定义
知识点03:独立性检验公式
题型讲解
(举三反三)
题型1:2×2列联表独立检验
题型2:卡方的计算
题型3:独立性检验的基本思想
题型4:独立性检验解决实际问题
强化训练
一、填空题(12)
二、单选题(4)
三、解答题(5)
知识点01 2×2列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点02 独立性检验定义
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
知识点03 独立性检验公式
其中(注意使用公式时分子的平方不要忽略了)
题型1:2×2列联表独立检验
【例1-1】(24-25高三·上海·课堂例题)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【例1-2】下面是一个列联表:
总计
35
70
15
15
30
总计
50
100
其中、处填的值分别为__________.
【例1-3】(24-25高二·上海·课堂例题)某高中社会实践小组设计了一个研究性学习项目,研究学习成绩(以单科为准)与手机使用(电子产品)的相关性,他们从全校随机抽样调查了40名学生,其中有四成学生经常使用手机.40名同学的物理成绩(百分制)的茎叶图如图所示.小组约定物理成绩低于70分为一般,70分以上为良好.
(1)根据以上资料完成以下2×2列联表格,
物理成绩一般
物理成绩良好
合计
不使用手机
经常使用手机
合计
(2)现将40个成绩分为,,,,共5组,补全频率分布直方图,并依据频率分布直方图计算这40名学生的物理平均成绩的估计值;
(3)从这40名学生成绩高于90分的人中随机选取2人,求至少有一人不使用手机的概率.
【变式1-1】下列是关于出生男婴与女婴调查的列联表
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么__________.
【变式1-2】如下是一个列联表,则__________.
y1
y2
总计
x1
a
35
45
x2
7
b
n
总计
m
73
s
【变式1-3】下表是两所中学的学生对报考某类大学的意愿的列联表:
愿意报考某类大学
不愿意报考某类大学
总计
中学
中学
总计
根据表中的数据回答:两所中学的学生对报考某类大学的态度是否有显著差异?
题型2:卡方的计算
【例2-1】(24-25高三·上海·随堂练习)研究两个事件A、B之间的关系时,根据数据信息列出如下的列联表,则以下计算公式中正确的是( )
B
B
总计
A
A
总计
n
A. B.
C. D.
【例2-2】(25-26高三上·上海·单元测试)根据下表计算:
不看电视
看电视
男
37
85
女
35
143
__________.(结果保留3位小数)
【例2-3】(24-25高三·上海·随堂练习)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则________.(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
【变式2-1】假设有两个变量和,它们的取值分别为和,其列联表为( )
根据以下选项中的数据计算的值,其中最大的一组为( )
A.
B.
C.
D.
【变式2-2】(24-25高三·上海·课堂例题)下表是甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的列联表,则的值为__________.(精确到0.001)
不及格(人)
及格(人)
合计(人)
甲班
12
33
45
乙班
9
36
45
合计
21
69
90
【变式2-3】(24-25高二下·上海奉贤·期末)随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到下表(单位:人)
经常网购
偶尔或不用网购
合计
男性
50
100
女性
70
100
合计
(1)完成上表,并根据以上数据判断是否有99%的把握认为我市市民网购与性别有关?
(2)现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;
参考公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
题型3:独立性检验的基本思想
【例3-1】(25-26高二下·上海·期中)为研究蔬菜植株感染红叶螨能否引起植株形成某种抗体,使用列联表独立性检验.随机抽取一定量植株,获得观察数据,制作列联表.提出原假设:感染与形成抗体__________;确定显著性水平;若计算得;依据,从而__________原假设,即得统计决断.( )
A.有关;拒绝 B.有关;接受 C.无关;拒绝 D.无关;接受
【例3-2】(24-25高三上·上海·单元测试)下列说法中正确的是__________.
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量、的相关系数为,则越接近于0,和之间的线性相关程度越强;
④在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大.
【例3-3】(24-25高三·上海·课堂例题)在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是__________(填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【变式3-1】(24-25高三上·上海·单元测试)对于独立性检验,下列说法中错误的是( )
A.在样本总量相同的情况下,的值越大,说明两事件相关程度越大
B.在样本总量相同的情况下,的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
【变式3-2】(24-25高三·上海·课堂例题)某高校统计课程的教师随机调查了选择该课的学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,所以有__________的把握判定主修统计专业与性别有关系.
性别
非统计专业(人)
统计专业(人)
男
13
10
女
7
20
【变式3-3】证明:
题型4:独立性检验解决实际问题
【例4-1】某地政府调查育龄妇女生育意愿与家庭年收入高低的关系时,随机调查了当地3000名育龄妇女,用独立性检验的方法处理数据,并计算得,则根据这一数据以及临界值表,判断育龄妇女生育意愿与家庭年收入高低有关系的可信度( )
参考数据如下:,.
A.低于 B.低于 C.高于 D.高于
【例4-2】(25-26高二下·上海·期中)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
【例4-3】(25-26高三·上海·二轮复习)调查1000人是否患某疾病与超声波检测结果的列联表如下:
检测结果是否患病
正常
不正常
合计
患病
20
180
200
不患病
780
20
800
合计
800
200
1000
(1)若检测结果不正常者患病的概率为,求的估计值;
(2)能否根据小概率的独立性检验认为样本数据中超声波检测结果与是否患该疾病有关?
【变式4-1】(24-25高三下·上海浦东新·月考)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
根据表中数据,以下叙述正确的是( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
【变式4-2】(24-25高二下·上海·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查.在全校学生中随机抽取(是正整数)个学生,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有________人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【变式4-3】(25-26高三上·上海徐汇·期中)某地同城闪送为了提高服务质量,进行了服务改进,并对服务进行评分.已知服务改进前某天共有1000个订单,其好评率为85%;服务改进后某天共有1500个订单,其中好评订单为1350个.
(1)已知某100个好评订单评分的极差为2,数据如下(其中,是正整数)
服务评分
8.5
9
9.5
10
订单数量
32
13
11
4
求这100个好评订单的第40百分位数.
(2)根据服务改进前后的这两天的订单数据完成下列列联表,并依据的独立性检验,判断订单获得好评与服务改进是否有关.
好评订单
非好评订单
合计
服务改进前
1000
服务改进后
1350
1500
合计
附:,.
一、填空题
1.(24-25高三·上海·课堂例题)如果有95%的把握说事件和有关,那么具体算出的数据满足__________.
2.(24-25高三上·上海·单元测试)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是________%.参考数据:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
3.(24-25高三·上海·随堂练习)某市政府调查市民收入与旅游愿望时,采用独立检验法抽取3000人,计算发现,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是_______.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
4.(24-25高三·上海·课堂例题)利用独立性检验来考虑两个分类变量与是否有关系时,通过查阅下表来确定“和有关系”的可信度.如果,那么就有把握认为“和有关系”的百分比为__________.
()
0.50
0.25
0.10
0.05
0.025
0.010
0.005
0.001
0.455
1.323
2.706
3.841
5.024
6.635
7.879
10.83
5.(24-25高三下·上海·月考)已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍______.
6.(24-25高二下·上海黄浦·期末)已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别________(选填“有关”或“无关”).
7.(25-26高三上·上海·单元测试)某校对“学生性别和喜欢某热门软件是否有关”作了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该软件的人数占男生人数的,女生喜欢该软件的人数占女生人数.若有95%的把握认为是否喜欢该软件和性别有关,则男生至少有__________人.
0.050
0.010
3.841
6.635
8.(24-25高三·上海·课堂例题)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为:能否一次考试通过与是否集中培训__________.(选填“有关”或“无关”)
9.(24-25高二下·上海松江·月考)某校对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握判断是否喜欢抖音和性别有关,则调查人数中男生至少有________人.
参考数据:,
10.(24-25高三上·上海·单元测试)某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的列联表,则根据列联表可知:
年轻人
非年轻人
总计
经常用流行用语
125
25
150
不常用流行用语
35
15
50
总计
160
40
200
有________的把握认为经常用流行用语与年轻人有关系.
11.(25-26高三上·上海·单元测试)某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品(人)
不喜欢甜品(人)
总计(人)
南方学生
60
20
80
北方学生
10
10
20
总计
70
30
100
根据表中数据,__________(选填“有”或“没有”)95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
12.(24-25高二下·上海松江·月考)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取20名15至16周岁的男生,将他们的身高和体重制成的列联表,根据列联表的数据,至少有______的把握认为该学校15至16周岁的男生的身高与体重之间有关系.
身高
体重
超重
不超重
总计
偏高
4
1
5
不偏高
3
12
15
总计
7
13
20
附表:
0.1
0.05
0.01
2.706
3.841
6.635
二、单选题
13.下列命题中错误的是( )
A.在回归分析中,相关系数的绝对值越大,两个变量的线性相关性越强
B.对分类变量与,它们的观察值与预期值总体偏差越大,说明“与有关系”的可能性越小
C.线性回归直线恒过样本中心
D.在回归分析中,离差平方和越小,模型的拟合效果越好
14.为了了解疾病是否与性别有关,在某医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:则认为疾病与性别有关的把握约为( )
患疾病
不患疾病
总计
男
20
5
25
女
10
15
25
总计
30
20
50
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
A. B. C. D.
15.(24-25高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
16.(25-26高三下·上海·月考)下列命题中正确的是( )
A.将一组数据中的每个数都加上或减去同一个常数后,均值与方差都不变
B.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为
C.在吸烟与患肺病这两个分类变量的计算中,若由独立性检验知,在犯错误率不超过0.05的前提下,认为吸烟与患肺病有关系.若某人吸烟,则他有95%的可能性患肺病
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和
三、解答题
17.(24-25高三下·上海·月考)截至2024年底,我国新能源汽车保有量达到3140万辆,占汽车总量的.某市调查了1000名汽车驾驶员对新能源汽车的偏好程度,调查结果如下:
偏好燃油汽车
偏好新能源汽车
合计
男性驾驶员
女性驾驶员
100
400
合计
400
1000
(1)请根据所给数据,完成上面的列联表;
(2)判断是否有的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关;
(3)用频率估计概率,在所有参加调查的驾驶员按男性和女性进行分层抽样,随机抽取10名驾驶员,再从这10名驾驶员中随机抽取2人进行问卷调查.抽取的2人中,求在有女性驾驶员参加问卷调查的条件下,恰有1名男性驾驶员也参加问卷调查的概率.
附:, 其中
18.(24-25高二下·上海·期末)某学生兴趣小组从一年365天中随机调查了100天中每天的空气质量等级和当天到莘庄公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)一年365天中到莘庄公园锻炼的人次大于400人的约有多少天(精确到1天);
(2)估计一天中到莘庄公园锻炼的平均人次;
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.判断是否有95%的把握认为一天中到莘庄公园锻炼的人次不超过400人与当天的空气质量有关?()
19.(24-25高三下·上海虹口·期中)已知某区组建了一支120人的志愿者队伍,并由其中72人组成“志愿模范队”.经过一年的实践,全队共有72人的周平均服务时长超过2小时,其中有54人来自“志愿模范队”,如下表所示.
是“志愿模范队”成员
不是“志愿模范队”成员
总计
周平均服务时长超过2小时
54
72
周平均服务时长不超过2小时
总计
72
120
(1)已知一名志愿者是“志愿模范队”成员,求其周平均服务时长超过2小时的概率.
(2)请完成列联表,并根据表中数据回答:是否有99.9%的把握认为“是‘志愿模范队’成员”与“周平均服务时长超过2小时”有关系?
(3)现从周平均服务时长超过2小时的人员中按照是否为“志愿模范队”成员进行分层抽样,选取8人组建“志愿突击队”,并从这8人中再随机选取2人做深度访谈,记随机变量为这2人中来自于“志愿模范队”的人数,求的分布与方差
附录:,其中.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
20.(24-25高二下·上海·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有的把握认为患慢性气管炎与吸烟有关?
(2)常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.现从340人中任选一人,表示“选到的人是吸烟者”,表示“选到的人患慢性气管炎者”请利用样本数据,估计的值;
附:.
21.(24-25高二下·上海·期末)2024年末公司的一经发布,引发全球轰动,其科技水准直接对标公司的.某调研公司随机抽取公司和公司各25名客户,对其使用时产生的技术成本进行调研,并绘制成如图所示的茎叶图.(茎为十位数,叶为个位数)
(1)请根据茎叶图判断,与哪家公司的技术成本较低?并说明理由;
(2)若将技术成本小于80称为低成本运营,反之称为高成本运营.结合图表数据,补全下方列联表;
低成本运营
高成本运营
公司
公司
(3)根据(2)中的列联表,能否有95%的把握认为运营成本与公司有关?
附:,.
1
学科网(北京)股份有限公司
$