内容正文:
第07讲 独立性检验
课程标准
学习目标
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表独立性检验及其应用.
1.理解独立性检验的基本概念、原理和步骤;
2.学生应能够运用所学的独立性检验知识解决实际问题;
3.通过学习独立性检验,培养数据处理和分析的能力.
知识点01 2×2列联表
1.2×2列联表的概念:
将随机事件A,B的样本数据整理成如下的表格
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
上面这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表
2.列联表的统计意义:
记n=a+b+c+d,则由上表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
其他事件的概率类似可求.
【解读】(1)2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系;
(2)因为P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计是有误差的,因此直接用P(AB)=P(A)P(B)是否成立来判断A与B是否独立是不合理的.
【即学即练1】
1.为调查乘客晕车情况,在某一次行程中,50名男乘客中有25名晕车,30名女乘客中有5名晕车.在检验这些乘客晕车是否与性别相关时,常采用的数据分析方法是( )
A.回归分析 B.独立性检验
C.频率分布直方图 D.用样本估计总体
2.下表是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
100
则表中a、b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
知识点02 独立性检验
1.χ2(读作“卡方”)统计量:是统计中一个非常有用的统计量,它的表达式是
χ2=.
2.独立性检验:任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数).χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.因此,如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
【解读】A与B独立时,也称为A与B无关.当χ2<k成立时,一般不直接说A与B无关.也就是说,独立性检验通常得到的结果,或者是有1-α的把握认为A与B有关,或者没有1-α的把握认为A与B有关.
【即学即练2】已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.
题型01 利用列联表分析两变量的关系
【典例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
【变式1】假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
x1
10
18
x2
m
26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
【变式2】下面是2×2列联表.
A
B
B1
B2
总计
A1
33
21
54
A2
a
13
46
总计
b
34
100
(1)表中a,b处的值应为多少?
(2)若用频率估计概率,则P(A1),P(B1),P(A1B1)分别是多少?
(3)表中的数据能说明A1与B1相互独立吗?
【变式3】在一次对人们饮食习惯的调查中,共调查了124人,其中60岁以上的有70人,60岁以下的有54人.60岁以上的人中,有43人饮食以蔬菜为主,另外27人则以肉类为主;60岁以下的人中,有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并判断二者是否有关系.
题型02 2×2列联表的性质及应用
【典例2】(2025高三·全国·专题练习)下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
【变式1】(22-23高二下·宁夏固原·期中)下面是一个列联表,则表中处的值分别为( )
总计
25
73
21
总计
49
A.98,28 B.28,98 C.48,45 D.45,48
【变式2】(24-25高三·上海·课堂例题)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【变式3】(2024上·江西新余·高二统考期末)某地政府为解除空巢老人日常护理和社会照料的困境,大力培育发展养老护理服务市场.从年开始新建社区养老机构,下表为该地区近年新建社区养老机构的数量对照表.
年份
2017
2018
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
6
7
新建社区养老机构
(1)若该地区参与社区养老的老人的年龄近似服从正态分布,其中年龄的有人,试估计该地参与社区养老的老人有多少?(结果按四舍五入取整数)
(2)已知变量与之间的样本相关系数,请求出关于的线性回归方程,并据此估计年时,该地区新建社区养老机构的数量.(结果按四舍五入取整数)
参考公式与数据:①,.;
②若随机变量,则,,;
③,.
【变式3】某高校有10 000名学生,其中女生3 000名,男生7 000名.为调查爱好体育运动是否与性别有关,用分层抽样的方法抽取120名学生,制成独立性检验的2×2列联表,如表,则a-b=________.(用数字作答)
男
女
合计
爱好体育运动
a
9
####
不爱好体育运动
28
b
####
合计
####
####
120
题型03 卡方的计算
【典例3】(23-24高二下·福建漳州·期中)为加强素质教育,使学生各方面全面发展,某学校对学生文化课与体育课的成绩进行了调查统计,结果如下:附:,其中.
体育课不及格
体育课及格
合计
文化课及格
57
221
278
文化课不及格
16
43
59
合计
73
264
337
在对体育课成绩与文化课成绩进行独立性检验时,根据以上数据可得到的值为( )
A.38.214 B.1.255 C.0.0037 D.2.058
【变式1】(24-25高三·上海·随堂练习)研究两个事件A、B之间的关系时,根据数据信息列出如下的列联表,则以下计算公式中正确的是( )
B
B
总计
A
A
总计
n
A. B.
C. D.
【变式2】(23-24高二下·广东肇庆·期末)已知某独立性检验中,由计算出,若将列联表中的数据分别变成,计算出的,则( )
A. B. C. D.
【变式3】(23-24高二下·甘肃白银·期末)有甲、乙两种过滤水中重金属的设备,为了检验使用这两种设备与过滤后水中重金属含量的关系,各过滤了15瓶受重金属污染的相同水体,调查得出以下数据:
重金属含量高
重金属含量低
设备甲
6
9
设备乙
1
14
根据以上数据,则( )
A. B. C. D.
【变式4】(23-24高二上·江西九江·期末)假设有两个变量和,它们的取值分别为和,其列联表为( )
根据以下选项中的数据计算的值,其中最大的一组为( )
A.
B.
C.
D.
题型04 由χ2进行独立性检验
【典例4】(2025高三·全国·专题练习)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
0.05
0.025
3.841
5.024
根据表中数据,得到.则认为选修文科与性别有关系出错的可能性不大于 .
【变式1】(24-25高三·上海·课堂例题)在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【变式2】(23-24高二下·辽宁葫芦岛·期末)一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
【变式3】(24-25高三上·上海·单元测试)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是 %.参考数据:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式4】(2024高三·全国·专题练习)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
40
60
对照组
10
90
能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附,
0.050
0.010
0.001
k
3.841
6.635
10.828
题型05 利用独立性检验思想解决实际问题
【典例5】(2025高三·全国·专题练习) 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【变式1】(2025高三·全国·专题练习)为研究某种疫苗的效果,现对名志愿者进行了实验,得到如下数据:
未感染病毒
感染病毒
合计
接种疫苗
未接种疫苗
合计
根据小概率值的独立性检验,分析疫苗是否有效?
参考公式:,其中.
参考数据:.
【变式2】(2024·河南信阳·二模)某社区对安全卫生进行问卷调查,请居民对社区安全卫生服务给出评价(问卷中设置仅有满意、不满意).现随机抽取了90名居民,调查情况如下表:
男居民
女居民
合计
满意
25
60
不满意
a
2a
合计
90
(1)利用分层抽样的方法从对安全卫生服务评价为不满意的居民中随机抽取6人,再从这6人中随机抽取2人,求这2人中男、女居民各有1人的概率;
(2)试通过计算判断能否在犯错误的概率不超过0.05的情况下认为男居民与女居民对社区安全卫生服务的评价有差异?
附:.
【变式3】(24-25高三上·湖南·期中)电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
题型06 独立性检验中的参数与最值问题
【典例6】(24-25高二下·全国·课后作业)为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
【变式1】(23-24高二下·浙江·期中)为了考查一种新疫苗预防某X疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机进行了抽查,已知抽查的接种疫苗的动物数量是没接种疫苗的2倍,接种且发病占接种的,没接种且发病的占没接种的,若本次抽查得出“在犯错误的概率不超过0.05的前提下认为接种该疫苗与预防某X疾病有关”的结论,则被抽查的没接种动物至少有( )只
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.35 B.36 C.37 D.38
【变式2】(23-24高二下·吉林长春·期中)2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,在犯错误的概率大于0.001且不超过0.01的前提下认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
A.130 B.190 C.240 D.250
【变式3】(23-24高二下·广东中山·期末)某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男女市民各名,每位市民对大会给出满意或不满意的评价,得到下面列联表:
满意
不满意
男市民
女市民
当,时,若在的情况下,我们没有充分的证据推断男、女市民对大会的评价有差异,则的最小值为 .
附:,其中.
一、单选题
1.(23-24高二下·陕西咸阳·阶段练习)下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们则可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大
2.(23-24高二·全国·单元测试)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
3.(23-24高二下·福建宁德·阶段练习)利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用2×2列联表,由计算可得,参照下表:得到的正确结论是( )参考数据:临界值表
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.有99%以上的把握认为“爱好该项运动与性别无关”
B.有99%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”
4.(23-24高二下·福建龙岩·阶段练习)假设有两个分类变量与,它们的可能取值分别为和,其列联表为:则当取下面何值时,与的关系最弱( )
10
18
26
A.8 B.9 C.14 D.19
5.(21-22高二上·全国·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
6.(21-22高二上·全国·课后作业)两个分类变量X和Y,值域分别为和,其样本频数分别是,,.若X与Y有关系的可信程度不小于,则c等于( )
A.3 B.7 C.5 D.6
7.(24-25高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
8.(23-24高二下·河南郑州·期末)某校乒乓球社团为了解喜欢乒乓球运动是否与性别有关,随机抽取了若干人进行调查.已知抽查的男生、女生人数均为,其中男生喜爱乒乓球运动的人数占男生人数的,女生喜爱乒乓球运动的人数占女生人数的.若本次调查得出“有的把握认为喜爱乒乓球运动与性别有关”的结论,则的最小值为( )
附:参考公式及数据:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.20 B.21 C.22 D.23
二、多选题
9.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男全的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
10.(23-24高二下·重庆·期末)为考察某种药物预防疾病的效果,进行动物实验,得到如下药物结果与动物实验的数据:
患病
未患病
服用药
10
45
没服用药
20
30
由上述数据得出下列结论,其中正确的是( )
附:;
0.05
0.025
0.010
0.005
3.841
5.024
6.635
7.879
A.根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.025
B.根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.01
C.该药物的预防有效率超过
D.若将所有试验数据都扩大到原来的10倍,根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.005
11.(24-25高三上·广东深圳·阶段练习)某中学为更好地开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.如果依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,则调查人数中男生可能有( )
附:
,其中.
A.150人 B.225人
C.300人 D.375人
三、填空题
12.(24-25高三·上海·随堂练习)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
13.(23-24高二下·河南信阳·期末)为了研究高三学生的性别和身高是否大于170cm的关联性,调查了高三学生200名,得到如下列联表:
性别
身高
合计
低于170cm
不低于170cm
女
80
20
100
男
30
70
100
合计
110
90
200
根据列联表的数据,计算得 ;依据小概率值 的独立性检验,认为“高三学生的性别和身高有关联”.
附:临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
14.(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105 人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
附: 其中.
0.10
0.05
0.025
0.010
0.0005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
已知在全部 105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是
①列联表中c的值为30,b的值为35;
②列联表中c的值为20,b的值为 45;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
四、解答题
15.(24-25高三·上海·课堂例题)为了调查商户每天销售额与每天线上销售时间之间的相关关系,随机选取45家商户进行跟踪调查,其中每日线上销售时间不少于6小时的商户有19家,余下的商户中,每天的销售额不足3万元的占,统计后得到如下列联表:
销售额不少于3万元(户)
销售额不足3万元(户)
合计
线上销售时间不少于6小时
4
19
线上销售时间不足6小时
合计
45
请完成上面的列联表,并判断是否有的把握认为“商户每天销售额与商户每天线上销售时间有关.”
参考公式:,其中.
0.50
0.40
0.25
0.15
0.010
0.05
0.025
0.010
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
16.(23-24高二下·青海西宁·期末)某学校高三年级有学生1000人,经调查,其中750人经常参加体育锻炼(称为A类同学),另外250人不经常参加体育锻炼(称为B类同学).现用按比例分配的分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查100人,如果以身高达到作为达标的标准,对抽取的100人,得到以下列联表(单位:人):
身高达标
身高不达标
总计
经常参加体育锻炼
40
不经常参加体育锻炼
15
总计
100
(1)完成上表;
(2)依据的独立性检验,能否认为经常参加体育锻炼与身高达标有关系?
注:.
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
17.(24-25高三上·上海·期中)学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
18.(23-24高三下·湖南长沙·期中)新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.
名女生成绩频数分布表:
成绩
频数
10
10
6
4
附:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;
男生
女生
合计
防疫标兵
非防疫标兵
合计
(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.
19.(2024·吉林长春·一模)某医学研究团队经过研究初步得出检测某种疾病的患病与否和某项医学指标有关,利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性(患病),小于或等于的人判定为阴性(未患病).此检测标准的漏诊率是将患病者判定为阴性的概率;误诊率是将未患病者判定为阳性的概率.
(1)随机抽取男女各500人进行检验,采用临界值进行判定时,误判共10人(漏诊与误诊之和),其中2男8女,写出列联表,依据小概率值的独立性检验,能否认为误判与性别有关?
(2)经过大量调查,得到如下的患病者和未患病者该指标的频率分布表:
指标
[95,100]
(100,105]
(105,110]
(110,115]
(115,120]
(120,125]
(125,130]
患病者频率
0.01
0.06
0.17
0.18
0.2
0.2
0.18
指标
[70,75]
未患病者频率
0.19
0.2
0.2
0.18
0.17
0.05
0.01
假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.若漏诊率和误诊率同时控制在以内(小于等于),求临界值的范围;
(3)在(2)条件下,求出误判率(漏诊率与误诊率之和)最小时的临界值及对应的误诊率和漏诊率.
附:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
原创精品资源学科网独家享有版权,侵权必究!13
学科网(北京)股份有限公司
$$
第07讲 独立性检验
课程标准
学习目标
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表独立性检验及其应用.
1.理解独立性检验的基本概念、原理和步骤;
2.学生应能够运用所学的独立性检验知识解决实际问题;
3.通过学习独立性检验,培养数据处理和分析的能力.
知识点01 2×2列联表
1.2×2列联表的概念:
将随机事件A,B的样本数据整理成如下的表格
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
上面这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表
2.列联表的统计意义:
记n=a+b+c+d,则由上表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
其他事件的概率类似可求.
【解读】(1)2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系;
(2)因为P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计是有误差的,因此直接用P(AB)=P(A)P(B)是否成立来判断A与B是否独立是不合理的.
【即学即练1】
1.为调查乘客晕车情况,在某一次行程中,50名男乘客中有25名晕车,30名女乘客中有5名晕车.在检验这些乘客晕车是否与性别相关时,常采用的数据分析方法是( )
A.回归分析 B.独立性检验
C.频率分布直方图 D.用样本估计总体
【答案】B
【解析】根据题意,结合题目中的数据,可列2×2列联表,
求观测值χ2,对照临界值得出概率结论;这种数据分析的方法是独立性检验.
2.下表是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
100
则表中a、b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
【答案】C
【解析】由得
知识点02 独立性检验
1.χ2(读作“卡方”)统计量:是统计中一个非常有用的统计量,它的表达式是
χ2=.
2.独立性检验:任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数).χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.因此,如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
【解读】A与B独立时,也称为A与B无关.当χ2<k成立时,一般不直接说A与B无关.也就是说,独立性检验通常得到的结果,或者是有1-α的把握认为A与B有关,或者没有1-α的把握认为A与B有关.
【即学即练2】已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.
【答案】 0.01
【解析】 因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.
题型01 利用列联表分析两变量的关系
【典例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
【解析】 2×2列联表如下:
年龄在六十岁以上
年龄在六十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得==0.671 875.==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
【变式1】假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
x1
10
18
x2
m
26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
【答案】C
【解析】由10×26=18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.
【变式2】下面是2×2列联表.
A
B
B1
B2
总计
A1
33
21
54
A2
a
13
46
总计
b
34
100
(1)表中a,b处的值应为多少?
(2)若用频率估计概率,则P(A1),P(B1),P(A1B1)分别是多少?
(3)表中的数据能说明A1与B1相互独立吗?
【解析】(1)a=46-13=33,
b=33+a=33+33=66.
(2)P(A1)=,P(B1)=,P(A1B1)=.
(3)因为P(A1)·P(B1)=×≈=P(A1B1),所以表中的数据能说明A1与B1相互独立.
【变式3】在一次对人们饮食习惯的调查中,共调查了124人,其中60岁以上的有70人,60岁以下的有54人.60岁以上的人中,有43人饮食以蔬菜为主,另外27人则以肉类为主;60岁以下的人中,有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并判断二者是否有关系.
【解析】将数据整理成如下2×2列联表.
年龄
饮食习惯
以蔬菜为主
以肉类为主
总计
60岁以上
43
27
70
60岁以下
21
33
54
总计
64
60
124
计算得=≈0.614,
=≈0.389.
显然二者数据有较为明显的差距,可以判断年龄对饮食习惯有影响,据此可以在某种程度上认为饮食习惯与年龄有关系.
题型02 2×2列联表的性质及应用
【典例2】(2025高三·全国·专题练习)下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
【答案】C
【分析】根据联表计算求参即可.
【详解】因为.所以.又,所以.
故选:C.
【变式1】(22-23高二下·宁夏固原·期中)下面是一个列联表,则表中处的值分别为( )
总计
25
73
21
总计
49
A.98,28 B.28,98 C.48,45 D.45,48
【答案】C
【分析】根据列联表求解.
【详解】解:由个列联表知:
,
解得,
故选:C
【变式2】(24-25高三·上海·课堂例题)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【答案】D
【分析】根据题意先得出的值,进而再得的值,进而可知的值.
【详解】因为抽取的村民中,老年人有25名,年轻人有25名,所以,
所以,A、B对;
所以,则对;
则错.
故选:.
【变式3】(2024上·江西新余·高二统考期末)某地政府为解除空巢老人日常护理和社会照料的困境,大力培育发展养老护理服务市场.从年开始新建社区养老机构,下表为该地区近年新建社区养老机构的数量对照表.
年份
2017
2018
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
6
7
新建社区养老机构
(1)若该地区参与社区养老的老人的年龄近似服从正态分布,其中年龄的有人,试估计该地参与社区养老的老人有多少?(结果按四舍五入取整数)
(2)已知变量与之间的样本相关系数,请求出关于的线性回归方程,并据此估计年时,该地区新建社区养老机构的数量.(结果按四舍五入取整数)
参考公式与数据:①,.;
②若随机变量,则,,;
③,.
【答案】(1)约为人
(2)回归方程为;约为个.
【分析】(1)利用原则求出的值,即可求得该地参与社区养老的老人人数为;
(2)计算出的值,可求出的值,可求得的值,利用参考数据可求得的值,由此可得出回归直线方程,然后将代入回归直线方程可得结果.
【详解】(1)解:由题意可知,,,则,,
所以,
,
所以,估计该地参与社区养老的老人人数为.
(2)解:由表格中的数据可得,
所以,,
由已知条件可得,
所以,,
所以,,
又因为,
显然,解得,则,
所以,关于的回归直线方程为,
当时,.
估计年时,该地区新建社区养老机构的数量约为个.
【变式3】某高校有10 000名学生,其中女生3 000名,男生7 000名.为调查爱好体育运动是否与性别有关,用分层抽样的方法抽取120名学生,制成独立性检验的2×2列联表,如表,则a-b=________.(用数字作答)
男
女
合计
爱好体育运动
a
9
####
不爱好体育运动
28
b
####
合计
####
####
120
【答案】19
【解析】 根据分层抽样原理,计算抽取男生120×=84(人),
女生120×=36(人),
所以a=84-28=56(人),b=36-9=27(人),
所以a-b=56-27=29(人).
题型03 卡方的计算
【典例3】(23-24高二下·福建漳州·期中)为加强素质教育,使学生各方面全面发展,某学校对学生文化课与体育课的成绩进行了调查统计,结果如下:附:,其中.
体育课不及格
体育课及格
合计
文化课及格
57
221
278
文化课不及格
16
43
59
合计
73
264
337
在对体育课成绩与文化课成绩进行独立性检验时,根据以上数据可得到的值为( )
A.38.214 B.1.255 C.0.0037 D.2.058
【答案】B
【分析】由卡方公式计算即可.
【详解】,
故选:B
【变式1】(24-25高三·上海·随堂练习)研究两个事件A、B之间的关系时,根据数据信息列出如下的列联表,则以下计算公式中正确的是( )
B
B
总计
A
A
总计
n
A. B.
C. D.
【答案】A
【分析】根据独立性检验计算公式代入即可得到答案;
【详解】根据独立性检验计算,
故选:A.
【变式2】(23-24高二下·广东肇庆·期末)已知某独立性检验中,由计算出,若将列联表中的数据分别变成,计算出的,则( )
A. B. C. D.
【答案】B
【分析】根据卡方公式代入计算可得.
【详解】因为,
所以.
故选:B
【变式3】(23-24高二下·甘肃白银·期末)有甲、乙两种过滤水中重金属的设备,为了检验使用这两种设备与过滤后水中重金属含量的关系,各过滤了15瓶受重金属污染的相同水体,调查得出以下数据:
重金属含量高
重金属含量低
设备甲
6
9
设备乙
1
14
根据以上数据,则( )
A. B. C. D.
【答案】A
【分析】先完成列联表,然后根据公式求解即可.
【详解】由题意得到如下2×2列联表:
重金属含量高
重金属含量低
合计
设备甲
6
9
15
设备乙
1
14
15
合计
7
23
30
所以.
故选:A
【变式4】(23-24高二上·江西九江·期末)假设有两个变量和,它们的取值分别为和,其列联表为( )
根据以下选项中的数据计算的值,其中最大的一组为( )
A.
B.
C.
D.
【答案】C
【分析】计算出四个选项中,比较大小即可得解.
【详解】对于A,,
对于B,,
对于C,,
对于D,,
显然最大,故C正确.
故选:C.
题型04 由χ2进行独立性检验
【典例4】(2025高三·全国·专题练习)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
0.05
0.025
3.841
5.024
根据表中数据,得到.则认为选修文科与性别有关系出错的可能性不大于 .
【答案】0.05
【分析】根据观测值以及独立性检验的基本思想即可得出结果.
【详解】因为,这表明小概率事件发生.
根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,
并且这种判断出错的可能性不大于0.05.
故答案为:0.05.
【变式1】(24-25高三·上海·课堂例题)在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【答案】③④
【分析】由独立性检验中观测值和临界值的意义,即可得出正确的答案.
【详解】在独立性检验中,由
表示的意义是:有的把握认为变量与变量没有关系,所以④正确;
即有的把握认为变量与变量有关系,所以③正确.
故答案为:③④
【变式2】(23-24高二下·辽宁葫芦岛·期末)一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】 满意度与性别有关联,推断犯错误的概率不大于0.05(或:有的把握认为满意度与性别有关).
【分析】代入的计算公式,再和临界值比较,得到结论.
【详解】,
所以满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
故答案为:;满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
【变式3】(24-25高三上·上海·单元测试)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是 %.参考数据:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】97.5
【分析】根据独立性检验知识,对照表格中的数据分析即可.
【详解】由,
可知市政府断言市民收入增减与旅游需求有关的可信度是97.5%,
故答案为:97.5
【变式4】(2024高三·全国·专题练习)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
40
60
对照组
10
90
能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附,
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】答案见解析
【分析】由所给数据结合公式求出的值,将其与临界值比较大小可得答案.
【详解】由已知,,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
题型05 利用独立性检验思想解决实际问题
【典例5】(2025高三·全国·专题练习) 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【答案】列联表见解析,有关
【分析】由题意确定列联表,求得,对比数据即可求解.
【详解】由题意分析可得,签约企业共45家,线上销售时间不少于8小时的企业有20家,
那么线上销售时间少于8小时的企业有25家,每天的销售额不足30万元的企业占,
共有.
完成列联表如下:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
3
20
线上销售时间不足8小时
10
15
25
合计
27
18
45
所以.
对应的参数为6.635.而,
所以可判断赞助企业每天的销售额与每天线上销售时间有关.
【变式1】(2025高三·全国·专题练习)为研究某种疫苗的效果,现对名志愿者进行了实验,得到如下数据:
未感染病毒
感染病毒
合计
接种疫苗
未接种疫苗
合计
根据小概率值的独立性检验,分析疫苗是否有效?
参考公式:,其中.
参考数据:.
【答案】疫苗有效,此推断犯错误的概率不大于
【分析】由列联表计算公式算出随机变量的值,根据参考数据判断疫苗是否有效.
【详解】零假设为:接种疫苗与未接种疫苗与感染病毒无关,即疫苗无效.
根据列联表可得.
因为当假设成立时,,
所以根据小概率值的独立性检验,我们推断不成立,
即疫苗有效,此推断犯错误的概率不大于.
【变式2】(2024·河南信阳·二模)某社区对安全卫生进行问卷调查,请居民对社区安全卫生服务给出评价(问卷中设置仅有满意、不满意).现随机抽取了90名居民,调查情况如下表:
男居民
女居民
合计
满意
25
60
不满意
a
2a
合计
90
(1)利用分层抽样的方法从对安全卫生服务评价为不满意的居民中随机抽取6人,再从这6人中随机抽取2人,求这2人中男、女居民各有1人的概率;
(2)试通过计算判断能否在犯错误的概率不超过0.05的情况下认为男居民与女居民对社区安全卫生服务的评价有差异?
附:.
【答案】(1)
(2)答案见详解
【分析】(1)根据总人数解得,完善列联表,根据分层抽样比例关系计算得到人数,再计算概率得到答案.
(2)计算,对比临界值表得到答案.
【详解】(1)由已知,解得,
所以列联表如下:
男
女
合计
满意
35
25
60
不满意
10
20
30
合计
45
45
90
用分层抽样抽取6人,则男居民应抽取2人,女居民应抽取4人,
所以所抽取的2人中男、女居民各有1人的概率为;
(2)由,
所以在犯错的概率不超过0.05的前提下,
可以认为男居民与女居民对社区安全卫生服务的评价有差异.
【变式3】(24-25高三上·湖南·期中)电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,能
(2)
(3)分布列见解析,
【分析】(1)由题意直接确定列联表,计算,对比数据即可判断;
(2)由条件概率计算公式即可求解;
(3)记“3名被抽取的男性市民中,恰好抽到k人参加座谈”记为事件,
求得,再由条件概率乘法公式和互斥事件加法公式计算随机变量取每一个值对应的概率,即可求解;
【详解】(1)被调查的女性市民人数为,
其中偏好铅酸电池电动车的女性市民人数为.
偏好石墨烯电池电动车的女性市民人数为,
所以2×2列联表为:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
300
女性市民
80
120
200
合计
280
220
500
零假设:市民对这两种电池的电动车的偏好与市民的性别无关,
根据列联表中的数据可以求得
,
由于,
根据小概率值的独立性检验,我们推断不成立,
即认为市民对这两种电池的电动车的偏好与市民的性别有关.
(2)因为偏好石墨烯电池电动车的市民中,男性市民与女性市民的比为,
所以采用分层抽样的方法抽取7的人中,男性市民有5人,女性市民有2人,
设“有女性市民参加座谈”为事件A,“恰有一名女性市民参加座谈”为事件B,
则,,
所以.
(3)因为所有参加调查的市民中,男性市民和女性市民的比为,
所以由分层抽样知,随机抽取的5名市民中,男性市民有3人,女性市民有2人.
根据频率估计概率知,男性市民偏好石墨烯电池电动车的概率为,偏好铅酸电池电动车的概率为,
从选出的5名市民中随机抽取2人进行座谈,则X可能的取值为0,1,2.
“3名被抽取的男性市民中,恰好抽到k人参加座谈”记为事件,
则.
“参加座谈的2名市民中是偏好石墨烯电池电动车的男性市民的人数恰好为m人”记为事件,
则,,
,,
,,
所以
,
,
,
故X的分布列如下:
X
0
1
2
P
.
题型06 独立性检验中的参数与最值问题
【典例6】(24-25高二下·全国·课后作业)为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
【答案】C
【分析】利用独立性检验列联表及观测值可解得答案.
【详解】由题意被调查的文理科教师人数相同,设理科教师的人数为,由题意可列出列联表:
理科教师
文科教师
合计
喜欢用平板教学
不喜欢用平板教学
合计
.
由于有的把握认为是否喜欢用平板教学和文理学科有关,
所以,
解得,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即理科教师的人数可以是:12,13,14,15,16,17,18,19,且考虑到喜欢用平板的人数占理科教师总人数的,故人数为15人时,有实际意义.
故选:C
【变式1】(23-24高二下·浙江·期中)为了考查一种新疫苗预防某X疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机进行了抽查,已知抽查的接种疫苗的动物数量是没接种疫苗的2倍,接种且发病占接种的,没接种且发病的占没接种的,若本次抽查得出“在犯错误的概率不超过0.05的前提下认为接种该疫苗与预防某X疾病有关”的结论,则被抽查的没接种动物至少有( )只
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.35 B.36 C.37 D.38
【答案】B
【分析】根据题意列出二联表,即可由卡方公式求解即可.
【详解】设没接种只数为k,依题意,得2×2列联表如下:
发病
没发病
合计
接种
2k
没接种
k
合计
3k
则的观测值为:,因为本次调查得出“在犯错误的概率不超过0.05的前提下认为喜爱足球与性别有关的结论,
于是,即,即
∴,∴
故选:B.
【变式2】(23-24高二下·吉林长春·期中)2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,在犯错误的概率大于0.001且不超过0.01的前提下认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
A.130 B.190 C.240 D.250
【答案】B
【分析】设男、女学生的人数都为,可得列联表,由独立性检验算出,结合观测值和选项可得答案.
【详解】依题意,设男、女学生的人数都为,则男、女学生的总人数为,可得列联表如下,
喜欢网络课程
不喜欢网络课程
总计
男生
女生
总计
故,
由题意可得,
所以,结合选项可知,只有B符合题意.
故选:B.
【变式3】(23-24高二下·广东中山·期末)某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男女市民各名,每位市民对大会给出满意或不满意的评价,得到下面列联表:
满意
不满意
男市民
女市民
当,时,若在的情况下,我们没有充分的证据推断男、女市民对大会的评价有差异,则的最小值为 .
附:,其中.
【答案】
【分析】根据定义算出的表达式,由题意得,结合可得出的最小值.
【详解】由题意得,
并令,即,
近似解得,即,注意到,
故的最小值为.
故答案为:.
一、单选题
1.(23-24高二下·陕西咸阳·阶段练习)下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们则可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大
【答案】D
【分析】根据独立性检验的意义分别判断各选项.
【详解】独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,故A错误;
独立性检验并不能确定两个变量相关,故B错误;
是指“抽烟”和“患肺病”存在关联的可能性大小,并非抽烟人中患肺病的发病率,故C错误;
根据卡方计算的定义可知,在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,对于D正确.
故选:D.
2.(23-24高二·全国·单元测试)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】D
【分析】计算每个选项中的,比较大小后可得出结论.
【详解】对于两个分类变量与而言,的值越大,说明与有关系的可能性最大,
对于A选项,,
对于B选项,,
对于C选项,,
对于D选项,,
显然D中最大,
故选:D.
3.(23-24高二下·福建宁德·阶段练习)利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用2×2列联表,由计算可得,参照下表:得到的正确结论是( )参考数据:临界值表
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.有99%以上的把握认为“爱好该项运动与性别无关”
B.有99%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”
【答案】B
【分析】根据与临界值比较即可求解.
【详解】因为,,
所以有99%以上的把握认为“爱好该项运动与性别有关”.
故选:B.
4.(23-24高二下·福建龙岩·阶段练习)假设有两个分类变量与,它们的可能取值分别为和,其列联表为:则当取下面何值时,与的关系最弱( )
10
18
26
A.8 B.9 C.14 D.19
【答案】C
【分析】利用分类变量的相关性进行计算求解.
【详解】在两个分类变量的列联表中,当的值越小时,认为两个分类变量有关的可能性越小.
令,得,解得,
所以当时,与的关系最弱,故A,B,D均不符合题意.
故选:C.
5.(21-22高二上·全国·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
【答案】C
【分析】根据卡方的计算即可与临界值比较求解.
【详解】由题意知,105人中随机抽取1人,成绩优秀的概率为,故成绩优秀的学生数是,成绩非优秀的学生数是,所以,
故二联表为
优秀
非优秀
总计
甲班
10
45
55
乙班
20
30
50
总计
30
75
105
选项A、B错误.根据列联表中的数据,得到χ2=,因此有95%的把握认为“成绩与班级有关系”,选项C正确.
故选:C
6.(21-22高二上·全国·课后作业)两个分类变量X和Y,值域分别为和,其样本频数分别是,,.若X与Y有关系的可信程度不小于,则c等于( )
A.3 B.7 C.5 D.6
【答案】A
【分析】根据列联表,以及独立检验随机变量的临界值参考表,计算对应的值,验证时,是否恰好满足即可.
【详解】根据随机变量的列联表,
总计
10
21
31
c
d
35
总计
66
以及独立检验随机变量的临界值参考表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
故的观测值
当时,,当时,,
当时,,当时,,
故只有A选项对应的X与Y有关系的可信程度不小于.
故选:A.
7.(24-25高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
【答案】B
【分析】命题①,根据条件,利用古典概率公式,求出概率,即可判断命题①的正误;根据表中数据,求出,即可判断出命题②和③的正误,即可求解.
【详解】因为对主办方表示满意的男性运动员的人数为,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,
又因为,所以命题②错误,命题③正确,
故选:B.
8.(23-24高二下·河南郑州·期末)某校乒乓球社团为了解喜欢乒乓球运动是否与性别有关,随机抽取了若干人进行调查.已知抽查的男生、女生人数均为,其中男生喜爱乒乓球运动的人数占男生人数的,女生喜爱乒乓球运动的人数占女生人数的.若本次调查得出“有的把握认为喜爱乒乓球运动与性别有关”的结论,则的最小值为( )
附:参考公式及数据:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.20 B.21 C.22 D.23
【答案】D
【分析】依题意,作出列联表,计算的值,依题意,须使的值不小于小概率对应的,求解不等式即得.
【详解】依题意,作出列联表:
男生
女生
合计
喜爱乒乓球运动
不喜爱乒乓球运动
合计
则,
因本次调查得出“有的把握认为喜爱乒乓球运动与性别有关”的结论,故得,
解得,因,故的最小值为23.
故选:D.
二、多选题
9.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男全的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
【答案】BCD
【分析】根据男生比女生少20人,建立等式求出男生、女生的人数,建立列联表,利用列联表中的信息解决ABC,利用独立性检验来解决D选项.
【详解】解:设男生人数为,则女生人数为,
由题得,
解得,即在被调查者中,男、女生人数为80,100,可得到如下列联表,
性别
锻炼情况
合计
经常锻炼
不经常锻炼
男
48
32
80
女
40
60
100
合计
88
92
180
由表可知,A显然错误,
男生中经常锻炼的人数比女生中经常锻炼的人数多B正确;
在经常锻炼者中是男生的频率为,在不经常锻炼者中是男生的频率为C正确;
零假设:假期是否经常锻炼与性别无关,
则,根据小概率值的独立性检验,我们推断不成立,
即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确,
故选:BCD.
10.(23-24高二下·重庆·期末)为考察某种药物预防疾病的效果,进行动物实验,得到如下药物结果与动物实验的数据:
患病
未患病
服用药
10
45
没服用药
20
30
由上述数据得出下列结论,其中正确的是( )
附:;
0.05
0.025
0.010
0.005
3.841
5.024
6.635
7.879
A.根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.025
B.根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.01
C.该药物的预防有效率超过
D.若将所有试验数据都扩大到原来的10倍,根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.005
【答案】AD
【分析】根据题意计算出的值,逐项分析即可.
【详解】根据列联表
患病
未患病
合计
服用药
10
45
55
没服用药
20
30
50
合计
30
75
105
计算,
对于A,因为,所以根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.025,A正确;
对于B,因为根据小概率值的独立性检验,推断服用药物是无效的,此推断犯错误的概率不超过0.01,B错误;
对于C,可推断该药物的预防有效率超过,C错误;
对于D,若将所有试验数据都扩大到原来的10倍,则根据小概率值的独立性检验,推断服用药物是有效的,此推断犯错误的概率不超过0.005,D正确;
故选:AD.
11.(24-25高三上·广东深圳·阶段练习)某中学为更好地开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.如果依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,则调查人数中男生可能有( )
附:
,其中.
A.150人 B.225人
C.300人 D.375人
【答案】BC
【分析】设男生人数为,根据题意用表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出,由得到的范围,进而得到男生人数的范围,选出符合题意的选项.
【详解】设男生人数为,根据题意可得列联表如下:
男生
女生
合计
选修外出研学课程
不选修外出研学课程
合计
则,
依据依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,
则,
解得,则.
故选:BC.
三、填空题
12.(24-25高三·上海·随堂练习)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则 .(结果精确到0.001)
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总计
200
【答案】3.968
【分析】由题意,根据列联表中所给数据补全列表,将数据代入公式得,计算即可得到答案.
【详解】补全列联表
室外工作
室内工作
总计
有呼吸系统疾病
150
200
350
无呼吸系统疾病
50
100
150
总计
200
300
500
.
故答案为:3.968.
13.(23-24高二下·河南信阳·期末)为了研究高三学生的性别和身高是否大于170cm的关联性,调查了高三学生200名,得到如下列联表:
性别
身高
合计
低于170cm
不低于170cm
女
80
20
100
男
30
70
100
合计
110
90
200
根据列联表的数据,计算得 ;依据小概率值 的独立性检验,认为“高三学生的性别和身高有关联”.
附:临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】 50.505 0.001
【分析】根据给定的列联表求出的观测值,再与临界值表进行对比,即可判断高三学生的性别和身高有关联.
【详解】,
根据小概率值的独立性检验,认为“高三学生的性别和身高有关联”.
故答案为:50.505;0.001.
14.(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105 人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
附: 其中.
0.10
0.05
0.025
0.010
0.0005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
已知在全部 105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是
①列联表中c的值为30,b的值为35;
②列联表中c的值为20,b的值为 45;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
【答案】②③
【分析】由成绩优秀的概率,可求的成绩优秀的人数,进而求出非优秀人数,得到的值,计算的观测值,对照题目中的表格,即可得到结论.
【详解】由题意,在全部的105人中随机抽取1人,成绩优秀的概率为,
所以成绩优秀的人数为人,非优秀的人数为人,
所以,故①错误,②正确;
则,
若按的可靠性要求,能认为“成绩与班级有关系”,故③正确,④错误.
故答案为:②③.
【点睛】关键点睛:熟练掌握的计算方法是本题解决的关键.
四、解答题
15.(24-25高三·上海·课堂例题)为了调查商户每天销售额与每天线上销售时间之间的相关关系,随机选取45家商户进行跟踪调查,其中每日线上销售时间不少于6小时的商户有19家,余下的商户中,每天的销售额不足3万元的占,统计后得到如下列联表:
销售额不少于3万元(户)
销售额不足3万元(户)
合计
线上销售时间不少于6小时
4
19
线上销售时间不足6小时
合计
45
请完成上面的列联表,并判断是否有的把握认为“商户每天销售额与商户每天线上销售时间有关.”
参考公式:,其中.
0.50
0.40
0.25
0.15
0.010
0.05
0.025
0.010
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
【答案】表格见解析,有的把握认为“商户每天销售额与商户每天线上销售时间有关”.
【分析】完善列联表结合卡方公式计算,结合独立检验的基本思想得结论即可.
【详解】
销售额不少于3万元
销售额不足3万元
合计
线上销售时间不少于6小时
15
4
19
线上销售时间不足6小时
10
16
26
合计
25
20
45
因为,
所以有的把握认为“商户每天销售额与商户每天线上销售时间有关”.
16.(23-24高二下·青海西宁·期末)某学校高三年级有学生1000人,经调查,其中750人经常参加体育锻炼(称为A类同学),另外250人不经常参加体育锻炼(称为B类同学).现用按比例分配的分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查100人,如果以身高达到作为达标的标准,对抽取的100人,得到以下列联表(单位:人):
身高达标
身高不达标
总计
经常参加体育锻炼
40
不经常参加体育锻炼
15
总计
100
(1)完成上表;
(2)依据的独立性检验,能否认为经常参加体育锻炼与身高达标有关系?
注:.
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)表格见解析;
(2)无关联.
【分析】(1)根据题目含义填写表格即可,
(2)利用列联表结合卡方计算求解即可.
【详解】(1)填写列联表(单位:人)如下:
身高达标
身高不达标
总计
经常参加体育锻炼
40
35
75
不经常参加体育锻炼
10
15
25
总计
50
50
100
(2)零假设为:经常参加体育锻炼与身高达标无关联.
由列联表中的数据,
.
根据的独立性检验,没有充分证据证明不成立,即认为经常参加体育锻炼与身高达标无关联.
17.(24-25高三上·上海·期中)学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
【答案】(1)列联表见解析,有关;
(2)分布列见解析,.
【分析】(1)根据题意,补全列联表,求得,结合附表,即可得到结论;
(2)根据题意,得到随机变量的可能有0,1,2,3,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)这100位学生中,“公序良俗”达人有20人,由此补全列联表如下:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
13
30
43
女性
7
50
57
总计
20
80
100
零假设:“公序良俗”达人与性别无关,
可得,
所以根据小概率值的独立性检验,我们可推断不成立,即认为“公序良俗”达人与性别有关.
(2)由题意,随机变量的可能有,,,,
可得,
,
,
,
所以的分布列如下:
0
1
2
3
所以数学期望.
18.(23-24高三下·湖南长沙·期中)新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.
名女生成绩频数分布表:
成绩
频数
10
10
6
4
附:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;
男生
女生
合计
防疫标兵
非防疫标兵
合计
(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.
【答案】(1)表格见解析,有%的把握认为“防疫标兵”与性别有关
(2)分布列见解析,
【分析】(1)分别分析男女生样本中 “防疫标兵”和“非防疫标兵”人数,完成列联表,再计算的数值,并与参考数值作比较得出结论;
(2)从该校女生中随机抽取4人,则“防疫标兵”的人数,服从二项分布,分别求出概率从而得到分布列,再计算数学期望.
【详解】(1)由频率分布直方图,
可得名男生中成绩大于等于分的频率为,
故名男生中“防疫标兵”人数为人,“非防疫标兵”人数为人.
由频数分布表,可得名女生中“防疫标兵”人数为人,“非防疫标兵”人数为人.
男生
女生
合计
防疫标兵
18
非防疫标兵
合计
故,所以有%的把握认为“防疫标兵”与性别有关.
(2)名女生样本中有人成绩在分以上,所以女生样本中“防疫标兵”的频率为.
用样本估计总体,以频率估计概率,从该校女生中随机抽取人,
则“防疫标兵”的人数服从二项分布,即.
X的可能取值为.
,,,,.
所以随机变量的分布列为
X
0
1
2
3
4
P
数学期望为.
19.(2024·吉林长春·一模)某医学研究团队经过研究初步得出检测某种疾病的患病与否和某项医学指标有关,利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性(患病),小于或等于的人判定为阴性(未患病).此检测标准的漏诊率是将患病者判定为阴性的概率;误诊率是将未患病者判定为阳性的概率.
(1)随机抽取男女各500人进行检验,采用临界值进行判定时,误判共10人(漏诊与误诊之和),其中2男8女,写出列联表,依据小概率值的独立性检验,能否认为误判与性别有关?
(2)经过大量调查,得到如下的患病者和未患病者该指标的频率分布表:
指标
[95,100]
(100,105]
(105,110]
(110,115]
(115,120]
(120,125]
(125,130]
患病者频率
0.01
0.06
0.17
0.18
0.2
0.2
0.18
指标
[70,75]
未患病者频率
0.19
0.2
0.2
0.18
0.17
0.05
0.01
假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.若漏诊率和误诊率同时控制在以内(小于等于),求临界值的范围;
(3)在(2)条件下,求出误判率(漏诊率与误诊率之和)最小时的临界值及对应的误诊率和漏诊率.
附:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析;无关
(2)
(3);误诊率为,漏诊率为
【分析】(1)依题意列出列联表,将数据代入卡方公式,根据卡方值与对应的小概率值比较即可判断误判与性别的相关程度;
(2)分别根据漏诊率和误诊率都小于,结合频率分布表,先判断临界值所在组别,再利用百分位数的定义,建立满足的不等式,继而得到临界值的范围;
(3)结合频率分布表分段写出误判率的表达式,即可求解.
【详解】(1)依题意,列出列联表为:
误判人数
未误判人数
总计
男性人数
2
498
500
女性人数
8
492
500
总计
10
990
1000
由上表,,
故可以认为,依据小概率值的独立性检验,没有充分的证据证明零假设不成立,即认为误判与性别无关;
(2)因漏诊率小于等于,由频率分布表可知,临界值应在内,
依题意,有;
又因误诊率小于等于,由频率分布表可知,临界值应在内,
依题意,有.
综上,临界值的范围为;
(3)由(2)已得,设误判率为,
当时,,
当时,
,
所以当时,误判率最小,
相应的误诊率为,漏诊率为:.
【点睛】关键点点睛:本题证据要考查独立性检验、百分位数的应用,属于较难题.
解决通过统计图表求百分位数的问题,需要正确理解相关概念的具体含义,结合统计表或分布图表,列出相应的方程或不等式求解.
原创精品资源学科网独家享有版权,侵权必究!13
学科网(北京)股份有限公司
$$