内容正文:
第12讲 独立性检验
目录
题型归纳 1
题型01 完善列联表 2
题型02 列联表分析 4
题型03 独立性检验的概念及辨析 5
题型04 卡方的计算 7
题型05 独立性检验的基本思想 9
题型06 独立性检验解决实际问题 12
分层练习 14
夯实基础 14
能力提升 20
知识点01列联表
列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“X与Y的关系”.
[易错提醒]
(1)独立性检验的关键是正确列出2×2列联表,并计算出K2的值.
(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.
题型01完善列联表
【例1】(23-24高二上·全国·单元测试)2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为列联表.
高度辐射
轻微辐射
合计
身体健康
30
A
50
身体不健康
B
10
60
合计
C
D
E
则A,B,C,D的值依次为( )
A.20,80,30,50 B.20,50,80,30
C.20,50,80,110 D.20,80,110,50
【变式1】(23-24高二下·天津河北·期末)下面是一个2×2列联表,其中a、b处的值分别为 、 .
总计
a
21
73
2
25
27
总计
b
46
100
【变式2】(22-23高二下·重庆长寿·期末)为了解性别因素是否对某班学生爱运动有影响,对该班50名学生进行了问卷调查,得到如表的2×2列联表:
爱运动
不爱运动
合计
男生
m
12
30
女生
8
20
合计
n
50
则m= ,n= .
【变式3】(21-22高二下·北京丰台·期末)为了解性别因素是否对某班学生打篮球的经常性有影响,对该班40名学生进行了问卷调查,得到如下的22列联表:
经常打篮球
不经常打篮球
合计
男生
4
20
女生
8
20
合计
40
则 , .
题型02 列联表分析
【例2】(2023·云南昆明·一模)考查棉花种子经过处理跟生病之间的关系得到如表数据:
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
【变式1】(21-22高二下·广西河池·期末)假设有两个变量x与y的列联表如下表:
a
b
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【变式2】(20-21高二下·西藏日喀则·期末)假设有两个变量X和Y,他们的取值分别为,和,,其列联表为:
总计
21
73
8
25
33
总计
46
106
则表中,的值分别是( )
A.94,96 B.54,52 C.52,50 D.52,60
【变式3】(22-23高二下·青海西宁·期末)第31届世界大学生运动会将于2023年7月28日至8月8日在成都举行,组委会安排100名志愿者担任对外翻译工作,在下面“性别与会法语”的列联表中, .
会法语
不会法语
总计
男
a
b
40
女
12
d
总计
36
100
题型03 独立性检验的概念及辨析
【例3】(22-23高二下·山西运城·期中)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用列联表进行独立性检验.整理所得数据后发现,若依据的独立性检验,则认为学生性别与是否支持该活动无关;若依据的独立性检验,则认为学生性别与是否支持该活动有关,则的值可能为( )
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.4.238 B.4.972 C.6.687 D.6.069
【变式1】(23-24高二下·黑龙江牡丹江·期中)下列说法错误的是( )
A.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,带状区域越窄,说明回归方程的预报精度越高
B.在独立性检验时,两个变量的列联表中,对角线上数据的乘积相差越大,说明“这两个变量没有关系”成立的可能性就越大
C.在回归直线方程中,当解释变量每增加一个单位时,预报变量就增加0.2个单位
D.越大,意味着残差平方和越小,即模型的拟合效果越好
【变式2】(22-23高二下·河南南阳·期中)在易怒与患心脏病这两个变量的计算中,有以下结论:①当由独立性检验可知有90%的把握认为易怒与患心脏病有关时,那么在100个易怒的人中有90人患心脏病;②由的观测值得到有90%的把握认为易怒与患心脏病有关系,是指有10%的可能性使得推断出现错误;③由独立性检验可知有90%的把握认为易怒与患心脏病有关,是指在犯错误的概率不超过10%的前提下,可以认为某人是否患心脏病与是否易怒有关,其中正确结论的个数是( )
A.3 B.2 C.1 D.0
【变式3】(22-23高二下·重庆·期末)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是 %.
附:常用小概率值和临界值表:
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
题型04 卡方的计算
【例4】(23-24高二下·广东肇庆·期末)已知某独立性检验中,由计算出,若将列联表中的数据分别变成,计算出的,则( )
A. B. C. D.
【变式1】(22-23高二下·吉林长春·期中)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【变式2】(21-22高二下·福建厦门·期中)某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
同意限定区域停车
不同意限定区域停车
合计
男
20
5
25
女
10
15
25
合计
30
20
50
根据上述数据,推断同意限定区域停车与性别有关系,则这种推断犯错误的概率不超过 .
附:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式3】(24-25高二上·江西南昌·期末)为了研究某中药预防方对预防某种疾病的效果,科学家进行了实验,得到如下结果(单位:人):
患病情况
服用情况
患病
不患病
服用中药预防方
10
90
不服用中药预防方
50
50
(1)该中药预防方对预防该种疾病是否有效?
(2)从参与该实验的人中任选一人,A表示事件“选到的人服用中药预防方”,B表示事件“选到的人患病”.利用该调查数据,求,的值.
附:,其中.
0.10
0.05
0.01
2.706
3.841
6.635
题型05 独立性检验的基本思想
【例5】(22-23高二下·福建漳州·期末)根据分类变量和的样本观察数据的计算结果,有不少于的把握认为和有关,则的一个可能取值为( )
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
A.3.971 B.5.872 C.6.775 D.9.698
【变式1】(22-23高二下·广西桂林·期中)某学校想了解该校学生对于某项运动的爱好是否与性别有关,通过随机抽查名学生,得到如下列联表:
性别
态度
总计
喜欢该项运动
不喜欢该项运动
男
女
总计
由公式,算得:.下列结论正确的是( )
A.有的把握认为“爱好该项运动与性别有关”
B.有的把握认为“爱好该项运动与性别无关”
C.有的把握认为“爱好该项运动与性别无关”
D.有的把握认为“爱好该项运动与性别有关”
【变式2】(22-23高二下·天津南开·期中)某学校对全校进行统计抽查,抽出50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总数
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总数
26
24
50
根据表中数据得到.
则在犯错误的概率不超过 的前提下,认为“玩电脑游戏与认为作业多少”有关系
参考数据表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式3】(22-23高二下·安徽合肥·期末)某城市统计该地区人口流动情况,随机抽取了100人了解他们端午节是否回老家,得到如下不完整的列联表:
回老家
不回老家
总计
60周岁及以下
5
60
60周岁以上
25
总计
100
(1)完成以上列联表:
(2)根据小概率值的独立性检验,能否认为回老家过节与年龄有关?
参考公式:,
参考数据:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
题型06 独立性检验解决实际问题
【例6】(23-24高二下·浙江·期中)为了考查一种新疫苗预防某X疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机进行了抽查,已知抽查的接种疫苗的动物数量是没接种疫苗的2倍,接种且发病占接种的,没接种且发病的占没接种的,若本次抽查得出“在犯错误的概率不超过0.05的前提下认为接种该疫苗与预防某X疾病有关”的结论,则被抽查的没接种动物至少有( )只
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.35 B.36 C.37 D.38
【变式1】(23-24高二下·山东潍坊·期中)某高校为研究学生每周平均体育运动时间进行了一次抽样调查,已知被抽取的男、女生人数相同.调查显示:抽取的男生中每周平均体育运动时间超过4小时的人数占比为,抽取的女生中每周平均体育运动时间超过4小时的人数占比为,若在犯错误的概率不超过1%的前提下,可以认为该校学生每周平均体育运动时间与性别有关,则被抽取的男生人数至少为( )
附:
0.050
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
A.60 B.65 C.70 D.75
【变式2】(23-24高二上·江苏常州·期末)某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中,且,若有的把握可以认为性别与对工作的满意程度具有相关性,则的值是 .
对工作满意
对工作不满意
男
女
附:,其中.
【变式3】(24-25高三上·江苏扬州·期中)中国是茶的故乡,茶文化源远流长,博大精深.某兴趣小组,为了了解当地居民对喝茶的态度,随机调查了100人,并将结果整理如下:
不喜欢喝茶
喜欢喝茶
合计
35岁以上(含35岁)
30
30
60
35岁以下
25
15
40
合计
55
45
100
(1)是否有90%的把握认为该地居民喜欢喝茶与年龄有关?
(2)以样本估计总体,用频率代替概率.该兴趣小组在当地喜欢喝茶的人群中,随机选出2人参加茶文化艺术节.抽取的2人中,35岁以下的人数记为,求的分布列与期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【夯实基础】
一、单选题
1.(21-22高二下·山西大同·期中)利用独立性检验考察两个变量X与Y是否有关系,通过2×2列联表进行独立性检验.经计算,那么认为X与Y是有关系,这个结论错误的可能性不超过( )
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.0.001 B.0.005 C.0.05 D.0.01
2.(21-22高二下·江苏常州·期中)医院为了研究某种血清预防感冒的作用,把500名使用血清与500名未使用血清的人一个月的感冒记录进行比较,提出假设:“这种血清不能起到预防的作用”,利用列联表计算得,经查对临界值表知.则下列说法正确的是( )
A.若某人未使用过该血清,则他在一个月中有的可能性生病
B.这种血清预防感冒的有效率为
C.有的把握认为这种血清不能起到预防感冒的作用
D.有的把握认为这种血清能起到预防感冒的作用
3.(23-24高二下·黑龙江哈尔滨·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
4.(23-24高二下·天津滨海新·期末)下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
二、多选题
5.(23-24高二下·黑龙江哈尔滨·期末)某校为了解学生对2024欧洲杯的关注度(关注或不关注),对本校学生随机做了一次调查,结果显示被调查的男、女生人数相同,其中有的男生“关注”,有的女生“关注”,若依据小率值的独立性检验,认为学生对欧洲杯的关注度与性别有关联,则调查的总人数可能为( )
参考公式:,.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.276 B.288 C.300 D.312
6.(23-24高二下·黑龙江哈尔滨·期末)下列说法正确的是( )
A.回归分析中,线性相关系数的取值范围为
B.回归分析中,残差图中残差比较均匀分布在以取值为0的横轴为对称轴的水平带状区域内,且宽度越窄表示拟合效果越好
C.回归分析中,决定系数越大,说明残差平方和越小,拟合效果越好
D.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
三、填空题
7.(23-24高二下·福建莆田·期末)已知,.在检验喜欢某种甜品与性别是否有关的过程中,某研究员搜集数据并计算得到,则我们至少有 把握认为喜欢某种甜品与性别有关.
8.(22-23高二下·重庆沙坪坝·期中)有两个分类变量和,其中一组观测值为如下的列联表:
总计
10
30
总计
10
30
40
其中均为大于的整数,则 时,在犯错误的概率不超过0.01的前提下为“和之间有关系”.附:
四、解答题
9.(23-24高二上·辽宁·期末)某市为了了解学生体育运动的时间长度是否与性别因素有关,从某几所学校中随机调查了男、女生各100名的平均每天体育运动时间,得到如下数据:
分钟性别
女生
10
30
50
10
男生
5
20
50
25
根据学生课余体育运动要求,平均每天体育运动时间在内认定为“合格”,否则被认定为“不合格”.根据已知条件完成下面的列联表,并回答能否有的把握认为“学生体育运动时间与学生性别因素有关联”
不合格
合格
合计
女生
男生
合计
附:,
(其中.
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.(23-24高二上·辽宁·期末)某机构为了解学生是否喜欢绘画与性别有关,调查了400名学生(男女各一半)的选择,发现喜欢绘画的人数是300,喜欢绘画的男生比女生少60人.
(1)完成下面的列联表;
喜欢绘画
不喜欢绘画
总计
男生
女生
总计
(2)根据调查数据回答:有的把握认为是否喜欢绘画与性别有关吗?
附:.临界值表如下:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
11.(23-24高二下·青海西宁·期末)某学校高三年级有学生1000人,经调查,其中750人经常参加体育锻炼(称为A类同学),另外250人不经常参加体育锻炼(称为B类同学).现用按比例分配的分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查100人,如果以身高达到作为达标的标准,对抽取的100人,得到以下列联表(单位:人):
身高达标
身高不达标
总计
经常参加体育锻炼
40
不经常参加体育锻炼
15
总计
100
(1)完成上表;
(2)依据的独立性检验,能否认为经常参加体育锻炼与身高达标有关系?
注:.
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【能力提升】
一、单选题
1.(23-24高二下·陕西咸阳·期末)下列说法正确的是( )
A.若两个随机变量的线性相关性越强,则相关系数的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于0
C.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过0.05
D.若随机变量,满足,则
2.(23-24高二下·新疆克孜勒苏·期末)下列四个命题中,真命题的序号为( ).
①甲乙两组数据分别为:甲:28,31,39,42,46,55,57,58,66;乙:29,34,35,44,46,48,53,55,55,67.则甲乙的中位数分别为46和45.
②相关系数,表明两个变量的相关程度较弱.
③若由一个列联表中的数据计算得的值约为7.866,那么有的把握认为这两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.①③ B.①③④ C.①②③ D.③④
3.(24-25高三上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.789
附:
A.有99.5%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
4.(22-23高一下·江苏苏州·期末)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )人
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.11 B.12 C.13 D.14
二、多选题
5.(24-25高三上·江苏苏州·期末)为比较甲、乙两所学校学生的数学水平,采取简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名学生数学成绩优秀;乙校45名学生中有7名学生数学成绩优秀.整理数据如下表:
学校
数学成绩
合计
不优秀
优秀
甲校
33
10
43
乙校
38
7
45
合计
71
17
88
附:.
参考数据:
则下列说法正确的有( )
A.甲校的数学抽测成绩优秀率一定比乙校的数学抽测成绩优秀率高
B.甲校的数学成绩优秀率一定比乙校的数学成绩优秀率高
C.甲校的数学优秀人数可能比乙校的数学优秀人数多
D.对于小概率值,可以认为两校的数学成绩优秀率几乎没有差异
6.(24-25高三上·山东青岛·期末)已知某地区成年男士的身高(单位:)服从正态分布,体重(单位:)服从正态分布.若从该地区随机选取成年男士100人,得到数据如下表,则
身高
体重
合计
大于
小于等于
大于
a
b
小于等于
d
总计
附:若,则.
,其中.
A.根据正态分布估计
B.根据正态分布估计
C.若,根据正态分布估计b,c,d的值,基于上述数值,根据小概率值的独立性检验,分析该地区成年男士身高超过与体重超过相关联
D.若,根据正态分布估计b,c,d的值,基于上述数值,根据小概率值的独立性检验,分析该地区成年男士身高超过与体重超过相互独立
三、填空题
7.(23-24高二下·河南信阳·期末)为了研究高三学生的性别和身高是否大于170cm的关联性,调查了高三学生200名,得到如下列联表:
性别
身高
合计
低于170cm
不低于170cm
女
80
20
100
男
30
70
100
合计
110
90
200
根据列联表的数据,计算得 ;依据小概率值 的独立性检验,认为“高三学生的性别和身高有关联”.
附:临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
8.(23-24高二下·河南南阳·期中)ChatGPT爆火以来,各种人工智能平台如雨后春笋般层出不穷.某人工智能服务商提供了两种会员服务套餐,购买会员服务的既有个人用户也有公司用户.后台随机调取名会员的基本信息,统计发现购买B套餐的用户数占总用户数的,购买B套餐的用户中公司用户数是个人用户数的倍,购买套餐的用户中公司用户数是个人用户数的一半.根据独立性检验,有的把握认为购买的套餐类型与用户类型有关系,则的最小值为 .
附:.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
四、解答题
9.(23-24高二下·浙江·期中)为贯彻落实《健康中国行动(2023-2030年)》、《关于全面加强和改进新时代学校体育工作的意见》等文件精神,某高中学校学生发展中心随机抽查了100名学生,其中男生与女生人数之比为,并对他们进行了“是否喜欢体育运动”的问卷调查,得到如下统计结果:
性别
体育运动
合计
喜欢
不喜欢
男生
50
女生
15
合计
(1)请根据要求完成列联表,并根据独立性检验,判断是否有的把握认为“是否喜欢体育运动”与性别有关;
(2)为了了解学生不喜欢体育运动的原因,从上述不喜欢体育运动的同学中随机选3位同学进行咨询,所选的3人中已知至少有两位是男生的条件下,求另外一位是女生的概率.
参考公式:.
0.10
0.05
0.01
0.001
2.706
3.841
6.635
10.828
10.(23-24高二下·浙江绍兴·期中)无人机已广泛用于森林消防、抢险救灾、环境监测等领域.
(1)消防员甲操纵某一品牌的无人机在不同的气候中进行了投弹试验,结果见下表,根据小概率值的独立性检验,分析消防员甲操纵该无人机的投弹命中率跟气候是否有关:
晴天
雨天
命中
45
30
不命中
5
20
附:其中
0.15
0.10
0.05
0.010
0.001
2.072
2.706
3.841
6.635
10.828
(2)某森林消防支队在一次消防演练中利用无人机进行投弹灭火试验,消防员乙操控无人机对同一目标起火点进行了三次投弹试验,已知无人机每次投弹时击中目标的概率都为,每次投弹是否击中目标相互独立.无人机击中目标一次起火点被扑灭的概率为,击中目标两次起火点被扑灭的概率为,击中目标三次起火点必定被扑灭.
(i)求起火点被无人机击中次数X的分布列及数学期望;
(ii)求起火点被无人机击中且被扑灭的概率.
11.(24-25高二上·黑龙江哈尔滨·期中)随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择名青年游客对哈尔滨出行体验进行满意度评分(满分分),分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;
(2)若采用按比例分层抽样的方法从评分在,的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的3人中评分等级为良好的人数X的分布列和数学期望;
(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120名.请根据小概率值的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.
附:,
0.05
0.01
0.001
3.841
6.635
10.828
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$
第12讲 独立性检验
目录
题型归纳 1
题型01 完善列联表 2
题型02 列联表分析 5
题型03 独立性检验的概念及辨析 8
题型04 卡方的计算 11
题型05 独立性检验的基本思想 15
题型06 独立性检验解决实际问题 19
分层练习 24
夯实基础 24
能力提升 36
知识点01列联表
列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“X与Y的关系”.
[易错提醒]
(1)独立性检验的关键是正确列出2×2列联表,并计算出K2的值.
(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.
题型01完善列联表
【例1】(23-24高二上·全国·单元测试)2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为列联表.
高度辐射
轻微辐射
合计
身体健康
30
A
50
身体不健康
B
10
60
合计
C
D
E
则A,B,C,D的值依次为( )
A.20,80,30,50 B.20,50,80,30
C.20,50,80,110 D.20,80,110,50
【答案】B
【知识点】完善列联表
【分析】根据2×2 列联表分别计算A,B,C,D即可.
【详解】
故选:B.
【变式1】(23-24高二下·天津河北·期末)下面是一个2×2列联表,其中a、b处的值分别为 、 .
总计
a
21
73
2
25
27
总计
b
46
100
【答案】 52 54
【知识点】完善列联表
【分析】根据2×2列联表的定义,可以求解
【详解】根据2×2列联表的定义可知,,解得,
故答案为:52,54.
【变式2】(22-23高二下·重庆长寿·期末)为了解性别因素是否对某班学生爱运动有影响,对该班50名学生进行了问卷调查,得到如表的2×2列联表:
爱运动
不爱运动
合计
男生
m
12
30
女生
8
20
合计
n
50
则m= ,n= .
【答案】 18 24
【知识点】完善列联表
【分析】完善列联表,即可得解;
【详解】依题意可得列联表如下:
经常打篮球
不经常打篮球
合计
男生
18
12
30
女生
8
20
合计
50
故;故答案为:;;
【变式3】(21-22高二下·北京丰台·期末)为了解性别因素是否对某班学生打篮球的经常性有影响,对该班40名学生进行了问卷调查,得到如下的22列联表:
经常打篮球
不经常打篮球
合计
男生
4
20
女生
8
20
合计
40
则 , .
【答案】 16 16
【知识点】完善列联表
【分析】完善列联表,即可得解;
【详解】解:依题意可得列联表如下:
经常打篮球
不经常打篮球
合计
男生
4
20
女生
8
20
合计
40
故;故答案为:;;
题型02 列联表分析
【例2】(2023·云南昆明·一模)考查棉花种子经过处理跟生病之间的关系得到如表数据:
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
【答案】C
【知识点】列联表分析
【分析】根据表格提供的数据作出判断.
【详解】由列联表中的数据可知,
种子经过处理,得病的比例明显降低,
种子未经过处理,得病的比例要高些,
所以可得结论:种子是否经过处理跟是否生病有关.
故选:C
【变式1】(21-22高二下·广西河池·期末)假设有两个变量x与y的列联表如下表:
a
b
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】B
【知识点】列联表分析
【分析】计算每个选项中的值,最大的即对同一样本能说明x与y有关系的可能性最大.
【详解】对于A, ,
对于B,,
对于C,,
对于D,
显然B中最大,该组数据能说明x与y有关系的可能性最大,
故选:B.
【变式2】(20-21高二下·西藏日喀则·期末)假设有两个变量X和Y,他们的取值分别为,和,,其列联表为:
总计
21
73
8
25
33
总计
46
106
则表中,的值分别是( )
A.94,96 B.54,52 C.52,50 D.52,60
【答案】D
【知识点】列联表分析
【分析】根据列联表直接计算.
【详解】根据列联表知,,又,所以,
故选:
【变式3】(22-23高二下·青海西宁·期末)第31届世界大学生运动会将于2023年7月28日至8月8日在成都举行,组委会安排100名志愿者担任对外翻译工作,在下面“性别与会法语”的列联表中, .
会法语
不会法语
总计
男
a
b
40
女
12
d
总计
36
100
【答案】
【知识点】列联表分析
【分析】根据题意,利用志愿者的总人数为100,列出方程,即可求解.
【详解】根据表格中的数据,因为志愿者的总人数为100,所以,
解得.
故答案为:.
题型03 独立性检验的概念及辨析
【例3】(22-23高二下·山西运城·期中)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用列联表进行独立性检验.整理所得数据后发现,若依据的独立性检验,则认为学生性别与是否支持该活动无关;若依据的独立性检验,则认为学生性别与是否支持该活动有关,则的值可能为( )
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.4.238 B.4.972 C.6.687 D.6.069
【答案】D
【知识点】独立性检验的概念及辨析
【分析】依据的取值,得出的取值范围,判断即可.
【详解】由题知,故的值可能为6.069.
故选:D.
【变式1】(23-24高二下·黑龙江牡丹江·期中)下列说法错误的是( )
A.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,带状区域越窄,说明回归方程的预报精度越高
B.在独立性检验时,两个变量的列联表中,对角线上数据的乘积相差越大,说明“这两个变量没有关系”成立的可能性就越大
C.在回归直线方程中,当解释变量每增加一个单位时,预报变量就增加0.2个单位
D.越大,意味着残差平方和越小,即模型的拟合效果越好
【答案】B
【知识点】解释回归直线方程的意义、相关指数的计算及分析、独立性检验的概念及辨析
【分析】AD选项,根据残差分析可得AD正确;B选项,由卡方的定义可知B错误;C选项,由一元线性回归方程可知,故C正确.
【详解】A选项,在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,带状区域越窄,说明回归方程的预报精度越高,A正确;
B选项,在独立性检验时,两个变量的列联表中,对角线上数据的乘积相差越大,说明“这两个变量没有关系”成立的可能性就越小,B错误;
C选项,由于,故在回归直线方程中,当解释变量每增加一个单位时,预报变量就增加0.2个单位,C正确;
D选项,越大,意味着残差平方和越小,即模型的拟合效果越好,D正确.
故选:B
【变式2】(22-23高二下·河南南阳·期中)在易怒与患心脏病这两个变量的计算中,有以下结论:①当由独立性检验可知有90%的把握认为易怒与患心脏病有关时,那么在100个易怒的人中有90人患心脏病;②由的观测值得到有90%的把握认为易怒与患心脏病有关系,是指有10%的可能性使得推断出现错误;③由独立性检验可知有90%的把握认为易怒与患心脏病有关,是指在犯错误的概率不超过10%的前提下,可以认为某人是否患心脏病与是否易怒有关,其中正确结论的个数是( )
A.3 B.2 C.1 D.0
【答案】B
【知识点】独立性检验的概念及辨析
【分析】由独立性检验判断即可
【详解】解:由独立性检验可知有90%的把握认为易怒与患心脏病有关,是指在犯错误的概率不超过10%的前提下,可以认为某人是否患心脏病与易怒有关,则①错误,③正确.
由的观测值得到有90%的把握认为易怒与患心脏病有关系,是指有10%的可能性使得推断出现错误,则②正确.
故选:B
【变式3】(22-23高二下·重庆·期末)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5000人,计算发现,根据这一数据,市政府断言市民收入增减与旅游需求有关的可信度是 %.
附:常用小概率值和临界值表:
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【答案】
【知识点】独立性检验的概念及辨析
【分析】由,对照数表即可得出结论.
【详解】由,
对照数表知,市政府断言市民收入增减与旅游变有关系的可信程度是.
故答案为:
题型04 卡方的计算
【例4】(23-24高二下·广东肇庆·期末)已知某独立性检验中,由计算出,若将列联表中的数据分别变成,计算出的,则( )
A. B. C. D.
【答案】B
【知识点】卡方的计算
【分析】根据卡方公式代入计算可得.
【详解】因为,
所以.
故选:B
【变式1】(22-23高二下·吉林长春·期中)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【答案】30
【知识点】卡方的计算
【分析】设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,求出观测值同临界值进行比较,列不等式即可得出结论.
【详解】设男生人数为,依题意可得列联表如下:
喜欢追星
不喜欢追星
总计
男生
女生
总计
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,
由,解得,
由题知应为6的整数倍,
根据小概率值的独立性检验,判断中学生追星与性别有关,
则男生至少有30人,
故答案为:30.
【变式2】(21-22高二下·福建厦门·期中)某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
同意限定区域停车
不同意限定区域停车
合计
男
20
5
25
女
10
15
25
合计
30
20
50
根据上述数据,推断同意限定区域停车与性别有关系,则这种推断犯错误的概率不超过 .
附:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】0.005
【知识点】卡方的计算
【分析】由列联表计算后比较临界值可得.
【详解】因为,所以这种推断犯错误的概率不超过0.005.
故答案为:0.005.
【变式3】(24-25高二上·江西南昌·期末)为了研究某中药预防方对预防某种疾病的效果,科学家进行了实验,得到如下结果(单位:人):
患病情况
服用情况
患病
不患病
服用中药预防方
10
90
不服用中药预防方
50
50
(1)该中药预防方对预防该种疾病是否有效?
(2)从参与该实验的人中任选一人,A表示事件“选到的人服用中药预防方”,B表示事件“选到的人患病”.利用该调查数据,求,的值.
附:,其中.
0.10
0.05
0.01
2.706
3.841
6.635
【答案】(1)有99%的把握认为该中药预防方对预防该种疾病有效
(2),.
【知识点】卡方的计算、计算条件概率
【分析】(1)利用的性质进行比较.
(2)利用条件概率,分析情况得到答案.
【详解】(1)由已知得,
所以有99%的把握认为该中药预防方对预防该种疾病有效.
(2)由题意可得,,
,.
,
题型05 独立性检验的基本思想
【例5】(22-23高二下·福建漳州·期末)根据分类变量和的样本观察数据的计算结果,有不少于的把握认为和有关,则的一个可能取值为( )
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
A.3.971 B.5.872 C.6.775 D.9.698
【答案】D
【知识点】独立性检验的基本思想
【分析】根据独立性检验卡方与列表比较即可;
【详解】因为有不少于的把握认为和有关,所以,
,满足题意,
故选:D.
【变式1】(22-23高二下·广西桂林·期中)某学校想了解该校学生对于某项运动的爱好是否与性别有关,通过随机抽查名学生,得到如下列联表:
性别
态度
总计
喜欢该项运动
不喜欢该项运动
男
女
总计
由公式,算得:.下列结论正确的是( )
A.有的把握认为“爱好该项运动与性别有关”
B.有的把握认为“爱好该项运动与性别无关”
C.有的把握认为“爱好该项运动与性别无关”
D.有的把握认为“爱好该项运动与性别有关”
【答案】D
【知识点】独立性检验的基本思想
【分析】对比临界值表,根据独立性检验的思想直接判断即可.
【详解】,,
有的把握认为“爱好该项运动与性别有关”.
故选:D.
【变式2】(22-23高二下·天津南开·期中)某学校对全校进行统计抽查,抽出50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总数
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总数
26
24
50
根据表中数据得到.
则在犯错误的概率不超过 的前提下,认为“玩电脑游戏与认为作业多少”有关系
参考数据表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】
【知识点】独立性检验的基本思想
【分析】根据的值,对照临界值表即可得出结论.
【详解】因为,
所以在犯错误的概率不超过的前提下,认为“玩电脑游戏与认为作业多少”有关系.
故答案为:.
【变式3】(22-23高二下·安徽合肥·期末)某城市统计该地区人口流动情况,随机抽取了100人了解他们端午节是否回老家,得到如下不完整的列联表:
回老家
不回老家
总计
60周岁及以下
5
60
60周岁以上
25
总计
100
(1)完成以上列联表:
(2)根据小概率值的独立性检验,能否认为回老家过节与年龄有关?
参考公式:,
参考数据:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)答案见解析
(2)可以认为回老家过节与年龄有关
【知识点】完善列联表、卡方的计算、独立性检验的基本思想
【分析】(1)根据表中已知数据即可求解,
(2)计算卡方值,即可与临界值比较求解.
【详解】(1)
回老家
不回老家
总计
60周岁及以下
5
55
60
60周岁以上
15
25
40
总计
20
80
100
(2)计算
根据小概率值的独立性检验,可以认为回老家过节与年龄有关
题型06 独立性检验解决实际问题
【例6】(23-24高二下·浙江·期中)为了考查一种新疫苗预防某X疾病的效果,研究人员对一地区某种动物进行试验,从该试验群中随机进行了抽查,已知抽查的接种疫苗的动物数量是没接种疫苗的2倍,接种且发病占接种的,没接种且发病的占没接种的,若本次抽查得出“在犯错误的概率不超过0.05的前提下认为接种该疫苗与预防某X疾病有关”的结论,则被抽查的没接种动物至少有( )只
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.35 B.36 C.37 D.38
【答案】B
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据题意列出二联表,即可由卡方公式求解即可.
【详解】设没接种只数为k,依题意,得2×2列联表如下:
发病
没发病
合计
接种
2k
没接种
k
合计
3k
则的观测值为:,因为本次调查得出“在犯错误的概率不超过0.05的前提下认为喜爱足球与性别有关的结论,
于是,即,即
∴,∴
故选:B.
【变式1】(23-24高二下·山东潍坊·期中)某高校为研究学生每周平均体育运动时间进行了一次抽样调查,已知被抽取的男、女生人数相同.调查显示:抽取的男生中每周平均体育运动时间超过4小时的人数占比为,抽取的女生中每周平均体育运动时间超过4小时的人数占比为,若在犯错误的概率不超过1%的前提下,可以认为该校学生每周平均体育运动时间与性别有关,则被抽取的男生人数至少为( )
附:
0.050
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
A.60 B.65 C.70 D.75
【答案】C
【知识点】完善列联表、卡方的计算、独立性检验解决实际问题
【分析】设男生总人数为,写出列联表,根据题意列出卡方不等式即可求解.
【详解】设男生总人数为,依题意可得列联表如下:
每周平均体育运动时间超过4小时的人数
每周平均体育运动时间不超过4小时
合计
男生人数
女生人数
合计
若在犯错误的概率不超过1%的前提下,可以认为该校学生每周平均体育运动时间与性别有关,
则,
解得,则被抽取的男生人数至少为70人.
故选:C.
【变式2】(23-24高二上·江苏常州·期末)某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中,且,若有的把握可以认为性别与对工作的满意程度具有相关性,则的值是 .
对工作满意
对工作不满意
男
女
附:,其中.
【答案】5
【知识点】独立性检验解决实际问题
【分析】根据独立性检验思想,利用可解.
【详解】根据独立性检验思想可得,
,
得,
因为且,所以;
故答案为:5.
【变式3】(24-25高三上·江苏扬州·期中)中国是茶的故乡,茶文化源远流长,博大精深.某兴趣小组,为了了解当地居民对喝茶的态度,随机调查了100人,并将结果整理如下:
不喜欢喝茶
喜欢喝茶
合计
35岁以上(含35岁)
30
30
60
35岁以下
25
15
40
合计
55
45
100
(1)是否有90%的把握认为该地居民喜欢喝茶与年龄有关?
(2)以样本估计总体,用频率代替概率.该兴趣小组在当地喜欢喝茶的人群中,随机选出2人参加茶文化艺术节.抽取的2人中,35岁以下的人数记为,求的分布列与期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)没有90%的把握认为该地居民喜欢喝茶与年龄有关
(2)分布列见解析,
【知识点】卡方的计算、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据列联表计算得出的值即可得出结论;
(2)易知的所有取值可能为0,1,2,分别计算出对应概率可得分布列及其期望值.
【详解】(1)零假设为:该地居民喜欢喝茶与年龄没有关系.
根据列联表中的数据,可以求得.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,
即没有90%的把握认为该地居民喜欢喝茶与年龄有关.
(2)的取值可能为0,1,2.
则;;.
所以的分布列为:
0
1
2
所以的期望为.
【夯实基础】
一、单选题
1.(21-22高二下·山西大同·期中)利用独立性检验考察两个变量X与Y是否有关系,通过2×2列联表进行独立性检验.经计算,那么认为X与Y是有关系,这个结论错误的可能性不超过( )
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.0.001 B.0.005 C.0.05 D.0.01
【答案】C
【分析】利用独立性检验思想及检验值,在表中读取对应数据即可.
【详解】根据检验结果,可知,
所以这个结论错误的可能性不超过0.050,即可知C正确.
故选:C
2.(21-22高二下·江苏常州·期中)医院为了研究某种血清预防感冒的作用,把500名使用血清与500名未使用血清的人一个月的感冒记录进行比较,提出假设:“这种血清不能起到预防的作用”,利用列联表计算得,经查对临界值表知.则下列说法正确的是( )
A.若某人未使用过该血清,则他在一个月中有的可能性生病
B.这种血清预防感冒的有效率为
C.有的把握认为这种血清不能起到预防感冒的作用
D.有的把握认为这种血清能起到预防感冒的作用
【答案】D
【分析】根据题设条件和独立性检验原理,逐一对各个选项分析判断即可得出结果.
【详解】选项A和B,因为独立性检验只是预测使用血清与否与是否感冒的相关程度,故选项A和B均错误;
选项C和D,因为,又,,
根据独立性检验原理知,有的把握认为这种血清能起到预防感冒的作用,故选项C错误,选项D正确.
故选:D.
3.(23-24高二下·黑龙江哈尔滨·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
【答案】B
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
30
15
45
非篮球迷
45
10
55
合计
75
25
100
所以,
所以在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关,
即有的把握认为是否是篮球迷与性别有关,
又,所以没有的把握认为是否是篮球迷与性别有关.
故选:B.
4.(23-24高二下·天津滨海新·期末)下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】C
【分析】根据线性相关系数,独立性检验,残差图及决定系数的概念分别判断即可.
【详解】线性相关系数越接近1,两个变量的线性相关程度越强,故①正确;
独立性检验并不能100%确定两个变量之间是否具有某种关系,故②错误;
回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;
回归分析中,可用判断模型的拟合效果,越大,模型的拟合效果越好,故④正确;
故选:C.
二、多选题
5.(23-24高二下·黑龙江哈尔滨·期末)某校为了解学生对2024欧洲杯的关注度(关注或不关注),对本校学生随机做了一次调查,结果显示被调查的男、女生人数相同,其中有的男生“关注”,有的女生“关注”,若依据小率值的独立性检验,认为学生对欧洲杯的关注度与性别有关联,则调查的总人数可能为( )
参考公式:,.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.276 B.288 C.300 D.312
【答案】CD
【分析】首先根据男、女生人数相等,结合比例,列出列联表,再计算,列不等式即可求解.
【详解】设男、女生人数均为,可得如下列联表:
对欧洲杯关注
对欧洲杯不关注
合计
男生
女生
合计
由题意可得,所以,所以,
则,因为为6的倍数,则为12的倍数,则CD满足题意.
故选:CD
6.(23-24高二下·黑龙江哈尔滨·期末)下列说法正确的是( )
A.回归分析中,线性相关系数的取值范围为
B.回归分析中,残差图中残差比较均匀分布在以取值为0的横轴为对称轴的水平带状区域内,且宽度越窄表示拟合效果越好
C.回归分析中,决定系数越大,说明残差平方和越小,拟合效果越好
D.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
【答案】BCD
【分析】利用回归分析的相关定义和独立性检验公式对各个选项逐一分析判断即可得到结果.
【详解】选项A,回归分析中,线性相关系数的取值范围为,故选项A错误;
选项B,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,
模型的拟合效果越好,故选项B正确;
选项C,因为决定系数越大,表示残差平方和越小,数据就越集中,
即模型的拟合效果越好,故选项C正确;
选项D,在列联表中,若每个数据均变成原来的2倍,则
,因此也变成原来的2倍,故选项D正确;
故选:BCD.
三、填空题
7.(23-24高二下·福建莆田·期末)已知,.在检验喜欢某种甜品与性别是否有关的过程中,某研究员搜集数据并计算得到,则我们至少有 把握认为喜欢某种甜品与性别有关.
【答案】
【分析】根据,再利用题设条件,即可求出结果.
【详解】因为,又,,
所以我们至少有把握认为喜欢某种甜品与性别有关,
故答案为:.
8.(22-23高二下·重庆沙坪坝·期中)有两个分类变量和,其中一组观测值为如下的列联表:
总计
10
30
总计
10
30
40
其中均为大于的整数,则 时,在犯错误的概率不超过0.01的前提下为“和之间有关系”.附:
【答案】
【分析】由题意,计算,列出不等式求出的取值范围,再根据题意求得的值.
【详解】由题意知:,
则,
解得:或(舍去),
因为:且,,
综上得:,,
所以:.
故答案为:6.
四、解答题
9.(23-24高二上·辽宁·期末)某市为了了解学生体育运动的时间长度是否与性别因素有关,从某几所学校中随机调查了男、女生各100名的平均每天体育运动时间,得到如下数据:
分钟性别
女生
10
30
50
10
男生
5
20
50
25
根据学生课余体育运动要求,平均每天体育运动时间在内认定为“合格”,否则被认定为“不合格”.根据已知条件完成下面的列联表,并回答能否有的把握认为“学生体育运动时间与学生性别因素有关联”
不合格
合格
合计
女生
男生
合计
附:,
(其中.
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
7.879
【答案】表格见解析,有的把握认为学生体育运动时间与学生性别因素有关联
【分析】根据卡方的计算,与临界值比较即可求解.
【详解】列联表:
不合格
合格
合计
女生
40
60
100
男生
25
75
100
合计
65
135
200
因为,
所以有的把握认为学生体育运动时间与学生性别因素有关联.
10.(23-24高二上·辽宁·期末)某机构为了解学生是否喜欢绘画与性别有关,调查了400名学生(男女各一半)的选择,发现喜欢绘画的人数是300,喜欢绘画的男生比女生少60人.
(1)完成下面的列联表;
喜欢绘画
不喜欢绘画
总计
男生
女生
总计
(2)根据调查数据回答:有的把握认为是否喜欢绘画与性别有关吗?
附:.临界值表如下:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析
(2)有的把握可以认为喜欢绘画与性别有关
【分析】(1)根据题意,很容易得到喜欢绘画的男生为120人,女生为180人,即可填表;(2)将列联表中的数据代入计算公式算出结果,再与小概率0.001对应的临界值10.828比较即可判断结果.
【详解】(1)列联表为:
喜欢绘画
不喜欢绘画
总计
男生
120
80
200
女生
180
20
200
总计
300
100
400
(2)由(1)中列联表得:
所以有的把握认为是否喜欢绘画与性别有关.
11.(23-24高二下·青海西宁·期末)某学校高三年级有学生1000人,经调查,其中750人经常参加体育锻炼(称为A类同学),另外250人不经常参加体育锻炼(称为B类同学).现用按比例分配的分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查100人,如果以身高达到作为达标的标准,对抽取的100人,得到以下列联表(单位:人):
身高达标
身高不达标
总计
经常参加体育锻炼
40
不经常参加体育锻炼
15
总计
100
(1)完成上表;
(2)依据的独立性检验,能否认为经常参加体育锻炼与身高达标有关系?
注:.
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)表格见解析 (2)无关联.
【分析】(1)根据题目含义填写表格即可,
(2)利用列联表结合卡方计算求解即可.
【详解】(1)填写列联表(单位:人)如下:
身高达标
身高不达标
总计
经常参加体育锻炼
40
35
75
不经常参加体育锻炼
10
15
25
总计
50
50
100
(2)零假设为:经常参加体育锻炼与身高达标无关联.
由列联表中的数据,
.
根据的独立性检验,没有充分证据证明不成立,即认为经常参加体育锻炼与身高达标无关联.
【能力提升】
一、单选题
1.(23-24高二下·陕西咸阳·期末)下列说法正确的是( )
A.若两个随机变量的线性相关性越强,则相关系数的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于0
C.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不超过0.05
D.若随机变量,满足,则
【答案】C
【分析】对于AB:根据相关系数的性质分判断;对于C:根据独立性检验的思想分析判断;对于D:根据期望的性质分析判断.
【详解】对于选项AB:若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故AB错误;
对于选项C:因为,
根据独立性检验可知:与有关联,此推断犯错误的概率不超过0.05,故C正确;
对于选项D:因为,所以,故D错误;
故选:C.
2.(23-24高二下·新疆克孜勒苏·期末)下列四个命题中,真命题的序号为( ).
①甲乙两组数据分别为:甲:28,31,39,42,46,55,57,58,66;乙:29,34,35,44,46,48,53,55,55,67.则甲乙的中位数分别为46和45.
②相关系数,表明两个变量的相关程度较弱.
③若由一个列联表中的数据计算得的值约为7.866,那么有的把握认为这两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.①③ B.①③④ C.①②③ D.③④
【答案】D
【分析】①利用中位数概念求解即可;②相关系数时,两个变量的相关程度较强;③对照表格判断即可;④按照残差定义判断即可.
【详解】①由甲的数据可知它的中位数为46,乙的中位数为,故①错误;
②相关系数时,两个变量的相关程度较强,故②错误;
③由于的值约为7.866,大于6.635,故有的把握认为两个变量有关,故③正确;
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指,故④正确.
故选:D.
3.(24-25高三上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.789
附:
A.有99.5%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【答案】D
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
90
20
110
非篮球迷
60
30
90
合计
150
50
200
所以,
所以没有99%的把握认为是否是篮球迷与性别有关,进而没有99.5%的把握认为是否是篮球迷与性别有关,A,B选项错误;
又,最准确的是在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关,D选项正确.
故选:D.
4.(22-23高一下·江苏苏州·期末)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )人
0.10
0.05
0.01
0.005
0.001
2.706
3.841
5.635
7.879
10.828
A.11 B.12 C.13 D.14
【答案】B
【分析】设出男性人数,列出列联表,算出的观测值表达式,列出不等式求解作答.
【详解】设男性人数为,依题意,得列联表如下:
喜爱足球
不喜爱足球
合计
男性
女性
合计
则的观测值为,
因为本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,
于是,即,解得,而,因此
故选:B
二、多选题
5.(24-25高三上·江苏苏州·期末)为比较甲、乙两所学校学生的数学水平,采取简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名学生数学成绩优秀;乙校45名学生中有7名学生数学成绩优秀.整理数据如下表:
学校
数学成绩
合计
不优秀
优秀
甲校
33
10
43
乙校
38
7
45
合计
71
17
88
附:.
参考数据:
则下列说法正确的有( )
A.甲校的数学抽测成绩优秀率一定比乙校的数学抽测成绩优秀率高
B.甲校的数学成绩优秀率一定比乙校的数学成绩优秀率高
C.甲校的数学优秀人数可能比乙校的数学优秀人数多
D.对于小概率值,可以认为两校的数学成绩优秀率几乎没有差异
【答案】ACD
【分析】根据样本的抽测成绩的代表性强弱,可判断ABC,利用计算可判断D.
【详解】对于A,因为甲校的数学抽测成绩优秀率为,乙校的数学抽测成绩优秀率为,
所以甲校的数学抽测成绩优秀率一定比乙校的数学抽测成绩优秀率高,故A正确;
对于B,抽测的样本的优秀率可能代表性差,不一定能真实的反映两校的优秀率,故B错误;
对于C,有可能甲校的数学优秀人数可能比乙校的数学优秀人数多,故C正确;
对于D,,
根据小概率的独立性检验,两校的数学成绩优秀率没有差异,故D正确.
故选:ACD.
6.(24-25高三上·山东青岛·期末)已知某地区成年男士的身高(单位:)服从正态分布,体重(单位:)服从正态分布.若从该地区随机选取成年男士100人,得到数据如下表,则
身高
体重
合计
大于
小于等于
大于
a
b
小于等于
d
总计
附:若,则.
,其中.
A.根据正态分布估计
B.根据正态分布估计
C.若,根据正态分布估计b,c,d的值,基于上述数值,根据小概率值的独立性检验,分析该地区成年男士身高超过与体重超过相关联
D.若,根据正态分布估计b,c,d的值,基于上述数值,根据小概率值的独立性检验,分析该地区成年男士身高超过与体重超过相互独立
【答案】ABC
【分析】利用正态分布的性质计算可求得判断A;判断B;利用独立性检验计算可判断CD.
【详解】因为该地区成年男士的身高(单位:)服从正态分布,
由正态分布可得,
若从该地区随机选取成年男士100人,则身高大于177的人数约为16人,
所以,故A正确;
因为体重(单位:)服从正态分布.
因为体重大于,
所以可得从该地区随机选取成年男士100人,体重大于73的数约为16人,
所以体重小于等于73的数约为84人,故,故B正确;
若,则,
零假设:该地区成年男士身高超过与体重超过无关,
计算可得,
由小概率值的独立性检验,我们推断不成立,
所以该地区成年男士身高超过与体重超过相关联,故C正确;D错误.
故选:ABC.
三、填空题
7.(23-24高二下·河南信阳·期末)为了研究高三学生的性别和身高是否大于170cm的关联性,调查了高三学生200名,得到如下列联表:
性别
身高
合计
低于170cm
不低于170cm
女
80
20
100
男
30
70
100
合计
110
90
200
根据列联表的数据,计算得 ;依据小概率值 的独立性检验,认为“高三学生的性别和身高有关联”.
附:临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】 50.505 0.001
【分析】根据给定的列联表求出的观测值,再与临界值表进行对比,即可判断高三学生的性别和身高有关联.
【详解】,
根据小概率值的独立性检验,认为“高三学生的性别和身高有关联”.
故答案为:50.505;0.001.
8.(23-24高二下·河南南阳·期中)ChatGPT爆火以来,各种人工智能平台如雨后春笋般层出不穷.某人工智能服务商提供了两种会员服务套餐,购买会员服务的既有个人用户也有公司用户.后台随机调取名会员的基本信息,统计发现购买B套餐的用户数占总用户数的,购买B套餐的用户中公司用户数是个人用户数的倍,购买套餐的用户中公司用户数是个人用户数的一半.根据独立性检验,有的把握认为购买的套餐类型与用户类型有关系,则的最小值为 .
附:.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】170
【分析】由题意可得用户类型与购买的套餐类型列联表,由公式求得,只需,计算即可得出结果.
【详解】由题意可得用户类型与购买的套餐类型列联表如下:
总计
个人用户
公司用户
总计
,
解得,又因为必须是10的倍数,所以的最小值为170.
故答案为:170
四、解答题
9.(23-24高二下·浙江·期中)为贯彻落实《健康中国行动(2023-2030年)》、《关于全面加强和改进新时代学校体育工作的意见》等文件精神,某高中学校学生发展中心随机抽查了100名学生,其中男生与女生人数之比为,并对他们进行了“是否喜欢体育运动”的问卷调查,得到如下统计结果:
性别
体育运动
合计
喜欢
不喜欢
男生
50
女生
15
合计
(1)请根据要求完成列联表,并根据独立性检验,判断是否有的把握认为“是否喜欢体育运动”与性别有关;
(2)为了了解学生不喜欢体育运动的原因,从上述不喜欢体育运动的同学中随机选3位同学进行咨询,所选的3人中已知至少有两位是男生的条件下,求另外一位是女生的概率.
参考公式:.
0.10
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,可以认为“是否喜欢体育运动”与性别无关 (2)
【分析】(1)完善二联表,即可计算卡方,与临界值比较即可求解,
(2)利用超几何分布的概率公式,结合条件概率的计算公式即可求解.
【详解】(1)根据题意完成如下列联表,
性别
体育运动
合计
喜欢
不喜欢
男生
50
10
60
女生
25
15
40
合计
75
25
100
假设:“是否喜欢体育运动”与性别无关,
则,
根据小概率值的独立性检验,没有充分证据推断不成立,
即可以认为“是否喜欢体育运动”与性别无关.
(2)记事件:“所选3人中至少有两位是男生”,“所选3人中有女生”
则
所以.
10.(23-24高二下·浙江绍兴·期中)无人机已广泛用于森林消防、抢险救灾、环境监测等领域.
(1)消防员甲操纵某一品牌的无人机在不同的气候中进行了投弹试验,结果见下表,根据小概率值的独立性检验,分析消防员甲操纵该无人机的投弹命中率跟气候是否有关:
晴天
雨天
命中
45
30
不命中
5
20
附:其中
0.15
0.10
0.05
0.010
0.001
2.072
2.706
3.841
6.635
10.828
(2)某森林消防支队在一次消防演练中利用无人机进行投弹灭火试验,消防员乙操控无人机对同一目标起火点进行了三次投弹试验,已知无人机每次投弹时击中目标的概率都为,每次投弹是否击中目标相互独立.无人机击中目标一次起火点被扑灭的概率为,击中目标两次起火点被扑灭的概率为,击中目标三次起火点必定被扑灭.
(i)求起火点被无人机击中次数X的分布列及数学期望;
(ii)求起火点被无人机击中且被扑灭的概率.
【答案】(1)答案见解析
(2)(i)分布列见解析,(ii)
【分析】(1)根据已知数据得到列联表,求出,即可判断;
(2)(i)由二项分布概率公式求概率即可得分布列,再由二项分布期望公式可得;(ii)根据互斥事件的概率公式求解可得
【详解】(1)零假设消防员甲操纵该无人机的投弹命中率跟气候无关
晴天
雨天
合计
命中
45
30
75
不命中
5
20
25
合计
50
50
100
因为,
根据小概率值α=0.001的独立性检验,零假设不成立,消防员甲操纵该无人机的投弹命中率跟气候有关.
(2)(i)起火点被无人机击中次数X的所有可能取值为
,
.
X的分布列如下:
X
0
1
2
3
P
.
(ii)击中一次被扑灭的概率为
击中两次被火扑灭的概率为
击中三次被火扑灭的概率为
所求概率.
11.(24-25高二上·黑龙江哈尔滨·期中)随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择名青年游客对哈尔滨出行体验进行满意度评分(满分分),分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;
(2)若采用按比例分层抽样的方法从评分在,的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的3人中评分等级为良好的人数X的分布列和数学期望;
(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120名.请根据小概率值的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.
附:,
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1),
(2)分布列见解析,
(3)无法认为游客的评分等级是否良好与年龄段有关.
【分析】(1)根据频率和为计算出的值;先判断出上四分位数所在区间,然后结合区间端点值以及该组的频率完成计算;
(2)先根据分层抽样计算出每组抽取的人数,然后确定出的可取值并计算对应概率,由此可求分布列和数学期望;
(3)根据已知条件得到对应列联表,然后计算出的值并与对应比较大小,由此得到结论.
【详解】(1)由频率分布直方图可知,,解得;
因为的频率为,且为最后一组,
所以评分的上四分位数位于区间中,
所以上四分位数为:;
(2)评分在与两组的频率分别为,
所以内抽取人数为,内抽取人数为,
故人中评分等级为良好的有人,
由题意可知,的可取值为,
,,,
所以的分布列为:
数学期望;
(3)青年游客评分等级良好的有人,所以老年游客评分等级良好的有人,
由上可得如下列联表,
青年游客
老年游客
总计
评分等级良好
评分等级非良好
总计
零假设:游客的评分等级是否良好与年龄段无关,
由表中数据可得,
根据小概率值的独立性检验,可知零假设成立,
即无法认为游客的评分等级是否良好与年龄段有关.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$