内容正文:
第32讲 列联表与独立性检验
模块一 思维导图串知识
模块二 基础知识全梳理(吃透教材)
模块三 核心考点举一反三
【考点一:列联表的完善及其应用】
【考点二:等高条形图的应用】
【考点三:独立性检验的概念辨析】
【考点四:卡方的计算与独立性检验的综合应用】
模块四 小试牛刀过关测
1.理解分类变量与2×2列联表;
2.理解分类变量与2×2列联表;利用2×2列联表,等高堆积条形图的方法判断两个分类变量之间的关联性。
一、分类变量
1、分类变量:为了方便,用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。
2、取值:分类变量的取值可以用实数表示。
3、范围:本节主要讨论取值于的分类变量的关联性问题。
4、判断分类变量之间关系的方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法;
(2)在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大。
二、列联表
列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
列联表给出了成对分类变量数据的交叉分类频数。
三、等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
四、独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【考点一:列联表的完善及其应用】
一、单选题
1.(2024高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
【答案】D
【分析】根据成绩优秀的概率求得,进而求得,结合比例判断出正确答案.
【详解】依题意,解得,由解得.
补全列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
甲班的优秀率为,乙班的优秀率为,
,所以成绩与班级有关.所以D选项正确,ABC选项错误.
故选:D
2.(2024高二·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【答案】C
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
岁及以上
岁以下
总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
二、填空题
3.(24-25高二·上海·课堂例题)下面是一个列联表:
总计
35
70
15
15
30
总计
50
100
其中、处填的值分别为 .
【答案】35,50
【分析】根据总计的计算公式进行求解即可.
【详解】在第二行中,,
在第三列中,,
故答案为:35,50
三、解答题
4.(24-25高二下·全国·课堂例题)2022年9月23日,以“庆丰收同心共富,迎盛会齐向未来”为主题的第五个中国农民丰收节开幕式在盐城市射阳县海河镇举行,射阳县政府同步开展以“湿地绿城庆丰收、向海图强迎盛会”为主题的农民丰收节系列活动,现从某活动现场的观众中随机抽取名(其中男性名),了解他们对该活动的满意情况,得到下表.
不满意
满意
合计
男性
女性
合计
根据统计数据完成列联表.
【答案】答案见解析
【分析】利用给定条件计算数据,补充列联表即可.
【详解】因为男性有名,一共有名观众,
所以一共有名女性观众,而有名女性观众不满意,
所以有名女性观众满意,而有名男性观众满意,
所以有名男性观众不满意,故有名观众不满意,有名观众满意,
补全的列联表如下.
不满意
满意
合计
男性
女性
合计
5.(24-25高二下·全国·课前预习)某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.根据这些数据能否断定:患呼吸道疾病与吸烟有关?
【答案】可以认为患呼吸道疾病与吸烟有关.
【分析】根据题意列出列联表,再算出在吸烟中和不吸烟中患病的频率,通过比较之间是否存在差异即可判断是否有关.
【详解】为了研究这个问题,我们将上述数据用表格表示如下:
患病
未患病
合计
吸烟
37
183
220
不吸烟
21
274
295
合计
58
457
515
由此表可以粗略地估计出在吸烟的人中,有的人患病;
在不吸烟的人中,有的人患病.
因此,从直观上可以得到结论:吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,
故可以认为患呼吸道疾病与吸烟有关.
【考点二:等高条形图的应用】
一、单选题
1.(23-24高二下·重庆·期末)如图是学校高二1、2班本期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么( )
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.“两班学生的数学成绩优秀率存在差异”判断一定正确
【答案】A
【分析】分析等高堆积条形图可直接得到答案.
【详解】原图是学校高二1、2班本期中期考试数学成绩优秀率的等高堆积条形图,
从两个班随机抽取的6名学生的期中考试数学成绩优秀率无法确定哪个班的比较高,2班6名学生数学成绩不优秀的和优秀的人数也不能确定,故A正确,BC错误;
两个班期中考试数学成绩的优秀率均在0.5左右,并不能直接确定“两班学生的数学成绩优秀率存在差异”,故D错误;
故选:A.
二、填空题
2.(23-24高二下·广东深圳·期中)观察下面各等高堆积条形图,其中两个分类变量、相关关系最强的是 .
【答案】乙
【分析】根据选项中的图形,即可直接求解.
【详解】等高条形图中有两个高度相同的矩形,每个矩形都有两个颜色,观察下方颜色区域的高度,如果高度差越大,则两个分类变量关系越强,观察四个选项可知,B选项中带颜色区域的高度差最大,两个分类变量、相关关系最强;
故答案为:乙
三、解答题
3.(2024高二下·全国·专题练习)为考察某种药物预防疾病的效果,进行动物试验,得到2×2列联表如表所示.
患病
未患病
合计
服用药
10
45
55
没有服用药
20
30
50
合计
30
75
105
试用等高堆积条形图判断服用药与患病之间是否有关联.
【答案】有关联.
【分析】作出相应的等高堆积条形图,从图形分析出判断服用药与患病之间是否有关联.
【详解】相应的等高堆积条形图如图所示.
从图形可以看出,服用药的样本中患病的比例明显低于没有服用药的样本中患病的比例,因此可以认为服用药与患病之间有关联.
【考点三:独立性检验的概念辨析】
一、单选题
1.(23-24高二下·山东青岛·期中)根据分类变量与的成对样本数据,计算得到.已知,依据小概率值的独立性检验,则( )
A.与不独立
B.与不独立,这个结论犯错误的概率不超过0.05
C.与独立
D.与独立,这个结论犯错误的概率不超过0.05
【答案】C
【分析】根据独立性检验的知识判断即可.
【详解】因为
根据,根据小概率值的独立性检验知:与独立,C正确.
故选:C.
2.(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【答案】D
【分析】根据独立性检验可得正确选项.
【详解】依已知数据,得有的把握认为“患肺癌与吸烟有关”,
则选项D正确,其余都是错误的.
故选:D.
3.(24-25高二下·全国·单元测试)某市对机动车单双号限行进行了调查,在参加调查的2600名有车人中有1700名持反对意见,2500名无车人中有1400名持反对意见,在运用这些数据说明“拥有车辆”与“反对机动车单双号限行”是否相关时,用下列哪种方法最有说服力( )
A.独立性检验 B.数学期望 C.随机误差 D.频率分布直方图
【答案】A
【分析】根据独立性检验概念判断选项即可.
【详解】独立性检验是检验两个不同分类的变量是否相关的方法,刚好符合题意,
而数学期望、随机误差、频率分布直方图都不是分析两个不同分类的变量是否相关的方法,
故采用独立性检验方法最有说服力.
故选:A.
4.(23-24高二下·天津滨海新·期末)下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】C
【分析】根据线性相关系数,独立性检验,残差图及决定系数的概念分别判断即可.
【详解】线性相关系数越接近1,两个变量的线性相关程度越强,故①正确;
独立性检验并不能100%确定两个变量之间是否具有某种关系,故②错误;
回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;
回归分析中,可用判断模型的拟合效果,越大,模型的拟合效果越好,故④正确;
故选:C.
二、多选题
5.(24-25高二下·全国·单元测试)有关独立性检验的四个说法,其中正确的是( )
A.两个变量的列联表中,对角线上数据的乘积相差越大,说明两个变量有关系的可能性就越大
B.对分类变量X与Y的统计量来说,越小,“X与Y有关系”的可信程度越小
C.从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病
D.从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下,认为吸烟与患肺癌有关
【答案】ABD
【分析】根据独立性检验的理论分别判断各个选项.
【详解】两个变量的列联表中,对角线上数据的乘积相差越大,则越大,两个变量有关系的可能性越大,所以选项A正确;
越小,则“X与Y有关系”的可信度越小,所以选项B正确;
从独立性检验可知,有95%的把握认为秃顶与患心脏病有关,不表示某人秃顶他就有95%的可能患有心脏病,所以选项C不正确;
从独立性检验可知,有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下,认为吸烟与患肺癌有关,是独立性检验的解释,所以选项D正确.
故选:ABD.
三、填空题
6.(24-25高二下·全国·课后作业)在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
【答案】③
【分析】根据题意,结合独立性检验的含义,逐项判定,即可求解.
【详解】①若的临界值,我们有的把握认为饮酒与患肝脏病有关系,
但在1000个饮酒的人中未必有900人患有肝脏病,所以①错误;
②从独立性检验可以知道99%的把握认为饮酒与患肝脏病有关系时,
是指饮酒与患肝脏病有关系的概率,而不是饮酒的人有99%的可能性有肝脏病,所以②错误:
③若从统计量中求出有99.5%的把握认为饮酒与患肝脏病有关系,
则有0.5%的可能性使得推断错误,所以③正确.
故答案为:③.
【考点四:卡方的计算与独立性检验的综合应用】
一、单选题
1.(24-25高二下·全国·课后作业)我国力争2030年前实现碳达峰,2060年前实现碳中和,是党中央经过深思熟虑作出的重大战略决策,事关中华民族永续发展和构建人类命运共同体.新经济形势下,二氧化碳排放是影响企业效益的重要因素,为了研究节能专利技术对企业效益的影响,现随机抽取100家科技企业进行调查,得到如下数据:
经济效益较好
经济效益较差
合计
节能专利技术
52
29
81
非节能专利技术
8
11
19
合计
60
40
100
则认为节能专利技术有利于企业经济效益的把握为( )
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
A. B. C. D.
【答案】A
【分析】根据的公式,求出其值,即可得答案.
【详解】解:因为,
故有的把握认为节能专利技术有利于企业经济效益.
故选:A.
2.(24-25高二下·全国·课后作业)某中草药主要是通过清热解毒、宣肺理气来调理机体的气机和阴阳平衡,从而改善症状,可以达到减轻病情、缓解症状、缩短病程的作用.为了了解该中草药预防流感的效果,抽样调查40人,得到如下数据:
患流感
未患流感
服用药
3
17
未服用药
9
11
若由此认为“该药物有效”,则该结论出错的概率不超过( )
A. B. C. D.
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
【答案】A
【分析】根据题意求出的值,即可得答案.
【详解】由题意知,,
由临界值表可知,认为“该药物有效”,
则该结论出错的概率不超过0.05.
故选:A.
二、解答题
3.(2024高二·全国·专题练习)“一带一路”是促进各国共同发展,实现共同繁荣的合作共嬴之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿元人民币/天),整理数据得下表:
进口贸易量
出口贸易量
32
18
4
6
8
12
3
7
10
(1)用频率估计概率,试估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿元人民币”的概率.
(2)根据所给数据,完成下面的列联表.
进口贸易量
出口贸易量
(3)依据的独立性检验,能否认为我国与该国贸易中一天的进口贸易量与出口贸易量有关?
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
(2)列联表见解析
(3)有关
【分析】(1)利用古典概型的概率求解;
(2)依据所给数据,完成列联表;
(3)由(2)计算的值,再与临界值表对照下结论.
【详解】(1)解:由题表中的信息可知,
在这100天中,进口贸易量与出口贸易量均不超过100亿元人民币的天数为,
用频率估计概率,可得所求概率.
(2)列出列联表如下:
进口贸易量
出口贸易量
64
16
10
10
(3)零假设为:我国与该国贸易中一天的进口贸易量与出口贸易量无关.
由(2)得,
所以依据的独立性检验,推断不成立,即认为我国与该国贸易中一天的进口贸易量与出口贸易量有关
4.(2024·湖南益阳·一模)某公园为了提升公园形象,提高游客旅游的体验感,他们更新了部分设施,调整了部分旅游线路.为了解游客对新措施是否满意,随机抽取了100名游客进行调查,男游客与女游客的人数之比为2:3,其中男游客有35名满意,女游客有15名不满意.
满意
不满意
总计
男游客
35
女游客
15
合计
100
(1)完成列联表,依据表中数据,以及小概率值的独立性检验,能否认为游客对公园新措施满意与否与性别有关?
(2)从被调查的游客中按男、女分层抽样抽取5名游客.再随机从这5名游客中抽取3名游客征求他们对公园进一步提高服务质量的建议,其中抽取男游客的人数为.求出的分布列及数学期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
【答案】(1)联表见详解,不能.
(2)分布列见详解,
【分析】(1)根据男游客与女游客的人数的比值,结合卡方计算公式进行计算求解即可;
(2)根据超几何分布的性质,结合数学期望公式进行求解即可.
【详解】(1)因为调查的男游客人数为:,所以,调查的女游客人数为,于是可完成列联表如下:
满意
不满意
总计
男游客
35
5
40
女游客
45
15
60
合计
80
20
100
零假设为:游客对公园新措施满意与否与性别无关.根据列联表中的数据,可得:
,
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即游客对公园新措施满意与否与性别无关;
(2)由(1)可知男游客抽2人,女游客抽3人,依题意可知的可能取值为0,1,2,并且服从超几何分布,即,,.
所以的分布列为:
0
1
2
.
5.(22-23高二下·广西玉林·阶段练习)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.
(1)求的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在的居民称为青年组,年龄在的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面列联表,依据的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
中老年
合计
0.15
0.1
0.05
0.025
0.01
2.072
2.706
3.841
5.024
6.635
【答案】(1)a的值为0.035,通过电子阅读的居民的平均年龄为41.5岁
(2)列联表见解析,能认为阅读方式与年龄有关联
【分析】(1)根据频率分布直方图中所有小矩形的面积之后为得到方程求出,再根据频率分布直方图中平均数的求法计算可得;
(2)首先完善列联表,再计算卡方,即可判断.
【详解】(1)由题图可得,,解得.
各组的频率依次为,,,,,
所以通过电子阅读的居民的平均年龄为:
(岁).
所以a的值为,通过电子阅读的居民的平均年龄为岁.
(2)因为200人中通过电子阅读与纸质阅读的人数之比为,
所以通过电子阅读的有150人,通过纸质阅读的有50人.
因为年龄在的居民称为青年组,年龄在的居民称为中老年组,
所以电子阅读的青年有(人),
中老年有(人).
补全列联表如下:(单位:人)
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
90
20
110
中老年
60
30
90
合计
150
50
200
零假设为:阅读方式与年龄无关.
根据表中数据,计算得.
所以依据的独立性检验,我们推断不成立,即认为阅读方式与年龄有关联.
6.(24-25高二上·四川眉山·期中)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有关联
(2),该经验回归方程有价值.
【分析】(1)先补全列联表,再计算卡方,根据独立性检验原则即可判断;
(2)通过给出的经验回归方程公式求相关系数,再判断.
【详解】(1)2×2列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
零假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,我们推断不成立,即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,得,,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
7.(24-25高二上·辽宁·期中)中国共产党第二十届中央委员会第三次全体会议,于2024年7月15日至18日在北京举行.全会提出,中国式现代化是物质文明和精神文明相协调的现代化.必须增强文化自信,发展社会主义先进文化,弘扬革命文化,传承中华优秀传统文化,加快适应信息技术迅猛发展新形势,培育形成规模宏大的优秀文化人才队伍,激发全民族文化创新创造活力.为此,某学校举办了“传承中华优秀传统文化”宣传活动,学校从全体学生中抽取了100人对该宣传活动的了解情况进行问卷调查,统计结果如下:
男
女
合计
了解
20
不了解
20
40
合计
(1)将列联表补充完整;
(2)是否有的把握认为该校学生对该宣传活动的了解情况与性别有关;
(3)若把上表中的频率视作概率,现从了解该活动的学生中随机抽取3人参加传统文化知识竞赛.记抽取的3人中女生人数为,求随机变量的分布列、数学期望、方差.
附:,其中
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)表格见解析
(2)没有
(3)分布列见解析,期望1,
【分析】(1)根据已知数据填写列联表;
(2)由已知公式计算后比较临界值可得;
(3)确定,且,结合二项分布可得分布列,再根据期望公式、方差公式计算出期望和方差.
【详解】(1)由题得列联表如下:
男
女
合计
了解
40
20
60
不了解
20
20
40
合计
60
40
100
(2)由(1)可得,
所以没有的把握认为该校学生对该宣传活动的了解情况与性别有关
(3)由(1)可知抽取的100名学生中了解该活动的学生男生和女生分别为40人和20人,
所以从了解该活动的学生中随机抽取1人参加传统文化知识竞赛,抽取的是女生的概率为,
则由题意可知,且,
所以,
,
所以随机变量的分布列为
0
1
2
3
所以随机变量的数学期望为,
随机变量的方差为.
8.(24-25高二上·黑龙江·期末)目前电动车的电池有石墨烯电池与铅酸电池两种,某公司为了了解该市电动车消费者对这两种电池电动车的偏好,随机调查了500名电动车用户,其中男性用户300名,在被调查的女性用户中偏好铅酸电池电动车的占,得到以下的2×2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性用户
200
300
女性用户
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率值的独立性检验,能否认为该市电动车用户对这两种电池的电动车的偏好与性别有关;
(2)从偏好石墨烯电池电动车的用户中按性别比例用分层随机抽样的方法随机抽取7人进行问卷调查,再从这7名用户中抽取2人进行座谈,在有女性用户参加座谈的条件下,求恰有两名女性用户参加座谈的概率;
(3)用样本的频率估计概率,在该市所有女性电动车用户中随机抽取3名进行新车试驾,记3名参加试驾的女性用户中偏好石墨烯电池电动车的人数为X,求X的分布列.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,能
(2)
(3)分布列见解析
【分析】(1)由题意直接确定列联表,计算,对比数据即可判断;
(2)由条件概率计算公式即可求解;
(3)女性用户中偏好石墨烯电池电动车的概率为,偏好铅酸电池电动车的概率为,可能取值为0,1,2,3,根据二项分布对应的概率,即可求分布列.
【详解】(1)被调查的女性市民人数为,
其中偏好铅酸电池电动车的女性市民人数为.
偏好石墨烯电池电动车的女性市民人数为,
所以2×2列联表为:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
300
女性市民
80
120
200
合计
280
220
500
零假设:市民对这两种电池的电动车的偏好与市民的性别无关,
根据列联表中的数据可以求得
,
由于,
根据小概率值的独立性检验,我们推断不成立,
即认为市民对这两种电池的电动车的偏好与市民的性别有关.
(2)因为偏好石墨烯电池电动车的市民中,男性市民与女性市民的比为,
所以采用分层抽样的方法抽取7的人中,男性市民有5人,女性市民有2人,
设“有女性市民参加座谈”为事件A,“恰有两名女性市民参加座谈”为事件B,
则,,
所以.
(3)根据频率估计概率知,女性用户中偏好石墨烯电池电动车的概率为,
偏好铅酸电池电动车的概率为,
参加试驾的女性用户中偏好石墨烯电池电动车的人数为X,可能取值为0,1,2,3,
,
,
,
,
故X的分布列如下:
X
0
1
2
3
P
9.(23-24高二下·浙江台州·期中)某观影平台为了解观众对最近上映的某部影片的评价情况(评价结果仅有“好评”、“差评”),从平台所有参与评价的观众中随机抽取216人进行调查,部分数据如下表所示(单位:人):
好评
差评
合计
男性
40
68
108
女性
60
48
108
合计
100
116
216
(1)判断是否有的把握认为“对该部影片的评价与性别有关”?
(2)若将频率视为概率,从观影平台的所有给出“好评”的观众中随机抽取3人,用随机变量表示被抽到的男性观众的人数,求的分布列;
(3)在抽出的216人中,从给出“好评”的观众中利用分层抽样的方法抽取10人,从给出“差评”的观众中抽取人.现从这人中,随机抽出2人,用随机变量表示被抽到的给出“好评”的女性观众的人数.若随机变量的数学期望不小于1,求的最大值.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)有
(2)答案见解析
(3)2
【分析】(1)根据列联表,求出,再根据参考数据可判断;
(2)先求出随机抽取1人为男性的概率,由题意,由二项分布可得答案;
(3)Y的可能取值为0,1,2,求出概率,求出期望,建立不等式,可得答案.
【详解】(1)
,
所以有的把握认为“观影评价与性别有关”.
(2)从观影平台的所有给出“好评”的观众中随机抽取1人为男性的概率为,且各次抽取之间相互独立,所以,
所以,
,
故的分布列为
0
1
2
3
(3)从给出“好评”的观众中利用分层抽样的方法抽取10人,则男性4人,女性6人.则的可能取值为0,1,2,
所以.
所以,即
即,解得,又,所以的最大值为2.
【点睛】关键点点睛:本题第2小问的解决关键是,将问题转化为二项分布问题,即根据条件得出,从而得解.
一、多选题
1.(24-25高二下·全国·课后作业)(多选)某中学为了解性别因素是否对本校学生体育锻炼的经常性有影响,从本校所有学生中随机调查了50名男生和50名女生,得到如下列联表:
经常锻炼
不经常锻炼
男
40
10
女
30
20
0.1
0.05
0.01
2.706
3.841
6.635
经计算,则可以推断出( )
A.该学校男生中经常体育锻炼的概率的估计值为
B.该学校女生中经常体育锻炼的概率的估计值为
C.有95%的把握认为男、女生在体育锻炼的经常性方面有差异
D.有99%的把握认为男、女生在体育锻炼的经常性方面有差异
【答案】BC
【分析】根据表中数据计算频率即可求解AB,根据卡方的计算即可与临界值比较求解CD.
【详解】对选项A:该学校男生中经常体育锻炼的概率的估计值为,错误;
对选项B:该学校女生中经常体育锻炼的概率的估计值为,正确;
对选项C:,故有95%的把握认为男、女生在体育锻炼的经常性方面有差异,正确;
对选项D:,故没有99%的把握认为男、女生在体育锻炼的经常性方面有差异,错误.
故选:BC.
2.(2024·广东江门·模拟预测)某中学为更好的开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.若依据的独立性检验,可以认为“选修外出研学课程与性别有关”.则调查人数中男生可能有( )
男生
女生
合计
选修外出研学课程
未选修外出研学课程
合计
附:
,其中
A.150人 B.225人 C.300人 D.375人
【答案】BCD
【分析】设男生人数为,根据题意用表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出,由得到的范围,进而得到男生人数的范围,选出符合题意的选项.
【详解】设男生人数为,根据题意可得列联表如下:
男生
女生
合计
选修外出研学课程
不选修外出研学课程
合计
则,
若有的把握认为喜欢选修外出研学课程与性别有关,则,
解得,则.
故选:BCD.
3.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
【答案】BCD
【分析】根据男生比女生少20人,建立等式求出男生、女生的人数,建立列联表,利用列联表中的信息解决ABC,利用独立性检验来解决D选项.
【详解】解:设男生人数为,则女生人数为,
由题得,
解得,即在被调查者中,男、女生人数为80,100,可得到如下列联表,
性别
锻炼情况
合计
经常锻炼
不经常锻炼
男
48
32
80
女
40
60
100
合计
88
92
180
由表可知,A显然错误,
男生中经常锻炼的人数比女生中经常锻炼的人数多B正确;
在经常锻炼者中是男生的频率为,在不经常锻炼者中是男生的频率为C正确;
零假设:假期是否经常锻炼与性别无关,
则,根据小概率值的独立性检验,我们推断不成立,
即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确,
故选:BCD.
二、解答题
4.(23-24高二下·山东青岛·期中)某固态电池密度(单位)区间为,假设每块电池的电容量相等,为测试电池性能,随机抽取60块电池进行密度测试,得到如图所示的频率分布直方图:
(1)估计这60块电池密度的平均值(同一组中数据用该组区间的中点值代表).
(2)研发小组测试这60块电池的快速充电时间(电量30%到),将结果整理如下:
充电时间
能量密度
小于
不小于
小于
8
不小于
12
根据小概率值的独立性检验,能否认为此固态电池能量密度与充电快慢有关?
(3)根据大量测试数据,该款固态电池能量密度近似服从正态分布,用(1)中求得的样本平均数作为的近似值,现任取一块固态电池,求它能量密度大于的概率(精确到小数点后两位数).
附:①参考公式:,其中.
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
②当时,,
【答案】(1)395
(2)能认为此固态电池能量密度与充电快慢有关,此推断犯错误的概率不超过0.05;
(3)0.16
【分析】(1)由频率分布直方图,计算平均数即可;
(2)根据题意补充列联表,由表中数据计算,对照附表得出结论;
(3)根据正态分布,,,计算的值即可.
【详解】(1)由频率分布直方图,估计这60块电池密度的平均值为:
;
(2)根据题意补充列联表,如下:
充电时间
能量密度
总计
小于
不小于
小于
8
24
32
不小于
16
12
28
总计
24
36
60
零假设为:此固态电池能量密度与充电快慢无关,
由表中数据,计算,
根据小概率值的独立性检验,我们推断零假设不成立,
即能认为此固态电池能量密度与充电快慢有关,此推断犯错误的概率不超过0.05;
(3)因为近似服从正态分布,,,
则,
所以现任取一块固态电池,它能量密度大于的概率为0.16.
5.(23-24高二下·广西玉林·期末)某校进行健康体检,发现学生中近视率与性别有关.若将近视率超过50%的班级称为“近视班”,未超过的称为“非近视班”.现从该校随机抽取200人进行分析,得到数据如下所示:
近视班男生:60人,女生:70人.
非近视班男生:40人,女生:30人.
合计男生:100人,女生:100人.
(1)依据小概率值的独立性检验,能否认为“近视班”与性别有关联?
(2)若从随机抽取的非近视班学生中采用分层抽样的方法抽取7人,再从7人中抽取3人,求这3人中至少有2名男生的概率.
附:
下表给出了独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)不能
(2)
【分析】(1)根据所给数据计算出后与比较即可得;
(2)由分层抽样的性质可得抽取的人中男女生人数,再结合组合数计算这3人中至少有2名男生的概率即可得.
【详解】(1)所给数据可得列联表如下:
性别
是否“近视班”
合计
是
否
男性
60
40
100
女性
70
30
100
合计
130
70
200
设零假设:“近视班”与性别无关,
则,
依据小概率值的独立性检验,可推断成立,
故不能认为“近视班”与性别有关联;
(2),,故将抽取男生人,女生人,
再从中抽取3人,则至少有2名男生的概率.
6.(23-24高二下·黑龙江牡丹江·期末)为了解某养殖产品在某段时间内的生长情况,在该批产品中随机抽取了120件样本,测量其增长长度(单位:cm),经统计其增长长度均在区间内,将其按成6组,制成频率分布直方图,如图所示其中增长长度为27cm及以上的产品为优质产品.
(1)已知这120件产品来自两个试验区,部分数据如下列联表:
试验区
试验区
合计
优质产品
20
非优质产品
60
合计
将联表补充完整,并判断是否有的把握认为优质产品与两个试验区有关系,并说明理由;
(2)以样本的频率代表产品的概率,从这批产品中随机抽取4件进行分析研究,计算抽取的这4件产品中含优质产品的件数的分布列和数学期望.
参考公式:,其中.
临界值表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,没有,理由见解析
(2)分布列见解析,1
【分析】(1)完成联表,计算再判断相关关系;
(2)应用二项分布求出概率及分布列,再计算数学期望.
【详解】(1)根据频率分布直方图数据,得,
解得.
所以样本中优质产品有,
列联表如下表所示:
试验区
试验区
合计
优质产品
10
20
30
非优质产品
60
30
90
合计
70
50
120
,
没有的把握认为优质产品与两个试验区有关系.
(2)由已知从这批产品中随机抽取一件为优质产品的概率是,随机抽取4件中含有优质产品的件数的可能取值为,且,
,
,
,
的分布列为:
0
1
2
3
4
.
7.(23-24高二下·黑龙江哈尔滨·期末)从石墨中通过化学气相沉积法分离出石墨烯,升华后附着在材料上再结晶制成石墨烯发热膜,广泛应用于冬装衣服.现在有材料、材料可供选择,研究人员对附着在材料、材料上的石墨烯各做了100次再结晶试验,得到如下等高堆积条形图.
(1)根据等高堆积条形图,完成如下列联表,并依据小概率值的独立性检验,分析试验结果与材料是否有关:
材料
材料
合计
试验成功(单位:次)
试验失败(单位:次)
合计
(2)定义分类变量,如下:,,以频率估计概率,求条件概率和的值.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,有关;
(2),.
【分析】(1)借助堆积等高条形图可得列联表,再计算出卡方即可得解.
(2)利用堆积等高条形图,结合古典概率求出条件概率.
【详解】(1)由堆积等高条形图得列联表:
材料
材料
合计
试验成功(单位:次)
80
60
140
试验失败(单位:次)
20
40
60
合计
100
100
200
零假设:试验结果与材料无关,
根据列联表中数据,得,
依据小概率值的独立性检验,推断假设不成立,
即试验结果与材料有关,此推断犯错误的概率不超过0.005.
(2)依题意,,
所以;
,
所以.
8.(23-24高二下·浙江温州·期中)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号
1
2
3
4
5
学习时间x
30
40
50
60
70
数学成绩y
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)答案见解析
(3)答案见解析
【分析】(1)根据题意分别求出,,代入到相关系数:,求得结果即可;
(2) 知接近1,故与之间具有极强的线性相关关系,根据已知条件代入求解即可,,最后代入即可求得;
(3)计算出与临界值比较可得出周末在校自主学习与成绩进步是否有关.
【详解】(1),,
又的方差为,
,
,
.
(2)由(1)知接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合:,
,
,故当时,,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
(3)零假设:周末在校自主学习与成绩进步无关,
根据数据,计算得到:
,
因为,所以依据的独立性检验,可以认为“周末自主学习与成绩进步”有关.
9.(23-24高二上·湖北黄冈·期末)篮球是一项风靡世界的运动,是深受大众喜欢的一项运动.
喜爱篮球运动
不喜爱篮球运动
合计
男性
60
40
100
女性
20
80
100
合计
80
120
200
(1)为了解喜爱篮球运动是否与性别有关,随机抽取了男性和女性各100名观众进行调查,得到如上列联表,判断是否有99.9%的把握认为喜爱篮球运动与性别有关;
(2)校篮球队中的甲、乙、丙三名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都等可能的将球传给另外两个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传球的人为第1次触球者,第次触球者是甲的概率记为,即.
①求(直接写出结果即可);
②证明:数列为等比数列,并比较第9次与第10次触球者是甲的概率的大小.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:,.
【答案】(1)有99.9%的把握认为喜爱篮球运动与性别有关.
(2)①;②证明见解析,第次触球者是甲的概率大.
【分析】(1)直接带公式即可.
(2)①根据题义写即可;通过分析与的概率关系式,再利用数列知识计算结果.
【详解】(1)(1)根据列联表数据,经计算得,
根据独立性检验:即有的把握认为喜爱篮球运动与性别有关.
(2)①由题意得:第二次触球者为乙,丙中的一个,第二次触球者传给包括甲的二人中的一人,故传给甲的概率为,故.
②第次触球者是甲的概率记为,则当时,第次触球者是甲的概率为,
第次触球者不是甲的概率为,
则
从而,又,
所以是以为首项,公比为的等比数列,
故第次触球者是甲的概率大.
(
5
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
$$
第32讲 列联表与独立性检验
模块一 思维导图串知识
模块二 基础知识全梳理(吃透教材)
模块三 核心考点举一反三
【考点一:列联表的完善及其应用】
【考点二:等高条形图的应用】
【考点三:独立性检验的概念辨析】
【考点四:卡方的计算与独立性检验的综合应用】
模块四 小试牛刀过关测
1.理解分类变量与2×2列联表;
2.理解分类变量与2×2列联表;利用2×2列联表,等高堆积条形图的方法判断两个分类变量之间的关联性。
一、分类变量
1、分类变量:为了方便,用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。
2、取值:分类变量的取值可以用实数表示。
3、范围:本节主要讨论取值于的分类变量的关联性问题。
4、判断分类变量之间关系的方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法;
(2)在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大。
二、列联表
列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
合计
列联表给出了成对分类变量数据的交叉分类频数。
三、等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
四、独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【考点一:列联表的完善及其应用】
一、单选题
1.(2024高二下·江苏·课后作业)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
优秀
非优秀
总计
甲班
乙班
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
2.(2024高二·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
二、填空题
3.(24-25高二·上海·课堂例题)下面是一个列联表:
总计
35
70
15
15
30
总计
50
100
其中、处填的值分别为 .
三、解答题
4.(24-25高二下·全国·课堂例题)2022年9月23日,以“庆丰收同心共富,迎盛会齐向未来”为主题的第五个中国农民丰收节开幕式在盐城市射阳县海河镇举行,射阳县政府同步开展以“湿地绿城庆丰收、向海图强迎盛会”为主题的农民丰收节系列活动,现从某活动现场的观众中随机抽取名(其中男性名),了解他们对该活动的满意情况,得到下表.
不满意
满意
合计
男性
女性
合计
根据统计数据完成列联表.
5.(24-25高二下·全国·课前预习)某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.根据这些数据能否断定:患呼吸道疾病与吸烟有关?
【考点二:等高条形图的应用】
一、单选题
1.(23-24高二下·重庆·期末)如图是学校高二1、2班本期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么( )
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.“两班学生的数学成绩优秀率存在差异”判断一定正确
二、填空题
2.(23-24高二下·广东深圳·期中)观察下面各等高堆积条形图,其中两个分类变量、相关关系最强的是 .
三、解答题
3.(2024高二下·全国·专题练习)为考察某种药物预防疾病的效果,进行动物试验,得到2×2列联表如表所示.
患病
未患病
合计
服用药
10
45
55
没有服用药
20
30
50
合计
30
75
105
试用等高堆积条形图判断服用药与患病之间是否有关联.
【考点三:独立性检验的概念辨析】
一、单选题
1.(23-24高二下·山东青岛·期中)根据分类变量与的成对样本数据,计算得到.已知,依据小概率值的独立性检验,则( )
A.与不独立
B.与不独立,这个结论犯错误的概率不超过0.05
C.与独立
D.与独立,这个结论犯错误的概率不超过0.05
2.(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
3.(24-25高二下·全国·单元测试)某市对机动车单双号限行进行了调查,在参加调查的2600名有车人中有1700名持反对意见,2500名无车人中有1400名持反对意见,在运用这些数据说明“拥有车辆”与“反对机动车单双号限行”是否相关时,用下列哪种方法最有说服力( )
A.独立性检验 B.数学期望 C.随机误差 D.频率分布直方图
4.(23-24高二下·天津滨海新·期末)下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
二、多选题
5.(24-25高二下·全国·单元测试)有关独立性检验的四个说法,其中正确的是( )
A.两个变量的列联表中,对角线上数据的乘积相差越大,说明两个变量有关系的可能性就越大
B.对分类变量X与Y的统计量来说,越小,“X与Y有关系”的可信程度越小
C.从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病
D.从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下,认为吸烟与患肺癌有关
三、填空题
6.(24-25高二下·全国·课后作业)在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
【考点四:卡方的计算与独立性检验的综合应用】
一、单选题
1.(24-25高二下·全国·课后作业)我国力争2030年前实现碳达峰,2060年前实现碳中和,是党中央经过深思熟虑作出的重大战略决策,事关中华民族永续发展和构建人类命运共同体.新经济形势下,二氧化碳排放是影响企业效益的重要因素,为了研究节能专利技术对企业效益的影响,现随机抽取100家科技企业进行调查,得到如下数据:
经济效益较好
经济效益较差
合计
节能专利技术
52
29
81
非节能专利技术
8
11
19
合计
60
40
100
则认为节能专利技术有利于企业经济效益的把握为( )
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
A. B. C. D.
2.(24-25高二下·全国·课后作业)某中草药主要是通过清热解毒、宣肺理气来调理机体的气机和阴阳平衡,从而改善症状,可以达到减轻病情、缓解症状、缩短病程的作用.为了了解该中草药预防流感的效果,抽样调查40人,得到如下数据:
患流感
未患流感
服用药
3
17
未服用药
9
11
若由此认为“该药物有效”,则该结论出错的概率不超过( )
A. B. C. D.
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
二、解答题
3.(2024高二·全国·专题练习)“一带一路”是促进各国共同发展,实现共同繁荣的合作共嬴之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿元人民币/天),整理数据得下表:
进口贸易量
出口贸易量
32
18
4
6
8
12
3
7
10
(1)用频率估计概率,试估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿元人民币”的概率.
(2)根据所给数据,完成下面的列联表.
进口贸易量
出口贸易量
(3)依据的独立性检验,能否认为我国与该国贸易中一天的进口贸易量与出口贸易量有关?
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
4.(2024·湖南益阳·一模)某公园为了提升公园形象,提高游客旅游的体验感,他们更新了部分设施,调整了部分旅游线路.为了解游客对新措施是否满意,随机抽取了100名游客进行调查,男游客与女游客的人数之比为2:3,其中男游客有35名满意,女游客有15名不满意.
满意
不满意
总计
男游客
35
女游客
15
合计
100
(1)完成列联表,依据表中数据,以及小概率值的独立性检验,能否认为游客对公园新措施满意与否与性别有关?
(2)从被调查的游客中按男、女分层抽样抽取5名游客.再随机从这5名游客中抽取3名游客征求他们对公园进一步提高服务质量的建议,其中抽取男游客的人数为.求出的分布列及数学期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
5.(22-23高二下·广西玉林·阶段练习)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.
(1)求的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在的居民称为青年组,年龄在的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面列联表,依据的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
中老年
合计
0.15
0.1
0.05
0.025
0.01
2.072
2.706
3.841
5.024
6.635
6.(24-25高二上·四川眉山·期中)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
7.(24-25高二上·辽宁·期中)中国共产党第二十届中央委员会第三次全体会议,于2024年7月15日至18日在北京举行.全会提出,中国式现代化是物质文明和精神文明相协调的现代化.必须增强文化自信,发展社会主义先进文化,弘扬革命文化,传承中华优秀传统文化,加快适应信息技术迅猛发展新形势,培育形成规模宏大的优秀文化人才队伍,激发全民族文化创新创造活力.为此,某学校举办了“传承中华优秀传统文化”宣传活动,学校从全体学生中抽取了100人对该宣传活动的了解情况进行问卷调查,统计结果如下:
男
女
合计
了解
20
不了解
20
40
合计
(1)将列联表补充完整;
(2)是否有的把握认为该校学生对该宣传活动的了解情况与性别有关;
(3)若把上表中的频率视作概率,现从了解该活动的学生中随机抽取3人参加传统文化知识竞赛.记抽取的3人中女生人数为,求随机变量的分布列、数学期望、方差.
附:,其中
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
8.(24-25高二上·黑龙江·期末)目前电动车的电池有石墨烯电池与铅酸电池两种,某公司为了了解该市电动车消费者对这两种电池电动车的偏好,随机调查了500名电动车用户,其中男性用户300名,在被调查的女性用户中偏好铅酸电池电动车的占,得到以下的2×2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性用户
200
300
女性用户
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率值的独立性检验,能否认为该市电动车用户对这两种电池的电动车的偏好与性别有关;
(2)从偏好石墨烯电池电动车的用户中按性别比例用分层随机抽样的方法随机抽取7人进行问卷调查,再从这7名用户中抽取2人进行座谈,在有女性用户参加座谈的条件下,求恰有两名女性用户参加座谈的概率;
(3)用样本的频率估计概率,在该市所有女性电动车用户中随机抽取3名进行新车试驾,记3名参加试驾的女性用户中偏好石墨烯电池电动车的人数为X,求X的分布列.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
9.(23-24高二下·浙江台州·期中)某观影平台为了解观众对最近上映的某部影片的评价情况(评价结果仅有“好评”、“差评”),从平台所有参与评价的观众中随机抽取216人进行调查,部分数据如下表所示(单位:人):
好评
差评
合计
男性
40
68
108
女性
60
48
108
合计
100
116
216
(1)判断是否有的把握认为“对该部影片的评价与性别有关”?
(2)若将频率视为概率,从观影平台的所有给出“好评”的观众中随机抽取3人,用随机变量表示被抽到的男性观众的人数,求的分布列;
(3)在抽出的216人中,从给出“好评”的观众中利用分层抽样的方法抽取10人,从给出“差评”的观众中抽取人.现从这人中,随机抽出2人,用随机变量表示被抽到的给出“好评”的女性观众的人数.若随机变量的数学期望不小于1,求的最大值.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
一、多选题
1.(24-25高二下·全国·课后作业)(多选)某中学为了解性别因素是否对本校学生体育锻炼的经常性有影响,从本校所有学生中随机调查了50名男生和50名女生,得到如下列联表:
经常锻炼
不经常锻炼
男
40
10
女
30
20
0.1
0.05
0.01
2.706
3.841
6.635
经计算,则可以推断出( )
A.该学校男生中经常体育锻炼的概率的估计值为
B.该学校女生中经常体育锻炼的概率的估计值为
C.有95%的把握认为男、女生在体育锻炼的经常性方面有差异
D.有99%的把握认为男、女生在体育锻炼的经常性方面有差异
2.(2024·广东江门·模拟预测)某中学为更好的开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.若依据的独立性检验,可以认为“选修外出研学课程与性别有关”.则调查人数中男生可能有( )
男生
女生
合计
选修外出研学课程
未选修外出研学课程
合计
附:
,其中
A.150人 B.225人 C.300人 D.375人
3.(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
二、解答题
4.(23-24高二下·山东青岛·期中)某固态电池密度(单位)区间为,假设每块电池的电容量相等,为测试电池性能,随机抽取60块电池进行密度测试,得到如图所示的频率分布直方图:
(1)估计这60块电池密度的平均值(同一组中数据用该组区间的中点值代表).
(2)研发小组测试这60块电池的快速充电时间(电量30%到),将结果整理如下:
充电时间
能量密度
小于
不小于
小于
8
不小于
12
根据小概率值的独立性检验,能否认为此固态电池能量密度与充电快慢有关?
(3)根据大量测试数据,该款固态电池能量密度近似服从正态分布,用(1)中求得的样本平均数作为的近似值,现任取一块固态电池,求它能量密度大于的概率(精确到小数点后两位数).
附:①参考公式:,其中.
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
②当时,,
5.(23-24高二下·广西玉林·期末)某校进行健康体检,发现学生中近视率与性别有关.若将近视率超过50%的班级称为“近视班”,未超过的称为“非近视班”.现从该校随机抽取200人进行分析,得到数据如下所示:
近视班男生:60人,女生:70人.
非近视班男生:40人,女生:30人.
合计男生:100人,女生:100人.
(1)依据小概率值的独立性检验,能否认为“近视班”与性别有关联?
(2)若从随机抽取的非近视班学生中采用分层抽样的方法抽取7人,再从7人中抽取3人,求这3人中至少有2名男生的概率.
附:
下表给出了独立性检验中几个常用的小概率值和相应的临界值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
6.(23-24高二下·黑龙江牡丹江·期末)为了解某养殖产品在某段时间内的生长情况,在该批产品中随机抽取了120件样本,测量其增长长度(单位:cm),经统计其增长长度均在区间内,将其按成6组,制成频率分布直方图,如图所示其中增长长度为27cm及以上的产品为优质产品.
(1)已知这120件产品来自两个试验区,部分数据如下列联表:
试验区
试验区
合计
优质产品
20
非优质产品
60
合计
将联表补充完整,并判断是否有的把握认为优质产品与两个试验区有关系,并说明理由;
(2)以样本的频率代表产品的概率,从这批产品中随机抽取4件进行分析研究,计算抽取的这4件产品中含优质产品的件数的分布列和数学期望.
参考公式:,其中.
临界值表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
7.(23-24高二下·黑龙江哈尔滨·期末)从石墨中通过化学气相沉积法分离出石墨烯,升华后附着在材料上再结晶制成石墨烯发热膜,广泛应用于冬装衣服.现在有材料、材料可供选择,研究人员对附着在材料、材料上的石墨烯各做了100次再结晶试验,得到如下等高堆积条形图.
(1)根据等高堆积条形图,完成如下列联表,并依据小概率值的独立性检验,分析试验结果与材料是否有关:
材料
材料
合计
试验成功(单位:次)
试验失败(单位:次)
合计
(2)定义分类变量,如下:,,以频率估计概率,求条件概率和的值.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
8.(23-24高二下·浙江温州·期中)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号
1
2
3
4
5
学习时间x
30
40
50
60
70
数学成绩y
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
9.(23-24高二上·湖北黄冈·期末)篮球是一项风靡世界的运动,是深受大众喜欢的一项运动.
喜爱篮球运动
不喜爱篮球运动
合计
男性
60
40
100
女性
20
80
100
合计
80
120
200
(1)为了解喜爱篮球运动是否与性别有关,随机抽取了男性和女性各100名观众进行调查,得到如上列联表,判断是否有99.9%的把握认为喜爱篮球运动与性别有关;
(2)校篮球队中的甲、乙、丙三名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都等可能的将球传给另外两个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传球的人为第1次触球者,第次触球者是甲的概率记为,即.
①求(直接写出结果即可);
②证明:数列为等比数列,并比较第9次与第10次触球者是甲的概率的大小.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:,.
(
5
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
$$