内容正文:
专题8.3 列联表与独立性检验
【知识梳理】 1
【考点1:完善列联表】 2
【考点2:列联表分析】 4
【考点3:等高条形图】 8
【考点4:独立性检验的基本思想】 11
【考点5:独立性检验解决实际问题】 16
【知识梳理】
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为
分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,
观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类
变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道
两个分类变量有关系的概率大小.
4.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
5.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【考点1:完善列联表】
1.(25-26高二·全国·课堂例题)一个列联表如下:
合计
35
45
7
合计
73
则表中,的值分别是 ( )
A.10,38 B.17,45 C.10,45 D.17,38
【答案】B
【分析】由列联表数据,列出等式即可求解;
【详解】由,得.
由,得.
由,得.
由,得.
故选:B
2.(25-26高三·全国·一轮复习)下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
【答案】C
【分析】根据联表计算求参即可.
【详解】因为.所以.又,所以.
故选:C.
3.(25-26高二下·全国·课后作业)博鳌亚洲论坛2024年年会于3月26日至29日在海南博鳌举行.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与是否会俄语”的列联表中,______.
性别
是否会俄语
合计
会
不会
男
20
女
6
合计
18
30
【答案】8
【分析】根据列联表的性质,求出a,b,d的值,即可得答案.
【详解】由列联表的性质,可得:,可得,
所以.
故答案为:8
4.(24-25高二下·甘肃酒泉·期末)下面是一个2×2列联表:
项目
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则由上表可得________.
【答案】74
【分析】根据联表性质计算求解.
【详解】由题意知,所以.
故答案为:.
5.(24-25高二下·广西钦州·期末)如下是一个列联表,则________.
yx
总计
总计
【答案】
【分析】根据列联表的概念,可得答案.
【详解】由题意可得,则,可得,所以.
故答案为:.
【考点2:列联表分析】
1.(2026·云南昆明·一模)考查棉花种子经过处理跟生病之间的关系得到如表数据:
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
【答案】C
【分析】根据表格提供的数据作出判断.
【详解】由列联表中的数据可知,
种子经过处理,得病的比例明显降低,
种子未经过处理,得病的比例要高些,
所以可得结论:种子是否经过处理跟是否生病有关.
故选:C
2.(24-25高二下·天津河北·期末)为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
【答案】C
【分析】根据列联表中的数据分析即可得答案.
【详解】解:由列联表中的数据可知,乙校共抽的样本人,其中优秀的有人.
故选:C
3.(2025·广西玉林·一模)假设有两个分类变量和的列联表如下:
注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
A. B. C. D.
【答案】A
【详解】根据独立性检验的方法和列联表可得,当与相差越大,则分类变量和有关系的可能性越大,即相差越大,与相差越大.由各选项可得A满足条件,选A.
4.(25-26高二下·河南·月考)地铁的开通,在一定程度上缓解了市内交通的拥堵状况.某条地铁线路开通后,某调查机构抽取了部分乘坐该线路地铁的市民作为样本,分析其年龄和性别结构,得到如下信息:35岁及以下的市民中,男性约占;35岁以上的市民中,男性约占;男性市民中,35岁及以下的约占;女性市民中,35岁及以下的约占.根据以上信息,下列结论不一定正确的是( )
A.样本中男性比女性多
B.样本中多数女性是35岁以上
C.样本中35岁及以下的男性人数比35岁以上的女性人数多
D.样本中35岁以上的市民比35岁及以下的多
【答案】C
【分析】根据题意,得到如下两个列联表,再一一分析即可.
【详解】根据题意,得到如下两个列联表.
35岁以上
35岁及以下
总计
男性
女性
总计
35岁以上
35岁及以下
总计
男性
女性
总计
根据第1个列联表可知,样本中男性市民人数为,
女性市民人数为,又,即样本中男性比女性多,故A正确;
根据第2个列联表可知,样本中35岁以上女性市民人数为,
35岁及以下女性市民人数为,又,即样本中多数女性是35岁以上,故B正确;
由题意,,所以,故C不正确;
根据第2个列联表可知,样本中35岁以上市民人数为,
35岁及以下市民人数为,又,
即样本中35岁以上的市民比35岁及以下的多,故D正确.
故选:C.
5.(25-26高二下·全国·课前预习)某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.根据这些数据能否断定:患呼吸道疾病与吸烟有关?
【答案】可以认为患呼吸道疾病与吸烟有关.
【分析】根据题意列出列联表,再算出在吸烟中和不吸烟中患病的频率,通过比较之间是否存在差异即可判断是否有关.
【详解】为了研究这个问题,我们将上述数据用表格表示如下:
患病
未患病
合计
吸烟
37
183
220
不吸烟
21
274
295
合计
58
457
515
由此表可以粗略地估计出在吸烟的人中,有的人患病;
在不吸烟的人中,有的人患病.
因此,从直观上可以得到结论:吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,
故可以认为患呼吸道疾病与吸烟有关.
【考点3:等高条形图】
1.(24-25高三上·广西南宁·期末)为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
【答案】B
【分析】根据等高条形图中的数据即可得出选项.
【详解】根据两个表中的等高条形图知,药物实验显示不服药与服药时患病差异较药物实验显示明显大,
所以药物的预防效果优于药物的预防效果,
故选:B.
2.(24-25高二下·重庆·期末)如图是学校高二1、2班本期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么( )
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.“两班学生的数学成绩优秀率存在差异”判断一定正确
【答案】A
【分析】分析等高堆积条形图可直接得到答案.
【详解】原图是学校高二1、2班本期中期考试数学成绩优秀率的等高堆积条形图,
从两个班随机抽取的6名学生的期中考试数学成绩优秀率无法确定哪个班的比较高,2班6名学生数学成绩不优秀的和优秀的人数也不能确定,故A正确,BC错误;
两个班期中考试数学成绩的优秀率均在0.5左右,并不能直接确定“两班学生的数学成绩优秀率存在差异”,故D错误;
故选:A.
3.(24-25高三·北京·一轮复习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【答案】C
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
岁及以上
岁以下
总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
4.(多选)(25-26高二下·福建泉州·期中)(多选)如图是调查某地区男、女中学生喜欢数学的等高堆积条形图,阴影部分表示喜欢数学的百分比,从图可以看出( )
A.性别与喜欢数学无关 B.女生中喜欢数学的百分比为
C.男生比女生喜欢数学的可能性大些 D.男生不喜欢数学的百分比为
【答案】CD
【分析】根据等高堆积条形图即可结合选项求解.
【详解】由图可知,女生喜欢数学的占,男生喜欢数学的占,男生不喜欢数学的百分比为,故B错误,D正确;
显然性别与喜欢数学有关,故A错误;男生比女生喜欢数学的可能性大些,故C正确.
故选:CD.
5.(25-26高二下·广东深圳·期中)观察下面各等高堆积条形图,其中两个分类变量、相关关系最强的是___________.
【答案】乙
【分析】根据选项中的图形,即可直接求解.
【详解】等高条形图中有两个高度相同的矩形,每个矩形都有两个颜色,观察下方颜色区域的高度,如果高度差越大,则两个分类变量关系越强,观察四个选项可知,B选项中带颜色区域的高度差最大,两个分类变量、相关关系最强;
故答案为:乙
【考点4:独立性检验的基本思想】
1.(2026·上海·二模)某工厂为判断两种不同的操作方法是否对生产某种零件的合格个数有影响,收集了相关数据,绘制了列联表,设原假设:两种不同的操作方法对生产该种零件的合格个数没有影响,计算出统计量,已知,则在显著性水平下,推断的结论为________.(用“拒绝”或“接受”填空)
【答案】拒绝
【详解】在独立性检验中,当计算出的统计量大于给定显著性水平对应的临界值时,样本数据出现的概率小于,
属于小概率事件,根据小概率原理,我们拒绝原假设,认为两个变量之间存在显著关联,
本题中,所以拒绝,即认为两种操作方法对合格个数有影响.
2.(25-26高三·天津·二轮复习)下列说法正确的是( )
的部分临界值如表:
0.1
0.05
0.025
0.01
2.706
3.841
5.024
6.635
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.已知变量,由它们的样本数据计算得到的观测值,则在犯错误的概率不超过0.025的前提下认为变量没有关系
【答案】A
【分析】根据标准差定义可判断A项;通过取反例可排除B项;利用相关系数的概念易排除C项;利用独立性检验的规定,可判断D结论不成立.
【详解】对于A,根据标准差定义,一组数据的标准差时,
显然有,故A正确;
对于B,两组数据的标准差相等,这两组数据的平均数未必相等,
如都为1和都为2的两组数据,它们的标准差均为0,但它们的平均数分别为1和,故B错误;
对于C,两个变量的相关系数越接近于0,两个变量的相关性越弱,故C错误;
对于D,,根据独立性检验原理,
在犯错误的概率不超过0.025的前提下认为变量有关系,故D错误.
故选:A
3.(25-26高二下·浙江温州·月考)随着人工智能技术的快速发展,AI图像识别在工业质检、安防监控等领域得到广泛应用.某科技公司为提升自主研发的AI图像识别模型的识别准确率,研发了一种基于国产算力优化的特征提取算法.为检验该算法的实际效果,研究人员随机选取了200个同批次的工业零件检测样本,随机分为两组,每组100个样本:第一组使用新优化算法进行识别,第二组使用传统算法进行识别,记录两组样本的识别成功与失败情况,得到如下列联表:
识别成功
识别失败
合计
新优化算法
85
15
100
传统算法
70
30
100
合计
155
45
200
附:统计量临界值表
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中,.
则下列说法正确的是( )
A.有99%的把握认为新优化算法对提升识别成功率有效
B.有95%的把握认为新优化算法对提升识别成功率有效
C.若将列联表中每个单元格的数据都扩大为原来的2倍,统计量的值保持不变
D.新优化算法的样本识别成功率比传统算法高15个百分点,因此新算法在所有工业检测场景中都优于传统算法
【答案】B
【分析】根据表中数据,求出,分析比较,可判断A、B的正误;根据的公式,将数据扩大2倍,可得新的,分析可判断C的正误;根据实际场景,分析可判断D的正误.
【详解】由题意,,
所以有95%的把握认为新优化算法对提升识别成功率有效,故A错误,B正确;
若将列联表中每个单元格的数据都扩大为原来的2倍,
则,
所以统计量的值扩大2倍,故C错误;
样本的成功率高15个百分点,不能直接推广到所有工业检测场景中,属于过度推断,故D错误.
4.(多选)(2026·云南红河·模拟预测)(多选)某实验室为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,用以上两种检验方法对某种食品做了沙门氏菌检验,结果得到列联表如下:
阳性
阴性
合计
荧光抗体法
常规培养法
合计
参考公式:,其中.
附:下列表述正确的是( )
A.,
B.零假设:在沙门氏菌检验中荧光抗体法与常规培养法有差异
C.依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异
D.常规培养法检测沙门氏菌阳性的频率为
【答案】AC
【详解】对于A,根据表格数据可知:,,A正确;
对于B,为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,零假设:在沙门氏菌检验中荧光抗体法与常规培养法无差异,B错误;
对于C,由题意得,
零假设不成立,依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异,C正确;
对于D,由表格数据知,常规培养法检测沙门氏菌阳性的频率为,D错误.
5.(2026·陕西宝鸡·三模)为考察某种国产芯片和进口芯片的质量,随机抽取了500颗同规格芯片,对两种芯片的良品、次品进行对比,得到如下不完整的列联表:
项目
良品
次品
合计
国产芯片
10
250
进口芯片
230
合计
470
30
500
(1)完成上面的表格中的空缺部分填空,以频率估计概率,估计国产芯片的次品率;
(2)根据小概率值的独立性检验,能否判断国产芯片与进口芯片质量有差异?
0.05
0.01
0.001
3.841
6.635
10.828
附:,其中为样本容量.
【答案】(1)
项目
良品
次品
合计
国产芯片
240
10
250
进口芯片
230
20
250
合计
470
30
500
,
(2)没有充分证据表明国产芯片与进口芯片质量有差异
【分析】(1)完善列联表,计数频率即可求解;
(2)计算出的观测值,结合临界值表可得出结论.
【详解】(1)表格中的空缺部分填空如下表,
项目
良品
次品
合计
国产芯片
240
10
250
进口芯片
230
20
250
合计
470
30
500
样本中国产芯片次品的频率为 ,
由此估计国产芯片的次品率为 ;
(2)假设:国产芯片与进口芯片质量无差异,
因为 ,
由,
所以没有充分证据表明国产芯片与进口芯片质量有差异.
【考点5:独立性检验解决实际问题】
1.(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【答案】(1),人次
(2)
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
不能认为“礼让行人”行为与驾龄有关
【分析】(1)代入样本中心点求出的值,进而得到线性回归方程并进行预测;(2)根据已知条件补全列联表后计算的观测值,并与临界值比较得出结论.
【详解】(1)由题意可得,线性回归方程必过样本中心点,
代入可得,,
所以线性回归方程.
当时,,
预测该路口7月份不“礼让行人”违规驾驶人次为人次.
(2)已知不“礼让行人”违规驾驶的共计50人次,所以①,
抽查总人数为人,所以“礼让行人”的总人数为人,
②.
补充完整列联表如下:
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
根据列联表数据,计算的观测值
,
因为,
所以不能认为“礼让行人”行为与驾龄有关.
2.(2026·四川泸州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)更适合,
(2)不能
【分析】(1)根据图形,即可作出判断,再将非线性回归方程转化成线性回归方程,再结合条件,求出,即可求解;
(2)根据条件,求出的值,结合条件,即可求解.
【详解】(1)由图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型,
由,得到,因为,则,
则,所以,则.
(2)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
,
根据小概率值的独立性检验,我们没有理由认为不成立,即认为市民佩戴头盔与性别没有关联.
3.(25-26高二下·安徽六安·期中)为了解高一(5)班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的列联表
性别
打篮球
合计
喜爱
不喜爱
男生
22
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
附,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)
性别
打篮球
合计
喜爱
不喜爱
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)能,理由见解析
【分析】(1)根据抽到喜爱打篮球的学生的概率求出喜爱打篮球的人数,从而可求出不喜爱打篮球的人数,然后结合列联表中的数据可将列联表补充完整;
(2)根据列联表中的数据,结合公式求出,然后根据临界值分析判断即可.
【详解】(1)在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为,
则喜爱打篮球的有人,则不喜爱打篮球的有人,
所以列联表补充如下:
性别
打篮球
合计
喜爱
不喜爱
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)零假设为:喜爱打篮球与性别无关,
计算得,
根据小概率值的独立性检验,我们推断不成立,
即认为喜爱打篮球与性别有关,此推断犯错误的概率不大于0.05.
4.(2026·河北·二模)人工智能大模型已成为新一代数字技术核心,某企业自主研发了人工智能大模型,为了比较其与传统人工智能模型的文本生成效果,随机抽取两种模型各次文本生成效果,已知每次文本生成效果分为有效生成与无效生成两种情况,且部分统计数据如下表.
有效生成
无效生成
合计
模型
模型
合计
(1)完成列联表,并以样本估计总体,频率估计概率,若利用模型随机生成次文本,求该文本生成效果为有效生成的概率;
(2)根据小概率值的独立性检验,判断文本生成效果与模型类型是否有关.
附
【答案】(1)
有效生成
无效生成
合计
模型
模型
合计
(2)文本生成效果与模型类型有关.
【分析】(1)先计算随机生成次为有效生成的频率,再由频率估计概率可;
(2)直接由独立性检验计算可得.
【详解】(1)首先补全列联表:
有效生成
无效生成
合计
模型
模型
合计
根据频率估计概率,模型共生成次,其中有效生成次,
因此随机生成次为有效生成的频率为,
根据频率估计概率,利用模型随机生成次文本,该文本生成效果为有效生成的概率.
(2)零假设:文本生成效果与模型类型无关.
代入卡方公式计算,令,
因为小概率值对应的临界值,由于,因此不成立.
结论:依据的独立性检验,认为文本生成效果与模型类型有关.
5.(25-26高三下·江西景德镇·期中)某小区物业为提高服务质量,随机调查了100名男业主和100名女业主,每位业主对该物业的服务给出满意或不满意的评价,得到如下列联表:
是否满意性别
满意
不满意
合计
男业主
a
20
100
女业主
c
d
100
合计
m
60
200
(1)求a,c,d,m,并判断是否有95%把握认为该小区物业服务评价的差异与男女性别有关?
(2)从小区的业主中任选一人,表示事件“选到的人对该物业的服务不满意”,表示事件“选到的人为男业主”,利用该调查数据,给出,的估计值.
附:
α
0.05
0.01
0.005
3.841
6.635
7.879
【答案】(1),有关;
(2),.
【分析】(1)由数表信息列式计算,再求出观测值并与临界值比对即可得解.
(2)由数表,利用条件概率公式求解.
【详解】(1)由数表得,解得,
零假设:小区男、女业主对该物业服务的评价无差异,
根据数表经计算得,
依据的独立性检验,推断假设不成立,即认为小区男、女业主对该物业服务的评价有差异,
所以有95%把握认为该小区物业服务评价的差异与男女性别有关.
(2)依题意,,,,
,,
所以,.
6.(25-26高二下·上海·期中)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况及其对学生视力的影响,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下表格:
每周活动总时长(单位:小时)
频数
15
25
35
15
10
同时,对这100名学生的视力进行了检查,将视力达到5.0及以上定为“视力良好”,低于5.0定为“视力一般”,得到如下2×2列联表:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
活动时间未达标(低于14小时)
30
合计
100
(1)求正整数、的值;
(2)从活动时长在和的学生中共抽取2名学生,求这两名学生每周活动总时长的差的绝对值超过7小时的概率;
(3)依据的独立性检验,判断是否有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
参考公式及数据:,其中.
,,,.
【答案】(1),;
(2);
(3)有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
【详解】(1)由每周活动总时长频数分布表可知:活动时间达标(不少于14小时)的人数为:;活动时间未达标(低于14小时)的人数为:.由列联表,达标人数为,未达标人数为.
因此,,.
所以,.
(2)活动时长在的学生有15人,在的学生有10人,共25人.从这25人中任取2人,总的基本事件数为:.
“差的绝对值超过7小时”意味着两个人分别来自和,有利事件数为:,所以所求概率为:.
(3)由(1)得,,完整的列联表为:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
20
60
活动时间未达标(低于14小时)
10
30
40
合计
50
50
100
所以,因为,所以有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
7.(2026·河南·模拟预测)新能源汽车越来越受到年轻人的青睐.某品牌新能源汽车有限公司为了了解新能源汽车爱好者对本公司生产的新能源汽车款和款的满意度进行了市场调研,在社会上随机调查了200名新能源爱好者,得到如下列联表:
满意
不满意
合计
新能源汽车A款
80
新能源汽车B款
30
合计
150
200
(1)请完善上述列联表,并判断能否有90%的把握认为新能源汽车的款型对满意度有影响;
(2)从这200位新能源爱好者中任选两人,在被调查的两人选择新能源汽车款型一致的条件下,试求他们对该新能源汽车款型均满意的概率.
附:,其中.
0.15
0.10
0.05
0.025
2.07
2.71
3.84
5.024
【答案】(1)列联表见解析,没有
(2)
【分析】(1)根据题设数据完善表格,然后根据公式计算卡方统计量即可;
(2)根据条件概率公式计算即可.
【详解】(1)完善列联表如下:
满意
不满意
合计
新能源汽车A款
新能源汽车B款
合计
零假设:新能源汽车的款型对满意度没有影响,
,
根据小概率值的独立性检验,推断成立,
所以没有的把握认为新能源汽车的款型对满意度有影响;
(2)记事件为“被调查的两人选择新能源汽车款型一致”,事件为“他们对该新能源汽车款型均满意”,则
,,
所以,
所以在被调查的两人选择新能源汽车款型一致的条件下,他们对该新能源汽车款型均满意的概率为.
8.(2026·重庆北碚·模拟预测) 某高校为调查人们对 AI 知识掌握的熟悉程度与学历是否有关,组织了相关的答题活动, 满分 100 分. 答题完成后, 工作人员从中随机抽取 200 人作为样本,得到如下数据.
人数分数 学历
本科及以下
37
33
12
10
5
3
本科以上
20
20
10
10
30
10
(1)若得分不小于 60 分,则认为对 AI 知识掌握的程度为熟悉,否则为不熟悉;
熟悉程度
学历
合计
本科及以下
本科以上
熟悉
不熟悉
合计
根据样本数据补全上面的 列联表,并依据小概率值 的独立性检验,能否认为熟悉AI程度与参与人员学历有关系.
(2)从样本里学历为本科以上的人群中,采用按比例分层随机抽样的方法抽取 10 个人,再从这 10 人中随机抽出 3 人进行访谈,记这 3 人中分数在 的人数为 ,求 的分布列及数学期望.
附:, .
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)列联表见解析;熟悉AI程度与参与人员学历有关联;
(2)分布列见解析;.
【分析】(1)先根据题意列出列联表,再计算,并判断;
(2)先确定的可能取值,再分别求概率,列出分布列,最后求期望.
【详解】(1)
熟悉程度
学历
合计
本科及以下
本科以上
熟悉
30
60
90
不熟悉
70
40
110
合计
100
100
200
零假设为:熟悉AI程度与参与人员学历互相独立,即熟悉AI程度与参与人员学历无关联.
根据列联表中的数据,经计算得
根据小概率值的独立性检验,我们推断不成立,即认为熟悉AI程度与参与人员学历有关联,此推断犯错误的概率不大于0.001.
根据表中数据,熟悉AI的参与人员中,本科及以下和本科以上的频率分别为和,
不熟悉AI的参与人员中,本科及以下和本科以上的频率分别为和,
由可见,在被调查者中,熟悉AI的人中,本科以上学历是本科及以下学历的频率的将近2倍,于是,根据频率稳定于概率的原理,我们可以认为本科以上学历熟悉AI的概率明显大于本科及以下学历熟悉AI的概率,即本科以上学历更容易熟悉AI.
(2)从样本里学历为本科以上的人群中,采用按比例分层随机抽样的方法抽取10个人,这10人中,分数在的人数为3,则可取0,1,2,3;
,
,
,
,
的分布列为
0
1
2
3
.
第 1 页 共 18 页
学科网(北京)股份有限公司
$
专题8.3 列联表与独立性检验
【知识梳理】 1
【考点1:完善列联表】 2
【考点2:列联表分析】 4
【考点3:等高条形图】 6
【考点4:独立性检验的基本思想】 7
【考点5:独立性检验解决实际问题】 11
【知识梳理】
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为
分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,
观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类
变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道
两个分类变量有关系的概率大小.
4.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
5.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【考点1:完善列联表】
1.(25-26高二·全国·课堂例题)一个列联表如下:
合计
35
45
7
合计
73
则表中,的值分别是 ( )
A.10,38 B.17,45 C.10,45 D.17,38
2.(25-26高三·全国·一轮复习)下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
3.(25-26高二下·全国·课后作业)博鳌亚洲论坛2024年年会于3月26日至29日在海南博鳌举行.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与是否会俄语”的列联表中,______.
性别
是否会俄语
合计
会
不会
男
20
女
6
合计
18
30
4.(24-25高二下·甘肃酒泉·期末)下面是一个2×2列联表:
项目
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则由上表可得________.
5.(24-25高二下·广西钦州·期末)如下是一个列联表,则________.
yx
总计
总计
【考点2:列联表分析】
1.(2026·云南昆明·一模)考查棉花种子经过处理跟生病之间的关系得到如表数据:
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
2.(24-25高二下·天津河北·期末)为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
3.(2025·广西玉林·一模)假设有两个分类变量和的列联表如下:
注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
A. B. C. D.
4.(25-26高二下·河南·月考)地铁的开通,在一定程度上缓解了市内交通的拥堵状况.某条地铁线路开通后,某调查机构抽取了部分乘坐该线路地铁的市民作为样本,分析其年龄和性别结构,得到如下信息:35岁及以下的市民中,男性约占;35岁以上的市民中,男性约占;男性市民中,35岁及以下的约占;女性市民中,35岁及以下的约占.根据以上信息,下列结论不一定正确的是( )
A.样本中男性比女性多
B.样本中多数女性是35岁以上
C.样本中35岁及以下的男性人数比35岁以上的女性人数多
D.样本中35岁以上的市民比35岁及以下的多
5.(25-26高二下·全国·课前预习)某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.根据这些数据能否断定:患呼吸道疾病与吸烟有关?
【考点3:等高条形图】
1.(24-25高三上·广西南宁·期末)为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
2.(24-25高二下·重庆·期末)如图是学校高二1、2班本期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么( )
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.“两班学生的数学成绩优秀率存在差异”判断一定正确
3.(24-25高三·北京·一轮复习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
4.(多选)(25-26高二下·福建泉州·期中)(多选)如图是调查某地区男、女中学生喜欢数学的等高堆积条形图,阴影部分表示喜欢数学的百分比,从图可以看出( )
A.性别与喜欢数学无关 B.女生中喜欢数学的百分比为
C.男生比女生喜欢数学的可能性大些 D.男生不喜欢数学的百分比为
5.(25-26高二下·广东深圳·期中)观察下面各等高堆积条形图,其中两个分类变量、相关关系最强的是___________.
【考点4:独立性检验的基本思想】
1.(2026·上海·二模)某工厂为判断两种不同的操作方法是否对生产某种零件的合格个数有影响,收集了相关数据,绘制了列联表,设原假设:两种不同的操作方法对生产该种零件的合格个数没有影响,计算出统计量,已知,则在显著性水平下,推断的结论为________.(用“拒绝”或“接受”填空)
2.(25-26高三·天津·二轮复习)下列说法正确的是( )
的部分临界值如表:
0.1
0.05
0.025
0.01
2.706
3.841
5.024
6.635
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.已知变量,由它们的样本数据计算得到的观测值,则在犯错误的概率不超过0.025的前提下认为变量没有关系
3.(25-26高二下·浙江温州·月考)随着人工智能技术的快速发展,AI图像识别在工业质检、安防监控等领域得到广泛应用.某科技公司为提升自主研发的AI图像识别模型的识别准确率,研发了一种基于国产算力优化的特征提取算法.为检验该算法的实际效果,研究人员随机选取了200个同批次的工业零件检测样本,随机分为两组,每组100个样本:第一组使用新优化算法进行识别,第二组使用传统算法进行识别,记录两组样本的识别成功与失败情况,得到如下列联表:
识别成功
识别失败
合计
新优化算法
85
15
100
传统算法
70
30
100
合计
155
45
200
附:统计量临界值表
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中,.
则下列说法正确的是( )
A.有99%的把握认为新优化算法对提升识别成功率有效
B.有95%的把握认为新优化算法对提升识别成功率有效
C.若将列联表中每个单元格的数据都扩大为原来的2倍,统计量的值保持不变
D.新优化算法的样本识别成功率比传统算法高15个百分点,因此新算法在所有工业检测场景中都优于传统算法
4.(多选)(2026·云南红河·模拟预测)(多选)某实验室为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,用以上两种检验方法对某种食品做了沙门氏菌检验,结果得到列联表如下:
阳性
阴性
合计
荧光抗体法
常规培养法
合计
参考公式:,其中.
附:下列表述正确的是( )
A.,
B.零假设:在沙门氏菌检验中荧光抗体法与常规培养法有差异
C.依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异
D.常规培养法检测沙门氏菌阳性的频率为
5.(2026·陕西宝鸡·三模)为考察某种国产芯片和进口芯片的质量,随机抽取了500颗同规格芯片,对两种芯片的良品、次品进行对比,得到如下不完整的列联表:
项目
良品
次品
合计
国产芯片
10
250
进口芯片
230
合计
470
30
500
(1)完成上面的表格中的空缺部分填空,以频率估计概率,估计国产芯片的次品率;
(2)根据小概率值的独立性检验,能否判断国产芯片与进口芯片质量有差异?
0.05
0.01
0.001
3.841
6.635
10.828
附:,其中为样本容量.
【考点5:独立性检验解决实际问题】
1.(25-26高二下·上海·期中)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
2.(2026·四川泸州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
3.(25-26高二下·安徽六安·期中)为了解高一(5)班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的列联表
性别
打篮球
合计
喜爱
不喜爱
男生
22
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
附,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
4.(2026·河北·二模)人工智能大模型已成为新一代数字技术核心,某企业自主研发了人工智能大模型,为了比较其与传统人工智能模型的文本生成效果,随机抽取两种模型各次文本生成效果,已知每次文本生成效果分为有效生成与无效生成两种情况,且部分统计数据如下表.
有效生成
无效生成
合计
模型
模型
合计
(1)完成列联表,并以样本估计总体,频率估计概率,若利用模型随机生成次文本,求该文本生成效果为有效生成的概率;
(2)根据小概率值的独立性检验,判断文本生成效果与模型类型是否有关.
附
5.(25-26高三下·江西景德镇·期中)某小区物业为提高服务质量,随机调查了100名男业主和100名女业主,每位业主对该物业的服务给出满意或不满意的评价,得到如下列联表:
是否满意性别
满意
不满意
合计
男业主
a
20
100
女业主
c
d
100
合计
m
60
200
(1)求a,c,d,m,并判断是否有95%把握认为该小区物业服务评价的差异与男女性别有关?
(2)从小区的业主中任选一人,表示事件“选到的人对该物业的服务不满意”,表示事件“选到的人为男业主”,利用该调查数据,给出,的估计值.
附:
α
0.05
0.01
0.005
3.841
6.635
7.879
6.(25-26高二下·上海·期中)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况及其对学生视力的影响,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下表格:
每周活动总时长(单位:小时)
频数
15
25
35
15
10
同时,对这100名学生的视力进行了检查,将视力达到5.0及以上定为“视力良好”,低于5.0定为“视力一般”,得到如下2×2列联表:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
活动时间未达标(低于14小时)
30
合计
100
(1)求正整数、的值;
(2)从活动时长在和的学生中共抽取2名学生,求这两名学生每周活动总时长的差的绝对值超过7小时的概率;
(3)依据的独立性检验,判断是否有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
参考公式及数据:,其中.
,,,.
7.(2026·河南·模拟预测)新能源汽车越来越受到年轻人的青睐.某品牌新能源汽车有限公司为了了解新能源汽车爱好者对本公司生产的新能源汽车款和款的满意度进行了市场调研,在社会上随机调查了200名新能源爱好者,得到如下列联表:
满意
不满意
合计
新能源汽车A款
80
新能源汽车B款
30
合计
150
200
(1)请完善上述列联表,并判断能否有90%的把握认为新能源汽车的款型对满意度有影响;
(2)从这200位新能源爱好者中任选两人,在被调查的两人选择新能源汽车款型一致的条件下,试求他们对该新能源汽车款型均满意的概率.
附:,其中.
0.15
0.10
0.05
0.025
2.07
2.71
3.84
5.024
8.(2026·重庆北碚·模拟预测) 某高校为调查人们对 AI 知识掌握的熟悉程度与学历是否有关,组织了相关的答题活动, 满分 100 分. 答题完成后, 工作人员从中随机抽取 200 人作为样本,得到如下数据.
人数分数 学历
本科及以下
37
33
12
10
5
3
本科以上
20
20
10
10
30
10
(1)若得分不小于 60 分,则认为对 AI 知识掌握的程度为熟悉,否则为不熟悉;
熟悉程度
学历
合计
本科及以下
本科以上
熟悉
不熟悉
合计
根据样本数据补全上面的 列联表,并依据小概率值 的独立性检验,能否认为熟悉AI程度与参与人员学历有关系.
(2)从样本里学历为本科以上的人群中,采用按比例分层随机抽样的方法抽取 10 个人,再从这 10 人中随机抽出 3 人进行访谈,记这 3 人中分数在 的人数为 ,求 的分布列及数学期望.
附:, .
0.05
0.01
0.001
3.841
6.635
10.828
第 1 页 共 18 页
学科网(北京)股份有限公司
$