内容正文:
12列联表与独立性检验(人教2019A版专用)
目录
【自学概念】 2
【自学考点】 3
考点一:分类变量与列联表 3
考点二:独立性检验 12
【自学检测】 23
自学概念
1. 分类变量与列联表
(1)经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
(2)按研究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的数据统计表称为2×2列联表,关于分类变量X和Y的抽样数据的2×2列联表如下:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
事件{X=1,Y=0}发生的概率可估计为;
事件{X=1|Y=0}发生的概率可估计为;
事件{X=1,Y=1}发生的概率可估计为;
事件{X=1|Y=1}发生的概率可估计为.
2. 独立性检验
(1)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(2)χ2=,其中n=a+b+c+d.
(3)对于零假设H0:分类变量X和Y独立,基于小概率值α的检验规则是:
①当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
②当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
(4)χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
自学考点
考点一:分类变量与列联表
一、单选题
1.(22-23高二下·宁夏固原·期中)下面是一个列联表,则表中处的值分别为( )
总计
25
73
21
总计
49
A.98,28 B.28,98 C.48,45 D.45,48
2.(23-24高二下·天津河北·期末)为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
3.(22-23高二下·陕西宝鸡·阶段练习)不可以判断两个变量是否有关系的是( )
A.散点图 B.列联表
C.等高条形图 D.频率分布直方图
二、多选题
4.(23-24高二下·福建龙岩·期末)为预防近视,某校对“学生性别和喜欢躺着看书”是否有关做了一次调查,其中被调查的男女生人数相同,男生喜欢躺着看书的人数占男生人数的,女生喜欢躺着看书的人数占女生人数的,若有的把握认为是否喜欢躺着看书和性别有关,则调查人数中男生人数可能是( )
参考公式及数据:,其中.
附:
A.8 B.10 C.12 D.14
5.(2022·河北张家口·一模)某市为了研究该市空气中的PM2.5浓度和浓度之间的关系,环境监测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和浓度(单位:),得到如下所示的列联表:
PM2.5
64
16
10
10
经计算,则可以推断出( )
附:
0.050
0.010
0.001
3.841
6.635
10.828
A.该市一天空气中PM2.5浓度不超过75,且浓度不超过150的概率估计值是0.64
B.若列联表中的天数都扩大到原来的10倍,的观测值不会发生变化
C.有超过99%的把握认为该市一天空气中PM2.5浓度与浓度有关
D.在犯错的概率不超过1%的条件下,认为该市一天空气中PM2.5浓度与浓度无关
三、填空题
6.(23-24高二下·广东深圳·期中)下面是一个2×2列联表:
合计
合计
则表中a,b处的值分别为 ; .
7.(21-22高二下·黑龙江牡丹江·期中)有如下四个命题:
①甲乙两组数据分别为甲:28,31,39,42,45,55,57,58,66;乙:29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44.
②相关系数,表明两个变量的相关性较弱.
③若由一个列联表中的数据计算得的观测值,那么有95%的把握认为两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
以上命题“错误”的序号是
()
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
8.(23-24高二·全国·课后作业)根据如图所示的等高条形图可知吸烟与患肺病 关系(填“有”或“没有”).
四、解答题
9.(2024·全国·模拟预测)某卫视2024年春节联欢晚会为广大观众献上了一场精彩纷呈的文化盛宴.某中学寒假社会劳动与实践活动小组对该市居民发放3000份问卷,调查居民对该卫视春节联欢晚会的满意度情况,从收回的问卷中随机抽取300份进行分析,其中女性与男性的人数之比为,统计结果如下表所示:
女性
男性
合计
满意
120
不满意
60
合计
用样本估计总体,以频率估计概率.
(1)完成列联表,并判断是否有的把握认为该市居民对该卫视春节联欢晚会的满意度情况与性别有关系;
(2)分别估计该市女性居民与男性居民对该卫视春节联欢晚会满意的概率;
(3)在该市满意的居民中按性别以分层抽样的方式随机抽取7人,再从这7人中随机抽取2人进行电话采访,求这2人性别不同的概率.
附:,其中.
0.100
0.050
0.010
2.706
3.841
6.635
10.(23-24高二下·山东潍坊·阶段练习)新冠肺炎疫情期间,各地均响应“停课不停学,停课不停教”的号召开展网课学习.为检验网课学习效果,某机构对名学生进行了网上调查,发现有些学生上网课时有家长在旁督促,而有些没有,网课结束后进行考试,根据考试结果将这名学生分成“成绩上升”和“成绩没有上升”两类,对应的人数如下表所示:
成绩上升
成绩没有上升
合计
有家长督促的学生
50
80
没有家长督促的学生
60
没有家长督促的学生
200
(1)完成以上列联表,并通过计算(结果精确到)说明,是否有的把握认为家长督促学生上网课与学生的成绩上升有关联
(2)从有家长督促的名学生中按成绩是否上升,采用分层抽样的方法抽出人,再从人中随机抽取3人做进一步调查,记抽到名成绩上升的学生得分,抽到名成绩没有上升的学生得分,抽到名生的总得分用表示,求的分布列和数学期望.
附:
参考答案:
题号
1
2
3
4
5
答案
C
C
D
CD
AC
1.C
【分析】根据列联表求解.
【详解】解:由个列联表知:
,
解得,
故选:C
2.C
【分析】根据列联表中的数据分析即可得答案.
【详解】解:由列联表中的数据可知,乙校共抽的样本人,其中优秀的有人.
故选:C
3.D
【分析】根据题意,依次分析选项的图、表,结合其统计意义,即可得答案.
【详解】解:对于,根据散点图可以判断两个变量间相关性的强弱,故A正确;
对于,对于列联表,计算的值,可以判断两个变量是否有关系,故B正确;
对于,用等高条形图可以粗略地判断两个变量是否有关,故C正确;
对于,频率分布直方图是反映样本的频率分布规律,不能反映是否相关,故D错误.
故选:.
4.CD
【分析】先设男生人数为,,列出列联表,利用独立性检验计算观测值,再结合观测值列关系式可得答案.
【详解】解:由题意被调查的男女生人数相同,设男生的人数为:,,由题意可列出
列联表:
男生
女生
合计
喜欢躺着看书
2m
不喜欢躺着看书
合计
.
由于有的把握认为是否喜欢躺着看书和性别有关,
所以;
解得:,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即男生的人数可以是:12,13,14,15,16,17,18,19,
所以选项AB错误,选项CD正确
故选:CD.
5.AC
【分析】对于A选项,根据表格,进行数据分析,直接求概率;
对于B,C,D选项,进行独立性检验,计算后对照参数下结论.
【详解】解:补充完整列联表如下:
PM2.5
合计
64
16
80
10
10
20
合计
74
26
100
对于A选项,该市一天中,空气中PM2.5浓度不超过,且浓度不超过的概率估计值为,故A正确;
对于B选项,,故B不正确;
因为,根据临界值表可知,在犯错的概率不超过的条件下,
即有超过的把握认为该市一天空气中PM2.5浓度与浓度有关,故C正确,D错误.
故选:AC.
6. 52 60
【分析】第一空利用直接求出即可;第二空利用,结合的值求得即可.
【详解】根据已知条件,结合列联表之间的数据关系,由表中数据可知,
,所以;
.
故答案为:
7.①②
【分析】依次判断各项正误,进行求解.
【详解】①由甲的数据可知它的中位数为45,乙的中位数为,故①错误;
②相关系数时,两个变量有较强的相关性,故②错误;
③由于的观测值,满足,故有95%的把握认为两个变量有关,故③正确;
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指,故④正确.
故答案为:①②.
8.有
【分析】由等高条形图的定义和性质分析,即得解
【详解】从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率.
故答案为:有
9.(1)列联表见解析,有
(2),
(3)
【分析】(1)根据表中数据补全表格,再由公式计算的值,与临界值比较即可得出结果.
(2)根据频率估计概率即可.
(3)列出基本事件,再求出符合题意的基本事件,按照古典概型公式求解即可.
【详解】(1)依题意补充完整的列联表如下:
女性
男性
合计
满意
120
90
210
不满意
30
60
90
合计
150
150
300
所以,
故有的把握认为该市居民对该卫视春节联欢晚会的满意度情况与性别有关系.
(2)该市女性居民对该卫视春节联欢晚会满意的概率,
男性居民对该卫视春节联欢晚会满意的概率.
(3)根据列联表可得,抽取的7人中男性居民有3人,记为,女性居民有4人,记为1,2,3,4,
从这7人中随机抽取2人,基本事件为:
,
,共21种.
设事件为“这2人性别不同”,则事件包含的基本事件为:
,共12种.
故所求概率.
10.(1)列联表见解析,有的把握认为家长督促学生上网课与学生的成绩上升有关联,理由见解析;
(2)的分布列见解析,.
【分析】(1)由题意完成列联表,根据题中所给的公式,结合表中数据进行运算判断即可;
(2)根据分层抽样的性质,结合古典概型运算公式、数学期望公式进行求解即可.
【详解】(1)由已知完成列联表如下:
成绩上升
成绩没有上升
合计
有家长督促的学生
50
30
80
没有家长督促的学生
60
60
120
没有家长督促的学生
110
90
200
,有的把握认为家长督促学生上网课与学生的成绩上升有关联;
(2)有家长督促的学生成绩上升的人数为,有家长督促的学生成绩没有上升的人数为,
由题意可知:,
,,,,
所以的分布列:
.
考点二:独立性检验
一、单选题
1.(24-25高三上·四川遂宁·阶段练习)下列说法错误的是( )
A.线性相关系数越接近1,两个变量的线性相关程度越强;
B.独立性检验可以100%确定两个变量之间是否具有某种关系;
C.在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
D.甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
2.(2023·甘肃兰州·模拟预测)为了检测某种新药的效果,现随机抽取100只小白鼠进行试验,得到如下列联表:
未治愈
治愈
合计
服用药物
10
40
50
未服用药物
20
30
50
合计
30
70
100
则下列说法一定正确的是( )
附:(其中).
临界值表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药有关”
B.在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药无关”
C.在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药有关”
D.在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药无关”
3.(23-24高二下·广西南宁·期末)近年来,为了提升青少年的体质,教育部出台了各类相关文件,各地区学校也采取了相应的措施,适当增加在校学生的体育运动时间;现调查某地区中学生(包含初中生与高中生)对增加体育运动时间的态度,所得数据统计如下表所示:
喜欢增加体育运动时间
不喜欢增加体育运动时间
初中生
160
40
高中生
140
60
附:,
0.10
0.05
0.01
2.706
3.841
6.635
以下结论中错误的是( )
A.有的把握认为学段与对增加体育运动时间的态度有关
B.没有的把握认为学段与对增加体育运动时间的态度有关
C.在犯错误的概率不超过0.05的前提下,可以认为学段与对增加体育运动时间的态度有关
D.在犯错误的概率不超过0.05的前提下,可以认为学段与对增加体育运动时间的态度无关
二、多选题
4.(24-25高三上·浙江·期中)下列说法中正确的是( )
A.数据1,2,2,3,4,5的极差与众数之和为7
B.若随机变量X服从二项分布,且,则
C.X和Y是分类变量,若值越大,则判断“X与Y独立”的把握性越大
D.若随机变量X服从正态分布,且,则
5.(24-25高三上·广东深圳·阶段练习)某中学为更好地开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.如果依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,则调查人数中男生可能有( )
附:
,其中.
A.150人 B.225人
C.300人 D.375人
6.(22-23高三上·河北唐山·开学考试)某县教育部门在辖区三所高中用简单随机抽样的方法调查了100名教师,征求其对延迟退休的态度(支持,不支持),就分类变量“教师对延迟退休的态度”与“性别”的成对样本数据计算得,依据的独立性检验,结论为( )
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.教师对延迟退休的态度与性别独立
B.教师对延迟退休的态度与性别独立,这个结论犯错误的概率不超过
C.教师对延迟退休的态度与性别不独立,这个结论犯错误的概率不超过
D.调查时按性别分层,采用分层随机抽样方法比简单随机抽样方法更好
三、填空题
7.(23-24高三·天津滨海新·期末)下列说法中正确的有 (填正确说法的序号).
①回归直线恒过点,且至少过一个样本点;
②若样本数据的方差为4,则数据的标准差为4;
③已知随机变量,且,则;
④若线性相关系数越接近1,则两个变量的线性相关性越弱;
⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.
8.(23-24高二下·河北·阶段练习)有甲、乙两个班级共计100人进行物理考试,按照大于等于80分为优秀,80分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
乙班
30
已知在全部100人中随机抽取1人,成绩非优秀的概率为,则下列说法正确的是 .
①列联表中的值为的值为40;
②列联表中的值为的值为50;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
附:,其中.
0.15
0.1
0.05
0.025
0.01
0.001
2.072
2.706
3.841
5.024
6.635
10.828
四、解答题
9.(2025高三·全国·专题练习) 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
10.(23-24高二下·河北邢台·阶段练习)为了研究学生的性别与是否喜欢运动的关联性,随机调查了某中学的100名学生,整理得到如下表格:
男学生
女学生
合计
喜欢运动
40
20
60
不喜欢运动
20
20
40
合计
60
40
100
(1)依据的独立性检验,能否认为学生的性别与是否喜欢运动有关联?
(2)按学生的性别以及是否喜欢运动用分层随机抽样的方法从这100名学生中选取10人,再从这10人中任选2人,喜欢运动的男学生被选中的人数为,求的分布列与期望.
附:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
11.(24-25高三上·上海·期中)学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
参考答案:
题号
1
2
3
4
5
6
答案
B
A
D
BD
BC
CD
1.B
【分析】利用线性相关系数、独立性检验、残差图、决定系数等相关概念,逐一判断选项即可得出结论.
【详解】对于A,根据线性相关系数的定义可判断A正确;
对于B,独立性检验是存在某种程度的错误概率的,因此可得B错误;
对于C,利用回归分析残差概念以及残差图可判断C正确;
对于D,决定系数的值越大,说明拟合效果越好,显然,即模型甲的拟合效果更好,可得D正确.
故选:B
2.A
【分析】根据表中数据求出的值,即可得答案.
【详解】解:由列联表中数据,计算,
且,
所以有的把握认为“小白鼠是否被治愈与是否服用新药有关”
所以在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药有关”.
故选:A.
3.D
【分析】首先完善列联表,并计算,并根据选项和和比较大小,判断选项.
【详解】完善列联表如下:
喜欢增加体育运动时间
不喜欢增加体育运动时间
总计
初中生
160
40
200
高中生
140
60
200
总计
300
100
400
零假设:不能认为学段与对增加体育运动时间的态度有关联,则
,
没有的把握认为学段与对增加体育运动时间的态度有关.
因为,,所以有的把握认为学段与对增加体育运动时间的态度有关.
在犯错误的概率不超过0.05的前提下,可以认为学段与对增加体育运动时间的态度有关.
故选:D
4.BD
【分析】根据极差和众数的概念即可判断A;根据二项分布的性质即可判断B;根据独立性检验的思想即可判断C;根据正态曲线的性质即可判断D.
【详解】A:该组数据的极差为4,众数为2,所以该组数据的极差与众数之和为6,故A错误;
B:由,得,解得,
所以,故B正确;
C:值越大,X和Y有关系的可能性就越大,则“X与Y独立”的把握越小,故C错误;
D:由,得,
所以,故D正确.
故选:BD
5.BC
【分析】设男生人数为,根据题意用表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出,由得到的范围,进而得到男生人数的范围,选出符合题意的选项.
【详解】设男生人数为,根据题意可得列联表如下:
男生
女生
合计
选修外出研学课程
不选修外出研学课程
合计
则,
依据依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,
则,
解得,则.
故选:BC.
6.CD
【分析】根据独立性检验的基本思想可判断.
【详解】因为时,,所以,
所以教师对延迟退休的态度与性别不独立,而且这个结论犯错误的概率不超过0.05,
故C,D正确;A,B错误.
故选:CD.
7.②③
【分析】根据线性回归方程的概念可以判断①,根据方差的性质可以判断②,根据正态分布的性质可以判断③,根据相关系数的概念可以判断④,根据独立性检验的基本概念可以判断⑤.
【详解】因为回归直线可以不过样本点,所以①错误;
由于,所以数据的方差为16,故标准差为4,因此②正确;
根据正态分布的概念,,故,即,故,因此③正确;
根据相关系数的概念,若线性相关系数越接近1,则两个变量的线性相关性越强,故④错误;
的值很小时只能说明两个变量的相关性不强,故⑤错误.
故答案为:②③
8.①④
【分析】根据题中条件计算可判断选项①、②;根据列联表计算出的值,即可判断选项③④.
【详解】由题意知,成绩非优秀的学生数是,
成绩非优秀的学生数是70,所以,
选项①正确、②错误;
根据列联表中的数据,
得到
因此没按的可靠性要求,不能认为“成绩与班级有关系”.
故③错误,④正确,
故答案为:①④.
9.列联表见解析,有关
【分析】由题意确定列联表,求得,对比数据即可求解.
【详解】由题意分析可得,签约企业共45家,线上销售时间不少于8小时的企业有20家,
那么线上销售时间少于8小时的企业有25家,每天的销售额不足30万元的企业占,
共有.
完成列联表如下:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
3
20
线上销售时间不足8小时
10
15
25
合计
27
18
45
所以.
对应的参数为6.635.而,
所以可判断赞助企业每天的销售额与每天线上销售时间有关.
10.(1)认为学生的性别与是否喜欢运动有关联
(2)分布列见解析;期望为
【分析】(1)首先假设,再计算,并和参考数据比较,即可作出判断;
(2)利用超几何分布求解分布列,再计算期望.
【详解】(1)假设零事件认为学生的性别与是否喜欢运动无关联,
,
所以根据的独立性检验,认为不成立,即认为学生的性别与是否喜欢运动有关联;
(2)喜欢运动的男生有人,其他有6人,
由题意可知,,
,,,
所以的分布列为:
0
1
2
.
11.(1)列联表见解析,有关;
(2)分布列见解析,.
【分析】(1)根据题意,补全列联表,求得,结合附表,即可得到结论;
(2)根据题意,得到随机变量的可能有0,1,2,3,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)这100位学生中,“公序良俗”达人有20人,由此补全列联表如下:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
13
30
43
女性
7
50
57
总计
20
80
100
零假设:“公序良俗”达人与性别无关,
可得,
所以根据小概率值的独立性检验,我们可推断不成立,即认为“公序良俗”达人与性别有关.
(2)由题意,随机变量的可能有,,,,
可得,
,
,
,
所以的分布列如下:
0
1
2
3
所以数学期望.
自学检测
一、单选题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.(23-24高二下·河北石家庄·阶段练习)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下列联表:
男
女
总计
爱好
a
b
73
不爱好
c
25
总计
74
则等于( )
A.7 B.8 C.9 D.10
2.(23-24高二下·山东烟台·期中)有关独立性检验的四个命题,其中不正确的是( )
A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成的可能性就越大
B.对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的可信程度越小
C.从独立性检验可知:有95%把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%可能患有心脏病
D.从独立性检验可知:有99%把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%前提下认为吸烟与患肺癌有关
3.(2024·吉林长春·三模)观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
4.(24-25高三上·天津蓟州·开学考试)下列结论错误的是( )
A.若随机变量满足,则
B.数据的第60百分位数为9
C.用简单随机抽样的方法从51个个体中抽取2个个体,则每个个体被抽到的概率都是
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断与有关
5.(23-24高三下·陕西西安·阶段练习)下列说法正确的是( )
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.已知变量,由它们的样本数据计算得到的观测值,
的部分临界值如下表:
0.1
0.05
0.025
0.01
2.706
3.841
5.024
6.635
则在犯错误的概率不超过0.025的前提下认为变量没有关系
6.(23-24高二下·山西长治·期中)某课外兴趣小组为研究数学成绩优秀是否与性别有关,通过随机抽样调查,得到成对样本观测数据的分类统计结果,并计算得出,经查阅独立性检验的小概率值和相应的临界值,知,则下列判断正确的是( )
A.若某人数学成绩优秀,那么他为男生的概率是
B.每100个数学成绩优秀的人中就会有1名是女生
C.数学成绩优秀与性别有关,此推断犯错误的概率不大于
D.在犯错误的概率不超过的前提下认为数学成绩优秀与性别无关
7.(24-25高二下·全国·课后作业)为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
8.(23-24高二下·黑龙江哈尔滨·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
二、多选题(本大题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求,全部选对的得6分,部分选对的得部分分,有选错的得0分)
9.(23-24高二下·黑龙江哈尔滨·期末)下列说法正确的是( )
A.回归分析中,线性相关系数的取值范围为
B.回归分析中,残差图中残差比较均匀分布在以取值为0的横轴为对称轴的水平带状区域内,且宽度越窄表示拟合效果越好
C.回归分析中,决定系数越大,说明残差平方和越小,拟合效果越好
D.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
10.(24-25高三上·重庆·期中)下列说法中,正确的是( )
A.对于独立性检验,随机变量的值越大,则推断“两变量有关系”犯错误的概率越小
B.若,则
C.随机变量服从正态分布 ,若,则
D.数据4,3,2,5,6,7的分位数为 4
11.(24-25高三上·吉林长春·开学考试)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图. 已知 ,其中 ,附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率小于不经常锻炼者中男生的频率的2倍
D.根据小概率值 的独立性检验,可以认为假期是否经常锻炼与性别有关
三、填空题(本大题共3小题,每小题5分,共15分,把答案填在题中的横线上)
12.(23-24高二下·辽宁葫芦岛·期末)一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
13.(24-25高二下·全国·随堂练习)下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否了解所学专业的调查表:
了解所学专业
不了解所学专业
合计
男生
63
117
180
女生
42
82
124
合计
105
199
304
根据表中数据,下列说法正确的是 .(填序号)
①性别与了解所学专业有关;
②性别与了解所学专业无关;
③女生比男生更了解所学专业.
14.(23-24高二下·河南驻马店·阶段练习)①线性回归方程必过;②独立性检验的统计假设是各事件之间相互独立③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是 .(把你认为正确的结论都写在横线上)
四、解答题(本大题共5小题,共77分,解答应写出文字说明,证明过程或演算步骤)
15. (13分) (24-25高三上·重庆·阶段练习)手机用户可通过某软件查看自己每天行走的步数,同时也可以和好友进行运动量的比较和点赞.若某人一天的行走步数超过8000,则评定为“积极型”,否则评定为“懈怠型”.从小王的男性和女性好友中各随机抽取了50名,统计其一天的步数并给出评定,得到如下数据:
积极型
懈怠型
男
20
30
女
10
40
(1)能否有95%的把握认为“评定类型”与“性别”有关?
(2)以样本数据估计总体数据,且以频率估计概率.若从小王的所有男性好友中抽取3人,记其中评定为“积极型”的人数为,求随机变量的数学期望.
附:,其中.
0.050
0.025
0.010
3.841
5.024
6.635
16. (15分) (24-25高三上·四川绵阳·阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
总计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
总计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层抽样方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
附:
参考公式:,其中.
17. (15分) (24-25高三上·四川成都·阶段练习)为了调查学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:
喜欢跑步
不喜欢跑步
合计
男生
80
女生
20
合计
已知在这200名学生中随机抽取1人抽到喜欢跑步的概率为0.6.
(1)判断:是否有90%的把握认为喜欢跑步与性别有关?
(2)从上述不喜欢跑步的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布及数学期望.
附:,其中.
18. (17分) (23-24高三上·四川内江·阶段练习)据国家权威机构统计,中国有3000万青少年具有不同程度的心理障碍,中小学生心理障碍患病率高达21.6%-42%,心理治疗专家表示,现在很多家庭只关注孩子的文化课学习,却往往忽略了青少年时期最重要的人格形成因子-------心理健康的培养和矫正.现随机调查了200名青少年是否参加过心理健康培训及其心理健康问题得到如下结果
参加过培训
未参过培训
合计
心理健康
64
36
100
有心理障碍
46
54
100
合计
110
90
200
(1)从未参加过培训的90人中按心理是否健康分层抽样抽取5人,再从这5人中任选3人做一次心理疏导,求3人中心理健康人数X的分布列和期望.
(2)判断是否有95%的把握认为心理健康与参与培训有关.
附
0.150
0.100
0.050
0.010
2.072
2.706
3.841
6.635
19. (17分) (24-25高三上·广东东莞·阶段练习)长跑可提高呼吸系统和心血管系统机能,较长时间有节奏的深长呼吸,能使人体呼吸大量的氧气,吸收氧气量若超过平时的倍,就可以抑制人体癌细胞的生长和繁殖.其次长跑锻炼还改善了心肌供氧状态,加快了心肌代谢,同时还使心肌纤维变粗,心收缩力增强,从而提高了心脏工作能力.为了调查学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:已知在这200名学生中随机抽取1人抽到喜欢跑步的概率为0.6.
喜欢跑步
不喜欢跑步
合计
男生
80
女生
20
合计
(1)判断:是否有90%的把握认为喜欢跑步与性别有关?
(2)从上述不喜欢跑步的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布及数学期望.
附:,其中.
参考答案:
题号
1
2
3
4
5
6
7
8
9
10
答案
C
C
D
C
A
C
C
B
BCD
ABC
题号
11
答案
BD
1.C
【分析】根据列联表,先求出、和的值,再计算的值.
【详解】解:根据题意,可得;
,
,
,
即列联表为:
男
女
总计
爱好
52
21
73
不爱好
22
25
47
总计
74
46
120
.
故选:.
2.C
【分析】根据独立性检验的原理与知识,对选项中的命题判断正误即可.
【详解】对于A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大,所以A正确;
对于B,对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的可信程度越小,所以B正确;
对于C,从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,不是说某人秃顶,那么他有95%的可能患有心脏病,C错误;
对于D,从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,所以D正确.
故选:C.
【点睛】本题考查独立性检验相关知识,考查基本分析判断能力,属基础题.
3.D
【分析】由等高条形图的定义和性质依次分析,即得解
【详解】观察等高条形图发现与相差很大,就判断两个分类变量之量关系最强.
故选:D
4.C
【分析】A选项由方差性质判断;B选项应用百分位数求法判断;C选项根据随机抽样的性质分析判断; D选项由独立检验的基本思想判断.
【详解】若随机变量满足,由方差的性质可知,A选项正确;
,数据的第60百分位数为第5个数据9,B选项正确;
用简单随机抽样的方法从51个个体中抽取2个个体,则每个个体被抽到的概率都是,C选项错误;
由,结合独立检验的基本思想,在小概率情况下可判断与有关,D选项正确.
故选:C.
5.A
【分析】根据标准差定义可判断A项;通过取反例可排除B项;利用相关系数的概念易排除C项;利用独立性检验的规定,可判断结论不成立.
【详解】对于A,根据标准差定义,一组数据的标准差时,
显然有故A正确;
对于B,两组数据的标准差相等,这两组数据的平均数未必相等,如都为1和都为2的两组数据,
它们的标准差均为0,但它们的平均数分别为1和,故B错误;
对于C,两个变量的相关系数越接近于0,两个变量的相关性越弱,故C错误;
对于D,,根据独立性检验原理,
在犯错误的概率不超过0.025的前提下认为变量有关系,故D错误.
故选:A
6.C
【分析】根据独立性检验的定义判断即可.
【详解】因为,
所以数学成绩优秀与性别有关,此推断犯错误的概率不大于,
即在犯错误率不超过的前提下认为“数学成绩优秀与性别有关”,故C正确,D错误;
若某人数学成绩优秀,由已知数据不能判断他为男生的概率,故A错误;
每个数学成绩优秀的人中可能没有女生,也有可能有多名女生,由已知数据不能确定结论,故B错误;
故选:C.
7.C
【分析】利用独立性检验列联表及观测值可解得答案.
【详解】由题意被调查的文理科教师人数相同,设理科教师的人数为,由题意可列出列联表:
理科教师
文科教师
合计
喜欢用平板教学
不喜欢用平板教学
合计
.
由于有的把握认为是否喜欢用平板教学和文理学科有关,
所以,
解得,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即理科教师的人数可以是:12,13,14,15,16,17,18,19,且考虑到喜欢用平板的人数占理科教师总人数的,故人数为15人时,有实际意义.
故选:C
8.B
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
30
15
45
非篮球迷
45
10
55
合计
75
25
100
所以,
所以在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关,
即有的把握认为是否是篮球迷与性别有关,
又,所以没有的把握认为是否是篮球迷与性别有关.
故选:B.
9.BCD
【分析】利用回归分析的相关定义和独立性检验公式对各个选项逐一分析判断即可得到结果.
【详解】选项A,回归分析中,线性相关系数的取值范围为,故选项A错误;
选项B,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,
模型的拟合效果越好,故选项B正确;
选项C,因为决定系数越大,表示残差平方和越小,数据就越集中,
即模型的拟合效果越好,故选项C正确;
选项D,在列联表中,若每个数据均变成原来的2倍,则
,因此也变成原来的2倍,故选项D正确;
故选:BCD.
10.ABC
【分析】由独立性检验的性质可以判断A;结合条件概率公式可判断B;由正态分布的性质可判断C;将数据从小到大排列,找到分位数即可判断D.
【详解】对于选项A:对于独立性检验,随机变量的值越大,
则两变量有关系的程度的错误率更低,故越大,判定“两变量有关系”的错误率更低,故选项A正确;
对于选项B:结合条件概率公式可知,
所以,所以,故选项B正确;
对于选项C:因为随机变量服从正态分布所以正态曲线关于对称,
又,所以,
因为,所以,故选项C正确;
对于选项D:将数据从小到大排列为2,3,4,5,6,7,
因为,所以这组数据的分位数为,故选项D错误;
故选:ABC.
11.BD
【分析】根据男生比女生少20人,建立等式求出男生、女生的人数,建立列联表,利用列联表中的信息解决ABC,利用独立性检验来解决D选项.
【详解】设男生人数为,则女生人数为,
由题得,
解得,即在被调查者中,男、女生人数为80,100,可得到如下列联表,
性别
锻炼情况
合计
经常锻炼
不经常锻炼
男
48
32
80
女
40
60
100
合计
88
92
180
对于A:由表可知,A显然错误,
对于B:男生中经常锻炼的人数比女生中经常锻炼的人数多B正确;
对于C:在经常锻炼者中是男生的频率为,在不经常锻炼者中是男生的频率为C错误;
对于D:零假设:假设假设是否经常锻炼与性别无关,
则,根据小概率值的独立性检验,我们推断不成立,
即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确.
故选:BD.
12. 满意度与性别有关联,推断犯错误的概率不大于0.05(或:有的把握认为满意度与性别有关).
【分析】代入的计算公式,再和临界值比较,得到结论.
【详解】,
所以满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
故答案为:;满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
13.②
【分析】计算出的值与临界值比较,即可判断性别是否与了解所学专业有关.
【详解】,所以性别是否与了解所学专业无关.
故答案为:②
14.①②④
【分析】根据相关的概念逐一判断即可.
【详解】①线性回归方程过样本点中心,正确;
②独立性检验的统计假设是各事件之间相互独立,正确;
③相关系数的绝对值越小,表明两个变量相关性越弱,错误;
④④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系,正确.
故答案为:①②④
15.(1)有;
(2).
【分析】(1)求出的观测值,与临界值比对即可得解.
(2)求出从小王的男性好友中任选一人,评定为“积极型”的概率,再求出的可能值,利用二项分布的期望公式计算得解.
【详解】(1)列联表如下:
积极型
懈怠型
合计
男
20
30
50
女
10
40
50
合计
30
70
100
则的观测值为,
所以有95%的把握认为“评定类型”与“性别”有关.
(2)由表格中的数据知,从小王的男性好友中任选一人,评定为“积极型”的概率为,
随机变量的可能值为,,
所以随机变量的数学期望.
16.(1)应在A组抽取人,应在B组抽取人.
(2)能认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005
【分析】(1)根据分层抽样列式计算即可;
(2)根据表格数据求出的值,然后与临界值比较即可判断.
【详解】(1)应在A组抽取人,应在B组抽取人.
(2)零假设为:选报奥数延时课与喜欢奥数无关联,
根据列联表中的数据,经计算可得,
根据小概率值的独立性检验,我们推断零假设不成立,
即认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005.
17.(1)没有
(2)分布列见解析,
【分析】(1)根据卡方计算公式求解卡方,即可与临界值比较求解,
(2)根据分层抽样比求解抽取人数,即可利用超几何分布的概率公式求解概率,进而得分布列求解.
【详解】(1)由题可知,从200名学生中随机抽取1人抽到喜欢跑步的概率为0.6,
故喜欢跑步的人有(人),不喜欢跑步的人有(人).
喜欢跑步
不喜欢跑步
合计
男生
80
60
140
女生
40
20
60
合计
120
80
200
∴,,,,
,
故无90%把握认为喜欢跑步与性别有关.
(2)按分层抽样,设女生名,男生名,,解得,,
∴从不喜欢跑步的学生中抽取女生2名,男生6名,故,1,2.
,,,
故X的分布为:
0
1
2
∴.
18.(1)分布列见解析,期望为
(2)有95%的把握认为心理健康与参与培训有关,理由见解析
【分析】(1)计算出心理健康和有心理障碍的人数,得到X的可能取值和对应的概率,得到分布列,计算出期望;
(2)计算出卡方,与3.841比较后得到结论.
【详解】(1)未参加过培训的90人中, 心理健康和有心理障碍的人数之比为,
故分层抽样抽取的5人中,心理健康和有心理障碍的人数分别为和,
X的可能取值为0,1,2,
,,,
故分布列为
0
1
2
数学期望为;
(2),
故有95%的把握认为心理健康与参与培训有关.
19.(1)无90%把握认为喜欢跑步与性别有关,理由见解析
(2)分布列见解析,
【分析】(1)计算出喜欢跑步和不喜欢跑步的人数,完善列联表,作出零假设,计算出卡方,与2.706比较后得到结论;
(2)由分层抽样得到抽取女生2名,男生6名,得到的分布列,计算出期望值.
【详解】(1)由题可知,从200名学生中随机抽取1人抽到喜欢跑步的概率为0.6,
故喜欢跑步的人有(人),不喜欢跑步的人有(人).
喜欢跑步
不喜欢跑步
合计
男生
80
60
140
女生
40
20
60
合计
120
80
200
∴,,,,
零假设学生对长跑的喜欢情况与性别无关联,
根据题意,由列联表中的数据,
可得,
所以在的独立性检验中,不能推翻,故无90%把握认为喜欢跑步与性别有关.
(2)按分层抽样,设女生名,男生名,,解得,,
∴从不喜欢跑步的学生中抽取女生2名,男生6名,
故的可能取值为0,1,2.
,,,
故X的分布为:
0
1
2
∴.
学科网(北京)股份有限公司
$$
12列联表与独立性检验(人教2019A版专用)
目录
【自学概念】 2
【自学考点】 3
考点一:分类变量与列联表 3
考点二:独立性检验 7
【自学检测】 13
自学概念
1. 分类变量与列联表
(1)经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
(2)按研究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的数据统计表称为2×2列联表,关于分类变量X和Y的抽样数据的2×2列联表如下:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
事件{X=1,Y=0}发生的概率可估计为;
事件{X=1|Y=0}发生的概率可估计为;
事件{X=1,Y=1}发生的概率可估计为;
事件{X=1|Y=1}发生的概率可估计为.
2. 独立性检验
(1)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(2)χ2=,其中n=a+b+c+d.
(3)对于零假设H0:分类变量X和Y独立,基于小概率值α的检验规则是:
①当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
②当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
(4)χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
自学考点
考点一:分类变量与列联表
一、单选题
1.(22-23高二下·宁夏固原·期中)下面是一个列联表,则表中处的值分别为( )
总计
25
73
21
总计
49
A.98,28 B.28,98 C.48,45 D.45,48
2.(23-24高二下·天津河北·期末)为比较甲、乙两所学校学生的数学学习水平,经过抽样并测试得到如下关于和的列联表:
学校
数学成绩
合计
不优秀
优秀()
甲校()
乙校()
合计
根据上表得到乙校数学成绩优秀的频数和样本容量数分别是( )
A.和 B.和 C.和 D.和
3.(22-23高二下·陕西宝鸡·阶段练习)不可以判断两个变量是否有关系的是( )
A.散点图 B.列联表
C.等高条形图 D.频率分布直方图
二、多选题
4.(23-24高二下·福建龙岩·期末)为预防近视,某校对“学生性别和喜欢躺着看书”是否有关做了一次调查,其中被调查的男女生人数相同,男生喜欢躺着看书的人数占男生人数的,女生喜欢躺着看书的人数占女生人数的,若有的把握认为是否喜欢躺着看书和性别有关,则调查人数中男生人数可能是( )
参考公式及数据:,其中.
附:
A.8 B.10 C.12 D.14
5.(2022·河北张家口·一模)某市为了研究该市空气中的PM2.5浓度和浓度之间的关系,环境监测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和浓度(单位:),得到如下所示的列联表:
PM2.5
64
16
10
10
经计算,则可以推断出( )
附:
0.050
0.010
0.001
3.841
6.635
10.828
A.该市一天空气中PM2.5浓度不超过75,且浓度不超过150的概率估计值是0.64
B.若列联表中的天数都扩大到原来的10倍,的观测值不会发生变化
C.有超过99%的把握认为该市一天空气中PM2.5浓度与浓度有关
D.在犯错的概率不超过1%的条件下,认为该市一天空气中PM2.5浓度与浓度无关
三、填空题
6.(23-24高二下·广东深圳·期中)下面是一个2×2列联表:
合计
合计
则表中a,b处的值分别为 ; .
7.(21-22高二下·黑龙江牡丹江·期中)有如下四个命题:
①甲乙两组数据分别为甲:28,31,39,42,45,55,57,58,66;乙:29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44.
②相关系数,表明两个变量的相关性较弱.
③若由一个列联表中的数据计算得的观测值,那么有95%的把握认为两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
以上命题“错误”的序号是
()
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
8.(23-24高二·全国·课后作业)根据如图所示的等高条形图可知吸烟与患肺病 关系(填“有”或“没有”).
四、解答题
9.(2024·全国·模拟预测)某卫视2024年春节联欢晚会为广大观众献上了一场精彩纷呈的文化盛宴.某中学寒假社会劳动与实践活动小组对该市居民发放3000份问卷,调查居民对该卫视春节联欢晚会的满意度情况,从收回的问卷中随机抽取300份进行分析,其中女性与男性的人数之比为,统计结果如下表所示:
女性
男性
合计
满意
120
不满意
60
合计
用样本估计总体,以频率估计概率.
(1)完成列联表,并判断是否有的把握认为该市居民对该卫视春节联欢晚会的满意度情况与性别有关系;
(2)分别估计该市女性居民与男性居民对该卫视春节联欢晚会满意的概率;
(3)在该市满意的居民中按性别以分层抽样的方式随机抽取7人,再从这7人中随机抽取2人进行电话采访,求这2人性别不同的概率.
附:,其中.
0.100
0.050
0.010
2.706
3.841
6.635
10.(23-24高二下·山东潍坊·阶段练习)新冠肺炎疫情期间,各地均响应“停课不停学,停课不停教”的号召开展网课学习.为检验网课学习效果,某机构对名学生进行了网上调查,发现有些学生上网课时有家长在旁督促,而有些没有,网课结束后进行考试,根据考试结果将这名学生分成“成绩上升”和“成绩没有上升”两类,对应的人数如下表所示:
成绩上升
成绩没有上升
合计
有家长督促的学生
50
80
没有家长督促的学生
60
没有家长督促的学生
200
(1)完成以上列联表,并通过计算(结果精确到)说明,是否有的把握认为家长督促学生上网课与学生的成绩上升有关联
(2)从有家长督促的名学生中按成绩是否上升,采用分层抽样的方法抽出人,再从人中随机抽取3人做进一步调查,记抽到名成绩上升的学生得分,抽到名成绩没有上升的学生得分,抽到名生的总得分用表示,求的分布列和数学期望.
附:
考点二:独立性检验
一、单选题
1.(24-25高三上·四川遂宁·阶段练习)下列说法错误的是( )
A.线性相关系数越接近1,两个变量的线性相关程度越强;
B.独立性检验可以100%确定两个变量之间是否具有某种关系;
C.在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
D.甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
2.(2023·甘肃兰州·模拟预测)为了检测某种新药的效果,现随机抽取100只小白鼠进行试验,得到如下列联表:
未治愈
治愈
合计
服用药物
10
40
50
未服用药物
20
30
50
合计
30
70
100
则下列说法一定正确的是( )
附:(其中).
临界值表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药有关”
B.在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药无关”
C.在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药有关”
D.在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药无关”
3.(23-24高二下·广西南宁·期末)近年来,为了提升青少年的体质,教育部出台了各类相关文件,各地区学校也采取了相应的措施,适当增加在校学生的体育运动时间;现调查某地区中学生(包含初中生与高中生)对增加体育运动时间的态度,所得数据统计如下表所示:
喜欢增加体育运动时间
不喜欢增加体育运动时间
初中生
160
40
高中生
140
60
附:,
0.10
0.05
0.01
2.706
3.841
6.635
以下结论中错误的是( )
A.有的把握认为学段与对增加体育运动时间的态度有关
B.没有的把握认为学段与对增加体育运动时间的态度有关
C.在犯错误的概率不超过0.05的前提下,可以认为学段与对增加体育运动时间的态度有关
D.在犯错误的概率不超过0.05的前提下,可以认为学段与对增加体育运动时间的态度无关
二、多选题
4.(24-25高三上·浙江·期中)下列说法中正确的是( )
A.数据1,2,2,3,4,5的极差与众数之和为7
B.若随机变量X服从二项分布,且,则
C.X和Y是分类变量,若值越大,则判断“X与Y独立”的把握性越大
D.若随机变量X服从正态分布,且,则
5.(24-25高三上·广东深圳·阶段练习)某中学为更好地开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.如果依据的独立性检验认为选修外出研学课程与性别有关,但依据的独立性检验认为选修外出研学课程与性别无关,则调查人数中男生可能有( )
附:
,其中.
A.150人 B.225人
C.300人 D.375人
6.(22-23高三上·河北唐山·开学考试)某县教育部门在辖区三所高中用简单随机抽样的方法调查了100名教师,征求其对延迟退休的态度(支持,不支持),就分类变量“教师对延迟退休的态度”与“性别”的成对样本数据计算得,依据的独立性检验,结论为( )
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.教师对延迟退休的态度与性别独立
B.教师对延迟退休的态度与性别独立,这个结论犯错误的概率不超过
C.教师对延迟退休的态度与性别不独立,这个结论犯错误的概率不超过
D.调查时按性别分层,采用分层随机抽样方法比简单随机抽样方法更好
三、填空题
7.(23-24高三·天津滨海新·期末)下列说法中正确的有 (填正确说法的序号).
①回归直线恒过点,且至少过一个样本点;
②若样本数据的方差为4,则数据的标准差为4;
③已知随机变量,且,则;
④若线性相关系数越接近1,则两个变量的线性相关性越弱;
⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.
8.(23-24高二下·河北·阶段练习)有甲、乙两个班级共计100人进行物理考试,按照大于等于80分为优秀,80分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
乙班
30
已知在全部100人中随机抽取1人,成绩非优秀的概率为,则下列说法正确的是 .
①列联表中的值为的值为40;
②列联表中的值为的值为50;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
附:,其中.
0.15
0.1
0.05
0.025
0.01
0.001
2.072
2.706
3.841
5.024
6.635
10.828
四、解答题
9.(2025高三·全国·专题练习) 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
10.(23-24高二下·河北邢台·阶段练习)为了研究学生的性别与是否喜欢运动的关联性,随机调查了某中学的100名学生,整理得到如下表格:
男学生
女学生
合计
喜欢运动
40
20
60
不喜欢运动
20
20
40
合计
60
40
100
(1)依据的独立性检验,能否认为学生的性别与是否喜欢运动有关联?
(2)按学生的性别以及是否喜欢运动用分层随机抽样的方法从这100名学生中选取10人,再从这10人中任选2人,喜欢运动的男学生被选中的人数为,求的分布列与期望.
附:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
11.(24-25高三上·上海·期中)学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
自学检测
一、单选题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.(23-24高二下·河北石家庄·阶段练习)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下列联表:
男
女
总计
爱好
a
b
73
不爱好
c
25
总计
74
则等于( )
A.7 B.8 C.9 D.10
2.(23-24高二下·山东烟台·期中)有关独立性检验的四个命题,其中不正确的是( )
A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成的可能性就越大
B.对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的可信程度越小
C.从独立性检验可知:有95%把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%可能患有心脏病
D.从独立性检验可知:有99%把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%前提下认为吸烟与患肺癌有关
3.(2024·吉林长春·三模)观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
4.(24-25高三上·天津蓟州·开学考试)下列结论错误的是( )
A.若随机变量满足,则
B.数据的第60百分位数为9
C.用简单随机抽样的方法从51个个体中抽取2个个体,则每个个体被抽到的概率都是
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断与有关
5.(23-24高三下·陕西西安·阶段练习)下列说法正确的是( )
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.已知变量,由它们的样本数据计算得到的观测值,
的部分临界值如下表:
0.1
0.05
0.025
0.01
2.706
3.841
5.024
6.635
则在犯错误的概率不超过0.025的前提下认为变量没有关系
6.(23-24高二下·山西长治·期中)某课外兴趣小组为研究数学成绩优秀是否与性别有关,通过随机抽样调查,得到成对样本观测数据的分类统计结果,并计算得出,经查阅独立性检验的小概率值和相应的临界值,知,则下列判断正确的是( )
A.若某人数学成绩优秀,那么他为男生的概率是
B.每100个数学成绩优秀的人中就会有1名是女生
C.数学成绩优秀与性别有关,此推断犯错误的概率不大于
D.在犯错误的概率不超过的前提下认为数学成绩优秀与性别无关
7.(24-25高二下·全国·课后作业)为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
8.(23-24高二下·黑龙江哈尔滨·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
二、多选题(本大题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求,全部选对的得6分,部分选对的得部分分,有选错的得0分)
9.(23-24高二下·黑龙江哈尔滨·期末)下列说法正确的是( )
A.回归分析中,线性相关系数的取值范围为
B.回归分析中,残差图中残差比较均匀分布在以取值为0的横轴为对称轴的水平带状区域内,且宽度越窄表示拟合效果越好
C.回归分析中,决定系数越大,说明残差平方和越小,拟合效果越好
D.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
10.(24-25高三上·重庆·期中)下列说法中,正确的是( )
A.对于独立性检验,随机变量的值越大,则推断“两变量有关系”犯错误的概率越小
B.若,则
C.随机变量服从正态分布 ,若,则
D.数据4,3,2,5,6,7的分位数为 4
11.(24-25高三上·吉林长春·开学考试)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图. 已知 ,其中 ,附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率小于不经常锻炼者中男生的频率的2倍
D.根据小概率值 的独立性检验,可以认为假期是否经常锻炼与性别有关
三、填空题(本大题共3小题,每小题5分,共15分,把答案填在题中的横线上)
12.(23-24高二下·辽宁葫芦岛·期末)一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
13.(24-25高二下·全国·随堂练习)下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否了解所学专业的调查表:
了解所学专业
不了解所学专业
合计
男生
63
117
180
女生
42
82
124
合计
105
199
304
根据表中数据,下列说法正确的是 .(填序号)
①性别与了解所学专业有关;
②性别与了解所学专业无关;
③女生比男生更了解所学专业.
14.(23-24高二下·河南驻马店·阶段练习)①线性回归方程必过;②独立性检验的统计假设是各事件之间相互独立③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是 .(把你认为正确的结论都写在横线上)
四、解答题(本大题共5小题,共77分,解答应写出文字说明,证明过程或演算步骤)
15. (13分) (24-25高三上·重庆·阶段练习)手机用户可通过某软件查看自己每天行走的步数,同时也可以和好友进行运动量的比较和点赞.若某人一天的行走步数超过8000,则评定为“积极型”,否则评定为“懈怠型”.从小王的男性和女性好友中各随机抽取了50名,统计其一天的步数并给出评定,得到如下数据:
积极型
懈怠型
男
20
30
女
10
40
(1)能否有95%的把握认为“评定类型”与“性别”有关?
(2)以样本数据估计总体数据,且以频率估计概率.若从小王的所有男性好友中抽取3人,记其中评定为“积极型”的人数为,求随机变量的数学期望.
附:,其中.
0.050
0.025
0.010
3.841
5.024
6.635
16. (15分) (24-25高三上·四川绵阳·阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
总计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
总计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层抽样方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
附:
参考公式:,其中.
17. (15分) (24-25高三上·四川成都·阶段练习)为了调查学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:
喜欢跑步
不喜欢跑步
合计
男生
80
女生
20
合计
已知在这200名学生中随机抽取1人抽到喜欢跑步的概率为0.6.
(1)判断:是否有90%的把握认为喜欢跑步与性别有关?
(2)从上述不喜欢跑步的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布及数学期望.
附:,其中.
18. (17分) (23-24高三上·四川内江·阶段练习)据国家权威机构统计,中国有3000万青少年具有不同程度的心理障碍,中小学生心理障碍患病率高达21.6%-42%,心理治疗专家表示,现在很多家庭只关注孩子的文化课学习,却往往忽略了青少年时期最重要的人格形成因子-------心理健康的培养和矫正.现随机调查了200名青少年是否参加过心理健康培训及其心理健康问题得到如下结果
参加过培训
未参过培训
合计
心理健康
64
36
100
有心理障碍
46
54
100
合计
110
90
200
(1)从未参加过培训的90人中按心理是否健康分层抽样抽取5人,再从这5人中任选3人做一次心理疏导,求3人中心理健康人数X的分布列和期望.
(2)判断是否有95%的把握认为心理健康与参与培训有关.
附
0.150
0.100
0.050
0.010
2.072
2.706
3.841
6.635
19. (17分) (24-25高三上·广东东莞·阶段练习)长跑可提高呼吸系统和心血管系统机能,较长时间有节奏的深长呼吸,能使人体呼吸大量的氧气,吸收氧气量若超过平时的倍,就可以抑制人体癌细胞的生长和繁殖.其次长跑锻炼还改善了心肌供氧状态,加快了心肌代谢,同时还使心肌纤维变粗,心收缩力增强,从而提高了心脏工作能力.为了调查学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:已知在这200名学生中随机抽取1人抽到喜欢跑步的概率为0.6.
喜欢跑步
不喜欢跑步
合计
男生
80
女生
20
合计
(1)判断:是否有90%的把握认为喜欢跑步与性别有关?
(2)从上述不喜欢跑步的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布及数学期望.
附:,其中.
学科网(北京)股份有限公司
$$