内容正文:
第03讲 8.3 列联表与独立性检验
(8.3.1分类变量与列联表+8.3.2独立性检验)
课程标准
学习目标
①了解分类变量与数值变量的区别,了解回归与相关的区别。
②通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性. 理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误。
③理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误。
本节课要求会通过比较相关比率,判断两个随机变量的独立性. 会对简单的数据分析案例进行初步独立性分析.恰当构造卡方统计量及利用小概率事件原理实现对两个分类变量的是否独立的科学检验.能解决简单的与独立性检验相关的实际问题
知识点1:分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点2:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【即学即练1】(24-25高三·上海·课堂例题)在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得,根据这一数据分析,打鼾与患心脏病是 的.(选填“有关”或“无关”)
题型01 通过等高堆积条形图判断两个分类变量是否存在差异
【典例1】(23-24高二下·重庆·期末)如图是学校高二1、2班本期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么( )
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.“两班学生的数学成绩优秀率存在差异”判断一定正确
【典例2】(2024高三·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【典例3】(多选)(2024·湖北·一模)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层抽样的方式随机抽取100名学生进行问卷调查,将调查的结果得到如下等高堆积条形图和列联表,则( )
性别
数学兴趣
合计
感兴趣
不感兴趣
女生
男生
合计
100
参考数据:本题中
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.表中
B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生多
C.根据小概率值的独立性检验,可以认为性别与对数学的兴趣有差异
D.根据小概率值的独立性检验,可以认为性别与对数学的兴趣没有差异
【变式1】(24-25高三上·江西新余·阶段练习)如图为对某高中学生是否对父母说过“我爱你”这样的话的统计结果,则下列统计分析中不正确的是:( ).
A.男性被调查者没有对父母说过“我爱你”这样的话的人数比例高于女性
B.无论男女对母亲说“我爱你”这类话的比例都高于对父亲所说
C.大部分调查者没有对父母说过“我爱你”这样的话
D.经常对父母说“我爱你”这样的话的人数总计比例较女生比例有所下降,说明这张统计图的结果可能存在错误
【变式2】(多选)(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
【变式3】(23-24高二下·广东深圳·期中)观察下面各等高堆积条形图,其中两个分类变量、相关关系最强的是 .
题型02 独立性检验的概念及辨析
【典例1】(23-24高二下·山东青岛·期中)根据分类变量与的成对样本数据,计算得到.已知,依据小概率值的独立性检验,则( )
A.与不独立
B.与不独立,这个结论犯错误的概率不超过0.05
C.与独立
D.与独立,这个结论犯错误的概率不超过0.05
【典例2】(23-24高二下·上海·期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【典例3】(24-25高二下·全国·课后作业)在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
【变式1】(23-24高二下·福建宁德·期末)根据分类变量 X 和Y 的样本观察数据的计算结果,有不少于95%的把握认为 X 和Y 有关,则的值不可能为( )
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
A.2.819 B.5.512 C.6.635 D.8.243
【变式2】(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【变式3】(2025高三·全国·专题练习)列联表与独立性检验
(1)关于分类变量和的抽样数据的列联表:
合计
合计
(2)计算随机变量
,利用的取值推断分类变量和 的方法称为独立性检验.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
题型03 卡方的计算
【典例1】(多选)(24-25高三上·四川·期中)为了研究某校高三年级学生的性别和身高是否低于的关联性,研究小组从该校高三学生中获取容量为500的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别
身高
合计
低于
不低于
女
140
60
200
男
120
180
300
合计
260
240
500
附:,其中.
α
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.依据的独立性检验,小组成员甲可以认为该中学高三年级学生的性别与身高有关联
B.依据的独立性检验,小组成员甲不能认为该中学高三年级学生的性别与身高有关联
C.小组成员甲、乙计算出的值相同,依据的独立性检验,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,依据的独立性检验,他们得出的结论也不同
【典例2】(2025高三·全国·专题练习) 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【典例3】(24-25高三上·广西贵港·阶段练习)为了调查某校学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:
喜欢跑步
不喜欢跑步
合计
女生
90
120
男生
55
合计
145
200
(1)计算的值,并依据小概率值的独立性检验,判断性别与喜欢跑步是否有关?
(2)从上述的200名学生中按性别比例用分层抽样的方法抽取10名学生,再在这10人中抽取3人调查其是否喜欢跑步,用表示3人中女生的人数,求的分布列及数学期望.
附:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【变式1】(24-25高三上·山东济宁·阶段练习)某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
参考公式:,其中.
【变式2】(24-25高三上·四川绵阳·阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
总计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
总计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层抽样方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
附:
参考公式:,其中.
【变式3】(24-25高三上·四川成都·阶段练习)为了调查学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:
喜欢跑步
不喜欢跑步
合计
男生
80
女生
20
合计
已知在这200名学生中随机抽取1人抽到喜欢跑步的概率为0.6.
(1)判断:是否有90%的把握认为喜欢跑步与性别有关?
(2)从上述不喜欢跑步的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布及数学期望.
附:,其中.
题型04 独立性检验的基本思想
【典例1】(24-25高二下·全国·课后作业)我国力争2030年前实现碳达峰,2060年前实现碳中和,是党中央经过深思熟虑作出的重大战略决策,事关中华民族永续发展和构建人类命运共同体.新经济形势下,二氧化碳排放是影响企业效益的重要因素,为了研究节能专利技术对企业效益的影响,现随机抽取100家科技企业进行调查,得到如下数据:
经济效益较好
经济效益较差
合计
节能专利技术
52
29
81
非节能专利技术
8
11
19
合计
60
40
100
则认为节能专利技术有利于企业经济效益的把握为( )
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
A. B. C. D.
【典例2】(多选)(24-25高二下·全国·单元测试)为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表,通过计算得到.已知,则下列判断正确的是( )
认可
不认可
40岁以下
20
20
40岁以上(含40岁)
40
10
A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”
C.有99%的把握认为“光盘行动”的认可情况与年龄有关联
D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关联
【典例3】(2025高三·全国·专题练习)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
0.05
0.025
3.841
5.024
根据表中数据,得到.则认为选修文科与性别有关系出错的可能性不大于 .
【变式1】(24-25高二下·全国·单元测试)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用过血清的人与另外500名未使用过血清的人一年中的感冒记录进行比较,提出统计假设H.:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得,经查临界值表知,对此,有以下四个结论,正确的是( )
A.有不少于95%的把握认为“这种血清能起到预防感冒的作用”
B.若某人未使用该血清,那么他在一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
【变式2】(多选)(23-24高三下·浙江金华·开学考试)为了提高学生体育锻炼的积极性,某中学需要了解性别因素与学生对体育锻炼的喜好是否有影响,为此对学生是否喜欢体育锻炼的情况进行普查.得到下表:
性别
体育锻炼
合计
喜欢
不喜欢
男生
280
q
280+q
女生
p
120
120+p
合计
280+p
120+q
400+p+q
附:χ2=,n=a+b+c+d.
α
0.10
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
已知男生喜欢体育锻炼的人数占男生人数的,女生喜欢体育锻炼的人数占女生人数的,则下列说法正确的是( )
A.列联表中q的值为120,p的值为180
B.随机对一名学生进行调查,此学生有90%的可能喜欢体育锻炼
C.根据小概率值α=0.01的独立性检验,认为学生的性别与其对体育锻炼的喜好有关系,此推断犯错误的概率不超过0.01
D.根据小概率值α=0.001的独立性检验,认为学生的性别与其对体育锻炼的喜好无关
【变式3】(24-25高三上·湖南·阶段练习)某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到如下列联表:
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
题型05 独立性检验解决实际问题
【典例1】(24-25高三上·吉林长春·阶段练习)已知某学校为提高学生课外锻炼的积极性,开展了丰富的课外活动,为了解学生对开展的课外活动的满意程度,该校随机抽取了350人进行调查,整理得到如下列联表:
性别
课外活动
合计
满意
不满意
男
150
100
250
女
50
50
100
合计
200
150
350
0.1
0.05
0.01
2.706
3.841
6.635
(1)根据小概率值的独立性检验,能否认为该校学生对课外活动的满意情况与性别因素有关联?
(2)从这350名样本学生中任选1名学生,设事件“选到的学生是男生”,事件“选到的学生对课外活动满意”,比较和的大小.
附:
【典例2】(24-25高三上·河北·期中)某商场将年度消费总金额不低于万的会员称为尊享会员,超过万不足万的会员称为星级会员.该商场从以上两种会员中随机抽取男、女会员各名进行调研统计,其中抽到男性尊享会员名,女性尊享会员名.
(1)完成下面的列联表,并依据小概率值的独立性检验,判断是否可以认为会员类型与性别有关?
会员类型
会员性别
合计
男性会员
女性会员
尊享会员
星级会员
合计
(2)该商场在今年店庆时将举办尊享与星级会员消费返利活动,该活动以抽奖的形式进行,参与抽奖的会员从放有个红球和个白球(每个球除颜色不同外,其余完全相同)的抽奖箱中抽奖.抽奖规则:①每次抽奖时,每名会员从抽奖箱中随机摸出个球,若摸出的个球颜色相同即为中奖,若颜色不同即为不中奖;②每名会员只能选一种抽奖方案进行抽奖.抽奖方案如下:
方案一:共进行两次抽奖,第一次抽奖后将球放回抽奖箱,再进行第二次抽奖;
方案二:共进行两次抽奖,第一次抽奖后将球不放回抽奖箱,直接进行第二次抽奖.
会员甲欲参加本次抽奖活动,请从中奖次数的期望与方差的角度分析,会员甲选择哪种方案较好?
附:,其中.
【典例3】(24-25高三上·江苏扬州·期中)中国是茶的故乡,茶文化源远流长,博大精深.某兴趣小组,为了了解当地居民对喝茶的态度,随机调查了100人,并将结果整理如下:
不喜欢喝茶
喜欢喝茶
合计
35岁以上(含35岁)
30
30
60
35岁以下
25
15
40
合计
55
45
100
(1)是否有90%的把握认为该地居民喜欢喝茶与年龄有关?
(2)以样本估计总体,用频率代替概率.该兴趣小组在当地喜欢喝茶的人群中,随机选出2人参加茶文化艺术节.抽取的2人中,35岁以下的人数记为,求的分布列与期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【变式1】(2025高三·全国·专题练习)为研究某种疫苗的效果,现对名志愿者进行了实验,得到如下数据:
未感染病毒
感染病毒
合计
接种疫苗
未接种疫苗
合计
根据小概率值的独立性检验,分析疫苗是否有效?
参考公式:,其中.
参考数据:.
【变式2】(24-25高三上·黑龙江牡丹江·阶段练习)随着科技的进步和人民生活水平的提高,电脑已经走进了千家万户,成为人们生活、学习、娱乐的常见物品,便携式电脑(俗称“笔记本”)也非常流行.某公司为了研究“台式机”与“笔记本”的受欢迎程度是否与性别有关,在街头随机抽取了50人做调查研究,调查数据如下表所示.
男性
女性
合计
喜欢“台式机”
20
5
25
喜欢“笔记本”
10
15
25
合计
30
20
50
(1)依据小概率值的独立性检验,分析喜欢哪种机型与性别是否有关?
(2)该公司针对男性客户做了调查,某季度男性客户中有青年324人,中年216人,老年108人,用按比例分配的分层随机抽样的方法选出12人,又随机抽出3人进行答谢,这3人中的青年人数设为随机变量,求的分布列与数学期望.
附:,其中.
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【变式3】(24-25高二上·黑龙江哈尔滨·期中)随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择名青年游客对哈尔滨出行体验进行满意度评分(满分分),分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;
(2)若采用按比例分层抽样的方法从评分在,的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的4人中评分等级为良好的人数X的分布列和数学期望;
(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120名.请根据小概率值的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.
附:,
0.05
0.01
0.001
3.841
6.635
10.828
A夯实基础 B能力提升
A夯实基础
一、单选题
1.(24-25高三上·上海·单元测试)对于独立性检验,下列说法中错误的是( )
A.的值越大,说明两事件相关程度越大
B.的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
2.(2025高三·全国·专题练习)下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
3.(24-25高三·上海·课堂例题)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
4.(23-24高二下·福建宁德·阶段练习)利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用2×2列联表,由计算可得,参照下表:得到的正确结论是( )参考数据:临界值表
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.有99%以上的把握认为“爱好该项运动与性别无关”
B.有99%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”
5.(2024高三·全国·专题练习)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下,可以认为“是否对主办方表示满意与运动员的性别有关”;③在犯错误的概率不超过的前提下,不可以认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
6.(2024高三·全国·专题练习)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
根据表中数据,以下叙述正确的是:( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
7.(23-24高二下·黑龙江哈尔滨·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
8.(23-24高二下·山东枣庄·期末)学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
二、多选题
9.(23-24高二下·河南漯河·期中)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
10.(23-24高二下·重庆·阶段练习)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法抽取足够样本后对治疗情况进行检查,得到两种疗法治疗数据的列联表后,经计算得到,则可以认为( )
A.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果没有差异
B.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果存在差异
C.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果没有差异
D.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果存在差异
三、填空题
11.(24-25高三·上海·随堂练习)为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取50名学生,得到如下列联表,则 .(结果精确到0.001)
喜欢数学
不喜欢数学
总计
男
13
10
23
女
7
20
27
总计
20
30
50
12.(23-24高二下·河南信阳·期末)为了研究高三学生的性别和身高是否大于170cm的关联性,调查了高三学生200名,得到如下列联表:
性别
身高
合计
低于170cm
不低于170cm
女
80
20
100
男
30
70
100
合计
110
90
200
根据列联表的数据,计算得 ;依据小概率值 的独立性检验,认为“高三学生的性别和身高有关联”.
附:临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
四、解答题
13.(24-25高三上·上海·期中)学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
14.(2024·四川绵阳·一模)近年来,解放军强军兴军的深刻变化,感召了越来越多的高中优秀青年学子献身国防,投身军营.2024年高考,很多高考毕业学生报考了军事类院校.从某地区内学校的高三年级中随机抽取了900名学生,其中男生500人,女生400人,通过调查,有报考军事类院校意向的男生、女生各100名.
(1)完成给出的列联表,并分别估计该地区高三男、女学生有报考军事类院校意向的概率;
有报考意向
无报考意向
合计
男学生
女学生
合计
(2)根据小概率值的独立性检验,能否认为学生有报考军事类院校的意愿与性别有关.
参考公式及数据:.
α
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
15.(24-25高三上·河北·阶段练习)为了解某校男生1000米测试成绩与身高的关系,从该校2000名男生中随机抽取100人,得到测试成绩与身高的数据如下表所示:
身高范
围(cm)测试成绩
合格
3
12
18
22
15
不合格
2
9
5
5
9
(1)该校2000名男生中身高在175cm及以上的人数约为多少?
(2)根据表中数据,依据小概率值的独立性检验,分析体育成绩合格与身高在范围内是否有关.
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
16.(2024高三·全国·专题练习)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议,为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列列联表,并判断是否有99%的把握认为该“校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级
高三
合计
优秀
非优秀
合计
300
附:.
参考数据:
0.100
0.050
0.010
0.005
2.706
3.841
6.635
7.879
B能力提升
17.(2024·吉林长春·一模)某医学研究团队经过研究初步得出检测某种疾病的患病与否和某项医学指标有关,利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性(患病),小于或等于的人判定为阴性(未患病).此检测标准的漏诊率是将患病者判定为阴性的概率;误诊率是将未患病者判定为阳性的概率.
(1)随机抽取男女各500人进行检验,采用临界值进行判定时,误判共10人(漏诊与误诊之和),其中2男8女,写出列联表,依据小概率值的独立性检验,能否认为误判与性别有关?
(2)经过大量调查,得到如下的患病者和未患病者该指标的频率分布表:
指标
[95,100]
(100,105]
(105,110]
(110,115]
(115,120]
(120,125]
(125,130]
患病者频率
0.01
0.06
0.17
0.18
0.2
0.2
0.18
指标
[70,75]
未患病者频率
0.19
0.2
0.2
0.18
0.17
0.05
0.01
假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.若漏诊率和误诊率同时控制在以内(小于等于),求临界值的范围;
(3)在(2)条件下,求出误判率(漏诊率与误诊率之和)最小时的临界值及对应的误诊率和漏诊率.
附:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
18.(23-24高二下·浙江温州·期中)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号
1
2
3
4
5
学习时间x
30
40
50
60
70
数学成绩y
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
原创精品资源学科网独家享有版权,侵权必究!13
学科网(北京)股份有限公司
$$
第03讲 8.3 列联表与独立性检验
(8.3.1分类变量与列联表+8.3.2独立性检验)
课程标准
学习目标
①了解分类变量与数值变量的区别,了解回归与相关的区别。
②通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性. 理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误。
③理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误。
本节课要求会通过比较相关比率,判断两个随机变量的独立性. 会对简单的数据分析案例进行初步独立性分析.恰当构造卡方统计量及利用小概率事件原理实现对两个分类变量的是否独立的科学检验.能解决简单的与独立性检验相关的实际问题
知识点1:分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点2:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【即学即练1】(24-25高三·上海·课堂例题)在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得,根据这一数据分析,打鼾与患心脏病是 的.(选填“有关”或“无关”)
【答案】有关
【知识点】独立性检验的基本思想、独立性检验解决实际问题
【分析】由卡方值结合独立性检验中相应的临界值即可判断求解.
【详解】因为,
所以有的把握认为打鼾与患心脏病是有关的.
故答案为:有关.
题型01 通过等高堆积条形图判断两个分类变量是否存在差异
【典例1】(23-24高二下·重庆·期末)如图是学校高二1、2班本期中考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的期中考试数学成绩统计,那么( )
A.两个班6名学生的数学成绩优秀率可能相等
B.1班6名学生的数学成绩优秀率一定高于2班
C.2班6名学生中数学成绩不优秀的一定多于优秀的
D.“两班学生的数学成绩优秀率存在差异”判断一定正确
【答案】A
【知识点】等高条形图
【分析】分析等高堆积条形图可直接得到答案.
【详解】原图是学校高二1、2班本期中期考试数学成绩优秀率的等高堆积条形图,
从两个班随机抽取的6名学生的期中考试数学成绩优秀率无法确定哪个班的比较高,2班6名学生数学成绩不优秀的和优秀的人数也不能确定,故A正确,BC错误;
两个班期中考试数学成绩的优秀率均在0.5左右,并不能直接确定“两班学生的数学成绩优秀率存在差异”,故D错误;
故选:A.
【典例2】(2024高三·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【答案】C
【知识点】等高条形图、列联表分析
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
岁及以上
岁以下
总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
【典例3】(多选)(2024·湖北·一模)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层抽样的方式随机抽取100名学生进行问卷调查,将调查的结果得到如下等高堆积条形图和列联表,则( )
性别
数学兴趣
合计
感兴趣
不感兴趣
女生
男生
合计
100
参考数据:本题中
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.表中
B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生多
C.根据小概率值的独立性检验,可以认为性别与对数学的兴趣有差异
D.根据小概率值的独立性检验,可以认为性别与对数学的兴趣没有差异
【答案】ACD
【知识点】抽样比、样本总量、各层总数、总体容量的计算、等高条形图、完善列联表、独立性检验的基本思想
【分析】根据分层抽样的定义及等高条形图的特点即可得出的列联表中的数据,利用列联表中的数据计算观测值,再跟临界值进行比较即可求解.
【详解】由题可知,抽取男生人数为人,女生抽取的人数人,
由等高条形图知,抽取男生感兴趣的人数为人,抽取男生不感兴趣的人数为人,
抽取女生感兴趣的人数为人,抽取女生不感兴趣的人数为人,
的列联表如下
性别
数学兴趣
合计
感兴趣
不感兴趣
女生
男生
合计
100
由此表可知,,故A正确;
女生不感兴趣的人数约为人,男生不感兴趣的人数约为人,
所以估计该校高一新生中对数学不感兴趣的女生人数比男生少,故B 错误;
零假设为:性别与对数学的兴趣没有差异
依据小概率值的独立性检验,有充分证据推断不成立,
因此可以认为不成立,即可以认为性别与对数学的兴趣有差异;故C正确;
零假设为:性别与对数学的兴趣没有差异
依据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即可以认为性别与对数学的兴趣没有差异;故D正确.
故选:ACD.
【变式1】(24-25高三上·江西新余·阶段练习)如图为对某高中学生是否对父母说过“我爱你”这样的话的统计结果,则下列统计分析中不正确的是:( ).
A.男性被调查者没有对父母说过“我爱你”这样的话的人数比例高于女性
B.无论男女对母亲说“我爱你”这类话的比例都高于对父亲所说
C.大部分调查者没有对父母说过“我爱你”这样的话
D.经常对父母说“我爱你”这样的话的人数总计比例较女生比例有所下降,说明这张统计图的结果可能存在错误
【答案】D
【知识点】等高条形图
【分析】根据统计图中的数据进行分析,判断每个选项的正确性.
【详解】对于A选项,观察统计图,比较男性和女性未对父母说过“我爱你”的比例,
发现男性未说的比例高于女性,所以A选项正确.
对于B选项,分别对比男女对母亲和对父亲说“我爱你”的比例,
能看出无论男女对母亲说的比例都高于对父亲说的比例,所以B选项正确.
对于C选项,从统计图整体来看,未说过“我爱你”的人数比例较大,
所以大部分调查者没有对父母说过“我爱你”这样的话,C选项正确.
对于D选项,经常对父母说“我爱你”的人数总计比例较女生比例有所下降,
并不能直接说明统计图结果存在错误,有可能是实际调查结果就是如此,所以D选项错误.
故选:D
【变式2】(多选)(23-24高二下·吉林白山·期末)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.已知,其中,,在被调查者中,下列说法正确的是( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人多8人
C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右
D.在犯错误的概率不大于0.01的条件下,可以认为假期是否经常锻炼与性别有关
【答案】BCD
【知识点】等高条形图、完善列联表、独立性检验解决实际问题
【分析】根据男生比女生少20人,建立等式求出男生、女生的人数,建立列联表,利用列联表中的信息解决ABC,利用独立性检验来解决D选项.
【详解】解:设男生人数为,则女生人数为,
由题得,
解得,即在被调查者中,男、女生人数为80,100,可得到如下列联表,
性别
锻炼情况
合计
经常锻炼
不经常锻炼
男
48
32
80
女
40
60
100
合计
88
92
180
由表可知,A显然错误,
男生中经常锻炼的人数比女生中经常锻炼的人数多B正确;
在经常锻炼者中是男生的频率为,在不经常锻炼者中是男生的频率为C正确;
零假设:假期是否经常锻炼与性别无关,
则,根据小概率值的独立性检验,我们推断不成立,
即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确,
故选:BCD.
【变式3】(23-24高二下·广东深圳·期中)观察下面各等高堆积条形图,其中两个分类变量、相关关系最强的是 .
【答案】乙
【知识点】等高条形图
【分析】根据选项中的图形,即可直接求解.
【详解】等高条形图中有两个高度相同的矩形,每个矩形都有两个颜色,观察下方颜色区域的高度,如果高度差越大,则两个分类变量关系越强,观察四个选项可知,B选项中带颜色区域的高度差最大,两个分类变量、相关关系最强;
故答案为:乙
题型02 独立性检验的概念及辨析
【典例1】(23-24高二下·山东青岛·期中)根据分类变量与的成对样本数据,计算得到.已知,依据小概率值的独立性检验,则( )
A.与不独立
B.与不独立,这个结论犯错误的概率不超过0.05
C.与独立
D.与独立,这个结论犯错误的概率不超过0.05
【答案】C
【知识点】独立性检验的概念及辨析、独立性检验的基本思想
【分析】根据独立性检验的知识判断即可.
【详解】因为
根据,根据小概率值的独立性检验知:与独立,C正确.
故选:C.
【典例2】(23-24高二下·上海·期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是( )
(附:)
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【答案】D
【知识点】独立性检验的概念及辨析
【分析】根据卡方表示的意义结合临界值表分析判断即可
【详解】只有时才能在犯错误的概率不超过的前提下认为该电视栏目是否优秀与改革有关系,
而即使也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的推论,与是否有的人等无关.故A,B不正确.
由于,故C错误,D正确.
故选:D.
【典例3】(24-25高二下·全国·课后作业)在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
【答案】③
【知识点】独立性检验的概念及辨析
【分析】根据题意,结合独立性检验的含义,逐项判定,即可求解.
【详解】①若的临界值,我们有的把握认为饮酒与患肝脏病有关系,
但在1000个饮酒的人中未必有900人患有肝脏病,所以①错误;
②从独立性检验可以知道99%的把握认为饮酒与患肝脏病有关系时,
是指饮酒与患肝脏病有关系的概率,而不是饮酒的人有99%的可能性有肝脏病,所以②错误:
③若从统计量中求出有99.5%的把握认为饮酒与患肝脏病有关系,
则有0.5%的可能性使得推断错误,所以③正确.
故答案为:③.
【变式1】(23-24高二下·福建宁德·期末)根据分类变量 X 和Y 的样本观察数据的计算结果,有不少于95%的把握认为 X 和Y 有关,则的值不可能为( )
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
A.2.819 B.5.512 C.6.635 D.8.243
【答案】A
【知识点】独立性检验的概念及辨析
【分析】利用独立性检验的观测值对应临界表可得答案.
【详解】因为有不少于95%的把握认为 X 和Y 有关,
所以,只有A不满足要求.
故选:A
【变式2】(23-24高二下·河南信阳·期末)某医疗机构通过抽样调查(样本容量),利用列联表和统计量研究患肺癌是否与吸烟有关.计算得,经查对临界值表知,现给出四个结论,其中正确的是( )
A.根据小概率值的独立性检验,认为“患肺癌与吸烟无关”
B.在100个吸烟的人中约有99个人患肺癌
C.若老张吸烟,那么他有99%的可能性患肺癌
D.有99%的把握认为“患肺癌与吸烟有关”
【答案】D
【知识点】独立性检验的概念及辨析
【分析】根据独立性检验可得正确选项.
【详解】依已知数据,得有的把握认为“患肺癌与吸烟有关”,
则选项D正确,其余都是错误的.
故选:D.
【变式3】(2025高三·全国·专题练习)列联表与独立性检验
(1)关于分类变量和的抽样数据的列联表:
合计
合计
(2)计算随机变量
,利用的取值推断分类变量和 的方法称为独立性检验.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】是否独立
【知识点】独立性检验的概念及辨析
【分析】略
【详解】略
题型03 卡方的计算
【典例1】(多选)(24-25高三上·四川·期中)为了研究某校高三年级学生的性别和身高是否低于的关联性,研究小组从该校高三学生中获取容量为500的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别
身高
合计
低于
不低于
女
140
60
200
男
120
180
300
合计
260
240
500
附:,其中.
α
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.依据的独立性检验,小组成员甲可以认为该中学高三年级学生的性别与身高有关联
B.依据的独立性检验,小组成员甲不能认为该中学高三年级学生的性别与身高有关联
C.小组成员甲、乙计算出的值相同,依据的独立性检验,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,依据的独立性检验,他们得出的结论也不同
【答案】AD
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据列联表及卡方公式求对应卡方值,结合独立性检验的基本思想得到结论,即可得答案.
【详解】由题设,零假设该中学高三年级学生的性别与身高没有关联,
对于成员甲有,
对于成员乙有,
依据的独立性检验,小组成员甲可认为该中学高三年级学生的性别与身高有关联;
依据的独立性检验,小组成员乙不能认为该中学高三年级学生的性别与身高有关联;
小组成员甲、乙计算出的值不同,他们得出的结论也不同.
故选:AD
【典例2】(2025高三·全国·专题练习) 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【答案】列联表见解析,有关
【知识点】卡方的计算、独立性检验解决实际问题
【分析】由题意确定列联表,求得,对比数据即可求解.
【详解】由题意分析可得,签约企业共45家,线上销售时间不少于8小时的企业有20家,
那么线上销售时间少于8小时的企业有25家,每天的销售额不足30万元的企业占,
共有.
完成列联表如下:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
3
20
线上销售时间不足8小时
10
15
25
合计
27
18
45
所以.
对应的参数为6.635.而,
所以可判断赞助企业每天的销售额与每天线上销售时间有关.
【典例3】(24-25高三上·广西贵港·阶段练习)为了调查某校学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:
喜欢跑步
不喜欢跑步
合计
女生
90
120
男生
55
合计
145
200
(1)计算的值,并依据小概率值的独立性检验,判断性别与喜欢跑步是否有关?
(2)从上述的200名学生中按性别比例用分层抽样的方法抽取10名学生,再在这10人中抽取3人调查其是否喜欢跑步,用表示3人中女生的人数,求的分布列及数学期望.
附:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1),,,,无关;
(2)分布列见解析,期望为
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、卡方的计算、超几何分布的均值
【分析】(1)根据表格直接计算,再利用卡方公式计算即可;
(2)根据分层抽样和超几何分布即可得到答案.
【详解】(1),,,,
零假设为:性别与学生喜欢跑步无关,
由题意得
依据小概率值的独立性检验,没有充分证据认为不成立,
所以判断性别与喜欢跑步无关;
(2)由题意,参与调查的200人中,女生有120人,男生有80人,
因为,按性别比例分层抽样抽出10人,则女生抽6人,男生抽4人,
从10人中随机抽取3人,则的取值可以为,
,
,
,
,
则随机变量的分布列为
0
1
2
3
.
【变式1】(24-25高三上·山东济宁·阶段练习)某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
参考公式:,其中.
【答案】3
【知识点】卡方的计算、独立性检验解决实际问题
【分析】由题意,应用卡方公式得,根据独立检验的结论确定的最小值.
【详解】由题设,零假设社交电商用户与性别无关,
而,
则,
所以根据的独立性检验认为是不是社交电商用户与性别有关,则的最小值3.
故答案为:3
【变式2】(24-25高三上·四川绵阳·阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
总计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
总计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层抽样方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
附:
参考公式:,其中.
【答案】(1)应在A组抽取人,应在B组抽取人.
(2)能认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005
【知识点】抽样比、样本总量、各层总数、总体容量的计算、独立性检验解决实际问题、卡方的计算
【分析】(1)根据分层抽样列式计算即可;
(2)根据表格数据求出的值,然后与临界值比较即可判断.
【详解】(1)应在A组抽取人,应在B组抽取人.
(2)零假设为:选报奥数延时课与喜欢奥数无关联,
根据列联表中的数据,经计算可得,
根据小概率值的独立性检验,我们推断零假设不成立,
即认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005.
【变式3】(24-25高三上·四川成都·阶段练习)为了调查学生喜欢跑步是否与性别有关,高三年级特选取了200名学生进行了问卷调查,得到如下的列联表:
喜欢跑步
不喜欢跑步
合计
男生
80
女生
20
合计
已知在这200名学生中随机抽取1人抽到喜欢跑步的概率为0.6.
(1)判断:是否有90%的把握认为喜欢跑步与性别有关?
(2)从上述不喜欢跑步的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布及数学期望.
附:,其中.
【答案】(1)没有
(2)分布列见解析,
【知识点】卡方的计算、超几何分布的分布列、独立性检验解决实际问题、求离散型随机变量的均值
【分析】(1)根据卡方计算公式求解卡方,即可与临界值比较求解,
(2)根据分层抽样比求解抽取人数,即可利用超几何分布的概率公式求解概率,进而得分布列求解.
【详解】(1)由题可知,从200名学生中随机抽取1人抽到喜欢跑步的概率为0.6,
故喜欢跑步的人有(人),不喜欢跑步的人有(人).
喜欢跑步
不喜欢跑步
合计
男生
80
60
140
女生
40
20
60
合计
120
80
200
∴,,,,
,
故无90%把握认为喜欢跑步与性别有关.
(2)按分层抽样,设女生名,男生名,,解得,,
∴从不喜欢跑步的学生中抽取女生2名,男生6名,故,1,2.
,,,
故X的分布为:
0
1
2
∴.
题型04 独立性检验的基本思想
【典例1】(24-25高二下·全国·课后作业)我国力争2030年前实现碳达峰,2060年前实现碳中和,是党中央经过深思熟虑作出的重大战略决策,事关中华民族永续发展和构建人类命运共同体.新经济形势下,二氧化碳排放是影响企业效益的重要因素,为了研究节能专利技术对企业效益的影响,现随机抽取100家科技企业进行调查,得到如下数据:
经济效益较好
经济效益较差
合计
节能专利技术
52
29
81
非节能专利技术
8
11
19
合计
60
40
100
则认为节能专利技术有利于企业经济效益的把握为( )
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
A. B. C. D.
【答案】A
【知识点】独立性检验的基本思想、独立性检验解决实际问题、卡方的计算
【分析】根据的公式,求出其值,即可得答案.
【详解】解:因为,
故有的把握认为节能专利技术有利于企业经济效益.
故选:A.
【典例2】(多选)(24-25高二下·全国·单元测试)为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表,通过计算得到.已知,则下列判断正确的是( )
认可
不认可
40岁以下
20
20
40岁以上(含40岁)
40
10
A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”
C.有99%的把握认为“光盘行动”的认可情况与年龄有关联
D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关联
【答案】AC
【知识点】独立性检验的基本思想、独立性检验解决实际问题
【分析】运用独立性检验的思想方法,结合表中信息逐项判断即可.
【详解】因为,
所以有99%的把握认为“光盘行动”的认可情况与年龄有关联,
或者说在犯错误的概率不超过0.01的前提下,认为“光盘行动”的认可情况与年龄有关联,
所以选项C正确,选项D错误;
由表可知认可“光盘行动”的人数为60,
所以在该餐厅用餐的客人中认可“光盘行动”的比例约为,
故选项A正确,选项B错误.
故选:AC.
【典例3】(2025高三·全国·专题练习)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
0.05
0.025
3.841
5.024
根据表中数据,得到.则认为选修文科与性别有关系出错的可能性不大于 .
【答案】0.05
【知识点】独立性检验的基本思想
【分析】根据观测值以及独立性检验的基本思想即可得出结果.
【详解】因为,这表明小概率事件发生.
根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,
并且这种判断出错的可能性不大于0.05.
故答案为:0.05.
【变式1】(24-25高二下·全国·单元测试)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用过血清的人与另外500名未使用过血清的人一年中的感冒记录进行比较,提出统计假设H.:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得,经查临界值表知,对此,有以下四个结论,正确的是( )
A.有不少于95%的把握认为“这种血清能起到预防感冒的作用”
B.若某人未使用该血清,那么他在一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
【答案】A
【知识点】独立性检验解决实际问题、独立性检验的基本思想
【分析】根据独立性检验的意义即可得到答案
【详解】,而,
∴在犯错误的概率不超过的前提下认为“这种血清能起到预防感冒的作用”,
即有不少于95%的把握认为“这种血清能起到预防感冒的作用”,故A正确;
要注意我们检验的是假设是否成立,和该血清预防感冒的有效率是没有关系的,故CD错误;
若某人未使用该血清,不能说明他在一年中有95%的可能性得感冒,故B错误.
故选:A.
【变式2】(多选)(23-24高三下·浙江金华·开学考试)为了提高学生体育锻炼的积极性,某中学需要了解性别因素与学生对体育锻炼的喜好是否有影响,为此对学生是否喜欢体育锻炼的情况进行普查.得到下表:
性别
体育锻炼
合计
喜欢
不喜欢
男生
280
q
280+q
女生
p
120
120+p
合计
280+p
120+q
400+p+q
附:χ2=,n=a+b+c+d.
α
0.10
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
已知男生喜欢体育锻炼的人数占男生人数的,女生喜欢体育锻炼的人数占女生人数的,则下列说法正确的是( )
A.列联表中q的值为120,p的值为180
B.随机对一名学生进行调查,此学生有90%的可能喜欢体育锻炼
C.根据小概率值α=0.01的独立性检验,认为学生的性别与其对体育锻炼的喜好有关系,此推断犯错误的概率不超过0.01
D.根据小概率值α=0.001的独立性检验,认为学生的性别与其对体育锻炼的喜好无关
【答案】ACD
【知识点】独立性检验解决实际问题、独立性检验的基本思想、卡方的计算、完善列联表
【分析】根据题意补全二阶列联表,并求出频率和卡方值,然后逐项检验即可.
【详解】由男生喜欢体育锻炼的人数占男生人数的,女生喜欢体育锻炼的人数占女生人数的,
可得:解得:,故A正确;
由于随机对一名学生进行调查,此学生是喜欢体育锻炼的频率为,
所以可以估计此学生有的可能喜欢体育锻炼,故B错误;
再计算卡方得:,
由于,根据小概率值α=0.01的独立性检验,
认为学生的性别与其对体育锻炼的喜好有关系,此推断犯错误的概率不超过0.01,故C正确;
由于,根据小概率值α=0.001的独立性检验,可以认为学生的性别与其对体育锻炼的喜好无关,故D正确;
故选:ACD.
【变式3】(24-25高三上·湖南·阶段练习)某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到如下列联表:
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
【答案】3
【知识点】独立性检验的基本思想、卡方的计算
【分析】先根据已知计算,再根据独立性检验的性质列不等式计算即可.
【详解】,
所以根据的独立性检验认为是不是社交电商用户与性别有关,则的最小值为3.
故答案为:3.
题型05 独立性检验解决实际问题
【典例1】(24-25高三上·吉林长春·阶段练习)已知某学校为提高学生课外锻炼的积极性,开展了丰富的课外活动,为了解学生对开展的课外活动的满意程度,该校随机抽取了350人进行调查,整理得到如下列联表:
性别
课外活动
合计
满意
不满意
男
150
100
250
女
50
50
100
合计
200
150
350
0.1
0.05
0.01
2.706
3.841
6.635
(1)根据小概率值的独立性检验,能否认为该校学生对课外活动的满意情况与性别因素有关联?
(2)从这350名样本学生中任选1名学生,设事件“选到的学生是男生”,事件“选到的学生对课外活动满意”,比较和的大小.
附:
【答案】(1)认为该校学生对课外活动的满意情况与性别因素无关联
(2)
【知识点】独立性检验解决实际问题、计算条件概率
【分析】(1)同过列联表中数据计算的值,再与小概率值进行比较得出结论;
(2)根据条件概率公式本别计算和的值并比较两值的大小.
【详解】(1)提出零假设:该校学生对课外活动的满意情况与性别因素无关联,
根据表中数据,得到,
所以根据小概率值的独立性检验,没有充分证据推断不成立,
即认为该校学生对课外活动的满意情况与性别因素无关联.
(2)依题意得,,,
,,
所以,,
则.
【典例2】(24-25高三上·河北·期中)某商场将年度消费总金额不低于万的会员称为尊享会员,超过万不足万的会员称为星级会员.该商场从以上两种会员中随机抽取男、女会员各名进行调研统计,其中抽到男性尊享会员名,女性尊享会员名.
(1)完成下面的列联表,并依据小概率值的独立性检验,判断是否可以认为会员类型与性别有关?
会员类型
会员性别
合计
男性会员
女性会员
尊享会员
星级会员
合计
(2)该商场在今年店庆时将举办尊享与星级会员消费返利活动,该活动以抽奖的形式进行,参与抽奖的会员从放有个红球和个白球(每个球除颜色不同外,其余完全相同)的抽奖箱中抽奖.抽奖规则:①每次抽奖时,每名会员从抽奖箱中随机摸出个球,若摸出的个球颜色相同即为中奖,若颜色不同即为不中奖;②每名会员只能选一种抽奖方案进行抽奖.抽奖方案如下:
方案一:共进行两次抽奖,第一次抽奖后将球放回抽奖箱,再进行第二次抽奖;
方案二:共进行两次抽奖,第一次抽奖后将球不放回抽奖箱,直接进行第二次抽奖.
会员甲欲参加本次抽奖活动,请从中奖次数的期望与方差的角度分析,会员甲选择哪种方案较好?
附:,其中.
【答案】(1)列联表答案见解析,有
(2)方案一,理由见解析
【知识点】独立性检验解决实际问题、方差的实际应用、完善列联表、均值的实际应用
【分析】(1)根据题中信息完善列联表,计算出的观测值,结合临界值表可得出结论;
(2)设会员甲按照方案一、方案二抽奖的中奖次数分别为、,分别计算出、、、,比较与、与的大小关系,可得结论.
【详解】(1)根据题中信息得到如下列联表:
会员类型
会员性别
合计
男性会员
女性会员
尊享会员
星级会员
合计
由表格中的数据可得,
所以,依据小概率值的独立性检验,可以认为会员类型与性别有关.
(2)设会员甲按照方案一、方案二抽奖的中奖次数分别为、,
对于方案一,则随机变量的可能取值有、、,
会员甲每次中奖的概率为,则,
所以,,,
对于方案二,则随机变量的可能取值有、、,
,,
,
所以,随机变量的分布列如下表所示:
所以,,
,
所以,会员甲选择方案一较好.
【典例3】(24-25高三上·江苏扬州·期中)中国是茶的故乡,茶文化源远流长,博大精深.某兴趣小组,为了了解当地居民对喝茶的态度,随机调查了100人,并将结果整理如下:
不喜欢喝茶
喜欢喝茶
合计
35岁以上(含35岁)
30
30
60
35岁以下
25
15
40
合计
55
45
100
(1)是否有90%的把握认为该地居民喜欢喝茶与年龄有关?
(2)以样本估计总体,用频率代替概率.该兴趣小组在当地喜欢喝茶的人群中,随机选出2人参加茶文化艺术节.抽取的2人中,35岁以下的人数记为,求的分布列与期望.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)没有90%的把握认为该地居民喜欢喝茶与年龄有关
(2)分布列见解析,
【知识点】写出简单离散型随机变量分布列、卡方的计算、求离散型随机变量的均值、独立性检验解决实际问题
【分析】(1)根据列联表计算得出的值即可得出结论;
(2)易知的所有取值可能为0,1,2,分别计算出对应概率可得分布列及其期望值.
【详解】(1)零假设为:该地居民喜欢喝茶与年龄没有关系.
根据列联表中的数据,可以求得.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,
即没有90%的把握认为该地居民喜欢喝茶与年龄有关.
(2)的取值可能为0,1,2.
则;;.
所以的分布列为:
0
1
2
所以的期望为.
【变式1】(2025高三·全国·专题练习)为研究某种疫苗的效果,现对名志愿者进行了实验,得到如下数据:
未感染病毒
感染病毒
合计
接种疫苗
未接种疫苗
合计
根据小概率值的独立性检验,分析疫苗是否有效?
参考公式:,其中.
参考数据:.
【答案】疫苗有效,此推断犯错误的概率不大于
【知识点】独立性检验解决实际问题、卡方的计算
【分析】由列联表计算公式算出随机变量的值,根据参考数据判断疫苗是否有效.
【详解】零假设为:接种疫苗与未接种疫苗与感染病毒无关,即疫苗无效.
根据列联表可得.
因为当假设成立时,,
所以根据小概率值的独立性检验,我们推断不成立,
即疫苗有效,此推断犯错误的概率不大于.
【变式2】(24-25高三上·黑龙江牡丹江·阶段练习)随着科技的进步和人民生活水平的提高,电脑已经走进了千家万户,成为人们生活、学习、娱乐的常见物品,便携式电脑(俗称“笔记本”)也非常流行.某公司为了研究“台式机”与“笔记本”的受欢迎程度是否与性别有关,在街头随机抽取了50人做调查研究,调查数据如下表所示.
男性
女性
合计
喜欢“台式机”
20
5
25
喜欢“笔记本”
10
15
25
合计
30
20
50
(1)依据小概率值的独立性检验,分析喜欢哪种机型与性别是否有关?
(2)该公司针对男性客户做了调查,某季度男性客户中有青年324人,中年216人,老年108人,用按比例分配的分层随机抽样的方法选出12人,又随机抽出3人进行答谢,这3人中的青年人数设为随机变量,求的分布列与数学期望.
附:,其中.
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)喜欢哪种机型与性别有关
(2)分布列见解析,
【知识点】独立性检验解决实际问题、超几何分布的分布列、超几何分布的均值
【分析】(1)由题意,代入公式求出,将其与临界值进行对比,进而得出结论.
(2)根据分层抽样确定各层人数,写出随机变量的所有可能取值,求出对应概率,即可得到分布列,再根据期望公式求解即可.
【详解】(1)零假设为:喜欢哪种机型与性别无关.
由表中数据可得,
根据小概率值的独立性检验可知零假设不成立,即可以认为喜欢哪种机型与性别有关.
(2)由题意,,则12人中有青年人6人,中年人4人,老年人2人,
所以的所有可能取值为0,1,2,3,
,
,
则分布列为
0
1
2
3
.
【变式3】(24-25高二上·黑龙江哈尔滨·期中)随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择名青年游客对哈尔滨出行体验进行满意度评分(满分分),分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;
(2)若采用按比例分层抽样的方法从评分在,的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的4人中评分等级为良好的人数X的分布列和数学期望;
(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120名.请根据小概率值的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.
附:,
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1),
(2)分布列见解析,
(3)无法认为游客的评分等级是否良好与年龄段有关.
【知识点】总体百分位数的估计、超几何分布的分布列、超几何分布的均值、独立性检验解决实际问题
【分析】(1)根据频率和为计算出的值;先判断出上四分位数所在区间,然后结合区间端点值以及该组的频率完成计算;
(2)先根据分层抽样计算出每组抽取的人数,然后确定出的可取值并计算对应概率,由此可求分布列和数学期望;
(3)根据已知条件得到对应列联表,然后计算出的值并与对应比较大小,由此得到结论.
【详解】(1)由频率分布直方图可知,,解得;
因为的频率为,且为最后一组,
所以评分的上四分位数位于区间中,
所以上四分位数为:;
(2)评分在与两组的频率分别为,
所以内抽取人数为,内抽取人数为,
故人中评分等级为良好的有人,
由题意可知,的可取值为,
,,,
所以的分布列为:
数学期望;
(3)青年游客评分等级良好的有人,所以老年游客评分等级良好的有人,
由上可得如下列联表,
青年游客
老年游客
总计
评分等级良好
评分等级非良好
总计
零假设:游客的评分等级是否良好与年龄段无关,
由表中数据可得,
根据小概率值的独立性检验,可知零假设成立,
即无法认为游客的评分等级是否良好与年龄段有关.
A夯实基础 B能力提升
A夯实基础
一、单选题
1.(24-25高三上·上海·单元测试)对于独立性检验,下列说法中错误的是( )
A.的值越大,说明两事件相关程度越大
B.的值越小,说明两事件相关程度越小
C.时,则在犯错误的概率不超过0.05的前提下认为事件与有关
D.时,则可以大概率认为事件与有关
【答案】C
【知识点】卡方的计算、独立性检验的基本思想
【分析】结合观测值计算公式,因越大,的值就越大,从而两事件关系越强,否则越弱;理解观测值的意义可知,当时,零假设不成立,即认为事件与有关,否则当时,没有充分理由说明零假设不成立,即认为事件与无关.
【详解】对于A,B,因观测值,的值越大,越大,事件A与事件B关系越强;反之,事件A与事件B关系越弱,故A,B项均正确;
对于C,D,因只有时,说明在犯错误的概率不超过0.05的前提下认为事件与有关,而,故C错误;D正确.
故选:C.
2.(2025高三·全国·专题练习)下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
【答案】C
【知识点】完善列联表
【分析】根据联表计算求参即可.
【详解】因为.所以.又,所以.
故选:C.
3.(24-25高三·上海·课堂例题)某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【答案】D
【知识点】完善列联表
【分析】根据题意先得出的值,进而再得的值,进而可知的值.
【详解】因为抽取的村民中,老年人有25名,年轻人有25名,所以,
所以,A、B对;
所以,则对;
则错.
故选:.
4.(23-24高二下·福建宁德·阶段练习)利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用2×2列联表,由计算可得,参照下表:得到的正确结论是( )参考数据:临界值表
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.有99%以上的把握认为“爱好该项运动与性别无关”
B.有99%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”
【答案】B
【知识点】独立性检验的基本思想、独立性检验解决实际问题
【分析】根据与临界值比较即可求解.
【详解】因为,,
所以有99%以上的把握认为“爱好该项运动与性别有关”.
故选:B.
5.(2024高三·全国·专题练习)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下,可以认为“是否对主办方表示满意与运动员的性别有关”;③在犯错误的概率不超过的前提下,不可以认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
【答案】B
【知识点】卡方的计算、计算古典概型问题的概率、独立性检验解决实际问题
【分析】先根据表格计算满意的男性运动员的概率为判断①,再根据判断②③即可.
【详解】因为对主办方表示满意的男性运动员的人数为,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,
又因为,
所以在犯错误的概率不超过的前提下,不可以认为“是否对主办方表示满意与运动员的性别有关”;所以命题②错误,命题③正确.
故选:B.
6.(2024高三·全国·专题练习)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
根据表中数据,以下叙述正确的是:( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
【答案】C
【知识点】卡方的计算、独立性检验解决实际问题
【分析】利用卡方计算公式求得,再利用独立性检验中的意义即可得解.
【详解】由题意,得12.5,
则,所以有的把握认为“吸烟与患肺癌有关有关”.
故选:C.
7.(23-24高二下·黑龙江哈尔滨·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
【答案】B
【知识点】卡方的计算、独立性检验解决实际问题、完善列联表
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
30
15
45
非篮球迷
45
10
55
合计
75
25
100
所以,
所以在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关,
即有的把握认为是否是篮球迷与性别有关,
又,所以没有的把握认为是否是篮球迷与性别有关.
故选:B.
8.(23-24高二下·山东枣庄·期末)学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
【答案】D
【知识点】独立性检验解决实际问题、卡方的计算
【分析】根据等高堆积条形图即可判断A,B选项,计算出的值即可判断C,D选项.
【详解】对于A,由等高堆积条形图可知,参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数少,故A错误;
对于B,全校学生中男生和女生人数比不确定,故不能确定全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多,故B错误;
对于C,结合等高堆积条形图可得:
性别
游泳
合计
喜欢
不喜欢
男生
0.6n
0.4n
n
女生
0.4n
0.6n
n
合计
n
n
2n
故,
若,则,
故依据的独立性检验,不可以认为游泳运动的喜好和性别有关,故C错误;
对于D,若,则,
依据的独立性检验,可以认为游泳运动的喜好和性别有关,故D正确.
故选:D
二、多选题
9.(23-24高二下·河南漯河·期中)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
【答案】AD
【知识点】独立性检验解决实际问题
【分析】分别求出男生和女生经常锻炼的频率即可依据频率稳定于概率的原理判断,求出卡方值,和3.841比较即可根据小概率值的独立性检验判断.
【详解】由表可知,女生有21人,其中经常锻炼的有7人,频率为,
男生有19人,其中经常锻炼的有11人,频率为,
因为,依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响,故A正确,B错误;
,所以根据小概率值的独立性检验,
没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响,故D正确,C错误.
故选:AD
10.(23-24高二下·重庆·阶段练习)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法抽取足够样本后对治疗情况进行检查,得到两种疗法治疗数据的列联表后,经计算得到,则可以认为( )
A.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果没有差异
B.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果存在差异
C.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果没有差异
D.根据小概率值的独立性检验(已知独立性检验中),两种疗法的效果存在差异
【答案】BC
【知识点】独立性检验的概念及辨析、独立性检验解决实际问题
【分析】利用给定的,与、比较即可.
【详解】零假设为两种疗法相互独立,且两种疗法的效果没有差异,
因为,故根据小概率值的独立性检验,两种疗法的效果存在差异,故A错误,B正确,
因为,故根据小概率值的独立性检验,两种疗法的效果没有差异,故C正确,D错误,
故选:BC
三、填空题
11.(24-25高三·上海·随堂练习)为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取50名学生,得到如下列联表,则 .(结果精确到0.001)
喜欢数学
不喜欢数学
总计
男
13
10
23
女
7
20
27
总计
20
30
50
【答案】
【知识点】卡方的计算
【分析】根据图表,利用的计算公式,即可求出结果.
【详解】因为,
所以,
故答案为:.
12.(23-24高二下·河南信阳·期末)为了研究高三学生的性别和身高是否大于170cm的关联性,调查了高三学生200名,得到如下列联表:
性别
身高
合计
低于170cm
不低于170cm
女
80
20
100
男
30
70
100
合计
110
90
200
根据列联表的数据,计算得 ;依据小概率值 的独立性检验,认为“高三学生的性别和身高有关联”.
附:临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】 50.505 0.001
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据给定的列联表求出的观测值,再与临界值表进行对比,即可判断高三学生的性别和身高有关联.
【详解】,
根据小概率值的独立性检验,认为“高三学生的性别和身高有关联”.
故答案为:50.505;0.001.
四、解答题
13.(24-25高三上·上海·期中)学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
【答案】(1)列联表见解析,有关;
(2)分布列见解析,.
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、完善列联表、求离散型随机变量的均值
【分析】(1)根据题意,补全列联表,求得,结合附表,即可得到结论;
(2)根据题意,得到随机变量的可能有0,1,2,3,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)这100位学生中,“公序良俗”达人有20人,由此补全列联表如下:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
13
30
43
女性
7
50
57
总计
20
80
100
零假设:“公序良俗”达人与性别无关,
可得,
所以根据小概率值的独立性检验,我们可推断不成立,即认为“公序良俗”达人与性别有关.
(2)由题意,随机变量的可能有,,,,
可得,
,
,
,
所以的分布列如下:
0
1
2
3
所以数学期望.
14.(2024·四川绵阳·一模)近年来,解放军强军兴军的深刻变化,感召了越来越多的高中优秀青年学子献身国防,投身军营.2024年高考,很多高考毕业学生报考了军事类院校.从某地区内学校的高三年级中随机抽取了900名学生,其中男生500人,女生400人,通过调查,有报考军事类院校意向的男生、女生各100名.
(1)完成给出的列联表,并分别估计该地区高三男、女学生有报考军事类院校意向的概率;
有报考意向
无报考意向
合计
男学生
女学生
合计
(2)根据小概率值的独立性检验,能否认为学生有报考军事类院校的意愿与性别有关.
参考公式及数据:.
α
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,男生有报考军事类院校意向的概率为,女生有报考军事类院校意向的概率为
(2)能认为学生有报考军事类院校的意愿与性别有关
【知识点】独立性检验解决实际问题、计算古典概型问题的概率、完善列联表
【分析】(1)先填写列联表,再根据古典概型概率计算公式求得正确答案.
(2)计算的知识,从而作出判断.
【详解】(1)根据已知条件,填写列联表如下:
有报考意向
无报考意向
合计
男学生
100
400
500
女学生
100
300
400
合计
200
700
900
男生有报考军事类院校意向的概率为,
女生有报考军事类院校意向的概率为.
(2),
所以能认为学生有报考军事类院校的意愿与性别有关.
15.(24-25高三上·河北·阶段练习)为了解某校男生1000米测试成绩与身高的关系,从该校2000名男生中随机抽取100人,得到测试成绩与身高的数据如下表所示:
身高范
围(cm)测试成绩
合格
3
12
18
22
15
不合格
2
9
5
5
9
(1)该校2000名男生中身高在175cm及以上的人数约为多少?
(2)根据表中数据,依据小概率值的独立性检验,分析体育成绩合格与身高在范围内是否有关.
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)1020
(2)有关.
【知识点】独立性检验解决实际问题、用频率估计概率
【分析】(1)利用样本的频率估计总体概率,计算相应的频数即可.
(2)列出列联表,计算,进行判断即可.
【详解】(1)样本中,身高在175cm及以上的频率为:,
用该频率估计该校男生身高在175cm及以上的概率,
则该校2000名男生中身高在175cm及以上的人数约为:(人).
(2)列列联表如下:
身高在
身高不在
合计
合格
40
30
70
不合格
10
20
30
合计
50
50
100
所以,
因为,
所以依据小概率值的独立性检验,体育成绩合格与身高在范围内有关.
16.(2024高三·全国·专题练习)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议,为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列列联表,并判断是否有99%的把握认为该“校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级
高三
合计
优秀
非优秀
合计
300
附:.
参考数据:
0.100
0.050
0.010
0.005
2.706
3.841
6.635
7.879
【答案】(1)5.8,300
(2)列联表见解析,有握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”
【知识点】频率分布直方图的实际应用、由频率分布直方图估计平均数、完善列联表、独立性检验解决实际问题
【分析】(1)根据频率分布直方图即可估算该校学生每周平均体育运动时间,首先算出人中,高一年级每周平均体育运动时间不足4小时的人数,再根据,求解即可.
(2)根据题意完成列联表,再计算,利用独立性检验即可得解.
【详解】(1)该校学生每周平均体育运动时间为.
样本中高一年级每周平均体育运动时间不足4小时的人数为(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为(人).
(2)人中,高一、高二、高三平均体育运动时间不少于6小时,
共有人,
所以基础年级平均体育运动时间不少于6小时共有人,
基础年级平均体育运动时间少于6小时共有人,
高三年级平均体育运动时间少于6小时共有人,
列联表如下:
基础年级
高三
合计
优秀
105
30
135
非优秀
105
60
165
合计
210
90
300
假设该校学生的每周平均体育运动时间是否优秀与年级无关,则
.
又,所以有握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
B能力提升
17.(2024·吉林长春·一模)某医学研究团队经过研究初步得出检测某种疾病的患病与否和某项医学指标有关,利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性(患病),小于或等于的人判定为阴性(未患病).此检测标准的漏诊率是将患病者判定为阴性的概率;误诊率是将未患病者判定为阳性的概率.
(1)随机抽取男女各500人进行检验,采用临界值进行判定时,误判共10人(漏诊与误诊之和),其中2男8女,写出列联表,依据小概率值的独立性检验,能否认为误判与性别有关?
(2)经过大量调查,得到如下的患病者和未患病者该指标的频率分布表:
指标
[95,100]
(100,105]
(105,110]
(110,115]
(115,120]
(120,125]
(125,130]
患病者频率
0.01
0.06
0.17
0.18
0.2
0.2
0.18
指标
[70,75]
未患病者频率
0.19
0.2
0.2
0.18
0.17
0.05
0.01
假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.若漏诊率和误诊率同时控制在以内(小于等于),求临界值的范围;
(3)在(2)条件下,求出误判率(漏诊率与误诊率之和)最小时的临界值及对应的误诊率和漏诊率.
附:
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析;无关
(2)
(3);误诊率为,漏诊率为
【知识点】独立性检验解决实际问题、总体百分位数的估计、完善列联表、卡方的计算
【分析】(1)依题意列出列联表,将数据代入卡方公式,根据卡方值与对应的小概率值比较即可判断误判与性别的相关程度;
(2)分别根据漏诊率和误诊率都小于,结合频率分布表,先判断临界值所在组别,再利用百分位数的定义,建立满足的不等式,继而得到临界值的范围;
(3)结合频率分布表分段写出误判率的表达式,即可求解.
【详解】(1)依题意,列出列联表为:
误判人数
未误判人数
总计
男性人数
2
498
500
女性人数
8
492
500
总计
10
990
1000
由上表,,
故可以认为,依据小概率值的独立性检验,没有充分的证据证明零假设不成立,即认为误判与性别无关;
(2)因漏诊率小于等于,由频率分布表可知,临界值应在内,
依题意,有;
又因误诊率小于等于,由频率分布表可知,临界值应在内,
依题意,有.
综上,临界值的范围为;
(3)由(2)已得,设误判率为,
当时,,
当时,
,
所以当时,误判率最小,
相应的误诊率为,漏诊率为:.
【点睛】关键点点睛:本题证据要考查独立性检验、百分位数的应用,属于较难题.
解决通过统计图表求百分位数的问题,需要正确理解相关概念的具体含义,结合统计表或分布图表,列出相应的方程或不等式求解.
18.(23-24高二下·浙江温州·期中)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号
1
2
3
4
5
学习时间x
30
40
50
60
70
数学成绩y
65
78
85
99
108
(1)求数学成绩与学习时间的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步
有进步
合计
参与周末在校自主学习
35
130
165
未参与周末不在校自主学习
25
30
55
合计
60
160
220
附:方差:相关系数:
回归方程中斜率和截距的最小二乘估计公式分别为,,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)答案见解析
(3)答案见解析
【知识点】卡方的计算、根据回归方程进行数据估计、求回归直线方程、相关系数的计算
【分析】(1)根据题意分别求出,,代入到相关系数:,求得结果即可;
(2) 知接近1,故与之间具有极强的线性相关关系,根据已知条件代入求解即可,,最后代入即可求得;
(3)计算出与临界值比较可得出周末在校自主学习与成绩进步是否有关.
【详解】(1),,
又的方差为,
,
,
.
(2)由(1)知接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合:,
,
,故当时,,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
(3)零假设:周末在校自主学习与成绩进步无关,
根据数据,计算得到:
,
因为,所以依据的独立性检验,可以认为“周末自主学习与成绩进步”有关.
原创精品资源学科网独家享有版权,侵权必究!13
学科网(北京)股份有限公司
$$