内容正文:
训练(十三) 独立性检验
1.列联表
列联表是一个描述两个分类变量分布的________.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
构造一个随机变量χ2=,其中n=____________为样本容量.
2.独立性检验
利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,简称独立性检验.
要推断“X与Y有关系”,可按下面的步骤进行:
(1)提出假设H0:X与Y没有关系;
(2)根据2×2列联表与公式计算χ2的值;
(3)根据临界值,做出判断.
例如:
①若χ2>10.828,则有99.9%的把握认为“X与Y有关系”;
②若χ2>6.635,则有99%的把握认为“X与Y有关系”;
③若χ2>2.706,则有90%的把握认为“X与Y有关系”;
④若χ2≤2.706,则认为没有充分的证据显示“X与Y有关系”,但也不能得出结论“H0成立”,即X与Y没有关系.
一、选择题
1.判断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是( )
A.三维柱形图 B.二维条形图 C.等高条形图 D.独立性检验
2.假设有两个变量X和Y,它们的取值分别为和,其2×2列联表为( )
y1
y2
x1
a
b
x2
c
d
根据以下选项中的数据计算χ2的值,其中χ2最大的一组为( )
A.a=60,b=50,c=40,d=30 B.a=60,b=40,c=50,d=30
C.a=40,b=30,c=50,d=60 D.a=30,b=40,c=50,d=60
3.为研究高中生的性别与是否喜欢数学课程之间的关系,运用2×2列联表进行检验,经计算χ2=8.069,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
α
0.1
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
A.0.1% B.1% C.99% D.99.9%
4.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法
疗效
未治愈
治愈
合计
甲
15
52
67
乙
6
63
69
合计
21
115
136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验(已知χ2独立性检验中x0.005=7.879),则可以认为( )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.095
5.古语云:“朝霞不出门,晚霞行千里”,其意思是如果早晨起来看到天边有朝霞的话,今天的天气可能不佳,会下雨,要引起重视,若是傍晚看到天边的晚霞,第二天很有可能有一个好天气,天气晴朗.某学习小组针对“朝霞不出门”这一句的可信度进行了观测统计,得到如下2×2列联表.
有朝霞
无朝霞
合计
当天有雨
8
8
16
当天无雨
2
12
14
合计
10
20
30
参考公式:χ2=.
临界值参照表:
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
则下列说法正确的是( )
A.如果有朝霞,当天下雨的概率超过95%
B.能在犯错概率不超过5%的前提下,认为有朝霞与当天下雨有关
C.能在犯错概率不超过0.5%的前提下,认为有朝霞与当天下雨有关
D.连续三天中必有一天出现朝霞
6.下列论述错误的是( )
A.若随机事件A,B满足:P=,P=,P=,则事件A与B相互独立
B.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,即可以认为X和Y独立
C.若随机变量ξ,η满足η=2ξ+1,则D(η)=2D(ξ)+1
D.若y关于x的线性回归方程为=0.3-0.7x,则样本点(2,-1.1)在回归直线上
7.(多选)某研究机构为了探究过量饮酒与患疾病A是否有关,调查了400人,得到如图所示的2×2列联表,其中b=12a,则( )
患疾病A
不患疾病A
合计
过量饮酒
3a
b
不过量饮酒
a
2b
合计
400
参考公式与临界值表:χ2=.
α
0.100
0.050
0.010
0.001
xα
2.706
3.841
6.635
10.828
A.任意一人不患疾病A的概率为0.9
B.任意一人不过量饮酒的概率为
C.任意一人在不过量饮酒的条件下不患疾病A的概率为
D.依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关
8.(多选)下列说法正确的是( )
A.公式S=4πR2中的S和R不具有线性相关关系
B.已知变量X,Y的n对数据为(x1,y1),(x2,y2),…,(xn,yn),则回归直线=x+可以不经过点(,),其中=(x1+x2+…+xn),=(y1+y2+…+yn)
C.相关系数r的绝对值越接近1,则两个变量的线性相关性越强
D.对于变量A与B的统计量χ2来说,χ2越大,判断“A与B有关系”的把握越大
二、填空题
9.第31届世界大学生运动会举行期间,组委会安排了100名志愿者担任对外翻译工作,在下面“性别与会法语”的2×2列联表中,a+b+d=_______________.
会法语
不会法语
合计
男
a
b
40
女
12
d
合计
36
100
10.以“智联世界,生成未来”为主题的2023世界人工智能大会在中国上海举行,人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查人们对人工智能所持的态度,某机构从所在地区随机调查100人,所得结果统计如下:
年龄在50岁以上(含50岁)
年龄在50岁以下
性别
男
女
男
女
持支持态度
15
10
30
15
不持支持态度
10
10
5
5
____(填“有”或“没有”)99%的把握认为所持态度与年龄有关.
11.某公司人力资源部为了解员工的工作积极性和对待公司改革态度的关系,调查了75名员工,得到以下2×2列联表:
支持改革情况
工作态度
积极
欠积极
合计
支持
40
20
60
不支持
5
10
15
合计
45
30
75
根据统计结果,认为“平时工作态度积极和支持公司改革有关”犯错误的概率不超过__________.
附:χ2=,其中n=a+b+c+d.
P(χ2≥x0)
0.10
0.05
0.005
0.001
x0
2.706
3.841
7.879
10.828
三、解答题
12.通常人们认为语文作文成绩与课外阅读习惯(阅读习惯分为良好和不够良好两类)有很大关联,为了研究这个看法是否可信,某课外研究小组从学校一次期中测试语文作文成绩优秀的学生中随机调查了200人,同时在语文作文成绩不够优秀的学生中也随机调查了200人,得到如下数据:
语文作文成绩
课外阅读习惯
不够良好
良好
合计
优秀
60
140
200
不够优秀
180
20
200
合计
240
160
400
(1)在这400名学生中按照课外阅读习惯良好与否进行分层随机抽样,抽取20名学生了解学生的行为习惯形成的原因,再从这20名学生中任选3人进行面对面访谈,求这3名学生中至少有1人课外阅读习惯良好的概率;
(2)根据小概率值α=0.001的独立性检验,能否认为语文作文成绩与课外阅读习惯有关联?
附:χ2=,n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
13.乒乓球,被称为中国的“国球”.某中学对学生参加乒乓球运动的情况进行调查,将每周参加乒乓球运动超过2小时的学生称为“乒乓球爱好者”,否则称为“非乒乓球爱好者”,从调查结果中随机抽取100份进行分析,得到数据如表所示:
乒乓球爱好者
非乒乓球爱好者
合计
男
40
56
女
24
合计
100
(1)补全2×2列联表,并判断我们能否有99%的把握认为是否为“乒乓球爱好者”与性别有关?
(2)为了解学生的乒乓球运动水平,现从抽取的“乒乓球爱好者”学生中按性别采用分层抽样的方法抽取3人,与体育老师进行乒乓球比赛,其中男乒乓球爱好者获胜的概率为,女乒乓球爱好者获胜的概率为,每次比赛结果相互独立,记这3人获胜的人数为X,求X的分布列和数学期望.
P(χ2≥x0)
0.05
0.010
0.005
0.001
x0
3.841
6.635
7.879
10.828
参考公式:χ2=,n=a+b+c+d.
1.(2022·新高考Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
40
60
对照组
10
90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:R=·;
(ⅱ)利用该调查数据,给出P(A|B),P(A|)的估计值,并利用(ⅰ)的结果给出R的估计值.
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
2.(2018·全国Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
答案
训练(十三) 独立性检验
【知识整合】
1.频数表 a+b+c+d
【知能演练】
1.D 2.C 3.B 4.C 5.B 6.C
7.ACD 由已知得4a+3b=400,又b=12a,
所以a=10,b=120.
任意一人不患疾病A的概率为=0.9,所以A正确;
任意一人不过量饮酒的概率为=,所以B错误;
任意一人在不过量饮酒的条件下不患疾病A的概率为=,所以C正确;
对于D,2×2列联表如下:
患疾病A
不患疾病A
合计
过量饮酒
30
120
150
不过量饮酒
10
240
250
合计
40
360
400
则χ2的观测值χ2==≈26.67,由于26.67>10.828,
依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关,所以D正确.
8.ACD A,公式S=4πR2中的S和R为二次函数关系,故不具有线性相关关系,A正确;B,回归直线=x+一定经过样本中心点,即(,),B错误;C,相关系数r的绝对值越接近1,则两个变量的线性相关性越强,C正确;D,对于变量A与B的统计量χ2来说,χ2越大,判断“A与B有关系”的把握越大,D正确.
9.解析 根据表格中的数据,因为志愿者的总人数为100,所以a+b+d+12=100,解得a+b+d=88.
答案 88
10.有
11.解析 提出假设H0:平时工作态度积极和支持公司改革无关,
根据列联表中的数据可以求得
χ2==≈5.556>3.841,
故认为“平时工作态度积极和支持公司改革有关”犯错误的概率不超过0.05.
答案 0.05
12.解析 (1)由题意知,抽取的20人中课外阅读良好的人有20×=8人,课外阅读不够良好的人有20×=12人,
则从20人中抽取3人,3人课外阅读习惯都不够良好的概率为P1==,
所以从20人中抽取3人,3名学生中至少有1人课外阅读习惯良好的概率为P=1-P1=1-=.
(2)提出假设H0:语文作文成绩与课外阅读习惯无关联,
根据列联表中的数据可以求得
χ2==150>10.828,
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,
故根据小概率值α=0.001的独立性检验,认为语文成绩与课外阅读习惯有关联.
13.解析 (1)依题意可得2×2列联表如下:
乒乓球爱好者
非乒乓球爱好者
合计
男
40
16
56
女
20
24
44
合计
60
40
100
根据列联表中的数据可以求得
χ2==≈6.926>6.635,
故有99%的把握认为是否为“乒乓球爱好者”与性别有关;
(2)由(1)得抽取的3人中3×=2人为男生,3×=1人为女生,
则X的可能取值为0,1,2,3,
所以P(X=0)=××=,
P(X=1)=C×××+××=,
P(X=2)=2×+C×××=,
P(X=3)=××=,
所以X的分布列为
X
0
1
2
3
P
所以E(X)=0×+1×+2×+3×=.
【真题体验】
1.解析 (1)假设患该疾病群体与未患该疾病群体的卫生习惯没有差异,
则K2==24>6.635,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(ⅰ)证明 R=·=·=·=·
=·=·,得证.
(ⅱ)由调查数据可知P(A|B)==,
P(A|)==,
则P(|B)=1-P(A|B)=,P(|)=1-P(A|)=,所以R=·=6.
2.解析 (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5(分钟),用第二种生产方式的工人完成生产任务所需时间的中位数为73.5(分钟).因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,
所以有99%的把握认为两种生产方式的效率有差异.
学科网(北京)股份有限公司
$$