内容正文:
4.3.2 独立性检验
课程标准
素养解读
1.通过实例,理解2×2列联表的统计意义
2.通过实例,了解2×2列联表独立性检验及其应用
1.通过2×2列联表统计意义的学习,体会数学抽象的素养
2.借助χ2计算公式进行独立性检验,培养数学运算和数据分析的素养
[情境引入]
一则“双黄连口服液可抑制新冠病毒”消息热传后,引起部分市民抢购.人民日报官微称,抑制不等于预防和治疗,勿自行服用.上海专家称是否有效还在研究中.
问题:如何判断其有效?如何收集数据?收集哪些数据?
[知识梳理]
[知识点一] 2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
因为这个表格中,核心数据是中间4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2= ,
其中n= a+b+c+d .
[知识点二] 独立性检验
(1)分类变量X和Y独立:如果这些性质成立,
{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.
我们就称X与Y独立.
(2)独立性检验
①小概率值α的临界值:对于任何小概率值α,可以找到相应的正实数x0,使得下面的关系成立P(χ2≥xα)=α,我们称xα为α的临界值.这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
②独立性检验:用χ2的取值推断分类变量X与Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
③基于小概率值α的检验规则:
当χ2≥x0时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<x0时,我们没有充分证据推断H0不成立,可以认为X和Y独立.(其中x0为α的临界值)
④应用独立性检验解决实际问题包括的主要环节:
a.提出零假设H0:X和Y相互独立,并给出问题中的解释;
b.根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x0比较;
c.根据经验规则得出推断结论;
d.在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
⑥独立性检验中几个常用的小概率值和相应的临界值:
χ
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
独立性检验与反证法有什么相似之处?
提示:独立性检验的基本思想与反证法的思想的相似之处
反证法
独立性检验
要证明结论A
要确认“两个分类变量有关系”
在A不成立的前提下进行推理
假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算χ2
[预习自测]
1.判断正误(正确的打“√”,错误的打“×”)
(1)列联表中的数据是两个分类变量的频数.( )
(2)对事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)χ2的大小是判断事件A与B是否相关的统计量.( )
答案:(1)√ (2)× (3)√
2.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765 D.χ2=5.014
解析:D [∵5.014>3.841,故D正确.]
3.(一题两空)下面是2×2列联表.
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
则表中a=________,b=________.
解析:a=73-21=52,b=a+2=52+2=54.
答案:52 54
2×2列联表
[例1] 在调查的480名男生中有38名患有色盲,520名女性中有6名患有色盲,试作出性别与色盲的列联表.
[思路点拨] 根据2×2列联表的特点作表.
解:根据题目所给的数据作出如下的列联表:
色盲
性别
患色盲
不患色盲
总计
男
38
442
480
女
6
514
520
总计
44
956
1 000
分清类别是作列联表的关键步骤,对所给数据要明确属于哪一类.[变式训练]
1.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213名.请作出考前心情紧张与性格的列联表.
解:作表如下:
性格情况
考前心情是否紧张
性格
内向
性格
外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
由χ2进行独立性检验
[例2] 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
总计
需要
40
30
70
不需要
160
270
430
总计
200
300
500
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者帮助与性别有关?
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为×100%=14%.
(2)χ2=≈9.967.
因为9.976>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
独立性检验的具体做法
1.根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.
2.利用公式χ2=计算随机变量χ2.
3.如果χ2≥χα推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
[变式训练]
2.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人感记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
感冒情况
使用血清情况
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1 000
解:假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=≈7.075.
χ2=7.075>6.635,P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
独立性检验的综合应用
[例3] 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的2×2列联表:
是否喜欢打篮球
性别
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
[思路点拨] (1)由古典概型的概率求得2×2列联表.
(2)计算χ2,判断P(x2>3.841)=0.05是否成立.
(3)结合超几何分布求解.
解:(1)列联表如下:
是否喜欢打篮球
性别
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由χ2=≈4.286.
因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.其概率分别为
P(X=0)==,P(X=1)==,
P(X=2)==,
故X的分布列为
X
0
1
2
P
X的均值为E(X)=0++=1.
1.解决独立性检验问题的基本步骤
2.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
[变式训练]
3.某出租汽车公司决定更换一批小汽车以代替原来的报废出租车,现有A,B两款车型的使用寿命(单位:年)频数表如下:
使用寿命/年
5
6
7
8
合计
A型出租车/辆
10
20
45
25
100
B型出租车/辆
15
35
40
10
100
(1)填写下表,并依据小概率值α=0.01的独立性检验,分析出租车的使用寿命与汽车车型是否有关联.
车型
使用寿命
合计
不高于6年
不低于7年
A型
B型
合计
(2)司机师傅小李准备在一辆开了4年的A型车和一辆开了4年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明他应如何选择.
解:(1)零假设为H0:出租车的使用寿命与汽车车型之间无关联.
根据题目所给数据得到如下2×2列联表:
车型
使用寿命
合计
不高于6年
不低于7年
A型
30
70
100
B型
50
50
100
合计
80
120
200
所以χ2=≈8.333>6.635=x0.01.
依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为出租车的使用寿命与汽车车型有关联,此推断犯错误的概率不大于0.01.
(2)记事件A为“小李选择A型车,3年内(含3年)不换车”,事件B为“小李选择B型车,3年内(含3年)不换车”,
所以P(A)==0.7,P(B)==0.5.
因为P(A)>P(B),所以小李应选择A型车.
[当堂达标]
1.利用独立性检验来考查两个变量A,B是否有关系,当随机变是χ2的值( )
A.越大,“A与B有关系”成立的可能性越大
B.越大,“A与B有关系”成立的可能性越小
C.越小,“A与B有关系”成立的可能性越大
D.与“A与B有关系”成立的可能性无关
解析:A [用独立性检验来考查两个分类是否有关系时,算出的随机变量χ2的值越大,说明“A与B有关系”成立的可能性越大,由此可知A正确.故选A.]
2.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得到“吸烟与患肺癌有关系”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患有肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
解析:D [独立性检验的结论是一个数学统计量,它与实际问题中的确定性是存在差异的.]
3.为了判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
总计
男
13
10
23
女
7
20
27
总计
20
30
50
根据表中数据,得到χ2=≈4.844.则认为选修文科与性别有关系出错的可能性约为________.
解析:由χ2公式计算得χ2≈4.844>3.841,
故认为选修文科与性别有关系出错的可能性约为0.05.
答案:0.05
4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算得χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________.(填“有关的”或“无关的”)
解析:χ2=27.63>6.635,有99%以上的把握认为这两个量是有关的.
答案:有关的
5.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
解:(1)列表如下:
休闲方式
性别
看电视
运动
总计
女
43
27
70
男
21
33
54
总计
64
60
124
(2)χ2=≈6.201,
∵χ2>3.841且χ2<6.635,
∴有95%的把握认为性别与休闲方式有关.
学科网(北京)股份有限公司
$$