内容正文:
第14讲 列联表与独立性检验
【题型归纳目录】
题型一:用2×2列联表分析两分类变量间的关系
题型二:用等高堆积条形图分析两分类变量间的关系
题型三:有关“相关的检验”
题型四:有关“无关的检验”
题型五:独立性检验的综合应用
【知识点梳理】
1、分类变量
这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种
我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
2、2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
3、等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
4、临界值
χ2 统计量也可以用来作相关性的度量.χ2 越小说明变量之间越独立,χ2越大说明变量之间越相关
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
5、独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
6、应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【典型例题】
题型一:用2×2列联表分析两分类变量间的关系
例1.(2022·全国·高二单元测试)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】D
【解析】
对于两个分类变量与而言,的值越大,说明与有关系的可能性最大,
对于A选项,,
对于B选项,,
对于C选项,,
对于D选项,,
显然D中最大,
故选:D.
例2.(2022·福建·厦门双十中学高二阶段练习(理))在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
A
合计
B
200
800
1000
180
a
180+a
合计
380
800+a
1180+a
A.200 B.720 C.100 D.180
【答案】B
【解析】
解:因为两个分类变量A和B没有任何关系,
所以 ,
代入验证可知 .
故选:B.
题型二:用等高堆积条形图分析两分类变量间的关系
例3.(2022·全国·高二课时练习)下面的等高条形图可以说明的问题是( )
A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的
B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同
C.此等高条形图看不出两种手术有什么不同的地方
D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有的把握
【答案】D
【解析】
由等高条形图可知“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的频率不同,
所以“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有的把握,所以选项D正确,
故选:D.
例4.(2022·全国·高三专题练习)观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
【答案】D
【解析】
观察等高