内容正文:
专题09 独立性检验
知识点1 分类变量
分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量;
知识点2 列联表
列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,X表示相互对立的两个事件{X=0}和{X=1},Y表示相互对立的两个事件{Y=0}和{Y=1},其中a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数,n是样本量,其样本频数列联表(称为2×2列联表)如表所示:
关于分类变量X和Y的抽样数据的2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
知识点3 独立性检验
(1)小概率值α的临界值:对于任何小概率值α,可以找到相应的正实数xα,使得关系P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大;
(2)χ2的计算公式:χ2=;
(3)独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验;
(4)基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立(其中xα为α的临界值);
知识点4 应用独立性检验解决实际问题的步骤
①提出零假设H0:X和Y相互独立,并给出在问题中的解释;
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
③根据检验规则得出推断结论;
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
(6)独立性检验中几个常用的小概率值和相应的临界值:
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
考点1 分类变量与列联表
【例1】(多选)根据如图所示的等高堆积条形图,下列叙述正确的是 ( )
A.吸烟患肺病的频率约为0.2
B.吸烟不患肺病的频率约为0.8
C.不吸烟患肺病的频率小于0.05
D.吸烟与患肺病无关系
【答案】ABC
【解析】从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A、B、C都正确.
【总结】分类变量的两种统计表示形式
(1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱;
(2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联强弱.
【变式1-1】如下是一个2×2列联表,则m+n= .
X
Y
合计
y1
y2
x1
a
35
45
x2
7
b
n
合计
m
73
s
【答案】62
【解析】根据2×2列联表可知a+35=45,解得a=10,则m=a+7=17,又由35+b=73,解得b=38,则n=7+b=45,故m+n=17+45=62.
【变式1-2】为考察A,B两种药物预防某疾病的效果,进行药物实验,分别得到如下等高堆积条形图:
根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
【答案】B
【解析】从等高堆积条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.
【变式1-3】为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:
男
女
合计
爱好
a
b
73
不爱好
c
25
合计
74
则a-b-c等于( )
A.7 B.8 C.9 D.10
【答案】C
【解析】根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,
∴a-b-c=52-21-22=9.
【变式1-4】如表是2×2列联表,则表中的a,b的值分别为( )
y1
y2
合计
x1
a
8
35
x2
11
34
45
合计
b
42
80
A.27,38 B.28,38 C.27,37 D.28,37
【答案】A
【解析】a=35-8=27,b=a+11=27+11=38.
考点2 分类变量关联性的判断
【例2】某科研机构为了研究中年人秃发与患心脏病是否有关,随机调查了一些中年人