内容正文:
专题11列联表与独立性检验
复
习
概念复习
技巧复习
巩
固
考点一:数值变量与分类变量辨析
考点二:2×2列联表及应用
考点三:等高堆积条形图及应用
考点四:分类变量“相关的检验”
考点五:分类变量“无关的检验”
考点六:独立性检验的综合应用
提
升
难点一:实际问题的应用
难点二:独立性检验与分布列及期望的综合应用
难点三:独立性检验与频率分布直方图的综合应用
难点四:独立性检验与生活热点问题
难点五:独立性检验与统计的综合应用
难点六:独立性检验的综合问题
小测
单选:共6题
多选:共2题
填空:共2题
解答:共3题
一、复习
【概念复习】
1.分类变量与列联表
(1)分类变量:用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等。本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
(2)2×2列联表:在实践中,由于保存原始数据的成本太高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
(3)等高堆积条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
2.独立性检验
(1)零假设:设X和Y为定义在Ω上,取值于{0,1}的成对分类变量。由于{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,故要判断事件{X=1}和{Y=1}之间是否有关联,需要判断假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立.通常称H0为零假设或原假设.
(2)χ2的计算公式:χ2=.
(3)χ2独立性检验:用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验。
(4)基于小概率值α的检验规则:当χ2≥xα时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立。(其中xα为α的临界值)
χ2独立性检验中几个常用的小概率值和相应的临界值.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
(5)应用独立性检验解决实际问题包括的主要环节:
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【技巧复习】
1.数值变量的取值为实数,其大小和运算都有实际含义.
2.分类变量是用随机变量区别不同的现象或性质,分类变量的取值可以用实数表示,变量的不同“值”表示个体所属的不同类别,没有大小和运算意义.
3.作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
4.利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
5.利用等高堆积条形图判断两个分类变量是否相关的步骤:
6.分类变量χ2独立性检验的步骤:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值.
(3)查临界值,结合所给小概率值α,比较χ2与xα的大小.
(4)根据检验规则得出结论.
7.独立性检验的关注点
(1)步骤:列表,计算,比较χ2与临界值χα的大小,判断.
(2)注意两点:①χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.②判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
二、巩固
【考点一】数值变量与分类变量辨析
【典例】下列不是分类变量的是( )
A.近视 B.成绩
C.血压 D.饮酒
【解析】近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,
饮酒变量有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种.故选B.
【变式】下列变量中不属于分类变量的是( )
A.性别 B.吸烟