内容正文:
第03讲 列联表与独立性检验
(
目标导航
)
课程标准
课标解读
1. 了解分类变量与数值变量的区别,了解回归与相关的区
别;
2.通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性. 理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.
3. 理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.
本节课要求会通过比较相关比率,判断两个随机变量的独立性. 会对简单的数据分析案例进行初步独立性分析.恰当构造卡方统计量及利用小概率事件原理实现对两个分类变量的是否独立的科学检验.能解决简单的与独立性检验相关的实际问题.
(
知识精讲
)
知识点
一 数值变量与分类变量
数值变量:数值变量的取值为实数,其大小和运算都有实际含义.
分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
注意点:
分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.
变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.
二 列联表
(1)2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是样本容量.
(2)等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
三 分类变量与列联表的实际应用
利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
四 独立性检验的理解
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.,其中n=a+b+c+d.
注意点:
(1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
根据所给的观测值,与所给的临界值表中的数据进行比较,即可得出结论.
五 有关“相关的检验”
用χ2进行“相关的检验”步骤
(1)零假设:即先假设两变量间没关系.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
六 有关“无关的检验”
运用独立性检验的方法
(1)列出2×2列联表,根据公式计算χ2.
(2)比较χ2与xα的大小作出结论.
【微点拨】1.下表给出了产独立性检验中几个常用的小概车值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
2. 临界值
统计量也可以用来作相关性的度量,越小说明变量之间越独立,越大说明变量之间越相关
.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,这个临界值就可作为判断大小的标准.
【即学即练1】下列说法中不正确的是 ( )
A.独立性检验是检验两个分类变量是否有关的一种统计方法
B.独立性检验得到的结论一定是正确的
C.独立性检验的样本不同,其结论可能不同
D.独立性检验的基本思想是带有概率性质的反证法
【即学即练2】把两个分类变量的频数列出,称为( )
A.三维柱形图 B.二维条形图 C.列联表 D.频率分布直方图
【即学即练3】假设有两个分类变量X与Y,它们的可能取值分别为和,其2×2列联表为:
Y
X
10
18
m
26
则当m取下面何值时,X与Y的关系最弱(