内容正文:
8.3 列联表与独立性检验
[核心素养·学习目标]
课程标准
课标解读
1. 了解分类变量与数值变量的区别,了解回归与相关的区
别;
2.通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性. 理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.
3. 理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.
本节课要求会通过比较相关比率,判断两个随机变量的独立性. 会对简单的数据分析案例进行初步独立性分析.恰当构造卡方统计量及利用小概率事件原理实现对两个分类变量的是否独立的科学检验.能解决简单的与独立性检验相关的实际问题.
课前预习
预习01分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为 .
分类变量的取值可以用 表示.
预习02 2×2列联表
1.2×2列联表给出了成对分类变量数据的交叉分类频数.
2.定义一对分类变量X和Y,我们整理数据如下表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
像这种形式的数据统计表称为2×2列联表.
预习03独立性检验
1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称 .
2.χ2=,其中n=a+b+c+d.
3.独立性检验解决实际问题的主要环节
(1)提出 H0:X和Y相互独立,并给出在问题中的解释.
(2)根据 整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
知识讲解
知识点01数值变量与分类变量
数值变量:数值变量的取值为实数,其大小和运算都有实际含义.
分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
注意点:
分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.
变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.
知识点02列联表
(1)2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是样本容量.
(2)等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
知识点03分类变量与列联表的实际应用
利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
知识点04独立性检验的理解
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.,其中n=a+b+c+d.
注意点:
(1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
根据所给的观测值,与所给的临界值表中的数据进行比较,即可得出结论.
知识点05有关“相关的检验”
用χ2进行“相关的检验”步骤
(1)零假设:即先假设两变量间没关系.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
知识点06有关“无关的检验”
运用独立性检验的方法
(1)列出2×2列联表,根据公式计算χ