内容正文:
8.3 列联表与独立性检验
一 数值变量与分类变量
数值变量:数值变量的取值为实数,其大小和运算都有实际含义.
分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.
注意点:
分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.
变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.
二 列联表
(1)2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是样本容量.
(2)等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
三 分类变量与列联表的实际应用
利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
四 独立性检验的理解
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.χ2=,其中n=a+b+c+d.
注意点:
(1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
根据所给的观测值,与所给的临界值表中的数据进行比较,即可得出结论.
五 有关“相关的检验”
用χ2进行“相关的检验”步骤
(1)零假设:即先假设两变量间没关系.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
六 有关“无关的检验”
运用独立性检验的方法
(1)列出2×2列联表,根据公式计算χ2.
(2)比较χ2与xα的大小作出结论.
考点一 列联表
【例1】(2020·全国)现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列哪个统计结论是不正确的( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
【练1】(2020·全国)为考察高中生的性别与是否喜欢数学课程之间的关系,利用2×2列联表进行检验,经计算K2的观测值k=7.069,参考下表,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过( )
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.001 B.0.01 C.0.99 D.0.999
考点二 独立性检验
【例2】(2020·广西)某地区为了解学生课余时间的读书情况,随机抽取了n名学生进行调查,将调查得到的学生日均课余读书时间分成,,,,,六组,绘制成如图所示的频率分布直方图,将日均课余读书时间不低于40分钟的学生称为“读书之星”,日均课余读书时间低于40分钟的学生称为“非读书之星”已知抽取的样本中日均课余读书时间低于10分钟的有10人.
(1)求p和n的值;
(2)根据已知条件和下面表中两个数据完成下面的列联表,并判断是否有95%以上的把握认为“读书之星”与性别有关?
非读书之星
读书之星
总计
男
女
10
55
总计
(3)将本次调查所得到有关事件发生的频率视为其发生的概率,现从该地区大量学生中.随机抽取20名学生参加读书与文学素养的研讨会,记被抽取的“读书之星”人数为随机变量X,求X的