内容正文:
8.3 列联表与独立性检验
[目标导航]
课标要求 1.通过典型案例的探究,了解独立性检验的基本思想
2.会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际
问题
新知导学·素养启迪
课堂探究·素养培育
当堂即练·素养达成
新知导学·素养启迪
新知梳理
1.分类变量
用以区别不同的现象或性质的随机变量称为分类变量.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
{x1,x2}
2.2×2列联表
假设有两个分类变量X和Y,它们的取值分别为 和 ,其样本频数列联表(也称为2×2列联表)为
{y1,y2}
3.χ2统计量
随机变量χ2= ,其中n= 为样本容量.
4.独立性检验
利用随机变量χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,简称独立性检验.
a+b+c+d
5.独立性检验的应用
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
教材拓展
(1)2×2列联表的特征
(2)在列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0.因此
|ad-bc|越小,说明两个分类变量之间的关系越弱;|ad-bc|越大,说明两个
分类变量之间的关系越强.
小试身手
1.判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是( )
A.2×2列联表 B.独立性检验
C.等高条形图 D.其他
解析:A,C只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度.独立性检验通过计算得出相关的可能性,较为准确.故选B.
B
2.如表是一个2×2列联表,则表中a,b的值分别为( )
解析:a=73-21=52,b=a+22=52+22=74.
C
X Y 合计
y1 y2
x1 a 21 73
x2 22 25 47
合计 b 46 120
A.94,72 B.52,50 C.52,74 D.74,52
3.为考察某种新型流感疫苗对该流感的预防作用,把1 000名注射疫苗的
人与另外1 000名未注射疫苗的人半年的感冒记录做比较,提出假设H0:
“这种疫苗不能起到预防该流感的作用”,并计算得P(χ2≥6.635)≈0.01,则下列说法正确的是( )
A.这种疫苗能起到预防该流感的有效率为1%
B.若某人未使用疫苗,则他在半年中有99%的可能性得该流感
C.有99%的把握认为“这种疫苗能起到预防该流感的作用”
D.有1%的把握认为“这种疫苗能起到预防该流感的作用”
C
解析:因为P(χ2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防该流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防该流感的作用”.故选C.
4.下列说法正确的有 .(填序号)
①χ2的值越大,两个分类变量的相关性越大;
③若求出χ2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.
答案:③④
解析:对于①,χ2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错.对于②,(ad-bc)应为(ad-bc)2,故②错.③④对.
课堂探究·素养培育
探究点一 列联表和等高堆积条形图的应用
[例1] 某学校对高三学生做了一项调查,发现在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格类型是否有关系.
解:列出列联表如下.
单位:人
考前心情 性格 合计
内向 外向
紧张 332 213 545
不紧张 94 381 475
合计 426 594 1 020
相应的等高堆积条形图如图所示.
图中阴影部分表示考前心情紧张与考前心情不紧张的学生中性格内向的学生的比例.从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关.
方法总结
即时训练1-1:观察下列各图,其中两个分类变量x,y之间关系最强的是( )
解析:在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.故选D.
探究点二 独立性检验应用
[例2] 某篮球职业联赛,分为常规赛和季后赛.由于某种原因,今年联赛采用赛会制:所有球队集中在同一个地方比赛,分两个阶段进行,每个阶段采用循环赛,分主场比赛和客场比赛,积分排名前8的球队进入季后赛.下表是A队在常规赛60场比赛中的比赛结果记录表.
单位:场
阶段 比赛场数 主场场数 获胜场数 主场获胜场数
第一阶段 30 15 20 10
第二阶段 30 15 25 15
(1)根据表中数据,完成下面2×2列联表:
单位:场
场地 A队 合计
胜 负
主场 5
客场 20
合计 60
解:(1)根据表格信息得到列联表:
单位:场
场地 A队 合计
胜 负
主场 25 5 30
客场 20 10 30
合计 45 15 60
(2)根据(1)中的2×2列联表,依据小概率值α=0.1 的独立性检验,判断比赛的“主客场”与“胜负”之间是否有关.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
方法总结
(1)两个明确:①明确两类主体.②明确研究的两个问题.
(2)两个关键:①准确列出2×2列联表.②准确理解χ2.
即时训练2-1:某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
单位:人
文化程度 月收入 合计
2 000元以下 2 000元及以上
高中文化以上 9 44 53
高中文化及以下 19 30 49
合计 28 74 102
解析:6.073>3.841=x0.05.故选D.
1.下列有关独立性检验的四个命题,其中不正确的是( )
A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大
B.对分类变量X与Y的随机变量χ2来说,χ2越小,“X与Y有关系”的可信程度越小
C.由独立性检验可知,有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病
D.由独立性检验可知,有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%前提下认为吸烟与患肺癌有关
当堂即练·素养达成
当堂即练
C
解析:对于A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大,所以A正确.
对于B,对分类变量X与Y的随机变量χ2来说,χ2越小,“X与Y有关系”的可信程度越小,所以B正确.
对于C,由独立性检验可知,有95%的把握认为秃顶与患心脏病有关,不是说某人秃顶,那么他有95%的可能患有心脏病,C错误.
对于D,由独立性检验可知,有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,所以D正确.
故选C.
答案:无关 不成立
2.独立性检验所采用的思路是:要研究A,B两类变量彼此相关,首先假设这两类变量彼此 ,在此假设下构造随机变量χ2,如果χ2较大,那么在一定程度上说明假设 .
3.某电视台在一次对收看文艺节目和新闻节目的观众抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示.
单位:人
观众年龄 节目类型 合计
文艺节目 新闻节目
20岁至40岁 40 18 58
大于40岁 15 27 42
合计 55 45 100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关: (填“是”或“否”).
答案:是
课堂小结
1.列联表.
2.独立性检验思想.
3.独立性检验步骤:写出列联表,计算χ2,对照表格得出结论.
点击进入 课时作业
②χ2的计算公式是χ2=,n=a+b+c+d;
进行独立性检验的前提是根据题中数据获得2×2列联表,常用等高堆积条形图展示列联表数据的频率特征,即将与(或与)的值相比,由此能直观地反映出两个分类变量间是否相互影响,但是此方法较粗略.
附:χ2=,n=a+b+c+d.
解:(2)零假设为H0:比赛的“主客场”与“胜负”之间无关.
χ2=≈2.222<2.706=x0.1,
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,即认为比赛的“主客场”与“胜负”之间无关.
由上表中数据计算得χ2=≈6.073,则认为“文化程度与月收入有关系”的独立性检验的α等于( )
A.0.001 B.0.005
C.0.01 D.0.05
解析:因为在20岁至40岁的58名观众中有 18名观众收看新闻节目,而在大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
$$