内容正文:
8.3 列联表与独立性检验
8.3.1 分类变量与列联表
第八章 成对数据的统计分析
[学习目标] 1.通过实例,理解2×2列联表的统计意义. 2.掌握判断两个分类变量是否有关系的常用方法. 3.能利用等高堆积条形图、2×2列联表探讨两个分类变量的关系.
知识点1 分类变量与列联表
内容索引
知识点2 2×2列联表
课时作业 巩固提升
知识点3 等高堆积条形图
课堂达标·素养提升
3
知识点1 分类变量与列联表
1.分类变量:区别不同的 的随机变量称为分类变量.
(1)分类变量是大量存在的,如是否吸烟,商品的等级等.
(2)分类变量的取值是离散的,可以用 表示.主要讨论取值于
的分类变量.
现象或性质
实数
{0,1}
2.2×2列联表:如果随机事件X与Y的样本数据如下表格形式:
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
X Y 合计
Y=0 Y=1
X=0 a b
X=1 c d
合计
a+b
c+d
a+c
b+d
a+b+c+d
[例1] 某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检 每年未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是( )
A.a=18 B.b=19
C.c+d=50 D.f-e=-2
[分析] 已知抽取的老年人、年轻人各有25名,计算各个变量的值,进而得到答案.
D
[解析] 因为a+7=c=25,6+b=d=25,
a+6=e,7+b=f,e+f=50,c+d=50,
所以a=18,b=19,e=24,f=26,f-e=2.
清楚2×2列联表中各字母的含义是关键.
思维提升
1.下列变量中不属于分类变量的是( )
A.性别
B.某医院逐年的就诊人数
C.教育水平
D.某药物的疗效
跟踪训练
B
解析:性别有男、女之分,教育水平有小学、初中、高中等,某药物的疗效有无效、有效之分;B项中,某医院逐年的就诊人数为数值变量.
2.下面是一个2×2列联表,则表中a,c处的值分别为( )
y1 y2 总计
x1 a 25 73
x2 21 b c
总计 d 49
A.98,28 B.28,98
C.48,45 D.45,48
答案:C
解析:由2×2列联表知:a+25=73,b+25=49,b+21=c,解得a=48,b=24,c=45.
知识点2 2×2列联表
2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.
[解] 2×2列联表如表:
饮食习惯 年龄 合计
六十岁以上 六十岁以下
以蔬菜为主 43 21 64
以肉类为主 27 33 60
合计 70 54 124
思维提升
3.在对人们的休闲方式的一次调查中,共调查了110人,其中女性50人,男性60人.女性中有30人主要的休闲方式是看电视,另外20人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外40人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)由列联表判断性别与休闲方式是否有关系.
跟踪训练
解:(1)2×2的列联表:
性别 休闲方式 合计
看电视 运动
女 30 20 50
男 20 40 60
合计 50 60 110
知识点3 等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据
的原理,我们可以推断结果.
频率稳定于概率
[例3] 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.请利用等高堆积条形图判断学生学习成绩与经常上网是否有关.
[分析] 根据已知条件列出列联表,计算经常上网和不经常上网的学生的期末考试不及格和及格的频率,画出等高堆积条形图,从图观察发现经常上网学生的成绩不及格的频率明显高于不经常上网学生的成绩不及格的频率,即得结论.
[解] 根据题目所给的数据得到2×2列联表:
学习成绩 上网 合计
经常 不经常
不及格 80 120 200
及格 120 680 800
合计 200 800 1000
得出等高堆积条形图如图所示:
比较图中阴影部分的高度可以发现经常上网学生的成绩不及格的频率明显高于不经常上网学生的成绩不及格的频率,因此可以认为学习成绩与经常上网有关.
利用等高堆积条形图判断两个分类变量是否相关的步骤:
思维提升
4.当某矿石粉厂生产一种矿石粉时,在数天内就有部分工人患职业性皮肤炎,在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的工人中5例阳性,70例阴性,28名穿旧防护服的车间工人中10例阳性,18例阴性,请用等高堆积条形图判断这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)
跟踪训练
解:2×2列联表如表所示:
防护服 皮肤炎 合计
阳性例数 阴性例数
穿新防护服 5 70 75
穿旧防护服 10 18 28
合计 15 88 103
相应的等高堆积条形图如图所示:
图中两个深色的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率高于穿新防护服呈阳性的频率.因此,可以认为新防护服对预防这种皮肤炎有效.
〈课堂达标·素养提升〉
1.下表是一个2×2列联表,则表中a,b的值分别为( )
A.46,54 B.54,46
C.52,54 D.50,52
X Y 合计
y1 y2
x1 b 21 e
x2 c 25 33
合计 a d 100
B
解析:由表格中的数据可得c=33-25=8,d=21+25=46,所以a=100-46=54,b=54-8=46.
2.已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},观察下列各图,其中两个分类变量X,Y之间关系最强的是( )
D
3.某校为研究该校学生性别与体育锻炼的经常性之间的联系,随机抽取100名学生(其中男生60名,女生40名),并绘制得到如图所示的等高堆积条形图,则这100名学生中经常锻炼的人数为________.
68
解析:由等高堆积条形图进行数据分析,这100名学生中经常锻炼的人数为60×0.8+40×0.5=68.
课时作业 巩固提升
[A组 必备知识练]
1.不可以判断两个变量是否有关系的是( )
A.散点图 B.列联表
C.等高条形图 D.频率分布直方图
1
2
3
4
5
6
7
8
9
10
11
12
D
解析:对于A,根据散点图可以判断两个变量间相关性的强弱,故A正确;
对于B,对于列联表,可以判断两个变量是否有关系,故B正确;
对于C,用等高条形图可以粗略地判断两个变量是否有关,故C正确;
对于D,频率分布直方图是反映样本的频率分布规律,不能反映是否相关,故D错误.
1
2
3
4
5
6
7
8
9
10
11
12
2.(多选)甲、乙两个班级进行数学考试,按照成绩大于或等于85分为优秀,小于85分为非优秀统计成绩,得到如表所示的列联表(单位:人):
1
2
3
4
5
6
7
8
9
10
11
12
班级 成绩 合计
优秀 非优秀
甲班 10 b
乙班 c 30
合计 105
1
2
3
4
5
6
7
8
9
10
11
12
BD
1
2
3
4
5
6
7
8
9
10
11
12
3.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高堆积条形图:
1
2
3
4
5
6
7
8
9
10
11
12
根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
解析:从等高堆积条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.
1
2
3
4
5
6
7
8
9
10
11
12
B
4.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
年龄 节目 合计
文艺节目 新闻节目
20至40岁 40 18 58
大于40岁 15 27 42
合计 55 45 100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________.(填“是”或“否”)
1
2
3
4
5
6
7
8
9
10
11
12
是
1
2
3
4
5
6
7
8
9
10
11
12
5.为考察某种药物预防疾病的效果,进行动物试验,得到2×2列联表如表所示.
试用等高堆积条形图判断服用药与患病之间是否有关联.
1
2
3
4
5
6
7
8
9
10
11
12
患病 未患病 合计
服用药 10 45 55
没有服用药 20 30 50
合计 30 75 105
解:相应的等高堆积条形图如图所示.
从图形可以看出,服用药的样本中患病的比例明显低于没有服用药的样本中患病的比例,因此可以认为服用药与患病之间有关联.
1
2
3
4
5
6
7
8
9
10
11
12
6.如表是A,B两所中学的学生对报考某类大学的意愿的列联表:
根据表中的数据回答:A,B两所中学的学生对报考某类大学的态度是否有显著差异?
1
2
3
4
5
6
7
8
9
10
11
12
中学 意愿 合计
愿意报考某类大学 不愿意报考某类大学
A中学 18 37 55
B中学 38 57 95
合计 56 94 150
1
2
3
4
5
6
7
8
9
10
11
12
[B组 关键能力练]
7.(多选)如图是调查某地区男、女中学生喜欢数学的等高堆积条形图,阴影部分表示喜欢数学的百分比,从图可以看出( )
A.性别与喜欢数学无关
B.女生中喜欢数学的百分比为80%
C.男生比女生喜欢数学的可能性大些
D.男生不喜欢数学的百分比为40%
1
2
3
4
5
6
7
8
9
10
11
12
CD
解析:由题图可知,女生喜欢数学的占20%,男生喜欢数学的占60%,男生不喜欢数学的百分比为40%,故B错误,D正确;显然性别与喜欢数学有关,故A错误;男生比女生喜欢数学的可能性大些,故C正确.
1
2
3
4
5
6
7
8
9
10
11
12
8.(多选)已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:
1
2
3
4
5
6
7
8
9
10
11
12
X Y 合计
Y=y1 Y=y2
X=x1 a b a+b
X=x2 c d c+d
合计 a+c b+d a+b+c+d
1
2
3
4
5
6
7
8
9
10
11
12
AB
1
2
3
4
5
6
7
8
9
10
11
12
9.下面是一个2×2列联表:
则表中a,b处的值分别为________;________.
1
2
3
4
5
6
7
8
9
10
11
12
X Y 合计
Y=0 Y=1
X=0 a 21 73
X=1 8 25 33
合计 b 46
52
60
解析:根据已知条件,结合列联表之间的数据关系,由表中数据可知,a+21=73,所以a=73-21=52;b=a+8=52+8=60.
1
2
3
4
5
6
7
8
9
10
11
12
10.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人,则抽取的男生人数为________.
1
2
3
4
5
6
7
8
9
10
11
12
15
1
2
3
4
5
6
7
8
9
10
11
12
11.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
分数段 29~40 41~50 51~60 61~70 71~80 81~90 91~100
午休考生人数 23 47 30 21 14 31 14
不午休考生人数 17 51 67 15 30 17 3
(1)根据上述表格完成列联表:
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
1
2
3
4
5
6
7
8
9
10
11
12
13
是否午休 成绩 合计
及格 不及格
午休
不午休
合计
解:(1)根据题表中数据可以得到2×2列联表如表:
1
2
3
4
5
6
7
8
9
10
11
12
是否午休 成绩 合计
及格 不及格
午休 80 100 180
不午休 65 135 200
合计 145 235 380
1
2
3
4
5
6
7
8
9
10
11
12
[C组 素养培优练]
12.为了研究高三年级学生的性别和身高是否大于170 cm的问题,得到某中学高三年级学生的性别和身高的所有观测数据所对应的列联表如表:
单位:人
1
2
3
4
5
6
7
8
9
10
11
12
性别 身高 合计
低于170 cm 不低于170 cm
女 81 16 97
男 28 75 103
合计 109 91 200
(1)请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.
(2)身高变量是数值型变量还是分类变量?为什么?
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
[例2] 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
[分析] 利用2×2列联表研究两类变量之间是否有关系.
将表中数据代入公式得
=≈0.67,==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×2列联表时,关键是对涉及的变量分清类别,计算时要准确无误.
2.利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
(2)根据列联表中的数据,可得女性中休闲方式为看电视的频率为=0.6,男性中休闲方式为看电视的频率为≈0.333,二者差别较大,可知性别与休闲方式有关系.
经常上网的学生中期末考试不及格和及格的频率分别为=0.4和=0.6;
不经常上网的学生中期末考试不及格和及格的频率分别为=0.15和=0.85.
解析:等高条形图中和相差越大,两个分类变量之间关系越强.
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30 B.列联表中c的值为20
C.列联表中b的值为35 D.列联表中b的值为45
解析:∵在全部105人中随机抽取1人,成绩优秀的概率为,∴成绩优秀的人数为105×=30,成绩非优秀的人数为105-30=75,∴c=30-10=20,b=75-30=45.
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
解:A中学愿意报考某类大学的比率为fA=≈0.327;
B中学愿意报考某类大学的比例为fB=≈0.4;
∵fB-fA≈0.4-0.327=0.073,即B中学愿意报考某类大学的比例比A中学高了7.3%,
∴A,B两所中学的学生对报考某类大学的态度有显著差异,且B中学更愿意报考.
若两个分类变量X,Y没有关系,则下列结论正确的是( )
A.ad≈bc
B.≈
C.≈
D.≈
解析:因为分类变量X,Y没有关系,所以≈,化简得ad≈bc,所以A,B正确,C,D显然不正确.
解析:根据等高堆积条形图可知:喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,所以喜欢徒步的总人数为300+160=460.按分层随机抽样的方法抽取23人,则抽取的男生人数为×23=15.
(2)计算可知,午休的考生及格率为p1==,不午休的考生的及格率为p2==,则p1>p2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
解:(1)女学生身高低于170 cm,不低于170 cm的频率分别为≈0.835,≈0.165,
男学生身高低于170 cm,不低于170 cm的频率分别为≈0.272,≈0.728,
则列联表的等高堆积条形图为
通过比较发现,如果从女生男生中各随机选取一名学生,女生中身高低于170 cm的概率大于男生中身高低于170 cm的概率,故该中学高三年级学生的性别和身高有关联,
又≈3.07,故女生中身高低于170 cm的频率是男生中身高低于170 cm的频率的3倍以上.
(2)身高变量是数值型变量,因为身高可以取不同的数值.
$$