内容正文:
8.3.1 分类变量与列联表
课标要求
1.通过实例,理解2×2列联表的统计意义(数学抽象).
2.理解判断两个分类变量是否有关系的常用方法(数据分析).
情境导入
有关医学研究表明,许多疾病,如心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为此,联合国固定每年5月31日为世界无烟日.那么这些疾病与吸烟有怎样的关系呢?
知识点一|数值变量与分类变量
问题1 下列变量:人的身高,直尺的长度,民族有什么不同?
提示:人的身高,直尺的长度都是数值变量;民族有汉族,回族等“值”,不同“值”表示个体所属的不同类别.
【知识梳理】
1.数值变量:数值变量的取值为实数,其大小和运算都有实际含义.
2.分类变量:为了表述方便,经常会使用一种特殊的随机变量,以区别不同的 现象 或 性质 ,这类随机变量称为分类变量.
提醒:分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.
【例1】 〔多选〕下列是分类变量的是( ACD )
A.近视 B.成绩 C.血压 D.饮酒
解析: 近视有近视与不近视两种类别,血压有异常、正常两种类别,饮酒有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种.
【规律方法】
1.数值变量的取值为实数,其大小和运算都有实际含义.
2.分类变量是用随机变量区别不同的现象或性质,分类变量的取值可以用实数表示,变量的不同“值”表示个体所属的不同类别,没有大小和运算意义.
训练1 〔多选〕下列变量中属于分类变量的是( ACD )
A.性别
B.某医院逐年的就诊人数
C.宗教信仰
D.某药物的疗效
解析: 性别有男、女之分,宗教信仰有某一宗教的信仰、不信仰之分,某药物的疗效有无效、有效之分;B项中,某医院逐年的就诊人数为数值变量.
知识点二|2×2列联表
问题2 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,其中,不吸烟的7 817人中有42人患肺癌,吸烟的2 148人中有49人患肺癌,试分析吸烟是否对患肺癌有影响.
我们在研究“吸烟与患肺癌的关系”时,需要关注哪些量呢?请补全表格,并完成问题(1)(2).
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
42
7 817
吸烟者
49
2 148
合计
9 965
(1)在非吸烟者中患肺癌的比例为 ;
(2)在吸烟者中患肺癌的比例为 .
提示:吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;不吸烟不患肺癌的人数.
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
7 775
42
7 817
吸烟者
2 099
49
2 148
合计
9 874
91
9 965
(1)0.54% (2)2.28%
说明:吸烟者和非吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.
【知识梳理】
1.列联表定义:观测数据按两个或更多属性进行交叉分类时所列出的频数表,称为列联表.
2.2×2列联表:定义一对分类变量X和Y如下:X=和Y=其样本频数列联表(称为2×2列联表)为:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+
b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的 频数 ;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个格中的数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是 样本容量 .
【例2】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
解:2×2列联表如下:
饮食习惯
年龄
合计
六十岁以上
六十岁以下
以蔬菜为主
43
21
64
以肉类为主
27
33
60
合计
70
54
124
将表中数据代入公式得=≈0.67,==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
【规律方法】
利用2×2列联表分析两变量间关系的步骤
(1)根据题中数据列出2×2列联表;
(2)根据频率特征,即将与(或与)的值相比较,直观地反映出两个分类变量间是否相互影响.
训练2 在对人们的休闲方式的一次调查中,共调查了110人,其中女性50人,男性60人.女性中有30人主要的休闲方式是看电视,另外20人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外40人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
解:(1)2×2列联表如下:
性别
休闲方式
合计
看电视
运动
女
30
20
50
男
20
40
60
合计
50
60
110
(2)由列联表判断性别与休闲方式是否有关系.
解:(2)根据列联表中的数据,可得女性中休闲方式为看电视的频率为=0.6,男性中休闲方式为看电视的频率为≈0.333,二者差别较大,可知性别与休闲方式有关系.
知识点三|等高堆积条形图
问题3 问题2中“调查吸烟是否对患肺癌有影响”,我们能从图形中得到吸烟与患肺癌之间的关系吗?
提示:从等高堆积条形图中可直观地得出吸烟者患肺癌的可能性大.
【知识梳理】
1.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
2.等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
【例3】 (链接教材P126例1)某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中有213名在考前心情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.
解:作列联表如下:
考前心情
性格
合计
内向
外向
紧张
332
213
545
不紧张
94
381
475
合计
426
594
1 020
相应的等高堆积条形图如图所示.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.
从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张的样本中性格内向占的比例高,可以认为考前心情紧张与性格类别有关.
【规律方法】
利用等高堆积条形图判断两个分类变量是否相关的步骤
训练3 某艺术馆为了研究学生性别和喜欢国画之间的联系,随机抽取80名学生进行调查(其中有男生50名,女生30名),并绘制等高堆积条形图如图,则这80名学生中喜欢国画的人数为( D )
A.24 B.32 C.48 D.58
解析: 由等高堆积条形图可知,男生中喜欢国画的占80%,女生中喜欢国画的占60%,则这80名学生中喜欢国画的人数为50×80%+30×60%=58,故选D.
1.与表格相比,能更直观地反映出相关数据总体状况的是( )
A.列联表 B.散点图
C.残差图 D.等高堆积条形图
答案:D
2.下面是一个2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
21
73
X=1
8
25
33
合计
b
46
106
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,60 D.54,52
解析:C 因为a+21=73,所以a=52,b=a+8=52+8=60.
3.根据如图所示的等高堆积条形图可知吸烟与患肺病 有 关系.(填“有”或“没有”)
解析:从等高堆积条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率,所以吸烟与患肺病有关系.
4.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据:对150只动物服用药物,其中132只动物存活,18只动物死亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.请根据以上数据建立一个2×2列联表.
解:2×2列联表如表所示:
类别
治疗效果
合计
存活
死亡
药物治疗
132
18
150
常规治疗
114
36
150
合计
246
54
300
课堂小结
1.理清单
(1)数值变量与分类变量;
(2)2×2列联表;
(3)等高堆积条形图.
2.应体会
利用等高堆积条形图判断两个变量是否相关,体现了数形结合思想.
3.避易错
不理解等高堆积条形图.
1.下表是一个2×2列联表,则表中m,n的值分别为( )
x
y
合计
y1
y2
x1
a
35
45
x2
7
b
n
合计
m
73
s
A.10,38 B.17,45 C.10,45 D.17,38
解析:B 根据2×2列联表可知,a+35=45,解得a=10,则m=a+7=10+7=17,又由35+b=73,解得b=38,则n=7+38=45,故选B.
2.已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},观察下列各图,其中两个分类变量X,Y之间关系最强的是( )
解析:D 等高堆积条形图中和相差越大,两个分类变量之间关系越强.
3.假设有两个分类变量X与Y,它们的可能取值分别为X=和Y=其2×2列联表为:
X
Y
合计
Y=0
Y=1
X=0
10
18
28
X=1
m
26
m+26
合计
10+m
44
m+54
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
解析:C 若X与Y之间没有影响,则有=.解得m≈14.4,所以当m=14时,X与Y的关系最弱.
4.〔多选〕如图是调查某地区男、女中学生喜欢数学的等高堆积条形图,阴影部分表示喜欢数学的百分比,从图中可以看出( )
A.性别与喜欢数学无关
B.女生中喜欢数学的百分比为80%
C.男生比女生喜欢数学的可能性大些
D.男生不喜欢数学的百分比为40%
解析:CD 由题图知女生中喜欢数学的百分比为20%,男生不喜欢数学的百分比为40%,男生比女生喜欢数学的可能性大些,故A、B不正确,C、D正确.
5.〔多选〕随着我国经济结构调整和方式转变,社会对高质量人才的需求越来越大,因此考研现象在我国不断升温.某大学一学院甲、乙两个本科专业,研究生的报考和录取情况如表,则( )
性别
甲专业报
考人数
乙专业报
考人数
甲专业
录取率
乙专业
录取率
男
100
400
25%
45%
女
300
100
30%
50%
A.甲专业比乙专业的录取率高
B.乙专业比甲专业的录取率高
C.男生比女生的录取率高
D.女生比男生的录取率高
解析:BC 由题意可得甲专业录取了男生25人,女生90人,乙专业录取了男生180人,女生50人.甲专业的录取率为=28.75%,乙专业的录取率为=46%,所以乙专业比甲专业的录取率高.男生的录取率为=41%,女生的录取率为=35%,所以男生比女生的录取率高.
6.下表是不完整的2×2列联表,其中3a=c,b=2d,则a= 15 .
X
Y
合计
y1
y2
x1
a
b
55
x2
c
d
合计
120
解析:由题意得又3a=c,b=2d,所以解得a=15.
7.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如表所示:
年龄
电视节目
合计
文艺节目
新闻节目
20至40岁
40
18
58
大于40岁
15
27
42
合计
55
45
100
由表中数据直观分析,收看新闻节目与年龄 有 关联.(填“有”或“无”)
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,则=≈0.310 3,=≈0.642 9,两者相差较大,所以可以在某种程度上认为收看新闻节目与年龄有关联.
8.针对某新型病毒,某科研机构已研发出甲、乙两种疫苗,为比较两种疫苗的效果,选取100名志愿者,将他们随机分成两组,每组50人.第一组志愿者注射甲种疫苗,第二组志愿者注射乙种疫苗,经过一段时间后,对这100名志愿者进行该新型病毒抗体检测,发现有的志愿者未产生该新型病毒抗体,在未产生该新型病毒抗体的志愿者中,注射甲种疫苗的志愿者占.根据上述数据建立一个2×2列联表.
解:由题意可得未产生该新型病毒抗体的志愿者的人数为100×=10,则注射甲种疫苗的志愿者中未产生抗体的人数为10×=2,产生抗体的人数为50-2=48,注射乙种疫苗的志愿者中未产生抗体的人数为10-2=8,产生抗体的人数为50-8=42.所得2×2列联表为:
疫苗类别
是否产生抗体
合计
产生抗体
未产生抗体
甲
48
2
50
乙
42
8
50
合计
90
10
100
9.为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出等高堆积条形图(如图),根据图中的信息,下列结论中不正确的是( )
A.样本中的男生数量多于女生数量
B.样本中喜欢手机支付的数量多于现金支付的数量
C.样本中多数男生喜欢现金支付
D.样本中多数女生喜欢手机支付
解析:C 对于A,由题中左图可知,样本中的男生数量多于女生数量,所以A正确;对于B,由题中右图可知,样本中喜欢手机支付的数量多于现金支付的数量,所以B正确;对于C,由题中右图可知,样本中多数男生喜欢手机支付,所以C不正确;对于D,由题中右图可知,样本中多数女生喜欢手机支付,所以D正确.故选C.
10.〔多选〕户外运动已经成为一种时尚,某单位为了了解员工喜欢户外运动是否与性别有关,从本单位所有员工共计650人中采用分层随机抽样的方法抽取50人进行问卷调查,得到了如下2×2列联表:
性别
户外运动
合计
喜欢
不喜欢
男性
a
5
b
女性
10
c
d
合计
e
f
50
在这50人中随机抽取1人,抽到喜欢户外运动的员工的概率是0.6,则下列说法正确的是( )
A.抽取的50人中喜欢户外运动的有30人
B.a=20,c=15
C.e=30,f=10
D.女性中喜欢户外运动的概率为0.4
解析:ABD 从50人中随机抽取1人,抽到喜欢户外运动的员工的概率是0.6,可得50人中喜欢户外运动的人数为50×0.6=30,即e=30,f=20.因为喜欢户外运动的女性有10人,所以喜欢户外运动的男性有30-10=20(人),即a=20,b=25.因为不喜欢户外运动的男性有5人,所以不喜欢户外运动的女性有20-5=15(人),即c=15,d=25.女性中喜欢户外运动的概率为=0.4.故选A、B、D.
11.如图是调查某学校高三年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人,则抽取的男生人数为 15 .
解析:根据等高堆积条形图可知:喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,所以喜欢徒步的总人数为300+160=460,按分层随机抽样的方法抽取23人,则抽取的男生人数为×23=15.
12.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如表所示:
分数段
29~40
41~50
51~60
61~70
71~80
81~90
91~100
午休考生
人数
23
47
30
21
14
31
14
不午休考
生人数
17
51
67
15
30
17
3
(1)根据上述表格列出是否午休与成绩及格、不及格的2×2列联表;
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
解:(1)根据题表中数据可以得到2×2列联表如下:
是否午休
成绩
合计
及格
不及格
午休
80
100
180
不午休
65
135
200
合计
145
235
380
(2)计算可知,午休的考生及格率为P1==,不午休的考生的及格率为P2==,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应适当午休,以保持最佳的学习状态.
1 / 2
学科网(北京)股份有限公司
$