内容正文:
8.3 列联表与独立性检验
8.3.1 分类变量与列联表
第八章
成对数据的统计分析
人教A版选择性必修第三册·高二
章节导读
成对数据的统计相关性
变量的相关关系
样本相关系数
一元线性回归模型及其应用
列联表与独立性检验
一元线性回归模型
一元线性回归模型参数的最小二乘估计
分类变量与列联表
独立性检验
学 习 目 标
1
2
3
通过实例,理解 列联表的统计意义
能根据所给出的分类变量准确列出 列联表,提升数据分析的核心素养
掌握判断两个分类变量之间是否有关系的常用方法
情景导入
吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日.
为什么将世界无烟日改为5月 31日呢?是因为第二天是国际儿童节,希望下一代免受烟草危害.
世界无烟日的意义是宣扬不吸烟的观念。而每年皆会有一个中心主题.
2026年是第39个世界无烟日.
2019年世界无烟日的重点是“烟草和肺部健康”
吸烟是否会增加患肺癌的风险?
怎样用数学知识说明呢?
新知导入
例如 ,就读不同学校是否对学生的成绩有影响 , 不同班级学生用于体育锻炼的时间是否有差别 , 吸烟是否会增加患肺癌的风险 , 等等 , 本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.
在讨论上述问题时 , 为了表述方便 , 我们经常会使用一种特殊的随机变量 , 以区别不同的现象或性质 , 这类随机变量称为分类变量.
新知探究
变量
数值变量
分类变量
分类变量与数值变量之间的区别是什么?
数值变量的取值为实数.
其大小和运算都有实际含义.
例如:人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等
两个数值变量之间的关系:回归分析法;
由一个变量的变化去推测另一个变量的变化
分类变量的取值可以用实数来表示;
这些数值只作为编号使用,用来表示不同的类别;
并没有通常的大小和运算意义。
例:性别、是否吸烟、是否患肺癌、国籍等
例如,学生所在的班级可以用1,2,3等表示,
男性、女性可以用1,0表示
本节主要讨论取值于{0,1}的分类变量的关联性.
新知探究
问题1 为了有针对性地提高学生体育锻炼的积极性, 某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼; 601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
如何利用统计数据判断一对分类变量之间是否具有关联性呢? 对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法. 我们先看下面的具体问题.
方法1:(由频率估计概率)
结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼.
新知探究
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一 种解答方法.
方法2:(借助条件概率)
用Ω表示该校全体学生构成的集合,则Ω为样本空间,定义一对分类变量X和Y如下: 对于Ω中的每一名学生,分别令
若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为 而该男生属于经常锻炼群体的概率为
我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题
性别对体育锻炼的经常性没有影响:
性别对体育锻炼的经常性有影响:
新知探究
为了清楚起见,我们用表格整理数据,如下表所示.
1124
804
320
合计
601
473
128
男生(X=1)
523
331
192
女生(X=0)
经常(Y=1)
不经常(Y=0)
合计
锻炼
性别
{X=0, Y=1}:事件{X=0}和{Y=1}的积事件
{X=1, Y=1}:事件{X=1}和{Y=1}的积事件
结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼.
新知探究
在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.
在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断.(用样本估计总体)
新知探究
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.
列联表
我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
以上表为例, 2×2列联包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件 {X=0}和 {X=1}中样本点的个数 ;
中间的四个格给出了事件{X=x, Y=y}(x, y=0, 1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数.
核心部分
典例分析
例1 为比较甲、 乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据: 甲校43名学生中有10 名数学成绩优秀; 乙校45名学生中有7名数学成绩优秀. 试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用Ω表示两所学校的全体学生构成的集合. 考虑以Ω为样本空间的古典概型.
对于Ω中每一名学生,定义分类变量X和Y如下:
我们将所给数据整理成2×2列联表(单位:人).
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0)
乙校(X=1)
合计
43
45
88
33 10
38 7
71 17
典例分析
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
还可以用等高堆积条形图直观地展示上述计算结果:
通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.
依据频率稳定于概率的原理,我们可以推断:
P(Y=1|X=0)>P(Y=1|X=1) .
因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
新知探究
问题2 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.
有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.
这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.
后面我们将讨论犯这种错误的概率大小问题.
巩固练习
课本127页
1. 成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联. 你能举出更多的描述生活中两种属性或现象之间关联的成语吗?
解:例如水涨船高、登高望远等.
2. 例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?
解:不能. 因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性. 在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误. 因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率.
巩固练习
课本127页
3. 根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语. 那么
(1) 吸烟是否对每位烟民一定会引发健康问题?
(2) 有人说吸烟不一定引起健康问题,因此可以吸烟. 这种说法对吗?
解:(1) 从已掌握的知识来看,吸烟会损害身体的健康. 但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果. 吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者. 因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.
(2) 这种说法不正确. 虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
巩固练习
课本127页
4. 假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
性别 锻炼 合计
不经常 经常
女生 5 15 20
男生 6 18 24
合计 11 33 44
(1) 据此推断性别因素是否影响学生锻炼的经常性;
(2) 说明你的推断结论是否可能犯错,并解释原因.
解: (1)根据列联表中的数据,计算得男女生中不经常锻炼和经常锻炼的频率分别为
通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1). 因此,可以认为性别对体育锻炼的经常性没有影响.
(2) 推断可能犯错误. 因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
分类变量
题型一
题型探究
【例1】(1)在吸烟与患肺病是否有关系的研究中的两个分类变量是 ( )
C
A. 吸烟,不吸烟 B. 患肺病,不患肺病
C. 是否吸烟,是否患肺病 D. 以上都不对
(2)下列变量中不是分类变量的是( )
B
A. 职业 B. 成绩
C. 是否每年体检 D. 血型
2×2列联表
题型二
题型探究
【例2】户外运动已经成为一种时尚运动,某单位为了解员工喜欢户外运动是否与
性别有关,从本单位全体员工中采用分层随机抽样的方法抽取50人进行了问卷调查,
调查结果如表所示.(单位:人)
性别 户外运动 合计
喜欢 不喜欢
男 5
女 10
合计 50
已知在这50人中随机抽取1人,抽到喜欢户外
运动的员工的概率是 ,求上面的列联表中
各字母的值.
[解答] 由题意可知,喜欢户外运动的员工人数为 ,即
,故 ,
, ,
, .
综上,,,,,, .
2×2列联表
题型二
题型探究
提分笔记
列联表主要起到统计数据的作用,对于列联表的完善问题,
一般由列联表(或实际情境)列出符合要求的方程(组),通过解方
程(组)解题.
等高堆积条形图的应用
题型三
题型探究
【例3】为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长
的吸烟情况,数据如表所示:(单位:人)
子女吸烟情况 父母吸烟情况 合计
吸烟 不吸烟
吸烟 237 83 320
不吸烟 678 522 1 200
合计 915 605 1 520
利用等高堆积条形图判断父母吸烟对子女吸烟是否有影响.
等高堆积条形图的应用
题型三
题型探究
[解析] 等高堆积条形图如下:
由图可知,子女吸烟中父母吸烟的频率要比子女不吸烟中父母吸烟的频率高,
因此可以在某种程度上认为父母吸烟对子女吸烟有影响.
等高堆积条形图的应用
题型三
题型探究
提分笔记
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判定两个分类变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
分类变量与列联表的实际应用
题型四
题型探究
【例4】在对人们的休闲方式的一次调查中,共调查了110人,其中女性50人,男
性60人.女性中有30人的主要休闲方式是看电视,另外20人的主要休闲方式是运动;
男性中有20人的主要休闲方式是看电视,另外40人的主要休闲方式是运动.
(1)根据以上数据建立一个 列联表;
[解析] 列联表如下:
单位:人
性别 主要休闲方式 合计
看电视 运动
女 30 20 50
男 20 40 60
合计 50 60 110
分类变量与列联表的实际应用
题型四
题型探究
(2)由列联表判断性别与主要休闲方式是否有关系.
[解析] 根据列联表中的数据,
可得女性的主要休闲方式是看电视的频率为,
男性的主要休闲方式是看电视的频率为 ,
二者差别较大,可知性别与主要休闲方式有关系.
分类变量与列联表的实际应用
题型四
题型探究
提分笔记
利用 列联表分析两变量间关系的步骤
(1)根据题中数据获得 列联表;
(2)根据频率特征,即将与 的值相比,直观地反映出两个分类变量之间是否相互影响.
课堂达标
1.观察下列各图,其中两个分类变量, 有关系的可能性最大的是 ( )
D
A. B. C. D.
[解析] 观察等高堆积条形图发现,D中与中的 的占比相差最大,
所以D中两个分类变量有关系的可能性最大.故选D.
课堂达标
2.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样的方法在校园内调查了
120名学生,数据如表所示:
单位:人
性别 体育锻炼 合计
爱好 不爱好
男 74
女 25
合计 73 120
则 ( )
C
A. 7 B. 8 C. 9 D. 10
[解析] 根据题意可得,, ,
, .故选C.
课堂达标
3. 根据如图所示的等高堆积条形图可知吸烟与患肺病_____关系(填“有”或“没有”).
有
[解析] 从等高堆积条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率,所以吸烟与患肺病有关系.
课堂小结
1. 分类变量
用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
2. 列联表
将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
感谢聆听!
$