内容正文:
2022-2023学年高一数学同步精品课堂(沪教版2020选修第二册)
第8章成对数据的统计分析
8.3 2×2列联表(第1课时)
1
1.了解 探究分类变量之间关系的方法
2.制作、理解 2×2列联表,用频率分析法、图形分析法探究两个分类变量之间的关系
3.能够对统计数据进行简单整理、初步分析提升数学抽象、数据建模及数据分析素养
学习目标
制作:维度小矮人
2
1 2×2列联表独立性检验
在实际问题中经常遇到要证实两类变量是相关的,或者反过
来,证实它们是相互独立的.如何利用取自这两类变量的样本来
判断它们是否相互独立呢?
下面通过案例来加以说明.
某疾病预防中心随机调查了339名50岁以上的公民,研究
吸烟习惯与慢性气管炎患病的关系,调查数据如表8-7所示.
问:患慢性气管炎与吸烟是否相互独立?
表8-7对50岁以上的公民进行了两种分类:按是否吸烟进行分类及按是否患慢性气管炎进行分类.从是否吸烟的角度来看,吸烟的公民是一类,不吸烟的公民是另一类,这种变量的不同“值”表示公民所属的不同类别,这类变量称为分类变量( categoricalvariable )
在表8-7中,两个分类变量分别占两行和两列,形成4个格子,每个格子中的数据是同时满足所在行列对应类别的个体的频数.例如,第1行第1列中的数据121表示“不吸烟同时不患慢性气管炎”的样本人数.这些数据都是通过实际调查得到的,称为观察值.这些观察值形成的2行、2列的频数
表格,称为2行×2列列联表,简称2×2列联表,也称为四格表
由表8- 7中的数据可以计算其中一个分类变量的不同类别在另一个分类变量中的百分比.例如,在不吸烟者中,有9.70%患慢性气管炎,而在吸烟者中,有20.98%患慢性气管炎,两者相差较大.因此,我们可以初步推断:患慢性气管炎可能与吸烟有关,吸烟者患慢性气管炎的可能性更大.但这种推断是否具有统计意义呢?我们有多大把握认为患慢性气管炎与吸烟有关呢?这就需要用到2×2列联表独立性检验方法.
要检验两个随机变量是否有关,统计上一般先假设它们没有关系,即相互独立,再进行统计检验.这种假设称为原假设( null
hypothesis。也称为零假设,习惯上用H0 表示.以上述问题为例,我们提出的原假设是:
H0:患慢性气管炎与吸烟没有关系,即它们相互独立.
要检验上述假设,我们需要对2×2列联表(表8-7)中的观察值与预期值进行比较.预期值是当原假设H0成立时的预期结果.例如,由表8-7可知,总计339位样本公民中有56位患有慢性气管炎,其百分比为
假设患慢性气管炎与吸烟没有关系,那么205位吸烟者中应该有 33.87位患有慢性气管炎,这里的33.87就是原假设H0 成立时计算得到的预期值.我们把这样计算得到的所有预期值与观察值建立表格,就得到表8-8.
为了描述观察值与预期值之间的总体偏差,我们引入统计
量
设有两组分类数据 A 、 B , 每组数据的两种状态分别用 0 和1 表示 ( 如 A 组是 “ 不吸烟者 ”, B 组是 “ 吸烟者 ”; 用 “ 0 ” 表示 “ 不患慢性气管炎者 ”, 用 “ 1 ” 表示 “ 患慢性气管炎者 ”), 则可得到下面的 2×2 列联表 ( 表 8-9 ):
其中,a、b、c、d为实际观察值
由 经过变形可得χ2的一般计算公式
该公式的证明留作习题.
从上面的例子可以看出,2×2列联表独立性检验通常有如下步骤:
(1)提出两个随机变量没有关系的原假设H0.
课本练习
宋老师数学精品工作室
练习 8. 3 ( 1 )
某初中调查了该校 1000 名初三学生最近一次数学测试成绩与课堂注意力表现情况 ,得到下表 :
请根据表中提供的数据判断 : 上课注意力集中与否对学习成绩有影响吗?
宋老师数学精品工作室
随堂检测
宋老师数学精品工作室
1.与表格相比,能更直观地反映出相关数据总体状况的是( )
A.列联表 B.散点图
C.残差图 D.等高堆积条形图
答案 D
2.在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,则性别与喜欢吃甜食的2×2列联表为________.
答案
喜欢吃甜食 不喜欢吃甜食 合计
男 117 413 530
女 492 178 670
合计 609 591 1 200
3