内容正文:
8.3 列联表与独立性检验
1.通过实例,理解2×2列联表的统计意义(重点)
2.通过实例,了解2×2列联表独立性检验及其应用(难点)
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题. 例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等. 本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量. 分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等. 在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义. 本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
分类变量与列联表
问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查. 全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
这是一个简单的统计问题. 最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率. 为了方便,我们设
那么,只要求出 和 的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异. 由所给的数据,计算可得
由
可知,男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法. 用 Ω 表示该校全体学生构成的集合,这是我们所关心的对象的全体. 考虑以 Ω 为样本空间的古典概型,并定义一对分类变量X 和 Y 如下:对于 Ω 中的每一名学生,分别令
我们希望通过比较条件概率 和 回答上面的问题.
按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是 ,而该男生属于经常锻炼群体的概率是 .
因此,“性别对体育锻炼的经常性没有影响”可以描述为
而“性别对体育锻炼的经常性有影响”可以描述为
性别 锻炼 合计
不经常( Y = 0) 经常( Y = 1)
女生( X = 0) 192 331 523
男生( X = 1) 128 473 601
合计 320 804 1124
为了清楚起见,我们用表格整理数据,如下所示
我们用{ X = 0,Y = 1}表示事件{ X = 0}和{ Y = 1}的积事件,用{ X = 1,Y = 1}表示事件{ X = 1}和{ Y = 1}的积事件. 根据古典概型和条件概率的计算公式,我们有
由 大于 可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
在实践中,由于保存原始数据的成本较高,人们经常按照研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将上例中的数据统计表称为 2×2 列联表. 2×2 列联表给出了成对分类变量的交叉分类频数. 它包含了 X 和 Y 的如下信息:最后一行的前两个数分别是事件{Y = 0}和
{Y = 1}中样本点的个数;最后一列的前两个数分别是事件{X = 0}和
{X = 1}中样本点的个数;中间的四个数是表格的核心部分,给出了事件{X = x,Y = y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.
例1. 为了比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下表所示的数据. 试分析两校学生中数学成绩优秀率之间是否存在差异.
学校 数学成绩 合计
不优秀 优秀
甲校 33 10 43
乙校 38 7 45
合计 71 17 88
解:根据表中数据可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为 和 ;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为 和 .依据频率稳定于概率的原理,我们可以推断,