内容正文:
列联表与独立性检验
(2课时)
问题1 为了有针对性地提高学生体育锻炼的积极性, 某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼; 601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
用Ω表示该校全体学生构成的集合,则Ω为样本空间,定义一对分类变量X和Y如下: 对于Ω中的每一名学生,分别令
1124
804
320
合计
601
473
128
男生(X=1)
523
331
192
女生(X=0)
经常(Y=1)
不经常(Y=0)
合计
锻炼
性别
该校的男生更经常锻炼,性别在体育锻炼的经常性方面有差异.“性别对体育锻炼的经常性有影响”即X与Y有关联
(2025·达州高二期末)某省将从某年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高堆积条形图,根据条形图信息,下列结论正确的是 ( )
C
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理意愿的人数较多
D.样本中男生人数少于女生人数
我们经常会使用一种特殊的随机变量 , 以区别不同的现象或性质 , 这类随机变量称为分类变量.分类变量的取值可以用实数表示 , 在很多时候 , 这些数值只作为编号使用, 并没有通常的大小和运算意义 , 本节我们主要讨论取值于{0 , 1}的分类变量的关联性问题.
列联表
我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
以上表为例, 2×2列联包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件 {X=0}和 {X=1}中样本点的个数 ;
中间的四个格给出了事件{X=x, Y=y}(x, y=0, 1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数.
变式训练
课本127页
假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
性别 锻炼 合计
不经常 经常
女生 5 15 20
男生 6 18 24
合计 11 33 44
(1) 据此推断性别因素是否影响学生锻炼的经常性;
(2) 说明你的推断结论是否可能犯错,并解释原因.
解: (1)根据列联表中的数据,计算得男女生中不经常锻炼和经常锻炼的频率分别为
通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1). 因此,可以认为性别对体育锻炼的经常性没有影响.
(2) 推断可能犯错误. 因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
例1 为比较甲、 乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据: 甲校43名学生中有10 名数学成绩优秀; 乙校45名学生中有7名数学成绩优秀. 试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用Ω表示两所学校的全体学生构成的集合. 考虑以Ω为样本空间的古典概型.
对于Ω中每一名学生,定义分类变量X和Y如下:
我们将所给数据整理成2×2列联表(单位:人).
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0)
乙校(X=1)
合计
43
45
88
33 10
38 7
71 17
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
还可以用等高堆积条形图直观地展示上述计算结果:
通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.
依据频率稳定于概率的原理,我们可以推断:
P(Y=1|X=0)>P(Y=1|X=1) .
因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
{X=0}和{Y=1}独立
寻找更合理的判断方法,同时对犯错的概率进行控制或估算
{X=0}和{Y=0}独立
零假设H0:分类变量独立.
下面四个等式
{X=1}和{Y=1}独立
{X=1}和{Y=0}独立
数学家构造出如下的统计量:
上述表达式是χ2的计算公式, χ2读作“卡方”.
基于小概率值α的检验规则是:
(1)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
(2)当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,简称独立性检验.
寻找更合理的判断方法,同时对犯错的概率进行控制?
怎样判断χ2大小的标准呢?
零假设H0:分类变量独立.
χ2取值较大时推断H0不成立,
χ2取值较小时推断H0成立,
P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
独立性检验.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
独立性检验步骤:
例如,对于小概率值,我们有如下的具体检验规则:
(1)当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和独立.
1.假设:提出零假设H0:X、Y之间无关;
2.列表:列出2×2列联表;
3.计算:根据公式计算出的值,并与临界值进行比较;
4.结论:由临界值比较给出相应结论.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A
A.根据小概率值α=0.005的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值α=0.05的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
零假设H0:爱好跳绳与性别无关
3(45)
3(42)
(2025·聊城高二期末)某学校调查学生对神舟二十号的关注与性别是否有关,随机抽样调查了1 000名学生,进行独立性检验,计算得到χ2≈7.936,依据表中给出的χ2独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是 ( )
A.零假设H0:对神舟二十号的关注与性别独立
B.根据小概率值α=0.005的独立性检验,可以认为对神舟二十号的关注与性别无关
C.根据小概率值α=0.005的独立性检验,可以认为对神舟二十号的关注与性别不独立,此推断犯错误的概率不大于0.005
D.根据小概率值α=0.001的独立性检验,可以认为对神舟二十号的关注与性别独立
α 0.050 0.010 0.005 0.001
xα 3.841 6.635 7.879 10.828
ACD
【例2】依据小概率值的独立性检验,分析上节课例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
解:零假设为:分类变量与相互独立,即两校学生的数学成绩优秀率无差异.根据表中的数据,计算得到.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
α 0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
例1和例2都是基于同一组数据的分析,但却得出了不同的结论,说明其中的原因.
在[例1]只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.
在[例2]中,我们用独立性检验对零假设进行了检验.通过计算,发现小于所对应的临界值2.706,因此认为没有充分证据推断不成立,所以接受,推断出两校学生的数学成绩优秀率没有显著差异的结论,这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的.
因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
【例3】某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解:零假设为:疗法与疗效独立,
即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,如表所示.
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
根据列联表中的数据,经计算得到
.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即两种疗法效果没有差异.
【例4】为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌得风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:零假设为:吸烟与患肺癌之间无关联,根据列联表中的数据,经计算得到.
根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
独立性检验的思想与反证法之间的异同
反证法 独立性检验
先假设结论A不成立 提出零假设
在A不成立的前提下进行推理 在成立的条件下进行推理
推出矛盾,意味着结论A成立 与相矛盾的小概率事件发生,意味着不成立
没有找到矛盾,不能对A下任何结论 与相矛盾的小概率事件没有发生,接受原假设
独立性检验的本质是比较观测值与期望值之间的差异,来判断事件发生的概率大小.由所代表的这种差异的大小是通过确定适当的小概率值进行判断的,这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
课堂小结
2(40)
1.2X2列联表
2.堆积等高条形图
3.独立性检验步骤:
(1)零假设H0:分类变量独立.
(3)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不 超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,H0成立,可以认为X和Y独立.
(2)计算
正态曲线与正态分布共用一个图形,1.P(a<x<b),P(X<x)画图
(2025·天津高二期中)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由χ2=计算得χ2≈7.822,参照附表,则下列结论正确的是 ( )
$