内容正文:
8.3 列联表与独立性检验
8.3.2 独立性检验
第八章
成对数据的统计分析
人教A版选择性必修第三册·高二
章节导读
成对数据的统计相关性
变量的相关关系
样本相关系数
一元线性回归模型及其应用
列联表与独立性检验
一元线性回归模型
一元线性回归模型参数的最小二乘估计
分类变量与列联表
独立性检验
学 习 目 标
1
2
3
通过实例,了解独立性检验及其应用
借助计算公式进行独立性检验,提升数学运算的核心素养
结合临界值对独立性作出判断,提升逻辑推理的核心素养
新知导入
探究 上节课例1中,我们通过频率比较得到“两所学校学生的数学成绩优秀率存在差异”的结论,对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大 .
考虑以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0, 1} 的成对分类变量.
我们希望判断事件{Y=1}和{X=1}之间是否有关联。注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系是否成立.
因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
H0: P(Y=1|X=0)=P(Y=1|X=1)
新知探究
H0: P(Y=1|X=0)=P(Y=1|X=1)
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
通常称H0为零假设或原假设.
由条件概率的定义可知,零假设H0等价于:
A与B相互独立 P(AB)=P(A)P(B)
事件B
事件A
事件AB
由此,零假设H0等价于{X=1}和{Y=1}独立
新知探究
因为{X=0}与{X=1}对立, {Y=0}与{Y=1}对立
根据已经学过的概率知识,下面的四条性质彼此等价:
{X=0}与{Y=0}独立
{X=0}与{Y=1}独立
{X=1}与{Y=1}独立
{X=1}与{Y=0}独立
如果这4个性质成立,则称分类变量X和Y独立.
①
我们可以用概率语言,将零假设改述为
零假设H0:分类变量X和Y独立.
新知探究
假定我们通过简单随机抽样得到了X和Y的抽样数据的2×2列联表,如下表所示.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
①
对于随机样本,表中的频数a, b, c, d 都是随机变量,而表中的相应数据是这些随机变量的一次观测结果.
问题1 如何基于①中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?
新知探究
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
①
在零假设H0成立的条件下,根据频率稳定于概率的原理, 由①中的第一个等式,可以得到
由频率估计概率,可以得到:
{X=0,Y=0}发生的频数的期望值(预期值)
如果零假设成立, 与 a应该比较接近.
即: 的值应该不大.
频数的观测值
零假设H0:分类变量X和Y独立.
新知探究
零假设H0:分类变量X和Y独立.
综合①中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:
①
我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
定义新知
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
卡方统计量
追问1 卡方统计量有什么用呢?
统计学家建议,用随机变量 χ2取值 的大小作为判断零假设H0是否成立的依据。
如果零假设成立,则应该很小.
如果零假设不成立,则应该很大.
新知探究
追问2 怎样确定判断大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了 χ2的近似分布.
忽略卡方的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数,使得下面关系成立:
P(χ2 ≥ xα)=α
我们称xα为α的临界值,
这个临界值可以作为判断χ2大小的标准.
只要把概率值α取得充分小,再假设成立的情况下,事件{χ2 ≥ xα}是不大可能发生的,根据这个规律,如果该事件发生, 我们就可以推断零假设不成立,不过这个推断有可能犯错误,但犯错误的概率不会超过α.
概率值α越小,临界值xα越大.
定义新知
①当≥时,我们就推断 H0 不成立,即认为X和Y不独立.
②当<时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
该推断犯错误的概率不超过
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
基于小概率值α的检验规则:
新知探究
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
追问3 怎么看这个表呢?
例如,对于小概率值α=0.05,我们有如下的具体检验规则:
(1)当χ2 ≥ xα=3.841时,我们就推断不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;
(2)当χ2< xα=3.841时,我们没有充分证据推断不成立,可以认为X和Y独立.
典例分析
例2 依据小概率值=0.1的 χ2 独立性检验,分析上节例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
零假设为
H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.
解:
根据上表中的数据,计算得到
根据小概率值α=0.1的卡方独立性检验,没有充分证据推断H0不成立.因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
新知探究
问题2 例1和例2基于同一组数据的分析的两种分析方法(频率分析法和卡方独立性检验法),但却得出了不同的结论,你能说明其中的原因吗?
事实上,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以例1的推断依据不太充分.
在例2中,我们用χ2独立性检验对零假设H0进行了检验.
通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两校学生的数学成绩优秀率没有显著差异的结论。
由此可见,相对于简单比较两个频率的推断:
用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分.
典例分析
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解: 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异
疗法 疗效 合计
未治愈 治愈
甲
乙
合计
由已知数据列出2×2列联表,如下:
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
67
15
52
69
6
63
21
115
136
新知探究
问题3 在例3的2×2列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中a, b, c, d的赋值都会相应地改变. 这样做会影响χ2取值的计算结果吗?
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
对调前
疗法 疗效 合计
未治愈 治愈
乙 6 63 69
甲 15 52 67
合计 21 115 136
对调后
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.
巩固练习
课本134页
1. 对于例3中的抽样数据,采用小概率值α=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:根据题意,可得
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05,即有95%的把握认为疗法与疗效是有关的.
甲种疗法未治愈和治愈的频率分别是
乙种疗法未治愈和治愈的频率分别是
因此可以推断乙种疗法的效果比甲种疗法好.
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
巩固练习
课本134页
2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论? 为什么?
解:可能会得出不同的结论. 理由如下:
对同一抽样数据,计算出来的χ2的值是确定的,在独立性检验中,基于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
典例分析
例4 为研究吸烟是否与肺癌有关, 某肿瘤研究所采取有放回简单随机抽样的方法, 调查了9965人 , 得到成对样本观测数据的分类统计结果, 如表所示. 依据小概率值α=0.001的独立性检验, 分析吸烟是否会增加患肺癌的风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:零假设为
H0:吸烟和患肺癌之间没有关联.
根据列联表中的数据,经计算得到
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001 .
典例分析
例4 为研究吸烟是否与肺癌有关, 某肿瘤研究所采取有放回简单随机抽样的方法, 调查了9965人 , 得到成对样本观测数据的分类统计结果, 如表所示. 依据小概率值α=0.001的独立性检验, 分析吸烟是否会增加患肺癌的风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解: 根据列联表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
吸烟者中不患肺癌和患肺癌的频率分别为
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.
于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
新知探究
问题4 你能否总结上面的例子,归纳应用独立性检验解决实际问题主要环节?
(1) 提出零假设H0:X 和Y 相互独立, 并给出在问题中的解释.
(2) 根据抽样数据整理出2×2列联表, 计算χ2的值, 并与临界值比较.
(3) 根据检验规则得出推断结论.
(4) 在 X 和Y 不独立的情况下, 根据需要, 通过比较相应的频率, 分析 X 和Y 间的影响规律.
注意,上述几个环节的内容可以根据不同的情况进行调整. 例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
新知探究
问题6 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不大于这个小概率. 另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
独立性检验的本质是比较观测值与期望值之间的差异,由χ2所代表的这种差异的大小是通过确定适当的小概率值进行判断的. 这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
巩固练习
课本134页
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
药物A 疾病B 合计
未患病 患病
未服用 29 15 44
服用 47 14 61
合计 76 29 105
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.
解:零假设为H0: 药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.
巩固练习
课本134页
4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
依据α=0.05的独立性检验,能否认为数学成绩与语文成绩有关联?
数学成绩 语文成绩 合计
不优秀 优秀
不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
解:零假设为H0: 数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,我们可以推断H0不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
巩固练习
课本134页
另外, 数学成绩不优秀的人中语文成绩不优秀和优秀的频率分别为
数学成绩优秀的人中语文成绩不优秀和优秀的频率分别为
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率. 根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.
对独立性检验的理解
题型一
题型探究
【例1】(1) 下列关于 独立性检验的说法正确的是( )
B
A. 用 独立性检验推断的结论可靠,不会犯错误
B. 用 独立性检验推断的结论可靠,但会犯随机性错误
C. 独立性检验的方法适用于普查数据
D. 对于不同的小概率值,用 独立性检验推断的结论相同
[解析] 易知A错误,B正确;
独立性检验用于判断两个离散且只有两个分类属性的变量是否独立,
如果普查数据连续或者有两个以上的分类属性,则无法用 独立性检验判断,C错误;
对于不同的小概率值, 独立性检验需要根据不同的临界值来下结论,不同的临
界值会有不同的结论,D错误.故选B.
对独立性检验的理解
题型一
题型探究
【例1】(2)(多选题)下列说法错误的是( )
ACD
A. 的值可以为负
B. 独立性检验的零假设是各分类变量之间相互独立
C. 利用独立性检验推得“患慢性支气管炎和吸烟习惯有关”即指“有吸烟习惯的人必
会患慢性支气管炎”
D. 列联表中间的4个数据可为任意实数
[解析] 对于A,由的计算公式可知 不可能为负值,故A中说法错误;
对于B,由独立性检验的基本思想知B中说法正确;
对于C,利用独立性检验推得“患慢性支气管炎和吸烟习惯有关”,是指有一定的依
据认为它们相关,即也有一定的出错率,故C中说法错误;
对于D, 列联表中间的4个数据是统计得到的两个分类变量的频数,4个数据间
有一定的关系,不能为任意实数,故D中说法错误.
故选 .
有、无关联的检验
题型二
题型探究
【例2】某校对学生课外活动进行调查,将结果整理成下表,试根据小概率值0.005的
独立性检验,分析学生喜欢体育还是喜欢文娱与性别是否有关系.
性别 课外活动 合计
喜欢体育 喜欢文娱
男 21 23 44
女 6 29 35
合计 27 52 79
[解析] 零假设为 学生喜欢体育还是喜欢文娱与性别没有关系.
根据列联表中的数据,得
.
根据小概率值的独立性检验,推断 不成立,即认为课外活动喜欢体
育还是喜欢文娱与性别有关系.
有、无关联的检验
题型二
题型探究
【例3】为提升学生的身体素质,某地区对体育测试选拔赛实行改革.在高二一学年
中举行4次全区选拔赛,学生如果在4次选拔赛中有2次成绩达到全区前20名即可取
得体育特长生的资格,不用参加剩余的比赛.规定:一学年中每名学生最多只能参
加4次选拔赛,若前3次选拔赛成绩均没有达到全区前20名,则不能参加第4次选拔赛.
(1)若该地区的某次选拔赛中共有500名高二学生参加,请完成如下 列联表;
性别 选拔赛成绩 合计
全区前20名 非全区前20名
男 15 300
女 195
合计 20 500
(2)在(1)的条件下,依据小概率值 的独立性检验,分析选拔赛的成绩与性别是
否有关.
有、无关联的检验
题型二
题型探究
[解析](1) 列联表如下:
性别 选拔赛成绩 合计
全区前20名 非全区前20名
男 15 285 300
女 5 195 200
合计 20 480 500
(2)零假设为 选拔赛的成绩与性别无关.
根据列联表中的数据,得
,
根据小概率值的独立性检验,没有充分证据推断 不成立,因此认为
成立,即认为选拔赛的成绩与性别无关.
独立性检验的综合应用
题型三
题型探究
【例4】为落实节能减排的国家政策,某职能部门对
市场上的两种设备的使用寿命进行调查统计,随机抽
取型和 型设备各100台,得到如下频率分布直方图.
(1)将使用寿命超过2500小时和不超过2500小时的台
数填入下面的列联表,并根据小概率值 的独
立性检验,判断使用寿命是否超过2 500小时与型号有没有关联;
型号 使用寿命 合计
超过2 500小时 不超过2 500小时
型
型
合计
独立性检验的综合应用
题型三
题型探究
[解析] 根据频率分布直方图可补全列联表如下:
型号 使用寿命 合计
超过2 500小时 不超过2 500小时
型 70 30 100
型 50 50 100
合计 120 80 200
零假设为 使用寿命是否超过2 500小时与型号无关,
,
根据小概率值的独立性检验,没有充分证据推断 不成立,
可以认为 成立,即使用寿命是否超过2 500小时与型号无关.
独立性检验的综合应用
题型三
题型探究
(2)用分层随机抽样的方法从使用寿命不超过2500小时的型和 型设备中共抽取16
台,再从这16台设备中随机抽取2台,设其中 型设备有台,求的分布列和 ;
[解析] 由分层随机抽样的定义知:抽取的型设备有 (台),抽取的
型设备有(台),则 的所有可能取值为0,1,2,
, , ,
的分布列为
0 1 2
.
独立性检验的综合应用
题型三
题型探究
(3)现有一项工作需要10台同型号设备同时工作2 500小时才能完成,工作期间若设备
损坏,则立即更换同型号设备(更换设备的时间忽略不计),型和型设备每台的
价格分别为1万元和0.6万元,型和 型设备每台每小时分别耗电2度和6度,电价为
0.75元/度,用频率估计概率,只考虑设备的成本和电费,你认为应选择哪种型号的
设备?说明理由.
[解析] 由频率分布直方图中的频率估计概率知:
型设备每台更换的概率为,台 型设备预计要更换3台;
型设备每台更换的概率为,台 型设备预计要更换5台.
则选择 型设备的总费用
(万元);
选择 型设备的总费用
(万元),
, 应选择 型设备.
课堂达标
1. 调查中学生的视力情况时发现,某校160名男生中有90名近视,150名女生中有75名近视,在检验这些中学生的眼睛近视是否与性别有关时用什么方法最有说服力?( @27@ )
A. 平均数 B. 方差 C. 回归分析 D. 独立性检验
D
[解析] 近视与性别是两类变量,在检验两个随机事件是否相关时,最有说服力的方法是独立性检验.
故选D.
课堂达标
2. 依据 的独立性检验,下列选项中,认为“ 与 有关系”的 的值为(参考数据: )( @29@ )
A. B. C. D.
D
[解析] , 正确.
课堂达标
3.(多选题)小波同学为了验证“日落云里走,
雨在半夜后”,观察了 地区100天的日落
和夜晚的天气,得到如下 列联表,
并计算得到,下列关于 地区
天气的说法正确的是( )
“日落云里走” 夜晚的天气 合计
下雨 未下雨
出现 25 5 30
未出现 25 45 70
合计 50 50 100
A. 夜晚下雨的概率为
B. 在未出现“日落云里走”的条件下,夜晚下雨的概率为
C. 依据 的独立性检验,认为“日落云里走”是否出现与夜晚天气有关
D. 依据 的独立性检验,认为若出现“日落云里走”,则夜晚一定会下雨
ABC
课堂达标
[解析] 根据 列联表知,100天中有50天夜晚下雨,所以夜晚下雨
的概率为 ,故A正确;
根据 列联表知,有25天未出现“日落云里走”且夜晚下雨,共有70
天未出现“日落云里走”,所以在未出现“日落云里走”的条件下,夜晚下
雨的概率为 ,故B正确;
由题意可知,因此依据 的独立性
检验,认为“日落云里走”是否出现与夜晚天气有关,故C正确;
由选项C知,有关只是说可能性,并不代表一定下雨,故D错误.
课堂达标
4.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟
踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
手术 是否又发作过心脏病 合计
又发作过 未发作过
心脏搭桥手术 39 157 196
血管清障手术 29 167 196
合计 68 324 392
根据上述数据计算得 ______(精确到 ),根据小概率值 的独立性
检验,认为这两种手术对病人又发作心脏病的影响____差别(填“无”或“有”).
(附: )
1.779
无
课堂达标
[解析] 零假设为 这两种手术对病人又发作心脏病的影响无差别.
根据列联表中的数据,可得到
,
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为
成立,即认为这两种手术对病人又发作心脏病的影响无差别.
课堂小结
1. 小概率值α的临界值:
忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
2. χ2计算公式:
3. 基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
感谢聆听!
$