内容正文:
§2 独立性检验
高中数学选修2-3
第三章 统计案例
问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量.一年后,这位数学家发现,所记录数据的均值为950g.于是庞加莱推断这家面包店的面包分量不足.
假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包份量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果.
问题引入
变量
定量变量
分类变量
(定性变量)
对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
如是否吸烟、宗教信仰、是否患肺癌、国籍等等.
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
列联表
在不吸烟者中患肺癌的比重是________.
在吸烟者中患肺癌的比重是___________
0.54%
2.28%
问题探究
直观结论:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.
从直观上你能得出什么结论?
问题探究一
不吸烟
吸烟
患肺癌
比例
不患肺癌
比例
等高条形图更清晰地表达了两种情况下患肺癌的比例.
你有多大的把握认为它们有关系?
我们先假设:
H0:吸烟与患肺癌没有关系
看看能推出什么样的结论
问题探究二
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
把表1-7中的数字用字母代替,得到如下用字母表示的列联表:
若吸烟与患肺癌没有关系。则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:
若H0成立,即“吸烟和患肺癌没有关系”K2 应该很小
为了使不同样本容量的数据有统一的评判标准,基于上述分析,统计学家构造一个随机变量
独立性检验
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
通过公式计算
H0成立的情况下
这是一个小概率事件.现在K2的观测值为56.632,远远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.
但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系”.
问题探究三
这个值到底能告诉我们什么呢?怎样判断K2的观测k值是大还是小呢?
利用随机变量K2来判断“两个分类变量是否有关系”的方法称为两个分类变量的独立性检验.
独立性检验:
临界值
10.828
7.879
6.635
5.024
3.841
2.706
2.072
1.323
0.708
0.445
k
0.001
0.005
0.010
0.025
0.05
0.10
0.15
0.5
0.40
0.50
独立性检验的基本思想
对“两个分类变量有关系”这一结论成立的可信程度的判断:
(1)假设该结论不成立,即假设结论“两个分类变量没有关系”成立.
(2)在假设条件下,计算构造的随机变量K2,如果由观测数据计算得到的K2很大,则在一定程度上说明假设不合理.
(3)根据随机变量K2的含义和临界值可以确定 “两个分类有关系”这一结论成立的可信程度.
1.如果k>10.828,就有99.9%的把握认为“X与Y有关系”
2.如果k>6.635,就有99%的把握认为“X与Y有关系”
3.如果k>2.706,就有90%的把握认为“X与Y有关系”
4.如果k<=2.706,就认为没有充分的证据显示“X与Y有关系”
例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。问你有多大的把握认为秃顶与患心脏病有关系?
例题解析
患心脏病 不患心脏病 总计
秃顶
214 175 389
不秃顶
451 597 1048
总计 665 772 1437
解:列联表为
根据联表1-13中的数据,得到
所以有99%的把握认为“秃顶患心脏病有关”.
例2.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.
未感冒 感冒 合计
使用血清 252 248 500
未使用血清 224 276 500
合计 4