内容正文:
3.2独立性检验的基本思想
及初步应用
这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
1.分类变量
对于性别变量,其取值为:男和女两种
在现实生活中,分类变量是大量存在的,如是否吸烟,宗教信仰,国籍等。
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
问题:
为了调查吸烟是否对肺癌有影响,某肿瘤
研究所随机地调查了9965人,得到如下结果(单位:人)
列联表
在不吸烟样本中,患肺癌的比重是
在吸烟样本中,患肺癌的比重是
说明:吸烟群体和不吸烟群体患肺癌的可能性存在差异.
42/7817=0.54%
49/2148=2.28%
与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
独立性检验
H0:吸烟和患肺癌之间没有关系
通过数据和图形分析,得到结论是:吸烟与患肺癌有关
用 A 表示“不吸烟”,B 表示“不患肺癌”
则 H0:吸烟 和患肺癌之间没有关系
“吸烟”与“患肺癌”独立,
即A与B
等价于
独立等价于
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量
统计学家经过研究后发现。已知在 成立的情况下,
即在 成立的情况下,K2 大于6.635概率非常小,近似为0.01.是一个小概率事件.
现在的K2的观测值k≈56.632的远大于6.635,所以有理由断定 不成立,即认为“吸烟和患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,既有99%的把握认为吸烟和患肺癌有关系.
现在的K2的观测值k≈56.632的远大于6.635,所以有理由断定 不成立,即认为“吸烟和患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,既有99%的把握认为吸烟和患肺癌有关系.
反证法原理与独立性检验原理
反证法原理: 在假设 下,如果推出一个矛盾,就证明了 不成立。
假设检验原理:在假设 下,如果出