内容正文:
回忆与展望
父高x与子高y
树胸径d与树高h
年份t与短跑世界纪录y
…
数值变量
分类变量
取值为实数. 其大小和运算都有实际含义.
性别与锻炼经常性
吸烟与是否患肺癌
物理与数学成绩关联
…
取值可以用实数来表示;
这些数值只作为编号使用,用来表示不同的类别,并没有通常的大小和运算意义(如班级用1,2,3等表示,男性、女性用1,0表示等)。
反映不同的现象或性质
为区别不同的现象或性质
本节我们主要讨论取值是{0,1}的分类变量的关联性问题.
回归分析
独立性检验
8.3 列联表与独立性检验
8.3.1
分类变量与列联表
自主研读
P124~P127,梳理知识,记录疑问
关注以下问题:
什么是分类变量? 它与我们之前学习的数值变量有什么不同?请从生活中再举出2-3个分类变量的例子。
什么是2×2列联表? 它长什么样子?表格中的每个部分分别代表什么含义?
如何初步判断两个分类变量是否有关联? 课本介绍了哪些方法?
问题一:教材采用了哪些方法研究了一对分类变量之间是否存在差异?
原理:用频率稳定于概率推断
方法一:比较频率大小
需保存原始数据
方法二:比较概率大小
将数据分类统计,并做成2×2列联表加以保存
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计
2×2列联表
1124
320
804
列联表给出了成对分类变量数据的交叉分类频数.
性别对体育锻炼的经常性有影响:
性别对体育锻炼的经常性无影响:
频率稳定于概率
问题一:教材采用了哪些方法研究了一对分类变量之间是否存在差异?
方法三:等高堆积条形图
利用统计软件画条形图直观推断
P126 例1
88
17
71
合计
45
7
38
乙校(X=1)
43
10
33
甲校(X=0)
优秀(Y=1)
不优秀(Y=0)
合计
数学成绩
学校
甲校
乙校
比较可以发现,两校学生的数学成绩优秀率存在差异,
甲校学生的数学成绩优秀率比乙校学生的高.
依据频率稳定于概率的原理,可推断
P(Y=1|X=0)>P(Y=1|X=1).
不优秀 0.7674 0.8444 优秀 0.2326 0.1556
列联表:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存。我们将如上表这种形式的数据统计表称为2×2列联表。
它包含了X和Y的如下信息:最后一行的前两个数分别是事件{ Y=0 }和{ Y=1 }中样本点的个数;最后一列的前两个数分别是事件{ X=0 }和{ X=1 }中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{ X=x,Y=y }(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。
问题二:上例中“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
有可能是错误的.
因此,需要找到一种更为合理的推断方法判断两变量之间有无关系,同时也希望能对出现错误推断的概率有一定的控制或估算.
因为样本具有随机性,频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.
8.3.2
独立性检验
【问题】烟草公司的代表们认为虽然吸烟与不吸烟者的肺癌患病率有所不同,但都属于小概率事件(小于5%),因此没有充分的证据证明吸烟与患肺癌之间有关联,根据“疑罪从无”的原则,他们提出“吸烟与患肺癌无关”,你认同他们的观点吗?为什么?
类比
不患肺癌(Y=0) 患肺癌(Y=1) 合计
不吸烟(X=0) 7775 42 7817
吸烟(X=1) 2099 49 2148
总计 9874 91 9956
【需要解决的问题】:如何判断事件{X=1}和{Y=1}之间是否有关联?
需要判断下面的假定关系是否成立
H0:P(Y=1|X=0)=P(Y=1|X=1)
零假设或原假设
{ X=1 }与{ Y=1 }独立
因此,我们可以用概率语言,将零假设改述为:
H0:分类变量 X 和 Y 独立
问题一般化
根据已经学过的概率知识,下面的四条性质彼此等价:
因此,我们可以用概率语言,将零假设改述为:
H0:分类变量 X 和 Y 独立
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
【需要解决的问题】:如何基于上述四个等式及列联表中数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?
自主研读
P129(最下面)~P131,梳理知识,记录疑问
什么是零假设? 在吸烟与患肺癌的例子中,零假设应该怎么表述?
统计量(卡方统计量)是用来干什么的? 它的计算公式是什么?公式中的分别代表什么?
什么是临界值? 课本给出的常用临界值表有哪些?对应的临界值是多少?
独立性检验的决策规则是什么? 什么情况下拒绝?什么情况下不拒绝?
关注以下问题:
问题三:教材给出的推断分类变量X和Y是否独立的方法是什么?如何推断的?
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
卡方独立性检验
下表给出了2独立性检验中5个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
χ2≥xα是小概率事件
找(指定)某个值xα来界定χ2的大小
基于小概率值α的检验规则:
χ2统计量的含义
ad−bc反映了实际频数与“独立假设下的期望频数”的偏差. 如果两个变量完全独立,理论上应该等于,即.
取平方是为了防止正负抵消,同时放大差异,使结果始终为正.
乘以是为了协调样本容量的影响:样本越大,同样的偏差就越“可信”,值也越大.
统计量本质上度量的是“实际观测频数”与“假设独立下的期望频数”之间的差异程度. 这个值越大,说明实际数据越偏离“独立”的假设.
【临界值理解】——小概率事件的含义
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
α是显著性水平,表示“拒绝零假设时可能犯错误的概率”. 也就是说,如果实际上两个变量是独立的,但我们错误地认为它们有关,这种错误的概率不超过.
,所以可以在的水平上拒绝,即认为两个变量有关联,犯错误的概率不超过1%.
“99%的把握”意味着:如果我们得出结论“两个变量有关联”,那么这种推断正确的可能性是99%,犯错误的可能性不超过1%. 这是一种概率性的把握,不是绝对的确定性.
典例精析
例2:依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据, 能否据此推断两校学生的数学成绩优秀率有差异?
88
17
71
合计
45
7
38
乙校(X=1)
43
10
33
甲校(X=0)
优秀(Y=1)
不优秀(Y=0)
合计
数学成绩
学校
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异根据表中的数据,计算得到
根据小概率值α=0.1的卡方独立性检验,没有充分证据推断H0不成立.
因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
例1中没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分,结论不可靠;例2中用 χ2 独立性检验得到的结果更理性、更全面,虽然也可能犯错误,但若 α 越大,犯错误的概率越小
典例精析
例3.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌得风险.
吸烟 肺癌 合计
不患肺癌 患肺癌
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 9115 9965
P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
一个核心思想:
独立性检验的思想——类似反证法,基于小概率原理:在零假设成立的条件下,小概率事件几乎不会发生。如果发生了,就有理由拒绝零假设
两个核心概念:
零假设H0:两个分类变量独立(无关)
χ2统计量:度量实际频数与期望频数的差异
独立性检验的一般过程
归纳总结
归纳总结
(卡方)独立性检验的步骤
(1)认清分类变量,提出零假设H0:X 和 Y 独立,即…与…无关联(无差异);
(2)列表:列出2×2列联表.
(3)求值:由表中数据计算χ2的值.
(4)推断:将χ2值与临界值xα比较,根据小概率值α的独立性检验规则,得出结论
若χ2≥xα,则推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
若χ2<xα,则我们没有充分证据推断H0不成立,可认为X 和 Y独立.
P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
利用χ2的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验
课本P128 4
随堂小测
(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
课后作业
课本P134 3,4
课本P135 5,6
$