内容正文:
8.3列联表与独立性检验
第八章 成对数据的统计分析
课时2 独立性检验
新知探究
探究一:独立性检验
情境设置
高中流行这样一句话:文科就怕数学不好,理科就怕英语不好.以下是一次针对高三文科学生成绩的调查所得的数据:
问题: 你能求出表中𝑎,𝑏,𝑐 的值吗?由表中的数据,能否认为文科学生总成绩不好与数学成绩不好有关系.
数学成绩 总成绩 合计
总成绩好 总成绩不好
数学成绩好 478 490
数学成绩不好 399 24 423
合计 913
2
新知生成
知识点一 独立性检验
1.零假设
设𝑋和𝑌为定义在Ω 上,取值于{0,1}的成对分类变量.我们希望判断事件{𝑋=1} 和
{𝑌=1}之间是否有关联.注意到{𝑋=0}和{𝑋=1},{𝑌=0}和{𝑌=1} 都是互为对立事件,我们需要判断下面的假定关系,是否成立,
通常称为零假设或原假设.
3
新知生成
知识点一 独立性检验
2. 的计算公式
设和的 列联表如下:
则, .
X Y 合计
合计
4
一、独立性检验
例题1 为了了解某班学生喜爱打篮球是否与性别有关,对本班45人进行了问卷调查,得
到了如下的2×2 列联表:
已知从45人中随机抽取1人,是男同学的概率为.
(1)请将上面的2×2 列联表补充完整;
(2) 根据小概率值 的独立性检验,分析喜爱打篮球是否与性别有关.
参考公式:, .
性别 是否喜爱打篮球 合计
喜爱打篮球 不喜爱打篮球
男 5
女 5
合计 45
0.100 0.050 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
5
一、独立性检验
【解析】(1) 根据题意,男同学有(人),补充列联表如下:
(2)零假设为: 喜爱打篮球与性别无关.
根据表中数据,计算 ,
根据小概率值𝛼=0.001的独立性检验,我们推断 不成立,即认为喜爱打篮球与性
别有关.
性别 是否喜爱打篮球 合计
喜爱打篮球 不喜爱打篮球
男 20 5 25
女 5 15 20
合计 25 20 45
6
反思感悟
方法总结
这类问题的解决方法:先确定𝑎,𝑏,𝑐,𝑑,𝑛的值并求出的值,再与临界值相
比较,作出判断,解题时注意正确运用公式,代入数据准确计算.
7
新知运用
跟踪训练1 为了调查观众对某电影结局的满意程度,研究人员在某电影院随机抽取了
1 000名观众作调查,所得结果如下表所示,其中不满意该电影的结局的观众占被调查观众总数的0.3.
(1)完善上述2×2 列联表.
(2)依据𝛼=0.001 的独立性检验,分析观众对该电影结局的满意程度与性别是否有关.
附:, .
对该电影的结局
的满意程度 性别 合计
男 女
满意 400
不满意 200
合计
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
8
新知运用
【解析】(1)不满意该电影结局的观众的人数为1 000×0.3=300 ,
完善表格中的数据,如下表所示:
(2)零假设为: 观众对该电影结局的满意程度与性别无关.
根据表中数据,计算 ,
根据小概率值𝛼=0.001的独立性检验,我们推断 不成立,即认为观众对该电影结
局的满意程度与性别有关.
对该电影的结局
的满意程度 性别 合计
男 女
满意 400 300 700
不满意 100 200 300
合计 500 500 1 000
9
新知生成
知识点二 独立性检验的应用
1.临界值
根据小概率事件在一次试验中不大可能发生的规律,确定大小的标准来推断是否成立可以通过确定一个与相矛盾的小概率事件来实现.在假定的条件下,对于有放回简单随机抽样,当样本容量𝑛充分大时,统计学家得到了的近似分布.忽略的实际分布与该近似分布的误差后,对于任何小概率值 ,可以找到相应的正实数 ,使得成立.
10
新知生成
知识点二 独立性检验的应用
我们称 为 的临界值,这个临界值就可作为判断大小的标准.概率值越小,
临界值 越大.当总体很大时,抽样有、无放回对的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由 可知,只要把概率值 取得充分小,在假设成立的情况下,事件是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断 不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过𝛼 .
11
新知生成
知识点二 独立性检验的应用
2.独立性检验
基于小概率值𝛼 的检验规则:
当 时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过𝛼 ;
当 时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
12
二、 独立性检验的应用
例2 为了了解某市创建文明城市过程中,学生对创建工作的满意情况,相关部门对某
中学的100名学生进行调查,其中有50名男生对创建工作表示满意,有15名女生对创
建工作表示不满意.已知在全部100名学生中随机抽取1人,其对创建工作表示满意的概
率为 .是否有充足的证据说明学生对创建工作的满意情况与性别有关?
附: , .
【解析】由题意得2×2 列联表如下:
零假设为: 学生对创建工作的满意情况与性别无关.
根据表中的数据,计算得到
,
根据小概率值𝛼=0.01的独立性检验,
我们推出不成立,即认为学生对创建工作的
满意情况与性别有关.
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
性别 满意情况 合计
满意 不满意
男 50 5 55
女 30 15 45
合计 80 20 100
13
反思感悟
方法总结
独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设“两个分类变量没有关系”,在该假设下我们构造的统计量应该很小,若用观测数据计算的统计量很大,则在一定程度上说明假设不合理.由与临界值的大小关系作出判断.
14
新知运用
跟踪训练2 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,
随机抽查了100天空气中的和浓度(单位: ),整理得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2 列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5 浓度
与浓度有关.
32 18 4
6 8 12
3 7 10
合计
合计
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
15
新知运用
【解析】(1) 根据抽查数据,该市100天里空气中的浓度不超过75,且浓度
不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5 浓度不超过
75,且浓度不超过150的概率的估计值为 .
(2)根据所给数据,可得如下2×2 列联表:
(3) 根据列联表中的数据可得 .
,根据小概率值的独立性检验,有的把握认
为该市一天空气中PM2.5浓度与浓度有关.
合计
64 16 80
10 10 20
合计 74 26 100
16
随堂检测
1. 在某次飞行航程中,因遭遇恶劣气候,机内55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( ).
A.频率分布直方图 B.回归分析 C.独立性检验 D.用样本估计总体
2.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2 列联表进行独立性检验,经计算 ,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( ).
A. B. C. D.
3. 两个分类变量和的值域分别为,和,,在列联表中,其样本频
数分别是𝑎=10,𝑏=21,𝑐+𝑑=35.若𝑋与𝑌有关系的可信程度不小于97.5% ,则𝑐= ( ).
A.3 B.4 C.5 D.6
B
C
A
17
随堂检测
4.某高校《统计初步》课程的教师随机调查了选该课的学生的一些情况,得到如下
2×2 列联表:
则≈ ______(结果保留三位小数),在犯错误的概率不超过_____的前提下认为学
生主修统计专业与性别有关.
【解析】 ,
故在犯错误的概率不超过0.05的前提下认为学生主修统计专业与性别有关.
性别 专业 合计
非统计专业 统计专业
男 13 10 23
女 7 20 27
合计 20 30 50
4.844
0.05
18
课堂小结
1.知识清单:
(1)独立性检验;
(2)独立性检验的应用.
19
$$