内容正文:
4.3 独立性检验
湘教版 数学 选择性必修第二册
第4章 统计
课标要求
1.通过实例,理解2×2列联表的统计意义.
2.了解独立性检验的基本思想及实施步骤,了解χ2的含义.
基础落实·必备知识全过关
重难探究·能力素养全提升
目录索引
成果验收·课堂达标检测
基础落实·必备知识全过关
知识点1
列联表
1.列联表:将两个(或两个以上)分类变量进行交叉分类得到的 分布表称为列联表.
说明事物类别的一个名称,其取值是分类依据
频数
2.2×2列联表:一般地,两个分类变量X,Y均有两个变量值的列联表称为2×2列联表,其一般形式如下:
两个分类变量的频数汇总统计表
变量 Y1 Y2 合计
X1 a b a+b
X2 c d c+d
合计 a+c b+d a+b+c+d
名师点睛
(1)分类变量的取值可以用实数来表示,例如男性、女性可以用1,0表示,学生的班级可
以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.
(2)2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系.
过关自诊
1.判断正误.(正确的画“√”,错误的画“×”)
(1)所有的分类变量只有两个变量值.( )
(2)列联表中的数据是两个分类变量的频数.( )
×
√
2.下面是2×2列联表:
项目 Y1 Y2 合计
X1 a 22 73
X2 5 25 30
合计 b 47 c
则表中a,b的值分别为 .
51,56
解析 ∵a+22=73,∴a=51.
∵a+5=b,∴b=56.
知识点2
独立性检验
1.定义:在2×2列联表中χ2= , 其中n=a+b+c+d.利用统计量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.
读作“卡方”
我们只研究a,b,c,d均不小于5的情况且n是样本容量
2.独立性检验的统计思想:
(1)提出统计假设H0:两个分类变量之间没有关系(指独立).
(2)根据2×2列联表与公式计算χ2的值.
(3)将χ2的值与临界值x0比较,当χ2>x0时,我们就推断H0不成立,即认为X和Y不独立(也称为X和Y有关),该推断犯错误的概率不超过P(χ2>x0)=α;当χ2≤x0时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
(4)根据所给的观测值与所给的临界值表中的数据进行比较,即可得出结论.
以要研究“两个分类变量有关系为例”
3.χ2的值与两变量相关性的关系:一般地,χ2的值越小,两变量的独立性越强,相关性越弱;χ2的值越大,两变量的独立性越弱,相关性越强.
名师点睛
(1)独立性检验的基本思想与反证法的思想的关系:
反证法 独立性检验
要证明结论A 提出假设H0
在A不成立的前提下进行 在H0成立的条件下进行推理
推出矛盾,意味着结论A成立 推出有利于H0成立的小概率事件发生,意味着H0成立的可能性小
没有找到矛盾,不能对A下任何结论,即反证法不成立 推出有利于H0成立的小概率事件不发生,接受原假设
(2)独立性检验的必要性:由于列联表中的数据是样本数据,它只是总体的代表,它具有随机性,所以只能利用列联表的数据粗略判断两个分类变量是否有关系.而χ2给出了不同样本容量的数据的统一评判标准,利用它能精确判断两个分类变量是否有关系的可靠程度.
过关自诊
1.判断正误.(正确的画“√”,错误的画“×”)
(1)利用χ2进行独立性检验,估计值的准确度与样本容量多少没有关系.( )
(2)χ2的大小是判断事件A与B是否有关系的统计量.( )
×
√
2.在吸烟与患肺癌是否相关的研究中,下列说法正确的是( )
A.若χ2>6.635,我们有不少于99%的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有99个人患肺癌
B.由独立性检验可知,当有不少于99%的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有99%的可能患有肺癌
C.通过计算得到χ2>3.841,是指有不少于95%的把握认为吸烟与患肺癌有关联
D.以上三种说法都不正确
C
解析 若χ2>6.635,我们有不少于99%的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确;99%是指吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能患有肺癌,故B不正确.C显然正确,D不正确.
重难探究·能力素养全提升
探究点一 2×2列联表的理解
【例1】 某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如下表所示:
单位:人
每年体检情况 体检 未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A.a=18 B.b=19
C.c+d=50 D.e-f=2
D
解析 由题意得a+7=c=25,6+b=d=25,a+6=e,7+b=f,e+f=50,所以a=18,b=19,c+d=50,e=24,f=26,则e-f=-2.故选D.
规律方法 2×2列联表数据特征
求解与2×2列联表中有关的数据问题应明确右下角格中的数是样本容量,且最后一行的前两个数的和与最后一列的前两个数的和相等并且都等于样本容量.
变式训练1为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:
单位:人
性别 男 女 合计
爱好 a b 73
不爱好 c 25 d
合计 74 e f
则a-b-c的值为( )
A.7 B.8 C.9 D.10
C
解析 根据题意可得c=120-73-25=22,a=74-22=52,b=73-52=21,
∴a-b-c=52-21-22=9.故选C.
探究点二 独立性检验
角度1.独立性检验的理解
【例2】 假设有两个分类变量X与Y的2×2列联表如下表:
变量 Y1 Y2
X1 a b
X2 c d
对于以下数据,对同一样本能说明X与Y有关系的可能性最大的一组为
( )
A.a=50,b=40,c=30,d=20
B.a=50,b=30,c=40,d=20
C.a=20,b=30,c=40,d=50
D.a=20,b=30,c=50,d=40
D
解析 选项A中|ad-bc|=|50×20-40×30|=200;
选项B中|ad-bc|=|50×20-30×40|=200;
选项C中|ad-bc|=|20×50-30×40|=200;
选项D中|ad-bc|=|20×40-30×50|=700.
显然D中|ad-bc|最大,该组数据能说明X与Y有关系的可能性最大.
规律方法 根据2×2列联表中的数字直接判断两个变量相关性强弱的方法
两个分类变量X与Y的2×2列联表中,由χ2计算公式可知对角线上两组数字乘积的差的绝对值|ad-bc|的值越大,说明X与Y有关系的可能性越大,|ad-bc|的值越小,说明X与Y有关系的可能性越小.
变式训练2在一次独立性检验中,得出2×2列联表如下,且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
变量 A 合计
B 200 800 1 000
180 a 180+a
合计 380 800+a 1 180+a
A.200 B.720 C.100 D.180
B
角度2.利用独立性检验求分类变量的值
【例3】 某大学为了解喜欢看篮球赛是否与性别有关,随机调查了部分学生,在被调查的学生中,男生人数与女生人数相同,女生喜欢看篮球赛的人数占女生人数的 ,男生喜欢看篮球赛的人数占男生人数的 .若被调查的男生人数为n,且至少有95%的把握认为喜欢看篮球赛与性别有关,则n的最小值为( )
A.41 B.40 C.45 D.50
C
解析 由题意得到如下列联表:
因为至少有95%的把握认为喜欢看篮球赛与性别有关,
规律方法 根据独立性检验的结果求分类变量的值的方法
根据独立性检验的结果求分类变量的值时首先根据题意中可能性的大小找出临界值,然后根据临界值建立不等式求解.
[提醒]根据独立性检验的结果求分类变量的值时应注意分类变量的值均为正整数,且不小于5.
变式训练3随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为
( )
A.100 B.150 C.250 D.300
B
解析 设被调查的男、女学生总数量为n(n∈N*),根据题意可得出2×2列联表如下表所示:
性别 喜欢网络课程 不喜欢网络课程 合计
男生 0.4n 0.1n 0.5n
女生 0.3n 0.2n 0.5n
合计 0.7n 0.3n n
角度3.独立性检验的应用
【例4】 “直播带货”是指通过一些互联网平台,使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式.某高校学生会调查了该校100名学生2022年在直播平台购物的情况,这100名学生中有男生60名、女
(1)填写下列2×2列联表;
(2)判断能否有99%的把握认为该校学生的性别与2022年在直播平台购物有关?
单位:名
性别 男生 女生 合计
2022年在直播平台购物
2022年未在直播平台购物
合计
解 (1)2×2列联表如下:
性别 男生 女生 合计
2022年在直播平台购物 40 35 75
2022年未在直播平台购物 20 5 25
合计 60 40 100
(2)提出假设H0:该校学生的性别与2022年在直播平台购物没有关系.根据列联表中的数据,可以求得χ2= ≈5.556<6.635.
故没有99%的把握认为该校学生的性别与2022年在直播平台购物有关.
规律方法 利用独立性检验推断“X和Y有关系”的方法
(1)提出统计假设H0:X和Y之间没有关系;(2)根据2×2列联表及公式计算统计量χ2的观测值;(3)查临界值表确定临界值x0,然后作出判断.
变式训练4通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
单位:名
爱好跳绳 男 女 合计
是 40 20 60
否 20 30 50
合计 60 50 110
已知χ2= ,P(χ2≥6.635)=0.01,P(χ2≥7.879)=0.005,以下结论正确的是( )
A.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.005
B.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.01
C.爱好跳绳与性别无关
D.爱好跳绳与性别无关,这个结论犯错误的概率不超过0.01
B
解析 χ2= ≈7.82,因为P(χ2≥6.635)=0.01, P(χ2≥7.879)=0.005,又6.635<7.82<7.879,根据独立性检验知,爱好跳绳与性别有关,这个结论犯错误的概率不超过0.01.故选B.
本节要点归纳
1.知识清单:
(1)列联表;(2)独立性检验.
2.方法归纳:利用2×2列联表数据特征及公式求χ2,利用临界值与χ2比较.
3.特别提示:χ2计算公式较复杂,一是公式要清楚;二是要依据数值顺序代入数值;三
是计算时要细心,若能够约分,则先约分再计算;χ2>x0是指“两个分类变量之间有关系”时的把握是[1-P(χ2>x0)]×100%,也就是犯错误的概率是P(χ2>x0),不要混淆两者的说法.
成果验收·课堂达标检测
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A级 必备知识基础练
1.经过对χ2的统计量的研究,得到了若干个临界值,当χ2≤3.841时,我们认为事件A与B( )
A.有95%的把握认为A与B有关系
B.有99%的把握认为A与B有关系
C.没有充分理由说明事件A与B有关系
D.有90%的把握认为A与B有关系
C
解析 当χ2>3.841时,有不少于95%的把握认为A与B有关系,但当χ2≤3.841时,只能说明没有充分理由证明A与B有关系.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2.为了判定两个分类变量X和Y是否有关系,应用独立性检验算得χ2的观测值为5,又已知P(χ2≥3.841)=0.05,P(χ2≥6.635)=0.01,则下列说法正确的是
( )
A.有99%以上的把握认为“X和Y有关系”
B.有99%以上的把握认为“X和Y没有关系”
C.有95%以上的把握认为“X和Y有关系”
D.有95%以上的把握认为“X和Y没有关系”
C
解析 ∵3.481<χ2=5<6.635,而在观测值表中对应于3.841的是0.05,对应于6.635的是0.01,∴有1-0.05=95%以上的把握认为“X和Y有关系”.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3.根据分类变量X与Y的数据,计算得到χ2=3.974,下列判断正确的是( )
A.有不少于95%的把握认为变量X与Y有关系
B.有不少于95%的把握认为变量X与Y没有关系
C.没有充分的证据显示变量X与Y有关系
D.没有充分的证据显示变量X与Y不独立,这个结论犯错误的概率不超过0.05
A
解析 ∵χ2=3.974>3.841,∴有不少于95%的把握认为变量X与Y有关系.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
4.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则χ2的观测值可能为( )
A.χ2=3.206 B.χ2=6.625
C.χ2=7.869 D.χ2=11.208
B
解析 ∵有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,∴5.024<χ2≤6.635,故B选项符合题意.故选B.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
5.下表是一个2×2列联表,则表中a,b的值分别为( )
变量 y1 y2 合计
x1 b 21 e
x2 c 25 33
合计 a d 100
A.46,54 B.54,46 C.52,54 D.50,52
B
解析 由表格中的数据可得c=33-25=8,d=21+25=46,所以a=100-46=54, b=54-8=46.故选B.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
6.(多选题)下列有关独立性检验的四个结论正确的是( )
A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大
B.对分类变量X与Y的统计量χ2的观测值x0来说,x0越小,“X与Y有关系”的可信程度越小
C.由独立性检验可知:有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病
D.由独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关
ABD
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 对于A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大,所以A正确;对于B,对分类变量X与Y的统计量χ2的观测值x0来说,x0越小,“X与Y有关系”的可信程度越小,所以B正确;对于C,由独立性检验可知:有95%的把握认为秃顶与患心脏病有关,不是说某人秃顶,那么他有95%的可能患有心脏病,C错误;对于D,由独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,所以D正确.故选ABD.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
7.某研究机构为了解大学生对冰壶运动是否感兴趣,从某大学随机抽取了600人进行调查,经统计男生与女生的人数之比是2∶1,对冰壶运动有兴趣的人数占总数的 ,女生中有50人对冰壶运动没有兴趣.
(1)完成下面2×2列联表;
(2)判断是否有99.9%的把握认为对冰壶运动是否有兴趣与性别有关.
单位:人
性别 有兴趣 没有兴趣 合计
男
女 50
合计 600
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解 (1)由题意,从某大学随机抽取了600人进行调查,经统计男生与女生的
因为女生中有50人对冰壶运动没有兴趣,所以男生有兴趣的有250人,没有兴趣的有150人,女生有兴趣的有150人.
可得如下2×2列联表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
单位:人
性别 有兴趣 没有兴趣 合计
男 250 150 400
女 150 50 200
合计 400 200 600
(2)提出统计假设H0:对冰壶运动是否有兴趣与性别无关.
根据列联表中的数据,可以求得χ2= =9.375<10.828,
所以没有99.9%的把握认为对冰壶运动是否有兴趣与性别有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
B级 关键能力提升练
8.(多选题)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:这种血清不能起到预防感冒的作用.利用2×2列联表计算的χ2≈3.918,经查临界值表知P(χ2≥3.841)=0.05,则下列表述不正确的是( )
A.有95%的把握认为“这种血清能起到预防感冒的作用”
B.若有人未使用该血清,那么他一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
BCD
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 根据查对临界值表知P(χ2≥3.841)=0.05,又χ2≈3.918>3.841,故有95%的把握认为“这种血清能起到预防感冒的作用”,即A正确;95%仅是指“血清与预防感冒”可信程度,但也有“在100个使用这种血清的人中一个患感冒的人也没有”的可能,即B,C,D不正确.故选BCD.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
9.每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
单位:份
公司 文史男 文史女 理工男 理工女
甲 10 10 20 10
乙 15 20 10 5
分析毕业生的选择意愿与性别的关联时,对应的χ2的观测值x1≈1.010,分析毕业生的选择意愿与专业关联时,对应的χ2的观测值x2≈9.090,则下列说法正确的是( )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A.有99.9%的把握认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
答案 B
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10.某班主任对全班50名学生进行了作业量的评价调查,所得数据如下表所示:
单位:名
性别 认为作业量大 认为作业量不大 合计
男生 18 9 27
女生 8 15 23
合计 26 24 50
则认为作业量的大小与学生的性别有关的犯错误的概率不超过 .
0.025
解析 因为χ2= ≈5.059,5.024<5.059<6.635,所以认为作业量的大小与学生的性别有关的犯错误的概率不超过0.025.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
11.为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
PM2.5 SO2
[0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)根据所给数据,完成下面的2×2列联表:
PM2.5 SO2
[0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
P(χ2≥x0) 0.050 0.010 0.001
x0 3.841 6.635 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解 (1)根据抽查数据,该市100天空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为 =0.64.
(2)根据抽查数据,可得2×2列联表:
PM2.5 SO2
[0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(3)根据(2)的列联表得χ2= ≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
C级 学科素养创新练
12.针对时下的“直播热”,某校团委对“学生性别和喜欢直播是否有关”进行了调查,其中被调查的男、女生人数相同,男生喜欢直播的人数占男生人数的 ,女生喜欢直播的人数占女生人数的 ,若在犯错误的概率不超过5%的前提下,认为是否喜欢直播和性别有关,则调查人数中男生至少有
人.
45
1
2
3
4
5
6
7
8
9
10
11
12
13
14
13.第19届亚运会于2023年9月23日至10月8日在杭州举办.
(1)为了解喜爱篮球运动是否与性别有关,某学校随机抽取了男生和女生各100名进行调查,得到2×2列联表如下:
性别 喜爱篮球 不喜爱篮球 合计
男生 65 35 100
女生 25 75 100
合计 90 110 200
能否认为喜爱篮球运动与性别有关?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)校篮球队中的甲、乙、丙三名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都等可能地将球传给另外两人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传球的人为第1次触球者,第n次触球者是甲的概率记为Pn,即P1=1.
②比较第15次触球者是甲与第15次触球者是乙的概率的大小.
参考数据:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解 (1)零假设为H0:喜爱篮球运动与性别无关,
我们推断H0不成立,即认为喜爱篮球运动与性别有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 由χ2=,可知当a=720时,200a-800×180=0,此时两个分类变量A和B没有任何关系,故选B.
喜欢看篮球赛情况
喜欢
不喜欢
合计
女
n
男
n
合计
2n
所以χ2=.
所以χ2>3.841,即>3.841,得n>40.33.又为不小于5的整数,所以n的最小值为45.故选C.
χ2=,由题意可得6.635<χ2≤10.828,即6.635<≤10.828,整理得139.335<n≤227.388.又0.4n,0.1n,0.3n,0.2n为不小于5的正整数,故选B.
生40名.男生中在直播平台购物的人数占男生总数的,女生中在直播平台购物的人数占女生总数的.
人数之比是2∶1,男生有600×=400(人),女生有600×=200(人),
又由对冰壶运动有兴趣的人数占总数的,所以有600×=400(人),没有兴趣的有200人,
附:χ2=,
①求P3,P4,并证明:为等比数列;
参考公式:χ2=,其中n=a+b+c+d.
计算χ2=≈32.323>6.635,
(2)①由题意知,P1=1,P2=0,P3=,P4=×0+(1-)×.
证明:第n次触球者是甲的概率记为Pn,则当n≥2时,第n-1次触球者是甲的概率为Pn-1,第n-1次触球者不是甲的概率为1-Pn-1,则Pn=Pn-1×0+(1-Pn-1)×(1-Pn-1),从而Pn-=-(Pn-1-),又P1-,所以是以为首项,-为公比的等比数列.
②第n次触球者是甲的概率为Pn=,所以P15=,
第15次触球者是乙的概率为Q15=(1-P15)=(1-)=,所以第15次触球者是甲的概率比第15次触球者是乙的概率大.
$$