内容正文:
人教A版选择性必修第三册
8.3.2《 独立性检验 》 导学案(教用版)
( 制作:许鸥 日期:2026年4月27日 地区:云南省昆明市 )
班级: 姓名: 分数: .
一、引言导入
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大,因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
二、零假设(或原假设)
(一)零假设的定义
考虑以为样本空间的古典概型.设和为定义在上,取值于的成对分类变量,我们希望判断事件和之间是否有关联.
注意到和,和都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系
是否成立,通常称为零假设或原假设(null hypothesis).
这里,表示从中随机选取一个样本点,该样本点属于的概率;而表示从中随机选取一个样本点,该样本点属于的概率.
(二)零假设的等价条件与等价表述
由条件概率的定义可知,零假设等价于
或
①
注意到和为对立事件,于是
再由概率的性质,我们有
将上面两个式子代入①可得
由此推得①式等价于
因此,
零假设等价于与独立.
根据已经学过的概率知识,下面的四条性质彼此等价:
与独立;与独立;
与独立;与独立.
如果这些性质成立,我们就称分类变量和独立,这相当于下面四个等式成立
②
因此,我们可以用概率语言,将零假设改述为
零假设:分类变量和独立.
假定我们通过简单随机抽样得到了和的抽样数据列联表,如表8.3-3所示
表8.3-3是关于分类变量和的抽样数据的2×2列联表:最后一行的前两个数分别是事件和的频数;最后一列的前两个数分别是事件和的频数;中间的四个数是事件的频数;右下角格中的数是样本容量.
三、问题探究
(一)问题
如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对分类变量和是否相互独立作出推断?
(二)探究
在零假设成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概率和对应的频率的乘积
估计概率,而把
视为事件发生的频数的期望值(或预期值).
这样,该频数的观测值和期望值应该比较接近.
综合②中的四个式子,如果零假设成立,下面四个量的取值都不应该太大:
反之,当这些量的取值较大时,就可以推断不成立.
显然,分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算
分布的统计量,来推断是否成立.
一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小,为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
该表达式可化简为
统计学家建议,用随机变量取值的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.
那么,究竟大到什么程度,可以推断不成立呢?或者说,怎样确定判断大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与相矛盾的小概率事件来实现.
在假定的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计学家得到了的近似分布.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得下面,关系成立:
我们称为的临界值,这个临界值就可作为判断大小的标准.
概率值越小,临界值越大,当总体很大时,抽样有、无放回对的分布影响较小,因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值取得充分小,在假设成立的情况下,事件是不大可能发生的,根据这个规律,如果该事件发生,我们就可以推断不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过.
四、独立性检验的定义与步骤
(一)独立性检验的定义
基于小概率值的检验规则是:
(1)当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率
不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作"卡方独立性检验",简称独立性检验(test of independence).
注:表8.3-4给出了独立性检验中几个常用的小概率值和相应的临界值.
例如,对于小概率值,我们有如下的具体检验规则:
(1)当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和独立.
(二)独立性检验的步骤
应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设和相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在和不独立的情况下,根据需要,通过比较相应的频率,分析和间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
五、实例运用
例1.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
【答案】两种疗法效果没有差异.
【难度】0.85
【知识点】列联表分析、独立性检验解决实际问题
【分析】由题设得到两种疗法治疗数据的列联表,应用卡方计算公式求卡方值,比对小概率值对应的参考值,判断两种疗法效果是否有差异.
【详解】假设:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,如下表:
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
根据列联表中的数据,经计算得到.
根据小概率值的独立性检验,没有充分证据推断不成立,
∴可以认为假设成立,即两种疗法效果没有差异.
例2.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌的风险.
表 单位:人
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
7775
42
7817
吸烟者
2099
49
2148
合计
9874
91
9965
【答案】吸烟更容易引发肺癌.
【难度】0.65
【知识点】独立性检验解决实际问题
【分析】根据表中数据求出,在求出不吸烟者中不患肺癌和患肺癌的频率、吸烟者中不患肺癌和患肺癌的频率,分析数据即可得出结论.
【详解】解:零假设为:吸烟与患肺癌之间无关联.
根据列联表中的数据经计算得到,
根据小概率值的独立性检验,我们推断不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
根据表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为和;
吸烟者中不患肺癌和患肺癌的频率分别为和,
由可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
六、达标检测
练习1.为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房、体育中心)和社区公共运动场(如小区健身点、街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年
中老年
合计
商业健身场馆
60
社区公共运动场
50
合计
80
170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,有95%的把握认为年龄与健身场所选择有关
(2)的分布见解析,数学期望为(或约)
【难度】0.62
【知识点】完善列联表、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)先补全 2×2 列联表,再代入卡方独立性检验公式计算统计量,与 95% 置信度临界值比较,判断年龄与健身场所选择是否有关联;
(2)先按分层抽样确定抽取的青壮、中老年人数,再用超几何分布计算随机变量 X 的各取值概率,列出分布列并代入期望公式求数学期望.
【详解】(1)根据已知数据计算空缺值,得到完整列联表如下:
青壮年
中老年
合计
商业健身场馆
60
40
100
社区公共运动场
20
50
70
合计
80
90
170
因为,
因此有95%的把握认为年龄与居民健身场所的选择有关.
(2)选择社区公共运动场的居民共70人,其中青壮年20人、中老年50人,抽样比为,
因此抽取的样本中青壮年人数:,中老年人数:.
设抽取的7人中中老年人数为,则青壮年人数为,.
因为青壮年共4人,故,解得,又,
因此,对应的可能取值为.
总情况数为,
(对应或)时,,
(对应)时,,
(对应)时,,
(对应)时,,
因此,的分布列为:
1
3
5
7
所以
练习2.随着科技的进步,人工智能(AI)工具在职场中的应用日益广泛,像豆包、DeepSeek等常见的AI工具,已被证明能有效提升员工的工作效率和准确率.某公司为了解员工使用这类AI工具的熟练度,进行了一次内部统计,统计结果如下表:
能够熟练使用AI工具
不能够熟练使用AI工具
男员工
30
15
女员工
16
9
(1)根据的独立性检验,能否认为性别与使用AI工具的熟练度具有相关性?
(2)现按熟练度采用分层抽样的方法从该公司的男员工中随机抽取12人,再从这12人中随机抽取3人,记其中不能够熟练使用AI工具的人数为,求的分布列以及数学期望.
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)性别与使用AI工具的熟练度无关;
(2)
0
1
2
3
数学期望为1.
【难度】0.85
【知识点】卡方的计算、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据给定条件,求出的观测值,再与临界值比对即可得解.
(2)求出12名男员工中能够熟练与不能够熟练使用AI的人数,进而求出的可能值及各个值对应的概率,列出分布列并求出数学期望.
【详解】(1)设零假设:性别与使用AI工具的熟练度无关,
由统计表得,
则,
根据小概率值的独立性检验,没有充分证据推断不成立,
所以可以认为成立,即认为性别与使用AI工具的熟练度无关.
(2)男员工中能够熟练与不能够熟练使用AI的人数比为,
按分层抽样抽12人,抽取的能够熟练使用的人数为,抽取的不能够熟练使用的人数为4,
因此的可能取值为,
,
,
所以的分布列为:
0
1
2
3
数学期望.
练习3.为研究某校高三年级学生的身高是否与性别有关,现从学生群体中,随机测量了50名学生的身高,然后按“身高低于170cm”与“身高不低于170cm”分成两组,统计整理各组人数如下列联表(单位:人).
性别
身高
合计
低于170cm
不低于170cm
男
8
24
32
女
12
6
18
合计
20
30
50
(1)依据的独立性检验,能否认为该学校高三年级学生的身高与性别有关联?
(2)若从男生样本和女生样本中各选取一人,求两名学生身高不在同一组的概率.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)可以认为该学校高三年级学生的性别与身高有关联.
(2)
【难度】0.72
【知识点】卡方的计算、独立性检验的基本思想、独立性检验解决实际问题、利用全概率公式求概率
【分析】(1)计算卡方,即可与临界值比较求解.
(2)根据全概率公式即可求解.
【详解】(1),
依据的独立性检验,可以认为该学校高三年级学生的性别与身高有关联.
(2)从男生样本和女生样本中各选取一人,则两名学生身高不在同一组的概率
练习4.为研究不同性别对取暖器“最佳舒适温度”是否不低于的认同差异,某公司随机对400名用户(男女用户各占一半)进行了调查,其中,认为“最佳舒适温度”不低于的女性用户数量占女性用户总数的,认为“最佳舒适温度”不低于的男性用户数量占总用户数的.
性别
最佳舒适温度
合计
男
女
合计
400
(1)完成列联表,并根据小概率值的独立性检验,分析认同取暖器“最佳舒适温度”是否不低于是否与性别有关;
(2)从样本中的认为取暖器“最佳舒适温度”低于的用户中随机抽取2人,求这2人中至少有1名女性的概率.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,可以认为认同取暖器“最佳舒适温度”是否不低于与性别有关;
(2)
【难度】0.72
【知识点】完善列联表、卡方的计算、独立性检验解决实际问题、计算古典概型问题的概率
【分析】(1)根据题意填充列联表,再计算的观测值,与临界值比较后得出结论;
(2)利用(1)中列联表的数据,根据古典概型概率公式求解.
【详解】(1)依题意可知,女性用户共有200人,
认为“最佳舒适温度”不低于的女性用户有人,
男性用户中认为“最佳舒适温度”不低于的人数为.
列联表如下:
性别
最佳舒适温度
合计
男
100
100
200
女
150
50
200
合计
250
150
400
零假设为:认同取暖器“最佳舒适温度”是否不低于与性别无关.
根据表中的数据,计算得到,
因为,所以根据小概率值的独立性检验,有充分证据推断不成立,
因此可以认为认同取暖器“最佳舒适温度”是否不低于与性别有关;
(2)由(1)得,认为取暖器“最佳舒适温度”低于的用户中男性有100人,女性有50人,
故抽取2人至少有1名女性的概率为.
练习5.人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
(1)已知从这名年龄超过岁的教师中随机抽取人,人都喜欢使用技术的概率为.据此完善上面的列联表,并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取人,求其中至少人喜欢使用技术的条件下,人年龄均不超过岁的概率.
附:,其中.
【答案】(1)
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
有关
(2)
【难度】0.57
【知识点】完善列联表、独立性检验解决实际问题、计算条件概率、独立重复试验的概率问题
【分析】(1)根据组合计数原理以及古典概型的概率公式可得出关于的方程,解出的值,可完善列联表,利用独立性检验可得结论;
(2)记事件为至少人喜欢使用技术,事件为人年龄均不超过岁,求出、的值,利用条件概率公式可求得结果.
【详解】(1)设超过岁的教师中喜欢使用技术的有人,
由题意可得,即,整理可得,
因为,解得.
补充列联表如下
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
零假设该市教师喜欢使用技术与年龄无关,
.
依据小概率值的独立性检验,判断该校教师是否喜欢使用技术与年龄有关.
(2)记事件为至少人喜欢使用技术,事件为人年龄均不超过岁.
全市某名中学教师喜欢使用技术的概率,
不超过岁且喜欢使用的概率,
所以,
,
由条件概率公式可得.
练习6.重庆城市足球超级联赛(简称 “渝超”)引发了广泛关注. 某地区随机抽取了部分市民,调查他们对赛事的关注情况, 得到如下表格:
性别
不关注赛事
关注赛事
男性
女性
(1)根据小概率值 的独立性检验,能否认为关注 “渝超” 赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取 3 名市民参加 “渝超” 赛事知识问答. 已知男性、女性市民顺利完成知识问答的概率分别为 , 每个人是否顺利完成相互独立.求3人中顺利完成知识问答的总人数的分布列及其期望.
附:.
【答案】(1)认为关注 “渝超” 赛事与性别有关
(2)
0
1
2
3
【难度】0.64
【知识点】卡方的计算、独立性检验解决实际问题、独立事件的乘法公式、求离散型随机变量的均值
【分析】(1)整理列联表数据代入卡方统计量公式计算,对比临界值得出结论;
(2)确定分层抽样人数,确定随机变量取值,分情况计算概率,列出分布列并求期望.
【详解】(1)整理列联表数据如下:
性别
不关注赛事
关注赛事
合计
男性
女性
合计
根据卡方公式:
,
已知小概率值,对应临界值,
,
根据的独立性检验,认为关注 “渝超” 赛事与性别有关.
(2)关注赛事的市民中,男性人,女性人,性别比例,则抽取3人时,男性2人,女性1人;
表示顺利完成问答总人数,取值为:,
已知男性完成概率,未完成概率,女性完成概率,未完成概率,且相互独立;
则;
;
;
;
0
1
2
3
数学期望为:
.
练习7.咸阳文旅部门统计了某景点在2025年2月至6月的旅游收入(单位:万元),得到以下数据:
月份
2
3
4
5
6
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数判断,是否可用线性回归模型拟合与的关系?(当时,认为线性相关性较强),若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了100名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该景点与性别有关联”.
喜欢
不喜欢
总计
男
50
女
30
总计
60
参考公式:相关系数,参考数据:.
线性回归方程:,其中
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)可用,线性回归方程为;
(2)
喜欢
不喜欢
总计
男
40
10
50
女
20
30
50
总计
60
40
100
能认为“游客是否喜欢该景点与性别有关联”.
【难度】0.75
【知识点】求回归直线方程、相关系数的计算、完善列联表、独立性检验解决实际问题
【分析】(1)利用表格中数据求出并判断,再利用最小二乘法求出回归直线方程.
(2)完善列联表,求出的观测值,与临界值比对作答.
【详解】(1)由表格中数据,得,
,
,
因此相关系数,
所以与的线性相关性较强,可用线性回归模型拟合与的关系;
,
所以关于之间的线性回归方程为.
(2)依题意,列联表为:
喜欢
不喜欢
总计
男
40
10
50
女
20
30
50
总计
60
40
100
零假设:认为“游客是否喜欢该景点与性别无关联”,
由表格中数据经计算,
依据小概率的独立性检验,推断不成立,
即能认为“游客是否喜欢该景点与性别有关联”,此推断犯错误的概率不大于0.001.
第2页,共2页
第1页,共1页
学科网(北京)股份有限公司
$
人教A版选择性必修第三册
8.3.2《 独立性检验 》 导学案(学生版)
( 制作:许鸥 日期:2026年4月27日 地区:云南省昆明市 )
班级: 姓名: 分数: .
一、引言导入
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大,因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
二、零假设(或原假设)
(一)零假设的定义
考虑以为样本空间的古典概型.设和为定义在上,取值于的成对分类变量,我们希望判断事件和之间是否有关联.
注意到和,和都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系
是否成立,通常称为 假设或 假设(null hypothesis).
这里,表示从中随机选取一个样本点,该样本点属于的概率;而表示从中随机选取一个样本点,该样本点属于的概率.
(二)零假设的等价条件与等价表述
由条件概率的定义可知,零假设等价于
或
①
注意到和为对立事件,于是
再由概率的性质,我们有
将上面两个式子代入①可得
由此推得①式等价于
因此,
零假设等价于与 .
根据已经学过的概率知识,下面的四条性质彼此等价:
与独立;与独立;
与独立;与独立.
如果这些性质成立,我们就称分类变量和独立,这相当于下面四个等式成立
②
因此,我们可以用概率语言,将零假设改述为
零假设:分类变量和 .
假定我们通过简单随机抽样得到了和的抽样数据列联表,如表8.3-3所示
表8.3-3是关于分类变量和的抽样数据的2×2列联表:最后一行的前两个数分别是事件和的频数;最后一列的前两个数分别是事件和的频数;中间的四个数是事件的频数;右下角格中的数是样本容量.
三、问题探究
(一)问题
如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对分类变量和是否相互独立作出推断?
(二)探究
在零假设成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概率和对应的频率的乘积
估计概率,而把
视为事件发生的频数的期望值(或预期值).
这样,该频数的观测值和期望值应该比较接近.
综合②中的四个式子,如果零假设成立,下面四个量的取值都不应该太大:
反之,当这些量的取值 时,就可以推断 成立.
显然,分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算
分布的统计量,来推断是否成立.
一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小,为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
该表达式可化简为
统计学家建议,用随机变量取值的大小作为判断零假设是否成立的依据,当它比较大时推断 成立,否则认为成立.
那么,究竟大到什么程度,可以推断不成立呢?或者说,怎样确定判断大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与相矛盾的小概率事件来实现.
在假定的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计学家得到了的近似分布.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得下面,关系成立:
我们称为的临界值,这个临界值就可作为判断大小的标准.
概率值越小,临界值越大,当总体很大时,抽样有、无放回对的分布影响较小,因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值取得充分 ,在假设成立的情况下,事件是 可能发生的,根据这个规律,如果该事件发生,我们就可以推断 成立.不过这个推断有可能犯错误,但犯错误的概率不会超过.
四、独立性检验的定义与步骤
(一)独立性检验的定义
基于小概率值的检验规则是:
(1)当时,我们就推断 成立,即认为和 独立,该推断犯错误的概率不超过;
(2)当时,我们 充分证据推断不成立,可以认为和 .
这种利用的取值推断分类变量和是否独立的方法称为 检验,读作"卡方独立性检验",简称 检验(test of independence).
注:表8.3-4给出了独立性检验中几个常用的小概率值和相应的临界值.
例如,对于小概率值,我们有如下的具体检验规则:
(1)当时,我们推断不成立,即认为和 独立,该推断犯错误的概率不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和 .
(二)独立性检验的步骤
应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设和相互 ,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算 的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在和不独立的情况下,根据需要,通过比较相应的频率,分析和间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
五、实例运用
例1.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
例2.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌的风险.
表 单位:人
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
7775
42
7817
吸烟者
2099
49
2148
合计
9874
91
9965
六、达标检测
练习1.为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房、体育中心)和社区公共运动场(如小区健身点、街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年
中老年
合计
商业健身场馆
60
社区公共运动场
50
合计
80
170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
练习2.随着科技的进步,人工智能(AI)工具在职场中的应用日益广泛,像豆包、DeepSeek等常见的AI工具,已被证明能有效提升员工的工作效率和准确率.某公司为了解员工使用这类AI工具的熟练度,进行了一次内部统计,统计结果如下表:
能够熟练使用AI工具
不能够熟练使用AI工具
男员工
30
15
女员工
16
9
(1)根据的独立性检验,能否认为性别与使用AI工具的熟练度具有相关性?
(2)现按熟练度采用分层抽样的方法从该公司的男员工中随机抽取12人,再从这12人中随机抽取3人,记其中不能够熟练使用AI工具的人数为,求的分布列以及数学期望.
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
练习3.为研究某校高三年级学生的身高是否与性别有关,现从学生群体中,随机测量了50名学生的身高,然后按“身高低于170cm”与“身高不低于170cm”分成两组,统计整理各组人数如下列联表(单位:人).
性别
身高
合计
低于170cm
不低于170cm
男
8
24
32
女
12
6
18
合计
20
30
50
(1)依据的独立性检验,能否认为该学校高三年级学生的身高与性别有关联?
(2)若从男生样本和女生样本中各选取一人,求两名学生身高不在同一组的概率.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
练习4.为研究不同性别对取暖器“最佳舒适温度”是否不低于的认同差异,某公司随机对400名用户(男女用户各占一半)进行了调查,其中,认为“最佳舒适温度”不低于的女性用户数量占女性用户总数的,认为“最佳舒适温度”不低于的男性用户数量占总用户数的.
性别
最佳舒适温度
合计
男
女
合计
400
(1)完成列联表,并根据小概率值的独立性检验,分析认同取暖器“最佳舒适温度”是否不低于是否与性别有关;
(2)从样本中的认为取暖器“最佳舒适温度”低于的用户中随机抽取2人,求这2人中至少有1名女性的概率.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
练习5.人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
(1)已知从这名年龄超过岁的教师中随机抽取人,人都喜欢使用技术的概率为.据此完善上面的列联表,并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取人,求其中至少人喜欢使用技术的条件下,人年龄均不超过岁的概率.
附:,其中.
练习6.重庆城市足球超级联赛(简称 “渝超”)引发了广泛关注. 某地区随机抽取了部分市民,调查他们对赛事的关注情况, 得到如下表格:
性别
不关注赛事
关注赛事
男性
女性
(1)根据小概率值 的独立性检验,能否认为关注 “渝超” 赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取 3 名市民参加 “渝超” 赛事知识问答. 已知男性、女性市民顺利完成知识问答的概率分别为 , 每个人是否顺利完成相互独立.求3人中顺利完成知识问答的总人数的分布列及其期望.
附:.
练习7.咸阳文旅部门统计了某景点在2025年2月至6月的旅游收入(单位:万元),得到以下数据:
月份
2
3
4
5
6
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数判断,是否可用线性回归模型拟合与的关系?(当时,认为线性相关性较强),若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了100名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该景点与性别有关联”.
喜欢
不喜欢
总计
男
50
女
30
总计
60
参考公式:相关系数,参考数据:.
线性回归方程:,其中
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
第2页,共2页
第1页,共1页
学科网(北京)股份有限公司
$