内容正文:
#
#
#
#
#
#
/
0
1
2
#
3
4
5
6
7
"
8
9
:
#
6789%:;<
1.(2024·天津卷)下列图中,线性相关性系数最
大的是 ( )
A
B
C
D
2.已知x与y之间的一组数据:
x 0 1 2 3
y 1 3 5 7
若y与x线性相关,则y与x的回归直线^y =
b^x + a^必过 (D )
A.点(2,2) B.点(1.5,0)
C.点(1,2) D.点(1.5,4)
3.如图所示,给出了样本容量均为7的A,B两组
样本数据的散点图,已知A组样本数据的相关
系数为r1,B组数据的相关系数为r2,则(C )
A. r1 = r2 B. r1 < r2
C. r1 > r2 D.无法判定
4.对于线性相关系数r,叙述正确的是 (D )
A. r∈(- ∞,+ ∞),且r越大,相关程度越大
B. r∈(- ∞,+ ∞),且| r |越大,相关程度越大
C. r∈[-1,1],且r越大,相关程度越大
D. r∈[-1,1],且| r |越大,相关程度越大
5.正常情况下,年龄在18岁到38岁的人,体重y(kg)
对身高x(cm)的回归方程为^y = 0. 72x - 58. 2,
张红同学(20岁)身高为178 cm,她的体重应该
在 kg左右.
请同学们认真完成练案[17
]
4. 3. 2 独立性检验
!"#$%&'(
课程标准
1.通过实例,理解2 × 2列联表的统计意义.
2.通过实例,了解2 × 2列联表独立性检验及其应用.
学法解读
1.通过2 × 2列联表统计意义的学习,体会数学抽象的素养.
2.借助χ2计算公式进行独立性检验,培养数学运算和数据分析的素养.
!''
!
"
#
$
%
&
'
(
)
*
+
,
-
!
"
#
.
#
#
#
#
#
#
#
)*+,%-.+
2 × 2列联表
(1)定义:如果随机事件A与B的样本数据
整理成如下的表格形式.
A A 总计
B a b a + b
B c d c + d
总计 a + c b + d a + b + c + d
因为这个表格中,核心数据是中间4个格子,
所以这样的表格通常称为2 × 2列联表.
(2)χ2计算公式:χ2 = ,
其中n = .
独立性检验
(1)任意给定一个α(称为显著性水平 ,通
常取为0. 05,0. 01等),可以找到满足条件P(χ2≥
k)= α的数k(称为显著性水平α对应的
),就称在犯错误的概率不超过 的
前提下,可以认为A与B不独立(也称为A与B
有关);或说有 的把握认为A与B有关.
若χ2 < k成立,就称不能得到前述结论.这一过程
通常称为独立性检验.
(2)统计学中,常用的显著性水平α以及对
应的分位数k如表所示.
α = P(χ2≥k) 0. 1 0. 05 0. 01 0. 005 0. 001
k 2. 706 3. 841 6. 635 7. 879 10. 828
思考:若χ2 < k成立,则说明事件A与B无
关,对吗
?
/012%345
题型探究
题型一 由χ2进行独立检验
1.某商场为提高服务质量,随机调查了50名
男顾客和50名女顾客,每位顾客对该商场的服务
给出满意或不满意的评价,得到下面列联表:
满意不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意
的概率;
(2)能否有95%的把握认为男、女顾客对该
商场服务的评价有差异?
附:χ2 = n(ad - bc)
2
(a + b)(c + d)(a + c)(b + d),
P(χ2≥k) 0. 050 0. 010 0. 001
k 3. 841 6. 635 10. 828
[分析] (1)根据列联表,用频率代替概率,
可分别估计男、女顾客对该商场服务满意的概率;
(2)求出χ2的值,与临界值表对比可得结论.
[尝试作答
]
!'(
#
#
#
#
#
#
/
0
1
2
#
3
4
5
6
7
"
8
9
:
#
[规律方法] 解决独立性检验问题的基本
步骤
列表 认真读题,根据相关数据列出2 × 2列→ 联表
↓
计算 将2 × 2列联表中的数据代入公式求χ
2
→ 的值
↓
比较 将求得的χ2→ 的值与临界值进行比较
↓
结论→ 由比较结果得出相应结论
对点训练? 2024年春季,某出租汽车公
司决定更换一批小汽车以代替原来报废的出租
车,现有A,B两款车型的使用寿命(单位:年)频
数表如下:
使用寿命/年 5 6 7 8 总计
A型出租车/辆 10 20 45 25 100
B型出租车/辆 15 35 40 10 100
(1)填写下表,并判断是否有99%的把握认
为出租车的使用寿命与汽车车型有关;
使用寿命
不高于6年
使用寿命不
低于7年 总计
A型
B型
总计
(2)司机师傅小李准备在一辆开了4年的A
型车和一辆开了4年的B型车中选择,为了尽最
大可能实现3年内(含3年)不换车,试通过计算
说明,他应如何选择.
题型二 独立性检验的综合应用
2.为了解某班学生喜爱打篮球是否与性别有
关,对本班48人进行了问卷调查,得到了如下的2
× 2列联表:
喜爱打篮球不喜爱打篮球合计
男生 6
女生 10
合计 48
已知在全班48人中随机抽取1人,抽到喜爱
打篮球的学生的概率为23 .
(1)请将上面的2 × 2列联表补充完整(不用
写计算过程);
(2)能否在犯错误的概率不超过0. 05的前提
下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中
喜爱打篮球的女生人数为X,求X的分布列与
均值.
[分析] (1)由古典概型的概率求得2 × 2
列联表.
(2)计算χ2,判断P(χ2 > 3. 841)= 0. 05是否
成立.
(3)结合超几何分布求解.
[尝试作答
]
[规律方法] 1.检验两个变量是否相互独
立,主要依据是计算χ2的值再利用该值与分位数
k进行比较作出判断.
2. χ2计算公式较复杂,一是公式要清楚;二是
代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之
一是通过部分数据的性质来推测全部数据的性
质.因此,统计推断是可能犯错误的,即从数据上
体现的只是统计关系,而不是因果关系
.
!')
!
"
#
$
%
&
'
(
)
*
+
,
-
!
"
#
.
#
#
#
#
#
#
#
对点训练? (2024·全国甲卷理科)某
工厂进行生产线智能化升级改造,升级改造后,从
该工厂甲、乙两个车间的产品中随机抽取150件
进行检验,数据如下:
优级品合格品不合格品总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的
优级品率存在差异?能否有99%的把握认为甲,
乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率
p = 0. 5,设p- 为升级改造后抽取的n件产品的优
级品率.如果p- > p + 1. 65 p(1 - p)槡n ,则认为该工
厂产品的优级品率提高了,根据抽取的150件产
品的数据,能否认为生产线智能化升级改造后,该
工厂产品的优级品率提高了?(槡150≈12. 247)
附:K2 = n(ad - bc)
2
(a + b)(c + d)(a + c)(b + d)
P(K2≥k) 0. 050 0. 010 0. 001
k 3. 841 6. 635 10. 828
易错警示
没有准确掌握公式中参数的含义致误
3.有甲、乙两个班级进行一门考试,按照学生
考试成绩优秀和不优秀统计后,得到如下的列
联表
班级与成绩列联表
优秀 不优秀 总计
甲班 10 35 45
乙班 7 38 45
总计 17 73 90
试问能有多大把握认为“成绩与班级有关
系”?
[错解] 由公式得χ2 = 90 ×(10 ×7 -35 ×38)
2
17 ×73 ×45 ×45
=56.86,
56. 86 > 6. 635所以有99%的把握认为“成绩
与班级有关系”.
[辨析] 由于对2 × 2列联表中a,b,c,d的
位置不清楚,在代入公式时代错了数值导致计算
结果的错误.
[正解]
[点评] 独立性检验中,参数χ2公式复杂计
算量大,要弄清公式特点熟记公式,小心计算避免
粗心致误
.
!'*
#
#
#
#
#
#
/
0
1
2
#
3
4
5
6
7
"
8
9
:
#
6789%:;<
1.通过随机询问110名性别不同的大学生是否爱
好某项运动,得到如下的列联表:
男 女 总计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
经计算得χ2 = 110 ×(40 × 30 - 20 × 20)
2
60 × 50 × 60 × 50 ≈7. 8.
则正确的结论是 (C )
A.在犯错误的概率不超过0. 1%的前提下,认
为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0. 1%的前提下,认
为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性
别有关”
D.有99%以上的把握认为“爱好该项运动与性
别无关”
2.一个2 × 2列联表如下:
y1 y2 总计
x1 a 35 45
x2 7 b n
总计 m 73 s
则表中m,n的值分别是 (B )
A. 10,38 B. 17,45 C. 10,45 D. 17,38
3.下列关于χ2的说法中正确的是 (C )
A. χ2越大,“事件A,B有关”的可信度越小
B. χ2越大,“事件A,B无关”的可信度越大
C. χ2越小,“事件A,B有关”的可信度越小
D. χ2越小,“事件A,B无关”的可信度越小
4.利用独立性检验对事件A和B是否有关进行研
究时,若有99%的把握认为事件A和B有关,
则计算出的χ2的取值范围是 (A )
P(χ2≥k) 0. 050 0. 010 0. 001
k 3. 841 6. 635 10. 828
A. χ2≥6. 635 B. χ2 < 6. 635
C. χ2≥3. 841 D. χ2 < 3. 841
5.某企业有2个分厂生产某种零件,为了研究两
个分厂生产零件的质量是否有差异,随机从2
个分厂生产的零件中各抽取了500件,具体数
据如表所示:
甲厂乙厂总计
优质品 360 320 680
非优质品 140 180 320
总计 500 500 1 000
根据表中数据得
χ2 = 1 000 ×(360 × 180 - 320 × 140)
2
680 × 320 × 500 × 500 ≈7. 353.
从而断定两个分厂生产零件的质量有差异,那
么这种判断出错的最大可能性为 .
附:
P(χ2≥k) 0. 1 0. 05 0. 01 0. 001
k 2. 706 3. 841 6. 635 10. 828
请同学们认真完成练案[18
]
!(!
根据散点图可知y与x近似地呈反比例函数关系,设y =
k
x ,令t =
1
x ,则y = kt,原数据变为:
t 4 2 1 0. 5 0. 25
y 16 12 5 2 1
由置换后的数值表作散点如图所示:
由散点图可以看出y与t呈近似的线性相关关系.列表
如下:
i ti yi ti yi t2i y2i
1 4 16 64 16 256
2 2 12 24 4 144
3 1 5 5 1 25
4 0. 5 2 1 0. 25 4
5 0. 25 1 0. 25 0. 0625 1
∑ 7. 75 36 94. 25 21. 3125 430
所以t = 1. 55,y = 7. 2,
所以b^ =
∑
5
i = 1
tiyi - 5t y
Σ
5
i = 1
t2i - 5t
2
≈4. 1344. a^ = y - b^ t≈0. 8.
所以^y = 4. 1344t + 0. 8.
所以y与x的回归方程是^y = 4. 1344x + 0. 8.
课堂检测·固双基
1. A 观察4幅图可知,A图散点分布比较集中,且大体接近某
一条直线,线性回归模型拟合效果比较好,呈现明显的正相
关,| r |值相比于其他3图更接近1.故选A.
2. D 因为x = 0 + 1 + 2 + 34 = 1. 5,^y =
1 + 3 + 5 + 7
4 = 4,所以回归
直线必过点(1. 5,4).
3. C
4. D
5. 69. 96 用回归方程对身高为178 cm的人的体重进行预测,
当x = 178时,^y = 0. 72 × 178 - 58. 2 = 69. 96(kg).
4. 3. 2 独立性检验
必备知识·探新知
知识点1 (2) n(ad - bc)
2
(a + b)(c + d)(a + c)(b + d) a + b + c + d
知识点2 (1)显著性水平 分位数 α 1 - α
思考:不对,若χ2 < k成立,则说明有1 - α的把握认为事件
A与B无关.
关键能力·攻重难
例1:(1)由调查数据知,男顾客对该商场服务满意的概率
的估计值为0. 8;女顾客对该商场服务满意的概率的估计值为
30
50 = 0. 6.
(2)χ2 = 100 ×(40 × 20 - 30 × 10)
2
50 × 50 × 70 × 30 ≈4. 762.
由于4. 762 > 3. 841,故有95%的把握认为男、女顾客对该
商场服务的评价有差异.
对点训练1:(1)根据题目所给数据得到如下2 × 2的列
联表:
使用寿命不高于6年使用寿命不低于7年总计
A型 30 70 100
B型 50 50 100
总计 80 120 200
所以χ2 = 200 ×(50 × 70 - 30 × 50)
2
100 × 100 × 80 × 120 ≈8. 333.
查表可得P(χ2≥6. 635)= 0. 01,
由于8. 333 > 6. 635,
所以有99%的把握认为出租车的使用寿命与汽车车型
有关.
(2)记事件A为“小李选择A型车,3年内(含3年)不换
车”,事件B为“小李选择B型车,3年内(含3年)不换车”,所以
P(A)=45 +25100 =0. 7,P(B)=
40 +10
100 = 0. 5,因为P(A)> P(B),
所以小李应选择A型车.
例2:(1)列联表补充如下:
喜爱打篮球不喜爱打篮球合计
男生 22 6 28
女生 10 10 20
合计 32 16 48
(2)由χ2 = 48 ×(220 - 60)
2
28 × 20 × 32 × 16≈4. 286.
因为4. 286 > 3. 841,所以,能在犯错误的概率不超过0. 05
的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X = 0)= C
2
10
C220
= 938,
P(X = 1)= C
1
10C
1
10
C220
= 1019,
P(X = 2)= C
2
10
C220
= 938,
故X的分布列为
X 0 1 2
P 938
10
19
9
38
X的均值为E(X)= 0 + 1019 +
9
19 = 1.
对点训练2:(1)根据题意可得列联表
:
—146—
优级品非优级品
甲车间 26 24
乙车间 70 30
可得K2 = 150 ×(26 × 30 - 24 × 70)
2
50 × 100 × 96 × 54 =
75
16 = 4. 687 5,
因为3. 841 < 4. 687 5 < 6. 635,
所以有95%的把握认为甲、乙两车间产品的优级品率存在
差异,没有99%的把握认为甲,乙两车间产品的优级品率存在
差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的
优级品的频率为96150 = 0. 64,
用频率估计概率可得p = 0. 64,
又因为升级改造前该工厂产品的优级品率p = 0. 5,
则p +1. 65 p(1 - p)槡n = 0. 5 + 1. 65 0.5(1 -0.5)槡150 ≈0. 5 +
1. 65 × 0. 512. 247≈0. 568,
可知p > p + 1. 65 p(1 - p)槡n ,
所以可以认为生产线智能化升级改造后,该工厂产品的优
级品率提高了.
例3:χ2 = 90 ×(10 × 38 - 7 × 35)
2
17 × 73 × 45 × 45 = 0. 653,
0. 653 < 3. 841,
所以没有充分证据认为成绩与班级有关.
课堂检测·固双基
1. C 根据独立性检验的思想方法,正确选项为C.
2. B 由a + 35 = 45,得a = 10.由a + 7 = m,得m = 17.由m + 73
= s,得s = 90.由45 + n = s,得n = 45.
3. C χ2 越大,“事件A,B有关”的可信度越大,“事件A,B无
关”的可信度越小;χ2越小,“事件A,B有关”的可信度越小,
“事件A,B无关”的可信度越大.
4. A 易知当χ2≥6. 635时,有99%的把握认为事件A和B有
关.故选A.
5. 0. 01 因为7. 353 > 6. 635,所以这种判断出错的最大可能性
为0. 01.
章末知识梳理
核心知识归纳
思考1:不是.这是对全概率公式的形式主义的认识,完全
把它作为一个“公式”来理解是不对的.其实,我们没有必要去
背这个公式,根据B = BΩ = BA1 + BA2 +…+ BAn,应着眼于A1,
A2,…,An的结构.事实上,对于具体问题,若能设出n个事件Ai
(i = 1,2,…,n),使之满足A1 + A2 +…+ An = Ω,
AiAj ={ (任意两个事
件互斥,i,j = 1,2,…,n,i≠j).(1)就可得B = BΩ = BA1 + BA2 +
…+ BAn .(2)这样就便于应用概率的加法公式和乘法公式.
因此,能否使用全概率公式,关键在于(2),而要有(2),关
键又在于适当地对Ω进行一个分割,即有(1).
思考2:①两点分布是一种特殊的二项分布,即n = 1时的二
项分布.
②超几何分布与二项分布之间的关系:n次试验中,X为事
件A出现的次数,当这n次试验是独立重复试验时,X服从二项
分布;当这n次试验是不放回摸球,事件A为摸到某种特性(如
某种颜色)的球时,X服从超几何分布.但是当袋子中的球的数
目N很大时,超几何分布近似于二项分布,并且随着N的增加,
这种近似的精确度也增加.
③二项分布与超几何分布的区别:有放回抽样,每次抽取时
的总体没有改变,因而每次抽到某物的概率都是相同的,可以看
成是独立重复试验,此种抽样是二项分布模型.而不放回抽样,
取出一个则总体中就少一个,因此每次取到某物的概率是不同
的,此种抽样为超几何分布模型.因此,二项分布模型和超几何
分布模型最主要的区别在于是有放回抽样还是不放回抽样.
思考3:散点图可以形象直观地展示两个变量的关系,通过
散点图判断两个变量更近似于什么样的函数关系,以确定是否
能直接用线性回归模型来拟合原始数据.
要点专项突破
例1:513 解法一:记“至少出现2枚正面朝上”为事件A,
“恰好出现3枚正面朝上”为事件B,所求概率为P(B |A),事件A
包含的基本事件的个数为n(A)= C25 + C35 + C45 + C55 = 26,
事件B包含的基本事件的个数为n(B)= C35 = 10,
∴ P(B |A)= n(AB)n(A)=
n(B)
n(A)=
10
26 =
5
13 .
解法二:事件A,B同上,则P(A)= C
2
5 + C
3
5 + C
4
5 + C
5
5
25
= 2632,
P(AB)= P(B)= C
3
5
25
= 1032,
所以P(B |A)= P(AB)P(A)=
P(B)
P(A)=
5
13 .
例2:(1)P(2张都没有中奖)= C
2
6
C210
= 1545 =
1
3 ,
即该顾客2张都没中奖的概率为13 .
(2)X的所有可能值为0,10,20,50,60,
且P(X =0)= C
2
6
C210
= 13 ,P(X =10)=
C13C
1
6
C210
= 25 ,P(X =20)=
C23
C210
= 115,P(X =50)=
C11C
1
6
C210
= 215,P(X =60)=
C11C
1
3
C210
= 115,
故X的分布列为
X 0 10 20 50 60
P 13
2
5
1
15
2
15
1
15
从而期望E(X)=0 × 13 +10 ×
2
5 +20 ×
1
15 +50 ×
2
15 + 60 ×
1
15 =16.
例3:(1)甲、乙所在队的比赛成绩不少于5分,则甲第一阶
段至少投中1次,乙第二阶段也至少投中1次,
∴比赛成绩不少于5分的概率P =(1 - 0. 63)(1 - 0. 53)=
0. 686.
(2)(ⅰ)若甲先参加第一阶段比赛,则甲、乙所在队的比赛
成绩为15分的概率为P甲=[1 -(1 - p)3]q3,
若乙先参加第一阶段比赛,则甲、乙所在队的比赛成绩为
15分的概率为P乙=[1 -(1 - q)3]·p3,
∵ 0 < p < q,
∴ P甲- P乙= q
3 -(q - pq)3 - p3 +(p - pq)3
=(q - p)(q2 + pq + p2)+(p - q)·[(p - pq)2 +(q - pq)2
+(p - pq)(q - pq)]
=(p - q)(3p2q2 - 3p2q - 3pq2)
= 3pq(p - q)(pq - p - q)= 3pq(p - q)[(1 - p)(1 - q)- 1]
> 0,
∴ P甲> P乙,应该由甲参加第一阶段比赛.
(ⅱ)若甲先参加第一阶段比赛,比赛成绩X
的所有可能取
—147—