内容正文:
培优课 成对数据统计分析中的综合问题 能力提升
重点解读
1.回归分析以及独立性检验的相关知识(数学抽象).
2.掌握回归分析与独立性检验、概率统计等交汇问题(数学建模、数据分析).
一、回归分析与独立性检验交汇
【例1】 环境监测部门为调研汽车流量对空气质量的影响,在某监测点统计每日过往的汽车流量x(单位:辆)和空气中的PM2.5的平均浓度y(单位:μg/m3).调研人员采集了50天的数据,制作了关于(xi,yi)(i=1,2,3,…,50)的散点图,并用直线x=1 500与y=100将散点图分成如图所示的四个区域Ⅰ、Ⅱ、Ⅲ、Ⅳ,落入对应区域的样本点的个数依次为6,20,16,8.
(1)完成下面的2×2列联表,并依据小概率值α=0.01的独立性检验,分析“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500辆”是否有关联?
PM2.5
平均浓度
汽车日流量
合计
汽车日流量
x<1 500
汽车日流量
x≥1 500
PM2.5的平均
浓度y<100
PM2.5的平均
浓度y≥100
合计
解:(1)2×2列联表如下:
PM2.5平均浓度
汽车日流量
合计
汽车日流量x<1 500
汽车日流量x≥1 500
PM2.5的平均浓度y<100
16
8
24
PM2.5的平均浓度y≥100
6
20
26
合计
22
28
50
零假设为H0:“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500辆”无关,
因为χ2=≈9.62>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,
即认为“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500辆”有关,此结论犯错的概率不大于0.01.
(2)经计算得经验回归方程为=0.12x-73.36,且这50天的汽车日流量x的标准差sx=252,PM2.5的平均浓度y的标准差sy=36.求样本相关系数r(若|r|≥0.75,则认为y与x有较强的线性相关性),并判断该经验回归方程是否有价值.
解:(2)因为经验回归方程为=0.12x-73.36,所以==0.12,
又因为=252,=36,
所以r==·=0.12×=0.84.
因为|r|=0.84>0.75,所以y与x有较强的相关性,所以该经验回归方程有价值.
【规律方法】
此类题型只需遵循回归分析的步骤,运用独立性检验的原理,掌握好计算公式、表格的整理与读取即可.
训练1 甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸X(单位:cm)及个数Y如下表:
零件尺寸X
1.01
1.02
1.03
1.04
1.05
零件个数Y
甲
6
14
17
17
6
乙
m
8
8
8
22
由表中数据得Y关于X的经验回归方程为=-171.7+190X(1.01≤X≤1.05),其中合格零件尺寸为1.03±0.01 cm.
(1)求m的值;
解:(1)依题意,得=1.03,=,
由=-171.7+190X,得=-171.7+190×1.03,解得m=14,
所以m的值为14.
(2)根据小概率值α=0.01的独立性检验,判断加工零件的质量与甲、乙机床是否有关联?
解:(2)由于合格零件尺寸为1.03±0.01 cm,
所以甲、乙机床加工的合格与不合格零件的2×2列联表为:
机床
机床加工零件质量
合计
合格零件数
不合格零件数
甲
48
12
60
乙
24
36
60
合计
72
48
120
零假设为H0:加工零件的质量与甲、乙机床无关,
根据以上数据得,χ2==20>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,
所以可认为加工零件的质量与甲、乙机床有关,此推断犯错的概率不大于0.01.
二、回归分析与概率、统计交汇
【例2】 数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/题)与训练天数x(天)有关,经统计得到如下数据:
x(天)
1
2
3
4
5
6
7
y(秒/题)
910
800
600
440
300
240
210
现用=+作为回归方程模型,请利用表中数据,求出该经验回归方程;(,用分数表示)
解:(1)因为=+,令ti=,则=+t.
因为==500,
所以====,
所以=-=500-×0.37=,
所以=+t,
所以所求经验回归方程为=+.
(2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜3局者赢得比赛.若小明每局获胜的概率为,且各局之间相互独立,设比赛X局后结束,求随机变量X的分布列及均值.
参考数据(其中ti=):
tiyi
-7
1 750
0.37
0.55
解:(2)随机变量X的所有可能取值为3,4,5,
P(X=3)=()3+()3=,
P(X=4)=()2××+()2××=,
P(X=5)=()2×()2×+()2×()2×=.
所以随机变量X的分布列为
X
3
4
5
P
E(X)=3×+4×+5×=.
【规律方法】
回归分析与概率、统计交汇问题的解题思路
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①求经验回归方程(预测);②求某随机变量的概率、均值、方差等;
(2)充分利用题目中提供的成对样本数据(散点图)做出判断,确定是线性问题还是非线性问题.求解时要充分利用已知数据,合理利用变形公式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
训练2 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度;
解:(1)样本(xi,yi)(i=1,2,…,20)的相关系数为
r===≈0.94.
由于样本相关系数|r|∈[0.75,1],则相关性很强,|r|的值越大,相关性越强.
由r=0.94∈[0.75,1],故相关性很强.
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
解:(2)由题意得X的可能取值为0,1,2,
20个样区中有8个样区的这种野生动物数量低于样本平均数,有12个样区的这种野生动物数量不低于样本平均数,
所以P(X=0)===,P(X=1)===,P(X=2)===,
所以X的分布列为
X
0
1
2
P
三、独立性检验与概率、统计交汇
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
解:(1)300×=90,所以应收集90位女生的样本数据.
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
解:(2)由频率分布直方图得该校学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,
所以估计该校学生每周平均体育运动时间超过4小时的概率为0.75.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别的2×2列联表,并依据小概率值α=0.05的独立性检验,能否认为该校学生的每周平均体育运动时间与性别有关联?
解:(3)由(2)知,300位学生中有300×0.75=225位学生的每周平均体育运动时间超过4小时,75位学生的每周平均体育运动时间不超过4小时.又因为样本数据中有210个是关于男生的,90个是关于女生的,且有60位女生的每周平均体育运动时间超过4小时,所以每周平均体育运动时间与性别的2×2列联表如下:
每周平均体育运动时间
性别
合计
男生
女生
不超过4小时
45
30
75
超过4小时
165
60
225
合计
210
90
300
零假设为H0:该校学生的每周平均体育运动时间与性别无关联.
结合2×2列联表可得χ2==≈4.762>3.841=x0.05.
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为该校学生的每周平均体育运动时间与性别有关联,此推断犯错的概率不大于0.05.
【规律方法】
独立性检验与概率、统计交汇问题的解题思路
本类题目以生活题材为背景,涉及独立性检验与概率、统计问题的综合,解决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行比较,其次再按照随机变量满足的概率模型求解.
训练3 各地区高中积极推进“强基计划”的落实,“强基培训”成为学生们热爱的课程之一.某高中随机调研了本校2025年参加高考的90位考生是否参加“强基培训”的情况,经统计,“强基培训”与性别情况如下表:(单位:人)
参加“强基培训”
不参加“强基培训”
男生
25
35
女生
5
25
(1)根据表中数据并依据小概率值α=0.05的独立性检验,分析参加“强基培训”与性别是否有关联?
解:(1)零假设为H0:参加“强基培训”与性别无关联,
由题意,χ2==5.625>3.841=x0.05,
根据小概率值α=0.05的独立性检验,可推断H0不成立,即认为参加“强基培训”与性别有关联,此推断犯错误的概率不大于0.05.
(2)用样本估计总体,用本次调研中样本的频率代替概率,从2025年本市考生中随机抽取3人,设被抽取的3人中参加“强基培训”的人数为X,求X的分布列及数学期望E(X).
附:χ2=,n=a+b+c+d.
α
0.10
0.05
0.025
0.010
0.005
xα
2.706
3.841
5.024
6.635
7.879
解:(2)由题意知,考生参加“强基培训”的概率p==,不参加“强基培训”的概率为,
结合题意知X的可能取值为0,1,2,3,则X~B(3,),
P(X=0)=()3=,
P(X=1)=××()2=,
P(X=2)=×()2×=,
P(X=3)=()3=,
所以X的分布列为
X
0
1
2
3
P
由X~B(3,),得数学期望E(X)=3×=1.
1.为了解某地区2025年6~10月份电动汽车的销售情况,某机构经过调查,得到如下表所示的数据.
月份
6月
7月
8月
9月
10月
月份代码x
1
2
3
4
5
销售总额y/
亿元
4
6
10
15
20
(1)求y关于x的经验回归方程;
解:(1)由题可知=×(1+2+3+4+5)=3,
=×(4+6+10+15+20)=11,
所以===4.1,=11-4.1×3=-1.3,
故所求的经验回归方程为=4.1x-1.3.
(2)该机构随机调查了该地区200位购车车主的性别与购车种类,其中购买非电动汽车的男性有60人,女性有90人,购买电动汽车的男性有40人,女性有10人,依据α=0.01的独立性检验,能否认为购买电动汽车与性别有关.
附:xiyi=206,=55,在利用最小二乘法求得的经验回归方程=x+中,=,=-.
解:(2)由题可得2×2列联表如下.
性别
购车种类
合计
非电动汽车
电动汽车
男
60
40
100
女
90
10
100
合计
150
50
200
零假设为H0:购买电动汽车与性别无关,根据表中数据,得χ2===24>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为购买电动汽车与性别有关.
2.某学校为学生开设了一门模具加工课,经过一段时间的学习,拟举行一次模具加工大赛,学生小明、小红打算报名参加大赛.赛前,小明、小红分别进行了为期一周的封闭强化训练,下表记录了两人在封闭强化训练期间每天加工模具成功的次数,其中小明第7天的成功次数a忘了记录,但知道36≤a≤55,a∈Z(yi,zi分别表示小明、小红第i天的成功次数).
第一天
第二天
第三天
第四天
第五天
第六天
第七天
序号x
1
2
3
4
5
6
7
小明成功次数(y)
16
20
20
25
30
36
a
小红成功次数(z)
16
22
25
26
32
35
35
(1)求这7天内小明成功的总次数不少于小红成功的总次数的概率;
(2)根据小明这7天内前6天的成功次数,求其成功次数y关于序号x的经验回归方程,并估计小明第七天成功次数a的值.
参考数据:1×16+2×20+3×20+4×25+5×30+6×36=582;12+22+32+42+52+62=91.
解:(1)因为36≤a≤55,且a∈Z,所以a的取值共有55-36+1=20种情况,
yi,zi分别表示小明、小红第i天成功次数,
又当小明成功的总次数不少于小红成功的总次数时,yi+a≥zi,
即16+20+20+25+30+36+a≥16+22+25+26+32+35+35,得a≥44,
又36≤a≤55,所以44≤a≤55,且a∈Z,
所以小明成功的总次数不少于小红成功的总次数时,a的取值共有55-44+1=12种情况,
所以这7天内小明成功的总次数不少于小红成功的总次数的概率为=.
(2)由题设可知:xiyi=1×16+2×20+3×20+4×25+5×30+6×36=582,
==,
==,
所以==,=-=-×=11,
所以成功次数y关于序号x的经验回归方程为=x+11.
当x=7时,=×7+11=38,
估计小明第7天成功次数a的值为38.
3.为了调查某地区成年人血液的某项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下数据.根据医学相关知识,我们认为此项指标大于40为偏高,反之即为正常.
男性:5 7 9 8 18 19 21 23 27 29 25
32 34 35 37 38 41 42 47 54
女性:13 14 21 25 25 28 31 32 34 35
38 40 43 47 48 49 52 55 56 57
(1)依据样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关联;
(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X的分布列及数学期望.
附:χ2=,其中n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
解:(1)由题中数据可得2×2列联表为
性别
血液指标
合计
正常
偏高
男性
16
4
20
女性
12
8
20
合计
28
12
40
χ2=≈1.905<6.635=x0.01,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关联.
(2)由样本数据可知,男性此项血液指标正常的概率为,女性此项血液指标正常的概率为.抽取的人中此项血液指标为正常的人数X的可能取值为0,1,2,3,4.
P(X=0)=(1-)2×(1-)2=,
P(X=1)=××(1-)×(1-)2+(1-)2×××(1-)=,
P(X=2)=()2×(1-)2+××(1-)×××(1-)+(1-)2×()2=,
P(X=3)=××(1-)×()2+()2×××(1-)=,
P(X=4)=()2×()2=.
所以随机变量X的分布列为
X
0
1
2
3
4
P
所以E(X)=0×+1×+2×+3×+4×=,
因此此项血液指标为正常的人数X的数学期望为.
4.某餐馆2024年12月份共有800个线上外卖订单,其中好评订单有600个,其余均为非好评订单.为了提升菜品品质,增加营业额,该餐馆在2025年1月份更换了厨师,更换厨师后该餐馆2025年1月份共有2 000个线上外卖订单,其中好评订单有1 600个,其余均为非好评订单.
(1)根据统计数据,完成下列2×2列联表,并依据α=0.01的独立性检验,能否认为该餐馆订单的好评率与更换厨师有关联;
更换厨师前后
订单评价
合计
好评
非好评
更换厨师前
更换厨师后
合计
(2)现从更换厨师前的订单中按好评和非好评,按比例用分层随机抽样法抽取8个订单进行电话回访,再从这8个订单中随机抽取3个订单发放新品品尝券并让顾客评价,记抽取的3个订单中好评的订单个数为ξ,求ξ的分布列和数学期望;
(3)用样本频率估计总体概率,现从更换厨师后的所有订单中随机抽取100个订单,记其中好评的订单个数为η,求当事件“η=r”的概率最大时r的值.
解:(1)2×2列联表如下:
更换厨师前后
订单评价
合计
好评
非好评
更换厨师前
600
200
800
更换厨师后
1 600
400
2 000
合计
2 200
600
2 800
零假设为H0:该餐馆订单的好评率与更换厨师无关联.
根据列联表中数据,经计算得到χ2=≈8.485>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该餐馆订单的好评率与更换厨师有关联.
(2)依题意,用分层随机抽样法抽取的8个订单中,好评订单有8×=6个,非好评有2个,
而从这8个订单中随机抽取3个,其中好评的订单个数ξ的可能值有1,2,3,
则P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,
所以ξ的分布列为
ξ
1
2
3
P
数学期望E(ξ)=1×+2×+3×=.
(3)依题意,更换厨师后好评率为=0.8,
从更换厨师后所有订单中随机抽取100个订单,则η~B(100,0.8),
于是P(η=r)=0.8r×0.2100-r,r≤100,r∈N,
则==,
由>1,解得r<79,而r∈N,则当0≤r≤79时,P(η=r)单调递增;
由≤1,解得r≥79,则当r≥80时,P(η=r)单调递减,
所以使事件“η=r”的概率最大时r的值为80.
1 / 2
学科网(北京)股份有限公司
$