内容正文:
§10.8 概率与统计的综合问题
题型一 频率分布直方图与分布列的综合问题
例1 (2023·上饶模拟)为了解某高校学生每天的运动时间,随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生每天平均运动时间(单位:分钟)的频率分布直方图,将每天平均运动时间不低于40分钟的学生称为“运动族”.
(1)用样本估计总体,已知某学生每天平均运动时间不低于20分钟,求该学生是“运动族”的概率;
(2)从样本里的“运动族”学生中随机选取两位同学,用随机变量X表示每天平均运动时间在40~50分钟之间的学生数,求X的分布列及均值.
解 (1)由频率分布直方图可知,
10×(0.01+0.018+0.022+0.025+0.020+a)=1,
解得a=0.005.
设“该学生每天平均运动时间不低于20分钟”为事件A,“该学生是‘运动族’”为事件B,
则P(A)=0.72,P(AB)=0.25,
所以在该学生每天平均运动时间不低于20分钟的条件下是“运动族”的概率为
P(B|A)===.
(2)由题意可知,样本中共有“运动族”学生25人,运动时间在40~50分钟之间的学生有20人,
所以X=0,1,2.
P(X=0)==,
P(X=1)==,
P(X=2)==,
X的分布列为
X
0
1
2
P
E(X)=0×+1×+2×=.
思维升华 高考常将频率分布直方图与分布列等交汇在一起进行考查,解题时要正确理解频率分布直方图,能利用频率分布直方图正确计算出各组数据.概率问题以计算为主,往往和实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来.
跟踪训练1 (2023·呼和浩特模拟)某高校共有15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用按比例分配的分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少个女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组的区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].请估计该校学生每周平均体育运动时间不低于4个小时的概率;
(3)视样本数据的频率为概率,现从全校随机抽取4名学生,记X为这4名学生中运动时间不低于4个小时的人数,求X的分布列以及数学期望.
解 (1)因为该校共有15 000人,其中女生有4 500人,
所以女生占总人数的比例为.
又因为采用按比例分配的分层抽样的方法收集300位学生的样本数据,
所以女生样本数据应收集×300=90(个).
(2)由频率分布直方图可知,
学生每周平均体育运动时间不低于4个小时的频率为(0.15+0.125+0.075+0.025)×2=0.75,
故估计该校学生每周平均体育运动时间不低于4个小时的概率为0.75.
(3)由(2)可知,运动时间不低于4个小时的概率为,则X~B,
所以P(X=0)=C×4×0=,
P(X=1)=C×3×1=,
P(X=2)=C×2×2=,
P(X=3)=C×1×3=,
P(X=4)=C×0×4=,
则X的分布列为
X
0
1
2
3
4
P
E(X)=4×=3.
题型二 回归模型与分布列的综合问题
例2 (2024·济宁模拟)某市航空公司为了解每年航班正点率x%对每年顾客投诉次数y(单位:次)的影响,对近8年(2016年~2023年)每年航班正点率x%和每年顾客投诉次数y的数据作了初步处理,得到下面的一些统计量的值.
i
i
iyi
(xi-)2
600
592
43 837.2
93.8
(1)求y关于x的回归直线方程;
(2)该市航空公司预计2025年航班正点率为84%,利用(1)中的经验回归方程,估计2025年顾客对该市航空公司投诉的次数;
(3)根据数据统计,该市所有顾客选择乘坐该航空公司航班的概率为,现从该市所有顾客中随机抽取4人,记这4人中选择乘坐该航空公司航班的人数为X,求X的分布列和数学期望.
附:回归直线=x+的斜率和截距的最小二乘估计公式分别为=,=-.
解 (1)==75,==74,
则===-6,
所以=-=74+6×75=524,
所以=-6x+524.
(2)当x=84时,代入(1)中的回归直线方程得
=20,
所以估计2025年顾客对该市航空公司投诉的次数为20.
(3)X可取0,1,2,3,4,
P(X=0)=C×4=,
P(X=1)=C××3=,
P(X=2)=C×2×2=,
P(X=3)=C×3×=,
P(X=4)=C×4=,
所以分布列为
X
0
1
2
3
4
P
所以E(X)=0×+1×+2×+3×+4×=2.
思维升华 高考常将回归模型与分布列等交汇在一起进行考查,求回归直线方程时要充分利用已知数据,合理利用公式减少运算.求解概率问题时要注意概率模型的应用,明确所求问题所属的事件类型是关键.
跟踪训练2 (2023·武汉模拟)某企业计划新购买100台设备,并将购买的设备分配给100名年龄不同(视为技术水平不同)的技工加工一批模具,因技术水平不同而加工出的产品数量不同,故产生的经济效益也不同.若用变量x表示不同技工的年龄,变量y为相应的效益值(元),根据以往统计经验,他们的工作效益满足最小二乘法,且y关于x的回归直线方程为=1.2x+40.6.
(1)试预测一名年龄为52岁的技工使用该设备所产生的经济效益;
(2)试根据相关系数r的值判断使用该批设备的技工人员所产生的效益与技工年龄的相关程度(若0.75≤|r|≤1,则认为y与x的线性相关程度很强;若|r|<0.75,则认为y与x的线性相关程度不强);
(3)若这批设备有A,B两道独立运行的生产工序,且两道工序出现故障的概率依次是0.02,0.03.若两道工序都没有出现故障,则生产成本不增加;若A工序出现故障,则生产成本增加2万元;若B工序出现故障,则生产成本增加3万元;若A,B两道工序都出现故障,则生产成本增加5万元.求这批设备增加的生产成本的期望.
参考数据:(xi-)2=121,(yi-)2=225;
参考公式:回归直线=+x的斜率和截距的最小二乘估计分别为=,
=-,r=.
解 (1)当x=52时,=1.2×52+40.6=103.
所以预测一名年龄为52岁的技工使用该设备所产生的经济效益为103元.
(2)由题意得==1.2,
所以=1.2,
所以(xi-)(yi-)=121×1.2,
所以r=
===0.88.
因为0.75<0.88<1,所以y与x的线性相关程度很强.
所以使用该批设备的技工人员所产生的效益与技工年龄的相关程度很强.
(3)设增加的生产成本为ξ(万元),
则ξ的可能取值为0,2,3,5.
P(ξ=0)=(1-0.02)×(1-0.03)=0.950 6,
P(ξ=2)=0.02×(1-0.03)=0.019 4,
P(ξ=3)=(1-0.02)×0.03=0.029 4,
P(ξ=5)=0.02×0.03=0.000 6.
所以E(ξ)=0×0.950 6+2×0.019 4+3×0.029 4+5×0.000 6=0.13,
所以这批设备增加的生产成本的期望为0.13万元.
题型三 独立性检验与分布列的综合问题
例3 (2023·聊城模拟)某中学在高一学生选科时,要求每位学生先从物理和历史这两个科目中选定一个科目,再从思想政治、地理、化学、生物这四个科目中任选两个科目.选科工作完成后,为了解该校高一学生的选科情况,随机抽取了部分学生作为样本,对他们的选科情况统计后得到下表:
思想政治
地理
化学
生物
物理类
100
120
200
180
历史类
120
140
60
80
(1)利用上述样本数据填写下列2×2列联表,并分析以上两类学生对生物学科的选法是否存在差异;
科类
生物学科选法
合计
选
不选
物理类
历史类
合计
(2)假设该校高一所有学生中有的学生选择了物理类,其余的学生都选择了历史类,且在物理类的学生中其余两科选择的是地理和化学的概率为,而在历史类的学生中其余两科选择的是地理和化学的概率为.若从该校高一所有学生中随机抽取100名学生,用X表示这100名学生中同时选择了地理和化学的人数,求随机变量X的均值E(X).
附:χ2=.
P(χ2≥x0)
0.05
0.01
0.005
0.001
x0
3.841
6.635
7.879
10.828
解 (1)由题意可得选择物理类的总人数为300,其中选择生物学科的人数为180,不选择生物学科的人数为120;选择历史类的总人数为200,其中选择生物学科的人数为80,不选择生物学科的人数为120,据此完善2×2列联表如下:
科类
生物学科选法
合计
选
不选
物理类
180
120
300
历史类
80
120
200
合计
260
240
500
提出统计假设:两类学生对生物学科的选法没有差异.
由表中数据可得χ2==≈19.231>10.828,
即至少有99.9%的把握可以认为两类学生对生物学科的选法存在差异.
(2)记“学生选择物理类”为事件M,“学生选择历史类”为事件N,“同时选择地理和化学”为事件C,
则P(M)=,P(N)=1-P(M)=,
P(C|M)=,P(C|N)=,
故P(C)=P(M)P(C|M)+P(N)P(C|N)=×+×=,
由题意可得X~B,
则随机变量X的均值E(X)=100×=16.
思维升华 高考常将独立性检验与分布列等交汇在一起进行考查,解决独立性检验问题,要注意过好“三关”:假设关、公式关、对比关.解决概率问题要准确地把握题中所涉及的事件,明确所求问题所属的事件类型.
跟踪训练3 (2024·沈阳模拟)随着科技的进步和人民生活水平的提高,电脑已经走进了千家万户,成为人们生活、学习、娱乐的常见物品,便携式电脑(俗称“笔记本”)也非常流行.某公司为了研究“台式机”与“笔记本”的受欢迎程度是否与性别有关,在街头随机抽取了50人做调查研究,调查数据如下表所示.
男性
女性
合计
喜欢“台式机”
20
5
25
喜欢“笔记本”
10
15
25
合计
30
20
50
(1)分析喜欢哪种机型与性别是否有关?
(2)该公司针对男性客户做了调查,某季度男性客户中有青年324人,中年216人,老年108人,用按比例分配的分层抽样的方法选出12人,又随机抽出3人进行答谢,这3人中的青年人数设为随机变量X,求X的分布列与数学期望.
附:χ2=,其中n=a+b+c+d.
P(χ2≥x0)
0.05
0.01
0.005
P(χ2≥x0)
x0
3.841
6.635
7.879
x0
解 (1)提出统计假设H0:喜欢哪种机型与性别无关.
由表中数据可得χ2=≈8.333>7.879,即至少有99.5%的把握可以认为喜欢哪种机型与性别有关.
(2)由题意,324∶216∶108=3∶2∶1,
所以12人中有青年人6人,中年人4人,老年人2人,则X的所有可能取值为0,1,2,3,
P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
则分布列为
X
0
1
2
3
P
E(X)=0×+1×+2×+3×=.
课时精练
1.(2023·泰州模拟)第二十二届卡塔尔世界杯足球赛决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女学生各100名进行调查,部分数据如表所示:
喜欢足球
不喜欢足球
合计
男生
40
女生
30
合计
(1)根据所给数据完成上表,并分析该校学生喜欢足球与性别是否有关;
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范点球射门.已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求3人进球总次数的分布列和数学期望.
附:χ2=.
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
解 (1)2×2列联表如下:
喜欢足球
不喜欢足球
合计
男生
60
40
100
女生
30
70
100
合计
90
110
200
提出统计假设H0:该校学生喜欢足球与性别无关.
由表中数据得χ2=≈18.182>10.828,即至少有99.9%的把握认为该校学生喜欢足球与性别有关.
(2)3人进球总次数ξ的所有可能取值为0,1,2,3,
P(ξ=0)=2×=,
P(ξ=1)=C×××+×2=,
P(ξ=2)=C×××+2×=,
P(ξ=3)=2×=,
∴ξ的分布列为
ξ
0
1
2
3
P
∴ξ的数学期望E(ξ)=0×+1×+2×+3×=.
2.我国风云系列卫星可以检测气象和国土资源情况.某地区水文研究人员为了了解汛期人工测雨量x(单位:dm)与遥测雨量y(单位:dm)的关系,统计得到该地区10组雨量数据如下:
样本号i
1
2
3
4
5
6
7
8
9
10
人工测雨量xi
5.38
7.99
6.37
6.71
7.53
5.53
4.18
4.04
6.02
4.23
遥测雨量yi
5.43
8.07
6.57
6.14
7.95
5.56
4.27
4.15
6.04
4.49
|xi-yi|
0.05
0.08
0.2
0.57
0.42
0.03
0.09
0.11
0.02
0.26
并计算得≈353.6,≈361.7,iyi≈357.3,2≈33.62,2≈34.42,≈34.02.
(1)求该地区汛期遥测雨量y与人工测雨量x的相关系数r(精确到0.01),并判断它们是否具有很强的线性相关关系(若|r|≥0.75,则认为两个变量有很强的线性相关关系);
(2)规定:数组(xi,yi)满足|xi-yi|<0.1为“Ⅰ类误差”,满足0.1≤|xi-yi|<0.3为“Ⅱ类误差”,满足|xi-yi|≥0.3为“Ⅲ类误差”.为进一步研究,该地区水文研究人员从“Ⅰ类误差”“Ⅱ类误差”中随机抽取3组数据与“Ⅲ类误差”数据进行对比,记抽到“Ⅰ类误差” 的数据的组数为X,求X的分布列与数学期望.
附:相关系数r=,≈17.4.
解 (1)因为r=≈=≈0.98.
所以汛期遥测雨量y与人工测雨量x有很强的线性相关关系.
(2)10组数据中,“Ⅰ类误差”有5组,“Ⅱ类误差”有3组,“Ⅲ类误差”有2组,从“Ⅰ类误差”“Ⅱ类误差”中随机抽取3组数据,记抽到“Ⅰ类误差”的数据组数为X,
由题意,X的所有可能取值为0,1,2,3.
则P(X=0)==,
P(X=1)==,
P(X=2)===,
P(X=3)===.
所以X的分布列为
X
0
1
2
3
P
所以X的数学期望E(X)=0×+1×+2×+3×=.
3.(2023·大庆质检)盐水选种是古代劳动人民的智慧结晶,其原理是借助盐水估测种子的密度,进而判断其优良.现对一批某品种种子的密度(单位:g/cm3)进行测定,认为密度不小于1.2的种子为优种,小于1.2的为良种.自然情况下,优种和良种的萌发率分别为和.
(1)若将这批种子的密度测定结果整理成频率分布直方图,如图所示,据图估计这批种子密度的平均值(同一组中的数据用该组区间的中点值为代表);
(2)在(1)的条件下,用频率估计概率,从这批种子(总数远大于2)中选取2粒在自然情况下种植,设萌发的种子数为X,求随机变量X的分布列和数学期望(各种子的萌发相互独立);
(3)若该品种种子的密度ρ~N(1.3,0.01),任取该品种种子20 000粒,估计其中优种的数目.
附:假设随机变量X~N(μ,σ2),则P(μ-σ≤X≤μ+σ)≈0.682 7,P(μ-2σ≤X≤μ+2σ)≈0.954 5.
解 (1)种子密度的平均值为
(0.7×0.5+0.9×0.6+1.1×0.9+1.3×1.4+1.5×1.1+1.7×0.5)×0.2=1.24(g/cm3).
(2)由频率分布直方图知优种占比为
(1.4+1.1+0.5)×0.2=,
任选一粒种子萌发的概率为
p=×+×=,
因为这批种子总数远大于2,所以X~B(2,p),
P(X=0)=Cp0(1-p)2=×=,
P(X=1)=Cp(1-p)=2××=,
P(X=2)=Cp2(1-p)0=×=,
所以X的分布列为
X
0
1
2
P
数学期望E(X)=2p=.
(3)因为该品种种子的密度ρ~N(1.3,0.01),
所以μ=1.3,σ2=0.01,即σ=0.1,
所以20 000粒种子中约有优种
20 000×=20 000×0.841 35=16 827(粒),
即估计其中优种的数目为16 827 粒.
4.(2024·巴中模拟)某中学为了解高中数学学习中抽象思维与性别的关系,随机抽取了男生120人,女生80人进行测试.根据测试成绩(单位:分)按[0,20),[20,40),[40,60),[60,80),[80,100]分组得到如图所示的频率分布直方图,并且男生的测试成绩不小于60分的有80人.
(1)填写下面的2×2列联表,并分析高中数学学习中抽象思维与性别是否有关?
成绩小于60分
成绩不小于60分
合计
男
女
合计
(2)规定成绩不小于60分(百分制)为及格,按及格和不及格用按比例分配的分层抽样的方法,随机抽取10名学生进行座谈,再在这10名学生中选2名学生发言,设及格学生发言的人数为X,求X的分布列和数学期望.
附:χ2=.
P(χ2≥x0)
0.05
0.025
0.01
x0
3.841
5.024
6.635
解 (1)成绩小于60分的人数为200×[(0.002 5+0.007 5+0.01)×20]=200×0.4=80.
由题意,得2×2列联表如下表:
成绩小于60分
成绩不小于60分
合计
男
40
80
120
女
40
40
80
合计
80
120
200
提出统计假设H0:高中数学学习中抽象思维与性别无关.
由表中数据得χ2=
=≈5.556>5.024,
即至少有97.5%的把握认为高中数学学习中抽象思维与性别有关.
(2)由(1)知,200人中不及格的人数为80,及格人数为120,
∴用按比例分配的分层抽样的方法随机抽取的10名学生中不及格的有4人,及格的有6人,由题意,X的所有可能取值为0,1,2,且X服从超几何分布,则P(X=k)=(k=0,1,2),
即P(X=0)==,
P(X=1)==,
P(X=2)==,
∴X的分布列为
X
0
1
2
P
E(X)=0×+1×+2×=.
学科网(北京)股份有限公司
$