内容正文:
第4章 统计
综合拔高练
高考真题练
考点1 变量的相关关系与一元线性回归模型
1.(2020全国Ⅰ理,5)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
2.(2020全国Ⅱ理,18)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
考点2 独立性检验及其应用
3.(2021全国甲理,17)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
4.(2020全国Ⅲ理,18)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
高考模拟练
应用实践
1.(多选)下列四个说法中,正确的是( )
A.若甲、乙两组数据的相关系数分别为0.66和-0.85,则乙组数据的线性相关性更强
B.若甲、乙两组数据的相关系数分别为0.79和0.72,则甲组数据的线性相关性更强
C.在检验A与B是否有关的过程中,根据所得数据算得χ2=6.352,已知P(χ2≥6.635)=0.01,则有99%的把握认为A和B有关
D.在检验A与B是否有关的过程中,根据所得数据算得χ2=6.724,已知P(χ2≥6.635)=0.01,则有99%的把握认为A和B有关
2.已知x与y之间的几组数据如下表:
x
1
2
3
4
y
1
m
n
4
数据中y的平均值为2.5,若某同学对m赋了三个值分别为1.5,2,2.5,得到三条回归直线的方程分别为=x+,=x+,=x+,对应的相关系数分别为r1,r2,r3,下列结论中错误的是( )
参考公式:在回归直线方程=x+中,=,=-,相关系数rxy=.
A.三条回归直线有共同交点
B.相关系数中r2最大
C.>
D.>
3.某工厂为研究某种产品产量x(吨)与所需某种原材料y(吨)的相关性,在生产过程中收集了4组对应数据(x,y)如下表所示:(随机误差=实际观测值-估计值)
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的线性回归方程为=0.7x+a.据此计算出在样本点(4,3)处的随机误差为-0.15,则表中m的值为 .
4.与现金支付方式相比,手机支付作为一种更方便快捷并且无接触的支付方式得到了越来越多消费者和商家的青睐.哈尔滨第九中学某研究型学习小组为了研究“支付方式的选择与年龄是否有关”,从哈尔滨市市民中随机抽取了200名进行调查,得到部分统计数据如下表:
手机支付
现金支付
合计
60岁以下
80
20
100
60岁以上
65
35
100
合计
145
55
200
(1)根据以上数据,判断是否有95%的把握认为支付方式的选择与年龄有关;
(2)将频率视为概率,现从哈尔滨市60岁以下市民中用随机抽样的方法每次抽取1人,共抽取3次.记被抽取的3人中选择“手机支付”的人数为X,若每次抽取的结果是相互独立的,求X的分布列、数学期望E(X)和方差D(X).
参考公式及数据:
χ2=,其中n=a+b+c+d.
P(χ2≥x0)
0.10
0.050
0.010
0.001
x0
2.706
3.841
6.635
10.828
5.一个车间为了规定工时定额,需要确定一台机器持续加工零件所花费的时间,为此进行了10次试验,相关数据如下表所示:
零件数量x/个
10
20
30
40
50
时间y/分钟
76
85
92
95
100
零件数量x/个
60
70
80
90
100
时间y/分钟
110
115
121
125
131
(1)通过数据分析,发现y与x之间呈线性相关关系,求y关于x的回归直线方程,并预测持续加工480个零件所花费的时间;
(2)机器持续工作,高负荷运转,会影响产品质量.经调查,机器持续工作前6小时内所加工出来的零件的次品率为0.1,之后加工出来的零件的次品率为0.2(机器持续工作时间不超过12小时).已知每个正品零件的售价为100元,次品零件作废,持续加工x个零件的生产成本P=0.01x2+66x(单位:元).根据(1)中求得的回归直线方程,估计一台机器持续工作多少分钟时所获利润最大(利润=零件正品数×售价-生产成本).
参考数据:.
参考公式:在回归直线方程=x+中,=,=-.
6.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
y
56.5
31
22.75
17.8
x
5
6
7
8
y
15.95
14.5
13
12.5
根据以上数据绘制了散点图(如图),考虑用反比例函数模型y=a+和指数型函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数型函数模型拟合的回归方程为=48.376×e-0.195x,ln y与x的相关系数r1=-0.929.
(1)求用反比例函数模型拟合的y关于x的回归方程(回归系数保留整数);
(2)用相关系数判断这两个模型中哪一个的拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布N(μ,σ2),用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,若非原料成本y在(μ-σ,μ+σ)之外,说明该成本异常,并称落在(μ-σ,μ+σ)之外的成本为异样成本,此时需要寻找出现异样成本的原因.试判断上述非原料成本数据是否需要寻找出现异样成本的原因.
参考数据:
yi
0.34
0.115
1.53
184
5 777.555
uiyi
93.06
30.705
13.9
参考公式:在回归直线方程=+x中,=.
答案与分层梯度式解析
第4章 统计
综合拔高练
高考真题练
1.D 观察散点图可知,将散点用光滑曲线连接起来后比较接近对数型函数的图象,故选D.
2.解析 (1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
3.解析 (1)因为甲机床生产的200件产品中有150件一级品,所以甲机床生产的产品中一级品的频率为=,因为乙机床生产的200件产品中有120件一级品,所以乙机床生产的产品中一级品的频率为=.
(2)根据2×2列联表中的数据,
得K2==≈10.256,
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
4.解析 (1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为×(100×20+300×35+500×45)=350.
(3)提出统计假设H0:一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据所给数据,可得2×2列联表:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得K2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
高考模拟练
1.ABD 因为|0.66|<|-0.85|,|0.79|>|0.72|,所以A、B中说法均正确,
因为6.352<6.635<6.724,所以C中说法错误,D中说法正确.故选ABD.
2.D 由样本中心相同,得A中结论正确;由题意知,1+m+n+4=2.5×4,即m+n=5.
若m=1.5,则n=3.5,=2.5,=2.5,此时(xi-)(yi-)=5.5,(xi-)2=5,(yi-)2=6.5,则==1.1,=2.5-1.1×2.5=-0.25,r1=≈.
若m=2,则n=3,=2.5,=2.5,此时(xi-)(yi-)=5,(xi-)2=5,(yi-)2=5,则==1,=2.5-1×2.5=0,r2==1.
若m=2.5,则n=2.5,=2.5,=2.5,此时(xi-)(yi-)=4.5,(xi-)2=5,(yi-)2=4.5,r3==.
由以上计算可得,相关系数中r2最大,>,<,故B,C中结论正确,D中结论错误.故选D.
3.答案 4.5
解析 由在样本点(4,3)处的随机误差为-0.15,可得=3.15,则3.15=0.7×4+a,解得a=0.35,由题意可知,产量x的平均数为=×(3+4+5+6)=4.5,由回归直线过点(,),可得=0.7+0.35=0.7×4.5+0.35=3.5,则3.5=×(2.5+3+4+m),解得m=4.5.
4.解析 (1)提出统计假设H0:支付方式的选择与年龄无关.根据题意可得χ2==≈5.643>3.841,所以有95%的把握认为支付方式的选择与年龄有关.
(2)在哈尔滨市60岁以下的市民中随机抽取1人,此人选择“手机支付”的概率为=,所以X~B,
P(X=0)==,
P(X=1)==,
P(X=2)==,
P(X=3)==,
所以X的分布列为
X
0
1
2
3
P
E(X)=3×=,D(X)=3××=.
5.解析 (1)由题表中数据可得=xi=55,=yi=105,
所以===0.6,
所以=-=105-0.6×55=72,
所以y关于x的回归直线方程为=0.6x+72,
当x=480时,=0.6×480+72=360,
所以预测持续加工480个零件所花费的时间为360分钟.
(2)由=0.6x+72≤6×60,解得x≤480;
由=0.6x+72≤12×60,解得x≤1 080.
①当x≤480,x∈N时,设所获利润为z1元,依题意知,z1=(1-0.1)x×100-(0.01x2+66x)=-0.01x2+24x=-0.01(x-1 200)2+14 400,
所以当x=480时,z1取最大值,为9 216.
②当480<x≤1 080,x∈N时,设利润为z2元,依题意知,
z2=(1-0.1)×480×100+(1-0.2)(x-480)×100-(0.01x2+66x)=-0.01x2+14x+4 800=-0.01(x-700)2+9 700,
所以当x=700时,z2取最大值,为9 700.
因为9 700>9 216,所以一台机器持续加工700个零件时所获利润最大,
此时持续工作时间为0.6×700+72=492(分钟).
故估计一台机器持续工作492分钟时所获利润最大.
6.解析 (1)令u=,则y=a+可转化为y=a+bu.
易得==23,
所以==≈50,
所以=-=23-50×0.34=6,所以=6+50u,
所以y关于x的回归方程为=6+.
(2)设y与的相关系数为r2,
则r2=
=
=
==≈0.993.
因为|r1|<|r2|,所以这两个模型中反比例函数模型的拟合效果更好.
把x=10代入回归方程=6+中得=6+=11,
所以产量为10千件时每件产品的非原料成本约为11元.
(3)因为==23,所以μ=23,
易得样本标准差s===≈=13.9,
所以σ=13.9,所以非原料成本y服从正态分布N(23,13.92),
所以(μ-σ,μ+σ)=(23-13.9,23+13.9)=(9.1,36.9).
因为56.5在(μ-σ,μ+σ)之外,所以此非原料成本数据需要寻找出现异样成本的原因.
学科网(北京)股份有限公司
$$