内容正文:
8.2 一元线性回归模型及其应用
基础过关练
题组一 线性回归分析
1.(2025四川遂宁月考)下列说法错误的是( )
A.样本相关系数r的绝对值越接近1,两个变量的线性相关程度越强
B.两个变量x与y之间的回归方程反映x与y之间的真实关系
C.在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高
D.甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型甲的拟合效果更好
2.(2025河南百师联盟联考)变量x与y的n组样本数据为(x1,y1),(x2,y2),…,(xn,yn),y与x线性相关,记(x1+x2+…+xn),(y1+y2+…+yn),则下面说法正确的是( )
A.回归直线不一定经过点()
B.样本相关系数r与回归系数同号
C.经验回归直线是经过样本数据点最多的那条直线
D.回归直线至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
3.(2024江西南昌模拟)对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得经验回归方程分别是和,并对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是( )
A.<0
C.|r1|<|r2| D.r1+r2<0
4.(2025湖南邵东创新高级中学期中)某水文站为了研究所在河段24 h降雨量x(单位:cm)与水位增长量y(单位:cm)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合.若将图中9个点中去掉A点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数R2变小
B.样本相关系数r变小
C.残差平方和变小
D.解释变量x与响应变量y相关性变弱
5.(2025山西卓越联盟质量检测)已知变量x和变量y的一组成对样本数据(xi,yi)(i=1,2,3,…,18),其中=4,其经验回归方程为=2x-2,现又增加了2个样本点(3.9,3.3),(4.1,3.7),得到新样本的经验回归方程为.在新的经验回归方程下,若样本(2.8,m)的残差为-1.1,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
6.(2025河南驻马店环际大联考)某网店经销某商品,为了解该商品的月销量y(单位:千件)与售价x(单位:元/件)之间的关系,收集了5组数据如下表:
x
5
6
7
8
9
y
8
6
4.5
3.5
3
根据表中的数据可得经验回归方程=-1.25x+13.75,以下说法正确的是( )
A.x,y具有负相关关系,样本相关系数r=-1.25
B.x每增加一个单位,y平均减少13.75个单位
C.第二个样本点对应的残差=-0.25
D.第三个样本点对应的残差=0.5
7.(教材习题改编)已知某水果种植基地苹果的种植面积x(单位:公顷)与其产量y(单位:吨)呈线性相关关系,小王准备承包一块苹果种植地,为了解市场行情,在该基地调查了5家果农,统计得到了苹果种植面积与其产量的数据如表所示:
种植面积x/公顷
1
2
3
4
5
产量y/吨
20
38
64
78
100
(1)求y关于x的经验回归方程;
(2)若苹果的销量等于产量,且所种苹果的总利润P(单位:千元)满足P=+180x,苹果种植面积x∈{1,2,3,…,14,15},请根据(1)的结果预测要使得单位面积的苹果利润最大,小王应该种植多少公顷的苹果.
附:经验回归直线中斜率和截距的最小二乘估计分别为.
题组二 非线性回归分析
8.(2025广东梅州质检)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到数据如下表(其中ωi=ln yi).用线性回归和指数型回归模型拟合y与x关系的决定系数分别为=0.891 3和=0.994 0,则最适宜描述y与x之间关系的函数为( )
)2
)·
(yi-)
)·
(ωi-)
3
2.5
0.5
10
12
6
A.y=1.2x-1.1 B.y=0.6x-1.3
C.y=e1.2x-1.1 D.y=e0.6x-1.3
9.(2025山东名校联盟模拟)一名同学记录了种子的发芽情况如下表:
天数x
1
2
3
4
5
胚芽长度y/厘米
0.8
1.1
1.5
2.4
4.2
通过对表中数据进行分析,提出了两个回归模型:①.
(1)根据以上数据,计算模型①中的y关于x的样本相关系数r(结果精确到0.01),若0.95≤|r|≤1,则选择模型①,否则选择模型②,那么应该选择哪个模型?
(2)根据(1)的结果,试建立y关于x的回归方程,并预测第6天种子的胚芽长度(结果精确到0.01).
参考数据:≈8.660.
令ui=)=52.1.
能力提升练
题组一 线性回归分析
1.(2025河北沧衡八校联盟期中)某校为了解本校高一男生身高和体重的相关关系,从该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高x/cm
167
173
175
177
178
180
181
体重y/kg
90
54
59
64
67
72
76
由最小二乘法计算得到经验回归直线l1的方程为,其样本相关系数为r1;经过残差分析,点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l2的方程为,样本相关系数为r2.则下列选项正确的是( )
A.,r1>r2
C.,r1<r2
2.(2024河南南阳六校联考)某学习小组对一组数据(xi,yi)(i=1,2,3,…,7)进行回归分析,甲同学首先求出经验回归方程为=3x+2,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(4,6)误输成(6,4),将这两个数据修正后得到经验回归方程为=kx+4,则实数k=( )
A.
3.(2024云南师范大学附属中学期中)大气污染物PM2.5(大气中直径小于或等于2.5 μm的颗粒物)的浓度超过一定的限度会影响人的身体健康.为了研究PM2.5的浓度受车流量影响的程度,某校数学建模社团选择了学校附近5个监测点,统计每个监测点24 h内的车流量x(单位:千辆),同时在低空相同的高度测定每个监测点该时间段内的PM2.5的平均浓度y(单位:μg/m3),得到的数据如表所示:
监测点编号
1
2
3
4
5
车流量x/千辆
1.3
1.2
1.6
1.0
0.9
PM2.5的平均
浓度y/(μg/m3)
66
72
113
34
35
(1)建立y关于x的一元线性回归模型,并用样本相关系数加以说明(一般地,样本相关系数的绝对值在0.75以上(含0.75),则认为线性相关性较强,否则认为线性相关性较弱);
(2)我国规定空气中PM2.5浓度的安全标准为24 h平均浓度75 μg/m3,该地为使24 h内PM2.5的平均浓度不超过68.6 μg/m3,拟对车流量作适当控制,请你根据本题数据估计车流量控制的最大值.
参考公式:在经验回归方程中,;样本相关系数r=.
4.(2025重庆南开中学质量检测)随着机器人的热度上升,越来越多的专注于高性能四足机器人研发和生产的中国科技公司开始进入人们视野.某公司以其创新的四足机器人在全球范围内广受关注,现统计出该公司某款机器人在某地区2024年2月到6月的销售量如下表所示:
月份x
2
3
4
5
6
销量y
42
53
66
m
109
用最小二乘法得到这款机器人的销量y关于月份x的经验回归方程为x+5.6,且样本相关系数r=0.98,销量y的方差=542.
(1)求的值(结果精确到0.1);
(2)求m的值,并根据(1)的结果计算5月销量的残差.
附:回归系数,样本相关系数r==16.46.
题组二 非线性回归分析
5.(多选题)(创新题·新考法)(2025湖北武汉期末)一组样本数据(xi,yi),i∈{1,2,3,…,100},其中xi>1 895,yi=970,求得其经验回归方程为,残差为.对样本数据进行处理:x'i=ln(xi-1 895),得到新的数据(x'i,y'i),求得其经验回归方程为,残差为分布如图所示,且),则( )
A.样本(xi,yi)负相关
B.=49.7
C.
D.处理后的决定系数变大
6.(2025内蒙古通辽第一中学月考)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型:①y=ebx+a,②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到下表:
(xi
-)2
(ti-
)2
(zi-
)
(yi-
)
25
2.9
646
168
422 688
50.4
70 308
表中z=ln y,ti.
(1)根据残差图比较模型①和②的拟合效果,模型 比较合适;
(2)根据(1)中所选择的模型,得出y关于x的回归方程为 .
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其经验回归直线ω的斜率和截距的最小二乘估计分别为.
7.(2025辽宁七校协作体期中)某公司在人工智能领域逐年加大投入,以下是近年来该公司对产品研发年投入额x(单位:百万元)与年销售量y(单位:千件)的数据统计表:
x
1
2
3
4
5
6
y
0.5
1
1.5
3
6
12
z=ln y
-0.7
0
0.4
1.1
1.8
2.5
(1)公司拟分别用①y=bx+a和②y=enx+m两个函数模型作为年销售量y关于年投入额x的回归分析模型,请根据已知数据,确定模型①和②的回归方程;(a,b,m,n的计算过程保留到小数点后两位,最后结果保留到小数点后一位)
(2)根据下表数据,用决定系数R2(只需比较出大小)比较哪个函数模型的拟合效果更好,并根据拟合精度更高的模型预测年投入额为7百万元时,产品的年销售量是多少.
函数模型
y=bx+a
y=enx+m
残差平方和
)2
18.29
0.65
参考公式及数据:经验回归方程中,=0.85,e2.8≈16.4,e3≈20.1.
答案与分层梯度式解析
8.2 一元线性回归模型及其应用
基础过关练
1.B
2.B
3.D
4.C
5.D
6.C
8.D
1.B 易知A,C中说法正确;
对于B,两个变量x与y之间的回归方程是反映x与y之间的真实关系的一种最佳拟合,故B中说法错误;
对于D,决定系数R2越大,说明拟合效果越好,显然0.88>0.80,则模型甲的拟合效果更好,故D中说法正确.
2.B 回归直线一定经过点(),可能不经过任何一个样本点,故A,D错误.
样本相关系数r为正时,两个变量为正相关,回归系数为正;样本相关系数r为负时,两个变量为负相关,回归系数为负,故样本相关系数r与回归系数同号,B正确.
经验回归直线是基于样本数据使残差平方和最小的拟合直线,故C错误.
3.D 由题中散点图可知,x与y负相关,v与u正相关,则>0,故A,B错误;x与y的线性相关程度比v与u的强,因此|r1|>|r2|,又r1<0,r2>0,所以r1+r2<0,故C错误,D正确.
4.C 从题图中可以看出A点较其他点偏离直线远,故去掉A点后,回归效果更好.
对于A,决定系数R2越接近1,拟合的回归方程越优,
故去掉A点后R2变大,越趋于1,故A错误;
对于B,样本相关系数r的绝对值越接近1,拟合的回归方程越优,
由图可得x与y正相关,故r会更接近1,即样本相关系数r变大,故B错误;
对于C,残差平方和变小,拟合效果越好,故C正确;
对于D,解释变量x与响应变量y相关性增强,故D错误.
5.D 因为经验回归直线=2x-2过点(),所以4=2-2,得=3.
增加两个样本点后,=3.95,所以新的经验回归直线过点('),所以3.95=3×3.1+,得=-5.35,
所以新的经验回归方程为=3x-5.35,当x=2.8时,=3×2.8-5.35=3.05.
所以样本(2.8,m)的残差是m-3.05=-1.1,得m=1.95.
6.C 对于A,样本相关系数的绝对值不超过1,A错误;
对于B,由经验回归方程知,x每增加一个单位,y平均减少1.25个单位,B错误;
对于C,第二个样本点对应的残差=6-(-1.25×6+13.75)=-0.25,C正确;
对于D,第三个样本点对应的残差=4.5-(-1.25×7+13.75)=-0.5,D错误.
7.解析 (1)由题可得=60,
则)=(-2)×(-40)+(-1)×(-22)+0×4+1×18+2×40=200,
)2=(-2)2+(-1)2+02+12+22=10,
所以=60-20×3=0,
故y关于x的经验回归方程为=20x.
(2)因为P=+180x,x∈{1,2,3,…,14,15},
所以单位面积的苹果利润(单位:千元)为+181,x∈{1,2,3,…,14,15}.
因此当,即x=10时,取得最大值,
故要使得单位面积的苹果利润最大,小王应该种植10公顷的苹果.
8.D 因为,所以指数型回归模型最适宜拟合y与x之间的关系,排除A,B;
设描述y与x之间关系的函数为,两边同时取自然对数得ln ,则,
因此=0.5-0.6×3=-1.3,
所以ln =0.6x-1.3,即=e0.6x-1.3,C错误,D正确.
9.解析 (1)由题设,=3,所以)2=(1-3)2+(2-3)2+…+(5-3)2=10,
所以r=≈≈0.94,故应选模型②.
(2)令ui=,则,
所以=2,
所以)2=(1-11)2+(4-11)2+…+(25-11)2=374,
所以≈0.139,
=2-0.139×11≈0.47,故=0.14u+0.47,
所以y关于x的回归方程为=0.14x2+0.47,当x=6时,=0.14×36+0.47=5.51,
所以预测第6天种子的胚芽长度为5.51厘米.
方法点睛
常见非线性回归方程求解思路:非线性转化为线性.
(1)指数型:y=cdx.令z=ln y=ln(cdx)=ln c+xln d,则z与x建立线性相关关系,利用最小二乘法公式求出z关于x的经验回归方程,进而利用y=ez得到y关于x的回归方程.
(2)幂函数型:y=cxn+d.令t=xn,则y=ct+d,故y与t建立线性相关关系,同理求出y关于t的经验回归方程,即可利用t=xn得到y关于x的回归方程.
(3)对数型:y=a+bln x.令z=ln x,则y=a+bz,故y与z建立线性相关关系,同理求出y关于z的经验回归方程,即可利用z=ln x得到y关于x的回归方程.
能力提升练
1.A
2.D
5ABD
1.A ≈176,
因为离群点(167,90)的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉(167,90)后经验回归直线的截距变小而斜率变大,故,
去掉(167,90)后相关性更强,拟合效果也更好,且x与y呈正相关,所以r1<r2.
2.D 由题意可得m=3×2+2=8,假设甲输入的(x1,y1)为(6,4),
则故
改为正确数据后,有故所以样本点的中心为,
将代入经验回归方程=kx+4,得k=.
3.解析 (1)由题表得=1.2,
=64,
xiyi=1.3×66+1.2×72+1.6×113+1.0×34+0.9×35=418.5,
=1.32+1.22+1.62+1.02+0.92=7.5,
=662+722+1132+342+352=24 690,
所以=115,
=64-115×1.2=-74,
所以=115x-74.
样本相关系数r=
=≈0.97.
因为|0.97|>0.75,
所以y与x的线性相关性较强.
(2)令115x-74≤68.6,得x≤1.24,
故车流量控制的最大值约为1.24千辆.
4.解析 (1)由题表可得×(2+3+4+5+6)=4,则)2=4+1+0+1+4=10,
因为)2=542,所以)2=2 710,
又因为r==0.98,
所以=161.308,
所以≈16.1.
(2)由题表可得(270+m),
由(1)可知经验回归方程为=16.1x+5.6,且=4,
则(270+m)=16.1×4+5.6,解得m=80,
此时=27 210,可得=542,符合题意,所以m=80.
对于经验回归方程=16.1x+5.6,令x=5,可得=16.1×5+5.6=86.1,
所以5月销量的残差为80-86.1=-6.1.
5.ABD 对于A,经验回归方程中回归系数=-0.02<0,则样本(xi,yi)负相关,A正确;
对于B,原样本均值=9.7,由,得=9.7+0.02×2×103=49.7,B正确:
对于C,由题图1的数据波动较大可得比更集中,则,C错误;
对于D,由题图1的残差平方和较题图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.
6.答案 (1)① (2)=e0.3x-4.6
解析 (1)应该选择模型①.因为模型①的残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②的窄,所以模型①的拟合精度更高,故选模型①比较合适.
(2)由z=ln y,得z=a+bx,
所以=0.3,
所以=2.9-0.3×25=-4.6,即=0.3x-4.6,
于是有ln =0.3x-4.6,
所以y关于x的回归方程为=e0.3x-4.6.
7.解析 (1)由题表数据得=3.5,
=4,
所以≈2.11,
=4-2.11×3.5≈-3.39,
因此=2.1x-3.4.
由y=enx+m两边取以e为底的对数,得ln y=nx+m,
由z=ln y得z=nx+m,
≈0.63,
=0.85-0.63×3.5≈-1.36,
所以=0.6x-1.4,所以=e0.6x-1.4.
(2))2=(0.5-4)2+(1-4)2+(1.5-4)2+(3-4)2+(6-4)2+(12-4)2=96.5,
对于;
对于.
因为,所以②的拟合效果更好.
当x=7时,=e0.6×7-1.4=e2.8≈16.4,
故年投入额为7百万元时,产品的年销售量约为16.4千件.
20
学科网(北京)股份有限公司
$