内容正文:
课时分层评价21 非线性回归模型及回归分析
(时间:60分钟 满分:110分)
(本栏目内容,在学生用书中以独立形式分册装订!)
(1—9题,每小题5分,共45分)
1.某团队尝试用回归模型甲、乙、丙、丁描述人的1 000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数R2分别为0.23,0.45,0.56,0.79,则拟合效果最好的模型是( )
A.甲 B.乙
C.丙 D.丁
答案:D
解析:R2越大,则回归模型的拟合效果越好,因为0.79>0.56>0.45>0.23,所以拟合效果最好的是模型丁.故选D.
2.中国茶文化博大精深,茶水的口感与茶叶的类型和水的温度有关,某数学建模小组建立了茶水冷却时间x和茶水温度y的一组数据(xi,yi),经过分析,提出了四种回归模型,①②③④四种模型的残差平方和的值分别是1.23,0.80,0.12,1.36.则拟合效果最好的模型是( )
A.模型① B.模型②
C.模型③ D.模型④
答案:C
解析:残差平方和越小则拟合效果越好,而模型③的值最小,所以C正确.故选C.
3.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
已知y关于x的线性回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为( )
A.10万元 B.14万元
C.23万元 D.24万元
答案:A
解析:当x=5时,销售额的预测值为=5×6.5+17.5=50,残差为60-50=10万元.故选A.
4.已知解释变量x与响应变量y在散点图中对应的所有散点都落在一条斜率为非0的直线上,其相关系数为r,决定系数为R2,则( )
A.r=0 B.R2=1
C.r=1 D.R2=0
答案:B
解析:因为| r|越接近于1,线性相关性越强,决定系数R2越接近于1,拟合效果越好,对于本题散点图中对应的所有散点都落在一条斜率为非0的直线上,即线性关系最强,拟合效果最好,所以|r|=1,R2=1,故A,C,D错误,B正确.故选B.
5.一种高产新品种水稻单株穗粒数y和土壤锌含量x有关,现整理并收集了6组试验数据,y(单位:粒)与土壤锌含量x(单位:mg/m3)得到样本数据(xi,yi)(i=1,2,3,4,5,6),令zi=ln yi,并将 (xi,zi)绘制成如图所示的散点图.若用方程y=aebx对y与x的关系进行拟合,则( )
A.a>1,b>0 B.a>1,b<0
C.0<a<1,b>0 D.0<a<1,b<0
答案:C
解析:因为y=aebx,ln y=bx+ln a,令z=ln y,则z与x的回归方程为z=bx+ln a,根据散点图可知z与x正相关,因此b>0,又回归直线的纵截距小于0,即ln a<0,得0<a<1,所以0<a<1,b>0.故选C.
6.(多选)某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如下表所示.
广告支出费用x
2.2
2.6
4.0
5.3
5.9
销售量y
3.8
5.4
7.0
11.6
12.2
根据表中的数据可得经验回归方程=2.27x+,R2≈0.96,以下说法正确的是( )
A.第三个样本点对应的残差e3=-1
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.该模型拟合效果较好
D.用该经验回归方程可以很准确地预测广告费用为20万元时的销售量
答案:AC
解析:对于A,依题意,得==4,==8,代入=2.27x+,得=-1.08,故=2.27x-1.08,所以e3=7-(2.27×4.0-1.08)=-1,故A正确;对于C,由于R2≈0.96,所以该回归模型拟合的效果比较好,故C正确;对于B,由分析知对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,故B错误;对于D,由于样本的取值范围会影响回归方程的使用范围,而广告费用20万元远大于表格中广告费用值,故用该经验回归方程预测广告费用为20万元时的销售量不一定准确,故D错误.故选AC.
7.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为 .(参考公式:R2=1-)
答案:1
解析:由ei恒为0,知yi=恒成立,即yi-=0恒成立,故R2=1-=1-0=1.
8.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln y,求得线性回归方程为=0.25x-2.58,则该模型的非线性回归方程为 .
答案:y=e0.25x-2.58
解析:由回归直线方程=0.25x-2.58,=ln y得ln y=0.25x-2.58,整理得y=e0.25x-2.58,所以该模型的回归方程为y=e0.25x-2.58.
9.某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集4组对应数据(x,y),如表所示.(残差=观测值-预测值)
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的经验回归方程为=0.7x+.据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为 .
答案:4.5
解析:依题意,得x=4时的预测值为3-(-0.15)=3.15,则有3.15=0.7×4+,=0.35,=0.7x+0.35,==4.5,==,故=0.7×4.5+0.35,m=4.5.
10.(13分)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(单位:万元)和销售量y(单位:万台)的数据如下:
年份
2014
2015
2016
2017
2018
2019
2020
广告费支出x
1
2
4
6
11
13
19
销售量y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好.
附:=.
解:(1)依题意,得==8,
===4.2,
xiyi=1×1.9+2×3.2+4×4.0+6×4.4+11×5.2+13×5.3+19×5.4=279.4,
=1+4+16+36+121+169+361=708.
所以====0.17,
所以=-=4.2-0.17×8=2.84,
所以y关于x的线性回归方程为=0.17x+2.84.
(2)因为0.75<0.88,且R2越大,反映残差平方和越小,模型的拟合效果越好,
所以选用=1.63+0.99更好.
(11—13题,每小题5分,共15分)
11.已知指数曲线y=aebx进行适当变换后得到的方程为u=1-x,则二次函数y=x2+bx+a的单调递增区间为( )
A.(0,+∞) B.(,+∞)
C.(,+∞) D.(1,+∞)
答案:C
解析:因为y=aebx,所以两边取对数,可得ln y=ln(aebx)=ln a+ln ebx=ln a+bx,由于指数曲线y=aebx进行变换后得到的回归方程为u=1-x,则u=ln y,ln a=1,b=-1,即a=e,由于函数y=x2+bx+a为二次函数,即y=x2-x+e,抛物线开口向上,对称轴为x=,则函数y=x2+bx+a的单调递增区间为(,+∞).故选C.
12.(多选)两个具有相关关系的变量x,y的一组数据为(x1,y1),(x2,y2)…(xn,yn),求得样本中心点为(,),回归直线方程为=x+,决定系数为R2;若将数据调整为(x1,y1+1),(x2,y2+1),…,(xn,yn+1),求得新的样本中心点为(','),回归直线方程为'='x+',决定系数为R'2,则以下说法正确的有( )
附:=,=-,R2=1-
A.=' B.='
C.<' D.R2<R'2
答案:BC
解析:'==+1=+1,故A错误;的计算中,xi数据不变,yi-=(yi+1)-'也不变,所以不变,故B正确;'='-=+1-=+1>,故C正确;由于R2=1-,yi变成了yi+1,'=+1,'i='xi+'=xi++1=+1,从而yi-,yi-都不变,所以R2=R'2,故D错误.故选BC.
13.(双空题)某蔬菜的保鲜时间y(小时)与存放温度x(℃)样本数据如下表所示:
存放温度x/℃
21
15
10
6
3
保鲜时间y/小时
6
14
26
33
41
建立y关于x的一元线性回归模型,预测存放温度为2 ℃时,这种蔬菜的保鲜时间约为 小时(,及结果保留到整数);该模型的决定系数R2= (保留2位小数).附:R2=1-.
答案:42 0.99
解析:计算得=11,=24,xiyi=917,=811,所以=≈-2,=-=46,故线性回归方程为=-2x+46,当x=2时,=42,所以可估计其保鲜时间约为42小时;因为(yi-)2=10,(yi-)2=798,所以R2≈0.99.
14.(15分) 红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①y=a·bx(a>0,b>0),②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.根据收集到的数据,计算得到如下值:
(xi-)2
(ti-)2
25
2.89
646
168
422 688
(zi-)(xi-)
(yi-)(ti-)
48.48
70 308
表中zi=ln yi;=zi;ti=;=ti.
(1)根据残差图,比较模型①、②的拟合效果,判断应选择哪个模型,并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(计算过程中四舍五入保留两位小数),并求温度为35 ℃时,产卵数y的预报值.
参考数据:e5.61≈273,e5.70≈299,e5.79≈327.
解:(1)应该选择模型①.
理由为:模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状区域宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高.故选模型①比较合适.
(2)由(1)知,选用模型①,y=a·bx,两边取对数,得ln y=(ln b)x+ln a.
令z=ln y,z与温度x可以用线性回归方程来拟合,则z=(ln b)x+ln a,
ln b==≈0.29,
ln a=-ln b=2.89-0.29×25=-4.36,
于是有ln y=0.29x-4.36,
所以产卵数y关于温度x的回归方程为y=e0.29x-4.36.
当x=35时,y=e0.29×35-4.36=e5.79≈327(个),
所以,温度为35 ℃时,一只红铃虫的产卵数的预报值为327个.
15.(5分)根据一组样本数据(x1,y1),(x2,y2),…,(xn,yn),求得经验回归方程为=1.5x+0.5,且=3.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则( )
A.去除两个误差较大的样本点后,y的估计值增加速度变快
B.去除两个误差较大的样本点后,重新求得的回归方程一定过点(3,4)
C.去除两个误差较大的样本点后,重新求得的回归方程为=1.2x+1.4
D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05
答案:C
解析:对于A,因为1.5>1.2,所以去除两个误差较大的样本点后y的估计值增加速度变慢,故A错误;对于B,当=3时,=3×1.5+0.5=5,设去掉两个误差较大的样本点后,横坐标的平均值为',纵坐标的平均值为',则'===3,'===5,故B错误;对于C,因为去除两个误差较大的样本点后,重新求得回归直线l的斜率为1.2,所以5=3×1.2+,解得=1.4,所以去除两个误差较大的样本点后的经验回归方程为=1.2x+1.4,故C正确;对于D,因为=1.2×2+1.4=3.8,所以y-=3.75-3.8=-0.05,故D错误.故选C.
16.(17分)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份x
1
2
3
4
5
销售量y(万件)
4.9
5.8
6.8
8.3
10.2
该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:=x2+.
(1)根据所给数据与回归模型,求y关于x的回归方程(的值精确到0.1);
(2)已知该公司的月利润z(单位:万元)与x,y的关系为z=24-,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
解:(1)令w=x2,则==11,
==7.2,
==
=≈0.2,=-=7.2-0.2×11=5,
所以y关于x的回归方程为=0.2x2+5.
(2)由(1)知=0.2x2+5,
z=24-=24-
=24--.
令h(x)=24--(x>0),
h'(x)=-+==(x>0),
令h'(x)>0,得0<x<9,h(x)单调递增,
令h'(x)<0,得x>9,h(x)单调递减,
令h'(x)=0,得x=9.
所以h(x)=24--(x>0)在x=9处取得极大值,也是最大值,
所以h(x)max=h(9)=72-27-9=36,
所以9月份的月利润预报值最大.
学生用书⬇第86页
学科网(北京)股份有限公司
$