内容正文:
训练(十二) 线性回归分析
1.变量的相关关系
(1)相关关系:两个变量之间具有________,但又没有确定性函数关系,这种关系称为相关关系.
(2)相关关系的分类:________和________.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.
2.样本相关系数
(1)r= .
(2)当r>0时,称成对样本数据________;当r<0时,称成对样本数据________.
(3)|r|≤1.当|r|越接近1时,成对样本数据的线性相关程度越________;当|r|越接近0时,成对样本数据的线性相关程度越________.
3.线性回归模型
我们将=x+称为线性回归方程,其中
一、选择题
1.对两个变量x和y进行回归分析,得到一组样本数据,,…,,下列统计量的数值能够刻画其线性回归方程的拟合效果的是( )
A.平均数 B.相关系数r C.决定系数R2 D.方差
2.某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程=3+2,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程=k+4,则实数k=( )
A. B. C. D.
3.据一组样本数据,,…,,求得线性回归方程为=1.2+0.4,且平均数=3.现发现这组样本数据中有两个样本点和误差较大,去除后,重新求得的线性回归方程为=1.1+a,则a=( )
A.0.5 B.0.6 C.0.7 D.0.8
4.某校数学建模兴趣小组为研究本地区儿子身高y(cm)与父亲身高x(cm)之间的关系,抽样调查后得出y与x线性相关,且线性回归方程为=0.85+29.5.调查所得的部分样本数据如下:
父亲身高x(cm)
164
166
170
173
173
174
180
儿子身高y(cm)
165
168
176
170
172
176
178
则下列说法正确的是( )
A.儿子身高y(cm)是关于父亲身高x(cm)的函数
B.当父亲身高增加1 cm时,儿子身高增加0.85 cm
C.儿子身高为172 cm时,父亲身高一定为173 cm
D.父亲身高为170 cm时,儿子身高的均值为174 cm
5.恩格尔系数是食品支出总额占个人消费支出总额的比值,恩格尔系数越小,消费结构越完善,生活水平越高.某学校社会调查小组通过调查得到如下数据:
年个人消费总额x/万元
1
1.5
2
2.5
3
恩格尔系数y
0.9
0.8
0.5
0.2
0.1
若y与x之间具有线性相关关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为( )
(参考数据:iyi-5·=-1.1, -52=2.5;参考公式:对于一组数据,,…,,其回归直线=x+的斜率和截距的最小二乘法估计分别为=, =-)
A.0.148 B.0.138 C.0.248 D.0.238
6.地球生命来自外星吗?一篇发布在《生物学快讯》上的文章《基因库的增长是生命起源和演化的时钟》可能给出了一种答案.该论文的作者根据生物功能性基因组里的碱基排列数的大小定义了基因库的复杂度y(单位:1),通过研究各个年代的古代生物化石里基因库的复杂度,提出了一个有趣的观点:生物基因库的复杂度近似是随时间呈指数增长的,只要知道生物基因库的复杂度就可以推测该生物体出现的年代.如图是该论文作者根据生物化石(原核生物,真核生物,蠕虫,鱼类,哺乳动物)中的基因复杂度的常用对数lg y与时间x(单位:十亿年)的散点图及回归拟合情况(其中回归方程为lg y=0.89x+8.64,相关指数R2=0.97).根据题干与图的信息,下列说法错误的是( )
A.根据信息生物基因库的复杂度近似是随时间呈指数增长的情况,不同于作者采取y取常用对数的做法,我们也可采用函数模型=×10x+k来拟合
B.根据回归方程可以得到,每过10亿年,生物基因库的复杂度一定增加到原来的100.89≈7.76倍
C.虽然拟合相关指数为0.97,但是样本点只有5个,不能很好地阐释其统计规律,所以增加可靠的样本点可以更好地完善回归方程
D.根据物理界主流观点:地球的形成始于45亿年前,及拟合信息:地球在诞生之初时生物的复杂度大约为108.64,可以推断地球生命可能并非诞生于地球
7.(多选)下列结论正确的是( )
A.由样本数据得到的回归直线=x+必过点
B.样本相关系数r越大,两个变量的线性相关程度越强,反之,线性相关程度越弱
C.若变量y与x之间的相关系数r>0,则y与x正相关
D.若样本数据的对应样本点都在直线y=-4x+7上,则这组样本数据的相关系数为-1
8.(多选)下列结论正确的是( )
A.两个变量x,y的线性相关系数r越大,则x与y之间的线性相关性越强
B.若两个变量x,y的线性相关系数r=0,则x与y之间不具有线性相关性
C.在一组样本数据的散点图中,若所有样本点(i=1,2,…,n)都在直线y=0.9x+1上,则这组样本数据的样本相关系数为0.9
D.在一组样本数据(i=1,2,3,…,10)中,根据最小二乘法求得线性回归方程为=2x-1且=2,去除两个异常数据(-a,b)和(a,-b)后,若得到的新线性回归直线的斜率为3,则新的线性回归方程为=3x-
二、填空题
9.已知根据下表数据用最小二乘法得到y关于x的线性回归方程为=1.11x-0.13,则m=________________________________________________________________________.
x
1
2
3
4
5
y
1.1
1.9
m
4.2
5.5
10.已知x,y之间的一组数据:
x
0
1
4
9
y
1
2.98
5.01
7.01
若y与满足线性回归方程=+,则此曲线必过点__________.
11.具有线性相关关系的变量x,y的一组观测数据为(i=1,2,…,10),其线性回归方程为=x+2,且i=20,yi=100,则当x=10时,=__________.
三、解答题
12.在一段时间内,分5次测得某种商品的价格x(万元)和需求量y之间的一组数据为
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
已知iyi=62,=16.6.
(1)画出散点图;
(2)求出y关于x的线性回归方程;
(3)如果价格定为1.9万元,预测需求量大约是多少?
13.只要骑车,都应该戴头盔.骑行头盔是骑行中生命坚实的保护屏障.骑行过程中的摔倒会对头部造成很大的损害,即使骑行者是以较低的车速沿着坡度平稳的自行车道骑行,也同样不可忽视安全问题.佩戴头盔的原因很简单也很重要——保护头部,减少伤害.相关数据表明,在每年超过500例的骑车死亡事故中,有75%的死亡原因是头部受到致命伤害造成的,医学研究发现,骑车佩戴头盔可防止85%的头部受伤,并且大大减小了损伤程度和事故死亡率.
某市对此不断进行安全教育,下表是该市某主干路口连续5年监控设备抓拍到通过该路口的骑电动车不戴头盔的人数的统计数据:
年份
2019
2020
2021
2022
2023
年份序号x
1
2
3
4
5
不戴头盔人数y
1 450
1 300
1 200
1 100
950
(1)求不戴头盔人数y与年份序号x之间的线性回归方程;
(2)预测该路口2024年不戴头盔的人数.
参考公式:线性回归方程=x+中斜率和截距的最小二乘法估计公式分别为=,=-.
(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总计
根部横
截面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得=0.038,=1.615 8,iyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
答案
训练(十二) 线性回归分析
【知识整合】
1.(1)一定的联系 (2)正相关 负相关
2.(2)正相关 负相关 (3)强 弱
【知能演练】
1.C 2.D 3.C 4.D 5.A 6.B
7.ACD 对于A,回归直线=x+必过点,故A正确;对于B,|r|越接近1,两个变量的线性相关程度越强,|r|越接近0,线性相关程度越弱,故B错误;对于C,若变量y与x之间的相关系数r>0,则y与x正相关,故C正确;对于D,样本数据的对应样本点都在直线y=-4x+7上,说明是负相关且为线性函数,所以这组样本数据的相关系数为-1,故D正确.
8.BD 对于A,|r|越大,x与y之间的线性相关性越强,故A错误;对于B,若r=0,则样本数据不具有线性相关性,故B正确;对于C,若所有样本点(i=1,2,…,n)都在直线y=0.9x+1上,则这组样本数据完全相关,所以这组样本数据的样本相关系数为1,故C错误;对于D,因为=2,所以去除两个异常数据(-a,b)和(a,-b)后,得到新的′==,因为=2x-1且=2,所以=2×2-1=3,则新的′==,因为得到的新线性回归直线的斜率为3,则′-3′=-3×=-,所以新的线性回归方程为=3x-,故D正确.
9.解析 由数表知,==3,
==,
由回归直线=1.11x-0.13过点(,),得=1.11-0.13,即=1.11×3-0.13,
所以m=3.3.
答案 3.3
10.解析 令t=,则==1.5,
==4,
则=+必经过点.
答案 (2.25,4)
11.解析 因为i=20,yi=100,所以=2,=10,
又因为回归直线=x+2过样本点的中心,
所以10=2+2,得到=4,
所以线性回归方程为=4x+2,
当x=10时,=4 ×10+2=42.
答案 42
12.解析 (1)散点图如下图所示:
样本点分布在一条直线附近,y与x具有线性相关关系.
(2)因为=×(1.4+1.6+1.8+2+2.2)==1.8,
=×==7.4,
iyi=62,=16.6,
所以===-11.5,
=-=7.4+11.5×1.8=28.1,
故y关于x的线性回归方程为=28.1-11.5x.
(3)当x=1.9时,=28.1-11.5×1.9=6.25(t),
故价格定为1.9万元,预测需求量大约为6.25 t.
13.解析 (1)由题意知==3,==1 200,
所以2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
=(1-3)×(1 450-1 200)+(2-3)×(1 300-1 200)+(3-3)×(1 200-1 200)+(4-3) ×(1 100-1 200)+(5-3)×(950-1 200)=-1 200,
所以===-120,
所以=-=1 200+120×3=1 560,
所以不戴头盔人数y与年份序号x之间的线性回归方程为=-120x+1 560.
(2)当x=6时,=-120×6+1 560=840,
即预测该路口2024年不戴头盔的人数为840.
【真题体验】
解析 (1)设这种树木平均一棵的根部横截面积为,平均一个的材积量为,则==0.06,==0.39.
(2)r==
==≈≈0.97.
(3)设根部横截面积总和为X,总材积量为Y,则=,故Y=×186=1 209(m3).
即该林区这种树木的总材积量的估计值为1 209 m3.
学科网(北京)股份有限公司
$$