内容正文:
8.2 一元线性回归模型及其应用
第1课时 一元线性回归模型及其参数的最小二乘估计
学习目标 1.结合具体实例,了解一元线性回归模型的含义,能说明模型参数的统计意义. 2.了解最小二乘原理.
一、一元线性回归模型
问题1
根据统计,某蔬菜基地西红柿亩产量的增加量y(单位:百千克)与某种液体肥料每亩使用量x(单位:千克)之间的对应数列的散点图如图所示.依据数据的散点图,推断某西红柿产量的增加量y与肥料使用量之间有没有关系?
提示:有正相关的相关关系.
问题2 问题1中两变量之间的关系能用函数模型刻画吗?
提示:不能.因为这两个变量之间不是函数关系,也就不能用函数模型刻画.
【知识提炼】
一元线性回归模型
我们称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
例1 判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平方米月租金;
(3)航空公司的顾客投诉次数和航班正点率;
(4)某地区的人均消费水平和人均国内生产总值(GDP);
(5)学生期末考试成绩和考前用于复习的时间;
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长.
解:(1)(2)(3)(4)(5)是回归模型,(6)(7)是函数模型.
感悟升华 函数关系中,变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布. 换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系.
【即学即用】 1.若某地财政收入x(单位:亿元)与支出y(单位:亿元)满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元
解析:选D.因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,所以y=0.7x+3+e,当x=10时,得y=0.7×10+3+e=10+e,又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,所以年支出预计不会超过10.5亿元.
二、最小二乘法和经验回归方程
问题3 在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与x之间的线性相关关系,其中参数a和b未知,确定参数a和b的原则是什么?
提示:使表示成对样本数据的这些散点在整体上与一条适当的直线尽可能地接近.
【知识提炼】
最小二乘法
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中=,
=-.
微提醒 经验回归直线=x+必过点(,).
例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表中数据的散点图;
(2)请根据表中提供的数据,用最小二乘法求出y关于x的经验回归方程=x+.
解: (1)散点图如图:
(2)=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344.
===0.7,
=-=4-0.7×9=-2.3,
所以经验回归方程为=0.7x-2.3.
感悟升华 求经验回归方程的基本步骤
(1)画出散点图,从直观上分析数据间是否存在线性相关关系.
(2)计算:,,.
(3)代入公式求出=x+中参数,的值.
(4)写出经验回归方程并对实际问题作出估计.
【即学即用】 2.随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位:次)之间的对应数据如下表所示:
x/件
2
4
5
6
8
y/次
30
40
50
60
70
(1)根据表中数据画出散点图;
(2)根据表中的数据,求出y关于x的经验回归方程.
解:(1)散点图如图所示.
(2)根据散点图可得,变量x与y之间具有线性相关关系.
根据数据可知,=5,=50,=1 390,=145,代入公式得===7,
=-=50-7×5=15.
故所求的经验回归方程是=7x+15.
三、利用经验回归方程进行预测
例3 按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码xi
1
2
3
4
5
yi
6.4
5.5
5.0
4.8
3.8
(1)求2017—2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为=,=-,=70.6,=133.69;
样本相关系数r=,≈6.
解:(1)由已知可得,==3,
==5.1,
由题可列下表:
xi-
-2
-1
0
1
2
yi-
1.3
0.4
-0.1
-0.3
-1.3
=-5.9, =, =,
=≈≈-0.98.
(2)由(1)知y与x的相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
===-0.59,
=-=5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=10,则=-0.59×10+6.87=0.97,故预测2026年的酸雨区面积占国土面积的百分比为0.97%.
感悟升华 (1)判断两个变量是否线性相关:可利用经验,也可以画散点图;
(2)求经验回归方程,注意运算的正确性,要根据题目给出的数据选择公式求;
(3)根据经验回归方程进行预测估计,估计值不是实际值,两者会有一定的误差.
【即学即用】 3.某校服生产企业为了使设计所用的数据更精准,随机地抽取了6位高中男生的身高和臂展的数据,数据如下表所示:
身高x/cm
167
173
174
176
182
184
臂展y/cm
160
165
173
170
170
182
(1)计算相关系数r(精确到0.01)并说明可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)建立y关于x的线性回归方程=x+,并以此估计男装上装XL号(加大号,对应身高180 cm)对应的臂展数据.(结果中精确到0.1)
参考公式及数据:≈232,≈236,
相关系数r=,
回归方程=x+中,=,=-.
解:(1)依题意,
==176,
==170,
=(-9)×(-10)+(-3)×(-5)+(-2)×3+0×0+6×0+8×12=195,
=(-9)2+(-3)2+(-2)2+02+62+82=194,
=(-102)+(-5)2+32+02+02+122=278,
所以相关系数r==≈≈0.84,
显然0.84>0.75,所以线性相关程度很高,可用线性回归模型拟合y与x的关系.
(2)由(1)知==≈1.0,=-=170-1×176=-6,
所以y关于x的线性回归方程=x-6,
当x=180时,=174,所以估计男装上装XL号对应的臂展数据为174 cm.
1.收集一只棉铃虫的产卵数y与温度x的几组数据后发现两个变量有相关关系,按不同的曲线来拟合y与x之间的关系,并算出了对应的决定系数R2如表所示.
拟合曲线
直线
指数曲线
抛物线
二次曲线
回归模型
y=19.8x-463.7
y=e0.27x-3.84
y=0.367x2-202
y=
R2
0.746
0.996
0.902
0.002
应选择拟合最好的回归模型为( )
A.y=19.8x-463.7
B.y=e0.27x-3.84
C.y=0.367x2-202
D.y=
解析:选B.由决定系数R2来刻画回归效果,R2的值越大越接近1,说明模型的拟合效果最好.由表可知指数模型的决定系数最接近1.
2.根据如图所示的散点图得出的经验回归方程为=0.9x+,则=( )
A.2.8 B.3.2
C.3.6 D.4
解析:选B.由散点图可得=×(1+2+4+3+10)=4,=×(3+4+5+10+12)=6.8,故6.8=0.9×4+,得=3.2.
3.(多选)已知变量y与x具有线性相关关系,统计得到6组数据如下表:
x
2
4
7
10
15
22
y
8.1
9.4
12
14.4
18.5
24
若y关于x的经验回归方程为=0.8x+,则( )
A.变量y与x之间正相关
B.=14.4
C.=6.8
D.当x=12时,y的估计值为15.6
解析:选AB.由y关于x的经验回归方程=0.8x+,可知变量y与x之间正相关,故A正确;
由表中数据可知==10,
==14.4,故B正确;
经验回归直线过点(,),将其代入=0.8x+可得=14.4-0.8×10=6.4,故C错误;
因此,y关于x的经验回归方程为=0.8x+6.4,将x=12代入可得,=0.8×12+6.4=16,即当x=12时,y的估计值为16,故D错误.
4.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的经验回归方程为=0.254x+3.由经验回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
答案:0.254
学科网(北京)股份有限公司
$$