内容正文:
人教A版 选择性必修 第三册
8.2一元线性回归模型及其应用
第八章 成对数据的统计分析
1. 样本相关系数:
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
知识回顾
1.了解一元线性回归模型及随机误差、残差、决定系数R2的概念;
2.了解最小二乘法的思想方法,会求经验回归方程,并用回归方程进行预报;
3.会用残差分析判断线性回归模型的拟合效果.
学习目标
自学指导
阅读课本105--112页,完成以下问题:
问题1 一元线性回归模型及经验回归方程。
问题2 线性回归分析。
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高. 为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.
r≈0.886
思考1 根据数据,父子的身高之间的关系可以用函数模型刻画吗?
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
教师点拨
一元线性回归模型
我们称(1)式为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 模型中的Y也是随机变量. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
思考2 结合具体实例解释产生模型(1)中随机误差项的原因吗?
在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有:
(1) 除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
在一元线性回归模型y=bx+a+e中,随机误差e产生的原因有:
1. 所用的确定性函数不恰当引起的误差;
2. 忽略了某些因素的影响;
3. 存在观测误差.
教师点拨
练习 若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单元:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过多少?
解:因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,
其中b=0.7,a=3,所以得到 y=0.7 x+3+e,
当x=10时,得y=0.7×10+3+e=10+e,
而|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.
小组互助
2. 在一元线性回归模型(1) 中,参数b的含义是什么?
解:参数b的含义:解释变量x对响应变量Y的均值的影响,变量x每增加1个单位,响应变量Y的均值将增加b个单位.
探究 利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用公式(2)求得的 叫做b, a的最小二乘估计.
这里的“二乘”是平方的意思.
教师点拨
经验回归方程
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
小组互助
练习 (1)在一次试验中,测得(x,y)的四组值分别是(1,2),(2,3),(3,4),(4,5),则y关于x的经验回归方程为( )
A
8.95
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
例1 某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:
(1) 画出销售额和利润额的散点图;
(2) 计算利润额y对销售额x的经验回归直线方程.
小组互助
∴所求经验回归方程为
解法1:(2)
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
∴所求经验回归方程为
解法2:(2)
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
小组互助
变式1 随着智能手机的普及,使用手机上网成为人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:
x 30 35 40 45 50
y 18 14 10 8 5
(1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合y与x的关系?并指出y与x是正相关还是负相关.
(2)①求出y关于x的经验回归方程;
②若该通信公司在一个类似于试点的城市中将这款流量包的价格定为25元/月,请用所求的经验回归方程预测该市一个月内购买该流量包的人数能否超过20万人.
∴估计女儿的身高为168 cm左右.
2. 假如女儿身高y (单位: cm)关于父亲身高x (单位: cm)的经验回归方程为
已知父亲身高为175 cm,请估计女儿的身高.
x 1 2 3 4 5 6
y 0 2 1 3 3 4
例2 已知x与y之间的几组数据如下表:
则y对x的经验回归直线必过点__________.
小组互助
父亲身高x/cm 174 176 176 176 178
儿子身高y/cm 175 175 176 177 177
C
变式2 为了解儿子身高与其父亲身高的关系,随机抽取5对身高数据如下:
则y对x的经验回归直线方程为( ).
小组互助
求经验回归方程的步骤:
小组互助
思考 已知儿子身高关于父亲身高x的经验回归方程为
如果一位父亲的身高为176cm,他儿子长大成人后的身高一定是177cm吗? 为什么?
经验回归方程 其斜率可以解释为父亲身高每增加1 cm,其儿子身高平均增加0.839cm.
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的)称为预测值,观测值减去预测值称为残差.
父亲身高为172cm,其儿子身高的观测值为y6=176(cm),
预测值为 残差为176-173.265=2.735(cm).
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
教师点拨
残差分析
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 66.553 -1.553
14 180 182 179.977 2.023
残差表:
残差图:
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm
•
•
•
•
•
•
•
•
•
•
•
•
•
•
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值. 可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
思考观察下列四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
通过观察发现,图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内. 所以在四幅残差图中,只有图(4)满足一元线性回归模型对随机误差的假设.
问题 人们常将男子短跑100m的高水平运动员称为“百米飞人”. 下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
(3)
成对样本数据呈现出明显的非线性相关的特征.
修改模型:
散点更趋向于落在中间下凸且递减的某条曲线附近.
非线性经验回归函数,其中c1, c2 是待定参数.
(5)
通过残差来比较这两个经验回归方程对数据刻画的好坏.
R2越大,表示残差平方和越小,即模型的拟合效果越好;
R2越小,表示残差平方和越大,即模型的拟合效果越差.
教师点拨
决定系数R2
R2越接近1,则线性回归刻画的效果越好.
回归平方和
总偏差平方和
0≤R2≤1
在一元线性回归模型中R2=r2.
小组互助
练习 在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的决定系数R2如下,其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
模型 模型1 模型2 模型3 模型4
R2 0.98 0.80 0.50 0.25
A
例3 已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
小组互助
列残差表如下:
12 9.7 7.4 5.1 2.8
0 0.3 -0.4 -0.1 0.2
4.6 2.6 -0.4 -2.4 -4.4
故回归模型的拟合效果很好.
x 14 16 18 20 22
y 12 10 7 5 3
小组互助
变式3 关于x与y有如下数据:
有如下的两个线性模型,试比较哪一个拟合效果更好.
x 2 4 5 6 8
y 30 40 60 50 70
在使用经验回归方程进行预测时,需要注意下列问题:
(1) 经验回归方程只适用于所研究的样本的总体. 例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.
(2) 经验回归方程一般都有时效性. 例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.
(3) 解释变量的取值不能离样本数据的范围太远. 一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.
(4) 不能期望经验回归方程得到的预报值就是响应变量的精确值. 事实上,它是响应变量的可能取值的平均值.
1. 在回归分析中,分析残差能够帮助我们解决哪些问题?
(1) 寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.
(2) 分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.
1. 一元线性回归模型:
Y称为因变量或响应变量,x称为自变量或解释变量;a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2. 经验回归方程:
课后反思
3.决定系数R2:
R2越接近1,则线性回归刻画的效果越好.
课后反思
A.=x+1 B.=x+2
C.=2x+1 D.=x-1
(2)已知经验回归方程=0.75x+0.7,则当x=11时,y的估计值是 .
(1)=6.5x+17.5;
(2)=7x+17
$