内容正文:
回忆一下
1. 经验回归方程:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 最小二乘估计:
经验回归方程中的参数 计算公式为:
利用残差图直观判断模型是否满足一元线性回归模型的假设。残差散点图应均匀地分布在横轴两侧,呈带状,宽度越窄,说明模型拟合精度越高。
3. 分析模型的回归效果方法:
求经验回归方程的步骤
回忆一下
8.2.2
一元线性回归模型与非线性回归问题
典例精析
例1:经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6 7 8 9 10 11 12
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 18.8 19.2 21.0 21.0 22.1 22.1 22.4 22.6 23.0 24.3 23.9 24.7
分析
因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关 . 如果是,再利用公式计算出 即可.
典例精析
解: 以胸径为横坐标,树高为纵坐标作散点图如图:
在右图中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d 表示胸径 , h表示树高
相应的经验回归直线如图所示.
计算可得经验回归方程为
典例精析
编号 胸径/cm 树高观测值/m 树高预测值/m 残差/m
1 18.1 18.8 19.4 -0.6
2 20.1 19.2 19.9 -0.7
3 22.2 21.0 20.4 0.6
4 24.4 21.0 20.9 0.1
5 26.0 22.1 21.3 0.8
6 28.3 22.1 21.9 0.2
7 29.6 22.4 22.2 0.2
8 32.4 22.6 22.9 -0.3
9 33.7 23.0 23.2 -0.2
10 35.7 24.3 23.7 0.6
11 38.3 23.9 24.4 -0.5
12 40.2 24.7 24.9 -0.2
1. 根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
2.以胸径为横坐标, 残差为纵坐标, 作残差图, 得下图.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 . 可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
典例精析
例2:人们常将男子短跑100m的高水平运动员称为“百米飞人”.
下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
解:以成对数据中的世界纪录产生年份为横坐标, 世界纪录为纵坐标作散点图 , 得到散点图.
图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
相关系数 r = - 0.86
典例精析
根据最小二乘法,由表中的数据得到经验回归方程为
①
将经验回归直线叠加到散点图,得到下图.
仔细观察图形,你能看出其中存在的问题吗?
问题一:上述经验回归方程能否较好地刻画散点的变化趋势?
散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
典例精析
问题二:如何修改模型,以使其更好地反映散点的分布特征吗?
散点更趋向于落在中间下凸且递减的某条曲线附近.
函数 y=-lnx的图象具有类似的形状特征
注意到短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t) = c1+c2ln(t -1895)的周围,其中c1和c2为未知的参数,且c2<0.
这是一个非线性经验回归函数,其中c1和c2是待定系数
问题三:如何利用成对数据估计参数c1和c2?
典例精析
问题三:如何利用成对数据估计参数c1和c2 ?
y=c1+c2ln(t -1895)
换元 转化
一元线性回归模型
令x=ln(t -1895) ,则Y=c2 x+c1,将年份变量数据进行变换,得到新的成对数据,如下表.
编号 1 2 3 4 5 6 7 8
年份/t 1896 1912 1921 1930 1936 1956 1960 1968
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
画散点图
由表中的数据得到经验回归方程为:
还原
典例精析
散点图中各散点都非常靠近蓝色的图像, 表明非线性经验回归方程对于原始数据的拟合效果远远好于经验回归方程.
有没有更好地方法检验不同模型的拟合效果?
自主研读
P118~P119,梳理知识,记录疑问
问题四:有哪些方法可以检验不同模型的拟合效果?
残差分析
决定系数
数据检验
决定系数:
R2 越大,表示残差平方和越小,即模型的拟合效果越好
R2 越小,表示残差平方和越大,即模型拟合效果越差.
残差平方和
与回归方程无关
(与回归方程有关)
样本相关系数 r 刻画线性相关关系的正负和强弱;
决定系数 R2 刻画模型拟合效果的好坏.
在使用经验回归方程进行预测时,需注意以下问题
1.经验回归方程只适用于所研究的样本的总体;
2.经验回归方程一般都有时效性;
3.解释变量的取值不能离样本数据的范围太远;
4.不能期望经验回归方程得到的预报值就是预报变量的精确值. 事实上, 它是预报变量的可能取值的平均值.
归纳总结
选变量
画(分析)散点图
选 模 型
还原回归方程
分析和预测
估计参数
由换元法变为线性关系
一元非线性回归模型
样本相关系数 r 刻画线性相关关系的正负和强弱;
决定系数 R2 刻画模型拟合效果的好坏.
决定系数
随堂小测
D
课本P120 1
课后作业
课后阅读:P122 阅读与思考
课本P138 1,2
2.(2015全国I) 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x;和年销售量
数据作了初步处理,得到下面的散点图及一些统计量的值.
(1)根据散点图判断, 与 哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为 .根据(2)的结果回答下列问题:年宣传费 时,年销售量及年利润的预测值是多少?年宣传费x为何值时,年利润的预测值最大?
单击此处编辑母版文本样式
第二级
第三级
第四级
第五级
【解】(1)根据散点图可以看出这些点在曲线上,
所以 宜作为年销售量y关于年宣传费x的回归方程类型;
所以立y关于x的回归方程为
(3)当x=49时,y =687+100.6=576.6,z=0.2576.6-49=66.32
单击此处编辑母版文本样式
第二级
第三级
第四级
第五级
1.(2020·全国I卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
$