内容正文:
回忆一下
成对样本数据
散点图
线性相关系数
直观描述
定量刻画
是正相关还是负相关?
是否线性相关?
线性相关的程度
两个变量存在相关关系
建立统计模型
类比函数模型
不少名家因此而获诺贝尔奖
作相关预测
如何对成对样本数据建立一个模型进行预测?
线性相关时
8.2.1
一元线性回归模型
自主研读
P105~P106,梳理知识,记录疑问
1. 什么是一元线性回归模型?
2. 模型 中, 代表什么?
3. 为什么要引入 ?
关注以下问题:
问题一:P105引例中儿子的身高与父亲的身高线性相关,但不是函数关系,课本中是如何得到类似于函数模型的?
用 x 表示父亲身高,Y 表示儿子的身高,用 e 表示随机误差
假定随机误差 e 的均值为 0,方差为与父亲身高无关的定值 σ2
得关系:
称(1)式为 Y 关于 x 的一元线性回归模型. 其中,Y 称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是 Y 与 bx+a 之间的随机误差. 模型中的 Y 也是随机变量,其值虽不能由变量x的值确定,但却能表示为 bx+a 与 e 的和,前一部分由 x 所确定,后一部分是随机的. 如果 e=0 ,那么 Y 与 x 之间的关系就可用一元线性函数模型来描述.
一元线性回归模型
随机误差 e 的特征
①可取正或取负
②有些无法测量
③不可事先设定
问题二:为什么要假设E( e)=0,而不假设其为某个不为 0 的常数?
①因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
②如果随机误差是一个不为 0 的常数α,则可以将 α 合并到截距项 a 中,否则模型无法确定,即参数没有唯一解.
③如果 α 不为 0,则表示存在系统误差,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差.
问题三:你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
父亲身高为 xi 的所有男大学生的身高组成一个子总体,该子总体的均值为 bxi+a,即该子总体的均值与父亲身高是线性函数关系.
问题四:对于父亲身高为 xi 的某一名男大学生,他的身高 yi 一定是 bxi+a 吗?
不一定为 bxi+a,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项这 ei=yi-(bxi+a).
一元线性回归模型表达式 Y=bx+a+e 刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.
探究:利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
8.2.2
一元线性回归模型
参数的最小二乘估计
自主研读
P107~P112,梳理知识,记录疑问
什么是最小二乘法?“最小二乘”中的“二乘”指的是什么?“最小”化的对象是什么?
经验回归方程 中的 和 如何计算?公式是什么?
经验回归直线一定经过哪个特殊点?
关注以下问题:
问题五:教材是如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
方便计算
n个竖直距离之和
随机误差平方和
刻画各样本观测数据与直线y=bx+a的“整体接近程度”
所以我们取使Q达到最小的a和b值, 作为截距 a 和斜率 b 的估计值.
问题六:如何求a, b的值,使 最小?
所以
当 取最小值时, 取最小值0,即 .
此时
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
综上,当a,b的取值为 时, Q达到最小.
人们经过长期的实践与研究,已经找到了计算回归方程的一般公式 ,其中:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用该公式求得的 叫做b, a的最小二乘估计.
这里的“二乘”是平方的意思.
易得:(1)经验回归直线必过样本中心;
(2)与相关系数 r 符号相同.
经验回归方程
深度学习:两个公式的转化
问题七:儿子身高y与父亲身高x满足经验回归方程:
斜率0.839有什么含义?
可以解释为父亲身高每增加1cm,其儿子的身高平均增加 0.839cm.
不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子的身高,但可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右
根据模型,父亲身高为多少时,长大成人的儿子身高和父亲身高一样?
当x=176时, ,能否说:如果一位父亲身高为176cm,他儿子长大后身高一定是177cm?
令 ,则 x =179.733,即当父亲身高为179.733cm时,儿子的平均身高与父亲的身高一样.
回归分析
1.高个子父亲有生高个子儿子的趋势,
但一群高个子父亲的儿子们的平均身高要低于父亲们的平均 身高,
例如 x=185(cm),则=184.172(cm);
2.矮个子父亲有生矮个子儿子的趋势,
但一群矮个子父亲的儿 子们的平均身高要高于父亲们的平均身高,
例如 x=170(cm),则 =171.587(cm)
英国著名统计学家高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”. 后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
刻画回归效果的方式——残差图法
① 计算残差
② 列残差表
③ 画残差图
异常值:根据计算的残差值和残差图, 观察是否存在残差特别大的点, 即远离横坐标的点. 如果存在远离坐标轴的点, 即为异常点,就要研究它出现的原因.
残差图分析:(纵坐标为残差)
残差有正有负,比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型中对于随机误差的假定
若残差点比较均匀地落在水平的带状区域中, 说明选用的模型比较合适. 这样的带状区域的宽度越窄, 说明模型拟合精度越高, 回归方程的预报精度越高.
判断回归模型刻画数据的效果;发现原始数据中是否存在可疑数据,对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
残差的作用:
典例精析
例:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
(1)
(2)
(3)
(4)
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型.
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分.
图(3)说明残差的方差不是一个常数,随观测时间变大而变大.
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
求经验回归方程的步骤:
归纳总结
随堂小测
课本P113 1,2,4
课本P107 2,3
课后作业
课本P120 习题8.2 2
$