内容正文:
回归分析的基本思想
及其初步应用(一)
一、复习回顾
例题1 从某大学中随机选出8名女大学生,其身高和体重数据如下表:
编号 1 2 3 4 5 6 7 8
身高 165 165 157 170 175 165 155 170
体重 48 57 50 54 64 61 43 59
求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重。
解:由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.
画出散点图:
二、应用举例
4
体重/cm
身高/cm
体重/cm
身高/cm
体重/cm
身高/cm
这里a和b为模型的未知参数,e为y与bx+a之间的误差,通常e是随机变量,称它为随机误差。
三、线性回归模型与随机误差
探究!在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么应如何研究随机误差呢?
四、残差与残差的作用
思考?如何发现数据中的错误?如何衡量模型的拟合效果?
可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。下表列出了女大学生身高和体重的原始数据以及相应的残差数据.
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
-6.37 2.63 2.42 -4.62 1.14 6.63 -2.88 0.38
残 差
编号
残 差
编号
对于己获取的样本数据,R2表达式中的
为确定的数.
因此,R2越大,意味着残差平方和 越小,即模型拟合效果越好;
R2越小,意味着残差平方和 越大,即模型拟合效果越差.
五、相关指数R2
总偏差
平方和
残差平方和
回归平方和
注意:
其中a和b为模型的未知参数,e称为随机误差.
2、随机误差e
六、归纳小结
1、线性回归模型:
4、相关指数R2
$