内容正文:
1.1回归分析的基本思想及其初步应用(二)
高二(下)数学 选修1-2
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。
温故知新
1.如何描述两个变量之间线性相关关系的强弱?
在上节课中,我们学习了用相关系数r来衡量两个变量
之间线性相关关系的方法。
相关系数r
相关关系的测度
(相关系数取值及其意义)
-1.0
+1.0
0
-0.5
+0.5
完全负相关
无线性相关
完全正相关
负相关程度增加
r
正相关程度增加
4
139
2.根据最小二乘法估计 和 就是未知参数a和b的最好估计,
于是有
单击此处编辑母版文本样式
第二级
第三级
第四级
第五级
残差图的制作及作用。
3.3坐标纵轴为残差变量,横轴可以有不同的选择;
若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;
对于远离横轴的点,要特别注意。
身高与体重残差图
异常点
错误数据
模型问题
几点说明:
第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
3.残差图
4.我们可以用相关指数R2来刻画回归的效果,其计算公式是
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的线性相关性越强)。
如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。
总的来