内容正文:
第13讲 一元线性回归模型及其应用
【题型归纳目录】
题型一:求回归直线方程
题型二:利用回归直线方程对总体进行估计
题型三:线性回归分析
题型四:残差分析与相关指数的应用
题型五:非线性回归分析
【知识点梳理】
1、一元线性回归模型
我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的末知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
2、线性回归方程与最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计(leastsquaresestimate),
其中
3、残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4、刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用刻画回归效果
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客立预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.
【典型例题】
题型一:求回归直线方程
例1.(2022·甘肃·临泽县第一中学高二阶段练习(文))已知变量和正相关,则由如下表所示的观测数据算得的线性回归方程为
A. B.
C. D.
【答案】B
【解析】
由题得
,
所以样本中心点的坐标为(0,0),代入选项检验得选B.
故答案为B
【点睛】
(1)本题主要考查回归方程直线的性质,意在考查学生对该知识的掌握水平.(2) 称为样本点的中心,回归直线过样本点的中心.这是回归方程的一个重要考点,要理解掌握并灵活运用.
例2.(2022·新疆·乌鲁木齐市第二十中学高二期中)随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限与所支出的总费用(万元)有如表的数据资料:
使用年限
2
3
4
5
6
总费用
2.2
3.8
5.5
6.5
7.0
(1) 在给出的坐标系中作出散点图;
(2)求线性回归方程中的、;
(3)估计使用年限为年时,车的使用总费用是多少?
(最小二乘法求线性回归方程系数公式, .)
【解析】
(1)散点图如图,由图知与间有线性相关关系.
(2)∵,,,,
∴;
.
(3)线性回归直线方程是,
当(年)时,(万元).
即估计使用12年时,支出总费用是14.84万元.
题型二:利用回归直线方程对总体进行估计
例3.(2022·江西抚州·高二期末(理))保护生态环境,提倡环保出行,节约资源和保护环境,某地区从2016年开始大力提倡新能源汽车,每年抽样1000汽车调查,得到新能源汽车y辆与年份代码x年的数据如下表:
年份
2016
2017
2018
2019
2020
年份代码第x年
1
2
3
4
5
新能源汽车y辆
30
50
70
100
110
(1)建立y关于x的线性回归方程;
(2)假设该地区2022年共有30万辆汽车,用样本估计总体来预测该地区2022年有多少新能源汽车.
参考公式:回归方程斜率和截距的最小二乘估计公式分别为,.
【解析】(1),,
,因为,所以,所以
(2)预测该地区2022年抽样1000汽车调查中新能源汽车数,当时,,该地区2022年共有30万辆汽车,所以新能源汽车.
例4.(2022·陕西·西安中学高二期中(理))偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差(实际成绩平均分偏差).在某次考试成绩统计中,某老师为了对学生数学偏差(单位:分)与物理偏差(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差
20
15
13
3
2
-5
-