内容正文:
9.1 线性回归分析
课程标准
学习目标
(1)结合实例,体会两个变量间的相关关系.
(2)能结合实例,根据散点图,判断两个变量是否具有相关关系.
(3)在真实情景中,能建立一元线性回归模型刻画随机变量之间的线性相关关系,能运用最小二乘法估计一元线性回归模型中的参数值,能利用建立的一元回归模型进行预测,从而解决实际问题, 发展数据分析、数学建模、逻辑推理等素养.
(1)掌握相关关系的判断,能根据散点图对线性相关关系进行判断.
(2)了解两个变量间的相关系数r,能利用相关系数r判断两个变量线性相关程度的大小.
(3)了解最小二乘法原理,会求线性回归方程,并能根据线性回归方程进行预测.
知识点01 变量的相关性
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关.
3、线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4、相关系数的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为,对数据作进一步的“标准化处理”处理,,分别除和(和分别为,和的均值),得,为简单起见,把上述“标准化”处理后的成对数据分别记为,则变量和变量的样本相关系数的计算公式如下:.
【即学即练1】(2024·高三·全国·专题练习)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x
1
2
3
4
5
6
7
一次最多答对题数y
12
15
16
18
21
24
27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数 (结果保留两位小数).
知识点02 线性回归方程
1、一元线性回归模型
我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的末知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
2、线性回归方程与最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计(leastsquaresestimate),
其中
3、残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4、刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
【即学即练2】(2024·高二·辽宁辽阳·期末)某产品的广告费用与销售额的统计数据如下表:
广告费用x/万元
1.8
2.2
3
5
销售额y/万元
t
7
14
16
根据上表数据得到y与x的回归直线方程为,则 .
题型一:相关关系的理解
【典例1-1】(2024·高一·陕西咸阳·阶段练习)如图,两个变量具有相关关系的是( )
A.(1)(3) B.(1)(4) C.(2)(4) D.(2)(3)
【典例1-2】(2024·高二·河南省直辖县级单位·期末)下列两个变量中能够具有相关关系的是( )
A.人所站的高度与视野 B.人眼的近视程度与身高
C.正方体的体积与棱长 D.某同学的学籍号与考试成绩
【变式1-1】(2024·高二·全国·课时练习)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.某正方形的边长与此正方形的面积
C.每亩施肥量与粮食亩产量
D.人的身高与体重
【变式1-2】(2024·高一·河南省直