内容正文:
专题9.1线性回归分析
知识点1相关关系
1.相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.散点图、正相关、负相关
(1)散点图:将样本中几个数据点描在平面直角坐标系中得到的图形.
(2)正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4.样本相关系数
(1)
当时,称成对样本数据正相关;当时,称成对样本数据负相关.
(2)样本相关系数的取值范围为.
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
知识点2一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
知识点3判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
重难点1相关关系的判断
【例1】已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【例2】下列两个变量之间的关系是相关关系的是( )
A.正方形的边长与对角线长 B.球的体积与表面积
C.一个人的身高与学习成绩 D.平均学习时间与学习成绩
【变式1-1】下列图形中具有相关关系的两个变量是( ).
A. B.
C. D.
【变式1-2】试判断下列各个问题中两个变量之间是否具有相关关系:
(1)商品的销售价格与其供应量;
(2)汽车的行驶速度与耗油量;
(3)真空中自由降落的小球,位移(单位:m)与时间(单位:s);
(4)日降雨量(单位:cm)与空气中污染物浓度(单位:).
【变式1-3】对变量有观测数据(),得表1;对变量 有观测数据(),得表2.由这两个表可以判断:变量x与y ,变量u与v .(填写“正相关”或“负相关”)
表1
x
1
2
3
4
5
y
2.9
3.3
3.6
4.4
5.1
表2
u
1
2
3
4
5
v
25
20
21
15
13
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:时,正相关;时,负相关.
重难点2相关系数的意义
【例3】某统计部门对四组数据进行统计分析后获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【例4】对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81
C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53
【变式2-1】开始吸烟年龄与得肺癌的相对危险度相对应的一组数据为,;每天吸烟的支数与其得肺癌的相对危险度相对应的一组数据为,.用表示变量与之间的线性相关系数,用表示变量与之间的线性相关系数,则下列说法正确的是( )
A. B. C. D.
【变式2-2】(多选)随机变量X和Y的相关系数为r,则下列说法正确的是( )
A.当时,X和Y具有正线性相关性 B.随着r值减小,X和Y的相关性也减小
C.当时,X和Y不具有相关性 D.当时,X和Y具有较强的线性相关性
【变式2-3】为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得数值依次为,,0.36,0.93,则这四组数据中线性相关性最强的是 组数据.
变量之间的样本相关系数具有如下性质
(1),故变量之间的样本相关系数的取值范围为.
(2)越大,变量之间的线性相关程度越强;越接近,变量之间的线性相关程度越弱.
(3)当时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关