内容正文:
专题08 变量间的相关关系及线性回归分析
知识点1 变量的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系;
(2)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
(3)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.
知识点2 样本相关系数
(1)样本相关系数r= ;
(2)样本相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
知识点3 一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线;
(2)经验回归方程:=x+,
其中==,=-;
(3)最小二乘法:通过求Q=(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
知识点4 判断回归模型的拟合效果
由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程=x+,其中y叫做观测值,叫做预测值,残差=y-.相对于样本点(xi,yi)的随机误差=yi-=yi-(xi+).
(1)残差分析法
①作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(2)决定系数 (R2)法:R2=1-.R2的值越趋近于1,模型的拟合效果越好.
考点1 成对数据的相关性
【例1】已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是 ( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【答案】C
【解析】因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
【总结】判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关;
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强;
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
【变式1-1】对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是 ( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
【答案】A
【解析】由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1.
【变式1-2】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【答案】C
【解析】由题图可得两组数据均线性相关,且图①的经验回归直线的斜率为负,图②的经验回归直线的斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
【变式1-3】(多选)下列有关经验回归分析的说法中正确的有( )
A.经验回归直线必过点(,)
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.如果两个变量的相关性越弱,则|r|就越接近于0
【答案】ACD
【解析】对于A,经验回归直线必过点(,),故A正确;
对于B,经验回归直线在散点图中可能不经过任一样本数据点,故B不正确;
对于C,当样本相关系数r>0时,则两个变量正相关,故C正确;
对于D,如果两个变量的相关性越弱,则|r|就越接近于0,故D正确.
【变式1-4】