内容正文:
§2 成对数据的线性相关性
学习目标
素养要求
1.理解并掌握相关系数的概念及性质,并能判断两个随机变量之间线性相关性的强弱.
2.了解非线性回归,会用线性回归方程解决相关实际问题.
1.利用相关系数,判断两个随机变量之间线性相关性,培养数学运算、逻辑推理的核心素养.
2.借助线性回归解决简单的非线性回归问题,提升数学运算、数学建模的核心素养.
[自主梳理]
知识点 成对数据的线性相关性
[问题1] 下图是一位同学数学成绩与物理成绩;数学成绩与英语成绩的散点图.
由散点图直观上看出,数学成绩与物理成绩,数学成绩与英语成绩哪个线性相关性关系强一些?
答:数学成绩与物理成绩的线性相关性强一些.
[问题2] 你能分别求出它们之间的线性回归方程吗?
答:给定一组成对的数据,总能得到一个线性回归方程,不难想到,如果变量之间的线性相关性很弱,那么得到的回归直线方程价值是有限的,甚至是没有价值的.
►知识填空
1.随机变量X和Y的(线性)相关系数
设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=
=
=
称r为随机变量X和Y的样本(线性)相关系数.
2.(线性)相关系数的性质
(1)(线性)相关系数r的取值范围为[-1,1].
(2)|r|值越接近1,随机变量之间的线性相关程度越强;|r|值越接近0,随机变量之间的线性相关程度越弱.
①当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关;
②当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关;
③当r=0时,此时称两个随机变量线性不相关.
[自主检验]
1.判断正误(正确的打“√”,错误的打“×”)
(1)在调查小学生身高的过程中,发现年龄与身高具有线性相关关系.( )
(2)散点图中的点散布在从左下角到右上角的区域,对于两个变量的这种相关关系为正相关.( )
(3)相关系数r越小,两个变量之间的线性相关性越弱.( )
(4)若相关系数r>0,则两个随机变量负相关.( )
答案:(1)√ (2)√ (3)× (4)×
2.某旅行社为迎节日搞活动旅游,经市场调查,某旅游线路销量Y(人)与旅游价格X(元/人)负相关,则其回归直线方程可能是( )
A.Y=-80X+1600
B.Y=80X+1600
C.Y=-80X-1600
D.Y=80X-1600
答案:A
3.若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0. 83,0.72,-0. 90,则线性相关性最强的一组是______(填甲、乙、丙中的一个).
答案:丙
4.如图所示有5组数据,去掉________后,剩下的4组数据的线性相关性更强.
答案:D(3,10)
题型一 相关关系的判断
[例 1] 若变量x,y有如下观察的数据:
X
151
152
153
154
156
157
158
159
160
162
163
164
Y
40
41
41
41.5
42
42.5
43
44
45
45
46
45.5
(1)画出散点图;
(2)判断变量X,Y是否具有相关关系?如果具有相关关系,那么是正相关还是负相关?
解:(1)画出散点图如图所示.
(2)具有相关关系.根据散点图,点分布在左下角到右上角的区域,变量X的值由小变大时,另一个变量Y的值也由小变大,所以它们具有正相关关系.
两变量X和Y具有线性相关关系
判正相关、负相关的方法
(1)根据散点图的特征判正(负)相关;
(2)利用线性回归方程Y=X+的斜率正负来判正(负)相关;
(3)利用相关系数的正负来判正(负)相关.
对两个变量的四组数据进行统计,获得如图所示的散点图,关于两个变量相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
解析:选A 由相关系数及散点图反映了线性相关关系的知识,可知r2<r4<0<r3<r1.
题型二 相关系数与线性回归方程的综合应用
[例 2] 下面的数据是从年龄在40到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平Y(满分100)以及每天花在看电视上的平均时间X(小时).
看电视的平均
时间X(小时)
4.4
4.6
2.7
5.8
0.2
4.6
心脏的功能
水平Y(分)
52
53
69
57
89
65
(1)求心脏的功能水平Y与每天花在看电视上的平均时间X之间的样本相关系数r;
(2)求心脏的功能水平Y与每天花在看电视上的平均时间X的线性回归方程,并指出方程是否有价值;
(3)估计平均每天看电视3小时的男子的心脏的功能水平.
解:(1)n=6,=(4.4+4.6+…+4.6)≈3.7167,
=(52+53+…+65)≈64.1667,
-62=(4.42+4.62+…+4.62)-6×3.71672≈19.7668,
-62=(522+532+…+652)-6×64.16672≈964.8077,
iyi-6 =(4.4×52+4.6×53+…+4.6×65)-6×3.7167×64.1667≈-124.6302.
心脏的功能水平Y与每天花在看电视上的平均时间X之间的相关系数
r=
≈≈-0.9025.
(2)=≈
≈-6.3050,
=- ≈64.1667+6.3050×3.7167≈87.6005,
所以心脏的功能水平Y与每天花在看电视上的平均时同X的回归直线方程为Y=-6.3050X+87.6005.
因为|r|≈0.9025,接近1,说明y与x之间线性相关性较强,故这个线性回归方程有价值.
(3)将x=3代入回归直线方程Y=-6.3050X+87.6005可得y≈69(分).
因此估计平均每天看电视3小时的男子的心脏的功能水平为69分.
(1)线性回归分析前必须进行线性相关程度检验,如果不作相关性检验,我们仍然可以求出X与Y的线性回归方程,但不知道这时的线性回归方程是否有价值,也就不知道能否反映变量X与Y之间的变化规律,只有在X与Y之间具有线性相关关系时,求得的线性回归直线方程才有价值.
(2)相关性检验主要有以下两种方法:一是通过作散点图,观察由所给的数据确定的点是否在一条直线附近,这样既直观又方便,因而在解决相关性检验问题中比较常用;二是利用相关系数r来检验两个变量之间线性相关性的强弱,利用相关系数r来检验线性相关关系,适用于任何情况,但计算烦琐.
已知某种商品的单价X(单位:元)与需求量Y(单位:件)之间的关系有如下一组数据:
X
14
16
18
20
22
Y
12
10
7
5
3
求Y关于X的线性回归方程,并说明单价与需求量之间的线性相关性.
解:计算可得=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1660,
==-1.15,
=-=7.4+1.15×18=28.1,
所以所求线性回归方程是Y=-1.15X+28.1.
由=122+102+72+52+32=327,
则r=
=
≈≈-1.
说明单价与需求量之间的相关性强即直线拟合效果好.
[课堂小结]
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
2.相关系数r可以定量地反映出两变量间的相关程度,明确的给出有无必要建立两变量间的线性回归方程.
3.用线性回归方程求预报值需注意以下几点:(1)线性回归方程只适用于所研究的样本的总体;(2)所建立的线性回归方程一般都有时间性;(3)样本的取值范围会影响回归方程的适用范围;(4)不能期望由回归方程得到的预报值就是预报变量的精确值,事实上,它是预报变量的可能取值的平均值.
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$