内容正文:
8.1.2 样本(线性)相关系数
【引例】下面两幅散点图中,哪幅图的线性相关程度更高?
【思考】散点图只能定性分析,有没有什么方法能够定量分析线性相关程度的呢?
散点图只能定性分析两变量是否具有线性关系,但却不能定量描述线性相关程度有多高,因此我们有必要引入一个量去刻画两变量的线性相关程度高低,怎么操作呢?需要分两步走。
2
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为 和 . 将数据以 为零点进行平移,得到平移后的成对数据为
并绘制散点图.
1.中心化
年龄/岁
脂肪含量/%
中心化
23 27 39 41 45 49 50 53 54 56 57 58 60 61 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
-25 -21 -9 -7 -3 1 2 5 6 8 9 10 12 13 -17.5 -9.2 -5.8 -1.1 0.5 -0.699999999999999 1.2 2.6 3.2 4.4 3.8 6.5 8.2 7.6
通过绘图分析可得,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图 (1)所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示.
利用散点 的横、纵坐标是否同号,可以构造一个量
一般情形下,Lxy>0表明成对样本数据正相关;Lxy <0表明成对样本数据负相关.
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度。
我们发现, 的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据线性相关程度的大小。
【思考】Lxy的大小是否一定能说明成对样本数据的相关程度不同?
因为Lxy的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小. 为了消除度量单位的影响,需要对数据作进一步的“标准化”处理(将数据化为均值为0,方差为1). 我们用
2.标准化
【思考】对于标准化后的散点图中,什么情况表示线性相关程度最高?
Y 值 -6 -4 -2 0 2 4 6 -3 -2 -1 0 1 2 3
样本相关系数:
样本相关系数r是一个描述成对样本数据的数字特征,它反映了两个随机变量之间的线性相关程度.
r的符号反映了相关关系的正负性.
|r|的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
样本相关系数:
相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
注意:若0.75≤|r|≤1,则认为y与x的线性相关程度很强;
若0.3≤|r|<0.75,则认为y与x的线性相关程度一般;
若|r|≤0.3,则认为y与x的线性相关程度较弱
图(1) 中成对样本数据的正线性相关程度很强.
图(2) 中成对样本数据的负线性相关程度比较强.
图(3)中 对样本数据的线性相关程度很弱.
图(4)中成对样本数据的线性相关程度极弱.
【思考】中心化后数据形态不改变,但标准化后会相对变化,那为何可用标准化后的数据表示原数据的线性相关程度?二者有无区别?
练习1 判断正误(正确的打“√”,错误的打“×”)
(1)相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.( )
(2)散点图越接近某一条直线,线性相关程度越强,样本相关系数越大.( )
(3)散点图可以直观地分析出两个变量是否具有相关性.( )
(4)若变量x,y满足函数关系,则这两个变量线性相关.( )
×
√
×
√
练习2 已知求得甲、乙、丙3组不同的数据的样本相关系数分别为0.81,-0.98,0.63,其中________(填甲、乙或丙)组数据的线性相关程度最强.
乙
例1 根据表8. 1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
解: 由样本数据可得
由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
例1 根据表8. 1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
解: 由样本数据可得
由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
变式1 在一次试验中,测得(x, y)的4组值分别为(1, 2), (2, 0), (4, -4), (-1,6), 则y与x的样本相关系数为_______.
解:
由样本数据可得
【练】以下是收集到的新房屋的销售价格y(万元)和房屋的大小x(m2)的数据.
房屋大小x/m2 115 110 80 135 105
销售价格y/万元 24.8 21.6 18.4 29.2 22
(1)画出数据的散点图;
【例2】(1)对四组成对样本数据进行统计,获得以下散点图,关于其样本相关系数的比较,正确的是
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
√
【练】甲、乙、丙、丁四位同学各自对a,b两变量的线性相关性做试验,并分别求得样本相关系数r如下表:则____同学的试验结果体现a,b两变量有更强的线性相关性.
甲 乙 丙 丁
r -0.82 -0.78 -0.69 -0.85
丁
线性相关强弱的判断方法
(1)散点图:散点图只是粗略作出判断,其图象越接近直线,线性相关性越强.
(2)样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越大,相关性越强.
小结:
1. 样本相关系数:
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
(2)求样本相关系数r,并作出评价.(精确到0.01,已知=60 975,=2 756.8,iyi=12 952)
$$