内容正文:
8.1.2 样本相关系数
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 .
散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小. 能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
对于变量x和变量y, 设经过随机抽样得到的成对数据为(x1 , y1) , (x2 , y2) , ⋯ , (xn , yn) , 其中x1, x2 , ∙∙∙, xn和y1, y2 ,∙∙∙, yn的均值分别为和.
将数据以(, )为零点进行平移,得到平移后的成对数
据为 (x1- , y1-) ,(x2- , y2-) ,∙∙∙, (xn- , yn-) 并绘制散点图.
利用上述方法处理表中的数据, 得到下图. 我们发现,这时的散点大多数分布在第一象限、第三象限, 大多数散点的横、纵坐标同号. 显然, 这样的规律是由人体脂肪含量与年龄正相关所决定的.
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如左图所示;
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如右图所示.
思考? 根据上述分析, 你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律, 构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
一般情形下,Lxy>0表明成对样本数据正相关; Lxy<0表明成对样本数据负相关.
从上述讨论得到启发, 利用散点(xi - , yi -)(i=1, 2, ∙∙∙, n)的横、纵坐标是否同号,可以构造一个量
思考? 你认为 Lxy的大小一定能度量出成对样本数据的相关程度吗?
因为Lxy的大小与数据的度量单位有关 , 所以不宜直接用它度量成对样本数据相关程度的大小. 例如, 在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米, 则相应的Lxy将变为原来的100倍, 但单位的改变并不会导致体重与身高之间相关程度的改变.
分别除xi - 和yi -(i=1, 2, ∙∙∙, n) , 得
为了消除度量单位的影响, 需要对数据作进一步的标准化处理 . 我们用
为简单起见, 把上述标准化处理后的成对数据分别记为
分别除xi - 和yi -(i=1, 2, ∙∙∙, n) , 得
我们用
仿照Lxy的构造, 可以得到
我们称 r 为变量x和变量y的样本相关系数.
这样,我们利用成对样本数据构造了样本相关系数r .样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关 . 这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
我们称 r 为变量x和变量y的样本相关系数.
当r<0时,称成对样本数据负相关. 这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
那么, 样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢? 为此, 我们先考察一下r的取值范围.
当r>0时,称成对样本数据正相关.
观察r的结构, 联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量,的数量积仍然定义为
类似于平面或空间向量的坐标表示, 对于向量=(a1 , a2 , ∙∙∙ , an)和 =(b1, b2 ,∙∙∙, bn) , 我们有
其中θ为向量,的夹角.
设“标准化”处理后的成对数据(x′1, y′1) , (x′2, y′2) , ∙∙∙ , (x′n, y′n)的第一分量构成n维向量
′=(x′1 , x′2 , ∙∙∙ , x′n),
第二分量构成n维向量
′=(y′1 , y′2 , ∙∙∙ , y′n),
第一分量构成n维向量
′=(x′1 , x′2 , ∙∙∙ , x′n),
第二分量构成n维向量
′=(y′1 , y′2 , ∙∙∙ , y′n),
第一分量构成n维向量
所以样本相关系数r=cos