内容正文:
直线
8.1.2 样本相关系数
问题导入
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等.散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入均值、方差等数字数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
对于变量和变量,设经过随机抽样获得的成对样本数据为,,其中,,,和,,,的均值分别为和.将数据以为零点进行平移,得到平移后的成对数据为,,,,并绘制散点图.
新知探索
利用上述方法处理表中的数据,得到下图.我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
新知探索
一般地,如果变量和正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图(1)所示;如果变量和负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示.
新知探索
思考1:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量
.
一般情形下,表明成对样本数据正相关;表明成对样本数据负相关.
新知探索
思考2:你认为的大小一定能度量出成对样本数据的相关程度吗?
因为的大小与数据的度量得有关,所以不宜直接用它度量成对样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用分别除和,得,,,.
新知探索
为简单起见,把上述“标准化”处理后的成对数据分别记为,,,,仿照的构造,可以得到
.(1)
我们称为变量和变量的样本相关系数.
这样,我们利用成对样本数据构造了样本相关系数.样本相关系数是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常也变小.
新知探索
那么,样本相关系数的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下的取值范围.
观察的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到维,维向量的数量积仍然定义为,其中为向量的夹角.类似于平面或空间向量的坐标表示,对于向量
和,我们有.
设“标准化”处理后的成对数据的第一分量构成维向量,第二分量构成维向量,则有
新知探索
因为,所以样本相关系数,其中为向量和向量的夹角.
由可知.
思考3:当时,成对样本数据之间具有怎样的关系呢?
当时,中的或,向量和共线.由向量的知识可知,存在实数,使得,即,.
这表明成对样本数据都落在直线上.这时,成对样本数据的两个分量之间满足一种线性关系.
新知探索
由此可见,样本相关系数的取值范围为.样本相关系数的绝对值大小可以反映成对样本数据之间线性相关的程度:
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
下图是不同成对样本数据的散点图和相应的样本相关系数.图(1)中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数,表明成对样本数据的正线性相关程度很强.
新知探索
图(2)中的散点有明显的从左上角到右下角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数,表明成对样本数据的负线性相关程度比较强.
从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些;图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱.
新知探索