内容正文:
人教A版2019选修第三册
第 八 章 成对数据的统计分析
8.1.2 样本相关系数
1.了解样本相关系数公式的推导关系
2.掌握样本相关系数公式,并会运用.
3.了解样本相关系数与标准化数据向量夹角的关系,掌握样本相关系数的范围.
教学目标
01情境导入
PART.01
情境导入
通过上一节的学习,小明提出了自己的一些疑问:
问题1:由上图可判断出图①是负相关,图②是正相关,那么能否判断出图②的相关性比图①强?
不一定.
问题2 :怎样定量刻画两个变量的相关性?
可以用样本相关系数公式计算.
问题提出
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 . 但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.
问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
样本的相关系数
PART.02
概念讲解
对于变量和变量,设经过随机抽样获得的成对样本数据为,,其中,,,和,,,的均值分别为和.将数据以为零点进行平移,得到平移后的成对数据为,,,,并绘制散点图.
问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
概念讲解
线性负相关
线性正相关
无相关关系
非线性相关
线性负相关
线性正相关
无相关关系
非线性相关
(x,y)基本异号
(x,y)基本同号
数据预处理的常用方法:中心化(零均值化)
中心化
概念讲解
思考1: 根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量
.
一般情形下,表明成对样本数据正相关;
表明成对样本数据负相关.
概念讲解
思考2: Lxy的大小是否一定能度量出成对样本数据的相关程度吗?
因为Lxy的大小与数据的度量得有关,所以不宜直接用它度量成对样本数据相关程度的大小.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用
分别除和,得,,,.
概念讲解
为简单起见,把上述“标准化”处理后的成对数据分别记为,,,,仿照的构造,可以得到
.(1)
我们称为变量和变量的样本相关系数.
概念讲解
样本的相关系数
.(1)
我们称为变量和变量的样本相关系数.
定义
样本相关系数r是一个描述成对样本数据的数字特征,它反映了两个随机变量之间的线性相关程度.
r的符号反映了相关关系的正负性.
概念讲解
思考3:相关系数r的取值范围是多少呢?
设“标准化”处理后的成对数据的第一分量构成维向量,第二分量构成维向量,则有
观察的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到维,维向量的数量积仍然定义为,其中为向量的夹角.类似于平面或空间向量的坐标表示,对于向量
和,我们有.
概念讲解
因为,所以样本相关系数,其中为向量和向量的夹角.
由可知.
∴样本相关系数r的取值范围为[-1,1]
概念讲解
思考4: 相关系数|r|=1时,成对样本数据之间具有怎样的关系呢?
当时,中的或,向量和共线.由向量的知识可知,存在实数,使得,即,.
这表明成对样本数据都落在直线上.这时,成对样本数据的两个分量之间满足一种线性关系.
归纳小结
相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,当|r|=0时,成对数据的没有线性相关关系(但不排除它们间有其他相关关系);
当|r|=1时,成对数据都落在一条直线上.
概念讲解
图(1) 中成对样本数据的正线性相关程度很强.
图(2) 中成对样本数据的负线性相关程度比较强.
图(3)中 对样本数据的线性相关程度很弱.
图(4)中成对样本数据的线性相关程度极弱.
问题:观察以下散点图,判断成对数据间的相关关系
典例分析
PART.03
练一练
√
×
×
练一练
4.为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的样本线性相关系数,其数值分别为0.939, <m></m> , <m></m> ,则( ).
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最