内容正文:
8.1.2 样本相关系数
第八章 成对数据的统计分析
人教A版2019选择性必修第三册
前情回顾
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
正相关
负相关
线性相关
非线性相关
1、如果两个变量之间有确定的关系,或所有的样本点都落在某一函数曲线上,
就用该函数来描述变量之间的关系,即变量之间具有函数关系;
2、两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的
程度,所有的样本点都落在某一函数曲线附近,变量之间就有相关关系;
3、如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
学习目标
1
2
3
结合实例,会通过相关系数比较多组成对数据的相关性.
掌握样本相关系数的定义和样本相关系数的统计含义.
能用公式计算样本相关系数,判断线性相关的程度.
0
新课引入
0
散点图可以直观的说明变量间有无线性相关关系,但无法量化两个变量之间
的相关程度的大小,更不能精确地说明成对样本数据之间关系的密切程度,
问题:由上图可判断出图①是负相关,图②是正相关,
那么能否判断出图②的相关性比图①强?
能否像引人均值、方差等数字特征对单个变量数据进行分析那样,
引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
读教材
0
阅读课本P96-P102,5分钟后完成下列问题:
1.样本相关系数对变量的相关关系有何影响?
我们一起来探究“样本相关系数”吧!
2.你能记住样本相关系数的计算公式吗?
01
03
02
目录
1 样本相关系数
学习过程
2 样本相关系数的性质
3 题型训练
1
新知探究
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
对于变量和变量,设经过随机抽样获得的成对样本数据为,
,其中,,,和,,,的均值分别为和.
将数据以为原点进行平移,得到平移后的成对数据为,,,,并绘制散点图.
用上述方法处理上表中的数据,得到右图.我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
-25 -21 -9 -7 -3 1 2 5 6 8 9 10 12 13 -17.5 -9.2 -5.8 -1.1 0.5 -0.699999999999999 1.2 2.6 3.2 4.4 3.8 6.5 8.2 7.6
1
新知探究
年龄/岁
脂肪含量/%
统计学中平均数是很重要的一个量,,
成对样本数据为,,…,,
将数据以(,)为零点进行平移,得到平移后的成对数据为,
将数据以()为零点进行平移,这种数据预处理的方法叫做中心化(零均值化)
23 27 39 41 45 49 50 53 54 56 57 58 60 61 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
-25 -21 -9 -7 -3 1 2 5 6 8 9 10 12 13 -17.5 -9.2 -5.8 -1.1 0.5 -0.699999999999999 1.2 2.6 3.2 4.4 3.8 6.5 8.2 7.6
1
新知探究
探究1 经过中心化的散点图,如何判断两个变量的相关性呢?
线性负相关
线性正相关
无相关关系
非线性相关
线性负相关
线性正相关
无相关关系
非线性相关
(x,y)基本异号
(x,y)基本同号
中心化
1
新知探究
探究1 经过中心化的散点图,如何判断两个变量的相关性呢?
一般地如果变量正相关,那么
关于均值平移后的大多数点将分布在
第一、三象限,对应的成对数据同号居多;
一般地,如果变量负相关,那么
关于均值平移后的大多数点将分布在
第二、四象限,对应的成对数据异号居多.
思考: 散点图不能精确描述相关关系,能否用具体数据判断正相关和负相关呢?
构造一个量: .
一般情形下,表明成对样本数据正相关;表明成对样本数据负相关.
1
新知探究
思考:的大小一定能度量出成对样本数据的相关程度吗?
因为的大小与数据的度量得有关,所以不宜直接用它度量成对样本数据相关程度的大小.
例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,
则相应的将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理. 我们用:
分别除和,得,,,.
标准化后求: .
1
新知1--样本相关系数
样本相关系数
简单起见,把“标准化”处理后的成对数据分别记为:
,,,,仿照 的构造,可以得到:
. (1)
:样本相关系数
当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关;
当r =0时,两个变量没有线性相关关系,
但可能有其他相关关系;
学以致用
例1 变量X与Y相对应的一组成对样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组成对样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则( )
A.r2<r1<0 B.0<r2<r1 C.r2<0<r1 D.r1=r2
解:由已知中的数据可知:
第一组成对样本数据正相关,则样本相关系数大于零,
第二组成对样本数据负相关,则样本相关系数小于零,故选C.
C
学以致用
例2 下面的散点图与相关系数一定不符合的是( )
C
解:当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;
r=±1时,所有点都在一条直线上,故选C.
A.①②③ B.①②④ C.①③④ D.②③④
学以致用
例3 以下是收集到的新房屋的销售价格y(万元)和房屋的大小x(m2)的数据:
求样本相关系数r?
房屋大小/m2 115 110 80 135 105
销售价格/万元 24.8 21.6 18.4 29.2 22
解:由题设数据,得:
01
03
02
目录
1 样本相关系数
学习过程
2 样本相关系数的性质
3 题型训练
2
新知探究
探究2:相关系数r的取值范围是多少呢?
观察的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到维,维向量的数量积仍然定义为,其中为向量的夹角.
类似于平面或空间向量的坐标表示,对于向量和,
我们有.
设“标准化”处理后的成对数据
的第一分量构成维向量,
第二分量构成维向量,则有
2
新知探究
探究2:相关系数r的取值范围是多少呢?
因为,所以样本相关系数,
其中为向量和向量的夹角. 由可知.
2
新知探究
思考:相关系数||=1时,成对样本数据之间具有怎样的关系呢?
当时,中的或,向量和共线. 由向量的知识可知,存在实数,使得,即,.
这表明成对样本数据都落在直线上.
这时,成对样本数据的两个分量之间满足一种线性关系.
2
新知2--样本相关系数的性质
样本相关系数的性质
散点图:对成对样本数据的相关关系进行分析,样本相关系数r:反映两个随机变量之间的线性相关程度; r 的符号(正负)反映相关关系的正负性,|r|的大小
反映两个变量线性相关的程度,即散点集中于一条直线的程度.
1.样本相关系数的取值范围为.
2.当越接近1时,成对样本数据的线性相关程度越强;
3.当越接近0时,成对样本数据的线性相关程度越弱.
性质
2
新知2--样本相关系数的性质
样本相关系数的性质
①r 的正负:反映成对样本数据的变化趋势
r=0时,只表明成对样本数据间无线性相关关系,但不排除它们有其他相关关系.
③样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
②|r |的大小:反映成对样本数据线性相关的程度(即散点集中于某条直线的程度):
|r |越接近1:线性相关程度越强;
|r |越接近0:线性相关程度越弱.
学以致用
例1 甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
解:|r|越接近1,相关性越强,故选D.
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
D
学以致用
例2 在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1 C.y=x+1 D.y=-x2
解:∵这组成对样本数据的样本相关系数为-1,
∴这一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,
且是负相关. ∴可排除B,C,D,故选A.
A
学以致用
例3 (多选)对两个变量的样本相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关程度越强
解:对于A,|r|越大,相关程度越大,A正确;
对于B,|r|越小,相关程度越小,B错误;
对于C,|r|趋近于0时,线性相关关系越弱,C错误;
对于D,|r|越接近1时,线性相关程度越强,D正确. 综上,正确的是AD.
AD
学以致用
例4 部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表:
固定资产价值 3 3 5 6 6 7 8 9 9 10
工业增加值 15 17 25 28 30 36 37 42 40 45
根据上表资料计算的样本相关系数约为_______.
0.9918
思路点拨
样本相关系数r的应用:
:样本相关系数
1.当r>0时,称成对样本数据正相关;
2.当r<0时,称成对样本数据负相关;
3.当r =0时,两个变量没有线性相关关系,
但可能有其他相关关系;
4.样本相关系数的取值范围为.
5.当越接近1时,成对样本数据的线性相关程度越强;
6.当越接近0时,成对样本数据的线性相关程度越弱.
01
03
02
目录
1 样本相关系数
学习过程
2 样本相关系数的性质
3 题型训练
3
例1 两个变量y与x的模型中,分别选择了4个不同模型,它们的样本相关系数r 如下,
其中拟合效果最好的模型是( )
解:当越接近1时,成对样本数据的线性相关程度越强,拟合效果越好。
题型1--样本相关系数
模型 模型1 模型2 模型3 模型4
样本相关系数r 0.98 0.80 0.50 0.25
A.模型1 B.模型2 C.模型3 D.模型4
A
3
例2 某统计部门对四组成对样本数据进行统计分析后,获得如图所示的散点图,
关于样本相关系数的比较,其中正确的是( )
解:根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;
数据越集中在一条直线附近,说明相关性越强,由题中数据可知:
(1)(3)为正相关,(2)(4)为负相关,故r1>0,r3>0,r2<0,r4<0,
又(1)与(2)中散点图更接近于一条直线,故r1>r3,r2<r4,因此r2<r4<0<r3<r1.故选C.
题型1--样本相关系数
A.r4<r2<0<r1<r3 B.r2<r4<0<r1<r3 C.r2<r4<0<r3<r1 D.r4<r2<0<r3<r1
C
3
例3 某校高三(1)班的学生每周用于数学学习的时间x(单位:)与数学平均成绩y(单位:分)之间如表格所示的数据.
(1)画出散点图;
(2)判断学习的时间与数学平均成绩间相关关系的类型、相关程度和变化趋势的特征.
解:(1)根据表中的数据画出散点图,从散点图看,数学成绩与学习时间线性相关.
题型1--散点图与相关关系
x 24 15 23 19 16 11 20 16 17 13
y 92 79 97 89 64 47 83 68 71 59
(2):由表得,,,,
,相关系数.
由r知,数学学习时间与数学平均成绩呈正线性相关,因为与1接近,
所以数学学习时间与数学成绩相关程度很高,且随着学习时间的增加,相应的学习成绩升高.
3
例4 已知变量x和变量y的3对随机观测数据(2, 2), (3, -1), (5, -7) ,
计算成对样本数据的样本相关系数. 能据此推断这两个变量线性相关吗? 为什么?
题型1--散点图与相关关系
解:由题得,,,,
,相关系数:
虽然样本相关系数为-1 ,三个样本点在一条直线上,
但是由于样本量太小 ,据此推断两个变量完全线性相关并不可靠.
课堂小结
样本相关系数的性质
①r 的正负:反映成对样本数据的变化趋势
r=0时,只表明成对样本数据间无线性相关关系,但不排除它们有其他相关关系.
③样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
②|r |的大小:反映成对样本数据线性相关的程度(即散点集中于某条直线的程度):
|r |越接近1:线性相关程度越强;
|r |越接近0:线性相关程度越弱.
i
xi
yi
x
y
xiyi
1
115
24.8
13 225
615.04
2 852
2
110
21.6
12 100
466.56
2 376
3
80
18.4
6 400
338.56
1 472
4
135
29.2
18 225
852.64
3 942
5
105
22
11 025
484
2 310
∑
545
116
60 975
2 756.8
12 952
==109,==23.2,
r=
=≈0.96,
解: ==6.6,
==31.5.
$$