内容正文:
8.1.2 样本相关系数 导学案
1. 了解样本相关系数公式的推导关系
2. 掌握样本相关系数公式,并会运用.
3. 了解样本相关系数与标准化数据向量夹角的关系,掌握样本相关系数的范围
1. 创设情境,引入新知
“复习时常”与“周测成绩”—— 相关性研究
某班最近一次数学周测的“ 复习时长”(x,单位:小时)和测试成绩(y,单位:分)** 的 10 组样本数据:
请同学们在草稿纸上画出这组成对数据的散点图,
观察散点的分布趋势,复习时长和成绩之间有怎样的关系?
思考:仅凭散点图的直观判断是否足够严谨?怎么量化这两组数据线性相关的强弱程度?
教师:需要一个统计量来精确刻画成对数据线性相关的方向和强弱,这就是今天要学习的:样本相关系数
2.探究新知
引言:通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 . 但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.
问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
观察撒点图代表的数据的正负大小等特征,并根据特征尝试进行构造统计量。
对数据进行 处理再观察数值特征:
利用上述方法处理上表中的数据,得到由图.
我们发现,这时的散点大多数分布在第 象限、第 象限,大多数散点的横、纵坐标 .
显然,这样的规律是由人体脂肪含量与年龄 所决定的.
结论:如果变量x和y ,那么关于均值平移后的大多数散点将分布在第 象限、第 象限,对应的成对数据 的居多,如下图(1)所示;
如果变量x和y ,那么关于均值平移后的大多数散点将分布在第 象限、第 象限,对应的成对数据 的居多,如下图(2)所示.
总结:据预处理的常用方法: (零均值化)
思考:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
思考:你认为的大小一定能度量出成对样本数据的相关程度吗?
定义:
样本相关系数:___________________________________
我们称r为变量x和变量y的 (sample correlation coefficient)
思考:样本相关系数r的正负能反映出成对变量的什么关系?
牛刀小试:
练1:已知学生每日有效学习时间和其数学成绩相关,且相关系数为正数,对此描述正确的是( )
A.每日学习时间长,数学成绩就一定高
B.每日学习时间长,数学成绩就一定低
C.随着每日学习时间由短到长,数学成绩呈上升趋势
D.随着每日学习时间由短到长,数学成绩呈下降趋势
练2:根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
练3:最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
思考:相关系数r的取值范围是多少呢?
思考:相关系数|r|=1时,成对样本数据之间具有怎样的关系呢?
总结:相关系数的性质:
① 当r>0时,称成对样本数据 ;当r<0时,称成对样本数据 .
② |r|≤ ;
③ 当|r|越接近1时,成对数据的线性相关程度越 ;
当|r|越接近0时,成对数据的线性相关程度越 ;
特别地,当|r|=0时,成对数据的 线性相关关系(但不排除它们间有其他相关关系);
当|r|=1时,成对数据都落在一条 上.
要求:观察以下散点图,判断成对数据间的相关关系
在实际中,获得总体中所有的成对数据往往是不容易的.
因此,我们还是要用样本估计总体的思想来解决问题.
也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.
对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
牛刀小试:
练4:已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A. B. C. D.
练5:若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0.93,0.42,,则线性相关程度最强的一组是________.(填甲、乙、丙中的一个)
练6:关于样本相关系数,下列说法正确的是( )
A.样本相关系数
B.当样本相关系数时,称成对数据成正相关
C.两个随机变量线性相关越弱,则相关系数越接近-1
D.两个随机变量线性相关越强,则相关系数越接近1
3.应用新知
例1 根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
例2有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表8.1-2所示.
表8.1-2
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
A商品销售额/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
例3 在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表8.1-3所示.
表8.1-3
编号
身高/cm
体重/kg
臂展/cm
编号
身高/cm
体重/kg
臂展/cm
1
173
55
169
14
166
66
161
2
179
71
170
15
176
61
166
3
175
52
172
16
176
49
165
4
179
62
177
17
175
60
173
5
182
82
174
18
169
48
162
6
173
63
166
19
184
86
189
7
180
55
174
20
169
58
164
8
170
81
169
21
182
54
170
9
169
54
166
22
171
58
164
10
177
54
176
23
177
61
173
11
177
59
170
24
173
58
165
12
178
67
174
25
173
51
169
13
174
56
170
体重与身高、臂展与身高分别具有怎样的相关性?
3.能力提升
类型一:样本相关系数的计算
例题1 某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
总结:样本相关系数的计算
第一步:求出,的值;
第二步:求出(xi-)(yi-),(xi-)2, (yi-)2的值;
第三步:代入公式计算得结果.
题型二:样本向量法求相关系数的最大值
例题2 已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 .
归纳总结:已知,,两两成正相关关系,随机抽取n个样本,计算得和的样本线性相关系数为,与的样本线性相关系数为,求的样本线性相关系数的最大值的方法.
设,,,
则有,,,
由相关系数公式可知,
设与夹角为,与夹角为,
由和的样本相关系数为,所以 ,和的样本相关系数为,所以 ,
由这两个夹角为锐角,所以,所以与的夹角可能为 , ,
则与的夹角余弦最大值为 .
题型三:样本相关系数r的性质
例题3 (1)如图,给出了样本容量均为的两组样本数据的散点图,已知组样本数据的相关系数为, 组数据的相关系数为,则
A. B. C. D.
(2)(多选)对于样本相关系数,下列说法正确的是( )
A.的取值范围是
B.越大,相关程度越弱
C.越接近于0,成对样本数据的线性相关程度越强
D.越接近于1,成对样本数据的线性相关程度越强
题型四:样本相关系数r的性质
例题4 某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:. 参考数据:.
总结:相关关系强弱的定量分析与定性分析
(1)定量分析:样本相关系数r的范围为 ,r为正时,成对样本数据 ;r为负时,成对样本数据 ;|r|越接近1,成对样本数据的线性相关程度越 ;|r|越接近0,成对样本数据的线性相关程度越 ;当|r|=1时,所有数据点都在一条 上.
(2)定性分析:相关关系的强弱体现在散点图中就是样本点 在某条直线附近,两变量的线性相关程度 ;样本点在某条直线附近 ,两变量的线性相关程度 .
4.课堂小结
作业1:完成教材:第103页 练习第3,4题.
作业2:配套辅导资料对应的《样本相关系数》.
学科网(北京)股份有限公司1 / 18
学科网(北京)股份有限公司
$
8.1.2 样本相关系数 导学案
1. 了解样本相关系数公式的推导关系
2. 掌握样本相关系数公式,并会运用.
3. 了解样本相关系数与标准化数据向量夹角的关系,掌握样本相关系数的范围
1. 创设情境,引入新知
“复习时常”与“周测成绩”—— 相关性研究
某班最近一次数学周测的“ 复习时长”(x,单位:小时)和测试成绩(y,单位:分)** 的 10 组样本数据:
请同学们在草稿纸上画出这组成对数据的散点图,
观察散点的分布趋势,复习时长和成绩之间有怎样的关系?
思考:仅凭散点图的直观判断是否足够严谨?怎么量化这两组数据线性相关的强弱程度?
教师:需要一个统计量来精确刻画成对数据线性相关的方向和强弱,这就是今天要学习的:样本相关系数
2.探究新知
引言:通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 . 但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.
问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
预设: 对于变量x和变量y,设经过随机抽样获得的成对样本数据为,,其中,,,和,,,的均值分别为x ̅和y ̅.
将数据以为零点进行平移,得到平移后的成对数据为,,,,并绘制散点图.
观察撒点图代表的数据的正负大小等特征,并根据特征尝试进行构造统计量。
对数据进行中心化处理再观察数值特征:
利用上述方法处理上表中的数据,得到由图.
我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.
显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
结论:如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如下图(1)所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如下图(2)所示.
总结:据预处理的常用方法:中心化(零均值化)
思考:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
预设:从上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量
.
一般情形下,表明成对样本数据正相关;表明成对样本数据负相关.
思考:你认为的大小一定能度量出成对样本数据的相关程度吗?
预设:因为的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用
,.
分别除和,得
,,…,,
为简单起见,把上述“标准化”处理后的成对数据分别记为
,,…,.
仿照的构造,可以得到
. (1)
定义:
样本相关系数:
我们称r为变量x和变量y的样本相关系数(sample correlation coefficient)
思考:样本相关系数r的正负能反映出成对变量的什么关系?
预设:样本相关系数r是一个描述成对样本数据的数字特征,它反映了两个随机变量之间的线性相关程度.
样本相关系数r的正负性和绝对值的大小可以反映成对样本数据的变化特征
当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
|r|的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
牛刀小试:
练1:已知学生每日有效学习时间和其数学成绩相关,且相关系数为正数,对此描述正确的是( )
A.每日学习时间长,数学成绩就一定高
B.每日学习时间长,数学成绩就一定低
C.随着每日学习时间由短到长,数学成绩呈上升趋势
D.随着每日学习时间由短到长,数学成绩呈下降趋势
预设:对于AB,当每日学习时间长,数学成绩变高变低不确定,故AB错误.
对于CD,因为相关系数为正,故随着每日学习时间由短到长,数学成绩呈上升趋势,故C正确,D错误.
故选:C.
练2:根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
预设:由散点图知,变量和变量负相关,且相关性较强,所以样本相关系数.
故选:A.
练3:最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
预设:,,
,.故选:A.
思考:相关系数r的取值范围是多少呢?
预设:观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量,的数量积仍然定义为,其中为向量,的夹角.类似于平面或空间向量的坐标表示,对于向量和,我们有.
设“标准化”处理后的成对数据,,…,的第一分量构成n维向量,第二分量构成n维向量,则有
.
因为,所以样本相关系数,
其中为向量和向量的夹角.由,可知.
思考:相关系数|r|=1时,成对样本数据之间具有怎样的关系呢?
预设:当时,中的或,向量和向量共线.由向量的知识可知,存在实数,使得,即
.
这表明成对样本数据都落在直线,.
上.这时,成对样本数据的两个分量之间满足一种线性关系.
总结:相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,当|r|=0时,成对数据的没有线性相关关系(但不排除它们间有其他相关关系);
当|r|=1时,成对数据都落在一条直线上.
要求:观察以下散点图,判断成对数据间的相关关系
预设:图(1) 中成对样本数据的正线性相关程度很强.
图(2) 中成对样本数据的负线性相关程度比较强.
图(3)中 对样本数据的线性相关程度很弱.
图(4)中成对样本数据的线性相关程度极弱.
在实际中,获得总体中所有的成对数据往往是不容易的.
因此,我们还是要用样本估计总体的思想来解决问题.
也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.
对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
牛刀小试:
练4:已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A. B. C. D.
预设:相关系数时,成对数据负相关,且越大,两个变量之间的线性相关程度越强.
故选:A.
练5:若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0.93,0.42,,则线性相关程度最强的一组是________.(填甲、乙、丙中的一个)
预设:两个变量与的回归模型中,
它们的相关系数越接近于1,这个模型的两个变量线性相关程度就越强,
在甲、乙、丙中,所给的数值中的绝对值最接近1,
所以丙的线性相关程度最强.
故答案为:丙
练6:关于样本相关系数,下列说法正确的是( )
A.样本相关系数
B.当样本相关系数时,称成对数据成正相关
C.两个随机变量线性相关越弱,则相关系数越接近-1
D.两个随机变量线性相关越强,则相关系数越接近1
预设:根据相关系数,可知A正确;时,数据成负相关,时,数据成正相关,故B错误;越接近1,线性相关性越强,越接近0,相关性越弱,故C错误;
对于D,两个随机变量线性相关越强,相关系数也可能接近,故D错误.
故选:A.
3.应用新知
例1 根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
预设:先画出散点图,如图8.1-1所示.观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
根据样本相关系数的定义,
①
利用计算工具计算可得
,,,,.
代入①式,得
.
由样本相关系数,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
利用统计软件计算样本相关系数,Excel软件用函数CORREL;R软件用函数cor.
例2有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表8.1-2所示.
表8.1-2
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
A商品销售额/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
预设:解:画出成对样本数据的散点图,如图8.1-6所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.
由样本数据计算得样本相关系数.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
例3 在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表8.1-3所示.
表8.1-3
编号
身高/cm
体重/kg
臂展/cm
编号
身高/cm
体重/kg
臂展/cm
1
173
55
169
14
166
66
161
2
179
71
170
15
176
61
166
3
175
52
172
16
176
49
165
4
179
62
177
17
175
60
173
5
182
82
174
18
169
48
162
6
173
63
166
19
184
86
189
7
180
55
174
20
169
58
164
8
170
81
169
21
182
54
170
9
169
54
166
22
171
58
164
10
177
54
176
23
177
61
173
11
177
59
170
24
173
58
165
12
178
67
174
25
173
51
169
13
174
56
170
体重与身高、臂展与身高分别具有怎样的相关性?
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图8.1-7(1)和(2)所示,两个散点图都呈现出线性相关的特征.
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正线性相关.其中,臂展与身高的相关程度更高.
3.能力提升
类型一:样本相关系数的计算
例题1 某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
预设:由表格中的数据,可得,,
则,
,,
故.
故答案为:
总结:样本相关系数的计算
第一步:求出,的值;
第二步:求出(xi-)(yi-),(xi-)2, (yi-)2的值;
第三步:代入公式计算得结果.
题型二:样本向量法求相关系数的最大值
例题2 已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为 .
预设:设,,,
则有,,,
由相关系数公式可知,
设与夹角为,与夹角为,
由和的样本相关系数为,所以,和的样本相关系数为,所以,
由这两个夹角为锐角,所以,所以与的夹角可能为,,
则与的夹角余弦最大值为.
故答案为:
归纳总结:已知,,两两成正相关关系,随机抽取n个样本,计算得和的样本线性相关系数为,与的样本线性相关系数为,求的样本线性相关系数的最大值的方法.
设,,,
则有,,,
由相关系数公式可知,
设与夹角为,与夹角为,
由和的样本相关系数为,所以,和的样本相关系数为,所以,
由这两个夹角为锐角,所以,所以与的夹角可能为,,
则与的夹角余弦最大值为.
题型三:样本相关系数r的性质
例题3 (1)如图,给出了样本容量均为的两组样本数据的散点图,已知组样本数据的相关系数为, 组数据的相关系数为,则
A. B. C. D.
预设:根据两组样本数据的散点图知,组样本数据几乎在一条直线上,且成正相关,
所以相关系数应最接近于;组数据分散在一条直线的附近,且成正相关,所以相关系数应满足,所以. 故选:A.
(2)(多选)对于样本相关系数,下列说法正确的是( )
A.的取值范围是
B.越大,相关程度越弱
C.越接近于0,成对样本数据的线性相关程度越强
D.越接近于1,成对样本数据的线性相关程度越强
预设:对于样本相关系数,取值范围是,越大,越接近于1,成对样本数据的线性相关程度越强;越小,越接近于0,成对样本数据的线性相关程度越弱.
故选:AD
题型四:样本相关系数r的性质
例题4 某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:. 参考数据:.
预设:,,
,
,
,
故相关系数,
,
与高度正相关.
总结:相关关系强弱的定量分析与定性分析
(1)定量分析:样本相关系数r的范围为-1≤r≤1,r为正时,成对样本数据正相关;r为负时,成对样本数据负相关;|r|越接近1,成对样本数据的线性相关程度越强;|r|越接近0,成对样本数据的线性相关程度越弱;当|r|=1时,所有数据点都在一条直线上.
(2)定性分析:相关关系的强弱体现在散点图中就是样本点越集中在某条直线附近,两变量的线性相关程度越强;样本点在某条直线附近越分散,两变量的线性相关程度越弱.
4.课堂小结
作业1:完成教材:第103页 练习第3,4题.
作业2:配套辅导资料对应的《样本相关系数》.
学科网(北京)股份有限公司1 / 18
学科网(北京)股份有限公司
$