内容正文:
8.1.2 样本相关系数
主备人 :马卫纯
议课时间:2024.05
上课时间: 2024.05
1.样本相关系数的概念及其统计意义.
2.利用相关系数比较多组成对数据的相关性.
学习目标(1min)
知识回顾(1min)
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
变量相关关系的分类
(1)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关.
散点图是描述成对数据之间关系的一种直观方法.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关
问题导学1(4min)
阅读课本P96-100
思考:散点图直观反映了两个变量间的相关关系,但无法量化两个变量之间相关程度的大小,能否引入一个“数字特征”对相关程度进行量化分析呢?
通过随机抽样,获得变量与的成对样本数据如下表所示
均值为
以 为零点进行平移,平移后的成对样本数据
理论层面
点拨运用1(10min)
实践操作
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
计算可得和的均值为
制作:维度小矮人
5
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄 -25.1 -21.1 -9.1 -7.1 -3.1 0.9 1.9 4.9 5.9 7.9 8.9 9.9 11.9 12.9
脂肪 -17.8 -9.5 -6.1 -1.4 0.2 -1.0 0.9 2.3 2.9 4.1 3.5 6.2 7.9 7.3
利用信息技术软件,可以得到散点图
比较数据调整后的散点图,可以发现散点有怎样的分布规律?
散点大多分布在第一、第三象限,大多数散点横、纵坐标同号
整体也是呈现出正相关的相关关系
制作:维度小矮人
6
23 27 39 41 45 49 50 53 54 56 57 58 60 61 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
-50 -23 -11 -9 -5 -1 0 3 4 6 7 8 10 11 -17.7642857142857 -9.46428571428571 -6.06428571428571 -1.36428571428571 0.235714285714288 -0.964285714285712 0.935714285714287 2.33571428571429 2.93571428571429 4.13571428571429 3.53571428571429 6.23571428571429 7.93571428571429 7.33571428571429
一般地,如果变量和正相关,那么关于均值平移后的大多数散点将分布在第一、第三象限,对应的成对数据同号的居多。
类比可以得到,如果变量和负相关,那么关于均值平移后的大多数散点将分布在第二、第四象限,对应的成对数据异号的居多。
根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据时正相关还是负相关的数字特征吗?
从散点横、纵坐标是否同号考虑,
构造
一般情形下,
表明成对样本数据正相关;表明成对样本数据负相关.
制作:维度小矮人
7
思考:你认为的大小一定能够度量出成对样本数据的相关程度吗?
答案显然是不可以,因为的大小与度量单位有关.
所以应消除度量单位对大小的影响.需对数据进一步“标准化”处理
引入,
分别除,得,
进一步简化为
仿照的构造,可以得到
制作:维度小矮人
8
样本相关系数
我们称为变量和变量的样本相关系数.
你能用样本相关系数的符号重新描述成对样本数据散点图所呈现出的相关关系吗?
,称成对数据正相关;
,称成对数据负相关.
样本相关系数的大小成对样本数据的相关程度有怎样的联系呢?
试着从向量数量积的角度进行思考
制作:维度小矮人
9
问题导学2(4min)
样本相关系数的大小成对样本数据的相关程度有怎样的联系呢?
试着从向量数量积的角度进行思考
从的结构联想到向量的数量积
二维、三维向量数量积公式推广到维向量的数量积公式,公式依然定义为
类似于向量的坐标表示,对于,,我们有
理论层面
你能试着从“标准化”处理后的成对数据中构造出两个维向量吗?
点拨运用2(10min)
制作:维度小矮人
11
当时,成对样本数据之间具有怎样的关系?
当时,表明或,此时,共线.
所以存在一个实数,使得···
即所有的成对样本数据都在直线上
因此,可以得到成对样本数据的两个分量之间满足一种线性关系.
所以,样本相关系数
借助信息技术软件,得到以下四个散点图以及对应的样本相关系数,你能找到一些结论吗?
制作:维度小矮人
12
的符号反映了相关关系的正负性;
的大小反映了两个变量线性相关的程度;
越接近于1时,成对数据的线性相关程度越强;
越接近于0时,成对数据的线性相关程度越弱;
[解] 画出散点图,如图所示:
观察散点图可知样本点都集中在一条直线附近,所以变量x与y线性相关.
核心概念掌握
核心素养形成
随堂水平达标
课后课时精练
课堂小结(1min)
的符号反映了相关关系的正负性;
的大小反映了两个变量线性相关的程度;
越接近于1时,成对数据的线性相关程度越强;
越接近于0时,成对数据的线性相关程度越弱;
当r=0时,只表明成对数据间没有线性相关关系,但不排除
它们之间有其他相关关系.
通常,当|r|大于0.75时,我们认为两个变量之间存在着比较强的线性相关关系.
当堂训练(14min):
D
C
0.9918
板书设计
,称成对数据正相关;
,称成对数据负相关.
的大小反映了两个变量线性相关的程度;
越接近于1时,成对数据的线性相关程度越强;
越接近于0时,成对数据的线性相关程度越弱;
当r=0时,只表明成对数据间没有线性相关关系,但不排除
它们之间有其他相关关系.
课后作业
课时作业(小本)
练一练:甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性做试验,并分别求得相关系数r,如表:
相关系数
甲
乙
丙
丁
r
-0.82
0.78
0.69
0.87
则哪位同学的试验结果体现两变量有更强的线性相关性?( )
A.甲
B.乙
C.丙
D.丁
即r=eq \f(\i\su(i=1,n, )xi-\o(x,\s\up16(-))yi-\o(y,\s\up16(-)),\r(\i\su(i=1,n, )xi-\o(x,\s\up16(-))2) \r(\i\su(i=1,n, )yi-\o(y,\s\up16(-))2))
=eq \f(\i\su(i=1,n,x)iyi-n\o(x,\s\up16(-))\o(y,\s\up16(-)),\r(\i\su(i=1,n,x)\o\al(2,i)-n\o(x,\s\up16(-))2) \r(\i\su(i=1,n,y)\o\al(2,i)-n\o(y,\s\up16(-))2)),分别计算出eq \o(x,\s\up16(-)),eq \o(y,\s\up16(-)),eq \i\su(i=1,n,x)eq \o\al(2,i),eq \i\su(i=1,n,y)eq \o\al(2,i),eq \i\su(i=1,n,x)iyi,然后代入公式计算即可.
题型一 相关系数的计算
例1 许多先进国家对驾驶员的培训,大多采用室内模拟教学和训练,而后再进行实地训练并考试,这种方法可以大大节约训练的费用.问题是这种方法有效吗?如下表是12名学员的模拟驾驶成绩x与实际考试成绩y的记录(单位:分):
x
98
55
50
87
77
89
79
98
94
83
74
73
y
95
60
45
85
75
87
75
97
92
80
71
72
试问:x与y是否线性相关?如果线性相关,求出y与x间的线性相关系数,并推断它们的相关程度.
eq \o(x,\s\up16(-))=eq \f(1,12)×(98+55+…+73)=79.75,eq \o(y,\s\up16(-))=eq \f(1,12)×(95+60+…+72)≈77.83.
=eq \f(\i\su(i=1,12,x)iyi-12\o(x,\s\up16(-))\o(y,\s\up16(-)),\r(\i\su(i=1,12,x)\o\al(2,i)-12\o(x,\s\up16(-))2)\r(\i\su(i=1,12,y)\o\al(2,i)-12\o(y,\s\up16(-))2))
=eq \f(x1y1+x2y2+…+x12y12-12\o(x,\s\up16(-))\o(y,\s\up16(-)),\r(x\o\al(2,1)+x\o\al(2,2)+…+x\o\al(2,12)-12\o(x,\s\up16(-))2)\r(y\o\al(2,1)+y\o\al(2,2)+…+y\o\al(2,12)-12\o(y,\s\up16(-))2))
≈eq \f(98×95+55×60+…+73×72-12×79.75×77.83,\r(982+552+…+732-12×79.752)×\r(952+602+…+722-12×77.832))
≈eq \f(2518.69,51.01×50.02)≈0.99.
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r1=r2
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq \f(1,2)x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.eq \f(1,2)
D.1
2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的相关系数,r2表示变量V与U之间的相关系数,则( )
3.部门所属的10个工业企业生产性固定资产价值x与工业增加值y资料如下表(单位:百万元):
固定资产价值x
3
3
5
6
6
7
8
9
9
10
工业增加值y
15
17
25
28
30
36
37
42
40
45
根据上表资料计算的相关系数为________.(结果精确到0.0001)
解析 eq \o(x,\s\up16(-))=eq \f(3+3+5+6+6+7+8+9+9+10,10)=6.6.
eq \o(y,\s\up16(-))=eq \f(15+17+25+28+30+36+37+42+40+45,10)=31.5.
∴r=eq \f(\o(∑,\s\up16(10),\s\do14(i=1)) xi-\o(x,\s\up16(-))yi-\o(y,\s\up16(-)),\r(\o(∑,\s\up16(10),\s\do14(i=1)) xi-\o(x,\s\up16(-))2\o(∑,\s\up16(10),\s\do14(i=1)) yi-\o(y,\s\up16(-))2))≈0.9918.
$