内容正文:
8.1成对数据的统计相关性
第八章 成对数据的统计分析
课时2 样本相关系数
新知探究
探究一:
情境设置
如图所示,回答下列问题:
问题1:由上图可判断出图①中,𝑥,𝑦是负相关,图②中,𝑢,𝑣 是正相关,那么能否判断出图②的相关性比图①强?
问题2: 怎样定量刻画两个变量的线性相关程度?
2
新知探究
探究一:
情境设置
对于变量和变量,设经过随机抽样获得的成对样本数据为,,其中,,,和,,,的均值分别为和.将每个变量的观测数据减去其均值,得到成对数据为,,,,并绘制散点图.
.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用
分别除和,得,,,.
3
新知生成
知识点一 样本相关系数
样本相关系数
(1)我们常用样本相关系数来确切地反映成对样本数据的相关程度,
(2)相关系数是研究变量之间线性相关程度的量.
4
一、样本相关系数
例题1 足球运动是世界上普及率最高的运动之一,某国大力发展校园足球.为了了解本地
区足球特色学校的发展状况,社会调查小组得到如下统计数据:
根据上表数据,计算𝑦与𝑥的样本相关系数𝑟,并判断𝑦与𝑥 是正相关关系还是负相关关系.
参考公式和数据:,, , .
【解析】由题意得, ,
所以 ,故与是正相关关系.
年份 2018 2019 2020 2021 2022
足球特色学校 百个 0.30 0.60 1.00 1.40 1.70
5
反思感悟
方法总结
计算样本相关系数的一般步骤:
(1)先计算平均数,;
(2)再计算,;
(3)最后代入样本相关系数公式计算,注意计算要准确.
6
新知运用
跟踪训练1 共享汽车是指许多人合用一辆车,即开车人对车辆只有使用权,而没有所有权,类似于在租车行业里的短时间的租车.它手续简便,打个租车电话或在网上就可以预约订车.某市为了了解不同年龄的人对共享汽车的使用体验,随机选取了100名使用共享汽车的体验者,让他们根据体验效果进行评分.设消费者的年龄为𝑥 ,对共享汽车的体验评分为𝑦.若根据统计数据,计算得,且年龄𝑥 的方差为,评分𝑦的方差为,求𝑦与𝑥的样本相关系数𝑟 ,并据此判断对共享汽车使用体验的评分与年龄的线性相关性强弱(当|𝑟|≥0.75 时,认为线性相关性强,否则认为线性相关性弱).
【解析】因为,所以 .因为,所以 .又因为 ,所以样本相关系数 .因为 ,所以可以判断对共享汽车使用体验的评分与年龄的线性相关性很强.
7
新知探究
探究二:相关系数的性质
情境设置
问题1:样本相关系数𝑟 的正负能反映出成对变量的什么关系?
【解析】当𝑟>0 时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一
个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当𝑟<0 时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据
的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
8
新知生成
知识点二 相关系数的性质
相关系数𝑟 的性质
(1)样本相关系数𝑟的取值范围为[−1,1] ;
(2)若𝑟>0 ,成对样本数据正相关;
(3)若𝑟<0 ,成对样本数据负相关;
(4)|𝑟|越接近1,成对样本数据的线性相关程度越强;
(5) |𝑟| 越接近0,成对样本数据的线性相关程度越弱.
9
二、 相关系数的性质
例2 假设关于某种设备的使用年限𝑥(单位:年)与所支出的维修费用𝑦 (单位:万元)有如下统计资料:
参考数据及公式:,,, .样本相关系数 .(1) 求, ;(2)对𝑥,𝑦 进行线性相关性检验.
【解析】(1) 依题意可得, .
(2)又, ,
,所以 .
所以可以认为𝑥与𝑦 之间具有很强的正线性相关关系.
2 3 4 5 6
2.2 3.8 5.5 6.5 7.0
10
反思感悟
方法总结
利用样本相关系数从数值上判断变量间的线性相关程度,这种方法是定量的方法.与散点图相比较,样本相关系数要精确得多,需要注意的是样本相关系数𝑟的绝对值小,只是说明变量线性相关程度低,但不一定不相关,可能非线性相关.
11
新知运用
跟踪训练2 近年来,随着互联网的发展,各种网约车服务在我国各城市迅猛发展,为
人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在某省的发
展情况,该省某调查机构从本省抽取了5个城市,分别收集和分析了网约车的A,B两项
指标数,(𝑖=1,2,3,4,5) ,数据如下表所示:
, ,
试求与之间的样本相关系数,并利用说明与是否具有较强的线性相关关系.附:样本相关系数公式 .参考数据:, .
【解析】, , ,
故 .因为𝑟≈0.95,所以可以推断𝑦与𝑥 正线性相关,且具有较强的线性相关关系.
城市1 城市2 城市3 城市4 城市5
A指标数 2 4 5 6 8
B指标数 3 4 4 4 5
12
随堂检测
1. 若变量𝑦与𝑥之间的样本相关系数𝑟=−0.983 2,则变量𝑦与𝑥 之间( ).
A.不具有线性相关关系 B.具有线性相关关系
C.线性相关关系还需要进一步确定 D.相关关系很弱
2.给出下列命题:
①样本相关系数𝑟∈𝐑 ;
②当样本相关系数𝑟>0 时,两个变量正相关;
③两个变量的相关性越强,样本相关系数𝑟 就越接近于1.
其中真命题的个数为( ).
A.0 B.1 C.2 D.3
3.相关变量𝑥,𝑦 的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根
据图中所有数据,得到相关系数;方案二:剔除点(10,21) ,根据剩下的数据得到相
关系数.则( ).
A. B.
C. D.
B
B
D
13
随堂检测
4.关于两个变量𝑥和𝑦 的7组数据如表所示:
求变量𝑦与𝑥的样本相关系数,并判断变量𝑦与𝑥 之间是正相关还是负相关
21 23 25 27 29 32 35
7 11 21 24 66 115 325
【解析】 ,
,
, , ,
.
, 变量与之间是正相关.
14
课堂小结
1.知识清单:
(1)样本相关系数;
(2)相关系数的性质.
15
$$