内容正文:
4.1 成对数据的统计相关性
[学习目标] 1.理解两个变量的相关关系的概念.2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.3.会根据相关系数判断两个变量的相关程度.
知识点一 散点图与相关系数
[问题导引1] 我们知道函数关系是两个变量之间具有确定的对应关系,那么对于关系不确定的两个变量,我们如何发现它们的规律呢?
提示: 为了研究两个变量之间的关系我们可以借助图象.
[问题导引2] 从散点图可以看出两个变量之间是否具有相关关系,能准确的反映变量之间的关系强度吗?
提示: 不能.
1.散点图
成对样本数据都可用直角坐标系中的点表示出来,这些点称为散点,由坐标系及散点形成的数据图叫作散点图.
2.相关关系
如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称相关关系.
点拨: 如果一个变量的取值完全依赖另一个变量,各观测点落在一条直线上,则称它们线性相关,但实际上就是函数关系,从散点图可以看出两个变量之间是否具有相关关系,分为线性相关关系和非线性相关关系.
3.相关系数
(1)rxy=
=.
我们称rxy为{xi}和{yi}的相关系数.
(2)相关系数的性质:
①rxy 的取值范围是[-1,1].当0<rxy<1时,称{xi}与{yi}正相关;当-1<rxy<0时,称{xi}与{yi}负相关;当rxy=0时,称{xi}与{yi}不相关.
②|rxy|越接近于1,变量x,y的线性相关程度越高,这时数据(x1,y1),(x2,y2),…,(xn,yn)分散在一条直线附近.
③|rxy|越接近于0,变量x,y的线性相关程度越低.
④rxy具有对称性,即 rxy=ryx.
⑤rxy仅仅是变量x与y之间线性相关程度的一个度量.
[点拨] (1)在样本数据所作的散点图中,若点散布在从左下角到右上角的区域,两个变量为正相关;在样本数据所作的散点图中,若点散布在从左上角到右下角的区域,两个变量为负相关;(2)当rxy=0时,只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系;(3)统计经验告诉我们:当rxy>0.8时,y有随着x的增加而增加的趋势,这时我们认为{xi}和{yi}是高度正相关的;当rxy<-0.8时,y有随着x的增加而减少的趋势,这时我们认为{xi}和{yi}是高度负相关的.
学生用书第124页
计算本节案例中身高H与体重W之间的相关系数(结果保留三位小数).
解析: 由题意可得=165.5,=55,
sH=
=
≈4.213,
sW=
=
≈1.947,
sHW=-
=(159×52+160×52+…+172×57)-165.5×55=7.875,
于是相关系数rHW==≈0.960>0.8.
这说明身高H和体重W高度正相关,即高二女生体重随着身高的增高而增加.
相关系数公式的计算.
即时练1.根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
年龄/岁
23
27
39
41
45
49
50
脂肪含
量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
年龄/岁
53
54
56
57
58
60
61
脂肪含
量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
参考数据:
≈48.07, ≈27.26,iyi=19 403.2,=34 181,=11 051.77.
解析: 先画出散点图,如下图所示观察散点图,
可以看出样本点都集中在一条直线附近,
由此推断脂肪含量和年龄线性相关.
∵r=
=,
∴r≈≈0.97.
由样本相关系数r≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.脂肪含量与年龄变化趋势相同.
知识点二 多组成对数据的相关性、相关系数与向量夹角
[问题导引1] 在实际问题中,往往不止一个因素对变量的变化产生影响,那么我们如何对多组成对数据之间的相关性进行讨论?
提示: 可以考虑将其分成几个不同的两组数据分别进行相关性分析.
[问题导引2] 我们通过引入相关系数,对成对数据进行分析,以刻画两个随机变量之间的相关性.若我们把两组成对数据分别看作n维空间的两个向量(x1,x2,…,xn),(y1,y2,…,yn),而这两个向量的紧密程度可以从这两个向量的夹角大小来度量,那么能否从夹角的大小来判断两组数据的相关程度?
提示: 可以.
1.多组成对数据的相关性
在许多实际问题中,往往不止一个因素对变量的变化产生影响,那么我们如何对多组成对数据之间的相关性进行讨论?
[点拨] 可以考虑其将分成几个不同的两组数据分别进行相关性分析,所以多组成对数据