内容正文:
第八章
成对数据的统计分析
8.1 成对数据的统计分析
8.1.2 样本相关系数
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
1. 相关关系
把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
2. 散点图
3. 正相关与负相关
一个变量随另一个变量的增加呈现减小的趋势.
正相关:
一个变量随另一个变量的增加呈现增加的趋势.
负相关:
复习回顾
新课导入
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等.
散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小. 能否像引人均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
概念生成
样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为 和 .
我们称 为变量x和变量y的样本相关系数.
样本相关系数r是一个描述成对样本数据的数字特征。
概念解析
样本相关系数的性质
相关系数r的正负和绝对值的大小可以反映成对样本数据的变化特征:
① 当r>0时,成对样本数据正相关;
当r<0时,成对样本数据负相关.
② r的范围:|r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,
当|r|=0时,成对数据的没有线性相关关系;
但不排除它们有其他相关关系
当|r|=1时,成对数据都落在一条直线上.
提示:利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.一般来说,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好。
新知探究
以下系列图是不同成对样本数据的散点图和相应的样本相关系数.
图(1)中样本相关系数r=0.97,表明成对样本数据的正线性相关程度很强.
图(2)中的样本相关系数r=-0.85, 表明成对样本数据的负线性相关程度比较强.
从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些;
图(3)的r=0.24,
成对样本数据的线性相关程度很弱.
图(4)的r =-0.05,
成对样本数据的线性相关程度极弱.
巩固练习
练习:某统计部门对四组数据进行统计分析后,获得如图8-1-2所示的散点图,关于样本相关系数的比较,其中正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1< r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A
典例解析
例1 根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
20
25
30
35
40
45
50
55
60
65
年龄/岁
脂肪含量/%
0
5
10
15
20
25
30
35
40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
15
解:先画出散点图, 如下图所示.
观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
解: 根据样本相关系数的定义,
典例解析
①
利用计算工具计算可得
代入①式,得
由样本相关系数r≈0.97,
可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
课本103页
2. 已知变量x和变量y的3对随机观测数据(2, 2), (3, -1), (5, -7),计算成对样本数据的样本相关系数. 能据此推断这两个变量线性相关吗? 为什么?
解:
由样本数据可得
虽然样本相关系数为-1,三个样本点在一条直线上,但是由于样本量太小,据此推断两个变量完全线性相关并不可