内容正文:
8.1成对数据的统计相关性
8.1.2 样本相关系数
第八章
成对数据的统计分析
人教A版选择性必修第三册·高二
章节导读
成对数据的统计相关性
变量的相关关系
样本相关系数
一元线性回归模型及其应用
列联表与独立性检验
一元线性回归模型
一元线性回归模型参数的最小二乘估计
分类变量与列联表
独立性检验
学 习 目 标
1
2
3
结合实例,了解样本相关系数的含义,并能利用公式求样本相关系数 ,提升数学运算的核心素养
结合实例,会通过样本相关系数比较多组成对数据的相关性
能根据算出的样本相关系数的绝对值大小判断成对样本数据的线性相关程度的强弱,提升逻辑推理的核心素养.
新知导入
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 .
散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.
新知探究
问题1 能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析?
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为 和 . 将数据以 为零点进行平移,得到平移后的成对数据为
并绘制散点图.
新知探究
利用上述方法处理上表中的数据,得到右图.我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
新知探究
通过绘图分析可得,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图 (1)所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示.
新知探究
问题2 根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发, 利用散点(xi - , yi -)(i=1, 2, ∙∙∙, n)的横、纵坐标是否同号,可以构造一个量
一般情形下,Lxy>0表明成对样本数据正相关;
Lxy <0表明成对样本数据负相关.
新知探究
问题3 Lxy的大小是否一定能度量出成对样本数据的相关程度吗?
因为Lxy的大小与数据的度量单位有关 , 所以不宜直接用它度量成对样本数据相关程度的大小.
例如, 在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米, 则相应的Lxy将变为原来的100倍, 但单位的改变并不会导致体重与身高之间相关程度的改变.
新知探究
为了消除度量单位的影响, 需要对数据作进一步的标准化处理 . 我们用
分别除xi - 和yi -(i=1, 2, ∙∙∙, n) , 得
为简单起见, 把上述标准化处理后的成对数据分别记为
仿照Lxy的构造, 可以得到
我们称r为变量x和变量y的样本相关系数.
定义新知
样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1, y1), (x2, y2),‧‧‧, (xn, yn),其中x1, x2, ‧‧‧, xn和y1, y2,‧‧‧, yn的均值分别为 和 .
我们称 为变量x和变量y的样本相关系数.
新知探究
这样,我们利用成对样本数据构造了样本相关系数r.样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
新知探究
问题4 那么, 样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?
为此, 我们先考察一下r的取值范围.
观察r的结构, 联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量,的数量积仍然定义为
其中θ为向量,的夹角.
类似于平面或空间向量的坐标表示, 对于向量=(a1 , a2 , ∙∙∙ , an)和 =(b1, b2 ,∙∙∙, bn) , 我们有
设“标准化”处理后的成对数据(x′1, y′1) , (x′2, y′2) , ∙∙∙ , (x′n, y′n)的第一分量构成n维向量
′=(x′1 , x′2 , ∙∙∙ , x′n),
第二分量构成n维向量
′=(y′1 , y′2 , ∙∙∙ , y′n),
则有
新知探究
所以样本相关系数r=cosθ, 其中θ为向量′和向量′的夹角.
由-1≤cosθ≤1,可知-1≤ r ≤1 .
新知探究
问题5 当|r|=1时,成对样本数据之间具有怎样的关系?
当|r|=1时,r=cosθ中的θ=0或π,向量′和′共线 . 由向量的知识可知,存在实数λ,使得 ′=λ′ ,即
这表明成对样本数据(xi , yi)都落在直线 上.
这时, 成对样本数据的两个分量之间满足一种线性关系.
由此可见, 样本相关系数r的取值范围为[-1,1].
新知探究
样本相关系数的性质
相关系数r的正负和绝对值的大小可以反映成对样本数据之间线性相关的程度:
① 当r>0时,成对样本数据正相关;
当r<0时,成对样本数据负相关.
② r的范围:|r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,
当|r|=0时,成对数据的没有线性相关关系;
但不排除它们有其他相关关系
当|r|=1时,成对数据都落在一条直线上.
样本相关系数r有时也称样本线性相关系数 , |r| 刻画了样本点集中于某条直线的程度. 当r=0时, 只表明成对样本数据间没有线性相关关系, 但不排除它们之间有其他相关关系.
新知探究
以下系列图是不同成对样本数据的散点图和相应的样本相关系数.
图(1)中样本相关系数r=0.97,表明成对样本数据的正线性相关程度很强.
图(2)中的样本相关系数r=-0.85, 表明成对样本数据的负线性相关程度比较强.
图(3)的r=0.24,
成对样本数据的线性相关程度很弱.
图(4)的r =-0.05,
成对样本数据的线性相关程度极弱.
综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度: r的符号反映了相关关系的正负性; |r|的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
新知探究
在实际中,获得总体中所有的成对数据往往是不容易的.
因此,我们还是要用样本估计总体的思想来解决问题.
也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.
对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.
一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
典例分析
例1 根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
20
25
30
35
40
45
50
55
60
65
年龄/岁
脂肪含量/%
0
5
10
15
20
25
30
35
40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
15
解: 先画出散点图, 如右图所示.
观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
典例分析
解: 根据样本相关系数的定义,
①
利用计算工具计算可得
代入①式,得
由样本相关系数r≈0.97, 可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
典例分析
例2 有人收集了某城市居民年收入(所有居民在一年内收人的总和)与A商品销售额的10年数据,如下表所示.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入/亿元 32.2 31.1 32.9 35.8 37.1 38.0 39.0 43.0 44.6 46.0
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
由此可以推断,A商品销售额与居民年收入正
线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
解:画出成对样本数据的散点图,如图所示.
从散点图看,A商品销售额与居民年收人的样本数据呈现出线性相关关系.
由样本数据计算得样本相关系数r≈0.95.
典例分析
例3 在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如图所示.
体重与身高、臂展与身高分别具有怎样的相关性?
典例分析
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征.
通过计算体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78, 都为正相关. 其中, 臂展与身高的相关程度更高.
巩固练习
课本103页
1. 由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的相关关系? 为什么?
解:样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.
一般来说,样本量越大,根据样本相关系数推断变量之间相关的正负性及线性相关的程度越可靠,而样本量越小则越不可靠. 一个极端的情况是,无论两个变量之间是什么关系,如果样本量取2,则计算可得样本相关系数的绝对值都是1 (在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.
巩固练习
课本103页
2. 已知变量x和变量y的3对随机观测数据(2, 2), (3, -1), (5, -7),计算成对样本数据的样本相关系数. 能据此推断这两个变量线性相关吗? 为什么?
解:
由样本数据可得
虽然样本相关系数为-1,三个样本点在一条直线上,但是由于样本量太小,据此推断两个变量完全线性相关并不可靠.
巩固练习
课本103页
3. 画出下列成对数据的散点图,并计算样本相关系数. 据此,请你谈谈样本相关系数在刻画成对样本数据相关关系上的特点.
(1) (-2, -3), (-1, -1), (0, 1), (1, 3), (2, 5), (3, 7);
(2) (0, 0), (1, 1), (2, 4), (3, 9), (4, 16);
(3) (-2, -8), (-1, -1), (0, 0), (1, 1), (2, 8), (3, 27);
(4) (2, 0) (1, ), (0, 2), (-1, ), (-2, 0).
解:
2
4
8
x
-4
-3
2
0
-2
1
3
-1
6
y
-2
•
•
•
•
•
•
5
15
x
2
0
4
1
3
10
y
•
•
•
•
•
2
0.5
1.5
x
-3
2
0
-2
1
3
-1
1
y
•
•
•
•
•
•
5
10
20
x
-10
-3
2
0
-2
1
3
-1
15
y
-5
•
•
•
•
•
•
25
样本相关系数主要刻画的是成对样本数据线性相关的程度.
巩固练习
课本103页
4. 随机抽取7家超市,得到其广告支出与销售额数据如下:
超市 A B C D E F G
广告支出/万元 1 2 4 6 10 14 20
销售额/万元 19 32 44 40 52 53 54
请推断超市的销售额与广告支出之间的相关关系的类型、相关程度和变化趋势的特征.
解:
由样本数据可得
正线性相关,相关性较强,销售额与广告支出的变化趋势相同.
样本相关系数的计算
题型一
题型探究
【例1】(1)在一组样本数据,, ,, ,, ,不
全相等的散点图中,若所有的样本点 都在直线 上,
则这组数据的样本相关系数为( )
C
A. 2 B. C. D. 1
[解析] 因为所有的样本点都在直线上,
所以相关系数 满足 .
又因为,所以,所以 .故选C.
样本相关系数的计算
题型一
题型探究
【例1】(2)一唱片公司为了解唱片费用(单位:十万元)与唱片销售量 (单位:
千张)之间的关系,从其发行的唱片中随机抽选了10张,得到如下数据:
,, ,,,
则与的样本相关系数 的绝对值为( )
D
A. 0.6 B. 0.5 C. 0.4 D. 0.3
[解析] 因为,,所以, ,
,故选D.
样本相关系数的计算
题型一
题型探究
【例1】(3)根据统计,某蔬菜基地的西红柿亩产量的增加量
(单位:百千克)与某种液体肥料每亩使用量 (单位:千
克)之间的对应数据的散点图如图所示.依据散点图可以看
出,可用线性回归模型拟合与的关系,请计算样本相关系
数(精确到 ).参考数据: .
样本相关系数的计算
题型一
题型探究
[解析] 由所给数据可得, , ,
, ,
,
.
样本相关系数的计算
题型一
题型探究
解题感悟
计算样本相关系数的一般步骤
(1)分析整理数据并求出相关值;
(2)代入公式计算样本相关系数.
判断线性相关程度的强弱
题型二
题型探究
【例2】(1)对四组成对样本数据进行统计,获得以下散点图,关于其样本相关系数的
比较,正确的是( )
A.
B.
C.
D.
[解析] 由给出的四组成对样本数据的散点图可
以看出,题图1和题图3是正相关,样本相关系
数大于0,题图2和题图4是负相关,样本相关系
数小于0,题图1和题图2中的散点集中在一条直
线附近,所以相关性更强,所以接近于1,接近于,
由此可得 .
A
判断线性相关程度的强弱
题型二
题型探究
【例2】(2)如图是相关变量,的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到相关系数 ;方案二:剔除点 ,根据剩下数据得到相关系数 ,则( @11@ )
A. B.
C. D.
D
[解析] 根据相关变量,的散点图知,变量,具有负相关关系,且点 是离群值.
方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以 .故选D.
分判断线性相关程度的强弱
题型二
题型探究
提分笔记
线性相关程度的比较方法
(1)通过散点图比较:散点越集中在一条直线附近,线性相关程度越强.
(2)通过样本相关系数比较: 的绝对值越接近1,线性相关程度越强.
样本相关系数的实际应用
题型三
题型探究
【例3】 某省为了坚决打赢脱贫攻坚战,在100个贫困村中,用简单随机抽样的方法
抽取15个贫困村进行脱贫验收调查,调查得到样本数据,其中
和分别表示第 个贫困村中贫困户的年平均收入(单位:万元)和产业扶贫资金
投入(单位:万元,计算得到,,,
, .
(1)试估计该省贫困村的贫困户的年平均收入;
[解析] 该省贫困村的贫困户年平均收入的估计值为
(万元).
样本相关系数的实际应用
题型三
题型探究
(2)根据样本数据,求该省贫困村中贫困户的年平均收入与产业扶贫
资金投入的样本相关系数(精确到 );
[解析] .
样本相关系数的实际应用
题型三
题型探究
(3)根据现有统计资料,各贫困村的产业扶贫资金投入差异很大,为了确保完成
脱贫攻坚任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说
明理由.参考数据: .
[解析] 采用分层随机抽样.理由如下:
由(2)知,各贫困村的贫困户的年平均收入与该村的产业扶贫资金投入有很强的正
相关性,由于各贫困村的产业扶贫资金投入差异很大,所以贫困村的贫困户的年平
均收入差异也会很大,采用分层随机抽样的方法可以较好地保持样本结构与总体结
构相近,提高了样本的代表性,从而可以获得该省更准确的脱贫验收估计.
样本相关系数的实际应用
题型三
题型探究
提分笔记
运用样本相关系数进行相关性判断的一般步骤:
(1)整理数据,求出相关值;
(2)计算样本相关系数;
(3)得出结论.
课堂达标
1.给定与的一组成对样本数据,求得样本相关系数 ,则( )
C
A. 与不线性相关 B. 与 正线性相关
C. 与 负线性相关 D. 以上都不对
[解析] 因为,所以与 负线性相关.
2.已知是变量与之间的样本相关系数,是变量与 之间的样本相关系数,
且, ,则( )
课堂达标
C
A. 变量与正相关,且与之间的线性相关性强于与 之间的线性相关性
B. 变量与负相关,且与之间的线性相关性强于与 之间的线性相关性
C. 变量与负相关,且与之间的线性相关性弱于与 之间的线性相关性
D. 变量与正相关,且与之间的线性相关性弱于与 之间的线性相关性
[解析] 因为,,
所以变量与正相关,变量 与负相关,
与之间的线性相关性弱于与 之间的线性相关性.故选C.
课堂达标
3.(多选题)下面的散点图与样本相关系数 一定不符合的有( )
ACD
A. B. C. D.
[解析] 对于A,C,各点散布在从左上角到右下角的带状区域里,所以样本相关系
数 ,A,C均不符合;对于B,D,各点散布在从左下角到右上角的带状
区域里,所以样本相关系数,当 时,样本点应在一条直线上,所以
B符合,D不符合.故选 .
课堂达标
4.如图所示的是从2012年到2021年的全国城镇人口、乡村人口的折线图(数据来自国
家统计局).根据该折线图知,下列说法错误的是( )
B
A. 城镇人口与年份呈正相关
B. 乡村人口与年份的样本相关系数 接近1
C. 城镇人口逐年增长率大致相同
D. 可预测未来乡村人口仍呈现下降趋势
[解析] 由折线图可知,城镇人口与年份呈正相关,且线性相关性很强,所以其样本
相关系数 接近1,故城镇人口逐年增长率大致相同,故A,C中说法正确;由折线图
可知,乡村人口与年份呈负相关,且线性相关性很强,所以其样本相关系数接近 ,
且可预测未来乡村人口仍呈现下降趋势,故B中说法错误,D中说法正确.故选B.
课堂小结
1. 样本相关系数:
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
感谢聆听!
$