内容正文:
8.1 成对数据的统计相关性
人教A版(2019)选择性必修三
素养目标
1. 理解两个变量的相关关系的概念,会作散点图,提升逻辑推理能力(重点)
2. 能够利用散点图判断两个变量之间是否具有相关关系,提升逻辑推理能力(难点)
3.结合实例,了解样本相关系数的定义(重点)
4.会通过相关系数比较变量的相关性,提升逻辑推理能力(难点)
新课导入
如果变量y是变量x的函数,那么由x就可以唯一确定y.然而,现实中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度.例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值.
那么,该如何刻画这两个变量之间的关系呢?下面我们来研究这个问题.
新课学习
相关系数的概念
我们把两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
例如:一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.
新课学习
思考一下:现实中还有哪些变量具有相关关系?请举例说明.
1.子女身高y与父亲身高x之间的关系.一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮.但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高.
2.商品销售收入y与广告支出x之间的关系.一般来说,广告支出越多,商品销售收入越高.但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关.
新课学习
思考一下:现实中还有哪些变量具有相关关系?请举例说明.
3.空气污染指数y与汽车保有量x之间的关系.一般来说,汽车保有量增加,空气污染指数会上升.但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素.
4.粮食亩产量y与施肥量x之间的关系.在一定范围内,施肥量越大,粮食亩产量就越高.但施肥量并不是决定粮食亩产量的唯一因素,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响.
新课学习
拓展:相关关系和函数关系的区别和联系
函数关系 相关关系
相同点
不同点
两个变量间的关系
确定性关系
不确定性关系
因果关系
不一定是因果关系,也可能是伴随关系
新课学习
探究思考:在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
新课学习
为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征.用横轴表示年龄,纵轴表示脂肪含量,则表中每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了如图所示的统计图.
我们把这样的统计图叫做散点图.
23 27 39 41 45 49 50 53 54 56 57 58 60 61 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
新课学习
正相关、负相关的概念
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
由上图,能够推断脂肪含量与年龄这两个变量正相关.
新课学习
思考一下:两个变量负相关时,成对样本数据的散点图有什么特点?
两个变量负相关时,散点图中的点散布在从左上角到右下角的区域.
思考一下:举出两个变量正相关和负相关的例子?
两个变量正相关的例子:一个学生的学习成绩与其日学习时间之间的关系.
两个变量负相关的例子:视力与用眼时间之间的关系.
新课学习
线性相关的概念
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
非线性相关或曲线相关的概念
一般地,如果两个变量具有相关性,但不是线性相关,就称这两个变量非线性相关或曲线相关.如下图所示.
新课学习
思考一下:是否可以引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
对于变量 x 和变量 y, 设经过随机抽样获得的成对样本数据为 (x1,y1 ),(x2 ,y2 ),⋯,(xn,yn ) ,
其中 x1, x2,⋯, xn 和 y1, y2,⋯,yn 的均值分别为 和 .为了刻画每个变量的观测数据相对其均值的增减情况,将每个变量的观测数据减去其均值,得到成对数据为
并绘制散点图.
利用上述方法处理探究思考中表的数据, 得到下图. 我们发现, 这时的散点大多数分布在第一象限、第三象限, 大多数散点的横、纵坐标同号. 显然, 这样的规律是由人体脂肪含量与年龄正相关所决定的.
新课学习
一般地,如果变量 x 和 y 正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如下图(1)所示;如果变量 x 和 y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多, 如下图 (2) 所示.
·
·
·
·
·
·
·
·
·
·
·
·
(1)
·
·
·
·
·
·
·
·
·
·
·
·
(2)
-25 -21 -9 -7 -3 1 2 5 6 8 9 10 12 13 -17.5 -9.2 -5.8 -1.1 0.5 -0.699999999999999 1.2 2.6 3.2 4.4 3.8 6.5 8.2 7.6
新课学习
思考一下:根据上述分析, 你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律, 构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发, 利用散点 (xi-,yi-)(i=1,2,⋯,n) 的横、纵坐标是否同号,可以构造一个量
一般情形下, Lxy>0 表明成对样本数据正相关; Lxy<0 表明成对样本数据负相关.
新课学习
思考一下:你认为 Lxy 的大小一定能度量出成对样本数据的相关程度吗?
因为Lxy的大小与数据的度量单位有关, 所以不宜直接用它度量成对样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米, 则相应的Lxy将变为原来的100倍, 但单位的改变并不会导致体重与身高之间相关程度的改变.
为了消除度量单位的影响, 需要对数据作进一步的"标准化"处理. 我们用
分别除xi-和 yi-(i=1,2,⋯,n), 得
新课学习
思考一下:你认为 Lxy 的大小一定能度量出成对样本数据的相关程度吗?
为简单起见,把上述 "标准化" 处理后的成对数据分别记为
(x1',y1' ),(x2',y2' ),⋯,(xn',yn' ),
仿照Lxy 的构造,可以得到
新课学习
样本相关系数的概念
称r为变量x和变量y的样本相关系数.
新课学习
样本相关系数与正、负相关的关系
样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
新课学习
思考一下:样本相关系数与线性相关程度的关系?
新课学习
思考一下:样本相关系数与线性相关程度的关系?
新课学习
思考一下:当|r|=1时,成对样本数据之间具有什么样的关系?
这时,成对样本数据的两个分量之间满足一种线性关系.
新课学习
思考一下:当|r|=1时,成对样本数据之间具有什么样的关系?
由此可见,样本相关系数r的取值范围为[-1,1] .样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
新课学习
思考一下:用样本相关系数估计变量相关系数时,效果如何更好?
两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度:r的符号反映了相关关系的正负性;|r|的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.
一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
新课学习
例1 根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
新课学习
先画出散点图,如图所示.
年龄/岁
脂肪含量/%
观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关
根据样本相关系数的定义
23 27 39 41 45 49 50 53 54 56 57 58 60 61 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
新课学习
利用计算工具计算可得
代入①式得,
新课学习
例2 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入/元 32.2 31.1 32.9 35.8 37.1 38.0 39.0 43.0 44.6 46.0
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
新课学习
画出成对样本数据的散点图,如图所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.
居民年收入/亿元
A商品销售额/万元
A商品销售额/万元 32.2 31.1 32.9 35.8 37.1 38 39 43 44.6 46 25 30 34 37 39 41 42 44 48 51
新课学习
例3 在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表所示.
体重与身高、臂展与身高分别具有怎样的相关性?
新课学习
根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征.
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正线性相关,其中,臂展与身高的相关程度更高.
课堂巩固
C
课堂巩固
课堂巩固
A
课堂巩固
课堂巩固
C
课堂巩固
课堂巩固
D
课堂巩固
课堂巩固
0.99
课堂巩固
总结一下
1.相关关系的概念
2.正相关、负相关的概念
3.线性相关和非线性相关的概念
4.样本相关系数
5.样本相关系数与正、负相关的关系
6.样本相关系数与线性相关的关系
感谢同学们观看
,
对于变量x和变量y,设经过随机抽样获得的成对样本数据为,,…,,其中和的均值分别为和,则有
将向量的维数推广到n维,n维向量的数量积仍然定义为,其中为向量的夹角.类似于平面或空间向量的坐标表示,对于向量和,有
设“标准化”处理后的成对数据,,…,的第一分量构成n维向量,第二分量构成n维向量,则有
其中为向量和向量的夹角.
由
,可知
因为,所以样本相关系数
这表明成对样本数据都落在直线
当时,中的或,向量和共线.由向量的知识可知,存在实数,使得,即
编号
1
2
3
4
5
6
7
年龄/岁
23
27
39
41
45
49
50
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
编号
8
9
10
11
12
13
14
年龄/岁
53
54
56
57
58
60
61
脂肪含量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
由样本相关系数,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
.①
,
,
,
,
由样本数据计算得样本相关系数.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
1.变量X与Y相对应的一组数据为
,
,
,
,
;变量U与V相对应的一组数据为
,
,
,
,
,
表示变量Y与X之间的相关系数,
表示变量V与U之间的相关系数,则( )
A.
B.
C.
D.
解析:由变量X与Y相对应的一组数据为
,
,
,
,
,可得变量Y与X正相关,所以
.
而由变量U与V相对应的一组数据为
,
,
,
,
,可知变量V与U负相关,所以
.因此
与
的大小关系是
.
2.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A.
B.
C.
D.
解析:由给出的四组数据的散点图可以看出,
图1和图3是正相关,相关系数大于0,
图2和图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,所以相关性要强,所以
接近于1,
接近于-1,由此可得
.故选:A
3.下列两个变量具有正相关关系的是( )
A.正方形面积与边长
B.吸烟与健康
C.数学成绩与物理成绩
D.汽车的质量与汽车每消耗
汽油所行驶的平均路程
解析:正方形的面积与边长是函数关系,故A选项错误;
吸烟越多,越不健康,所以吸烟与健康具有负相关关系,故B选项错误;
汽车越重,每消耗
汽油所行驶的平均路程越短,所以汽车的质量与汽车每消耗
汽油所行驶的平均路程具有负相关关系,故D选项错误;
一般来说,数学成绩越好,那么物理成绩越好,所以数学成绩与物理成绩具有正相关关系,故C选项正确.
4.某部门所属的10个工业的企业固定资产价值X(单位:百万元)与工业增加值Y(单位:百万元)的数据如下:
固定资产价值X
3
3
5
6
6
7
8
9
9
10
工业增加值Y
15
17
25
28
30
36
37
42
40
45
根据上表数据计算出的相关系数约为( )
A.0
B.
C.1.0228
D.0.9918
解析:
,
,
,
,
,
.故选D.
5.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减小,通常把它使用价值逐年减小的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如
下表所示:
使用年限x(单位:年)
2
4
5
6
8
失效费y(单位:万元)
3
4
5
6
7
由上表数据可知,y与x的相关系数为__________.
(附:
,
)
解析:由题表知,
,
,
,
,
,所以
,
故答案为0.99.
$$