内容正文:
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
课标要求
学法指导
1.了解变量的相关关系.
2.理解散点图.
3.结合实例,了解样本相关系数的统计含义.
4.了解样本相关系数与标准化数据向量夹角的关系.
5.结合实例,会通过相关系数比较多组成对数据的相关性.
1.结合实例,了解变量间的相关关系,能区分两个变量间存在的关系是函数关系还是相关关系,其中相关关系包括线性相关和非线性相关.
2.会画散点图并能熟练依据散点图分析变量间的相关关系.
3.结合实例,通过相关系数判断多组成对数据的相关性.
4.通过对两个变量相关关系和样本相关系数的学习,发展数学抽象、直观想象和数据分析的核心素养.
问题导入
在学校里,常有老师对学生这样说:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一种相关关系.
问题:这种说法有一定根据吗?
提示 有一定根据.
微梳理
要点一 变量的相关关系
1.两个变量的关系
分类
函数关系
相关关系
特征
两个变量有确定的关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
2.散点图:将样本中的每一个编号下的成对样本数据用直角坐标系中的点表示出来得到的统计图.
3.正相关与负相关
正相关
负相关
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势
4.线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
5.非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
要点二 样本相关系数
1.定义:假设两个随机变量的成对数据分别为(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),则变量间样本相关系数r的计算公式为
r=
=.
2.相关系数的性质
(1)样本相关系数r的取值范围为[-1,1].
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
(3)当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
(4)|r|=1时,成对数据构成的点都在一条确定的直线上.
思考:当r=0时,是否表明成对样本数据间就不存在相关关系了?
提示 当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
判断正误,正确的画“√”,错误的画“×”.
(1)两个变量的相关关系是一种确定的关系.( )
(2)两个变量的相关系数越大,它们的相关程度越强.( )
(3)当一个变量的值增加时,另一个变量的值随之减少,则称这两个变量负相关.( )
(4)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.( )
解析 (1)错误.两个变量的相关关系不是一种确定的关系,而是一种随机关系.
(2)错误.|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.
(3)错误.存在相关关系的两个变量,当一个变量增加时,另一个变量的相应值呈减少的趋势,则称这两个变量负相关.
(4)正确.样本容量越大,样本相关系数就越接近变量间的相关系数,效果就越好.
答案 (1)× (2)× (3)× (4)√
,)
探究一 相关关系的概念
【例题1】 下列选项中,两变量间具有相关关系的是( )
A.正方体的体积与边长
B.匀速行驶的汽车的行驶距离与时间
C.人的身高与视力
D.某人每日吸烟量与其身体健康情况
答案 D
解析 对于A项,正方体的体积与边长是函数关系,不满足题意;对于B项,匀速行驶的汽车的行驶距离与时间是函数关系,不满足题意;对于C项,人的身高与视力没有明显的关系,不满足题意;对于D项,某人每日吸烟量与其身体健康情况有相关关系,满足题意.故选D项.
规律总结
(1)相关关系与函数关系是两种不同的变量关系,函数关系是一种确定性关系,可以用一个变量确切地表示另一个变量;相关关系是一种非确定性关系,两个变量虽然有关系,但又没有确切到可由其中一个去精确地决定另一个的程度.
(2)根据变量的变化趋势可将相关关系分为正相关和负相关;根据变量的分布特征可将相关关系分为线性相关和非线性相关(曲线相关).
【变式1】 (1)(多选)下列变量之间的关系为相关关系的是( )
A.已知一元二次方程ax2+bx+c=0,其中a,c是已知常数,取b为自变量,因变量是这个方程的判别式Δ=b2-4ac
B.光照时间和果树亩产量
C.某种农作物的亩产量与雨水量
D.父母身高和子女身高的关系
(2)有下列关系:
①人的寿命与他(她)每天坐着的时间之间的关系;
②曲线上的点与该点关于原点的对称点的坐标之间的关系;
③苹果的产量与气候之间的关系;
④森林中的同一种树木,其断面直径与高度之间的关系.
其中具有相关关系的是______.
解析 (1)B,C,D项均为相关关系,A项为函数关系.故选BCD项.
(2)利用相关关系的概念进行判断,②中两变量的关系是一种确定性关系,①③④中两变量的关系是相关关系.
答案 (1)BCD (2)①③④
探究二 用散点图判断相关关系
【例题2】 (1)(2023·上海)根据身高和体重的散点图,下列说法正确的是( )
A.身高越高,体重越重
B.身高越高,体重越轻
C.身高与体重成正相关
D.身高与体重成负相关
(2)两对变量A和B,C和D的取值分别如表1和表2所示,画出散点图,判断它们是否有相关关系,若具有相关关系,说出它们相关关系的区别.
表1
A
26
18
13
10
4
-1
B
20
24
34
38
50
64
表2
C
0
5
10
15
D
541.67
602.66
672.09
704.99
C
20
25
30
35
D
806.71
908.59
975.42
1 034.75
解析 (1)由题图可知,各数据分布呈线性,且从左向右看,呈现上升趋势,故身高与体重呈正相关.故选C项.
答案 C
(2)作出散点图分别如图1,图2所示.
从图中可以看出两图中的点都分布在一条直线附近,因此两图中的变量都具有相关关系.
图①中A的值由大变小时,B的值却是由小变大,故A和B负相关.
图②中C的值由小变大时,D的值也是由小变大,故C和D正相关.
规律总结
(1)画散点图的一般步骤
①建立直角坐标系,注意两轴的长度单位可以不一致.
②将n个数据点(xi,yi)(i=1,2,3,…,n)描在平面直角坐标系中,描出的点可以是实心点,也可以是空心点.
③画直线时,一定要画在多数点经过的区域.具体作直线时,用一条透明的直尺边缘尽量靠近或经过大多数点,然后画出直线.
(2)由散点图判断线性相关程度强弱的方法
在散点图中,散点在某条直线附近越集中,两个变量的线性相关程度越强;散点在某条直线附近越分散,两个变量的线性相关程度越弱.
【变式2】 (1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
(2)某个男孩的年龄与身高的统计数据如表所示.
年龄x/岁
1
2
3
4
5
6
身高y/cm
78
87
98
108
115
120
①画出散点图;
②判断y与x是否具有线性相关关系.
解析 (1)由两个散点图的形状判断,x与y负相关,u与v正相关.故选C项.
答案 C
(2)①散点图如图所示.
②由图知,所有数据点接近一条直线排列,因此y与x具有线性相关关系.
探究三 样本相关系数
【例题3】 (1)(2024·天津)下列图中,相关系数最大的是( )
(2)为了对2024年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如表所示.
学生编号
1
2
3
4
5
6
7
8
数学成绩x
68
72
78
81
85
88
91
93
物理成绩y
70
66
81
83
79
80
92
89
用变量y与x的样本相关系数r(精确到0.01)说明物理成绩y与数学成绩x的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:xiyi=52 957, ·≈545.82.
解析 (1)观察4幅图可知,A项中的图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|相比于其他3幅图更接近1.故选A项.
答案 A
(2)==82,
==80,
r=
≈
=≈0.87.
所以物理成绩y与数学成绩x的线性相关程度较强,且呈正相关,它们的变化趋势相同.
规律总结
相关系数的关注点
(1)相关系数可以反映两个变量之间的线性相关程度,即散点集中于一条直线的程度,其符号反映了相关关系的正负性.
(2)变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确地判断相关的程度.
【变式3】 垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某省为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得i=80,i=4 000,(xi-)2=80,(yi-)2=8 000,(xi-)(yi-)=700.
(1)求这20个县年垃圾产生总量的平均值;
(2)请用相关系数说明该组数据中x与y之间的关系是否可用线性回归模型进行拟合(当0.75<|r|≤1时,y与x的相关关系较强,否则相关关系较弱).
附:相关系数r=.
解析 (1)依题意这20个县年垃圾产生总量的平均值为yi=×4 000=200(吨).
(2)依题意得r====0.875>0.75,
因为y与x的相关系数接近1,所以y与x之间具有较强的线性相关关系,可用线性回归模型进行拟合.
,)
1.对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
答案 C
解析 给出一组样本数据,总可以作出相应的散点图,故C项正确;但不一定能分析出两个变量的关系,故A项不正确;两个变量不一定线性相关,故B项不正确;两个变量的统计数据不一定有函数关系,故D项不正确.故选C项.
2.对两个变量x,y的观测数据统计如表所示,则这两个变量的关系是( )
x
10
9
8
7
6
5
y
2
3
3.5
4
4.8
5
A.负相关
B.正相关
C.先正后负相关
D.先负后正相关
答案 A
解析 根据两个变量x,y的观测数据统计表知,y随x的增大而减小,所以这两个变量负相关.故选A项.
3.下面的散点图与相关系数r一定不符合的是( )
A.①②③ B.①②④
C.①③④ D.②③④
答案 C
解析 ①中,由散点图可得,两相关变量呈负相关,故①满足题意;②中,由散点图可得,两相关变量呈正相关,且相关系数可能是r=0.75,故②不满足题意;③中,相关系数r=-1,则所有的点应该分布在一条直线上,散点图显然不符合,故③满足题意;④中,相关系数r=1,则所有的点应该分布在一条直线上,散点图显然不符合,故④满足题意.故选C项.
4.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为( )
A.1 B.-2
C.0 D.-1
答案 D
解析 =1.5,=1,x=22,y=56,xiyi=-20,
相关系数r==-1.故选D项.
学科网(北京)股份有限公司
$$