内容正文:
数学选择性必修第三册 导学
第八章 成对数据的统计分析
§8.1.2 样本相关系数【导学】
【导学目标】
1.会通过相关系数比较多组成对数据的相关性.
2.了解样本相关系数与标准化数据向量夹角的关系.
【导学重点】会通过相关系数比较多组成对数据的相关性.
【导学难点】了解样本相关系数与标准化数据向量夹角的关系.
【知识要点】
知识点:
1.一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在 象限、 象限,对应的成对数据同号的居多;如果变量x和y ,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
2.样本相关系数:r==.
3.样本数据相关系数r的绝对值大小反映成对数据之间线性相关的程度.
(1)当|r|越接近1时,成对样本数据的线性相关程度 ;
(2)当|r|越接近0时,成对样本数据的线性相关程度 .
(3)当r=0时,成对样本数据间没有 关系.
典型例题
题型一:概念的理解
【例1-1】关于两个变量x,y与其样本相关系数r,有下列说法:
①若r>0,则x增大时,y也相应增大;
②若|r|越接近1,则x与y的线性相关程度越强;
③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.
其中正确的有( )
A.①② B.②③
C.①③ D.①②③
【例1-2】用线性回归模型求得甲、乙、丙三组不同样本数据的样本相关系数分别为0.81,-0.98,0.63,其中________(填甲、乙、丙中的一个)组样本数据的线性相关性最强.
【例1-3】下列说法正确的是 (填序号).
①若变量间的关系是非确定性关系,则因变量不能由自变量唯一确定;
②线性相关系数可以是正的或负的;
③如果样本一的相关系数r1=-0.9,样本二的相关系数r2=0.7,因r1<r2,故样本二的变量的线性相关性强;
④线性相关系数r∈(-1,1).
【例1-4】两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
【例1-5】在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r有如下四个选项,其中拟合得最好的模型为( )
A.模型1的相关系数r为0.75
B.模型2的相关系数r为0.55
C.模型3的相关系数r为0.25
D.模型4的相关系数r为0.90
题型二、样本相关系数
【例2-1】下列现象中线性相关程度最强的是( )
A.商店的职工人数与商品销售额之间的线性相关系数为0.83
B.流通费用率与商业利润率之间的线性相关系数为-0.93
C.商品销售额与商业利润率之间的线性相关系数为0.52
D.商品销售额与流通费用率之间的线性相关系数为0.71
【例2-2】变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1 B.-0.5 C.0 D.0.5
【例2-3】一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.0.5 D.1
【例2-4】甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性作试验,求得相关系数r如表:
相关系数
甲
乙
丙
丁
r
-0.82
0.78
0.69
0.87
则哪位同学的试验结果体现两变量有更强的线性相关性?( )
A.甲 B.乙 C.丙 D.丁
【例2-5】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,xi-)2=80,yi-)2=9 000,xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,≈1.414.
【例2-6】按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码
1
2
3
4
5
6.4
5.5
5.0
4.8
3.8
求2017-2021年年份代码与的样本相关系数(精确到0.01);
附:样本相关系数,.
【例2-7】经验表明,一般树的胸径(树的主干在地面以上m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据,并根据数据作出如下的散点图.
经计算得,,,,.
推断两个变量是否线性相关,计算样本相关系数(精确到),并推断它们的相关程度;
附:相关系数,
第 1 页 共 4 页
学科网(北京)股份有限公司
$数学选择性必修第三册 导学
第八章 成对数据的统计分析
§8.1.2 样本相关系数【导学】【解析】
【导学目标】
1.会通过相关系数比较多组成对数据的相关性.
2.了解样本相关系数与标准化数据向量夹角的关系.
【导学重点】会通过相关系数比较多组成对数据的相关性.
【导学难点】了解样本相关系数与标准化数据向量夹角的关系.
【知识要点】
知识点:
1.一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在 象限、 象限,对应的成对数据同号的居多;如果变量x和y ,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
2.样本相关系数:r==.
3.样本数据相关系数r的绝对值大小反映成对数据之间线性相关的程度.
(1)当|r|越接近1时,成对样本数据的线性相关程度 ;
(2)当|r|越接近0时,成对样本数据的线性相关程度 .
(3)当r=0时,成对样本数据间没有 关系.
典型例题
题型一:概念的理解
【例1-1】关于两个变量x,y与其样本相关系数r,有下列说法:
①若r>0,则x增大时,y也相应增大;
②若|r|越接近1,则x与y的线性相关程度越强;
③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.
其中正确的有( )
A.①② B.②③
C.①③ D.①②③
【答案】B
【解析】① 若r>0,说明x与y是正线性相关,但不是所有x增大时y都一定增大,只是整体趋势上y随x增大而增大,存在个别例外,所以①错误。
② 样本相关系数r的绝对值∣r∣越接近1,代表x与y的线性相关程度越强,∣r∣越接近0,线性相关程度越弱,所以②正确。
③ 若r=1或r=−1,说明x与y完全线性相关,也就是函数关系,此时散点图上所有散点都在同一条直线上,所以③正确。
因此正确的是②③,对应选项为B
故选:B
【例1-2】用线性回归模型求得甲、乙、丙三组不同样本数据的样本相关系数分别为0.81,-0.98,0.63,其中________(填甲、乙、丙中的一个)组样本数据的线性相关性最强.
【答案】乙
【例1-3】下列说法正确的是 (填序号).
①若变量间的关系是非确定性关系,则因变量不能由自变量唯一确定;
②线性相关系数可以是正的或负的;
③如果样本一的相关系数r1=-0.9,样本二的相关系数r2=0.7,因r1<r2,故样本二的变量的线性相关性强;
④线性相关系数r∈(-1,1).
【答案】①②
【例1-4】两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
【答案】C
【例1-5】在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r有如下四个选项,其中拟合得最好的模型为( )
A.模型1的相关系数r为0.75
B.模型2的相关系数r为0.55
C.模型3的相关系数r为0.25
D.模型4的相关系数r为0.90
【答案】D
题型二、样本相关系数
【例2-1】下列现象中线性相关程度最强的是( )
A.商店的职工人数与商品销售额之间的线性相关系数为0.83
B.流通费用率与商业利润率之间的线性相关系数为-0.93
C.商品销售额与商业利润率之间的线性相关系数为0.52
D.商品销售额与流通费用率之间的线性相关系数为0.71
【答案】B
【解析】线性相关系数r的绝对值越接近于1,两个变量间的线性相关程度越强,
故选:B.
【例2-2】变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1 B.-0.5 C.0 D.0.5
【答案】C
【解析】根据变量x,y的散点图,得:x,y之间的样本相关关系非常不明显,所以相关系数r最接近的值应为0.
故选:C.
【例2-3】一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.0.5 D.1
【答案】D
【解析】因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.
故选:D.
【例2-4】甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性作试验,求得相关系数r如表:
相关系数
甲
乙
丙
丁
r
-0.82
0.78
0.69
0.87
则哪位同学的试验结果体现两变量有更强的线性相关性?( )
A.甲 B.乙 C.丙 D.丁
【答案】D
【解析】根据题意知,丁同学的相关系数|r|=0.87为最大,所以丁同学的试验结果体现两变量有更强的线性相关性.
故选:D.
【例2-5】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,xi-)2=80,yi-)2=9 000,xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,≈1.414.
【解析】(1)由已知得样本平均数=i=60,
从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
==≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行简单随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
【例2-6】按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码
1
2
3
4
5
6.4
5.5
5.0
4.8
3.8
求2017-2021年年份代码与的样本相关系数(精确到0.01);
附:样本相关系数,.
【答案】;
【分析】由表中数据结合题中数据,求出相关数值,代入相关系数求,即可得出答案;
【解析】由已知可得,,,
由题可列下表:
-2
-1
0
1
2
1.3
0.4
-0.1
-0.3
-1.3
,,.
.
【例2-7】经验表明,一般树的胸径(树的主干在地面以上m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据,并根据数据作出如下的散点图.
经计算得,,,,.
推断两个变量是否线性相关,计算样本相关系数(精确到),并推断它们的相关程度;
附:相关系数,
【答案】两个变量线性相关;相关性较强.
【分析】根据树高与胸径的散点图判断它们是否线性相关,再通过相关系数判断它们相关的程度;
【解析】根据树高与树的胸径的散点图,可判断两个变量是线性相关.
根据题中所给数据,得,,.
所以.
由于的值接近于1,故相关性较强.
故两个变量线性相关,且相关程度较强.
第 1 页 共 4 页
学科网(北京)股份有限公司
$