内容正文:
9.1.1 变量的相关性
[课时跟踪检测]
1.下列图中,相关系数最大的是 ( )
解析:选A 观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他3图更接近1.故选A.
2.“吸烟有害健康,吸烟会对身体造成伤害”.相关科学家研究表明,开始吸烟年龄X分别为16岁、18岁、20岁和22岁者,其得肺癌的相对危险度Y依次为15.10,12.81,9.72,3.21;每天吸烟支数U分别为10,20,30者,其得肺癌的相对危险度V分别为7.5,9.5和16.6,用r1表示变量X与Y之间的相关系数,用r2表示变量U与V之间的相关系数,则下列说法正确的是 ( )
A.r1=r2 B.r1>r2>0
C.0<r1<r2 D.r1<0<r2
解析:选D 由题意可知,开始吸烟年龄递增时,得肺癌的相对危险度呈递减趋势,所以吸烟年龄与得肺癌的相对危险度呈负相关,所以r1<0,同理可知,得肺癌的相对危险度与每天吸烟支数呈正相关,所以r2>0.因此可得r1<0<r2.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的相关系数为 ( )
A.-1 B.0
C. D.1
解析:选D 由题设知,这组样本数据完全正相关,也就是具有函数关系,其相关系数为1.
4.[多选]下列关于相关系数r的说法正确的是 ( )
A.相关系数r越大两个变量间相关程度越强
B.相关系数r的取值范围为[-1,1]
C.相关系数r>0时两个变量正相关,r<0时两个变量负相关
D.相关系数r=1时,样本点在同一直线上
解析:选BCD 对于相关系数r,有以下结论:①当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.②r的绝对值越接近于1,表明两个变量的线性相关程度越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.对于A,当r<0时此结论不成立,所以A不正确;对于B,由相关系数的性质可得-1≤r≤1,所以B正确;对于C,由相关系数的性质可知正确;对于D,由相关系数的性质可知正确.
5.已知四组不同数据的两变量的相关系数如下:数据组①:r1=0;数据组②:r2=-0.95;数据组③:|r3|=0.89;数据组④:r4=0.75.下列说法正确的是 ( )
A.数据组①对应的数据点都在同一直线上
B.数据组②中的两变量线性相关性最强
C.数据组③中的两变量线性相关性最强
D.数据组④中的两变量线性相关性最弱
解析:选B 数据组①中r1=0,表明两变量不具有线性相关性,故A错误;因为|r2|>|r3|>|r4|>|r1|,所以数据组②中的两变量线性相关性最强,故B正确,C错误;数据组①中r1=0,则两变量线性相关性最弱,故D错误.
6.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:小时)如下表:
身体综合指标评分(x)
1
2
3
4
5
用时(y/小时)
9.5
8.6
7.8
7
6.1
由上表数据得到的正确结论是 ( )
参考数据:=10,=7.06,(xi-)(yi-)=-8.4, ≈8.402.
参考公式:相关系数
r=.
A.身体综合指标评分x与骑行用时y正相关
B.身体综合指标评分x与骑行用时y的相关程度较弱
C.身体综合指标评分x与骑行用时y的相关程度较强
D.身体综合指标评分x与骑行用时y的线性相关关系显著
解析:选C 因为相关系数r==≈-1.即相关系数近似为-1,y与x负相关,且相关程度相当高,从而y与x的线性相关关系显著.所以选项A、B、D错误,C正确.
7.(5分)近五年来某草原羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示,
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
若利用这五组数据得到的两变量间的相关系数为r1,去掉第一年数据(1.4,1.1)后得到的相关系数为r2,则r1 r2(填“≥”“≤”“<”或“>”).
解析:根据散点图可知,羊只数量与草地植被指数呈负相关,则相关系数r1<0,r2<0,当去掉第一年数据(1.4,1.1)后,数据的线性相关性变强,所以|r1|<|r2|,所以r1>r2.
答案:>
8.(5分)某校高三年级267名学生参加期末考试,其中某班37名学生的语文成绩、数学成绩与总成绩在全年级的排名情况分别如图①、图②所示,甲、乙、丙为该班三名学生.
(1)在甲、乙两人中,本次考试的语文成绩名次比其总成绩名次靠前的学生是 ;
(2)在语文和数学两个科目中,丙同学本次考试的成绩名次更靠前的科目是 .
解析:(1)由题图①可知,在甲、乙两人中,本次考试的语文成绩名次比其总成绩名次靠前的学生是乙.
(2)因为同一个人的总成绩是不会变的,在题图②中丙是从右往左数第5个点,即丙的总成绩为班里倒数第5,所以在题图①中从右往左数第5个点表示的就是丙,可知这个点的位置比题图②中丙的位置高,所以语文名次更“靠后”,即丙同学本次考试的数学成绩更靠前.
答案:(1)乙 (2)数学
9.(5分)某市煤气消耗量与使用煤气户数的历史记录资料如表所示.
i(年)
1
2
3
4
5
x(户数:万户)
1
1.2
1.6
1.8
2
y(煤气消耗量:百万立方米)
6
7
9.8
12
12.1
i(年)
6
7
8
9
10
x(户数:万户)
2.5
3.2
4
4.2
4.5
y(煤气消耗量:百万立方米)
14.5
20
24
25.4
27.5
其散点图如图所示.
从散点图可知,煤气消耗量与使用煤气户数 (填“线性相关”或“线性不相关”);若两者关系近似满足直线方程y=6.057x+0.082,则当煤气用户扩大到5万户时,该市煤气消耗量估计是 百万立方米.
解析:由散点图发现图中各点在一条直线附近,所以煤气消耗量与使用煤气户数是线性相关关系.给出近似直线方程,只需将x=5代入,故该市煤气消耗量估计是6.057×5+0.082=30.367(百万立方米).
答案:线性相关 30.367
10.(10分)现有某种机械设备,随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.此种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示,计算y与x的相关系数r,并说明y与x的线性相关程度的强弱.
使用年限x(年)
2
4
5
6
8
失效费y(万元)
3
4
5
6
7
附:r=,≈1.4.
解:由题表知,=×(2+4+5+6+8)=5,=×(3+4+5+6+7)=5,(xi-)(yi-)=(2-5)×(3-5)+(4-5)×(4-5)+(5-5)×(5-5)+(6-5)×(6-5)+(8-5)×(7-5)=14,(xi-)2=(2-5)2+(4-5)2+(5-5)2+(6-5)2+(8-5)2=20,(yi-)2=(3-5)2+(4-5)2+(5-5)2+(6-5)2+(7-5)2=10,所以相关系数r===≈=0.98.
因为0.98>0.75,所以使用年限与失效费之间有较强的相关性.
11.(15分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200, (xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(5分)
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(5分)
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.(5分)
附:相关系数r=,≈1.414.
解:(1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
学科网(北京)股份有限公司
$