内容正文:
§2 成对数据的线性相关性
2.1 相关系数
2.2 成对数据的线性相关性分析
一、选择题
1.下列说法正确的是 ( )
A.任何两个变量之间都具有相关关系
B.球的体积与该球的半径之间具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
2.已知随机变量X和Y的样本相关系数为r1,随机变量U和V的样本相关系数为r2,且r1=0.785,r2=-0.983,则 ( )
A.X和Y正相关,且X和Y之间的线性相关程度强于U和V之间的线性相关程度
B.X和Y负相关,且X和Y之间的线性相关程度强于U和V之间的线性相关程度
C.U和V负相关,且X和Y之间的线性相关程度弱于U和V之间的线性相关程度
D.U和V正相关,且X和Y之间的线性相关程度弱于U和V之间的线性相关程度
3.如图是由一组试验数据作出的散点图,以下函数中适合作为Y关于X的回归方程类型的是 ( )
A.y=ax+b B.y=bax+c
C.y=blogax+c D.y=ax2+c
4.在一次试验中,测得(X,Y)的五对数据分别为(1,3),(2,4),(4,5),(5,13),(10,12),去掉一对数据(5,13)后,下列说法正确的是 ( )
A.Y与X由正相关变成负相关
B.样本相关系数不变
C.Y与X的相关性变弱
D.样本相关系数变大
5.[2024·益阳桃江高二期末] 气候变暖、干旱给蝗灾的发生创造了机会.已知蝗虫的产卵量Y与温度X的关系可以用函数y=c1来拟合(其中c1,c2为常数),设Z=ln Y,得到一组数据如下表:
X
20
23
25
27
30
Z
2.2
2.4
3
3.2
4.2
由上表可得Z关于X的线性回归方程为Z=0.2X+,则= ( )
A.-2 B.e-2 C.3 D.e3
6.已知一组样本数据(xi,yi),其中i=1,2,3,…,30,根据最小二乘法求得的回归直线的方程是y=x+,则下列说法正确的是 ( )
A.若所有样本数据对应的点都在回归直线y=x+上,则变量间的样本相关系数为1
B.至少有一个样本数据对应的点落在回归直线y=x+上
C.对所有的xi(i=1,2,3,…,30),预测值xi+一定与实际值yi有误差
D.若回归直线y=x+的斜率>0,则变量x与y正相关
7.(多选题)下列关于样本相关系数r的说法正确的是 ( )
A.r可用来衡量两个变量之间的线性相关程度
B.|r|≤1,且|r|越接近0,相关程度越弱
C.|r|≤1,且|r|越接近1,相关程度越强
D.|r|≤1,且|r|越接近1,相关程度越弱
8.(多选题)变量x,y的散点图如图所示,现对这两个变量进行直线拟合.方案一:根据图中所有数据,得到线性回归方程y=x+,样本相关系数为r1;方案二:剔除数据(10,21),根据剩下数据得到线性回归方程y=x+,样本相关系数为r2.则 ( )
A.r1=r2 B.r1<r2
C.r1>r2 D.r1,r2∈(-1,0)
二、填空题
9.下列两个变量之间具有相关关系的是 .(填序号)
①正方形的边长a和面积S;
②一个人的身高h和右手一拃长x;
③真空中的自由落体运动其下落的距离h和下落的时间t;
④一个人的身高h和体重x.
10.某老师为了了解学生的计算能力,对某学生进行了10次测试,收集到的数据如下:
题数X
5
10
15
20
25
30
35
40
45
50
做题时间Y(分钟)
9
19
26
37
48
52
61
73
81
89
试判断该学生的做题时间与题数 (填“正相关”或“负相关”).
11.[2024·重庆八中高二期末] 用模型y=aebx拟合一组数据(xi,yi)(i=1,2,…,7),其中x1+x2+…+x7=6.设Z=ln Y,经计算得到Z关于X的线性回归方程为Z=X+5,则y1y2…y7= .
12.已知变量y关于x的回归方程为y=ebx-0.5,若对y=ebx-0.5两边同时取自然对数,可以发现ln y与x线性相关.现有一组数据如表所示:
x
1
2
3
4
y
e
e3
e4
e6
则当x=5时,预测y的值为 .
三、解答题
13.流行性感冒(简称流感)是由流感病毒引起的一种急性呼吸道疾病,也是一种传染性强、传播速度快的疾病.其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播.流感每年在世界各地均有传播,在我国以冬春季多见.儿童相对免疫力低,在幼儿园、学校等人员密集的地方更容易被传染.某幼儿园将去年春季该园患流感的小朋友按照年龄与人数统计,得到如下数据:
年龄X(岁)
2
3
4
5
6
患流感人数Y
22
22
17
14
10
(1)求Y关于X的线性回归方程Y=X+;
(2)计算变量X与Y的样本相关系数r(计算结果精确到0.01),并回答是否可以认为该幼儿园去年春季患流感的人数与年龄的负相关性很强.(若|r|∈[0.75,1],则X与Y的线性相关性很强;若|r|∈[0.3,0.75),则X与Y的线性相关性一般;若|r|∈[0,0.25],则X与Y的线性相关性较弱)
参考数据:≈5.477.
参考公式:线性回归方程Y=X+中=,=-,样本相关系数r=.
14.[2024·河北唐山乐亭高平中学高二期末] 假设关于某设备的使用年限X(单位:年)和所支出的维修费用Y(单位:万元)的有关统计数据如表所示:
使用年限X/年
2
3
4
5
6
维修费用Y /万元
2.2
3.8
5.5
6.5
7
(1)求Y关于X的线性回归方程Y=X+;
(2)预测当使用年限为10年时的维修费用.
参考公式:==,=-.
15.(多选题)已知x与y之间的四对数据如下表:
x
2
3
4
5
y
1.5
m
n
3.5
上表数据中y的平均值为2.5.若某同学对m赋了两个值,分别为2,2.5,得到两条回归直线的方程分别为y=x+,y=x+,对应的样本相关系数分别为r1,r2,则下列结论正确的是 ( )
A.两条回归直线的交点坐标为(3.5,2.5)
B.>
C.>
D.r1>r2
16.某乡政府为提高当地农民收入,指导农民种植药材,并在种植药材的土地附近种草放牧,发展畜牧业.牛粪、羊粪等有机肥可以促进药材的生长,发展生态循环农业.如图所示为某农户近7年种植药材的年收入Y(单位:千元)与年份代码X的折线图,并计算得到yi=480,xiyi=2052,≈25,(xi-)(yi-)=132,wi=140,(wi-)(yi-)=1048,≈43.3,其中wi=.
(1)从相关系数的角度分析,y=a+bx与y=c+dx2哪一个更适宜作为年收入Y关于年份代码X的回归方程类型,并说明理由;
(2)根据(1)的判断结果及数据,建立Y关于X的回归方程(系数精确到0.01),并预测2024年该农户种植药材的收入.
附:相关系数r=,回归直线的斜率和截距的最小二乘估计分别为=,=-,≈2.65.
§2 成对数据的线性相关性
2.1 相关系数
2.2 成对数据的线性相关性分析
1.D [解析] 当两个变量之间具有确定的关系时,两个变量之间是函数关系,而不是相关关系,故A错误;球的体积与该球的半径之间是函数关系,故B错误;农作物的产量与施化肥量之间的关系是相关关系,是一种非确定性关系,故C错误;一个学生的数学成绩与物理成绩之间的关系是相关关系,是一种非确定性关系,故D正确.故选D.
2.C [解析] ∵r1=0.785>0,r2=-0.983<0,∴X和Y正相关,U和V负相关,∵|r2|>|r1|,∴X和Y之间的线性相关程度弱于U和V之间的线性相关程度,故选C.
3.B [解析] 由散点图的变化趋势可得,y=bax+c更适合作为Y关于X的回归方程类型.故选B.
4.D [解析] 根据题意作出散点图,如图所示,由图可知,Y与X正相关.易知去掉一对数据(5,13)后,Y与X仍正相关,相关性变强,所以样本相关系数变大.故选D.
5.B [解析] 由题意知,==25,==3,由=0.2+,可得=3-0.2×25=-2.∵Z=ln Y,∴ln Y=0.2X-2,∴Y=e-2·e0.2X,可得=e-2.故选B.
6.D [解析] 对于A,若所有样本数据对应的点都在直线y=x+上,则变量间的样本相关系数r的绝对值为1,样本相关系数r=±1,故A错误;对于B,回归直线必过点(,),但样本数据对应的点可能都不在回归直线上,故B错误;对于C,样本数据对应的点可能在回归直线y=x+上,即可能存在xi(i=1,2,3,…,30),使得对应的预测值xi+与实际值yi没有误差,故C错误;对于D,样本相关系数r与的符号相同,若回归直线y=x+的斜率>0,则r>0,变量x与y正相关,故D正确.故选D.
7.ABC [解析] 样本相关系数可用来衡量两个变量之间的线性相关程度,样本相关系数是一个绝对值小于或等于1的量,并且它的绝对值越大就说明相关程度越强.故选ABC.
8.CD [解析] 由散点图可知这两个变量负相关,所以r1,r2<0.因为剔除数据(10,21)后,剩下的数据线性相关性更强,所以|r2|比|r1|更接近1,所以-1<r2<r1<0.故选CD.
9.②④ [解析] 对于①,正方形的边长a和面积S之间的关系是函数关系,不是相关关系;对于②,一般情况下,一个人的身高h和右手一拃长x正相关;对于③,真空中的自由落体运动其下落的距离h和下落的时间t之间的关系是函数关系,不是相关关系;对于④,一般情况下,一个人的身高h和他的体重x正相关.故填②④.
10.正相关 [解析] 根据所给数据画出散点图如图所示.由散点图可知,该学生的做题时间与题数正相关.
11.e41 [解析] 因为回归直线Z=X+5恒过点(,),且x1+x2+…+x7=6,所以==,=+5=+5=,即===,所以ln(y1y2…y7)=41,即y1y2…y7=e41.
12.e7.5 [解析] ∵y=ebx-0.5,∴ln y=bx-0.5,令z=ln y,则z=bx-0.5,根据题意列出表格如下,
x
1
2
3
4
z
1
3
4
6
故==2.5,==3.5,易知3.5=2.5b-0.5,解得b=1.6,则z=1.6x-0.5,故当x=5时,z=ln y=1.6×5-0.5=7.5,此时y=e7.5.
13.解:(1)由题意得,==4,
==17,
==-3.2,=- =17-(-3.2)×4=29.8,故Y关于X的线性回归方程为Y=-3.2X+29.8.
(2)(xi-)(yi-)=(2-4)×(22-17)+(3-4)×(22-17)+(4-4)×(17-17)+(5-4)×(14-17)+(6-4)×(10-17)=-32,(xi-)2=(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2=10,(yi-)2=(22-17)2+(22-17)2+(17-17)2+(14-17)2+(10-17)2=108,则r=-=-≈-0.97,∴r<0,说明X与Y负相关,又|r|∈[0.75,1],说明X与Y的线性相关性很强,∴可以认为该幼儿园去年春季患流感的人数与年龄的负相关性很强.
14.解:(1)依题意可得==4,==5,
xiyi=2×2.2+3×3.8+4×5.5+5×6.5+6×7=112.3,
=22+32+42+52+62=90,
∴==1.23,=5-1.23×4=0.08,
∴Y关于X的线性回归方程为Y=1.23X+0.08.
(2)在(1)中求得的线性回归方程中,
令X=10,可得Y=1.23×10+0.08=12.38,
故预测当使用年限为10年时的维修费用是12.38万元.
15.ACD [解析] 因为==3.5,=2.5,所以两条回归直线均过点(3.5,2.5),即两条回归直线的交点为(3.5,2.5),故选项A正确.当m=2时,由=2.5,可得n=3,xiyi-4·=2×1.5+3×2+4×3+5×3.5-4×3.5×2.5=3.5,-4=22+32+42+52-4×3.52=5,所以===0.7,=-=2.5-0.7×3.5=0.05;当m=2.5时,由=2.5,可得n=2.5,xiyi-4·=2×1.5+3×2.5+4×2.5+5×3.5-4×3.5×2.5=3,所以===0.6,=-=2.5-0.6×3.5=0.4.所以<,>,故选项B错误,选项C正确.当m=2,n=3时,-4=1.52+22+32+3.52-4×2.52=2.5,所以r1==≈0.99;当m=2.5,n=2.5时,-4=1.52+2.52+2.52+3.52-4×2.52=2,所以r2==≈0.95.则r1>r2,故选项D正确.故选ACD.
16.解:(1)由题意知,=×(1+2+3+4+5+6+7)=4,
(xi-)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28.
对于模型y=a+bx,相关系数r=
≈≈0.996,
对于模型y=c+dx2,令w=x2,则y=c+dw,相关系数r'=≈≈0.968,
因为0.996>0.968,
所以y=a+bx更适宜作为年收入Y关于年份代码X的回归方程类型.
(2)由(1)可知Y关于X的线性回归方程为Y=+X,
由已知数据及公式可得===≈4.71,=-=-×4≈49.71.
所以Y关于X的线性回归方程为Y=4.71X+49.71.
易知2024年对应的年份代码为8,
当X=8时,Y=4.71×8+49.71=87.39(千元),所以预测2024年该农户种植药材的收入为87.39千元.
学科网(北京)股份有限公司
$$