内容正文:
2.1 相关系数 2.2 成对数据的线性相关性分析
1.如果两个变量之间的线性相关程度很高,则其相关系数r的绝对值应接近于( )
A.0.5 B.2
C.0 D.1
2.若回归直线的斜率∈(0,+∞),则相关系数r的取值范围为( )
A.(0,1] B.[-1,0)
C.0 D.无法确定
3.为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,则下面说法中正确的是( )
A.若所有样本点都在直线y=-2x+1上,则r=1
B.若所有样本点都在直线y=-2x+1上,则r=-2
C.若|r|越大,则变量x与y的线性相关性越强
D.若|r|越小,则变量x与y的线性相关性越强
4.某次考试之后,班主任从全班同学中随机抽取8位同学,他们的数学、物理成绩(单位:分,满分100分)的散点图如图所示:
根据以上信息,有下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则可以判断出甲同学的物理成绩一定比乙同学的物理成绩高;
③从全班同学中随机抽取2名同学(记为甲、乙),若甲同学的数学成绩为80分,乙同学的数学成绩为60分,则不能判断出甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数是( )
A.0 B.1
C.2 D.3
5.(多选)如图是根据X,Y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量X,Y具有线性相关关系的图是( )
6.(多选)甲、乙、丙、丁四位同学利用暑假对某地10个自然村进行社会调查.他们先走访了5个自然村,发现了一个有趣的现象,其中3个村庄附近天鹅比较多,婴儿出生率也比较高,另外2个村庄附近天鹅比较少,婴儿出生率也比较低,也听说当地流传着一个说法“天鹅带来了孩子”,于是他们对另外5个村庄进行了估计,下列说法不正确的是( )
A.如果村庄附近的天鹅多,则这个村庄的婴儿出生率一定高
B.如果村庄婴儿出生率比较低,则这个村庄附近的天鹅一定比较少
C.村庄附近的天鹅数与婴儿出生率具有相关性
D.村庄附近的天鹅数与婴儿出生率一定成正比
7.下表给出了5组数据,为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉第 组数据.
第i组
1
2
3
4
5
xi
-5
-4
-3
-2
4
yi
-3
-2
4
-1
6
8.在一次试验中,测得变量X与Y的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则Y与X的相关系数为 .
9.当且仅当线性相关系数r满足 时,数据点(xi,yi)(i=1,2,…,n)在一条直线上.
10.某农场经过观测得到水稻产量和施化肥量的统计数据如表:
施化肥量X
15
20
25
30
35
40
45
水稻产量Y
330
345
365
405
445
450
455
求水稻产量与施化肥量的样本相关系数,并判断相关性的强弱.
参考数据:=7 000,=1 132 725,xiyi=87 175.
11.下表是某城市在2023年1月份至10月份各月最低温与最高温(℃)的数据表,已知该城市各月最低温与最高温具有相关关系,根据该表,下列结论错误的是( )
月份
1
2
3
4
5
6
7
8
9
10
最高温
5
9
9
11
17
24
27
30
31
21
最低温
-12
-3
1
-2
7
17
19
23
25
10
A.最低温与最高温为正相关
B.每月最低温与最高温的平均值在前8个月逐月增加
C.月温差(最高温减最低温)的最大值出现在1月
D.1至4月温差(最高温减最低温)相对于7至10月,波动性更大
12.某国际控股有限公司2018~2023年的年广告支出y(单位:百万元)与年利润x(单位:百万元)的统计资料如下表所示:
年份
2018
2019
2020
2021
2022
2023
支出y
0.64
0.72
0.79
0.85
0.98
1.06
利润x
11.9
13.1
15.7
17.1
19.6
21.5
根据统计资料,可知下列说法正确的是( )
A.利润的中位数是15.7,y与x为正相关关系
B.利润的中位数是16.4,y与x为正相关关系
C.利润的中位数是17.1,y与x为负相关关系
D.利润的中位数是16.4,y与x为负相关关系
13.(多选)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l1:=0.68x+,计算其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到的回归直线方程为l2:=x+0.68,相关系数为r2,以下结论中,正确的是( )
A.r1>0,r2>0 B.r1>r2
C.=0.12 D.0<<0.68
14.在某地区随机抽取了8对母女的身高数据,如表:
母亲身高
X/cm
154
157
158
159
160
161
162
163
女儿身高
Y/cm
155
156
159
162
161
164
165
166
下列说法正确的序号为 .
①8个成对样本数据呈正相关;
②成对样本数据中变量X和变量Y的样本相关系数r约为0.963;
③用关于均值和为零点(,)平移后的成对样本数据(x1-,y1-),(x2-,y2-),…,(x8-,y8-)与原始成对样本数据相关性完全相同;
④用样本相关系数r可以估计总体两个变量的相关系数.
15.如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2016~2022.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2024年该企业的污水净化量.
参考数据:=54, (ti-)(yi-)=21,≈3.74, (yi-)2=,
参考公式:相关系数r=,线性回归方程=+t,=,=-.
16.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=xi=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
求(xi,i)(i=1,2,…,16)的样本相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
附:样本(xi,yi)(i=1,2,…,n)的样本相关系数r=.
2.1 相关系数
2.2 成对数据的线性相关性分析
1.D 相关系数|r|越接近于1,相关程度越高.故选D.
2.A 由相关系数与回归直线斜率之间的关系可知相关系数的取值范围是0<r≤1,故选A.
3.C 若所有样本点都在直线y=-2x+1上,则x与y是函数关系,且直线斜率为负数,所以r=-1,故A、B说法均错误;若|r|越大,则变量x与y的线性相关性越强,故C说法正确,D说法错误.故选C.
4.C 由散点图,知两个变量具有线性相关关系,所以①正确;利用统计知识进行预测,得到的结论有一定的随机性,所以②错误,③正确.所以正确结论的个数为2,故选C.
5.AD 由题图知,B、C的点呈片状分布,没有明显的线性相关关系;A中Y随X的增大而减小,各点整体呈下降趋势,X与Y负相关;D中Y随X的增大而增大,各点整体呈上升趋势,X与Y正相关.
6.ABD 从调查现象来看,村庄附近的天鹅数与婴儿出生率具有相关性,是相关关系而不是确定性的关系,因此A、B、D都是不正确的.
7.3 解析:画出散点图如图所示,
则应去掉第3组数据(-3,4).
8.-1 解析:由题得=1.5,=1,=22,=56,xiyi=-20,相关系数r==-1.
9.|r|=1 解析:当数据点(xi,yi)在一条直线上时,Y只受X的影响,即数据点完全线性相关,此时|r|=1.
10.解:由已知数据计算可知,
==30,
=
≈399.3,
所以样本相关系数
r=
=≈0.97,
由于0.97与1十分接近,所以水稻产量与施化肥量的相关性很强.
11.B 对于A,由题意可知该城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温为正相关,故A正确;对于B,由表中数据,每月最高温与最低温的平均值依次为:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是逐月增加,故B错误;对于C,由表中数据,月温差依次为:17,12,8,13,10,7,8,7,6,11.月温差的最大值出现在1月,故C正确;对于D,由C的结论,分析可得1至4月的月温差相对于7至10月,波动性更大,故D正确.故选B.
12.B 由题意得,利润的中位数是=16.4,而且随着利润的增加,支出也在增加,所以y与x为正相关关系,故选B.
13.ACD 由图可知两变量呈现正相关,故r1>0,r2>0,且r1<r2,故A正确,B错误;又回归直线l1:=0.68x+必经过样本中心点(3.5,2.5),所以=2.5-0.68×3.5=0.12,C正确;回归直线l2:=x+0.68必经过样本中心点(3,2),所以2=×3+0.68,所以=0.44,也可直接根据散点图判断0<<0.68(比较两直线的倾斜程度),故A、C、D正确.
14.①②③④ 解析:由成对样本数据可得,=(154+157+…+163)÷8=159.25,=(155+156+…+166)÷8=161,-8=59.5,-8=116,xiyi-8 =80,∴r==≈0.963,②正确;
由r≈0.963>0,8个成对样本数据呈正相关关系,①正确;
平移后的成对样本数据所对应平面直角坐标系中的散点图与原始的成对样本数据所对应的散点图形状完成一致,故相关性完全相同,③正确;
根据统计学思想,④正确.
15.解:(1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.94.
因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51,将2024年对应的年份代码t=9代入上式,得=×9+51=57.75,
所以预测2024年该企业污水净化量约为57.75吨.
16.解:由样本数据得(xi,i)(i=1,2,…,16)的样本相关系数为
r=
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
学科网(北京)股份有限公司
$