内容正文:
8.1 成对数据的统计相关性
【题型归纳目录】
题型一:相关关系的理解
题型二:散点图与相关性
题型三:散点图及其应用
题型四:线性相关性的检验
题型五:判断线性相关的强弱
【知识点梳理】
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关.
3、线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4、相关系数的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为,对数据作进一步的“标准化处理”处理,,分别除和(和分别为,和的均值),得,为简单起见,把上述“标准化”处理后的成对数据分别记为,则变量和变量的样本相关系数的计算公式如下:.
【典型例题】
题型一:相关关系的理解
【典例1-1】下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
【答案】A
【解析】对于A,一般情况下,汽车越重,则每公里耗油量越多,成正相关,故A正确;
对于B,正方形的面积与边长是函数关系,故B错误;
对于C,一般情况下,若花费在体育活动上面的时间越长,则期末考试数学成绩可能会降低,故不为正相关,故C错误;
对于D,期末考试随机编排的准考证号与期末考试成绩总分没有相关关系,故D错误.
故选:A.
【典例1-2】下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【答案】B
【解析】对于A:产品的样本与生产数量是相关关系,故A正确;
对于B:设球的半径为,球的表面积为、体积为,
则,所以,而,
所以球的表面积与体积是一种函数关系,故B错误;
对于C:家庭的支出与收入是相关关系,故C正确;
对于D:人的年龄与体重是相关关系,故D正确.
故选:B
【方法技巧与总结】
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
【变式1-1】下列两个变量之间的关系是相关关系的是( )
A.等边三角形的边长与其面积
B.匀速直线行驶的电车的位移与行驶时间
C.杂交水稻植株的高度与土壤湿润度
D.汽车在陆地上的刹车制动时间与洞庭湖湖面上的空气阻力
【答案】C
【解析】A.等边三角形的边长与其面积的关系为,两个变量是函数关系,不符合题意;
B.匀速直线行驶的电车的位移与行驶时间的关系为,两个变量是函数关系,不符合题意;
C.杂交水稻植株的高度与土壤湿润度具有相关关系,符合题意;
D.汽车在陆地上的刹车制动时间与洞庭湖湖面上的空气阻力不具有相关关系,不符合题意.
故选:C.
【变式1-2】下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
【答案】D
【解析】对于A:人的身高与受教育的程度不具有相关关系,故A错误;
对于B:人的体重与眼睛的近视程度不具有相关关系,故B错误;
对于C:企业员工的工号与工资不具有相关关系,故C错误.
对于D:儿子的身高与父亲的身高具有相关关系,故D正确.
故选:D
题型二:散点图与相关性
【典例2-1】下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【答案】B
【解析】从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则这两个变量为负相关.
结合散点图可知,①②满足题意,即两个变量呈负相关的个数为2个.
故选:B
【典例2-2】观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【答案】D
【解析】根据散点图,由相关性可知:图a各点散布在从左下角到右上角的区域里,是正相关;
图b中各点分布不成带状,相关性不明确,所以不相关;
图c中各点分布在从左上方到右下方的区域里,是负相关.
故选:D
【方法技巧与总结】
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【变式2-1】对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【答案】A
【解析】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱,相关系数的绝对值越远离.
综上可得:.
故选:A.
【变式2-2】对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论正确的是( )
A.乙组数据的相关系数大于零 B.甲组数据的相关程度比乙强
C.乙组数据的相关系数比甲组的更接近1 D.乙组数据的相关系数比甲小
【答案】D
【解析】由散点图可以看出,甲、乙两组数据都呈线性相关,
且乙组数据呈负相关,相关系数记为,则,
甲组数据呈正相关,相关系数记为,则,
乙图的点相对更加集中在某一条直线附近,
所以其相关性较强,则乙组数据的相关系数更接近,故A、B、C错误,D正确.
故选:D.
题型三:散点图及其应用
【典例3-1】党的二十大报告指出绿水青山就是金山银山.某市为加快生态文明建设进程,加大生态环境保护投入力度,为祖国现代化建设增砖添瓦.现统计了该市近几年的生态环境保护投入资金,统计如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号x
1
2
3
4
5
6
投入资金y/千万
14
31
33
38
41
47
(1)根据上表作出散点图;
(2)观察散点图,判断投入资金y与年份编号x是否具有相关性.如果有,是正相关还是负相关.
【解析】(1)作出散点图如下:
(2)由散点图可知,投入资金y与年份编号x具有相关关系,且呈现正相关关系.
【典例3-2】2023年3月6日,中华人民共和国国务院新闻办公室举行“权威部门话开局”系列主题新闻发布会,介绍“加快推进新型工业化做强做优做大实体经济”有关情况.经综合研判,今年我国新能源汽车产业将保持良好的发展态势,生产和销售将实现稳定增长.据统计,去年10月至今年2月某品牌新能源汽车的市场销售量如下表.
月份
10月
11月
12月
1月
2月
销售量万辆
0.6
0.7
1.0
1.3
1.6
(1)根据数据作出散点图;
(2)判断与之间的相关关系.
【解析】(1)作出散点图如下:
(2)由散点图可知,5组样本数据呈正相关关系.
【方法技巧与总结】
1、画散点图时应注意合理选择单位长度,避免图形过大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
2、在这里利用散点图直观感知事物的形态与变化,理解事物间的关联及变化规律,是数学核心素养直观想象的具体体现.
【变式3-1】某连锁经营公司所属的5个零售店某月的销售额x(单位:千万元)和利润额y(单位:百万元)资料如表:
零售店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/百万元
2
3
3
4
5
画出销售额和利润额的散点图,并判断这两个变量是否具有线性相关关系.
【解析】根据连锁经营公司所属的5个零售店某月的销售额和利润额资料画出散点图如下.
从图中可以看出,5个点大致分布在一条直线附近,所以这两个变量具有线性相关关系.
【变式3-2】有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入(亿元)
32.2
31.1
32.9
35.8
37.1
38
39
43
44.6
46
A商品销售额(万元)
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
参考数据:,,,,.
【解析】画出散点图如下.从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.
.
可以推断居民年收入与A商品销售额正相关,即居民年收入越高,A商品销售额也越大.
题型四:线性相关性的检验
【典例4-1】根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【答案】D
【解析】由所给数据可知,当增大时减小,和呈负相关;当增大时和增大,和呈正相关.
故选:D
【典例4-2】为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【答案】B
【解析】由题中数据可知,y随x的增大而增大,且不成比例关系,故y与x正相关.
故选:B
【方法技巧与总结】
当相关系数越接近1时,两个变量的相关关系越强,当相关系数越接近0时,两个变量的相关关系越弱.
【变式4-1】给定与的一组成对数据,求得相关系数,则( )
A.与不相关 B.与正相关
C.与负相关 D.以上都不对
【答案】C
【解析】因为,所以与负相关.
故选:C.
【变式4-2】在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【答案】C
【解析】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
题型五:判断线性相关的强弱
【典例5-1】已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
【解析】依题意,,
,
,
,
因此,
所以这组成对的样本数据相关系数为0.999,具有很强的相关性.
【典例5-2】广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
【解析】(1)由已知得样本平均数,
从而广阳岛这种鸟数量的估计值为.
(2),
,
故样本的相关系数
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样.
理由如下:由(2)知各样区的这种鸟数量与植物覆盖面积有很强的正相关,
由于各地块间植物覆盖面积差异很大,从而各地块间这种鸟数量差异也很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得广阳岛这种鸟数量更准确的估计.
【变式5-1】某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:.
参考数据:.
【解析】,
,
,
,
,
故相关系数,
,
与高度正相关.
【变式5-2】某高中数学兴趣小组,在学习了统计案例后,准备利用所学知识研究成年男性的臂长(cm)与身高(cm)之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159
165
170
176
180
67
71
73
76
78
根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
【解析】由表中的数据和附注中的参考数据得
,,,,
,
,,
∴.
因为与的相关系数近似为0.997,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.
2
学科网(北京)股份有限公司
$$
8.1 成对数据的统计相关性
【题型归纳目录】
题型一:相关关系的理解
题型二:散点图与相关性
题型三:散点图及其应用
题型四:线性相关性的检验
题型五:判断线性相关的强弱
【知识点梳理】
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关.
3、线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4、相关系数的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为,对数据作进一步的“标准化处理”处理,,分别除和(和分别为,和的均值),得,为简单起见,把上述“标准化”处理后的成对数据分别记为,则变量和变量的样本相关系数的计算公式如下:.
【典型例题】
题型一:相关关系的理解
【典例1-1】下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
【典例1-2】下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【方法技巧与总结】
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
【变式1-1】下列两个变量之间的关系是相关关系的是( )
A.等边三角形的边长与其面积
B.匀速直线行驶的电车的位移与行驶时间
C.杂交水稻植株的高度与土壤湿润度
D.汽车在陆地上的刹车制动时间与洞庭湖湖面上的空气阻力
【变式1-2】下列两个变量中能够具有相关关系的是( )
A.人的身高与受教育的程度 B.人的体重与眼睛的近视程度
C.企业员工的工号与工资 D.儿子的身高与父亲的身高
题型二:散点图与相关性
【典例2-1】下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【典例2-2】观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【方法技巧与总结】
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【变式2-1】对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【变式2-2】对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论正确的是( )
A.乙组数据的相关系数大于零 B.甲组数据的相关程度比乙强
C.乙组数据的相关系数比甲组的更接近1 D.乙组数据的相关系数比甲小
题型三:散点图及其应用
【典例3-1】党的二十大报告指出绿水青山就是金山银山.某市为加快生态文明建设进程,加大生态环境保护投入力度,为祖国现代化建设增砖添瓦.现统计了该市近几年的生态环境保护投入资金,统计如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号x
1
2
3
4
5
6
投入资金y/千万
14
31
33
38
41
47
(1)根据上表作出散点图;
(2)观察散点图,判断投入资金y与年份编号x是否具有相关性.如果有,是正相关还是负相关.
【典例3-2】2023年3月6日,中华人民共和国国务院新闻办公室举行“权威部门话开局”系列主题新闻发布会,介绍“加快推进新型工业化做强做优做大实体经济”有关情况.经综合研判,今年我国新能源汽车产业将保持良好的发展态势,生产和销售将实现稳定增长.据统计,去年10月至今年2月某品牌新能源汽车的市场销售量如下表.
月份
10月
11月
12月
1月
2月
销售量万辆
0.6
0.7
1.0
1.3
1.6
(1)根据数据作出散点图;
(2)判断与之间的相关关系.
【方法技巧与总结】
1、画散点图时应注意合理选择单位长度,避免图形过大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
2、在这里利用散点图直观感知事物的形态与变化,理解事物间的关联及变化规律,是数学核心素养直观想象的具体体现.
【变式3-1】某连锁经营公司所属的5个零售店某月的销售额x(单位:千万元)和利润额y(单位:百万元)资料如表:
零售店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/百万元
2
3
3
4
5
画出销售额和利润额的散点图,并判断这两个变量是否具有线性相关关系.
【变式3-2】有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入(亿元)
32.2
31.1
32.9
35.8
37.1
38
39
43
44.6
46
A商品销售额(万元)
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
参考数据:,,,,.
题型四:线性相关性的检验
【典例4-1】根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【典例4-2】为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【方法技巧与总结】
当相关系数越接近1时,两个变量的相关关系越强,当相关系数越接近0时,两个变量的相关关系越弱.
【变式4-1】给定与的一组成对数据,求得相关系数,则( )
A.与不相关 B.与正相关
C.与负相关 D.以上都不对
【变式4-2】在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
题型五:判断线性相关的强弱
【典例5-1】已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
【典例5-2】广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
【变式5-1】某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:.
参考数据:.
【变式5-2】某高中数学兴趣小组,在学习了统计案例后,准备利用所学知识研究成年男性的臂长(cm)与身高(cm)之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159
165
170
176
180
67
71
73
76
78
根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
2
学科网(北京)股份有限公司
$$