内容正文:
【原卷版】 8.2 一元线性回归分析
选择性必修第二册 第8章 成对数据的统计分析
初中学习的平面几何,研究的是平面上的一些简单图形及其几何性质;从本章开始,我们将把视野从二维的平面拓展到三维的空间;在三维空间中的图形统称为空间图形或立体图形;立体几何所研究的就是一些简单的空间图形及其几何性质;
从平面几何到立体几何,我们要注意借鉴平面几何中已有的一些概念、方法和结论,更要特别注意立体几何和平面几何之间的区别;以本章学习的空间直线与平面为例,我们不仅要研究平面这类典型的空间图形,而且要对“直线”有更为深刻的认识;我们生活在一个三维世界中,立体几何的学习有助于我们从几何的角度更好地理解现实的世界,并且锻炼我们的几何直观想象能力;因此,在学习中,要着重注意几何的直观和内涵,不要仅仅停留在表面上的严格推导和论证,还要多画一些示意图来帮助理解,这样才能更好地掌握几何的实质,逐步培养自己的立体感和空间想象能力;
在必修课程第13章“统计”中,我们主要研究了来自单一变量数据的一些统计特征,如集中趋势、离散程度、分布等.但现实世界中许多事物和现象之间都是有联系的;在本章中,我们将主要学习来自两个变量的成对数据的相关分析和回归分析,掌握它们之间的统计规律;本章将要学习的相关分析、回归分析及 检验都属于推断性统计方法,它们在构建统计模型、预测结果和因果分析等方面有许多应用;在必修课程中学过的散点图是进行成对数据统计分析的基础,通过观察散点图可以大致了解数据的整体形态和偏离情况,发现两组数据之间的变化规律,构建适当的统计模型.统计图表不仅可以直观地表示数据及其规律,也是
建立统计直觉的重要途径;
【本章教材目录】第8章 成对数据的统计分析
8.1 成对数据的相关分析
8.1.1成对数据间的关系;8.1.2相关系数
8.2 一元线性回归分析
8.2.1一元线性回归分析的基本思想;8.2.2一元线性回归分析的应用举例
8.3 2x2列联表
8.3.12x2列联表独立性检验;8.3.2 独立性检验的具体应用
【本章内容提要】
相关分析和一元线性回归分析是研究两个变量关系的两个互为补充的方法;相关分析描述了两个变量的相关程度,而回归分析则描述了因变量是怎样受自变量影响的;
1、为了得到两个变量之间是否具有一定关系的直观印象,可以用散点图来描述这些数据;
2、相关系数可以度量两个随机变量之间的线性关系;相关系数的值满足,且越接近1,两个随机变量的线性关系越密切;
3、回归方程代表了两个变量间的关系,回归直线经过散点图中数据点的中心;回归直线的斜率越大,解释变量狓的一个单位变化所引起的反应变量狔的波动就越大;
4、回归方程可以通过最小二乘法得到.回归直线能较好地反映一个变量对另一个变量的依赖情况,具有解释因果关系和预测的功能.利用回归方程可以由解释变量的值来预测反应变量的值,从而给出反应变量真实值的一个估计;
5、2×2列联表描述两个分类变量所有值的组合数据是如何分布的.判断2×2列联表中出现的两个分类变量是否独立可采用 检验; 检验的一般步骤是:(1)提出原假设;(2)确定显著性水平;(3)计算统计量 的值;(4)统计决断:当≥时,拒绝原假设,推断两个变量相关,否则,接受原假设,推断两个变量不相关(即两个变量是独立的);在实际情况下,是否完全拒绝原假设,还需要考虑样本量的大小;
【要点方法解读】
解读点001 离差的概念与作用
1、离差的概念与作用
一般地,设给定一组有线性相关关系的成对数据、、…、和一个线性方程(或称线性模型); ①
如何描述数据与此线性方程的贴近度呢?
当变量取值(=1,2,…,)时,令,它是变量与对应的理想值;
但数据中的与不一定相同,它们的差称为在处的离差;
当时称为正离差,而当时称为负离差;
显然,离差直观地描述了单对数据与线性方程①的贴近度;
2、拟合误差
可以像计算方差那样,用离差的平方和来刻画直线与点之间的拟合程度;称为拟合误差;它是一个很好的描述数据与线性方程①贴近度的指标;
例1、色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且y=0.8x+,现有一对测量数据为(30,23.6),则该数据的残差为( )
色差x
21
23
25
27
色度y
15
18
19
20
A.-0.96 B.-0.8 C.0.8 D.0.96
解读点002 回归分析及其相关概念
我们把拟合误差取得最小值时得到的线性方程(线性模型)记为 ②
并称之为变量随波动的回归方程或回归模型,其中自变量称为解释变量,因变量称为反应变量;回归方程所定义的直线称为回归直线,回归方程的系数(或称回归模型的参数)与称为回归系数;
由一组有某种线性关系的成对数据求其回归方程的方法称为一元线性回归分析;
回归系数与的计算方法如下:
其中,与分别是数据与(=1,2,…,)的算术平均数;数对称为样本点的中心。
最小二乘法与最小二乘估计量
我们的回归分析是基于取最小值的假设,即基于所有离差的平方和取最小值的假设进行的;这种回归分析的方法称为最小二乘法,由最小二乘法导出的估计量称为最小二乘估计量,所得到的回归系数与又称为模型参数与的最小二乘估计;
建立一元线性回归模型的一般步骤
(1)确定研究对象,从一组数据出发,根据实际问题,明确哪个变量是自变量,哪个变量是因变量;
(2)对确定的自变量和因变量,绘制相应的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)若观察到数据呈线性关系,则选用线性方程;
(4)利用最小二乘法估计线性方程中的参数与,得到回归方程;
(5)得出结果后计算离差,采用统计方法检验模型是否合适(这一步本书不作要求);
(6)利用所求的回归方程进行预测;
题型一、利用回归方程求回归系数与
例2、已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且经验回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
题型二、利用样本中心求相关参数
例3、某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程y=x+中的为9.4,据此模型预测广告费用为6万元时销售额约为________万元.
题型三、求回归方程
例4、某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如下表所示.
年份x
2018
2019
2020
2021
2022
储蓄存款额y /千亿元
5
6
7
8
10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 017,z=y-5,得到下表.
t
1
2
3
4
5
z
0
1
2
3
5
(1)作z关于t的散点图,求z关于t的回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
题型四、利用回归方程进行预测
例5、偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科平均分的差叫某科偏差(实际成绩-平均分=偏差).在某次考试成绩统计中,某老师为了对学生数学偏差x(单位:分)与物理偏差y(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差x
20
15
13
3
2
-5
-10
-18
物理偏差y
6.5
3.5
3.5
1.5
0.5
-0.5
-2.5
-3.5
(1)若x与y之间具有线性相关关系,求y关于x的回归方程;
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.
参考数据和参考公式:
iyi=324,=1 256,
经验回归方程为y=x+,
其中=,=-.
题型五、真题体验
例6、(2024·天津蓟州·高三校考开学考试)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:
天数天
繁殖个数千个
由最小二乘法得与的回归方程为,则当时,繁殖个数的预测值为( )
A. B. C. D.
例7、 (2025·河南郑州模拟)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017~2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码xi
1
2
3
4
5
yi
6.4
5.5
5.0
4.8
3.8
(1)求2017~2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘估计公式分别为=,=-.
样本相关系数r=,≈6.
例8、(2016年全国III卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:,,
,≈2.646.
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:
【针对性即时练】
1、下列结论:①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③圆的面积和半径是相关关系.其中正确的是 (将所有正确的序号都填上);
2、命题①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求量与该商品的价格是一种非确定性关系;④根据散点图可以大致判断两个相关变量是正相关还是负相关.其中正确的命题是
3、5名学生的数学和物理成绩(单位:分)如下:
A
B
C
D
E
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
判断数学成绩与物理成绩是否具有线性相关关系; (填:“有”与“无”)
4、两个变量的相关关系有①正相关、②负相关、③不相关,则下列散点图从左到右分别反映的变量间的相关关系的序号依次是
5、如图所示,有5组数据:A(1,3),B(2,4),C(3,8),D(7,10),E(10,12),去掉________组数据后剩下的4组数据的线性相关系数最大.
6、变量、的散点图如图所示,那么、之间的样本相关系数最接近的值为
7、若已知(xi-)2是(yi-)2的两倍,(xi-)(yi-)是(yi-)2的1.2倍,则样本相关系数r的值为( )
A. B. C.0.92 D.0.65
8、为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的样本相关系数,其数值分别为0.939,0.937,0.948,则( )
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最弱
D.丙组数据的线性相关性最强,乙组数据的线性相关性最弱
9、从某地区12~30岁的居民中随机抽测了10个人的身高和体重,所得数据如下表所示:
身高/cm
143
156
159
172
165
171
177
161
164
160
体重/kg
41
49
61
79
68
69
74
69
68
54
根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.
10、某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一天内发芽数之间的关系进行了分析研究,他们分别记录了12月1日至12月6日每天昼夜最高、最低的温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙),得到如下资料:
(1)请画出发芽数y与温差x的散点图;
(2)请计算y与x的样本相关系数,说明y与x的线性相关程度如何.
参考数据:i=75,i=162,iyi=2 051,≈4.2,≈6.5.
参考公式:
r=(当|r|>0.75时,具有较强的线性相关关系).
6
/
学科网(北京)股份有限公司
$$
【解析版】 8.2 一元线性回归分析
选择性必修第二册 第8章 成对数据的统计分析
初中学习的平面几何,研究的是平面上的一些简单图形及其几何性质;从本章开始,我们将把视野从二维的平面拓展到三维的空间;在三维空间中的图形统称为空间图形或立体图形;立体几何所研究的就是一些简单的空间图形及其几何性质;
从平面几何到立体几何,我们要注意借鉴平面几何中已有的一些概念、方法和结论,更要特别注意立体几何和平面几何之间的区别;以本章学习的空间直线与平面为例,我们不仅要研究平面这类典型的空间图形,而且要对“直线”有更为深刻的认识;我们生活在一个三维世界中,立体几何的学习有助于我们从几何的角度更好地理解现实的世界,并且锻炼我们的几何直观想象能力;因此,在学习中,要着重注意几何的直观和内涵,不要仅仅停留在表面上的严格推导和论证,还要多画一些示意图来帮助理解,这样才能更好地掌握几何的实质,逐步培养自己的立体感和空间想象能力;
在必修课程第13章“统计”中,我们主要研究了来自单一变量数据的一些统计特征,如集中趋势、离散程度、分布等.但现实世界中许多事物和现象之间都是有联系的;在本章中,我们将主要学习来自两个变量的成对数据的相关分析和回归分析,掌握它们之间的统计规律;本章将要学习的相关分析、回归分析及 检验都属于推断性统计方法,它们在构建统计模型、预测结果和因果分析等方面有许多应用;在必修课程中学过的散点图是进行成对数据统计分析的基础,通过观察散点图可以大致了解数据的整体形态和偏离情况,发现两组数据之间的变化规律,构建适当的统计模型.统计图表不仅可以直观地表示数据及其规律,也是
建立统计直觉的重要途径;
【本章教材目录】第8章 成对数据的统计分析
8.1 成对数据的相关分析
8.1.1成对数据间的关系;8.1.2相关系数
8.2 一元线性回归分析
8.2.1一元线性回归分析的基本思想;8.2.2一元线性回归分析的应用举例
8.3 2x2列联表
8.3.12x2列联表独立性检验;8.3.2 独立性检验的具体应用
【本章内容提要】
相关分析和一元线性回归分析是研究两个变量关系的两个互为补充的方法;相关分析描述了两个变量的相关程度,而回归分析则描述了因变量是怎样受自变量影响的;
1、为了得到两个变量之间是否具有一定关系的直观印象,可以用散点图来描述这些数据;
2、相关系数可以度量两个随机变量之间的线性关系;相关系数的值满足,且越接近1,两个随机变量的线性关系越密切;
3、回归方程代表了两个变量间的关系,回归直线经过散点图中数据点的中心;回归直线的斜率越大,解释变量狓的一个单位变化所引起的反应变量狔的波动就越大;
4、回归方程可以通过最小二乘法得到.回归直线能较好地反映一个变量对另一个变量的依赖情况,具有解释因果关系和预测的功能.利用回归方程可以由解释变量的值来预测反应变量的值,从而给出反应变量真实值的一个估计;
5、2×2列联表描述两个分类变量所有值的组合数据是如何分布的.判断2×2列联表中出现的两个分类变量是否独立可采用 检验; 检验的一般步骤是:(1)提出原假设;(2)确定显著性水平;(3)计算统计量 的值;(4)统计决断:当≥时,拒绝原假设,推断两个变量相关,否则,接受原假设,推断两个变量不相关(即两个变量是独立的);在实际情况下,是否完全拒绝原假设,还需要考虑样本量的大小;
【要点方法解读】
解读点001 离差的概念与作用
1、离差的概念与作用
一般地,设给定一组有线性相关关系的成对数据、、…、和一个线性方程(或称线性模型); ①
如何描述数据与此线性方程的贴近度呢?
当变量取值(=1,2,…,)时,令,它是变量与对应的理想值;
但数据中的与不一定相同,它们的差称为在处的离差;
当时称为正离差,而当时称为负离差;
显然,离差直观地描述了单对数据与线性方程①的贴近度;
2、拟合误差
可以像计算方差那样,用离差的平方和来刻画直线与点之间的拟合程度;称为拟合误差;它是一个很好的描述数据与线性方程①贴近度的指标;
例1、色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且y=0.8x+,现有一对测量数据为(30,23.6),则该数据的残差为( )
色差x
21
23
25
27
色度y
15
18
19
20
A.-0.96 B.-0.8 C.0.8 D.0.96
【提示】理解离差与计算方法;
【答案】C;
【解析】由题意可知,==24,==18,
将(24,18)代入y=0.8x+,即18=0.8×24+,解得=-1.2,
所以y=0.8x-1.2,
当x=30时,y=0.8×30-1.2=22.8,
所以该数据的例差为23.6-22.8=0.8;
【说明】离差平方和法.称为离差平方和,一般地,离差平方和越小,模型的拟合效果越好;
解读点002 回归分析及其相关概念
我们把拟合误差取得最小值时得到的线性方程(线性模型)记为 ②
并称之为变量随波动的回归方程或回归模型,其中自变量称为解释变量,因变量称为反应变量;回归方程所定义的直线称为回归直线,回归方程的系数(或称回归模型的参数)与称为回归系数;
由一组有某种线性关系的成对数据求其回归方程的方法称为一元线性回归分析;
回归系数与的计算方法如下:
其中,与分别是数据与(=1,2,…,)的算术平均数;数对称为样本点的中心。
最小二乘法与最小二乘估计量
我们的回归分析是基于取最小值的假设,即基于所有离差的平方和取最小值的假设进行的;这种回归分析的方法称为最小二乘法,由最小二乘法导出的估计量称为最小二乘估计量,所得到的回归系数与又称为模型参数与的最小二乘估计;
建立一元线性回归模型的一般步骤
(1)确定研究对象,从一组数据出发,根据实际问题,明确哪个变量是自变量,哪个变量是因变量;
(2)对确定的自变量和因变量,绘制相应的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)若观察到数据呈线性关系,则选用线性方程;
(4)利用最小二乘法估计线性方程中的参数与,得到回归方程;
(5)得出结果后计算离差,采用统计方法检验模型是否合适(这一步本书不作要求);
(6)利用所求的回归方程进行预测;
题型一、利用回归方程求回归系数与
例2、已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且经验回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
【提示】注意理解回归方程及其相关概念;
【答案】2.6;
【解析】因为,回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
【说明】1、求解回归方程问题的关键是确定回归系数,,应充分利用经验回归直线过样本点的中心(,);2、)根据回归方程计算的y值,仅是一个预测值,不是真实发生的值;
特别注意:不要忽视回归直线过样本中心(,)
题型二、利用样本中心求相关参数
例3、某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程y=x+中的为9.4,据此模型预测广告费用为6万元时销售额约为________万元.
【提示】理解回归方程及其相关性质
【答案】65.5;
【解析】由表可得==3.5,==42,
因为点(3.5,42)在经验回归直线y=x+上,且=9.4,所以42=9.4×3.5+,解得=9.1;
故回归方程为y=9.4x+9.1.令x=6,得y=65.5.故预测广告费用为6万元时销售额约为65.5万元;
【说明】本题解题依据是利用回归直线过样本点的中心;
题型三、求回归方程
例4、某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如下表所示.
年份x
2018
2019
2020
2021
2022
储蓄存款额y /千亿元
5
6
7
8
10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 017,z=y-5,得到下表.
t
1
2
3
4
5
z
0
1
2
3
5
(1)作z关于t的散点图,求z关于t的回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
【提示】注意数形结合地分析已知数据;
【解析】(1)作散点图,直观看z与t具有线性相关关系,
根据z关于t的表格数据,得
=(1+2+3+4+5)=3,
=(0+1+2+3+5)=2.2,
且tizi=45,t=55,
所以,===1.2,
=-=2.2-1.2×3=-1.4;
所以z关于t的回归方程为z=1.2t-1.4;
(2)z=1.2t-1.4,代入t=x-2 017,z=y-5,
得y-5=1.2(x-2 017)-1.4,
即y=1.2x-2 416.8;
故y关于x的回归方程为y=1.2x-2 416.8;
【说明】求回归方程的一般步骤:
(1)作出散点图,确定x,y具有线性相关关系.
(2)计算,,x,xiyi.
(3)代入公式计算,的值.
(4)写出回归方程.
2.求经验回归方程时,经常遇到x,y的数字过大,直接求解和的值时,易出现错误.为了减少计算出错的风险,我们可以对给定的数据进行预处理,从而减少运算量,降低出错的概率.
题型四、利用回归方程进行预测
例5、偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科平均分的差叫某科偏差(实际成绩-平均分=偏差).在某次考试成绩统计中,某老师为了对学生数学偏差x(单位:分)与物理偏差y(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差x
20
15
13
3
2
-5
-10
-18
物理偏差y
6.5
3.5
3.5
1.5
0.5
-0.5
-2.5
-3.5
(1)若x与y之间具有线性相关关系,求y关于x的回归方程;
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.
参考数据和参考公式:
iyi=324,=1 256,
经验回归方程为y=x+,
其中=,=-.
【解析】(1)由题意可得,
=[20+15+13+3+2+(-5)+(-10)+(-18)]×=,
y)=[6.5+3.5+3.5+1.5+0.5+++]×=,
===,
所以=-=-×=,故回归方程为y=x+.
(2)由题意,设该同学的物理成绩为ω,则物理偏差为ω-91.5.
而数学偏差为128-120=8,
所以ω-91.5=×8+,解得ω=94,
所以,可以预测这位同学的物理成绩为94分.
【说明】1、判断两个变量是否线性相关:可以利用经验,也可以画散点图.
2、求回归方程,注意运算的正确性.
3、根据回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
题型五、真题体验
例6、(2024·天津蓟州·高三校考开学考试)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:
天数天
繁殖个数千个
由最小二乘法得与的回归方程为,则当时,繁殖个数的预测值为( )
A. B. C. D.
【答案】B
【解析】由题中数据可得:,,
因为回归直线必过样本中心,
所以,
所以,
所以当时,,
故选:B
例7、 (2025·河南郑州模拟)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017~2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码xi
1
2
3
4
5
yi
6.4
5.5
5.0
4.8
3.8
(1)求2017~2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘估计公式分别为=,=-.
样本相关系数r=,≈6.
【解析】(1)由已知可得,==3,
(y,\s\up6(-))==5.1,
由题意可列下表:
xi-
-2
-1
0
1
2
yi-
1.3
0.4
-0.1
-0.3
-1.3
(xi-)(yi-)=-5.9,
=,
=,
r=
=≈≈-0.98.
(2)由(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
由(1)知,===-0.59,
=-=5.1-(-0.59)×3=6.87,
所以y关于x的经验回归方程为y=-0.59x+6.87.
(3令x=10,则y=-0.59×10+6.87=0.97,
预测2026年的酸雨区面积占国土面积的百分比为0.97%.
例8、(2016年全国III卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:,,
,≈2.646.
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:
【提示】(1)根据相关系数的公式求出相关数据后,代入公式即可求得的值,最后根据值的大小回答即可;(2)准确求得相关数据,利用最小二乘法建立y关于t的回归方程,然后预测;
【解析】(1)由折线图中数据和附注中参考数据得
,,,
,
.
因为与的相关系数近似为0.99,说明与的线性相关相当高,从而可以用线性回归模型拟合与的关系.
(2)由及(Ⅰ)得,
.
所以,关于的回归方程为:.
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨;
【说明】本题考查了线性相关系数与回归方程的求法与应用;
判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求回归方程时要严格按照公式求解,并一定要注意计算的准确性;
【针对性即时练】
1、下列结论:①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③圆的面积和半径是相关关系.其中正确的是 (将所有正确的序号都填上);
【答案】①②;
【解析】根据函数关系及相关关系的定义,①函数关系是一种确定性关系;②相关关系是一种非确定性关系,是正确的;③圆的面积和半径是函数关系,故错误;
2、命题①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求量与该商品的价格是一种非确定性关系;④根据散点图可以大致判断两个相关变量是正相关还是负相关.其中正确的命题是
【答案】③④;
【解析】客观现象之间存在的相互依存关系叫相关关系,是一种不确定的关系,函数关系是一种确定的关系.①任何两个变量不一定都具有相关关系,故①错误;②圆的周长与该圆的半径是函数关系,而不是具有相关关系,故②错误;③某商品的需求量与该商品的价格是一种非确定性关系,故③正确;④根据散点图可以大致判断两个相关变量是正相关还是负相关. 上升趋势就是正相关,下降趋势就是负相关.故④正确.
3、5名学生的数学和物理成绩(单位:分)如下:
A
B
C
D
E
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
判断数学成绩与物理成绩是否具有线性相关关系; (填:“有”与“无”)
【提示】根据散点图判断;
【答案】有;
【解析】以x轴表示数学成绩,y轴表示物理成绩,得相应的散点图如图所示.
由散点图可知,各点分布在一条直线附近,故两者之间具有线性相关关系;
【说明】本题考查利用散点图判断两个变量是否线性相关,同时考查了数据分析与数学抽象的核心素养;
4、两个变量的相关关系有①正相关、②负相关、③不相关,则下列散点图从左到右分别反映的变量间的相关关系的序号依次是
【答案】①③②;
【解析】对于(1),图中的点成带状分布,且从左到右上升,是正相关关系;对于(2),图中的点没有明显的带状分布,是不相关的;对于(3),图中的点成带状分布,且从左到右是下降的,是负相关关系.
5、如图所示,有5组数据:A(1,3),B(2,4),C(3,8),D(7,10),E(10,12),去掉________组数据后剩下的4组数据的线性相关系数最大.
【答案】C
【解析】仔细观察点A(1,3),B(2,4),C(3,8),D(7,10),E(10,12),可知点A,B,D,E在一条直线附近,而C点明显偏离此直线上,由此可知去掉点C后,使剩下的四点组成的数组相关关系数最大.
6、变量、的散点图如图所示,那么、之间的样本相关系数最接近的值为
【答案】0;
【解析】根据变量、的散点图,得、之间的样本相关关系非常不明显,
所以,相关系数最接近的值应为0.
7、若已知(xi-)2是(yi-)2的两倍,(xi-)(yi-)是(yi-)2的1.2倍,则样本相关系数r的值为( )
A. B. C.0.92 D.0.65
【答案】B
【解析】r==
=,故选B.
8、为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的样本相关系数,其数值分别为0.939,0.937,0.948,则( )
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最弱
D.丙组数据的线性相关性最强,乙组数据的线性相关性最弱
【答案】D;
【解析】因为样本相关系数的绝对值越大则线性相关性越强,所以丙组数据的线性相关性最强,乙组数据的线性相关性最弱.故选D;
9、从某地区12~30岁的居民中随机抽测了10个人的身高和体重,所得数据如下表所示:
身高/cm
143
156
159
172
165
171
177
161
164
160
体重/kg
41
49
61
79
68
69
74
69
68
54
根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.
【解析】作出的散点图如图所示:
由散点图可知,两者之间具有相关关系,且为正相关.
10、某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一天内发芽数之间的关系进行了分析研究,他们分别记录了12月1日至12月6日每天昼夜最高、最低的温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙),得到如下资料:
(1)请画出发芽数y与温差x的散点图;
(2)请计算y与x的样本相关系数,说明y与x的线性相关程度如何.
参考数据:i=75,i=162,iyi=2 051,≈4.2,≈6.5.
参考公式:
r=(当|r|>0.75时,具有较强的线性相关关系).
【提示】根据成对样本数据的样本相关系数公式求得r的值,若r的绝对值越接近1,则两个变量的线性相关程度越强.
【解析】(1)散点图如图所示.
(2)r=
≈=≈0.952>0.75.
因为y与x的样本相关系数近似为0.952>0.75,所以y与x的线性相关
6
/
学科网(北京)股份有限公司
$$