内容正文:
第八章 相关分析与回归分析
目录
题型1:相关分析 5
题型2:线性回归分析 9
题型3:非线性回归分析 17
1.
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
提醒 相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2. 相关关系的刻画
(1) 散点图
将成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
1) 正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
2) 负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(2) 样本相关系数
1)
相关系数的计算
变量和变量的样本相关系数的计算公式:
.
2)
相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为.
③当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
3. 一元线性回归模型
通常称为关于的一元线性回归模型.其中称为因变量或响应变量,称为自变量或解释变量,和为模型的未知参数,称为截距参数,称为斜率参数,是与之间的随机误差.
4. 最小二乘法与线性回归方程
由得,显然越小,表明点与点的“距离”越小,即样本数据点离直线的竖直距离越小.特别地,当时,表示点在这条直线上.人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”.
在上式中,是已知的成对样本数据,所以由和所决定,当的取值为 时,达到最小.
我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求的最小值而得到经验回归方程的方法叫做最小二乘法.求得的叫做的最小二乘估计.
提醒 经验回归直线过样本点中心.
5. 残差分析
(1)
残差:,其中为实际观测值,为通过经验回归方程得到的预测值.
(2) 残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(3) 分析回归模型的拟合效果
评价指标
说明
残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精确度越高,回归方程的预报精度越高.
残差平方和
残差平方和越小,模型的拟合效果越好
决定系数(相关指数)
,越大 (越接近1), 表示残差平方和越小, 即模型的拟合效果越好; 越小(越接近0), 表示残差平方和越大, 即模型的拟合效果越差.
6. 非线性回归分析
研究两个变量的关系时,我们常常根据样本作出散点图,观察散点图中样本点的分布,从整体看,如果样本点没有在某一条直线附近,我们就称这两个变量之间不具有线性相关关系,即这两个变量是非线性相关关系.
解答非线性拟合问题,要先根据散点图选择合适的函数类型,通过对解释变量进行换元,将变量的非线性关系转化为线性关系.
常见函数模型的转化:
(1)
幂函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(2)
指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(3)
倒指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(4)
对数函数型:
处理方法:设原方程就转化为,然后根据一元线性回归模型求出.
题型1:相关分析
【例1.1.】
某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
【答案】(1)平均电池容量,平均续航里程.
(2)0.995
(3)
【难度】0.76
【知识点】相关系数的计算、根据回归方程进行数据估计、计算几个数的平均数
【详解】(1)平均电池容量,
平均续航里程.
(2)
(3)由样本数据,可知续航里程与电池容量的比值约为,
故新款车型续航里程的估计值为.
【例1.2.】
研究线性回归模型时,若成对数据所对应的点均在直线上,则线性相关系数为( )
A.1 B. C.2 D.
【答案】B
【难度】0.88
【知识点】相关系数的意义及辨析
【详解】所有样本点都在直线上,是完全线性相关.
斜率为负,属于完全负相关,所以线性相关系数.
【例1.3.】
对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是( )
A. B.
C. D.
【答案】A
【难度】0.86
【知识点】判断正、负相关、相关系数的意义及辨析、相关关系与函数关系的概念及辨析
【分析】根据散点图及相关系数的性质,逐一分析各个选项,即可得答案.
【详解】由图1和图2可得,随的增大而增大,随的增大而减小,
所以,所以,故B正确;
因为图1的数据点比图2的更集中,所以,
所以,,故A错误,C正确;
,故D正确.
【例1.4.】
某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标(单位:)随给药剂量(单位:)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ii)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;
经验回归方程中斜率和截距的最小二乘估计公式分别为,
【答案】(1)模型一,理由见解析
(2)(i)A点,理由见解析;(ii)
【难度】0.71
【知识点】相关系数的计算、残差的计算、用回归直线方程对总体进行估计
【分析】(1)根据残差图,比较带状区域的宽度即可得出判断;
(2)(ⅰ)计算出残差即可求解;
(ⅱ)根据相关系数公式及经验回归方程计算即可.
【详解】(1)模型一拟合效果好.
理由如下:
模型一的残差图中的点更集中地分布于以取值为0的横轴为中心的宽度更窄的水平带状区域内,
说明预测值与真实值偏差更小.
(2)(ⅰ)在中,代入,得,
于是残差为,因此对于模型一中的A点.
(ⅱ),,
.
题型2:线性回归分析
【例2.1.】 近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
【答案】(1);
(2),预测2027年该App的在线用户数为420万人.
【难度】0.72
【知识点】相关系数的计算、用回归直线方程对总体进行估计、求回归直线方程
【分析】(1)先计算年份代码和用户数的均值,再计算各离差乘积及平方和,代入相关系数公式求解即可;
(2)利用最小二乘估计公式求出回归系数和截距,得回归直线方程,再将2027年对应的代码代入计算即可.
【详解】(1)由题得,,
则,.
(2)由(1)可得,
则,,
所以y关于x的回归直线方程为,
当时,,所以预测2027年该App的在线用户数为420万人.
【例2.2.】
某种肉鸡出栏时平均重量可达3.5千克,在没有人工干预的情况下自然繁殖,其出栏时的平均重量会一代不如一代,最后跟普通肉鸡差别不大.某实验室为了得到这种肉鸡自然繁殖后前一代与后一代的平均重量间的关系,将此种肉鸡视为第1代且又繁殖了10代.最后得到前一代平均重量(千克)与后一代平均重量(千克)之间的线性回归方程.已知第2代至第10代的平均重量之和为20千克,则第11代的平均重量为( )
A.2.4千克 B.2.1千克 C.1.8千克 D.1.5千克
【答案】C
【难度】0.65
【知识点】线性回归
【分析】根据题意计算出的表达式,代入直线方程即可求得第11代的平均重量.
【详解】设第1代至第11代的平均重量分别为,易知;
又,
前一代平均重量,后一代平均重量,
将代入回归方程可得,
解得.
故选:C
【例2.3.】
(多选)为更好地促进同学们的动手能力,某学校拟开展物理实验周活动,组织同学们到实验室中开展物理实验.在某个实验中,某同学利用自己测量得出的实验数据(已知其中含1个异常样本点),利用最小二乘法进行计算得出了经验回归方程及决定系数.并利用计算机处理得到了以下的实验结果1,实验结果2为删除该异常样本点后利用最小二乘法进行计算得到的经验回归方程及决定系数,则( )
A.可认为该实验中的自变量与因变量符合线性回归模型
B.推测实验结果1中的异常样本点的自变量的值可能为0.33
C.由于,则实验结果1相较于实验结果2拟合更好
D.实验结果1的因变量的平均值大于实验结果2的因变量的平均值
【答案】AB
【难度】0.65
【知识点】相关系数的意义及辨析、线性回归
【分析】利用图即可判断AB,由决定系数的意义即可判断C,根据图象估计平均值即可判断D.
【详解】对于A:由散点图可知该实验中的自变量与因变量符合线性回归模型,故A正确;
对于B:根据实验结果1的图可知异常样本点的自变量的值可能为0.33,故B正确;
对于C:由于,则实验结果2相较于实验结果1拟合得更好,故C错误;
对于D:由于实验结果1包含了异常样本点对应的因变量值接近,比其他正常样本点对应的因变量值小得多,
故实验结果1的因变量的平均值小于实验结果2的因变量的平均值,即D错误.
故选:AB.
【例2.4.】
(多选)某设备的使用年限(年)和所支出的维修费用(万元)有如下表的统计资料:
2
3
4
5
6
2.2
3.8
6.5
7.0
已知根据表中原始数据得回归直线方程为.某位工作人员在查阅资料时发现表中有个数据模糊不清了,下列说法正确的是( )
A.所支出的维修费用与使用年限正相关
B.估计使用10年维修费用是12.38万元
C.根据回归方程可推断出模糊不清的数据的值为5
D.第3年维修费用的残差为0.03万元
【答案】ABD
【难度】0.65
【知识点】根据回归方程进行数据估计、根据样本中心点求参数、判断正、负相关、残差的计算
【分析】根据线性回归方程斜率判断A;利用线性回归方程预测的情况判断B;由可求出模糊数据判断C;根据残差公式计算即可判断D.
【详解】解:因为回归直线斜率大于0,所以所支出的维修费用与使用年限正相关,A正确;
将代入回归直线方程得,B正确:
,,
则模糊数据为,C错;
时,估计值,而实际值为,
则第3年维修费用的残差为0.03万元,故D正确.
【例2.5.】 某健身俱乐部为研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下表:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
每周锻炼时长x/小时
3
4
2
5
6
4
5
3
4
4
40
体重减少量y/千克
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
经过计算得,,.
(1)根据表格中的数据,可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,请用样本相关系数加以说明(结果精确到0.01);
(2)求经验回归方程(,的结果均精确到0.01);
(3)该俱乐部在推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
参考公式及数据:样本相关系数,经验回归方程中斜率和截距的最小二乘估计公式分别为,.,.
【答案】(1)y与x的线性相关程度很高,可用一元线性回归模型刻画
(2)
(3)答案见解析
【难度】0.69
【知识点】相关系数的计算、求回归直线方程、用回归直线方程对总体进行估计
【分析】(1) 利用相关系数公式直接代入数据求解即可;
(2) 利用公式,先求一次项系数,再利用经过样本中心点,可求出,从而可得回归直线方程;
(3)利用一次项系数可解释会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际效果相当,说明具有参考价值.
【详解】(1)解:由表可知,,
所以,
因为0.93非常接近1,
所以y与x的线性相关程度很高,可用一元线性回归模型刻画.
(2)由题意可知,
,
所以.
(3)由(2)可知,根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,
预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,
所以实际结果与预测结果基本一致,说明该回归模型具有参考价值.
造成一定差异的原因可能是样本数据过少,或者造成体重减少的原因还受其他因素影响,
比如睡眠、饮食、锻炼强度以及效果等.
【例2.6.】 某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月至6月每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料.
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差/℃
10
11
13
12
8
6
就诊人数/人
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组数据,用剩下的4组数据求经验回归方程,再用选取的2组数据进行检验,
(1)求选取的2组数据不是相邻两个月的数据的概率;
(2)若选取的是1月与6月的两组数据,请根据2月至5月的数据,求出关于的经验回归方程;
(3)若由经验回归方程得到的估计数据与选出的检验数据的误差不超过2人,则认为得到的经验回归方程是理想的,判断该小组得到的经验回归方程是否理想.
【答案】(1)
(2)
(3)是理想的
【难度】0.65
【知识点】根据回归方程进行数据估计、计算古典概型问题的概率、利用对立事件的概率公式求概率、求回归直线方程
【分析】(1)利用组合数和对立事件的概率公式直接求解即可;
(2)利用最小二乘法直接求解即可;
(3)分别将和代入回归直线方程,由此可得预估值,由绝对值均不超过1可得结论.
【详解】(1)设“抽到相邻两个月的数据”为事件A,
因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月的数据的情况有5种,所以.
(2)由2月到5月的数据求得,
,
,
,
故所求经验回归方程为.
(3)当时,;则
当时,,则,
所以该小组得到的经验回归方程是理想的.
【例2.7.】 某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【答案】(1), 0.27秒,;
(2)成立,证明见解析.
【难度】0.65
【知识点】残差的计算、线性回归
【分析】(1)根据已知条件求得回归方程的系数,即可得回归方程,将代入回归方程,即可得到答案;
(2)结合题中数据进行计算,可求得步长的残差和,从而可得结论,结合回归方程系数的计算公式即可证明.。
【详解】(1),,
,,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是0.27秒.
(2)根据(1)得到,;
,;
,;
,;
,,
所以,即步长残差和为0.
对任意具有线性相关关系的两个变量都成立,证明如下:
.
题型3:非线性回归分析
【例3.1.】
电动自行车作为一种绿色、节能的交通工具,受到广大市民的青睐,但随之而来的电动自行车违规停放和充电的问题,已成为城市管理的一大难题.某市为切实消除电动自行车消防安全隐患,决定在各小区建设智能充电桩,并统计了第1个月到6个月的充电桩的建成数量(单位:千个)如下表所示:
第个月
1
2
3
4
5
6
充电桩建成数量(千个)
0.9
1.7
3.2
5
5.3
5.5
根据表中数据,拟使用模型和模型对两个变量,进行拟合.
(1)请从相关系数的角度,分析哪一个模型的拟合程度更好;
(2)根据(1)的分析,选取拟合程度更好的模型,求出关于的经验回归方程,并预测到第8个月时,全市的充电桩建成数量.
参考公式:对于一组数据,其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,,令,,,;令,,,.
【答案】(1)的拟合程度更好.
(2)经验回归方程为,预测到第8个月时,全市的充电桩建成数量为6400个.
【难度】0.65
【知识点】相关系数的计算、根据回归方程进行数据估计、求回归直线方程
【分析】(1)分别计算两个模型的相关系数,再进行比较即可.
(2)首先计算均值,求出经验回归方程,再代入计算即可.
【详解】(1)对于模型,令,代入公式得.
对于模型,令,代入公式得.
因为,所以的拟合程度更好.
(2),.
根据最小二乘估计,.
因此关于的经验回归方程为.
当时,代入得.
因此预测到第8个月时,全市充电桩建成数量为千个.
【例3.2.】
某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
【答案】(1)更适宜作为回归模型.
(2)(i);(ii)会报警提示,理由见解析
【难度】0.64
【知识点】求回归直线方程、根据回归方程进行数据估计、非线性回归
【分析】(1)由散点图知,能更好地对与的关系进行拟合.
(2)(i)两边取对数得,进而利用最小二乘法可求得回归方程;(ii)代入,计算可得结论.
【详解】(1)函数是均匀变化的,图象是一条直线,
函数的图象是一条曲线,选择恰当的可使更好拟合散点图.
所以更适宜作为回归模型.
(2)(i)两边取对数得,
由于,故,
,
即,故,
(ii)会报警提示,理由如下:
中,令得,
故会报警提示
【例3.3.】
椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(1)
(2)644.6;258.3
【难度】0.68
【知识点】非线性回归、用回归直线方程对总体进行估计、根据回归方程进行数据估计、求回归直线方程
【分析】(1)根据散点图分析得出回归方程类型,结合非线性回归模型转化线性回归方程分析求解即可;
(2)根据(1)中的方程代入相关变量计算分析即可.
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
【例3.4.】
为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【难度】0.67
【知识点】非线性回归、相关系数的意义及辨析、相关系数的计算、求回归直线方程
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
【例3.5.】
脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【答案】(1)选择模型②,理由见解析
(2),10人
【难度】0.65
【知识点】残差的计算、求回归直线方程、根据回归方程进行数据估计、非线性回归
【分析】(1)通过观察两个模型残差的波动幅度和集中程度来选择模型;
(2)结合所选模型,令,则可转化为线性回归模型,利用最小二乘法公式计算和;再将代回,得到关于的经验回归方程,进而求解的最小值.
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
【例3.6.】 学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2);
(3)答案见解析
【难度】0.66
【知识点】求回归直线方程、非线性回归
【分析】(1)根据题意,经比较可得最合适的函数模型;
(2)由(1)中模型可得,设,,则,利用公式可求后者,从而得到前者;
(3)根据回归方程可得相应的看法.
【详解】(1)根据题意,经比较可知,选择②()作为学习时间x和平均成绩y的回归类型最合适;
(2)对()两边取以e为底的对数可得,
设,则,
,所以,
故,即,
所以;
(3)此回归方程为关于学习时间的增函数,说明随着课后的学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加课后的学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长课后的学习时间来提高学习成绩就比较困难了,需要想别的办法.
【例3.7.】
水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适宜
(2)
(3)347
【难度】0.75
【知识点】求回归直线方程、根据回归方程进行数据估计、非线性回归
【分析】(1)根据散点图的特征确定回归方程类型.
(2)利用非线性回归及最小二乘法求出回归方程.
(3)利用(2)的结论进行数据估计.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
(
1
)
学科网(北京)股份有限公司
$
第八章 相关分析与回归分析
目录
题型1:相关分析 5
题型2:线性回归分析 7
题型3:非线性回归分析 10
1.
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
提醒 相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2. 相关关系的刻画
(1) 散点图
将成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
1) 正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
2) 负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(2) 样本相关系数
1)
相关系数的计算
变量和变量的样本相关系数的计算公式:
.
2)
相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为.
③当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
3. 一元线性回归模型
通常称为关于的一元线性回归模型.其中称为因变量或响应变量,称为自变量或解释变量,和为模型的未知参数,称为截距参数,称为斜率参数,是与之间的随机误差.
4. 最小二乘法与线性回归方程
由得,显然越小,表明点与点的“距离”越小,即样本数据点离直线的竖直距离越小.特别地,当时,表示点在这条直线上.人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”.
在上式中,是已知的成对样本数据,所以由和所决定,当的取值为 时,达到最小.
我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求的最小值而得到经验回归方程的方法叫做最小二乘法.求得的叫做的最小二乘估计.
提醒 经验回归直线过样本点中心.
5. 残差分析
(1)
残差:,其中为实际观测值,为通过经验回归方程得到的预测值.
(2) 残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(3) 分析回归模型的拟合效果
评价指标
说明
残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精确度越高,回归方程的预报精度越高.
残差平方和
残差平方和越小,模型的拟合效果越好
决定系数(相关指数)
,越大 (越接近1), 表示残差平方和越小, 即模型的拟合效果越好; 越小(越接近0), 表示残差平方和越大, 即模型的拟合效果越差.
6. 非线性回归分析
研究两个变量的关系时,我们常常根据样本作出散点图,观察散点图中样本点的分布,从整体看,如果样本点没有在某一条直线附近,我们就称这两个变量之间不具有线性相关关系,即这两个变量是非线性相关关系.
解答非线性拟合问题,要先根据散点图选择合适的函数类型,通过对解释变量进行换元,将变量的非线性关系转化为线性关系.
常见函数模型的转化:
(1)
幂函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(2)
指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(3)
倒指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(4)
对数函数型:
处理方法:设原方程就转化为,然后根据一元线性回归模型求出.
题型1:相关分析
【例1.1.】
某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
【例1.2.】
研究线性回归模型时,若成对数据所对应的点均在直线上,则线性相关系数为( )
A.1 B. C.2 D.
【例1.3.】
对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是( )
A. B.
C. D.
【例1.4.】
某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标(单位:)随给药剂量(单位:)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ii)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;
经验回归方程中斜率和截距的最小二乘估计公式分别为,
题型2:线性回归分析
【例2.1.】 近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
【例2.2.】
某种肉鸡出栏时平均重量可达3.5千克,在没有人工干预的情况下自然繁殖,其出栏时的平均重量会一代不如一代,最后跟普通肉鸡差别不大.某实验室为了得到这种肉鸡自然繁殖后前一代与后一代的平均重量间的关系,将此种肉鸡视为第1代且又繁殖了10代.最后得到前一代平均重量(千克)与后一代平均重量(千克)之间的线性回归方程.已知第2代至第10代的平均重量之和为20千克,则第11代的平均重量为( )
A.2.4千克 B.2.1千克 C.1.8千克 D.1.5千克
【例2.3.】
(多选)为更好地促进同学们的动手能力,某学校拟开展物理实验周活动,组织同学们到实验室中开展物理实验.在某个实验中,某同学利用自己测量得出的实验数据(已知其中含1个异常样本点),利用最小二乘法进行计算得出了经验回归方程及决定系数.并利用计算机处理得到了以下的实验结果1,实验结果2为删除该异常样本点后利用最小二乘法进行计算得到的经验回归方程及决定系数,则( )
A.可认为该实验中的自变量与因变量符合线性回归模型
B.推测实验结果1中的异常样本点的自变量的值可能为0.33
C.由于,则实验结果1相较于实验结果2拟合更好
D.实验结果1的因变量的平均值大于实验结果2的因变量的平均值
【例2.4.】
(多选)某设备的使用年限(年)和所支出的维修费用(万元)有如下表的统计资料:
2
3
4
5
6
2.2
3.8
6.5
7.0
已知根据表中原始数据得回归直线方程为.某位工作人员在查阅资料时发现表中有个数据模糊不清了,下列说法正确的是( )
A.所支出的维修费用与使用年限正相关
B.估计使用10年维修费用是12.38万元
C.根据回归方程可推断出模糊不清的数据的值为5
D.第3年维修费用的残差为0.03万元
【例2.5.】 某健身俱乐部为研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下表:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
每周锻炼时长x/小时
3
4
2
5
6
4
5
3
4
4
40
体重减少量y/千克
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
经过计算得,,.
(1)根据表格中的数据,可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,请用样本相关系数加以说明(结果精确到0.01);
(2)求经验回归方程(,的结果均精确到0.01);
(3)该俱乐部在推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
参考公式及数据:样本相关系数,经验回归方程中斜率和截距的最小二乘估计公式分别为,.,.
【例2.6.】 某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月至6月每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料.
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差/℃
10
11
13
12
8
6
就诊人数/人
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组数据,用剩下的4组数据求经验回归方程,再用选取的2组数据进行检验,
(1)求选取的2组数据不是相邻两个月的数据的概率;
(2)若选取的是1月与6月的两组数据,请根据2月至5月的数据,求出关于的经验回归方程;
(3)若由经验回归方程得到的估计数据与选出的检验数据的误差不超过2人,则认为得到的经验回归方程是理想的,判断该小组得到的经验回归方程是否理想.
【例2.7.】 某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
题型3:非线性回归分析
【例3.1.】
电动自行车作为一种绿色、节能的交通工具,受到广大市民的青睐,但随之而来的电动自行车违规停放和充电的问题,已成为城市管理的一大难题.某市为切实消除电动自行车消防安全隐患,决定在各小区建设智能充电桩,并统计了第1个月到6个月的充电桩的建成数量(单位:千个)如下表所示:
第个月
1
2
3
4
5
6
充电桩建成数量(千个)
0.9
1.7
3.2
5
5.3
5.5
根据表中数据,拟使用模型和模型对两个变量,进行拟合.
(1)请从相关系数的角度,分析哪一个模型的拟合程度更好;
(2)根据(1)的分析,选取拟合程度更好的模型,求出关于的经验回归方程,并预测到第8个月时,全市的充电桩建成数量.
参考公式:对于一组数据,其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,,令,,,;令,,,.
【例3.2.】
某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
【例3.3.】
椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【例3.4.】
为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【例3.5.】
脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【例3.6.】 学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【例3.7.】
水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
(
1
)
学科网(北京)股份有限公司
$