内容正文:
第10讲 一元线性回归模型及其应用
目录
题型归纳 1
题型01 根据散点图判断是否线性相关 3
题型02 由散点图画求近似回归直线 6
题型03 解释回归直线方程的意义 9
题型04 用回归直线方程对总体进行估计 12
题型05 根据回归方程求原数据中的值 14
题型06 计算样本的中心点 17
题型07 根据回归方程进行数据估计 19
题型08 根据样本中心点求参数 23
题型09 求回归直线方程 25
题型10 最小二乘法的概念及辨析 30
分层练习 32
夯实基础 32
能力提升 42
知识点01一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
知识点02线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
知识点03残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点04刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
知识点05回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
题型01根据散点图判断是否线性相关
【例1】(23-24高二下·北京房山·期末)如图 ①、②、③、④ 分别为不同样本数据的散点图,其对应的线性相关系数分别为,则中最大的是( )
A. B.
C. D.
【答案】A
【知识点】相关系数的意义及辨析、根据散点图判断是否线性相关
【分析】由散点图图形趋势可判断大小关系.
【详解】因③图形比较分散,则;因①②④相较③接近于一条直线附近,则,
又②为下降趋势,则,①比④更接近一条直线,且呈上升趋势,则.
综上,最大.
故选:A
【变式1】(23-24高二下·贵州遵义·期末)下列散点图中,相关性系数最大的是( ).
A. B.
C. D.
【答案】C
【知识点】相关系数的意义及辨析、根据散点图判断是否线性相关
【分析】由点的分布特征可直接判断.
【详解】观察4幅图可知,C图散点分布比较集中,且大体接近某一条直线,
所以,线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.
故选:C
【变式2】(23-24高二下·广西·期末)对四组数据进行统计,获得以下散点图,设①②③④图对应的相关系数分别为,,,,则,,,的大小关系为( )
A. B. C. D.
【答案】A
【知识点】根据散点图判断是否线性相关、相关系数的意义及辨析
【分析】根据散点图和相关系数的知识即可求解.
【详解】由散点图可知,图①,③是正相关,图②,④是负相关,
且图①,②比③,④的线性相关性更强,所以.
故选:A.
【变式3】(23-24高二下·福建福州·期末)在以下4幅散点图中,和成正线性相关关系的是( )
A. B.
C. D.
【答案】B
【知识点】相关系数的意义及辨析、根据散点图判断是否线性相关、判断正、负相关
【分析】利用散点图可直观看出是否线性相关和正相关.
【详解】对于A,由于散点图分散,估计没有线性相关关系,故A错误;
对于B,根据散点图集中在一条递增的直线附近,说明它们线性相关且是正相关,故B正确;
对于C,根据散点图集中在一条递减的直线附近,说明它们线性相关且是负相关,故C错误;
对于D,根据散点图集中在一条曲线附近,说明它们非线性相关,故D错误;
故选:B.
题型02 由散点图画求近似回归直线
【例2】(21-22高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【答案】B
【知识点】由散点图画求近似回归直线
【分析】由散点图的变化趋势,结合四个选项中函数的单调性即可得结论.
【详解】由图可知,图象随着x的增大而增高,且增长速度越来越快,
结合选项,可判断最适宜作为感染人数y和时间x的回归方程.
故选:B
【变式1】(21-22高二下·河南信阳·期末)如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【答案】C
【知识点】由散点图画求近似回归直线
【分析】根据散点图与给所函数的图象的偏离情况,即可求解.
【详解】由散点图可知,y与x负相关,故排除A,B,对于D:,点偏离较大,而点近似在曲线附近,所以 y关于x的回归方程是C的可能性大.
故选:C.
【变式2】(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【知识点】由散点图画求近似回归直线
【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【详解】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
【变式3】(21-22高三上·全国·阶段练习)2021年8月27日教育部在其网站发布了2020年全国教育事业发展统计公报,其中“十三五”时期全国高等教育在学总规模和毛入学率如下图所示,则下列四个回归方程类型中最适合作为毛入学率和年份数的回归方程类型是( )
A. B.
C. D.
【答案】A
【知识点】由散点图画求近似回归直线
【分析】结合散点图的变化趋势进行判断,即可得到答案.
【详解】根据图象可知,函数图象随着自变量的变大,函数值增长速度基本不变,再由图象的形状结合选项,可判定函数符合要求.
故选:A
题型03 解释回归直线方程的意义
【例3】(23-24高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数的绝对值越接近0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点一定在经验回归直线上
D.若经验回归方程为,则每增加1个单位,的值就增加10个单位
【答案】D
【知识点】解释回归直线方程的意义、相关系数的意义及辨析、残差的计算
【分析】由相关系数的定义求解选项A.由残差图的含义求解选项B.由线性回归方程的性质知点一定在经验回归直线上求解选项C.由经验回归方程的性质和意义求解选项D.
【详解】选项A:由相关系数的绝对值越接近0,则两个变量的线性相关程度越弱,可知选项A正确;
选项B:由在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好可知选项B正确;
选项C:由点一定在经验回归直线上知选项C正确;
选项D:由回归方程的性质可知;若经验回归方程为,则每增加1个单位,的值就平均增加3个单位,可知D选项C错误.
故选:D.
【变式1】(23-24高二下·北京房山·期末)为了研究儿子身高与父亲身高的关系,某机构调查了某所高校14名男大学生的身高及其父亲的身高(单位:cm),得到的数据如表所示.
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高
176
176
170
170
185
176
178
174
170
168
178
172
165
182
父亲身高的平均数记为,儿子身高的平均数记为,根据调查数据,得到儿子身高关于父亲身高的回归直线方程为.则下列结论中正确的是( )
A.与正相关,且相关系数为
B.点不在回归直线上
C.每增大一个单位,增大个单位
D.当时,.所以如果一位父亲的身高为176cm,他儿子长大成人后的身高一定是177cm
【答案】C
【知识点】解释回归直线方程的意义
【分析】由回归方程意义及性质可判断选项正误.
【详解】A选项,因,则与正相关,但相关系数不是,故A错误;
B选项,回归方程过定点,故B错误;
C选项,由回归方程可知每增大一个单位,增大个单位,故C正确;
D选项,回归方程得到的为预测值,不一定满足实际情况,故D错误.
故选:C
【变式2】(21-22高二上·全国·单元测试)调查了某地若干户家庭的年收入(单位:万元)和年饮食支出(单位:万元),调查显示年收入与年饮食支出具有线性相关关系,并由调查数据得到对的回归直线方程:.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元.
【答案】0.254
【知识点】解释回归直线方程的意义
【分析】利用回归方程计算年收入增加1万元后,年饮食支出的增量即可得答案.
【详解】∵对的回归直线方程.∴当家庭年收入增加1万元时,,
∵.故年饮食支出平均增加0.254万元.
故答案为:0.254.
【变式3】(23-24高二下·河南南阳·阶段练习)某同学在研究变量,之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则 0(填“>”或“<”).
4.8
5.8
7
8.3
9.1
2.8
4.1
7.2
9.1
11.8
【答案】
【知识点】解释回归直线方程的意义、绘制散点图、判断正、负相关
【分析】画出散点图,数形结合得到答案.
【详解】画出散点图如下:
从而可以看出中,.
故答案为:.
题型04 用回归直线方程对总体进行估计
【例4】(21-22高二下·甘肃临夏·期末)已知施肥量与玉米产量之间的回归方程为,则当施肥量时,对玉米产量的估计值为( )
A. B.545 C. D.
【答案】C
【知识点】用回归直线方程对总体进行估计
【分析】将代入回归方程即可求解
【详解】因为施肥量与玉米产量之间的回归方程为,
则当施肥量时,,
故选:C
【变式1】(23-24高二下·辽宁朝阳·期末)已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【答案】D
【知识点】用回归直线方程对总体进行估计
【分析】根据样本中心点在回归直线方程上代入计算可得结果.
【详解】易知样本数据的中心点在回归直线方程上,
易知,所以,
即,可得.
故选:D
【变式2】(23-24高二上·全国·课后作业)从某大学随机选取8名女大学生,其身高(单位:cm)和体重(单位:kg)的回归方程为,则身高172 cm的女大学生,由回归方程可以预测其体重( )
A.为60.316 kg B.约为60.316 kg
C.大于60.316 kg D.小于60.316 kg
【答案】B
【知识点】用回归直线方程对总体进行估计
【分析】根据题意,令,代入回归直线方程,即可求解.
【详解】由身高和体重的回归方程为,
令,可得(),
即由回归方程可以预测其体重大约为.
故选:B.
【变式3】(21-22高二下·河南焦作·期末)为了解某小区居民的家庭年收入(万元)与年支出(万元),随机调查了该小区的10户家庭,根据调查数据可得关于的回归直线方程为,,.若该小区某家庭的年收入为30万元,则估计该家庭的年支出为 万元.
【答案】.
【知识点】用回归直线方程对总体进行估计
【分析】根据回归直线恒过样本中心点,求得回归直线方程为,代入,即可求解.
【详解】由题意,回归直线恒过样本中心点,可得,解得,
即回归直线方程为,
当时,可得,
故估计该家庭的年支出为万元.
故答案为:.
题型05 根据回归方程求原数据中的值
【例5】(20-21高二下·福建福州·期中)已知具有线性相关的两个变量,之间的一组数据如表:
0
1
2
3
4
2
4.2
4.5
4.6
且回归方程是,则( )
A.5.6 B.5.3 C.5.0 D.4.7
【答案】D
【知识点】根据回归方程求原数据中的值
【分析】由于回归直线过样本中心点,所以求出中心点坐标代入可求出参数的值
【详解】解:由题意得,,
因为回归方程是,
所以,解得,
故选:D
【变式1】(20-21高二上·湖北武汉·期末)下表是某两个相关变量x,y的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为,那么表中t的值为( )
x
3
4
5
6
y
2
t
4
4.85
A.3 B.3.15 C.3.5 D.4
【答案】B
【知识点】根据回归方程求原数据中的值
【分析】计算得到,,代入回归方程计算得到答案.
【详解】,,
中心点过,
即,解得.
故选:B.
【点睛】本题考查了回归方程的相关问题,意在考查学生的计算能力.
【变式2】(22-23高二下·浙江温州·期中)已知变量和的统计数据如下表:
-2
-1
0
1
2
5
2
2
1
由表中的数据得到线性回归方程,那么当时残差为 .(注:残差观测值-预测值)
【答案】/
【知识点】残差的计算、根据回归方程求原数据中的值
【分析】利用给定数表及回归直线方程,求出时的观测值和预测值即可计算作答.
【详解】由数表知,,则,
因此时的观测值为,而时的预测值为,
所以当时残差为.
故答案为:
【变式3】(21-22高二上·安徽亳州·期末)已知变量X,Y的一组样本数据如下表所示,其中有一个数据丢失,用a表示.若根据这组样本利用最小二乘法求得的Y关于X的回归直线方程为,则 .
X
1
4
9
16
25
Y
2
a
36
93
142
【答案】17
【知识点】根据回归方程求原数据中的值
【分析】根据回归直线必过样本点中心即可解出.
【详解】因为,,所以
,解得.
故答案为:17.
题型06 计算样本的中心点
【例6】(23-24高二下·天津北辰·期中)如果记录了x,y的几组数据分别为,,,,那么y关于x的经验回归直线必过点( )
A. B. C. D.
【答案】A
【知识点】计算样本的中心点
【分析】利用y关于x的经验回归直线必过中心点,计算即得.
【详解】由,,,,可得,
,,
则y关于x的经验回归直线必过点.
故选:A.
【变式1】(23-24高二下·河南驻马店·期中)已知x与y之间的一组数据:
x
0
1
2
3
y
2
3
5
6
则y与x的线性回归方程必过( )
A. B. C. D.
【答案】D
【知识点】计算样本的中心点
【分析】利用线性回归方程必过样本中心点即可判断.
【详解】因为,,
所以与的线性回归方程必过.
故选:D
【变式2】(21-22高二下·甘肃兰州·期中)已知x与y之间的一组数据如下,则y与x的线性回归方程为,必过点 .
x
0
1
2
3
y
1
3
5
7
【答案】/
【知识点】计算样本的中心点
【分析】由于线性回归直线过样本中心点,所以只要求出即可
【详解】因为,,
所以线性回归直线必过点,
故答案为:
【变式3】(23-24高二上·贵州黔东南·期末)已知变量x与y的取值如下表:
x
2
3
5
6
y
7
12
若y对x呈现线性相关关系,则y与x的线性回归直线必经过的定点为
【答案】
【知识点】计算样本的中心点
【分析】根据线性回归方程必过样本中心点求解.
【详解】因为,,
所以线性回归方程必过定点.
故答案为:
题型07 根据回归方程进行数据估计
【例7】(23-24高二下·新疆巴音郭楞·期末)在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据,利用最小二乘法求得相应的经验回归方程为若价格定为1.9万元,则预测需求量大约为( )
A.6.25t B.5t C.4.65t D.3.25t
【答案】A
【知识点】根据回归方程进行数据估计
【分析】根据经验回归方程,令,计算即可求解.
【详解】由题意知,经验回归方程为,
令,得,
即预测需求量大约为6.25t.
故选:A
【变式1】(23-24高二下·福建福州·期末)假如女儿身高(单位:)关于父亲身高(单位:)的经验回归方程为,已知父亲身高为,则( )
A.女儿的身高必为 B.女儿的身高估计为
C.女儿的身高必为 D.女儿的身高估计为
【答案】B
【知识点】根据回归方程进行数据估计
【分析】根据经验回归方程求解即可.
【详解】由,,
代入得,
故选:B
【变式2】(23-24高二下·山西运城·期中)随着夏季的来临,遮阳帽开始畅销,某商家为了解某种遮阳帽如何定价才可以获得最大利润,现对这种遮阳帽进行试销售,经过统计发现销售量(单位:顶)与单价(单位:元)具有线性相关关系,且线性回归方程为,若想要销售量为80顶,则预计该遮阳帽的单价定为 元.
【答案】40
【知识点】根据回归方程进行数据估计
【分析】线性回归方程中,当,求的值.
【详解】若销售量为80顶,则,解得,所以预计单价应定为40元.
故答案为:40
【变式3】(22-23高二下·黑龙江大兴安岭地·期中)碳排放是引起全球气候变暖问题的主要原因.2009年世界气候大会,中国做出了减少碳排放的承诺,2010年被誉为了中国低碳创业元年.2020年中国政府在联合国大会发言提出:中国二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.碳中和是指主体在一定时间内产生的二氧化碳或温室气体排放总量,通过植树造林、节能减排等形式,以抵消自身产生的二氧化碳或温室气体排放量,实现正负抵消,达到相对“零排放”.如图为本世纪来,某省的碳排放总量的年度数据散点图.该数据分为两段,2010年前该省致力于经济发展,没有有效控制碳排放;从2010年开始,该省通过各种举措有效控制了碳排放.用x表示年份代号,记2010年为.用h表示2010年前的年度碳排放量,y表示2010年开始的年度碳排放量.
表一:2011~2017年某省碳排放总量年度统计表(单位:亿吨)
年份
2011
2012
2013
2014
2015
2016
2017
年份代号x
1
2
3
4
5
6
7
年度碳排放量y(单位:亿吨)
2.54
2.635
2.72
2.80
2.885
3.00
3.09
(1)若关于x的线性回归方程为,根据回归方程估计若未采取措施,2017年的碳排放量;并结合表一数据,说明该省在控制碳排放举措下,减少排碳多少亿吨?
(2)根据,设2011~2017年间各年碳排放减少量为,建立z关于x的回归方程.
①根据,求表一中y关于x的回归方程(精确到0.001);
②根据①所求的回归方程确定该省大约在哪年实现碳达峰?
参考数据:.
参考公式:.
【答案】(1)3.3(亿吨),0.21(亿吨)
(2)①;②大约在2026年实现碳达峰
【知识点】根据回归方程进行数据估计、非线性回归
【分析】(1)根据回归方程作出估计,并计算出减少的碳排放量.
(2)①根据非线性回归的知识求得正确答案. ②根据二次函数的性质求得正确答案.
【详解】(1)2017年的估计值:(亿吨),
从而估计减少碳排放量为(亿吨).
(2)①设,则,
,
∴
∴
∴,
②∵y的对称轴为,
∴大约在2026年实现碳达峰,
题型08 根据样本中心点求参数
【例8】(23-24高二下·浙江杭州·期中)已知x,y的对应值如下表所示:若y与x线性相关,且求得的回归直线方程为,则( )
x
12
9
14
y
27
20
m
A.30 B.31 C.32 D.33
【答案】C
【知识点】计算样本的中心点、根据样本中心点求参数
【分析】计算样本点中心,代入回归直线方程,即可求解.
【详解】由题意可知,,
将样本点中心代入回归直线方程得,得.
故选:C
【变式1】(23-24高二下·河北沧州·期中)根据3对数据,,绘制的散点图知,样本点呈直线趋势,且线性回归方程为,则( )
A.10 B.9 C.8 D.7
【答案】A
【知识点】根据样本中心点求参数
【分析】根据题意,由线性回归方程过样本中心点,代入计算,即可得到结果.
【详解】由已知,得,,又经过点,
所以,解得.
故选:A.
【变式2】(22-23高二上·宁夏银川·期中)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分,从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.由下表可知其线性回归方程为,
月份代码x
1
2
3
4
5
碳酸锂价格y
0.5
a
1
1.2
1.5
则表中a的值为 .
【答案】/
【知识点】根据样本中心点求参数
【分析】根据样本中心点过线性直线方程进行求解即可.
【详解】因为线性直线方程过样本中心点,
所以,
故答案为:
【变式3】(21-22高二下·浙江宁波·期末)为助力新冠肺炎疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:
单价元
销量万件
(1)求单价的平均值;
(2)根据以上数据计算得与具有较强的线性相关程度,并由最小二乘估计求得关于的经验回归方程为,求的值.
附:
【答案】(1)
(2)
【知识点】根据样本中心点求参数、计算几个数的平均数
【分析】(1)由表格数据直接计算平均数即可;
(2)根据表格数据可求得样本中心点,代入回归方程即可求得.
【详解】(1).
(2)由表格数据知:,
,解得:.
题型09 求回归直线方程
【例9】(20-21高二下·四川成都·期中)已知回归直线的斜率的估计值是1.2,样本点的中心为,则回归直线方程是( ).
A. B.
C. D.
【答案】C
【知识点】求回归直线方程
【分析】运用回归直线必过样本中心及直线点斜式方程可得结果.
【详解】因为回归直线必过样本中心,所以回归直线必过,
所以由直线的点斜式方程可得:,即:.
故选:C.
【变式1】(23-24高二下·河南·期中)已知变量y关于x的回归方程为,若对两边取自然对数,可以发现与x线性相关,现有一组数据如下表所示:
x
1
2
3
4
5
y
则当时,预测y的值为 .
【答案】
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】取对数后分别计算,代入线性回归方程,求出,最后计算时的结果即可.
【详解】对两边取对数,得,令,则.
x
1
2
3
4
5
y
z
1
3
4
6
7
,,
代入得故.
故,.
当时,.
故答案为:.
【变式2】(23-24高二下·青海海东·阶段练习)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据:
第一次
第二次
第三次
第四次
参会人数x(万人)
8
9
10
11
原材料y(袋)
20
23
25
28
(1)请根据所给四组数据,求出y关于x的线性回归方程;
(2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?
参考公式:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)11袋
【知识点】根据回归方程进行数据估计、求回归直线方程
【分析】(1)根据数据求出得出回归直线即可;
(2)应用回归直线估计判断即可.
【详解】(1)由数据,得,,
,
,
由公式,求得,,y关于x的线性回归方程为.
(2)由,得,而,
所以该店应至少再补充原材料11袋.
【变式3】(23-24高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1
5
7
8
9
2
3
6
8
11
0.7
1.1
1.8
2.1
2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和4.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
【答案】(1),
(2)模型②拟合效果更好,11.94万件
【知识点】求回归直线方程、非线性回归、根据回归方程进行数据估计
【分析】(1)求出变量的均值后,根据经验回归方程中的公式计算即可求出系数,得到回归方程;
(2)根据残差平方和选择模型,利用模型的回归方程预测时的销售量即可.
【详解】(1)由题知,
所以,
所以,,
所以模型①的经验回归方程为,
由,两边取自然对数可得,即,
所以,,
所以模型②的经验回归方程为
(2)因为,即②的残差平方和较小,所以,模型②的拟合效果更好.
所以当时,,
即当年投入金额为10万元时的年销售量的估计值为11.94万件
题型10 最小二乘法的概念及辨析
【例10】(21-22高二下·河南南阳·期中)最小二乘法的原理是( ).
A.使得最小 B.使得最小
C.使得最小 D.使得最小
【答案】C
【知识点】最小二乘法的概念及辨析
【分析】由最小二乘法的原理即可判断.
【详解】解:因为最小二乘法的原理是使样本数据的点到回归直线的距离的平方和最小,即使得最小,
故选:C.
【变式1】(2024高二下·上海·专题练习)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【知识点】最小二乘法的概念及辨析
【分析】根据最小二乘法的概念和求解过程,即可求解.
【详解】根据最小二乘法的概念和求解,可得回归方程是为了使得每个数据与估计值之间的差的平方和最小.
故选:D.
【变式2】(22-23高二下·陕西西安·期末)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使( )最小.
A.总偏差平方和 B.残差平方和
C.回归平方和 D.竖直距离和
【答案】B
【知识点】最小二乘法的概念及辨析
【分析】使用最小二乘法的定义进行求解.
【详解】最小二乘法求回归方程,是为了使残差平方和最小,B正确;其他选项错误.
故选:B
【变式3】(24-25高二上·黑龙江哈尔滨·期中)下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
【答案】D
【知识点】最小二乘法的概念及辨析、相关系数的意义及辨析、相关指数的计算及分析
【分析】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.
【详解】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A错误;
对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B错误;
对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是错误;
对于D,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,
模型的拟合效果越好,故D正确.
故选:D.
【夯实基础】
一、单选题
1.(23-24高二下·安徽安庆·期末)根据成对样本数据建立变量y关于x的经验回归方程为.若y的均值为6.2,则x的均值为( )
A.1.5 B.2 C.2.5 D.3
【答案】B
【分析】利用经验在归方程经过点,即可求出结果.
【详解】将代入方程,解得.
故选:B.
2.(23-24高二下·浙江·期中)如下表给出5组数据,为选出4组数据使其线性相关程度最大,且保留第1组数据,则应去掉( )
1
2
3
4
5
5
4
3
2
3
2
7
1
A. B. C. D.
【答案】B
【分析】画出散点图,根据线性相关性与偏离程度判断即可.
【详解】根据表格数据,得到散点图如下所示:
由散点图可知数据偏离程度最高,故应该去掉数据.
故选:B
3.(23-24高二下·湖南·期中)根据与之间的一组数据求得两个变量之间的经验回归方程为,已知数据的平均值为1.2,则数据的平均值为( )
A.2.6 B.2.3 C.1.8 D.1.5
【答案】A
【分析】根据回归直线过样本中心点可求.
【详解】将代入回归直线方程,
可得.
故选:A.
4.(24-25高二上·黑龙江哈尔滨·期中)某学校为了解校庆期间不同时段的校门人流量,从上午8点开始第一次反馈校门人流量,以后每过2小时反馈一次,共统计了前3次的数据,其中,2,3,为第i次人流量数据(单位:千人),由此得到y关于i的回归方程.已知,根据回归方程,可预测下午2点时校门人流量为( )千人.
参考数据:
A.9.6 B.10.8 C.12 D.13.2
【答案】B
【分析】令,由,求出,得回归方程,可求预测值.
【详解】令,则,
,又,
由,得,所以,
则,
下午2点时对应,可得.
故选:B.
二、多选题
5.(23-24高二下·广东肇庆·期末)下列关于一元线性回归的叙述正确的有( )
A.若相关系数,则与的相关程度很强
B.残差图中的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,说明选用模型比较合适
C.决定系数越大,模型的拟合效果越差
D.经验回归直线经过所有样本点
【答案】AB
【分析】利用相关系数、残差图、决定系数、经验回归直线的意义逐项判断即得.
【详解】对于A,越接近于1,相关性越强,A正确;
对于B,残差图中的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,
拟合效果较好,选用模型比较合适,B正确;
对于C,决定系数越大,残差平方和越小,模型的拟合效果越好,C错误;
对于D,样本点分布在经验回归直线附近,D错误.
故选:AB
6.(23-24高二下·青海西宁·期末)两个具有线性相关关系的变量的一组数据为,则下列说法正确的是( )
A.若相关系数,则两个变量负相关
B.相关系数的值越小,成对样本数据的线性相关程度越弱
C.决定系数越大,残差平方和越小,模型的拟合效果越好
D.决定系数越小,残差平方越小,模型的拟合效果越好
【答案】AC
【分析】相关系数的符号反映相关关系的正负性,的值越小,成对样本数据的线性相关程度越弱,
决定系数越大,残差平方和越小,模型的拟合效果越好.
【详解】对于A,因为的符号反映相关关系的正负性,故A正确;
对于B,根据相关系数越接近1,变量相关性越强,故B错误;
对于C,决定系数越大,残差平方和越小,效果越好,故C正确,D错误.
故选:AC.
三、填空题
7.(21-22高二下·陕西西安·期中)在对两个变量x、y进行线性回归分析时有下列步骤:
①对所求出的回归方程作出解释;
②收集数据,,2,…,n;
③求线性回归方程;
④求相关系数;
⑤根据所搜集的数据绘制散点图.
如果根据可靠性要求能够得出变量x、y具有线性相关的结论,则正确的操作顺序是 (填序号).
【答案】②⑤④③①
【分析】进行回归分析的基本过程是:收集数据,绘制散点图,判断相关性,如果是线性相关,求出回归方程,并结合回归方程作出解释.据此进行判断本题.
【详解】解:进行线性回归分析一般经历以下几个过程:首先对相关数据进行收集,根据收集的数据作出散点图,根据散点图作出线性相关或非线性相关或不相关的判断,进行相关系数计算从数量角度分析,以确定相关程度大小,这样可以提高回归分析的信度.最后求出回归方程并结合方程进行实际意义说明.
故答案为:②⑤④③①.
8.(23-24高二下·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
【答案】
【分析】由表格计算可得,,把,代入回归方程可得,进而得出残差.
【详解】由表格可得:,,
把代入,解得,
,
把代入解得,
在样本处的残差为.
故答案为:.
四、解答题
9.(22-23高二上·安徽宿州·期末)据统计,某市一家新能源企业2022年近5个月的产值如下表:
月份
7月
8月
9月
10月
11月
月份代码x
1
2
3
4
5
产值y(亿元)
16
20
27
30
37
(1)根据上表数据,计算y与x间的线性相关系数r,并说明y与x的线性相关性的强弱;(结果保留两位小数,若,则认为y与x线性相关性很强;若,则认为y与x线性相关性不强.)
(2)求出y关于x的线性回归方程,并预测该企业什么时候的产值为67.6亿元.
参考公式:,,.
参考数据:,,,,.
【答案】(1),线性相关性很强;
(2),2023年5月的产值为67.6亿元.
【分析】(1)根据题目提供的数据和公式计算相关系数,比较可得结论;
(2)根据参考公式求出线性回归方程,根据方程进行预测即可.
【详解】(1),
因为,,,,
所以,
所以线性相关性很强.
(2)由题意,
,
所以y关于x的线性回归方程为.
当时,解得,即2023年5月的产值为67.6亿元.
10.(23-24高二下·河北石家庄·期末)某学院为了加强学生身体素质,特推出“校园轻氧打卡”活动,以下是前9天的打卡人数散点图.
(1)求出每天打卡人数y关于天数x的经验回归方程;
(2)利用经验回归方程试着预测第10天的打卡人数;
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1)
(2)340
【分析】(1)依据题中所给数据先依次求出、、、,再结合最小二乘法即可求出和,进而得解.
(2)将代入(1)所得经验回归方程即可得解.
【详解】(1)由题得,,
,
,
所以,
每天打卡人数y关于天数x的经验回归方程为.
(2)由(1)当时,,
所以第10天的打卡人数预测为人.
11.(24-25高二上·江苏常州·期末)某研究所研究耕种深度(单位:)与水稻每公顷产量(单位:)的关系,所得数据资料如下表.
耕种深度
8
10
12
14
16
18
每公顷产量
6
7
8
9
11
13
(1)求样本相关系数(结果保留两位小数),并判断它们是否具有较强的线性相关性;
(2)求经验回归方程.
参考数据:;
参考公式:,,.
【答案】(1),有较强的线性相关性,
(2)
【分析】(1)根据相关系数的公式即可求解,
(2)利用最小二乘法即可求解.
【详解】(1)由题意可知,
,
故,故有较强的线性相关性,
(2)
,
故,
将代入可得,
故回归直线方程为
【能力提升】
一、单选题
1.(24-25高二上·江苏常州·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【答案】C
【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由残差定义可得结果.
【详解】,增加两个样本点后的平均数为;
,,
增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的残差为.
故选:C.
2.(22-23高二下·江苏泰州·期末)已知x,y的取值如下表所示,从散点图分析可知y与x线性相关,如果线性回归方程为,则下列说法不正确的是( )
A.m的值为6.2
B.回归直线必过点(2,4.4)
C.样本点(4,m)处的残差为0.1
D.将此图表中的点(2,4.4)去掉后,样本相关系数r不变
【答案】C
【分析】根据平均数的定义及样本中心在经验回归直线方程上,利用残差的定义及样本相关系数的公式即可求解.
【详解】由题意可知,
所以样本中心为,
将点代入,可得,解得,故A正确;
由,得样本中心为,所以回归直线必过点(2,4.4),故B正确;
当时,,
由,得样本点处的残差为,故C错误;
因为样本中心为,
所以
由相关系数公式知, ,将此图表中的点(2,4.4)去掉后,样本相关系数r不变,故D正确;
故选:C.
3.(22-23高二下·四川泸州·期中)已知与之间的一组数据:若关于的线性回归方程为,则的值为( )
1
2
3
4
3.2
4.8
7.5
A.1 B.0.85 C.0.7 D.0.5
【答案】D
【分析】求出样本数据中心点坐标,代入回归直线方程求解.
【详解】,
,
因为关于的线性回归方程为,
所以,
解得,
故选:D
4.(23-24高二下·浙江宁波·期中)如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
【答案】C
【分析】由散点可判断出正相减,去掉离群点后,线性关系更强,由离群点的位置判断去掉离群点后回归方程的斜率变化.
【详解】共8个点且离群点P的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,故C正确
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,故D错误
有,,故AB错误.
故选:C.
二、多选题
5.(23-24高二下·福建泉州·期末)下列命题正确的是( )
A.线性相关模型中,决定系数越大相关性越强,相关系数越大相关性也越强
B.经验回归直线至少会经过其中一个样本点
C.已知一系列样本点的经验回归方程为,若样本点与的残差相等,则.
D.以模型去拟合某组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别为3,4
【答案】CD
【分析】根据决定系数的概念和相关系数的概念判断A,根据回归直线方程的性质判断B,根据回归方程及残差的概念判断C,根据线性回归方程与非线性之间的转化关系可判断D.
【详解】对于A:在线性相关模型中,决定系数越大,即残差平方和越小,所以拟合效果越好,相关系数越大,相关性越强,故A错误;
对于B:回归直线方程不一定过样本点,故B错误;
对于C:回归直线方程为,且样本点与的残差相等,
则,化简得,故C正确;
对于D:因为,所以两边取对数,可得,
令,可得,因为,所以,
即,故D正确.
故选:CD.
6.(23-24高二下·河南开封·期末)由成对样本数据,且得到经验回归方程为,其中(单位:cm)为女生的身高,(单位:cm)为其父亲的身高,则( )
A.直线必经过点
B.直线至少经过点,且中的一点
C.已知父亲的身高为,其女儿身高的估计值为
D.两位父亲的身高相差,则他们女儿的身高相差
【答案】AC
【分析】根据回归直线的相关性质分别判断各个选项即可.
【详解】对于A:回归直线必经过样本中心点,故A正确;
对于B:回归直线可不过任意一点,且,故B错误;
对于C:已知父亲的身高为,其女儿身高的估计值为,故C正确;
对于D:两位父亲的身高相差,则他们女儿的身高的估计值相差,故D错误.
故选:AC.
三、填空题
7.(22-23高二下·黑龙江哈尔滨·期末)已知某品牌的新能源汽车的使用年限(单位:年)与维护费用(单位:千元)之间可以用模型去拟合,收集了4组数据,设与的数据如表格所示:
4
6
8
10
2
3
5
6
利用最小二乘法得到与的线性回归方程,则 .
【答案】
【分析】求出、代入可得,由得,与比较可得答案.
【详解】,,
代入可得,
由得,即,
而,所以,,得,
则.
故答案为:.
8.(23-24高二下·黑龙江绥化·期中)某研究机构对高三学生的记忆力和判断力进行统计分析,得表数据.
6
8
10
12
2
3
5
6
请根据上表提供的数据,求出关于的线性回归方程 ,据此可预测判断力为的同学的记忆力为 .
(回归直线方程是:,其中,)
【答案】 ; .
【分析】设回归方程,利用表中数据,根据最小二乘原理求得系数,即得方程;再用方程代入数据预测记忆力即可.
【详解】设y关于x的线性回归方程为,直线过样本中心点
由表格数据得,
,
,
,
故根据最小二乘原理知,
所以,
即线性回归方程为;
将代入方程,得,
即可预测判断力为4的同学的记忆力为.
故答案为:;.
四、解答题
9.(23-24高二下·陕西西安·期末)某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.
参考数据:,,.
【答案】(1),相关程度较高
(2),9.3亿元
【分析】(1)通过计算相关系数来进行判断.
(2)先计算回归直线方程,并由此作出预测.
【详解】(1)由表中数据可知,,,
,,,
则,
故相关程度较高;
(2),,
则,,
故,
令,解得,
故研发投入至少9.3亿元.
10.(24-25高二上·江苏常州·期末)某款3A级别游戏自发布以来便受到了广泛关注,仅用了三天时间便在各大平台上卖出超过1000万份,这一速度令人惊讶.下表是该游戏发布以来在某一平台各月的销售量统计表.
月份编号
1
2
3
4
5
销售量(百万份)
8
6.3
5.1
3.2
2.4
(1)依据表中的统计数据,计算样本相关系数(结果保留两位小数),并判断月份编号与销售量之间是否具有较强的线性相关性;
(2)预计该平台半年时间的销售量能否突破26百万份.
参考数据:;
参考公式:.
【答案】(1),具有较强的线性相关性
(2)不能
【分析】(1)计算、、、、,代入可得答案.
(2)用最小二乘法求月销售量与月份编号的一元线性回归方程,代入计算可得答案.
【详解】(1)由题知,,
,
,
,
所以,
所以月份编号与销售量之间具有较强的线性相关性.
(2),,
所以经验回归方程为.
当时,,
所以该平台半年时间的销售量不能突破26百万份.
11.(23-24高二下·河南信阳·期末)华为Pura70的发布是中国芯片行业的重大突破,华为的高端手机越来越受到消费者的青睐.某手机店今年2~6月份Pura70手机的销量如下表所示:
月份
2
3
4
5
6
手机销量(部)
42
53
66
109
用最小二乘法得到手机销量(单位:部)关于月份的回归直线方程为,且销量的方差.
(1)求;
(2)求相关系数(精确到0.01),并据此判断手机销量与月份的相关性强弱(若,则可判断与线性相关较强);
(3)求时的残差;已知,求决定系数(精确到0.01).
附:回归系数,相关系数,决定系数,.
【答案】(1)
(2),线性相关较强
(3),
【分析】(1)由样本中心点在回归直线上,解出;
(2)由相关系数的公式,结合回归系数的值及公式求得的值,进而得到线性相关性;
(3)根据公式求得的值.
【详解】(1),,
将代入,得,解得.
(2)由,得,
由,得.
所以,
.
所以,手机销量与月份的线性相关较强.
(3),
所以,,.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$
第10讲 一元线性回归模型及其应用
目录
题型归纳 1
题型01 根据散点图判断是否线性相关 3
题型02 由散点图画求近似回归直线 5
题型03 解释回归直线方程的意义 6
题型04 用回归直线方程对总体进行估计 8
题型05 根据回归方程求原数据中的值 9
题型06 计算样本的中心点 10
题型07 根据回归方程进行数据估计 11
题型08 根据样本中心点求参数 12
题型09 求回归直线方程 14
题型10 最小二乘法的概念及辨析 16
分层练习 17
夯实基础 17
能力提升 22
知识点01一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
知识点02线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
知识点03残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点04刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
知识点05回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
题型01根据散点图判断是否线性相关
【例1】(23-24高二下·北京房山·期末)如图 ①、②、③、④ 分别为不同样本数据的散点图,其对应的线性相关系数分别为,则中最大的是( )
A. B.
C. D.
【变式1】(23-24高二下·贵州遵义·期末)下列散点图中,相关性系数最大的是( ).
A. B.
C. D.
【变式2】(23-24高二下·广西·期末)对四组数据进行统计,获得以下散点图,设①②③④图对应的相关系数分别为,,,,则,,,的大小关系为( )
A. B. C. D.
【变式3】(23-24高二下·福建福州·期末)在以下4幅散点图中,和成正线性相关关系的是( )
A. B.
C. D.
题型02 由散点图画求近似回归直线
【例2】(21-22高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【变式1】(21-22高二下·河南信阳·期末)如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【变式2】(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【变式3】(21-22高三上·全国·阶段练习)2021年8月27日教育部在其网站发布了2020年全国教育事业发展统计公报,其中“十三五”时期全国高等教育在学总规模和毛入学率如下图所示,则下列四个回归方程类型中最适合作为毛入学率和年份数的回归方程类型是( )
A. B.
C. D.
题型03 解释回归直线方程的意义
【例3】(23-24高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数的绝对值越接近0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点一定在经验回归直线上
D.若经验回归方程为,则每增加1个单位,的值就增加10个单位
【变式1】(23-24高二下·北京房山·期末)为了研究儿子身高与父亲身高的关系,某机构调查了某所高校14名男大学生的身高及其父亲的身高(单位:cm),得到的数据如表所示.
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高
176
176
170
170
185
176
178
174
170
168
178
172
165
182
父亲身高的平均数记为,儿子身高的平均数记为,根据调查数据,得到儿子身高关于父亲身高的回归直线方程为.则下列结论中正确的是( )
A.与正相关,且相关系数为
B.点不在回归直线上
C.每增大一个单位,增大个单位
D.当时,.所以如果一位父亲的身高为176cm,他儿子长大成人后的身高一定是177cm
【变式2】(21-22高二上·全国·单元测试)调查了某地若干户家庭的年收入(单位:万元)和年饮食支出(单位:万元),调查显示年收入与年饮食支出具有线性相关关系,并由调查数据得到对的回归直线方程:.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元.
【变式3】(23-24高二下·河南南阳·阶段练习)某同学在研究变量,之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则 0(填“>”或“<”).
4.8
5.8
7
8.3
9.1
2.8
4.1
7.2
9.1
11.8
题型04 用回归直线方程对总体进行估计
【例4】(21-22高二下·甘肃临夏·期末)已知施肥量与玉米产量之间的回归方程为,则当施肥量时,对玉米产量的估计值为( )
A. B.545 C. D.
【变式1】(23-24高二下·辽宁朝阳·期末)已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【变式2】(23-24高二上·全国·课后作业)从某大学随机选取8名女大学生,其身高(单位:cm)和体重(单位:kg)的回归方程为,则身高172 cm的女大学生,由回归方程可以预测其体重( )
A.为60.316 kg B.约为60.316 kg
C.大于60.316 kg D.小于60.316 kg
【变式3】(21-22高二下·河南焦作·期末)为了解某小区居民的家庭年收入(万元)与年支出(万元),随机调查了该小区的10户家庭,根据调查数据可得关于的回归直线方程为,,.若该小区某家庭的年收入为30万元,则估计该家庭的年支出为 万元.
题型05 根据回归方程求原数据中的值
【例5】(20-21高二下·福建福州·期中)已知具有线性相关的两个变量,之间的一组数据如表:
0
1
2
3
4
2
4.2
4.5
4.6
且回归方程是,则( )
A.5.6 B.5.3 C.5.0 D.4.7
【变式1】(20-21高二上·湖北武汉·期末)下表是某两个相关变量x,y的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为,那么表中t的值为( )
x
3
4
5
6
y
2
t
4
4.85
A.3 B.3.15 C.3.5 D.4
【变式2】(22-23高二下·浙江温州·期中)已知变量和的统计数据如下表:
-2
-1
0
1
2
5
2
2
1
由表中的数据得到线性回归方程,那么当时残差为 .(注:残差观测值-预测值)
【变式3】(21-22高二上·安徽亳州·期末)已知变量X,Y的一组样本数据如下表所示,其中有一个数据丢失,用a表示.若根据这组样本利用最小二乘法求得的Y关于X的回归直线方程为,则 .
X
1
4
9
16
25
Y
2
a
36
93
142
题型06 计算样本的中心点
【例6】(23-24高二下·天津北辰·期中)如果记录了x,y的几组数据分别为,,,,那么y关于x的经验回归直线必过点( )
A. B. C. D.
【变式1】(23-24高二下·河南驻马店·期中)已知x与y之间的一组数据:
x
0
1
2
3
y
2
3
5
6
则y与x的线性回归方程必过( )
A. B. C. D.
【变式2】(21-22高二下·甘肃兰州·期中)已知x与y之间的一组数据如下,则y与x的线性回归方程为,必过点 .
x
0
1
2
3
y
1
3
5
7
【变式3】(23-24高二上·贵州黔东南·期末)已知变量x与y的取值如下表:
x
2
3
5
6
y
7
12
若y对x呈现线性相关关系,则y与x的线性回归直线必经过的定点为
题型07 根据回归方程进行数据估计
【例7】(23-24高二下·新疆巴音郭楞·期末)在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据,利用最小二乘法求得相应的经验回归方程为若价格定为1.9万元,则预测需求量大约为( )
A.6.25t B.5t C.4.65t D.3.25t
【变式1】(23-24高二下·福建福州·期末)假如女儿身高(单位:)关于父亲身高(单位:)的经验回归方程为,已知父亲身高为,则( )
A.女儿的身高必为 B.女儿的身高估计为
C.女儿的身高必为 D.女儿的身高估计为
【变式2】(23-24高二下·山西运城·期中)随着夏季的来临,遮阳帽开始畅销,某商家为了解某种遮阳帽如何定价才可以获得最大利润,现对这种遮阳帽进行试销售,经过统计发现销售量(单位:顶)与单价(单位:元)具有线性相关关系,且线性回归方程为,若想要销售量为80顶,则预计该遮阳帽的单价定为 元.
【变式3】(22-23高二下·黑龙江大兴安岭地·期中)碳排放是引起全球气候变暖问题的主要原因.2009年世界气候大会,中国做出了减少碳排放的承诺,2010年被誉为了中国低碳创业元年.2020年中国政府在联合国大会发言提出:中国二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.碳中和是指主体在一定时间内产生的二氧化碳或温室气体排放总量,通过植树造林、节能减排等形式,以抵消自身产生的二氧化碳或温室气体排放量,实现正负抵消,达到相对“零排放”.如图为本世纪来,某省的碳排放总量的年度数据散点图.该数据分为两段,2010年前该省致力于经济发展,没有有效控制碳排放;从2010年开始,该省通过各种举措有效控制了碳排放.用x表示年份代号,记2010年为.用h表示2010年前的年度碳排放量,y表示2010年开始的年度碳排放量.
表一:2011~2017年某省碳排放总量年度统计表(单位:亿吨)
年份
2011
2012
2013
2014
2015
2016
2017
年份代号x
1
2
3
4
5
6
7
年度碳排放量y(单位:亿吨)
2.54
2.635
2.72
2.80
2.885
3.00
3.09
(1)若关于x的线性回归方程为,根据回归方程估计若未采取措施,2017年的碳排放量;并结合表一数据,说明该省在控制碳排放举措下,减少排碳多少亿吨?
(2)根据,设2011~2017年间各年碳排放减少量为,建立z关于x的回归方程.
①根据,求表一中y关于x的回归方程(精确到0.001);
②根据①所求的回归方程确定该省大约在哪年实现碳达峰?
参考数据:.
参考公式:.
题型08 根据样本中心点求参数
【例8】(23-24高二下·浙江杭州·期中)已知x,y的对应值如下表所示:若y与x线性相关,且求得的回归直线方程为,则( )
x
12
9
14
y
27
20
m
A.30 B.31 C.32 D.33
【变式1】(23-24高二下·河北沧州·期中)根据3对数据,,绘制的散点图知,样本点呈直线趋势,且线性回归方程为,则( )
A.10 B.9 C.8 D.7
【变式2】(22-23高二上·宁夏银川·期中)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分,从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.由下表可知其线性回归方程为,
月份代码x
1
2
3
4
5
碳酸锂价格y
0.5
a
1
1.2
1.5
则表中a的值为 .
【变式3】(21-22高二下·浙江宁波·期末)为助力新冠肺炎疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:
单价元
销量万件
(1)求单价的平均值;
(2)根据以上数据计算得与具有较强的线性相关程度,并由最小二乘估计求得关于的经验回归方程为,求的值.
附:
题型09 求回归直线方程
【例9】(20-21高二下·四川成都·期中)已知回归直线的斜率的估计值是1.2,样本点的中心为,则回归直线方程是( ).
A. B.
C. D.
【变式1】(23-24高二下·河南·期中)已知变量y关于x的回归方程为,若对两边取自然对数,可以发现与x线性相关,现有一组数据如下表所示:
x
1
2
3
4
5
y
则当时,预测y的值为 .
【变式2】(23-24高二下·青海海东·阶段练习)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据:
第一次
第二次
第三次
第四次
参会人数x(万人)
8
9
10
11
原材料y(袋)
20
23
25
28
(1)请根据所给四组数据,求出y关于x的线性回归方程;
(2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?
参考公式:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【变式3】(23-24高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1
5
7
8
9
2
3
6
8
11
0.7
1.1
1.8
2.1
2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和4.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
题型10 最小二乘法的概念及辨析
【例10】(21-22高二下·河南南阳·期中)最小二乘法的原理是( ).
A.使得最小 B.使得最小
C.使得最小 D.使得最小
【变式1】(2024高二下·上海·专题练习)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【变式2】(22-23高二下·陕西西安·期末)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使( )最小.
A.总偏差平方和 B.残差平方和
C.回归平方和 D.竖直距离和
【变式3】(24-25高二上·黑龙江哈尔滨·期中)下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
【夯实基础】
一、单选题
1.(23-24高二下·安徽安庆·期末)根据成对样本数据建立变量y关于x的经验回归方程为.若y的均值为6.2,则x的均值为( )
A.1.5 B.2 C.2.5 D.3
2.(23-24高二下·浙江·期中)如下表给出5组数据,为选出4组数据使其线性相关程度最大,且保留第1组数据,则应去掉( )
1
2
3
4
5
5
4
3
2
3
2
7
1
A. B. C. D.
3.(23-24高二下·湖南·期中)根据与之间的一组数据求得两个变量之间的经验回归方程为,已知数据的平均值为1.2,则数据的平均值为( )
A.2.6 B.2.3 C.1.8 D.1.5
4.(24-25高二上·黑龙江哈尔滨·期中)某学校为了解校庆期间不同时段的校门人流量,从上午8点开始第一次反馈校门人流量,以后每过2小时反馈一次,共统计了前3次的数据,其中,2,3,为第i次人流量数据(单位:千人),由此得到y关于i的回归方程.已知,根据回归方程,可预测下午2点时校门人流量为( )千人.
参考数据:
A.9.6 B.10.8 C.12 D.13.2
二、多选题
5.(23-24高二下·广东肇庆·期末)下列关于一元线性回归的叙述正确的有( )
A.若相关系数,则与的相关程度很强
B.残差图中的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,说明选用模型比较合适
C.决定系数越大,模型的拟合效果越差
D.经验回归直线经过所有样本点
6.(23-24高二下·青海西宁·期末)两个具有线性相关关系的变量的一组数据为,则下列说法正确的是( )
A.若相关系数,则两个变量负相关
B.相关系数的值越小,成对样本数据的线性相关程度越弱
C.决定系数越大,残差平方和越小,模型的拟合效果越好
D.决定系数越小,残差平方越小,模型的拟合效果越好
三、填空题
7.(21-22高二下·陕西西安·期中)在对两个变量x、y进行线性回归分析时有下列步骤:
①对所求出的回归方程作出解释;
②收集数据,,2,…,n;
③求线性回归方程;
④求相关系数;
⑤根据所搜集的数据绘制散点图.
如果根据可靠性要求能够得出变量x、y具有线性相关的结论,则正确的操作顺序是 (填序号).
8.(23-24高二下·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
四、解答题
9.(22-23高二上·安徽宿州·期末)据统计,某市一家新能源企业2022年近5个月的产值如下表:
月份
7月
8月
9月
10月
11月
月份代码x
1
2
3
4
5
产值y(亿元)
16
20
27
30
37
(1)根据上表数据,计算y与x间的线性相关系数r,并说明y与x的线性相关性的强弱;(结果保留两位小数,若,则认为y与x线性相关性很强;若,则认为y与x线性相关性不强.)
(2)求出y关于x的线性回归方程,并预测该企业什么时候的产值为67.6亿元.
参考公式:,,.
参考数据:,,,,.
10.(23-24高二下·河北石家庄·期末)某学院为了加强学生身体素质,特推出“校园轻氧打卡”活动,以下是前9天的打卡人数散点图.
(1)求出每天打卡人数y关于天数x的经验回归方程;
(2)利用经验回归方程试着预测第10天的打卡人数;
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
11.(24-25高二上·江苏常州·期末)某研究所研究耕种深度(单位:)与水稻每公顷产量(单位:)的关系,所得数据资料如下表.
耕种深度
8
10
12
14
16
18
每公顷产量
6
7
8
9
11
13
(1)求样本相关系数(结果保留两位小数),并判断它们是否具有较强的线性相关性;
(2)求经验回归方程.
参考数据:;
参考公式:,,.
【能力提升】
一、单选题
1.(24-25高二上·江苏常州·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
2.(22-23高二下·江苏泰州·期末)已知x,y的取值如下表所示,从散点图分析可知y与x线性相关,如果线性回归方程为,则下列说法不正确的是( )
A.m的值为6.2
B.回归直线必过点(2,4.4)
C.样本点(4,m)处的残差为0.1
D.将此图表中的点(2,4.4)去掉后,样本相关系数r不变
3.(22-23高二下·四川泸州·期中)已知与之间的一组数据:若关于的线性回归方程为,则的值为( )
1
2
3
4
3.2
4.8
7.5
A.1 B.0.85 C.0.7 D.0.5
4.(23-24高二下·浙江宁波·期中)如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
二、多选题
5.(23-24高二下·福建泉州·期末)下列命题正确的是( )
A.线性相关模型中,决定系数越大相关性越强,相关系数越大相关性也越强
B.经验回归直线至少会经过其中一个样本点
C.已知一系列样本点的经验回归方程为,若样本点与的残差相等,则.
D.以模型去拟合某组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别为3,4
6.(23-24高二下·河南开封·期末)由成对样本数据,且得到经验回归方程为,其中(单位:cm)为女生的身高,(单位:cm)为其父亲的身高,则( )
A.直线必经过点
B.直线至少经过点,且中的一点
C.已知父亲的身高为,其女儿身高的估计值为
D.两位父亲的身高相差,则他们女儿的身高相差
三、填空题
7.(22-23高二下·黑龙江哈尔滨·期末)已知某品牌的新能源汽车的使用年限(单位:年)与维护费用(单位:千元)之间可以用模型去拟合,收集了4组数据,设与的数据如表格所示:
4
6
8
10
2
3
5
6
利用最小二乘法得到与的线性回归方程,则 .
8.(23-24高二下·黑龙江绥化·期中)某研究机构对高三学生的记忆力和判断力进行统计分析,得表数据.
6
8
10
12
2
3
5
6
请根据上表提供的数据,求出关于的线性回归方程 ,据此可预测判断力为的同学的记忆力为 .
(回归直线方程是:,其中,)
四、解答题
9.(23-24高二下·陕西西安·期末)某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.
参考数据:,,.
10.(24-25高二上·江苏常州·期末)某款3A级别游戏自发布以来便受到了广泛关注,仅用了三天时间便在各大平台上卖出超过1000万份,这一速度令人惊讶.下表是该游戏发布以来在某一平台各月的销售量统计表.
月份编号
1
2
3
4
5
销售量(百万份)
8
6.3
5.1
3.2
2.4
(1)依据表中的统计数据,计算样本相关系数(结果保留两位小数),并判断月份编号与销售量之间是否具有较强的线性相关性;
(2)预计该平台半年时间的销售量能否突破26百万份.
参考数据:;
参考公式:.
11.(23-24高二下·河南信阳·期末)华为Pura70的发布是中国芯片行业的重大突破,华为的高端手机越来越受到消费者的青睐.某手机店今年2~6月份Pura70手机的销量如下表所示:
月份
2
3
4
5
6
手机销量(部)
42
53
66
109
用最小二乘法得到手机销量(单位:部)关于月份的回归直线方程为,且销量的方差.
(1)求;
(2)求相关系数(精确到0.01),并据此判断手机销量与月份的相关性强弱(若,则可判断与线性相关较强);
(3)求时的残差;已知,求决定系数(精确到0.01).
附:回归系数,相关系数,决定系数,.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$