内容正文:
预习第11讲 线性回归分析9种常见考法归类
模块一 思维导图串知识
模块二 基础知识全梳理(吃透教材)
模块三 核心考点举一反三
模块四 小试牛刀过关测
1.掌握相关关系的判断,能根据散点图对线性相关关系进行判断.
2.了解两个变量间的相关系数r,能利用相关系数r判断两个变量线性相关程度的大小.
3.了解最小二乘法原理,会求线性回归方程,并能根据线性回归方程进行预测.
知识点1、变量的相关关系
1、相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系;
2、散点图:将样本中n个数据点()描在平面直角坐标系中得到的统计图叫做散点图,是描述成对数据之间关系的一种直观方法;
3、正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
4、线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
5、非线性相关与曲线相关:如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关;
知识点2、相关关系与函数关系的异同
1、相同点:两者均是指两个变量之间的关系;
2、不同点:(1)函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系;相关关系是一种不确定的关系,如一块农田的水稻产量与施肥量之间的关系;事实上,函数是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系;
(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
知识点3、样本相关系数
1、样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
2、相关系数r的性质
(1);
(2)时,与呈正相关关系;
时,与呈负相关关系
(3)越接近1,与的相关程度越强;
越接近0,与的相关程度越弱.
通常情况下,时,认为线性相关关系显著;
当时,认为几乎没有线性相关关系。
知识点4、线性回归方程
1、随机误差
具有线性相关关系的两个变量的取值,,的值不能由完全确定,它们之间是统计相关关系,可将,之间的关系表示为,其中是确定性函数,称为随机误差。
2、随机误差产生的主要原因
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差。
3、线性回归模型中,的求法
称为线性回归模型,,,的估计值为,,则
其中,
4、回归直线和线性回归方程
直线称为回归直线,此直线方程称为线性回归方程,称为回归截距,称为回归斜率,称为回归值。
知识点5、常见的非线性函数转换方法
1、幂型函数y=axm(a为正数,x,y取正值)
对y=axm两边取常用对数,有lg y=lg a+mlg x,
令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,
该式表示u,v的线性函数.
2、指数型函数y=c·ax(a,c>0,且a≠1):
对y=cax两边取常用对数,则有lg y=lg c+xlg a,
令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,
该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
3、反比例函数y= (k>0):令u=,则y=ku,该式表示y,u的线性函数.
4、二次函数y=ax2+c:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
5、对数型函数y=clogax:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
考点一:相关关系的理解
例1.下列关系中,是相关关系的为( )
①学生的学习态度与学习成绩;②身高与体重;③铁块的大小与质量;④出租车的车费与行驶路程.
A.①② B.①③ C.②③ D.②④
【答案】A
【解析】学生的学习态度与学习成绩是相关关系;
身高与体重是相关关系;
铁块的大小与质量是函数关系;
出租车的车费与行驶路程是函数关系.
故选:A
【变式1-1】下列两个变量中能够具有相关关系的是( )
A.人所站的高度与视野 B.人眼的近视程度与身高
C.正方体的体积与棱长 D.某同学的学籍号与考试成绩
【答案】A
【分析】利用相关关系的定义判断.
【详解】A.人所站的高度越高则视野越开阔,具有正相关关系,故正确;
B.人眼的近视程度与身高不具有相关关系,故错误;
C.正方体的体积与棱长是一种确定关系,故错误;
D.某同学的学籍号与考试成绩不具有相关关系,故错误;
故选:A
【变式1-2】下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.某正方形的边长与此正方形的面积
C.每亩施肥量与粮食亩产量
D.人的身高与体重
【答案】B
【解析】B中的两个变量之间是确定的函数关系,A,C,D中的两个变量之间的关系都是相关关系.
故选:B.
考点二:散点图与相关性
例2.如图,两个变量具有相关关系的是( )
A.(1)(3) B.(1)(4) C.(2)(4) D.(2)(3)
【答案】B
【解析】具有相关关系的是(1)(4),
(2)是确定关系,(3)不具有相关关系.
故选:B
【变式2-1】有一散点图如图所示,在5个数据中去掉后,给出下列说法:①相关系数r变大;②相关指数变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1个 B.2个 C.3个 D.4个
【答案】D
【解析】根据题意,散点图有5个数据中去掉,
可得与的相关性越强,并且是正相关,
所以相关系数变大,相关指数变大,残差的平方和变小,
所以四个命题都正确.
故选:D.
【变式2-2】某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
人均销售额
利润率
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正出例函数关系
D.利润率与人均销售额成反比例函数关系
【答案】A
【解析】作出利润率与人均销售额的散点图,如下图所示:
由散点图可知,利润率与人均销售额成正相关关系.故选:A.
【变式2-3】对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关
B.变量与负相关,与负相关
C.变量与正相关,与正相关
D.变量与正相关,与负相关
【答案】B
【解析】由散点图可知,变量与负相关,变量与正相关,所以,与负相关.故选:B.
【变式2-4】如下四个散点图中,正相关的是( )
A. B.
C. D.
【答案】A
【解析】对于A,散点图中的点从左向右是上升的,且在一条直线附近,是正相关;
对于B,散点图中的点从左向右是下降的,且在一条直线附近,是负相关;
对于C、D,散点图中的点不成带状分布,没有明显的相关关系;故选:A.
考点三:相关系数的理解与判断
例3.对于样本相关系数,下列说法错误的是( )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数
D.样本相关系数越大,成对样本数据的线性相关程度也越强
【答案】D
【解析】对于A选项,样本相关系数可以用来判断成对样本数据相关的正负性,A对;
对于B选项,样本相关系数可以是正的,也可以是负的,B对;
对于C选项,样本相关系数,C对;
对于D选项,样本相关系数的绝对值越大,
成对样本数据的线性相关程度也越强,D错.故选:D.
【变式3-1】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【答案】B
【解析】由散点图可知第1,3图表示的正相关,且第1个图中的点比第3个图中的点分布更为集中,
故;
第2,4图表示的负相关,且第2个图中的点比第4个图中的点分布更为集中,
故,且,故,
综合可得,
故选:B
【变式3-2】对两个变量与进行回归分析,分别选择不同的模型,它们的相关系数如下,其中拟合效果最好的模型是( )
①模型Ⅰ的相关系数为; ②模型Ⅱ的相关系数为;
③模型Ⅲ的相关系数为; ④模型Ⅳ的相关系数为;
A.Ⅰ B.Ⅱ C.Ⅲ D.Ⅳ
【答案】D
【解析】因为越趋近于,相关性越强,模型拟合效果越好,
所以拟合效果最好的模型是Ⅳ.故选:D.
【变式3-3】已知变量和满足关系,变量y与正相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与正相关,与负相关 D.与负相关,与正相关
【答案】A
【解析】因为变量和满足关系,变量y与正相关,
由正相关、负相关的定义可知与负相关,与负相关.
故选:A
【变式3-4】在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是( )
A.样本数据由正相关变成负相关 B.样本的相关系数不变
C.样本的相关性变弱 D.样本的相关系数变大
【答案】D
【解析】由题意,去掉离群点后,仍然为正相关,相关性变强,相关系数变大,
故A、B、C错误,D正确.故选:D.
考点四:相关系数的计算与应用
例4.在一次试验中,测得的四组值分别为,则与的相关系数为( )
A. B. C.0 D.
【答案】B
【解析】因为过点的直线的斜率为,
所以过点的直线的方程为:即,
经检验点,都在直线,所以与是函数关系,
又因为单调递减,所以与的相关系数为,故选:B.
【变式4-1】某部门所属的10个工业企业的固定资产价值x与工业增加值y资料如下表(单位:百万元):
固定资产价值x
3
3
5
6
6
7
8
9
9
10
工业增加值y
15
17
25
28
30
36
37
42
40
45
根据上表资料计算的相关系数约为 .
【答案】
【解析】根据表格中的数据,可得,
,
则.
故答案为:.
【变式4-2】现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量,,其中,,并计算得,,,,,由选择性必修二教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数 .
【答案】
【解析】由题干数据,,可得,
根据夹角公式的定义,,而,
根据
,
于是.
故答案为:
【变式4-3】若已知是的两倍,是的1.2倍,则相关系数r的值为( )
A. B. C.0.92 D.0.65
【答案】B
【解析】,故选:B
【变式4-4】已知某个样本点中的变量x、y线性相关,相关系数,则在以为坐标原点的坐标系下的散点图中,大多数的点都落在第_____象限.
【答案】二、四
【解析】由,则,
所以,大多数点与异号,又为坐标原点,
故大多数的点都落在第二、四象限.
故答案为:二、四
【变式4-5】国家发改委和住建部等六部门发布通知,提到:2025年,农村生活垃圾无害化处理水平将明显提升.现阶段我国生活垃圾有填埋、焚烧、堆肥等三种处理方式,随着我国生态文明建设的不断深入,焚烧处理已逐渐成为主要方式.根据国家统计局公布的数据,对2013-2020年全国生活垃圾焚烧无害化处理厂的个数y(单位:座)进行统计,得到如下表格:
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
7
8
垃圾焚烧无害化
处理厂的个数 y
166
188
220
249
286
331
389
463
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用(2)所求的经验回归方程预测吗?请简要说明理由.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为
参考数据:,
【答案】(1)答案见解析
(2),513
(3)答案见解析
【分析】(1)根据相关系数的公式,即可代入求值,根据相关系数的大小即可作出判断,
(2)利用最小二乘法即可计算求解,
(3)根据相关关系不是确定的函数关系,而受多因素影响,即可求解.
【详解】(1)
相关系数
因为与的相关系数,接近1,所以与的线性相关程度很高,可用线性回归模型拟合与的关系.
(2)
所以与的线性回归方程为
又2022年对应的年份代码,当时,,
所以预测2022年全国生活垃圾焚烧无害化处理厂的个数为513.
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,不能由(2)所求的线性回归方程预测,理由如下(说出一点即可):
①线性回归方程具有时效性,不能预测较远情况;
②全国生活垃圾焚烧无害化处理厂的个数有可能达到上限,一段时间内不再新建;
③受国家政策的影响,可能产生新的生活垃圾无害化处理方式.
考点五:求回归直线方程
例5.根据如下样本数据,得到的线性回归方程为,则( )
x
2
3
4
5
6
y
4
2.5
A., B., C., D.,
【答案】B
【解析】由表格可以得出随增大而减小,故,
又
故过点,代入可得.故选:B.
【变式5-1】根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,Y平均( )
X
3
4
5
6
7
Y
4.0
-0.5
0.5
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
【答案】B
【解析】样本点的中心为,则,
故,且,解得,,则,
可知当X每增加1个单位时,Y平均减少1.4个单位.故选:B.
【变式5-2】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如表:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
参考公式:,
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出关于的线性回归方程;
(3)预测加工10个零件需要多少小时?
【答案】(1)作图见解析
(2)
(3)8.05
【分析】(1)由数据表可得四个点的坐标,在坐标系中描点作图;
(2)利用最小二乘法求得回归直线方程得系数,再求系数,得回归直线方程;
(3)把代入回归直线方程,求得预报变量的值.
【详解】(1)
(2),,
,,
,
由公式得,
所以所求回归方程为.
(3)当时,,所以预测加工个零件需要小时.
【变式5-3】某校数学建模学生社团进行了一项实验研究,采集了的一组数据如下表所示:
2
3
4
5
6
7
52.5
45
40
30
25
17.5
该社团对上述数据进行了分析,发现与之间具有线性相关关系.
(1)画出表中数据的散点图,并指出与之间的相关系数是正还是负;
(2)求出关于的线性回归方程,并写出当时,预测数据的值.
附:在线性回归方程中,,其中为样本平均值.
【答案】(1)散点图见解析,负
(2),
【分析】(1)由已知条件画出散点图,根据散点图的走向判断两个变量间的关系;
(2)计算回归直线方程中的系数,然后将代入计算即可.
【详解】(1)由题意得散点图如图所示:
由图可知与之间成负相关关系,所以是负.
(2)因为,,
,,
所以,,
∴关于线性回归方程为,
所以当时,.
【变式5-4】某班社会实践小组在寒假去书店体验图书销售员工作,并对某图书定价x(元)与当天销量y(本/天)之间的关系进行调查,得到了一组数据,发现变量大致呈线性关系,数据如下表所示
定价x(元)
6
8
10
12
销量y(本/天)
14
11
8
7
参考数据:,
参考公式:回归方程中斜率的最小二乘估计值公式为
(1)根据以上数据,求出y关于x的回归直线方程;
(2)根据回归直线方程,预测当该图书每天的销量为4本时,该图书的定价是多少元?
【答案】(1);
(2).
【分析】(1)利用最小二乘法直接计算求回归直线方程即可;
(2)利用回归直线方程代入计算即可.
【详解】(1)由表格可知,
则,
所以,
则,故;
(2)由(1)知,当时,,
即当该图书每天的销量为4本时,该图书的定价是元.
【变式5-5】近期,一些地方中小学生“课间10分钟”问题受到社会广泛关注,国家号召中小学要增加学生的室外活动时间.但是进入12月后,天气渐冷,很多学生因气温低而减少了外出活动次数.为了解本班情况,一位同学统计了一周(5天)的气温变化和某一固定课间该班级的学生出楼人数,得到如下数据:
温度(零下)
7
10
11
15
17
出楼人数
20
16
17
10
7
(1)利用最小二乘法,求变量之间的线性回归方程;
附:用最小二乘法求线性回归方程的系数:
(2)预测当温度为时,该班级在本节课间的出楼人数(人数:四舍五入取整数).
(3)为了号召学生能够增加室外活动时间,学校举行拔河比赛,采取3局2胜制(无平局).在甲、乙两班的较量中,甲班每局获胜的概率均为,设随机变量X表示甲班获胜的局数,求的分布列和期望.
【答案】(1)
(2)19
(3)分布列见解析;期望为
【分析】(1)由已知求出的值,求出线性回归方程即可;
(2)将代入线性回归方程求解即可;
(3)先写出随机变量X的可能取值,再列出分布列,最后求出期望即可.
【详解】(1),
,
,
,,
回归直线方程为.
(2)当时,(人),
所以,预测当温度为时,该班级在本节课间的出楼人数为19人.
(3)随机变量可取0,1,2.
,
,
,
所以的分布列为:
0
1
2
p
所以的数学期望为.
考点六:样本中心点的应用
例6.变量x,y的数据如下所示:
x
5
4
3
2
1
y
2
1.5
1
1
0.5
回归直线恒过点 .
【答案】
【解析】变量的平均值为,变量的平均值为,
故回归直线恒过点.
故答案为:.
【变式6-1】某产品的营销费用(万元)与净利润额(万元)的统计数据如下表:
3
4
5
6
40
42
45
51
根据上表可得回归方程中的为,据此预预营销费用为7万元时的净利润额为( )万元.
A.52 B. C.53 D.
【答案】D
【解析】,
因为回归直线过数据中心点,
所以,解得.
回归方程,
当时,.故选:D.
【变式6-2】某同学在研究性学习中,收集到某制药厂今年前5个月甲胶震生产产量(单位:万盒)的数据如表所示:若线性相关,线性回归方程为,则当时,的预测值为 万盒.
(月份)
1
2
3
4
5
(万盒)
5
6
5
6
8
【答案】/
【解析】,
所以,所以,
当时,万盒.
故答案为:
【变式6-3】根据变量与的对应关系(如表),求得关于的线性回归方程为,则表中的值为( )
2
4
5
6
8
30
40
50
70
A.60 B.55 C.50 D.45
【答案】A
【解析】由表中数据,计算,
,
因为回归直线方程过样本中心,
,解得,故选:A
考点七:利用回归直线方程对总体进行估计
例7.某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中x为年份代号,y(单位:万吨)代表新增碳排放量.
年份
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
新增碳排放万吨
6.1
5.2
4.9
4
3.8
(1)请计算并用相关系数的数值说明与间具有较强的线性相关性(若,则线性相关程度较高);
(2)求关于的线性回归方程,并据此估计该地区年的新增碳排放.
参考数据:,,,,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【解析】(1)依题意,
,
所以,所以线性相关程度较高.
(2),
,
所以,
当时,万吨.
【变式7-1】随着科技发展的日新月异,人工智能融入了各个行业,促进了社会的快速发展.其中利用人工智能生成的虚拟角色因为拥有更低的人工成本,正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货销售金额得到逐步提升,以下为该公司自2023年8月使用虚拟角色直播带货后的销售金额情况统计.
年月
2023年8月
2023年9月
2023年10月
2023年11月
2023年12月
2024年1月
月份编号
1
2
3
4
5
6
销售金额/万元
15.4
25.4
35.4
85.4
155.4
195.4
若与的相关关系拟用线性回归模型表示,回答如下问题:
(1)试求变量与的样本相关系数(结果精确到0.01);
(2)试求关于的经验回归方程,并据此预测2024年2月份该公司的销售金额.
附:经验回归方程,其中,,
样本相关系数;
参考数据:,.
【解析】(1),
,
所以.
(2)由题意,
所以,
所以关于的经验回归方程为,
所以预测2024年2月份该公司的销售金额为万元.
【变式7-2】某校服生产企业为了使设计所用的数据更精准,随机地抽取了6位高中男生的身高和臂展的数据,数据如下表所示:
身高
167
173
174
176
182
184
臂展
160
165
173
170
170
182
(1)计算相关系数r(精确到0.01)并说明可用线性回归模型拟合y与x的关系:(若,则线性相关程度很高,可用线性回归模型拟合.)
(2)建立y关于x的线性回归方程,并以此估计男装上装XL号(加大号,对应身高)对应的臂展数据.(结果中精确到0.1.参考数据:,.)
相关系数公式:,
回归方程中,,.
【解析】(1)依题意,,,
,
,
,
所以相关系数,
显然,所以线性相关程度很高,可用线性回归模型拟合y与x的关系.
(2)由(1)知,,
所以y关于x的线性回归方程,
当时,,所以估计男装上装XL号对应的臂展数据为.
考点八:残差分析与相关指数的应用
例8.下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是( )
A. B.
C. D.
【答案】D
【分析】根据残差的特点,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.即可得到答案.
【详解】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,
带状区域的宽度越窄,说明模型的拟合精度越高,显然D选项的拟合精度最高.
故选:D.
【变式8-1】某品牌手机商城统计了开业以来前5个月的手机销量情况如下表所示:
时间x
1
2
3
4
5
销售量y(千只)
0.5
0.7
1.0
1.2
1.6
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中,
C.时,残差为0.06
D.可以预测时,该商场手机销量约为1.81千只
【答案】B
【分析】利用回归直线方程的概念一一判断求解.
【详解】对A,由图表可知,变量y与x正相关,
且,即变量y与x正相关,A正确;
对B,由图表数据可得,
因为样本中心满足回归直线,所以,解得,B错误;
对C,时,残差为,C正确;
对D,时,该商场手机销量约为千只,D正确;
故选:B.
【变式8-2】5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间x
1
2
3
4
5
销售量y(千只)
0.5
0.8
1.0
1.2
1.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中
C.可以预测时该商场5G手机销量约为1.72(千只)
D.时,残差为
【答案】D
【分析】对于,利用表中的数据分析即可求解;对于,利用平均数的定义及样本中心,结合样本中心在回归直线上即可求解;对于,利用预测值和残差的定义即可求解;对于,利用回归方程即可求出预测值.
【详解】对于,从数据看随的增加而增加,所以变量y与x正相关,故正确;
对于,由表中数据知,
所以样本中心点为,将样本中心点代入中得,故正确;
对于,当时该商场5G手机销量约为(千只),故正确.
对于,线性回归方程为,所以,,故错误;
故选:.
【变式8-3】为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则 .
【答案】290
【解析】因为在样本点处的残差为0,
所以,得,
则y关于x的线性回归方程为.
因为,所以,
所以.
故答案为:
【变式8-4】在建立两个变量与的回归模型中,分别选择了4个不同的模型,结合它们的相关指数判断,其中拟合效果最好的为( )
A.模型1的相关指数为0.3 B.模型2的相关指数为0.25
C.模型3的相关指数为0.7 D.模型4的相关指数为0.85
【答案】D
【分析】根据相关指数越大拟合效果越好判断.
【详解】解:因为相关指数越大拟合效果越好,又,
所以模型4的拟合效果越好,
故选:D
【变式8-5】现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
0.2
0.6
1.8
-3
-1
-4.6
-1
根据最小二乘法公式求得经验回归方程为.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【解析】(1)∵,,
∴.
则,解得;
8月份对应的残差值.
(2),
则,
∴线性回归模型拟合程度更好.
【变式8-6】近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归模型:模型①:,模型②: ,对以上两个回归方程进行残差分析,得到下表:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
-0.27
0.38
-0.97
-1.02
0.28
模型②
26.84
20.17
18.83
17.31
16.46
-1.84
0.83
3.17
-1.31
-2.46
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.
附:, ;
【解析】(1)当时,,,
当时,,,
完成表格如下:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
20.32
17.02
13.72
残差
-0.27
0.38
-0.97
1.68
-1.02
0.28
模型②
26.84
22.39
20.17
18.83
17.31
16.46
-1.84
1.61
0.83
3.17
-1.31
-2.46
模型①的残差平方和为,
模型②的残差平方和为,
所以模型①的残差平方和比模型②的残差平方和小,
所以模型①拟合效果比较好.
(2)由题意知,应剔除第四组数据,
,,
,
,
∴所求回归方程为.
考点九:非线性回归分析
例9.设两个相关变量和分别满足下表:
若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
(参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,;)
A. B. C. D.
【答案】B
【解析】因为非线性回归方程为:,则有,
令,即,列出相关变量关系如下:
0
1
3
3
4
所以,,
,,
所以,
所以,所以,
即,即,因为,所以,
当时,.故选:B
【变式9-1】预制菜指以农、畜、禽、水产品为原辅料,配以调味料等经预选、调制等工艺加工而成的半成品.近几年预制菜市场快速增长.某城市调查近4个月的预制菜市场规模y(万元)得到如表所示的数据,根据数据得到y关于x的非线性回归方程
1
2
3
4
按照这样的速度,预估第8个月的预制菜市场规模是 万元.(结果用e表示)
【答案】
【解析】由题设,令,则,,
所以,则,
所以代入回归方程,则,可得万元.
故答案为:
【变式9-2】某企业推出了一款新食品,为了解每单位该食品中所含某种营养成分x(单位:克)与顾客的满意率y的关系,通过调查研究发现可选择函数模型来拟合y与x的关系,根据以下数据:
营养成分含量x/克
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得y关于x的回归方程为( )
A. B. C. D.
【答案】A
【解析】由得,两边同时取对数,得;
由表中数据可知,
的平均数=.
对于A,化简变形可得,
两边同时取对数可得,
将代入可得,,
与题中数据吻合;故选项A正确;
对于B,化简变形可得,
两边同时取对数可得,,
将代入可得,所以选项B错误;
对于C,,两边同时取对数可得,
而表中所给数据为的相关量,所以C错误;
对于D,,两边同时取对数可得,
而表中所给数据为的相关量,所以D错误.故选:A.
【变式9-3】为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中,)
6
97.90
0.21
60
0.14
14.12
26.13
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立关于的回归方程;
②样本对原点的距离时,金属含量的预报值是多少?
附:对于一组数据,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适宜;
(2)①;②
【分析】(1)分别求出与所对应的线性相关系数,然后比较大小即可判断.
(2)根据数据和公式即可求得关于的回归方程,根据回归方程代入,即可求出金属含量的预报值.
【详解】(1)由题的线性相关系数,
的线性相关系数,
因为,所以,
所以更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)①由(1),令,,
则,
所以,,
则,
即.
②当时,
金属含量的预报值
【变式9-4】数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
参考数据:
1 750
0.37
0.55
参考公式:对于一组数据,其经验回归方程的斜率和截距的最小二乘估计分别为,.
(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/题)与训练天数x(天)有关,经统计得到如下数据:
x(天)
1
2
3
4
5
6
7
y(秒/题)
910
800
600
440
300
240
210
现用作为回归方程模型,请利用表中数据,求出该回归方程;(,用分数表示)
(2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜3局者赢得比赛.若小明每局获胜的概率为,且各局之间相互独立,设比赛X局后结束,求随机变量X的分布列及均值.
【答案】(1).
(2)分布列见解析,均值
【分析】(1)由得出,由参考公式求解出,从而求出y和x的回归方程;
(2)根据随机变量X的可能取值逐一分析,当X=3时,小明连胜3局或小红连胜3局;当X=4时,小明前3局胜2局最后一局胜或小红前3局胜2局最后一局胜;当X=5时,小明前4局胜2局最后一局胜或小红前4局胜2局最后一局胜;分别求出每个取值的概率.最后代入期望公式计算即可.
【详解】(1)
解:因为,所以.
因为,
所以,
所以,
所以,
所以所求回归方程为.
(2)
解:随机变量X的所有可能取值为3,4,5,
,
,
.
所以随机变量X的分布列为
X
3
4
5
P
.
一、单选题
1.(24-25高三上·广东·期末)已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为则b的值为( )
x
6
8
9
10
12
y
6
5
4
3
2
A.-0.6 B.-0.7 C.-0.8 D.-0.9
【答案】B
【分析】由表格求出和,根据样本中心点必在线性回归直线上即可求得.
【详解】由表可知:,,
因样本中心点必在线性回归直线上,故有,
代入得:,解得.
故选:B.
2.(24-25高三下·上海·阶段练习)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.无法确定
【答案】A
【分析】根据线性相关系数的定义直接得解.
【详解】由已知样本数据所对应的点均在直线上,
则,又,所以满足负相关,
即.
故选:A.
3.(24-25高二下·辽宁抚顺·开学考试)观测两相关变量得如下数据:则两变量间的回归直线方程为( ).
X
Y
A. B.
C. D.
【答案】B
【分析】利用回归直线方程过样本中心点即可求解.
【详解】由表中数据可得,,
所以样本中心点为,代入选项中检验B正确.
故选:B.
4.(2025·广东·模拟预测)已知变量与的取值如下表:
1
2
3
4
5
5
8
11
且对呈现线性相关关系,则与的经验回归方程必经过的定点为( )
A. B. C. D.
【答案】C
【分析】根据线性回归方程必过样本中心点求解即可.
【详解】由于,
则线性回归方程必过定点.
故选:C.
5.(2025·福建莆田·二模)为了解女儿身高与其母亲身高的关系,随机抽取5对母女的身高数据如下:
母亲身高
164
166
166
166
168
女儿身高
165
165
166
167
167
根据最小二乘法(即取最小),关于的回归直线方程为( )
A. B. C. D.
【答案】C
【分析】利用线性回归方程经过样本中心点,进行排除即可.
【详解】观察数据,可得与有关,故排除D.
又,.
所以回归直线方程必过点,所以排除AB.
故选:C
6.(2025·陕西汉中·二模)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
【答案】B
【分析】利用线性回归方程计算判断ABD;求出第60百分位数判断C.
【详解】对于A,由,得与成正相关,样本相关系数,A错误;
对于B,,,则,B正确;
对于C,,因此第60百分位数为,C错误;
对于D,由选项B知,,当时,,
则当年所需要支出的维修费用约为12.38万元,D错误.
故选:B
7.(2025·河北沧州·一模)若变量y与x之间存在线性相关关系,且根据最小二乘法得到的经验回归方程为,样本点中心为,则样本点的残差为( )
A. B.1.5 C.0.5 D.
【答案】B
【分析】先求出线性回归方程,再由残差的定义求解即可.
【详解】依题意,,所以,即经验回归方程为,
又当时,,所以样本点的残差为,
故选:B.
8.(2025高三·北京·专题练习)如图是根据一组观测数据得到海拔千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法错误的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低kPa
C.由方程可知,样本点的残差为
D.对比两个回归模型,结合实际情况,方程的预报效果更好
【答案】B
【分析】根据散点图即可得出A项;根据回归方程的含义可判断B项;根据残差计算公式求出残差,可判断C项;根据实际大气压强不能为负,可判断D项.
【详解】对于A,由图象知,海拔高度越高,大气压强越低,
所以大气压强与海拔高度负相关,故A正确;
对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误;
对于C,当时, ,
所以样本点的残差为,故C正确;
对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,
因此方程的预报效果更好,故D正确.
故选:B.
9.(2025·湖北·模拟预测)根据变量和的成对样本数据,由一元线性回归模型①,得到经验回归模型,对应的残差如图(1)所示.根据变量和的成对样本数据,由一元线性回归模型②,得到经验回归模型,对应的残差如图(2)所示,则( )
A.模型①的误差满足一元线性回归模型的的假设,不满足的假设
B.模型①的误差不满足一元线性回归模型的的假设,满足的假设
C.模型②的误差满足一元线性回归模型的的假设,不满足的假设
D.模型②的误差不满足一元线性回归模型的的假设,满足的假设
【答案】A
【分析】根据已知残差散点的分布图,结合一元线性回归模型中对随机误差的假定的含义,即可判断答案.
【详解】对于残差图(1)对应的散点,随机误差满足的假设,但是方差随着的变化而变化,不满足的假设;
对图(2)对应的散点,均匀分布在水平带状区域内,随机误差满足的假设,方差不随的变化而变化,满足的假设.
故选:A.
10.(24-25高三下·江苏徐州·阶段练习)已知变量x和变量y的一组成对样本数据(,2,3,…,18),其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】B
【分析】先计算新数据的平均值,然后计算新数据的回归方程,进而根据残差定义计算.
【详解】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:B.
11.(24-25高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【答案】C
【分析】根据给定条件,求出样本的中心点并求出经验回归方程,进而求出身高的估计值.
【详解】由,,得样本的中心点为,
则,解得,因此经验回归方程为,
当时,(cm).
故选:C
12.(24-25高三下·上海·阶段练习)经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.在研究树高y与胸径x之间的关系时,某同学收集了某种树的5组观测数据(如下表):假设树高y与胸径x满足的经验回归方程为,则( )
胸径x/cm
8
9
10
11
12
树高y/m
8.2
10
11
12
13.8
A.当胸径时,树高y的预测值为14 B.
C.表中的树高观测数据y的40%分位数为10 D.当胸径时,树高y的离差为0.32
【答案】B
【分析】利用样本中心点求得,然后根据预测值、百分位数、离差的知识进行分析,从而确定正确答案.
【详解】由题意可知,,,
经验回归方程过点,,解,故B正确;
对于A,由B可知,当胸径时,树高y的预测值为,A错误;
对于C,,表中的树高观测数据y的40%分位数为,C错误;
对于D,由B可知,当胸径时,树高y的预测值为,
树高y离差为,D错误.
故选:B.
13.(24-25高二下·河南驻马店·阶段练习)已知随机变量X,Y的组样本观测值都落在经验回归直线上,则随机变量X,Y的样本相关系数为( )
A. B. C.1 D.
【答案】D
【分析】根据线性相关系数的意义分析求解即可.
【详解】因为样本观测值都在直线上,
则线性相关性最强,可知,
且,可知随机变量X,Y满足负相关,所以样本相关系数为.
故选:D.
14.(24-25高三下·上海浦东新·阶段练习)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性 B.相关系数变大
C.相关系数变小 D.相关系数不变
【答案】C
【分析】根据散点图,可判断A选项,加入点后,回归效果变差,从而可判断B,C,D选项.
【详解】对于A,加入点后,变量与预报变量相关性变弱,但不能说不具有线性相关性,故A错误;
对于B,C,D,由于点远离其他点,故加上点后,回归效果会变差,
所以相应的样本相关系数的绝对值会变小,
根据题中散点图,显然,所以会变小,故C正确,B,D错误.
故选:C.
15.(24-25高三下·辽宁·开学考试)已知两个变量x和y之间具有较强的线性相关关系,且y关于x的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差=观测值-预测值),则( )
A.0.28 B.0.56 C.0.34 D.0.48
【答案】B
【分析】先根据回归直线估计得出预测值,再残差计算求解计算求参.
【详解】因为y关于x的经验回归方程为,
所以预测值为,又因为残差=观测值-预测值,
所以,
所以.
故选:B.
16.(2025·山东烟台·一模)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
【答案】A
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线,估计的对应值,最后由残差的定义求解.
【详解】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以,有,故残差的绝对值为.
故选:A
17.(24-25高二下·天津·阶段练习)以下散点图经过标准化后,相关系数最大的是( )
A. B.
C. D.
【答案】A
【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案.
【详解】对于,散点呈上升趋势,线性相关系数为正数,这些点紧密的聚集在一条直线的附近,线性相关性强;
对于,散点分布呈曲线趋势,线性相关程度比弱;
对于,散点呈下降趋势,线性相关系数为负数;
对于,散点分布比较分散,线性相关程度比弱;
所以相关系数最大的是.
故选:.
二、多选题
18.(24-25高三下·湖南长沙·阶段练习)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )
A.直线过点
B.直线的斜率即为和的相关系数
C.和的相关系数在到1之间
D.当为偶数时,分布在两侧的样本点的个数相等
【答案】AC
【分析】根据回归直线方程、相关系数的的概念及特点、回归直线与样本点的关系判断各选项即可.
【详解】回归直线一定过这组数据的样本中心点,故A项正确;
两个变量的相关系数不是回归直线的斜率,两者公式不同,故B项不正确;
两个变量的相关系数在到1之间,故C项正确;
所有样本点集中在回归直线附近,不一定两侧一样多,故D项不正确.
故选:AC.
19.(湖南省部分学校2025届高三“一起考”大联考(模拟一)数学试卷)小王经过调查获得如下数据:
2
4
7
17
30
1
2
3
4
5
参考公式:相关系数,,.
下列说法正确的有( )
A.该数据组的线性回归方程(系数精确到0.01)为
B.该数据组的相关系数,很接近1说明该数据组拟合效果很好
C.所有数据点中残差绝对值最小的是
D.去掉数据点后,回归直线会向下移动
【答案】ACD
【分析】根据给出的相关系数公式,以及回归直线斜率和截距的最小二乘法公式求出线性回归方程,结合残差的定义逐项分析判断.
【详解】对于A,,,
,
,
所以,,
所以该数据组的线性回归方程为,故A正确;
对于B,由,
则,很接近1说明两个变量相关性越强,与拟合效果无关,故B错误;
对于C,由残差绝对值,结合A项的回归方程可得,
,,,
,,故C正确;
对于D,,故点在回归直线上方,故去掉该点后,回归直线下移,故D正确.
故选:ACD.
20.(2025·江西鹰潭·一模)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,
A.当时,成对样本数据成线性正相关;
B.当越大时,成对样本数据的线性相关程度越强;
C.,时,成对样本数据的相关系数满足;
D.,时,成对样本数据的线性回归方程满足;
【答案】ACD
【分析】根据相关系数的正负、绝对值大小与变量相关性之间关系可知AB正误;根据,,代入相关系数和最小二乘法公式中,可知CD正误.
【详解】对于A,当时,成对样本数据成线性正相关,A正确;
对于B,当越大时,成对样本数据的线性相关程度越强;
当,时,对应的样本数据的线性相关程度更强,B错误;
对于C,当,时,不变且,
,C正确;
对于D,当,时,不变且,
,D正确.
故选:ACD.
21.(2025·广东·一模)一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为、,分布如图所示,且,则( )
A. 样本负相关 B.
C. D.处理后的决定系数变大
【答案】ABD
【分析】根据回归方程判断A,根据样本中心点计算判断B,根据图象由波动性判断C,根据图象的波动性判断D.
【详解】由经验回归方程单调递减,可知样本负相关,故A正确;
由题意样本均值分别为,
由样本中心在经验回归直线上,代入回归直线解得,故B正确:
由图一的数据波动较大可得比更集中,所以,故C错误;
由图一的残差平方和较图二的残差平方和大可知,处理后拟合效果更好,决定系数变大,故D正确.
故选:ABD
22.(24-25高三下·广东深圳·阶段练习)某工厂为了解某型仪器的使用成本,对其已使用年限以及当年所需要支出的维修费用进行了统计,已知该型仪器投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
7
根据表中的数据可得线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6
D.当该型仪器投入使用的时间为7年时,当年所需要支出的维修费用一定是8690元
【答案】AC
【分析】A由数据可知随着增大而增大即可判断;B计算将其代入回归方程中得出即可;C将数据从小到大排列,并计算,则计算第5和第6个数的均值;D计算回归方程在时的函数值.
【详解】对于A,由表中数据可得随着增大而增大,与正相关,所以相关系数,故A正确;
对于B ,,则,所以,故B错误;
对于C,维修费用从小到大依次为,因为,故第60百分位数为,故C正确;
对于D,根据回归分析的概念,仪器使用的时间为7年时,所需要支出的维修费用大约是千元,但不绝对,故D错误.
故选:AC
三、填空题
23.(24-25高二上·广西梧州·期末)由数据可得关于的线性回归方程为,若,则 .
【答案】32
【分析】根据线性回归方程过求解即可.
【详解】依题意,,由,得,解得,所以.
故答案为:32
24.(24-25高三下·湖南·阶段练习)某蔬菜种植基地最近五年的年投资成本(万元)和年利润(万元)的统计表如下:
10
11
12
13
14
11
12
19
若关于的线性回归方程为,则的平均数 .
【答案】/
【分析】因为线性回归方程过样本中心点,将代入即可.
【详解】因为线性回归方程过样本中心点,将代入得
故答案为:
25.(24-25高三下·全国·开学考试)已知具有线性相关性的变量x,y,设其样本点为,经验回归方程为,若,,则 .
【答案】9.5
【分析】先求出样本中心点,再代入回归直线方程即可.
【详解】因为,,
所以,
又线性回归直线经过样本中心点,所以.
故答案为:9.5.
26.(2025·广东汕头·一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是 .(填“甲”或“乙”或“丙”)
【答案】丙
【分析】应用残差图,残差平方和,决定系数的性质判定即可.
【详解】甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①拟合效果更好;
残差平方和越大,即决定系数越小,说明数据点越离散,
所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好.
故答案为:丙.
27.(24-25高二下·陕西汉中·阶段练习)如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 .
3
5
7
9
2.5
4
6.5
【答案】5
【分析】通过表格计算出样本中心点,代入回归方程即可求解.
【详解】由表可知,,,
所以样本中心点为,
代入,得,解得.
故答案为:5.
28.(24-25高三上·吉林·期末)已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
0
1
2
3
5
【答案】/
【分析】由题意求得两个变量的平均值,即样本中心,将其代入回归直线,可得斜率,进而可得答案.
【详解】由表格可得的平均值,
则,
由表格可得的平均值,
将代入回归直线,可得,解得,
则,当,则.
故答案为:.
29.(24-25高三上·山东德州·阶段练习)已知个点大致呈线性分布,其中,且数据的回归直线方程为,则的最小值为 .
【答案】
【分析】根据回归方程必过样本中心点,即可得到答案.
【详解】回归直线经过,
且,
代入回归方程得:,
即,
所以当时,的最小值为.
故答案为:.
30.(24-25高三上·黑龙江哈尔滨·期末)某企业近几年加大了对科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下表所示,由下表中的数据求得经验回归方程为,其中m为下表中科技投入x的4个数据的方差的8倍,据此经验回归方程预测,当时,的值为 (百万元).
科技投入x(百万元)
1
2
3
4
收益y(百万元)
m
m+3
15
18
【答案】
【分析】先求出,再结合方差公式可得,即可得,再借助经验回归方程过点即可得,再将代入经验回归方程即可得解.
【详解】,则,
则,
则有,即,即,
故当时,.
故答案为:.
31.(2025高三下·全国·专题练习)中国是茶的故乡,也是茶文化的发源地.茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“金萱排骨茶”,为了解每壶“金萱排骨茶”中所放茶叶量(单位:克)与食客的满意率的关系,通过调查研究发现选择函数模型来拟合与的关系,根据以下数据:
茶叶量克
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得关于的回归方程为 .
(附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为).
【答案】
【分析】将整理为,然后利用公式计算即可.
【详解】对等式两边同时取对数,可得:,
易知:,,
则,
,
,
,
综上,可得:,
又有:,
可得.
故答案为:.
四、解答题
32.(24-25高一下·江西·阶段练习)蚊子是多种疾病的传播媒介,对人畜都有较大的危害.某热带养殖场为检测蚊虫密度,在养殖区悬挂多盏诱蚊灯,去年每月收集28天,连续检测了12个月,其中5月份蚊虫最多,11月份最少,由于工作人员不小心,某些月份数据丢失,保留的月份及每月对应的蚁虫密度值的数据如下表;
2
5
8
11
42
82
42
2
(1)从,且,且中选择一个合适的函数模型,并给出理由;
(2)在(1)的基础上,求出蚊虫密度关于月份的拟合模型的解析式;
(3)今年养殖场新引进的某种动物容易感染疟疾,养殖场计划当蚊虫密度不低于62时,将采取灭蚊措施.若此养殖场今年的蚊虫密度符合(2)中的函数模型,估计养殖场应准备在哪几个月采取灭蚊措施?
【答案】(1),理由见解析
(2)
(3)月
【分析】(1)利用函数的单调性即可选出适合.
(2)根据数据判断,得到,再利用最大值与最小值即可求出,
再代入特殊点进去即可求得解析式.
(3)利用三角函数的单调性与周期性即可得到结果.
【详解】(1)适合.
当与时,,而,且与,且均为单调函数,
所以适合.
(2)由5月份蚊虫最多,11月份最少,得,所以,得,
由,得,
所以,将代入得,
即,又,所以,
故.
(3)令,得,
即,得,
又,故,
即养殖场应准备在月采取灭蚊措施.
33.(2025高三·全国·专题练习)某航天公司研发一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离
56
63
71
79
90
102
110
117
损坏零件数(个)
61
73
90
105
119
136
149
163
建立关于的回归模型,根据所给数据及回归模型,求回归方程及相关系数;(精确到0.1,精确到整数,精确到0.0001)
参考数据、公式如下:
,其中,.
,.
保养
未保养
合计
报废
未报废
合计
,其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【答案】,.
【分析】利用最小二乘法求出,即可得出回归方程,再根据公式求出相关系数即可.
【详解】由题意,得,
,
又,所以,
,所以变量关于的线性回归方程为.
,,则.
34.(24-25高三下·重庆·阶段练习)自2016年1月1日起,我国全面二孩政策正式实施,这次人口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了200户有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
(1)请用相关系数说明该组数据中变量与之间的关系可以用线性回归模型拟合,并求关于的线性回归方程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,现从这5个成对数据中任取3个做残差分析,求取到的数据中“次数据”个数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
【答案】(1)答案见解析,
(2)分布列见解析,
【分析】(1)由已知求出,,再公式求出,即可说明相关性很强,因此变量与之间的关系可以用线性回归模型拟合;利用公式求出,即可得到关于的线性回归方程;
(2)由回归方程求出预测值,可得残差的绝对值,判断是否为“次数据”,可得“次数据”和非“次数据”个数,“次数据”个数为,求出对应概率,即可列出分布列求出数学期望.
【详解】(1)由已知,,
,
,
则
,
因为,说明相关性很强,因此变量与之间的关系可以用线性回归模型拟合.
因为,
,
所以关于的线性回归方程为.
(2)由(1)回归方程为,样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,
则由题意,列出下表:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
预测值
3.6
9.2
14.8
20.4
26
残差的绝对值
0.4
1.2
1.2
0.4
0
是否为“次数据”
否
是
是
否
否
则“次数据”共有2个,非“次数据”共有3个,
从这5个数据中任取3个,“次数据”个数为,
则,,,
分布列为:
X
0
1
2
P
数学期望为.
35.(24-25高三下·云南昭通·阶段练习)随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升.小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:,.
附:回归直线中,,.
【答案】(1)
(2)
【分析】(1)由数据求得回归方程系数,即可求解;
(2)由全概率公式即可求解;
【详解】(1),,
由参考数据
所以
故广告费投入y关于年销售量x的回归方程为.
(2)设“在甲汽车店购买汽车”,“在乙汽车店购买汽车”,
“购买的是新能源汽车”,
,,,
由全概率公式得,.
36.(24-25高三下·重庆沙坪坝·阶段练习)2025年春晚最火的节目无疑是机器人扭秧歌. 其中表演的机器人出自宇树科技, 宇树科技是一家专注于高性能四足机器人研发和生产的中国科技公司. 该公司以其创新的四足机器人在全球范围内广受关注,主要应用于教育、科研、娱乐和工业等领域,其中四大产品之一的机器人Unitree A1具备较强的负载能里和环境适应性, 可用于巡检与监控、物流和运用、安防与救援. 现统计出机器人Unitree A1在某地区2024年2月到6月的销售量如下表所示:
月份
2
3
4
5
6
销量
42
53
66
109
用最小二乘法得到Unitree A1的销售量关于月份的回归直线方程为,且相关系数,销量的方差.
(1)求的值(结果精确到0.1);
(2)求的值,并根据(1)的结果计算5月销售量的残差.
附: 回归系数,相关系数 .
【答案】(1)
(2);残差为
【分析】(1)根据题中数据可得,,,代入即可求的值;
(2)根据线性回归方程必过样本中心点求的值,令,可得,即可得残差.
【详解】(1)由表可得:,,
因为,可得,
又因为,
可得,
所以.
(2)由表可知:,
由(1)可知回归直线方程为,且,
则,解得,
此时,,可得,符合题意,
所以,
对于回归直线方程,令,可得,
所以5月销售量的残差.
37.(24-25高三下·云南昆明·阶段练习)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一、从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.3
165.0
204
17.5
42
3.5
6448.3
1901.5
其中.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占,存活天数为1的样本在全体样本中占.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:.
【答案】(1)更适合,
(2)①;②
【分析】(1)根据散点图,确定更适合,再利用换元法,以及题中的数据,代入公式求回归方程;
(2)①根据条件概率,以及递推关系,可证明数列是以0.18为首项,0.8为公比的等比数列,再根据分段函数的形式列出解析式;②根据①的结果,列式,再利用错位相减法,即可求解.
【详解】(1)由散点图可知,更适合作为云南省花卉种植面积y关于年份代码x的回归方程类型.
令,所以.
因为,,,,
所以.
所以,
所以.
云南省花卉种植面积y关于年份代码x的回归方程为.
(2)①由题可得,,
当时,,
又,即,
同理可得,当时,,
两式相减得,
即,,,
因为,
所以,当时,是以0.18为首项,0.8为公比的等比数列,
当时,,
所以.
②
,
令,
则,
两式相减得,
,
所以,
则.
【点睛】关键点点睛:本题的关键是由条件概率,以及公式,从而列出数列的递推关系式.
38.(2025·广东·一模)近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
【答案】(1),千辆;
(2)预计最多可调整人去其他部门.
【分析】(1)根据所给数据计算,即可得到关于的线性回归方程,由此可得结果.
(2)根据条件可得培训后能使用人工智能工具的人数,计算,根据宣传部门员工创造的年净利润不低于调整前可得结果.
【详解】(1)由题意得,
,
所以,,
所以关于的线性回归方程为,
由题意得,年月份的月份代码为,当时,,
所以估计该地区新能源汽车在年月份的销量为千辆.
(2)记事件为“员工经过培训后,能使用人工智能工具”,
则,
设宣传部门调至其他部门人数为,则参加培训的人数为,
设为培训后能使用人工智能工具的人数,
则,故,
调整后年净利润预计为:万元,
由题意得,
解得,
所以预计最多可调整人去其他部门.
(
5
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
$$
预习第11讲 线性回归分析9种常见考法归类
模块一 思维导图串知识
模块二 基础知识全梳理(吃透教材)
模块三 核心考点举一反三
模块四 小试牛刀过关测
1.掌握相关关系的判断,能根据散点图对线性相关关系进行判断.
2.了解两个变量间的相关系数r,能利用相关系数r判断两个变量线性相关程度的大小.
3.了解最小二乘法原理,会求线性回归方程,并能根据线性回归方程进行预测.
知识点1、变量的相关关系
1、相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系;
2、散点图:将样本中n个数据点()描在平面直角坐标系中得到的统计图叫做散点图,是描述成对数据之间关系的一种直观方法;
3、正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
4、线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
5、非线性相关与曲线相关:如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关;
知识点2、相关关系与函数关系的异同
1、相同点:两者均是指两个变量之间的关系;
2、不同点:(1)函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系;相关关系是一种不确定的关系,如一块农田的水稻产量与施肥量之间的关系;事实上,函数是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系;
(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
知识点3、样本相关系数
1、样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
2、相关系数r的性质
(1);
(2)时,与呈正相关关系;
时,与呈负相关关系
(3)越接近1,与的相关程度越强;
越接近0,与的相关程度越弱.
通常情况下,时,认为线性相关关系显著;
当时,认为几乎没有线性相关关系。
知识点4、线性回归方程
1、随机误差
具有线性相关关系的两个变量的取值,,的值不能由完全确定,它们之间是统计相关关系,可将,之间的关系表示为,其中是确定性函数,称为随机误差。
2、随机误差产生的主要原因
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差。
3、线性回归模型中,的求法
称为线性回归模型,,,的估计值为,,则
其中,
4、回归直线和线性回归方程
直线称为回归直线,此直线方程称为线性回归方程,称为回归截距,称为回归斜率,称为回归值。
知识点5、常见的非线性函数转换方法
1、幂型函数y=axm(a为正数,x,y取正值)
对y=axm两边取常用对数,有lg y=lg a+mlg x,
令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,
该式表示u,v的线性函数.
2、指数型函数y=c·ax(a,c>0,且a≠1):
对y=cax两边取常用对数,则有lg y=lg c+xlg a,
令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,
该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
3、反比例函数y= (k>0):令u=,则y=ku,该式表示y,u的线性函数.
4、二次函数y=ax2+c:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
5、对数型函数y=clogax:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
考点一:相关关系的理解
例1.下列关系中,是相关关系的为( )
①学生的学习态度与学习成绩;②身高与体重;③铁块的大小与质量;④出租车的车费与行驶路程.
A.①② B.①③ C.②③ D.②④
【变式1-1】下列两个变量中能够具有相关关系的是( )
A.人所站的高度与视野 B.人眼的近视程度与身高
C.正方体的体积与棱长 D.某同学的学籍号与考试成绩
【变式1-2】下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.某正方形的边长与此正方形的面积
C.每亩施肥量与粮食亩产量
D.人的身高与体重
考点二:散点图与相关性
例2.如图,两个变量具有相关关系的是( )
A.(1)(3) B.(1)(4) C.(2)(4) D.(2)(3)
【变式2-1】有一散点图如图所示,在5个数据中去掉后,给出下列说法:①相关系数r变大;②相关指数变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1个 B.2个 C.3个 D.4个
【变式2-2】某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
人均销售额
利润率
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正出例函数关系
D.利润率与人均销售额成反比例函数关系
【变式2-3】对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关
B.变量与负相关,与负相关
C.变量与正相关,与正相关
D.变量与正相关,与负相关
【变式2-4】如下四个散点图中,正相关的是( )
A. B.
C. D.
考点三:相关系数的理解与判断
例3.对于样本相关系数,下列说法错误的是( )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数
D.样本相关系数越大,成对样本数据的线性相关程度也越强
【变式3-1】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【变式3-2】对两个变量与进行回归分析,分别选择不同的模型,它们的相关系数如下,其中拟合效果最好的模型是( )
①模型Ⅰ的相关系数为; ②模型Ⅱ的相关系数为;
③模型Ⅲ的相关系数为; ④模型Ⅳ的相关系数为;
A.Ⅰ B.Ⅱ C.Ⅲ D.Ⅳ
【变式3-3】已知变量和满足关系,变量y与正相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与正相关,与负相关 D.与负相关,与正相关
【变式3-4】在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是( )
A.样本数据由正相关变成负相关 B.样本的相关系数不变
C.样本的相关性变弱 D.样本的相关系数变大
考点四:相关系数的计算与应用
例4.在一次试验中,测得的四组值分别为,则与的相关系数为( )
A. B. C.0 D.
【变式4-1】某部门所属的10个工业企业的固定资产价值x与工业增加值y资料如下表(单位:百万元):
固定资产价值x
3
3
5
6
6
7
8
9
9
10
工业增加值y
15
17
25
28
30
36
37
42
40
45
根据上表资料计算的相关系数约为 .
【变式4-2】现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量,,其中,,并计算得,,,,,由选择性必修二教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数 .
【变式4-3】若已知是的两倍,是的1.2倍,则相关系数r的值为( )
A. B. C.0.92 D.0.65
【变式4-4】已知某个样本点中的变量x、y线性相关,相关系数,则在以为坐标原点的坐标系下的散点图中,大多数的点都落在第_____象限.
【变式4-5】国家发改委和住建部等六部门发布通知,提到:2025年,农村生活垃圾无害化处理水平将明显提升.现阶段我国生活垃圾有填埋、焚烧、堆肥等三种处理方式,随着我国生态文明建设的不断深入,焚烧处理已逐渐成为主要方式.根据国家统计局公布的数据,对2013-2020年全国生活垃圾焚烧无害化处理厂的个数y(单位:座)进行统计,得到如下表格:
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
7
8
垃圾焚烧无害化
处理厂的个数 y
166
188
220
249
286
331
389
463
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用(2)所求的经验回归方程预测吗?请简要说明理由.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为
参考数据:,
考点五:求回归直线方程
例5.根据如下样本数据,得到的线性回归方程为,则( )
x
2
3
4
5
6
y
4
2.5
A., B., C., D.,
【变式5-1】根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,Y平均( )
X
3
4
5
6
7
Y
4.0
-0.5
0.5
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
【变式5-2】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如表:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
参考公式:,
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出关于的线性回归方程;
(3)预测加工10个零件需要多少小时?
【变式5-3】某校数学建模学生社团进行了一项实验研究,采集了的一组数据如下表所示:
2
3
4
5
6
7
52.5
45
40
30
25
17.5
该社团对上述数据进行了分析,发现与之间具有线性相关关系.
(1)画出表中数据的散点图,并指出与之间的相关系数是正还是负;
(2)求出关于的线性回归方程,并写出当时,预测数据的值.
附:在线性回归方程中,,其中为样本平均值.
【变式5-4】某班社会实践小组在寒假去书店体验图书销售员工作,并对某图书定价x(元)与当天销量y(本/天)之间的关系进行调查,得到了一组数据,发现变量大致呈线性关系,数据如下表所示
定价x(元)
6
8
10
12
销量y(本/天)
14
11
8
7
参考数据:,
参考公式:回归方程中斜率的最小二乘估计值公式为
(1)根据以上数据,求出y关于x的回归直线方程;
(2)根据回归直线方程,预测当该图书每天的销量为4本时,该图书的定价是多少元?
【变式5-5】近期,一些地方中小学生“课间10分钟”问题受到社会广泛关注,国家号召中小学要增加学生的室外活动时间.但是进入12月后,天气渐冷,很多学生因气温低而减少了外出活动次数.为了解本班情况,一位同学统计了一周(5天)的气温变化和某一固定课间该班级的学生出楼人数,得到如下数据:
温度(零下)
7
10
11
15
17
出楼人数
20
16
17
10
7
(1)利用最小二乘法,求变量之间的线性回归方程;
附:用最小二乘法求线性回归方程的系数:
(2)预测当温度为时,该班级在本节课间的出楼人数(人数:四舍五入取整数).
(3)为了号召学生能够增加室外活动时间,学校举行拔河比赛,采取3局2胜制(无平局).在甲、乙两班的较量中,甲班每局获胜的概率均为,设随机变量X表示甲班获胜的局数,求的分布列和期望.
考点六:样本中心点的应用
例6.变量x,y的数据如下所示:
x
5
4
3
2
1
y
2
1.5
1
1
0.5
回归直线恒过点 .
【变式6-1】某产品的营销费用(万元)与净利润额(万元)的统计数据如下表:
3
4
5
6
40
42
45
51
根据上表可得回归方程中的为,据此预预营销费用为7万元时的净利润额为( )万元.
A.52 B. C.53 D.
【变式6-2】某同学在研究性学习中,收集到某制药厂今年前5个月甲胶震生产产量(单位:万盒)的数据如表所示:若线性相关,线性回归方程为,则当时,的预测值为 万盒.
(月份)
1
2
3
4
5
(万盒)
5
6
5
6
8
【变式6-3】根据变量与的对应关系(如表),求得关于的线性回归方程为,则表中的值为( )
2
4
5
6
8
30
40
50
70
A.60 B.55 C.50 D.45
考点七:利用回归直线方程对总体进行估计
例7.某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中x为年份代号,y(单位:万吨)代表新增碳排放量.
年份
2019
2020
2021
2022
2023
年份代号
1
2
3
4
5
新增碳排放万吨
6.1
5.2
4.9
4
3.8
(1)请计算并用相关系数的数值说明与间具有较强的线性相关性(若,则线性相关程度较高);
(2)求关于的线性回归方程,并据此估计该地区年的新增碳排放.
参考数据:,,,,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【变式7-1】随着科技发展的日新月异,人工智能融入了各个行业,促进了社会的快速发展.其中利用人工智能生成的虚拟角色因为拥有更低的人工成本,正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货销售金额得到逐步提升,以下为该公司自2023年8月使用虚拟角色直播带货后的销售金额情况统计.
年月
2023年8月
2023年9月
2023年10月
2023年11月
2023年12月
2024年1月
月份编号
1
2
3
4
5
6
销售金额/万元
15.4
25.4
35.4
85.4
155.4
195.4
若与的相关关系拟用线性回归模型表示,回答如下问题:
(1)试求变量与的样本相关系数(结果精确到0.01);
(2)试求关于的经验回归方程,并据此预测2024年2月份该公司的销售金额.
附:经验回归方程,其中,,
样本相关系数;
参考数据:,.
【变式7-2】某校服生产企业为了使设计所用的数据更精准,随机地抽取了6位高中男生的身高和臂展的数据,数据如下表所示:
身高
167
173
174
176
182
184
臂展
160
165
173
170
170
182
(1)计算相关系数r(精确到0.01)并说明可用线性回归模型拟合y与x的关系:(若,则线性相关程度很高,可用线性回归模型拟合.)
(2)建立y关于x的线性回归方程,并以此估计男装上装XL号(加大号,对应身高)对应的臂展数据.(结果中精确到0.1.参考数据:,.)
相关系数公式:,
回归方程中,,.
考点八:残差分析与相关指数的应用
例8.下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是( )
A. B.
C. D.
【变式8-1】某品牌手机商城统计了开业以来前5个月的手机销量情况如下表所示:
时间x
1
2
3
4
5
销售量y(千只)
0.5
0.7
1.0
1.2
1.6
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中,
C.时,残差为0.06
D.可以预测时,该商场手机销量约为1.81千只
【变式8-2】5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间x
1
2
3
4
5
销售量y(千只)
0.5
0.8
1.0
1.2
1.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中
C.可以预测时该商场5G手机销量约为1.72(千只)
D.时,残差为
【变式8-3】为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则 .
【变式8-4】在建立两个变量与的回归模型中,分别选择了4个不同的模型,结合它们的相关指数判断,其中拟合效果最好的为( )
A.模型1的相关指数为0.3 B.模型2的相关指数为0.25
C.模型3的相关指数为0.7 D.模型4的相关指数为0.85
【变式8-5】现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
0.2
0.6
1.8
-3
-1
-4.6
-1
根据最小二乘法公式求得经验回归方程为.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【变式8-6】近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归模型:模型①:,模型②: ,对以上两个回归方程进行残差分析,得到下表:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
-0.27
0.38
-0.97
-1.02
0.28
模型②
26.84
20.17
18.83
17.31
16.46
-1.84
0.83
3.17
-1.31
-2.46
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.
附:, ;
考点九:非线性回归分析
例9.设两个相关变量和分别满足下表:
若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
(参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,;)
A. B. C. D.
【变式9-1】预制菜指以农、畜、禽、水产品为原辅料,配以调味料等经预选、调制等工艺加工而成的半成品.近几年预制菜市场快速增长.某城市调查近4个月的预制菜市场规模y(万元)得到如表所示的数据,根据数据得到y关于x的非线性回归方程
1
2
3
4
按照这样的速度,预估第8个月的预制菜市场规模是 万元.(结果用e表示)
【变式9-2】某企业推出了一款新食品,为了解每单位该食品中所含某种营养成分x(单位:克)与顾客的满意率y的关系,通过调查研究发现可选择函数模型来拟合y与x的关系,根据以下数据:
营养成分含量x/克
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得y关于x的回归方程为( )
A. B. C. D.
【变式9-3】为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中,)
6
97.90
0.21
60
0.14
14.12
26.13
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立关于的回归方程;
②样本对原点的距离时,金属含量的预报值是多少?
附:对于一组数据,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
【变式9-4】数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
参考数据:
1 750
0.37
0.55
参考公式:对于一组数据,其经验回归方程的斜率和截距的最小二乘估计分别为,.
(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/题)与训练天数x(天)有关,经统计得到如下数据:
x(天)
1
2
3
4
5
6
7
y(秒/题)
910
800
600
440
300
240
210
现用作为回归方程模型,请利用表中数据,求出该回归方程;(,用分数表示)
(2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜3局者赢得比赛.若小明每局获胜的概率为,且各局之间相互独立,设比赛X局后结束,求随机变量X的分布列及均值.
一、单选题
1.(24-25高三上·广东·期末)已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为则b的值为( )
x
6
8
9
10
12
y
6
5
4
3
2
A.-0.6 B.-0.7 C.-0.8 D.-0.9
2.(24-25高三下·上海·阶段练习)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.无法确定
3.(24-25高二下·辽宁抚顺·开学考试)观测两相关变量得如下数据:则两变量间的回归直线方程为( ).
X
Y
A. B.
C. D.
4.(2025·广东·模拟预测)已知变量与的取值如下表:
1
2
3
4
5
5
8
11
且对呈现线性相关关系,则与的经验回归方程必经过的定点为( )
A. B. C. D.
5.(2025·福建莆田·二模)为了解女儿身高与其母亲身高的关系,随机抽取5对母女的身高数据如下:
母亲身高
164
166
166
166
168
女儿身高
165
165
166
167
167
根据最小二乘法(即取最小),关于的回归直线方程为( )
A. B. C. D.
6.(2025·陕西汉中·二模)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
7.(2025·河北沧州·一模)若变量y与x之间存在线性相关关系,且根据最小二乘法得到的经验回归方程为,样本点中心为,则样本点的残差为( )
A. B.1.5 C.0.5 D.
8.(2025高三·北京·专题练习)如图是根据一组观测数据得到海拔千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法错误的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低kPa
C.由方程可知,样本点的残差为
D.对比两个回归模型,结合实际情况,方程的预报效果更好
9.(2025·湖北·模拟预测)根据变量和的成对样本数据,由一元线性回归模型①,得到经验回归模型,对应的残差如图(1)所示.根据变量和的成对样本数据,由一元线性回归模型②,得到经验回归模型,对应的残差如图(2)所示,则( )
A.模型①的误差满足一元线性回归模型的的假设,不满足的假设
B.模型①的误差不满足一元线性回归模型的的假设,满足的假设
C.模型②的误差满足一元线性回归模型的的假设,不满足的假设
D.模型②的误差不满足一元线性回归模型的的假设,满足的假设
10.(24-25高三下·江苏徐州·阶段练习)已知变量x和变量y的一组成对样本数据(,2,3,…,18),其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
11.(24-25高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
12.(24-25高三下·上海·阶段练习)经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.在研究树高y与胸径x之间的关系时,某同学收集了某种树的5组观测数据(如下表):假设树高y与胸径x满足的经验回归方程为,则( )
胸径x/cm
8
9
10
11
12
树高y/m
8.2
10
11
12
13.8
A.当胸径时,树高y的预测值为14 B.
C.表中的树高观测数据y的40%分位数为10 D.当胸径时,树高y的离差为0.32
13.(24-25高二下·河南驻马店·阶段练习)已知随机变量X,Y的组样本观测值都落在经验回归直线上,则随机变量X,Y的样本相关系数为( )
A. B. C.1 D.
14.(24-25高三下·上海浦东新·阶段练习)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性 B.相关系数变大
C.相关系数变小 D.相关系数不变
15.(24-25高三下·辽宁·开学考试)已知两个变量x和y之间具有较强的线性相关关系,且y关于x的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差=观测值-预测值),则( )
A.0.28 B.0.56 C.0.34 D.0.48
16.(2025·山东烟台·一模)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
17.(24-25高二下·天津·阶段练习)以下散点图经过标准化后,相关系数最大的是( )
A. B.
C. D.
二、多选题
18.(24-25高三下·湖南长沙·阶段练习)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )
A.直线过点
B.直线的斜率即为和的相关系数
C.和的相关系数在到1之间
D.当为偶数时,分布在两侧的样本点的个数相等
19.(湖南省部分学校2025届高三“一起考”大联考(模拟一)数学试卷)小王经过调查获得如下数据:
2
4
7
17
30
1
2
3
4
5
参考公式:相关系数,,.
下列说法正确的有( )
A.该数据组的线性回归方程(系数精确到0.01)为
B.该数据组的相关系数,很接近1说明该数据组拟合效果很好
C.所有数据点中残差绝对值最小的是
D.去掉数据点后,回归直线会向下移动
20.(2025·江西鹰潭·一模)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,
A.当时,成对样本数据成线性正相关;
B.当越大时,成对样本数据的线性相关程度越强;
C.,时,成对样本数据的相关系数满足;
D.,时,成对样本数据的线性回归方程满足;
21.(2025·广东·一模)一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为、,分布如图所示,且,则( )
A. 样本负相关 B.
C. D.处理后的决定系数变大
22.(24-25高三下·广东深圳·阶段练习)某工厂为了解某型仪器的使用成本,对其已使用年限以及当年所需要支出的维修费用进行了统计,已知该型仪器投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
7
根据表中的数据可得线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6
D.当该型仪器投入使用的时间为7年时,当年所需要支出的维修费用一定是8690元
三、填空题
23.(24-25高二上·广西梧州·期末)由数据可得关于的线性回归方程为,若,则 .
24.(24-25高三下·湖南·阶段练习)某蔬菜种植基地最近五年的年投资成本(万元)和年利润(万元)的统计表如下:
10
11
12
13
14
11
12
19
若关于的线性回归方程为,则的平均数 .
25.(24-25高三下·全国·开学考试)已知具有线性相关性的变量x,y,设其样本点为,经验回归方程为,若,,则 .
26.(2025·广东汕头·一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是 .(填“甲”或“乙”或“丙”)
27.(24-25高二下·陕西汉中·阶段练习)如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 .
3
5
7
9
2.5
4
6.5
28.(24-25高三上·吉林·期末)已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
0
1
2
3
5
29.(24-25高三上·山东德州·阶段练习)已知个点大致呈线性分布,其中,且数据的回归直线方程为,则的最小值为 .
30.(24-25高三上·黑龙江哈尔滨·期末)某企业近几年加大了对科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下表所示,由下表中的数据求得经验回归方程为,其中m为下表中科技投入x的4个数据的方差的8倍,据此经验回归方程预测,当时,的值为 (百万元).
科技投入x(百万元)
1
2
3
4
收益y(百万元)
m
m+3
15
18
31.(2025高三下·全国·专题练习)中国是茶的故乡,也是茶文化的发源地.茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“金萱排骨茶”,为了解每壶“金萱排骨茶”中所放茶叶量(单位:克)与食客的满意率的关系,通过调查研究发现选择函数模型来拟合与的关系,根据以下数据:
茶叶量克
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得关于的回归方程为 .
(附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为).
四、解答题
32.(24-25高一下·江西·阶段练习)蚊子是多种疾病的传播媒介,对人畜都有较大的危害.某热带养殖场为检测蚊虫密度,在养殖区悬挂多盏诱蚊灯,去年每月收集28天,连续检测了12个月,其中5月份蚊虫最多,11月份最少,由于工作人员不小心,某些月份数据丢失,保留的月份及每月对应的蚁虫密度值的数据如下表;
2
5
8
11
42
82
42
2
(1)从,且,且中选择一个合适的函数模型,并给出理由;
(2)在(1)的基础上,求出蚊虫密度关于月份的拟合模型的解析式;
(3)今年养殖场新引进的某种动物容易感染疟疾,养殖场计划当蚊虫密度不低于62时,将采取灭蚊措施.若此养殖场今年的蚊虫密度符合(2)中的函数模型,估计养殖场应准备在哪几个月采取灭蚊措施?
33.(2025高三·全国·专题练习)某航天公司研发一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离
56
63
71
79
90
102
110
117
损坏零件数(个)
61
73
90
105
119
136
149
163
建立关于的回归模型,根据所给数据及回归模型,求回归方程及相关系数;(精确到0.1,精确到整数,精确到0.0001)
参考数据、公式如下:
,其中,.
,.
保养
未保养
合计
报废
未报废
合计
,其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
34.(24-25高三下·重庆·阶段练习)自2016年1月1日起,我国全面二孩政策正式实施,这次人口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了200户有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
(1)请用相关系数说明该组数据中变量与之间的关系可以用线性回归模型拟合,并求关于的线性回归方程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,现从这5个成对数据中任取3个做残差分析,求取到的数据中“次数据”个数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
35.(24-25高三下·云南昭通·阶段练习)随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升.小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:,.
附:回归直线中,,.
36.(24-25高三下·重庆沙坪坝·阶段练习)2025年春晚最火的节目无疑是机器人扭秧歌. 其中表演的机器人出自宇树科技, 宇树科技是一家专注于高性能四足机器人研发和生产的中国科技公司. 该公司以其创新的四足机器人在全球范围内广受关注,主要应用于教育、科研、娱乐和工业等领域,其中四大产品之一的机器人Unitree A1具备较强的负载能里和环境适应性, 可用于巡检与监控、物流和运用、安防与救援. 现统计出机器人Unitree A1在某地区2024年2月到6月的销售量如下表所示:
月份
2
3
4
5
6
销量
42
53
66
109
用最小二乘法得到Unitree A1的销售量关于月份的回归直线方程为,且相关系数,销量的方差.
(1)求的值(结果精确到0.1);
(2)求的值,并根据(1)的结果计算5月销售量的残差.
附: 回归系数,相关系数 .
37.(24-25高三下·云南昆明·阶段练习)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一、从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.3
165.0
204
17.5
42
3.5
6448.3
1901.5
其中.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占,存活天数为1的样本在全体样本中占.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:.
38.(2025·广东·一模)近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
原创精品资源学科网独家享有版权,侵权必究!5
学科网(北京)股份有限公司
$$