内容正文:
第09讲 回归直线方程的计算
目录
01 题型归纳目录 2
02 知识点梳理 3
知识点1、两个变量线性相关 3
知识点2、回归直线的方程 3
知识点3、非线性经验回归方程 3
03 重难点题型 5
题型一:一元线性回归分析 5
题型二:相关系数求值运算 5
题型三:残差数据分析与求解 7
题型四:线性回归解析式推导计算 8
题型五:非线性回归模型构建求解 10
04 过关检测 15
知识点1、两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
知识点2、回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
知识点3、非线性经验回归方程
当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
题型一:一元线性回归分析
例1.(2026·高三·山东青岛·期末)某种肉鸡出栏时平均重量可达3.5千克,在没有人工干预的情况下自然繁殖,其出栏时的平均重量会一代不如一代,最后跟普通肉鸡差别不大.某实验室为了得到这种肉鸡自然繁殖后前一代与后一代的平均重量间的关系,将此种肉鸡视为第1代且又繁殖了10代.最后得到前一代平均重量(千克)与后一代平均重量(千克)之间的线性回归方程.已知第2代至第10代的平均重量之和为20千克,则第11代的平均重量为( )
A.2.4千克 B.2.1千克 C.1.8千克 D.1.5千克
例2.(2026·四川宜宾·一模)对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
例3.(2026·高三·天津滨海新区·阶段检测)下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
变式1.(2026·浙江·模拟预测)假设变量与变量的对观测数据为,,…,,两个变量满足一元线性回归模型要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
题型二:相关系数求值运算
例4.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为______.
附:样本相关系数
例5.(2026·高二·宁夏银川·期中)为了研究人体的脂肪含量和年龄之间的线性强弱,科研人员随机抽取了14个样本点(代表年龄,代表脂肪含量,,2,……,14.由统计软件得,,,,,且相关系数公式,由以上数据计算得_____.
例6.(2026·河北沧州·模拟预测)利用变量的5组实验数据,求得关于的经验回归方程为,若这5组数据对应的点都在该回归直线上,则相关系数为__________.
变式2.设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的__________是度量两个变量x与y之间线性相关程度的统计量,其计算公式为,其中,,,它们分别是这两组数据的算术平均数.
变式3.已知x与y之间的几组数据如下表.
x
1
2
3
4
y
4
m
n
1
表中y的平均值为2.5,若某同学对m赋了三个值,分别为3.5,3,2.5,得到三条线性回归直线的方程,分别为,对应的相关系数分别为,则下列结论中正确的是_______.(填序号)①在同一个坐标系中,三条回归直线可以围成一个封闭图形;②;③;④相关系数中,最大.
参考公式:线性回归方程,其中;相关系数;.
题型三:残差数据分析与求解
例7.(2026·江苏徐州·三模)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为_______.
例8.(2026·湖北武汉·模拟预测)某无人机的研发费用(单位:万元)与销售量(单位:万件)之间的对应数据如表所示:
研发费用
4
4.5
5
5.5
6
销售量
15
18.5
19
19.5
23
已知一个经验回归方程为,则第5个样本点对应的残差为________.
例9.(2026·高二·湖南长沙·期中)已知变量x,y的统计数据如下表,对表中数据作分析,发现y与x之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为且当x=9时,残差为-0.1.则当x=11时,y的预测值为___________.
x
5
6
7
8
9
y
3.5
4
5
6
6.5
变式4.(2026·高二·天津滨海新区·期中)某商家统计了某商品最近5个月销量,如表所示,若与线性相关,且经验回归方程为,
时间
1
2
3
4
5
销量万只
5
4.5
4
3.5
2.5
给出下列说法:
①由题中数据可知,变量与负相关
②当时,残差为
③可以预测当时销量约为万只
④经验回归方程中
其中正确的是__________(填序号).
题型四:线性回归解析式推导计算
例10.(2026·高二·河北衡水·阶段检测)对具有线性相关关系的两个变量,,测得一组数据如下表所示:
20
40
60
80
100
2.09
1.89
1.66
1.45
1.31
(1)求关于的经验回归方程;
(2)已知数据残差服从正态分布,其中,.若残差在范围内,则数据正常,反之异常.现该组数据中有一对数据为,判断该对数据是否正常.
参考数据:,,.
附:回归直线的斜率和截距的最小二乘估计公式分别为,.
例11.(2026·高二·河北沧州·期中)新型模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图像数据对一种新型降噪模型进行实验,对使用该模型后,图像中的噪声残留量y(单位:个/像素)进行检测,统计得到下表:
第x轮迭代
1
2
3
4
5
噪声残留量y(个/像素)
67
57
50
42
34
并计算得:.
(1)计算变量x(迭代轮数)和变量y(噪声残留量)的样本相关系数r(r的值精确到0.001);
(2)若图像中的噪声残留量不高于10个/像素,则说明数据降噪完成.用最小二乘法求y关于x的经验回归方程,并预测该模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,,.
例12.(2026·高二·江苏·阶段检测)科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的样本数据,如下表:
(年龄/岁)
26
27
39
41
49
53
56
58
60
61
(脂肪含量/\%)
14.5
17.8
21.2
25.9
26.3
29.6
31.4
33.5
35.2
34.6
(1)计算样本相关系数(精确到0.01),并说明该成对样本数据的线性相关程度;
(2)若关于的线性回归方程为,求关于的线性回归方程(精确到0.01).并回答以下问题:
(i)计算当年龄为60岁时的残差;
(ii)计算决定系数,并说明线性回归方程的拟合效果.
附:参考数据:.
参考公式:样本相关系数,在经验回归方程中,.
变式5.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
题型五:非线性回归模型构建求解
例13.(2026·高二·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
例14.(2026·高三·安徽淮北·阶段检测)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
例15.(2026·高二·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
变式6.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
变式7.某工厂每日生产一种产品吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额y(万元)
5
12
16
19
21
(1)请判断与中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程中,.
参考数据:令,,,.
1.(2026·高三·广东汕头·期末)我们研究成对数据的相关关系,其中,.在集合中取一个元素作为的值,使得这组成对数据的相关程度最强,则( )
A.8 B.11 C.12 D.13
2.(2026·高二·河南南阳·阶段检测)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论不正确的是( )
A.甲、乙两组数据都呈线性相关 B.乙组数据的相关程度比甲强
C.乙组数据的相关系数r比甲大 D.乙组数据的相关系数r的绝对值更接近1
3.调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
4.(2026·高二·江西鹰潭·期末)关于的一组样本数据的散点图中,所有样本点均在直线上,则这组样本数据的样本相关系数为( )
A.-2 B.-1 C.1 D.2
5.(2026·高三·全国·一轮复习)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则______.
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
6.已知样本相关系数,则成对样本数据,,,,的相关系数为______.
7.(2026·高二·江西抚州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
8.(2026·黑龙江哈尔滨·模拟预测)已知变量x、y满足线性相关关系,一组观测值如下表,且经验回归方程为.现有一对观测数据为,若该数据的残差为,则______.
x
21
23
25
27
y
15
18
19
20
9.(2026·高三·黑龙江哈尔滨·期末)某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为__________.
10.某工厂为研究某种产品的产量(单位:吨)与所需某种原材料(单位:吨)的相关性,在生产过程中收集了4组对应数据,如下表所示
3
4
6
7
2.5
3.5
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本处的残差为0.25,则表中_______,处的残差为_______.
11.(2026·高二·河北邢台·期中)近几年新能源汽车发展很快,2025年我国在世界纯电动车市场份额占,下面是某新能源汽车制造公司从2019年至2025年的利润情况表:
年份
2019
2020
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
6
7
利润亿元
29
33
36
44
48
52
59
(1)根据表中的数据,推断变量与之间是否线性相关,计算与之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出关于的经验回归方程,并预测该新能源汽车制造公司2030年的利润.
参考数据:,,.
参考公式:对于一组数据,,,,①相关系数;②经验回归直线的斜率和截距的最小二乘估计公式分别为,.
12.(2026·高二·辽宁铁岭·期中)近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
13.(2026·高二·辽宁沈阳·期中)为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
14.(2026·高二·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
15.(2026·高二·山东烟台·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
16.(2026·高二·辽宁朝阳·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
17.脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
2 / 2
学科网(北京)股份有限公司
$
第09讲 回归直线方程的计算
目录
01 题型归纳目录 2
02 知识点梳理 3
知识点1、两个变量线性相关 3
知识点2、回归直线的方程 3
知识点3、非线性经验回归方程 3
03 重难点题型 5
题型一:一元线性回归分析 5
题型二:相关系数求值运算 6
题型三:残差数据分析与求解 10
题型四:线性回归解析式推导计算 11
题型五:非线性回归模型构建求解 16
04 过关检测 22
知识点1、两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
知识点2、回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
知识点3、非线性经验回归方程
当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
题型一:一元线性回归分析
例1.(2026·高三·山东青岛·期末)某种肉鸡出栏时平均重量可达3.5千克,在没有人工干预的情况下自然繁殖,其出栏时的平均重量会一代不如一代,最后跟普通肉鸡差别不大.某实验室为了得到这种肉鸡自然繁殖后前一代与后一代的平均重量间的关系,将此种肉鸡视为第1代且又繁殖了10代.最后得到前一代平均重量(千克)与后一代平均重量(千克)之间的线性回归方程.已知第2代至第10代的平均重量之和为20千克,则第11代的平均重量为( )
A.2.4千克 B.2.1千克 C.1.8千克 D.1.5千克
【答案】C
【解析】设第1代至第11代的平均重量分别为,易知;
又,
前一代平均重量,后一代平均重量,
将代入回归方程可得,
解得.
故选:C
例2.(2026·四川宜宾·一模)对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
【答案】B
【解析】由可知
,.
因为回归直线过样本中心点,即,
将其坐标代入方程可得,解得,
故选:B.
例3.(2026·高三·天津滨海新区·阶段检测)下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
【答案】B
【解析】对于选项A:样本数据点的中心一定在线性回归直线上,故A错误;
对于选项B:残差平方和越小的模型,拟合的效果越好,故B正确;
对于选项C:线性回归直线在散点图中可能不经过任一样本数据点,故C错误;
对于选项D:如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误;
故选:B.
变式1.(2026·浙江·模拟预测)假设变量与变量的对观测数据为,,…,,两个变量满足一元线性回归模型要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
【答案】A
【解析】由,
把上式看成关于的二次函数,可知当且仅当时,取到最小值.
故选:A.
题型二:相关系数求值运算
例4.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为______.
附:样本相关系数
【答案】
【解析】设,,,
,,,
由样本相关系数公式可知,,
设与的夹角为,与的夹角为,则有,
易知均为锐角且,
与夹角的余弦值的最大值为,此时与样本相关系数最大,
,
故的样本相关系数的最大值为.
例5.(2026·高二·宁夏银川·期中)为了研究人体的脂肪含量和年龄之间的线性强弱,科研人员随机抽取了14个样本点(代表年龄,代表脂肪含量,,2,……,14.由统计软件得,,,,,且相关系数公式,由以上数据计算得_____.
【答案】0.97
【解析】因为.
,
故.
,
故.
所以,.
例6.(2026·河北沧州·模拟预测)利用变量的5组实验数据,求得关于的经验回归方程为,若这5组数据对应的点都在该回归直线上,则相关系数为__________.
【答案】
【解析】由经验回归方程知与负相关,
因为这5组数据对应的点都在回归直线上,所以相关系数为.
故答案为:
变式2.设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的__________是度量两个变量x与y之间线性相关程度的统计量,其计算公式为,其中,,,它们分别是这两组数据的算术平均数.
【答案】线性相关系数
【解析】根据相关系数的定义,,
其中,,,它们分别是这两组数据的算术平均数.
和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量.
故答案为:线性相关系数
变式3.已知x与y之间的几组数据如下表.
x
1
2
3
4
y
4
m
n
1
表中y的平均值为2.5,若某同学对m赋了三个值,分别为3.5,3,2.5,得到三条线性回归直线的方程,分别为,对应的相关系数分别为,则下列结论中正确的是_______.(填序号)①在同一个坐标系中,三条回归直线可以围成一个封闭图形;②;③;④相关系数中,最大.
参考公式:线性回归方程,其中;相关系数;.
【答案】② ④
【解析】由题意知,即..
① 若,则,
,
,
,
则,.
② 若,则,则
,
,,
则,.
③ 若,则,
,
,,
则,.
由样本点的中心相同知三条回归直线交于同一个点,不可能围成封闭三角形,所以①不正确.
由以上计算可得,所以②正确,③不正确.
相关系数中,最大,所以④正确.
故答案为:②④.
题型三:残差数据分析与求解
例7.(2026·江苏徐州·三模)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为_______.
【答案】
【解析】将代入,,
去除两个样本点和后,所以,,,
故去除样本点和后的回归直线方程为,
当时,,则样本的残差为.
例8.(2026·湖北武汉·模拟预测)某无人机的研发费用(单位:万元)与销售量(单位:万件)之间的对应数据如表所示:
研发费用
4
4.5
5
5.5
6
销售量
15
18.5
19
19.5
23
已知一个经验回归方程为,则第5个样本点对应的残差为________.
【答案】2.2/
【解析】由已知,得,
所以,于是,
当时,,
因此,第5个样本点对应的残差为.
例9.(2026·高二·湖南长沙·期中)已知变量x,y的统计数据如下表,对表中数据作分析,发现y与x之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为且当x=9时,残差为-0.1.则当x=11时,y的预测值为___________.
x
5
6
7
8
9
y
3.5
4
5
6
6.5
【答案】
【解析】由已知得,所以,①
又因为时,残差为-0.1,故,②
联立①②得;所以经验回归直线方程为,
所以,当时,.
变式4.(2026·高二·天津滨海新区·期中)某商家统计了某商品最近5个月销量,如表所示,若与线性相关,且经验回归方程为,
时间
1
2
3
4
5
销量万只
5
4.5
4
3.5
2.5
给出下列说法:
①由题中数据可知,变量与负相关
②当时,残差为
③可以预测当时销量约为万只
④经验回归方程中
其中正确的是__________(填序号).
【答案】①③④
【解析】由经验回归方程,可知回归直线的斜率,即变量与负相关,同时结合表格,可知销量随着的增大而减小,故①正确;
又由表格可得,,
因样本中心点在回归方程上,则得,故④正确;
则回归方程为,当时,,此时残差为,故②错误;
当时,代入回归方程可得,即可以预测当时销量约为万只,故③正确.
题型四:线性回归解析式推导计算
例10.(2026·高二·河北衡水·阶段检测)对具有线性相关关系的两个变量,,测得一组数据如下表所示:
20
40
60
80
100
2.09
1.89
1.66
1.45
1.31
(1)求关于的经验回归方程;
(2)已知数据残差服从正态分布,其中,.若残差在范围内,则数据正常,反之异常.现该组数据中有一对数据为,判断该对数据是否正常.
参考数据:,,.
附:回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】(1)由题表得,,
所以,
则,
所以关于的经验回归方程为.
(2)由(1)得时,;时,;
时,;时,;时,.
所以,
,
所以为.
因为时,,
所以,
所以该对数据不正常.
例11.(2026·高二·河北沧州·期中)新型模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图像数据对一种新型降噪模型进行实验,对使用该模型后,图像中的噪声残留量y(单位:个/像素)进行检测,统计得到下表:
第x轮迭代
1
2
3
4
5
噪声残留量y(个/像素)
67
57
50
42
34
并计算得:.
(1)计算变量x(迭代轮数)和变量y(噪声残留量)的样本相关系数r(r的值精确到0.001);
(2)若图像中的噪声残留量不高于10个/像素,则说明数据降噪完成.用最小二乘法求y关于x的经验回归方程,并预测该模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,,.
【解析】(1)由题可得:,
,
样本相关系数;
(2)噪声残留量y的取值为67,57,50,42,34,
所以,
根据题意可得,
所以y关于x的经验回归方程为,
要使图象中的噪声残留量不高于10个/像素,则,
即,所以该AI模型至少需要迭代8轮才可以完成降噪.
例12.(2026·高二·江苏·阶段检测)科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的样本数据,如下表:
(年龄/岁)
26
27
39
41
49
53
56
58
60
61
(脂肪含量/\%)
14.5
17.8
21.2
25.9
26.3
29.6
31.4
33.5
35.2
34.6
(1)计算样本相关系数(精确到0.01),并说明该成对样本数据的线性相关程度;
(2)若关于的线性回归方程为,求关于的线性回归方程(精确到0.01).并回答以下问题:
(i)计算当年龄为60岁时的残差;
(ii)计算决定系数,并说明线性回归方程的拟合效果.
附:参考数据:.
参考公式:样本相关系数,在经验回归方程中,.
【解析】(1),
,
,
由样本相关系数,可以推断人体脂肪含量和年龄的相关程度很强;
(2)因为回归方程为,即,
所以;
所以y关于x的线性回归方程为,
(i)将代入线性回归方程得,
年龄为60岁时的残差;
(ii),
因为决定系数,所以线性回归方程的拟合效果很好.
变式5.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【解析】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
题型五:非线性回归模型构建求解
例13.(2026·高二·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【解析】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
例14.(2026·高三·安徽淮北·阶段检测)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【解析】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
例15.(2026·高二·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【解析】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
变式6.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
变式7.某工厂每日生产一种产品吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额y(万元)
5
12
16
19
21
(1)请判断与中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程中,.
参考数据:令,,,.
【解析】(1)更适合刻画,之间的关系.理由:由题表中的数据可知,的值每增加1,函数值的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故更适合刻画,之间的关系.
(2)令,由题意得,
所以,
,
所以关于的回归方程为.
当时,日销售额为(万元).
1.(2026·高三·广东汕头·期末)我们研究成对数据的相关关系,其中,.在集合中取一个元素作为的值,使得这组成对数据的相关程度最强,则( )
A.8 B.11 C.12 D.13
【答案】B
【解析】由可知前9个点在直线上.
∵,
∴要使相关性最强,应更接近10,四个选项中最接近.
故选:B.
2.(2026·高二·河南南阳·阶段检测)对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论不正确的是( )
A.甲、乙两组数据都呈线性相关 B.乙组数据的相关程度比甲强
C.乙组数据的相关系数r比甲大 D.乙组数据的相关系数r的绝对值更接近1
【答案】C
【解析】由散点图可以看出,甲、乙两组数据都呈线性相关,所以A正确;
乙图的点相对更加集中,所以其相关性较强,更接近1,所以B,D正确;
甲图是正相关,其相关系数大于0,乙图是负相关,其相关系数小于0,所以C错误.
故选:C.
3.调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【解析】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是,D选项错误
故选:C
4.(2026·高二·江西鹰潭·期末)关于的一组样本数据的散点图中,所有样本点均在直线上,则这组样本数据的样本相关系数为( )
A.-2 B.-1 C.1 D.2
【答案】B
【解析】因为所有样本点都在直线上,所以回归直线方程是,
可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,
且所有样本点都在直线上,则有相关系数.
故选:B.
5.(2026·高三·全国·一轮复习)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则______.
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
【答案】
【解析】因为,,所以.
由,
解得,所以.
故答案为:
6.已知样本相关系数,则成对样本数据,,,,的相关系数为______.
【答案】/
【解析】因为,,
则,
,
所以.
故答案为:.
7.(2026·高二·江西抚州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
【答案】0.96/
【解析】,故,
,
.
故答案为:0.96
8.(2026·黑龙江哈尔滨·模拟预测)已知变量x、y满足线性相关关系,一组观测值如下表,且经验回归方程为.现有一对观测数据为,若该数据的残差为,则______.
x
21
23
25
27
y
15
18
19
20
【答案】
【解析】由题意可知,,,
将代入,得,解得,
所以.
当时,预测值,则.
9.(2026·高三·黑龙江哈尔滨·期末)某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为__________.
【答案】
【解析】由题意可得时的预测值为,
所以,解得,即经验回归方程为,
又因为,,
所以,解得,
故答案为:
10.某工厂为研究某种产品的产量(单位:吨)与所需某种原材料(单位:吨)的相关性,在生产过程中收集了4组对应数据,如下表所示
3
4
6
7
2.5
3.5
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本处的残差为0.25,则表中_______,处的残差为_______.
【答案】 6 0.5/
【解析】根据样本处的残差为0.25,得,
可得,即回归直线的方程为.
又,
所以,解得,故处的残差为.
故答案为:6,0.5
11.(2026·高二·河北邢台·期中)近几年新能源汽车发展很快,2025年我国在世界纯电动车市场份额占,下面是某新能源汽车制造公司从2019年至2025年的利润情况表:
年份
2019
2020
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
6
7
利润亿元
29
33
36
44
48
52
59
(1)根据表中的数据,推断变量与之间是否线性相关,计算与之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出关于的经验回归方程,并预测该新能源汽车制造公司2030年的利润.
参考数据:,,.
参考公式:对于一组数据,,,,①相关系数;②经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】(1)由题设,且,,,
,
由于,可以推断变量与线性相关且相关程度很强.
(2)因为,
,
所以关于的经验回归方程为,
当2030年对应的年份代码时,,即预测该新能源汽车制造公司2030年的利润为83亿元.
12.(2026·高二·辽宁铁岭·期中)近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
【解析】(1)由题得,,
则,.
(2)由(1)可得,
则,,
所以y关于x的回归直线方程为,
当时,,所以预测2027年该App的在线用户数为420万人.
13.(2026·高二·辽宁沈阳·期中)为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
【解析】(1)因为,
所以;
(2)由题意可知,,
,
所以,,
所以;
(3)由题意可得
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
44
37
35
27
49
45
41
37
33
29
是否有效采集数据
否
是
否
是
否
否
随机变量的可能取值为,
,
所以分布列为:
0
1
2
数学期望为.
14.(2026·高二·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
【解析】(1)由表格中的数据可得,,
,
,
,
则,
由相关系数,可以推断入园游客量与活动开展第天相关程度很强.
(2),,
故经验回归方程为.
对于表中第个观测,入园游客量为(百人),
预测值为(百人),残差为(百人)
(3)记从通道入园的事件为,从通道离园的事件为,
由题意可得,,,,
.
15.(2026·高二·山东烟台·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【解析】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.设,则.
因为,,,,
所以.
把代入,得,所以,所以,
则,故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
20
未报废
80
合计
60
40
100
则 ,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
16.(2026·高二·辽宁朝阳·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
【解析】(1)函数是均匀变化的,图象是一条直线,
函数的图象是一条曲线,选择恰当的可使更好拟合散点图.
所以更适宜作为回归模型.
(2)(i)两边取对数得,
由于,故,
,
即,故,
(ii)会报警提示,理由如下:
中,令得,
故会报警提示
17.脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【解析】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
2 / 2
学科网(北京)股份有限公司
$