内容正文:
专题13 相关系数与回归方程
知识点1:变量间的相关关系
相关关系的定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.两个变量之间的关系分为函数关系和相关关系.
【注意】相关关系与函数关系的异同点
(1)相同点:均是指两个变量的关系
(2)不同点:函数关系是一种确定的关系,而相关关系是一种非确定关系
知识点2:散点图及其应用
(1)散点图:为直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)散点图的作用
如果散点图中变量的对应点分布在某条曲线的附近,我们就可以得出结论:这两个变量具有相关性,如图(1)(2).如果变量的对应点分布没有规律,我们就可以得出结论:这两个变量不具有相关性,如图(3).
(3)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(4)线性相关与曲线相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
知识点3:样本相关系数
(1)一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多;如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
(2)样本相关系数r=.
(3)样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
【注意】 样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关;
当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.
当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
知识点4:一元线性回归模型
为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
知识点5:最小二乘法和经验回归方程
(1)有关概念
=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)计算公式
【注意】(1)经验回归直线过点()
(2)经验回归方程=x+中的表示x增加1个单位时,y的平均变化量为,而表示y不随x的变化而变化的部分
知识点6:残差及残差分析
(1)对于响应变量Y,通过观测得到的数据称为观测值.通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.在残差图中,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(3)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点7:残差平方和与决定系数R2
(1)残差图法:在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
(3)决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越小,模型拟合效果越差,R2越大,模型拟合效果越好.
【注意】决定系数R2的取值范围是0≤R2≤1
刻画回归效果的三种方法
(1)残差图法:残差比较均匀地落在水平带状区域内,则说明选用的模型比较合适.
(3)决定系数R2法:R2= 越接近1,表明模型的拟合效果越好.
知识点8:非线性回归分析
(1)非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
(2)非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
非线性回归问题的处理方法
(1)指数函数型y=eb x+a
①函数y=eb x+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=b ln x+a
①函数y=b ln x+a的图象,如图所示.
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
考点一 判断两个变量的相关性
考点二 相关系数的意义及辨析
考点三 相关系数的计算
考点四 样本中心点的相关问题
考点五 求回归直线方程
考点六 残差的计算
考点七 决定系数的计算及分析
考点八 非线性回归的问题
考点一 判断两个变量的相关性
1.(25-26高二下·浙江绍兴·期中)在下列两个量之间的关系中,属于相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.一块农田的小麦产量与施肥量 D.正n边形的边数与内角度数之和
2.(25-26高二下·天津津南·期中)对变量,由观测数据得散点图1:对变量,由观测数据得散点图2,由这两个散点图可以推断( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与负相关 D.与负相关,与正相关
3.(25-26高二下·天津西青·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
4.(25-26高二下·辽宁沈阳·期中)观察下面各等高堆积条形图,其中两个分类变量x,y相关关系最强的是______.
考点二 相关系数的意义及辨析
5.(2026·天津滨海新区·三模)对四组数据进行统计获得如下散点图并对其相关系数进行比较,正确的是( )
A. B.
C. D.
6.(25-26高二下·江苏南通·期中)已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,且,,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
7.(25-26高二下·天津滨海新区·期中)对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
8.(25-26高二下·辽宁铁岭·期中)已知四个点,,,得到的线性相关系数为,去掉后得到的线性相关系数为,则( )
A. B. C. D.无法确定
9.(25-26高二下·安徽淮北·阶段检测)(多选)下列结论正确的有( )
A.若随机变量,,则
B.若随机变量,则
C.样本相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱
D.如果随机变量服从,且,那么是上的增函数
10.(2026·四川泸州·模拟预测)下列有关说法正确的是( )
A.已知随机变量服从二项分布,若,则
B.记两个变量的样本相关系数为,若越接近0,线性相关程度越强
C.设随机变量ξ服从正态分布,若,则
D.一组数据1,2,2,3,5,8,15,20的第60百分位数为4
考点三 相关系数的计算
11.(25-26高二下·山西·期中)网购是现代年轻人重要的购物方式,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与年份代码进行了统计,得如下数据:
x
1
2
3
4
5
y
2.5
3.3
4.5
6.2
8.5
则x与y的样本相关系数( )
参考公式:,参考数据:,.
A.0.99 B.0.98 C.0.97 D.0.96
12.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
13.(25-26高二下·全国·课后作业)某厂的生产原料耗费(单位:百万元)与销售额(单位:百万元)之间有如下的对应关系:
与之间是否具有线性相关关系?若有,判断相关性的强弱.
14.(25-26高二下·全国·课堂例题)为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L),空腹血糖GLU指标值(单位:mmol/L)如表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
参考公式:
相关系数,
参考数据:,,,,,,,.
15.(25-26高二下·全国·课堂例题)现随机抽取某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如下表所示.
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有较强的线性相关关系?
注:;
若,则我们可以认为y与x之间具有较强的线性相关关系.
16.(25-26高三上·浙江·期末)某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.
参考公式:;参考数据:.
考点四 样本中心点的相关问题
17.(25-26高三下·重庆·阶段检测)具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
18.(25-26高二下·江苏南通·期中)某电商平台利用人工智能分析发现,一种智能手机的日均广告曝光量(单位:千次)与其日销售量(单位:百件)存在潜在关联.技术部门抽取了4天的运营数据如下:
广告曝光量/千次
2
3
5
6
日销量/百件
4
5
7
其经验回归方程为,则( )
A.4 B.6 C.8 D.10
19.(2026·辽宁·模拟预测)已知变量,具有线性相关关系,由样本数据(,2,3,4,5)得到关于的经验回归方程为,若,,则当时,的预测值为( )
A. B. C. D.
20.(2026·广东深圳·二模)(多选)某公司统计了去年1月份到5月份某种产品的销售额如下表:
月份
1
2
3
4
5
销售额万元
1.8
2.2
2.8
3.1
根据表中数据,通过最小二乘法求得的经验回归方程为,则( )
A.变量与正相关
B.
C.样本数据的下四分位数为1.8
D.当时,的预测值为4.1万元
21.(25-26高二下·天津静海·期中)某公司为了了解某商品的月销售量(单位:万件)与月销售单价(单位:元)之间的关系,随机统计了5个月的销售量与销售单价,并制作了对照表:
月销售单价元
10
20
25
30
35
月销售量万件
16
13
10
6
5
由表中数据可得回归方程中,则______.
22.(25-26高二下·江苏南通·期中)(多选)已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,则( )
x
0
1
3
4
y
2.2
4.3
4.8
m
A.
B.该经验回归直线必过
C.变量x,y呈正相关
D.可预测当时,y约为
考点五 求回归直线方程
23.(2026·河南·模拟预测)某农业科研团队为探究大棚蔬菜的光照时长对产量的影响,选取5组不同的光照时长方案,在相同种植条件下开展试验,统计对应时长下的蔬菜合格采收量,得到如下数据:
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
(1)求变量与的样本相关系数,判断是否适合线性回归模型拟合,如果适合,求关于的经验回归方程;
(2)当样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,现从这5组数据中任取3组做残差分析,求取到异常拟合数据的组数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
24.(25-26高二下·江苏淮安·期中)2026年春节期间,电影《飞驰人生3》、《镖人》持续火爆,现对电影《镖人》从正月初一到正月初六的单日票房统计如下表:(由于统计原因,本题的数据与实际情形可能存在误差,以题目给出的数据为准).
日期
初一
初二
初三
初四
初五
初六
上映第天
1
2
3
4
5
6
票房(单位:亿元)
0.9
1.2
1.3
1.5
1.3
1.6
(1)根据数据建立单日票房关于上映天数的线性回归方程,并预测第七日的票房收入(计算结果均保留一位小数);
(2)在某天放映结束后,随机抽取6名观众,发现其中有4人看过《镖人》,3人看过《飞驰人生3》,只有1人两部电影均没看过.现从这6人中随机抽取3人,记为抽取的3人中两部电影都看过的人数,求的分布列及数学期望.
参考数据:,公式:
25.(25-26高二下·山西晋中·期中)某模具厂新接一批新模型制作的订单,为给订购方回复出货时间,需确定制作该批模型所花费的时间,为此进行了5次试验,收集数据如下:
制作模型数(个)
10
20
30
40
50
花费时间(分钟)
64
69
75
82
90
(注:回归方程中斜率和截距最小二乘估计公式分别为,参考数据:,).
(1)请根据以上数据,求关于的线性回归方程;
(2)若要制作60个这样的模型,请根据(1)中所求的回归方程预测所花费的时间.
26.(2026·海南儋州·二模)某地区随机抽取5家超市,得到其某1年的广告支出与销售额数据如下表:
超市
1
2
3
4
5
广告支出万元
3
5
4
6
2
销售额万元
22
27
24
28
19
(1)若该地区的超市在同一年的广告支出4.5万元,试根据表中的数据,推断超市该年的销售额约为多少?
(2)若从统计表中的5家超市中随机抽取2家,记销售额不低于24万元的超市家数为,求的分布列、数学期望与方差.
参考公式与数据:,,,.
27.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
28.(2026·陕西咸阳·模拟预测)某健身俱乐部为研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下表:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
每周锻炼时长x/小时
3
4
2
5
6
4
5
3
4
4
40
体重减少量y/千克
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
经过计算得,,.
(1)根据表格中的数据,可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,请用样本相关系数加以说明(结果精确到0.01);
(2)求经验回归方程(,的结果均精确到0.01);
(3)该俱乐部在推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
参考公式及数据:样本相关系数,经验回归方程中斜率和截距的最小二乘估计公式分别为,.,.
考点六 残差的计算
29.(25-26高二下·江苏淮安·期中)已知线性相关的两个变量、的取值如表所示,如果其线性回归方程为,那么当时的残差为( )
A. B. C. D.
30.(25-26高二下·江苏南京·期中)某学校一同学研究温差与本校当天新增感冒人数(人)的关系,该同学记录了5天的数据:
5
6
8
9
12
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列选项错误的是( )
A.样本中心点为 B.
C.时,残差为 D.相关系数
31.(25-26高二下·辽宁大连·期中)为调查某企业年利润Y(单位:万元)和它的年研究费用x(单位:万元)的相关性,收集了5组成对数据(x,y),如表所示:
x
1
2
3
4
5
Y
50
60
70
80
100
由上表中数据求得Y关于x的经验回归方程为,据此计算出样本点处的残差为( )
A.4 B.5 C.-4 D.-5
32.(2026·陕西榆林·模拟预测)已知变量、满足线性相关关系,经验回归方程为且,.现有一对观测数据为,若该数据的残差为0.6,则__________.
33.(2026·甘肃兰州·模拟预测)(多选)某智能机器人公司从2019年起连续7年的利润情况如表所示,若关于的经验回归方程为,则( )
第年
1
2
3
4
5
6
7
利润亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.变量与负相关 B.
C.当时,残差为 D.预测当时,利润约为亿元
34.(25-26高二下·重庆·期中)(多选)变量与变量有较强的线性相关性,由下列表格得到经验回归方程是,则( )
1
2
3
4
5
2
4
5
6
8
A. B.变量与变量负相关
C.当时,预测值 D.当时,样本点对应的残差是
考点七 决定系数的计算及分析
35.(25-26高二下·江苏淮安·期中)(多选)关于线性回归的描述,下列表述正确的是( )
A.回归直线一定经过样本中心点
B.相关系数越大,线性相关性越强
C.残差图的带状区域越窄,拟合效果越好
D.决定系数越接近,拟合效果越好
36.(25-26高三下·重庆·阶段检测)(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
37.(25-26高二下·海南·期中)根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.决定系数变小 B.残差平方和变小
C.相关系数变大 D.不变
38.(25-26高二下·天津武清·期中)已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
39.(25-26高二下·湖南长沙·阶段检测)(多选)下列说法正确的是( )
A.样本数据的第70百分位数为23
B.若一组样本数据的方差,则
C.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
D.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高
40.(25-26高二下·广西柳州·期中)(多选)下列说法中正确的是( )
A.某学校高二年级数学课外活动小组中有男生5人,女生3人,从中选2人,1人做正组长,1人做副组长,共有64种不同的选法
B.线性回归分析中可以用决定系数来刻画回归的效果,若的值越小,则模型的拟合效果越好
C.对具有线性相关关系的变量,其线性回归方程为,若样本点的中心为,则实数的值是-4
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和2
考点八 非线性回归的问题
41.(2026·陕西渭南·模拟预测)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
42.(25-26高二下·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
43.(25-26高二下·内蒙古呼和浩特·阶段检测)某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
44.(25-26高三下·山东·开学考试)为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
45.(25-26高二下·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
46.(25-26高三下·安徽淮北·阶段检测)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
1.(2026·上海静安·三模)观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
2.(25-26高二下·河南南阳·期中)已知,,,四组成对样本数据对应的线性相关系数分别为-0.95,-0.82,0.86,0.93,则线性相关程度最弱的是( )
A.组 B.组 C.组 D.组
3.(25-26高二下·河北石家庄·期中)对具有线性相关关系的变量x,y,测得一组数据如下表,根据表中数据,利用最小二乘法得到经验回归方程,据此模型预测当x=20时,y的估计值为( )
x
7
9
11
13
y
2
3
5
6
A.10 B.11 C.12 D.13
4.(25-26高三·全国·一轮复习)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
5.(2026高三·全国·专题练习)根据如下样本数据:
得到的回归方程为,则( )
A., B., C., D.,
6.(25-26高二下·浙江金华·阶段检测)(多选)下列命题正确的是( )
A.线性回归直线必然过样本中心点
B.在刻画回归模型的拟合效果时,决定系数的值越大,说明拟合的效果越好
C.已知两个变量线性相关,若它们的相关性越强,则相关系数r越接近于1
D.正态曲线当一定时,越小,这条曲线越“瘦高”;越大,正态曲线越“矮胖”
7.(2026·江西·模拟预测)(多选)已知某软件公司开发了一款新型智能解题软件,现将该软件上市后的月份以及当月获得的利润(单位:万元)统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
6
7
9
A.
B.可以估计每增加1个月份,月利润平均提高万元
C.可以估计上市后的第7个月的利润为万元
D.上市后的第4个月的利润的残差为万元
8.(25-26高二下·江苏南京·期中)(多选)市物价部门对五家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价(元)和销售量(件)之间的数据如表所示:
9
9.5
10
10.5
11
120
100
70
60
50
用最小二乘法求得经验回归方程为,相关系数,则( )
A.
B.变量,相关性较强
C.相对于点的残差为1
D.当时,的估计值为152
9.(25-26高二下·广东广州·期末)(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
10.(18-19高二下·内蒙古巴彦淖尔·阶段检测)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为________.
11.(2026·江苏苏州·三模)已知下表中是关于变量,的5组观测数据,甲同学根据表中数据通过模型得到经验回归方程为,则______.
1
2
3
4
5
12.(2026高三·全国·专题练习)在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号
1
2
3
4
5
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
现已知其线性回归方程为,则________,根据此线性回归方程估计数学得90分的同学的物理成绩为________.(四舍五入到整数)
13.(25-26高二下·上海·期中)已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
14.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
15.(2026·河北·三模)某创业者计划开设一家咖啡店,他从本市已开业的15家规模相似的咖啡店中收集了以下数据:x表示周边一公里内日均人流量(千人);y表示日均销售额(百元).
x
4.2
5.2
5.2
6.2
6.2
6.2
5.2
7.2
9.2
8.2
8.2
8.2
9.2
9.2
10.2
y
34
38
40
40
46
52
42
52
54
47
58
69
64
74
70
经计算得
(1)求y关于x的线性回归方程;
(2)预测x=8时,y的估计值y₀;
(3)计算变量x和y的样本相关系数r.
附:最小二乘估计公式分别为:
样本相关系数
16.(2026高三·全国·专题练习)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产,所以对水资源的保护刻不容缓.现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
1 / 1
学科网(北京)股份有限公司
$
专题13 相关系数与回归方程
知识点1:变量间的相关关系
相关关系的定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.两个变量之间的关系分为函数关系和相关关系.
【注意】相关关系与函数关系的异同点
(1)相同点:均是指两个变量的关系
(2)不同点:函数关系是一种确定的关系,而相关关系是一种非确定关系
知识点2:散点图及其应用
(1)散点图:为直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)散点图的作用
如果散点图中变量的对应点分布在某条曲线的附近,我们就可以得出结论:这两个变量具有相关性,如图(1)(2).如果变量的对应点分布没有规律,我们就可以得出结论:这两个变量不具有相关性,如图(3).
(3)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(4)线性相关与曲线相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
知识点3:样本相关系数
(1)一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多;如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
(2)样本相关系数r=.
(3)样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
【注意】 样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关;
当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.
当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
知识点4:一元线性回归模型
为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
知识点5:最小二乘法和经验回归方程
(1)有关概念
=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)计算公式
【注意】(1)经验回归直线过点()
(2)经验回归方程=x+中的表示x增加1个单位时,y的平均变化量为,而表示y不随x的变化而变化的部分
知识点6:残差及残差分析
(1)对于响应变量Y,通过观测得到的数据称为观测值.通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.在残差图中,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(3)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点7:残差平方和与决定系数R2
(1)残差图法:在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
(3)决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越小,模型拟合效果越差,R2越大,模型拟合效果越好.
【注意】决定系数R2的取值范围是0≤R2≤1
刻画回归效果的三种方法
(1)残差图法:残差比较均匀地落在水平带状区域内,则说明选用的模型比较合适.
(3)决定系数R2法:R2= 越接近1,表明模型的拟合效果越好.
知识点8:非线性回归分析
(1)非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
(2)非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
非线性回归问题的处理方法
(1)指数函数型y=eb x+a
①函数y=eb x+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=b ln x+a
①函数y=b ln x+a的图象,如图所示.
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
考点一 判断两个变量的相关性
考点二 相关系数的意义及辨析
考点三 相关系数的计算
考点四 样本中心点的相关问题
考点五 求回归直线方程
考点六 残差的计算
考点七 决定系数的计算及分析
考点八 非线性回归的问题
考点一 判断两个变量的相关性
1.(25-26高二下·浙江绍兴·期中)在下列两个量之间的关系中,属于相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.一块农田的小麦产量与施肥量 D.正n边形的边数与内角度数之和
【答案】C
【详解】A、D是函数关系;B是不相关关系,也不是函数关系;
C是相关关系,一般来说,农田的施肥量越大,小麦产量一般会越多.
2.(25-26高二下·天津津南·期中)对变量,由观测数据得散点图1:对变量,由观测数据得散点图2,由这两个散点图可以推断( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与负相关 D.与负相关,与正相关
【答案】D
【详解】观察图1,增大时,整体逐渐减小,因此与负相关;
观察图2,增大时,整体逐渐增大,因此与正相关.
3.(25-26高二下·天津西青·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】D
【分析】由散点图的特征,结合相关系数的定义即可得到答案.
【详解】由散点图的趋势可知,,,,
又图一的散点图比图三的散点图更为集中,则,所以,
又图二的散点图比图四的散点图更为集中,则,所以,
所以.
故选:D.
4.(25-26高二下·辽宁沈阳·期中)观察下面各等高堆积条形图,其中两个分类变量x,y相关关系最强的是______.
【答案】③
【详解】由图可知,图③的差异最大,则相关关系最强.
考点二 相关系数的意义及辨析
5.(2026·天津滨海新区·三模)对四组数据进行统计获得如下散点图并对其相关系数进行比较,正确的是( )
A. B.
C. D.
【答案】B
【分析】根据给定的四组数据的散点图,结合相关系数的含义,即可求解.
【详解】由给定的四组数据的散点图可以看成:
图(1)和图(3)是正相关,且图(1)中的数据更加集中,更接近,所以;
图(2)和图(4)是负相关,且图(2)中的数据更加集中,更接近,所以,
综上可得,.
6.(25-26高二下·江苏南通·期中)已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,且,,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【答案】A
【详解】由题意可知,
所以,
因为,所以,则,
所以最大,根据相关系数概念可知,线性相关程度最强的是甲.
7.(25-26高二下·天津滨海新区·期中)对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
【答案】C
【详解】两个图的散点都大致分布在直线附近,因此两组数据都具有线性相关关系,故A正确;
图1中,整体随增大而增大,是正相关,即;图2中,整体随增大而减小,是负相关,即,故B正确;
因为,,正数一定大于负数,因此,故C不正确;
相关系数的绝对值越接近1,线性相关性越强,散点越贴近直线. 图2的散点比图1更贴近直线,因此,故D正确.
8.(25-26高二下·辽宁铁岭·期中)已知四个点,,,得到的线性相关系数为,去掉后得到的线性相关系数为,则( )
A. B. C. D.无法确定
【答案】A
【详解】注意到,,均在直线上.故,
而不在该直线上,即四点不共线,故.于是.
9.(25-26高二下·安徽淮北·阶段检测)(多选)下列结论正确的有( )
A.若随机变量,,则
B.若随机变量,则
C.样本相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱
D.如果随机变量服从,且,那么是上的增函数
【答案】AD
【详解】对于选项A:因为随机变量,,
所以,故A正确;
对于选项B:因为随机变量,则,
所以,故B错误;
对于选项C:因为相关系数的绝对值的大小越接近,两个变量的线性相关性越强;反之线性相关性越弱,故C错误;
对于选项D:由正态曲线的性质可知,是上的增函数,故D正确.
10.(2026·四川泸州·模拟预测)下列有关说法正确的是( )
A.已知随机变量服从二项分布,若,则
B.记两个变量的样本相关系数为,若越接近0,线性相关程度越强
C.设随机变量ξ服从正态分布,若,则
D.一组数据1,2,2,3,5,8,15,20的第60百分位数为4
【答案】C
【详解】A选项,,,故.
B选项,记两个变量的样本相关系数为,若越接近1,线性相关程度越强.
C选项,根据正态分布密度函数对称性,由得.
D选项,,该组数据的第60百分位数为5.
考点三 相关系数的计算
11.(25-26高二下·山西·期中)网购是现代年轻人重要的购物方式,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与年份代码进行了统计,得如下数据:
x
1
2
3
4
5
y
2.5
3.3
4.5
6.2
8.5
则x与y的样本相关系数( )
参考公式:,参考数据:,.
A.0.99 B.0.98 C.0.97 D.0.96
【答案】B
【分析】代入相关系数公式求解即可.
【详解】由题意,得,,, ,所以.
12.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【答案】(1);变量x与y之间具有很强的线性相关关系
(2)分布列见解析;期望:1.8
【分析】(1)使用相关系数计算公式求相关系数,根据求解结果判断线性相关关系的强弱;
(2)结合超几何分布的概率公式求分布列,再由期望公式求期望.
【详解】(1),,
,
,
,
样本相关系数:
,
因为非常接近1,所以变量x与y之间具有很强的线性相关关系.
(2)5天中取件人数小于100的天数有3天,
从这5天中随机选取3天,的可能取值为1,2,3.
,
,
,
所以的分布列为:
1
2
3
的数学期望
13.(25-26高二下·全国·课后作业)某厂的生产原料耗费(单位:百万元)与销售额(单位:百万元)之间有如下的对应关系:
与之间是否具有线性相关关系?若有,判断相关性的强弱.
【答案】与之间具有很强的正相关关系.
【分析】作出散点图,可作出判断,再计算出相关系数的值,即可得出结论.
【详解】画出散点图如图所示,由图可知、有线性相关关系.
由题中表格数据可得,,
,,
,
所以.
故与之间具有很强的正相关关系.
14.(25-26高二下·全国·课堂例题)为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L),空腹血糖GLU指标值(单位:mmol/L)如表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
参考公式:
相关系数,
参考数据:,,,,,,,.
【答案】答案见解析
【分析】根据相关系数的计算结果来判断变量之间的相关性.
【详解】由题意,变量与的相关系数,
变量与的相关系数是,
可以看出TC指标值与BMI值,GLU指标值与BMI值都是高度正相关.
15.(25-26高二下·全国·课堂例题)现随机抽取某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如下表所示.
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有较强的线性相关关系?
注:;
若,则我们可以认为y与x之间具有较强的线性相关关系.
【答案】这10名学生的两次数学成绩具有较强的线性相关关系
【分析】根据线性相关关系的概念,以及相关系数计算公式,求出相关系数,判断两组数据是否具有线性相关关系即可.
【详解】由题意知,
,
,
,,.
所以样本相关系数.
,故我们可以认为与之间具有较强的线性相关关系.
即这10名学生的两次数学成绩具有较强的线性相关关系.
16.(25-26高三上·浙江·期末)某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.
参考公式:;参考数据:.
【答案】(1),管理时间与土地使用面积线性相关
(2)分布列见解析,
【分析】(1)根据表格中的数据,结合相关系数的计算公式,求得的值,即可得出结论;
(2)根据题意,得到变量的所有可能取值,利用重复试验的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)由题意得,,
所以,
可得,
则,
所以管理时间与土地使用面积线性相关.
(2)由题意,随机变量的所有可能取值为0,1,2,3,
从该县中随机抽取一位村民,取到不愿意参与管理的男性村民的概率为,
故,
故的分布列为
0
1
2
3
所以数学期望.
考点四 样本中心点的相关问题
17.(25-26高三下·重庆·阶段检测)具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
【答案】C
【分析】先求得样本中心点,再结合相关系数公式判断即可.
【详解】由题知,,
所以数据的样本中心点为
所以去掉其中样本数据,样本相关系数r不会发生改变.
18.(25-26高二下·江苏南通·期中)某电商平台利用人工智能分析发现,一种智能手机的日均广告曝光量(单位:千次)与其日销售量(单位:百件)存在潜在关联.技术部门抽取了4天的运营数据如下:
广告曝光量/千次
2
3
5
6
日销量/百件
4
5
7
其经验回归方程为,则( )
A.4 B.6 C.8 D.10
【答案】C
【分析】求出,的平均值,代入即可求解.
【详解】因为,,
所以,解得.
19.(2026·辽宁·模拟预测)已知变量,具有线性相关关系,由样本数据(,2,3,4,5)得到关于的经验回归方程为,若,,则当时,的预测值为( )
A. B. C. D.
【答案】A
【详解】由,,得,,
点在回归直线上,故,解得,
,
故当时,.
20.(2026·广东深圳·二模)(多选)某公司统计了去年1月份到5月份某种产品的销售额如下表:
月份
1
2
3
4
5
销售额万元
1.8
2.2
2.8
3.1
根据表中数据,通过最小二乘法求得的经验回归方程为,则( )
A.变量与正相关
B.
C.样本数据的下四分位数为1.8
D.当时,的预测值为4.1万元
【答案】ABD
【分析】根据回归系数,可判定A正确;根据回归直线方程经过样本中心,列出方程,求得的值,可判定B正确;根据百分位数的计算方法,可判定C错误;根据回归直线方程,求得预测值,可判定D正确.
【详解】对于A,由回归直线方程,可得,
所以变量与正相关,所以A正确;
对于B,因为回归直线方程经过样本中心,
因为,所以,
又由,解得,所以B正确;
对于C,将样本数据的数据排序为:,
由,则样本数据的下四分位数为第个数据,所以C不正确;
对于D,当时,,所以的预测值为万元,所以D正确.
21.(25-26高二下·天津静海·期中)某公司为了了解某商品的月销售量(单位:万件)与月销售单价(单位:元)之间的关系,随机统计了5个月的销售量与销售单价,并制作了对照表:
月销售单价元
10
20
25
30
35
月销售量万件
16
13
10
6
5
由表中数据可得回归方程中,则______.
【答案】21.28
【详解】已知,线性回归直线必过样本中心点,
计算样本均值:,.
将代入可得 .
22.(25-26高二下·江苏南通·期中)(多选)已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,则( )
x
0
1
3
4
y
2.2
4.3
4.8
m
A.
B.该经验回归直线必过
C.变量x,y呈正相关
D.可预测当时,y约为
【答案】ACD
【分析】根据回归直线必过样本中心点求解的值,结合回归直线方程的性质依次判断选项即可.
【详解】由题可得:,,所以,
解得:,故A正确;
回归直线必过样本中心点为,故B错误;
由于,所以变量x,y呈正相关,故C正确;
当时,,故D正确
考点五 求回归直线方程
23.(2026·河南·模拟预测)某农业科研团队为探究大棚蔬菜的光照时长对产量的影响,选取5组不同的光照时长方案,在相同种植条件下开展试验,统计对应时长下的蔬菜合格采收量,得到如下数据:
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
(1)求变量与的样本相关系数,判断是否适合线性回归模型拟合,如果适合,求关于的经验回归方程;
(2)当样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,现从这5组数据中任取3组做残差分析,求取到异常拟合数据的组数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
【答案】(1)适合,
(2)
0
1
2
【分析】(1)根据公式先求得,可得与的线性相关性很强,适合线性回归模型拟合,进而结合公式求解即可;
(2)计算可得异常拟合数据有2组,非异常拟合数据有3组,进而可得的所有可能取值为0,1,2,分别求出每一个对应的概率,再根据数学期望的公式求解即可.
【详解】(1)由已知,得,
,
所以,
所以.
因为,说明与的线性相关性很强,所以适合线性回归模型拟合.
因为,
,
所以关于的经验回归方程为.
(2)由(1)知,.
因为样本数据的残差绝对值大于1时,称该组数据为异常拟合数据,
所以5组数据的残差绝对值及数据状态如下表所示.
每日光照时长
14
15
16
17
18
合格采收量
4
8
16
20
26
预测值
3.6
9.2
14.8
20.4
26
残差的绝对值
0.4
1.2
1.2
0.4
0
是否为异常拟合数据
否
是
是
否
否
由表可知,异常拟合数据有2组,非异常拟合数据有3组,
所以从这5组数据中任取3组,异常拟合数据的组数的所有可能取值为0,1,2.
则,,,
所以的分布列为:
0
1
2
则的数学期望.
24.(25-26高二下·江苏淮安·期中)2026年春节期间,电影《飞驰人生3》、《镖人》持续火爆,现对电影《镖人》从正月初一到正月初六的单日票房统计如下表:(由于统计原因,本题的数据与实际情形可能存在误差,以题目给出的数据为准).
日期
初一
初二
初三
初四
初五
初六
上映第天
1
2
3
4
5
6
票房(单位:亿元)
0.9
1.2
1.3
1.5
1.3
1.6
(1)根据数据建立单日票房关于上映天数的线性回归方程,并预测第七日的票房收入(计算结果均保留一位小数);
(2)在某天放映结束后,随机抽取6名观众,发现其中有4人看过《镖人》,3人看过《飞驰人生3》,只有1人两部电影均没看过.现从这6人中随机抽取3人,记为抽取的3人中两部电影都看过的人数,求的分布列及数学期望.
参考数据:,公式:
【答案】(1),亿元
(2)
0
1
2
【分析】(1)先计算样本中心点,再用公式求出回归系数、截距,得到线性回归方程后代入预测票房;
(2)先算出同时看过两部电影的人数,确定的所有可能取值,再用超几何分布公式计算各取值的概率,列出分布列后按定义求数学期望.
【详解】(1)因为,,
,
所以,
,
所以线性回归方程为.
当时,亿元,因此预测第七日的票房收入为1.6亿元.
(2)由题意可知,6人中同时看过两部电影的只有 人,
所以的可能取值为,,,则,,
,
所以的分布列为:
0
1
2
则.
25.(25-26高二下·山西晋中·期中)某模具厂新接一批新模型制作的订单,为给订购方回复出货时间,需确定制作该批模型所花费的时间,为此进行了5次试验,收集数据如下:
制作模型数(个)
10
20
30
40
50
花费时间(分钟)
64
69
75
82
90
(注:回归方程中斜率和截距最小二乘估计公式分别为,参考数据:,).
(1)请根据以上数据,求关于的线性回归方程;
(2)若要制作60个这样的模型,请根据(1)中所求的回归方程预测所花费的时间.
【答案】(1)
(2)95.5分钟
【分析】(1)计算平均值,再利用回归方程公式计算得到答案.
(2)将代入回归方程计算得到答案.
【详解】(1)由数据得,,
因为,,所以, ,所以关于的线性回归方程为.
(2)当时,(分钟),
因此可以预测制作60个这种模型需要花费95.5分钟.
26.(2026·海南儋州·二模)某地区随机抽取5家超市,得到其某1年的广告支出与销售额数据如下表:
超市
1
2
3
4
5
广告支出万元
3
5
4
6
2
销售额万元
22
27
24
28
19
(1)若该地区的超市在同一年的广告支出4.5万元,试根据表中的数据,推断超市该年的销售额约为多少?
(2)若从统计表中的5家超市中随机抽取2家,记销售额不低于24万元的超市家数为,求的分布列、数学期望与方差.
参考公式与数据:,,,.
【答案】(1)25.15万元;
(2)的分布列为:
0
1
2
,
【分析】(1)先计算样本均值,通过最小二乘法求解线性回归方程,代入广告支出数值预测销售额;
(2)确定服从超几何分布,计算各取值对应的概率得到分布列,再求解期望与方差.
【详解】(1)计算样本均值: , ,
由最小二乘法公式计算回归系数: ,
,
因此线性回归方程为 ,
将代入方程得: ,
即A超市该年销售额约为 万元;
(2)由题意得,5家超市中销售额不低于24万元的共3家,低于24万元的共2家,
的所有可能取值为0,1,2,服从参数 的超几何分布,
则 ,
则X的分布列是:
0
1
2
数学期望: ;
方差: .
27.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
【答案】(1)证明见解析
(2),具有较强的线性相关程度.
(3)关于的线性回归方程为,预测研发投入亿元时的经济收益为亿元.
【分析】(1)先利用完全平方公式展开,再根据平均数定义,即,对展开后的式子进行化简,最终推导出目标等式;
(2)先计算的均值,再分别求出、与交叉项,代入相关系数公式计算,最后根据与的大小关系判断线性相关程度;
(3)利用已求出的交叉项与计算回归系数,再根据求出截距,得到回归方程,最后将代入方程,计算并得到预测的经济收益值.
【详解】(1)已知,即,
,
所以;
(2),,
,,
,
又因为,
所以
所以研发投入与经济收益之间具有较强的线性相关性.
(3),则,
所以关于的线性回归方程为,
将代入线性回归方程,得,
所以预测研发投入亿元时的经济收益为亿元.
28.(2026·陕西咸阳·模拟预测)某健身俱乐部为研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下表:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
每周锻炼时长x/小时
3
4
2
5
6
4
5
3
4
4
40
体重减少量y/千克
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
经过计算得,,.
(1)根据表格中的数据,可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,请用样本相关系数加以说明(结果精确到0.01);
(2)求经验回归方程(,的结果均精确到0.01);
(3)该俱乐部在推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
参考公式及数据:样本相关系数,经验回归方程中斜率和截距的最小二乘估计公式分别为,.,.
【答案】(1)y与x的线性相关程度很高,可用一元线性回归模型刻画
(2)
(3)答案见解析
【分析】(1) 利用相关系数公式直接代入数据求解即可;
(2) 利用公式,先求一次项系数,再利用经过样本中心点,可求出,从而可得回归直线方程;
(3)利用一次项系数可解释会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际效果相当,说明具有参考价值.
【详解】(1)解:由表可知,,
所以,
因为0.93非常接近1,
所以y与x的线性相关程度很高,可用一元线性回归模型刻画.
(2)由题意可知,
,
所以.
(3)由(2)可知,根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,
预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,
所以实际结果与预测结果基本一致,说明该回归模型具有参考价值.
造成一定差异的原因可能是样本数据过少,或者造成体重减少的原因还受其他因素影响,
比如睡眠、饮食、锻炼强度以及效果等.
考点六 残差的计算
29.(25-26高二下·江苏淮安·期中)已知线性相关的两个变量、的取值如表所示,如果其线性回归方程为,那么当时的残差为( )
A. B. C. D.
【答案】A
【分析】利用回归直线过样本中心点求出的值,再利用残差的概念可得结果.
【详解】由表格中的数据可得,,
由于回归直线过样本中心点,所以,解得,
当时,,故当时的残差为.
30.(25-26高二下·江苏南京·期中)某学校一同学研究温差与本校当天新增感冒人数(人)的关系,该同学记录了5天的数据:
5
6
8
9
12
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列选项错误的是( )
A.样本中心点为 B.
C.时,残差为 D.相关系数
【答案】B
【分析】由回归直线必过样本中心可判断A项,代入样本中心点即可判断B,由残差公式可判断C项,由线性回归方程的斜率即可相关系数正负可判断D项.
【详解】对于A项,因为,,
所以样本中心点为,故A项正确;
对于B项,由回归直线必过样本中心可得:,解得:,故B项不正确;
对于C项,由B项知,,令,则,
所以残差为,故C项正确;
对于D项,经验回归方程中,斜率,说明与正相关,
故相关系数,故D项正确.
31.(25-26高二下·辽宁大连·期中)为调查某企业年利润Y(单位:万元)和它的年研究费用x(单位:万元)的相关性,收集了5组成对数据(x,y),如表所示:
x
1
2
3
4
5
Y
50
60
70
80
100
由上表中数据求得Y关于x的经验回归方程为,据此计算出样本点处的残差为( )
A.4 B.5 C.-4 D.-5
【答案】C
【详解】依题意,,,
由回归方程必过样本中心,得,解得,
所以在样本点处的残差为.
32.(2026·陕西榆林·模拟预测)已知变量、满足线性相关关系,经验回归方程为且,.现有一对观测数据为,若该数据的残差为0.6,则__________.
【答案】11.6
【详解】由题意,经验回归方程经过点,
则得,解得,所以.
当时,,
则.
33.(2026·甘肃兰州·模拟预测)(多选)某智能机器人公司从2019年起连续7年的利润情况如表所示,若关于的经验回归方程为,则( )
第年
1
2
3
4
5
6
7
利润亿元
2.9
3.3
3.6
4.4
4.8
5.2
5.9
A.变量与负相关 B.
C.当时,残差为 D.预测当时,利润约为亿元
【答案】BC
【分析】根据数据即可判断选项A;根据数据求出,的值,从而得到线性回归方程,进而分析选项B,C,D即可.
【详解】对于A,由数据知,随的增大而增大,所以变量与正相关,故A错误;
对于B,,,
由经验回归直线过样本中心点,得,解得,故B正确;
对于C,结合B得,当时,,则残差为,故C正确;
对于D,结合B得,当时,,故D错误.
34.(25-26高二下·重庆·期中)(多选)变量与变量有较强的线性相关性,由下列表格得到经验回归方程是,则( )
1
2
3
4
5
2
4
5
6
8
A. B.变量与变量负相关
C.当时,预测值 D.当时,样本点对应的残差是
【答案】ACD
【分析】本题考查线性回归方程的性质、相关关系判断、残差计算,核心利用回归直线必过样本中心点求解回归系数,再逐一验证选项即可.
【详解】先计算样本中心点:,.
经验回归直线过样本中心点,代入得,解得.
选项A:由上述计算得,A正确;
选项B:,说明变量与正相关,B错误;
选项C:当时,代入回归方程得,即预测值为11,C正确;
选项D:残差定义为实际值减预测值,当时,,对应实际,
故残差,D正确.
考点七 决定系数的计算及分析
35.(25-26高二下·江苏淮安·期中)(多选)关于线性回归的描述,下列表述正确的是( )
A.回归直线一定经过样本中心点
B.相关系数越大,线性相关性越强
C.残差图的带状区域越窄,拟合效果越好
D.决定系数越接近,拟合效果越好
【答案】AC
【分析】根据回归直线的特点可判断A选项;根据相关系数与线性相关性的关系可判断B选项;根据残差与拟合效果的关系可判断C选项;根据决定系数与拟合效果的关系可判断D选项.
【详解】对于A选项,回归直线一定经过样本中心点,故A正确;
对于B选项,相关系数越大,相关性越强,故B错误;
对于C选项,残差图的带状区域越窄,拟合效果越好,故C正确;
对于D选项,决定系数越接近,拟合效果越差,故D错误.
36.(25-26高三下·重庆·阶段检测)(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【答案】BCD
【分析】A选项,相关系数的正负决定正负相关,可根据线性回归方程的正负进行判断;
B选项,根据数据点与预测值的差判断残差;
C选项,可利用计算,代入线性回归方程计算平均建筑面积;
D选项,决定系数越接近1,拟合效果越好,比较两个决定系数大小判断拟合效果即可.
【详解】A选项,因为,故房屋的建筑面积和销售价格y呈正相关,相关系数为,A错误;
B选项,代入,可得的预测值:,残差为:,故B正确;
C选项,,因为线性回归方程恒过点,故,
解得:,C正确;
D选项,决定系数越接近1,拟合效果越好,因为,故甲机构选取的模型拟合效果更好,D正确.
37.(25-26高二下·海南·期中)根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.决定系数变小 B.残差平方和变小
C.相关系数变大 D.不变
【答案】A
【详解】增加点,从散点图中可以看出拟合效果变差;
决定系数越接近1,拟合效果越好,所以拟合效果变差后决定系数变小,故A正确;
残差平方和越小,拟合效果越好,所以残差平方和变大,故B错误;
越接近1,相关程度越强,拟合效果越好,由于两个变量成正相关,所以相关系数变小,故C错误;
增加点前的的平均数为,增加点后的的平均数为,
所以变大,故D错误.
38.(25-26高二下·天津武清·期中)已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
【答案】D
【详解】对于①,残差图中,残差点所在水平带状区域越窄,说明残差波动越小,
即回归方程的预报精确度越高,残差点所在水平带状区域越宽,说明残差波动越大,
即回归方程的预报精确度越低,错误;
对于②,决定系数越接近1,说明模型对数据的拟合效果越好,故模型甲的拟合效果更好,错误;
对于③,回归直线过样本数据,,,的中心点,
并不一定过样本数据中的某一个点,错误;
对于④,在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强,正确.
39.(25-26高二下·湖南长沙·阶段检测)(多选)下列说法正确的是( )
A.样本数据的第70百分位数为23
B.若一组样本数据的方差,则
C.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
D.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高
【答案】BCD
【详解】对于A,将样本数据按从小到大排列为.
,故第70百分位数为第7位和第8位数值平均数,为,A错误.
对于B,,,,B正确.
对于C,决定系数越接近1,说明模型对数据的拟合效果越好,
相反若越小,则说明模型拟合的效果越差,故C正确.
对于D,残差图中,残差点所在的水平带状区域越窄,说明残差波动越小,
即对数据的预测误差越小,故D正确.
40.(25-26高二下·广西柳州·期中)(多选)下列说法中正确的是( )
A.某学校高二年级数学课外活动小组中有男生5人,女生3人,从中选2人,1人做正组长,1人做副组长,共有64种不同的选法
B.线性回归分析中可以用决定系数来刻画回归的效果,若的值越小,则模型的拟合效果越好
C.对具有线性相关关系的变量,其线性回归方程为,若样本点的中心为,则实数的值是-4
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和2
【答案】CD
【分析】根据排列即可求解A,根据决定系数的定义即可求解B,将样本中心代入即可求解C,取对数即可求解D.
【详解】对A:可以看作从8个人中取2个人的排列,故有种不同的选法,A错误;
对B:线性回归分析中可以用决定系数来刻画回归的效果,若的值越大,则模型的拟合效果越好,B错误;
对C:由题知,解得,C正确,
对D:以模型去拟合一组数据时,为了求出经验回归方程,设,
则,由题线性回归方程为,则,故的值分别是和2,D正确.
考点八 非线性回归的问题
41.(2026·陕西渭南·模拟预测)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为__________.
【答案】
【分析】由回归直线方程可得:,解出即可求解.
【详解】因为,,所以,
则
42.(25-26高二下·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(1)
(2)644.6;258.3
【分析】(1)根据散点图分析得出回归方程类型,结合非线性回归模型转化线性回归方程分析求解即可;
(2)根据(1)中的方程代入相关变量计算分析即可.
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
43.(25-26高二下·内蒙古呼和浩特·阶段检测)某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【答案】A
【分析】根据给定数据,利用最小二乘法求出关于的线性回归方程,进而求出关于的回归方程.
【详解】令,,由与呈线性相关关系,得线性回归方程,
则,,
因此,即,所以关于的回归方程为.
44.(25-26高三下·山东·开学考试)为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
【答案】C
【分析】根据给定条件,求出样本中心点,进而求出,再还原模型即可.
【详解】依题意,,
由与的线性回归方程,得,则,
即,因此,所以.
45.(25-26高二下·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
46.(25-26高三下·安徽淮北·阶段检测)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【答案】(1)
(2).
(3)册
【分析】(1)因为散点图呈现的是非线性趋势,所以选择更合适;
(2)令,将转化为线性回归方程,利用最小二乘估计公式计算和,进而得到关于的回归方程;
(3)根据利润公式,结合回归方程列出不等式,求解不等式得到印刷数的取值范围,确定至少印刷的册数.
【详解】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
1.(2026·上海静安·三模)观察下列散点图,其中图1两个变量的相关关系为,图2两个变量的相关关系为 则判断一定正确的是( )
A. B. C. D.
【答案】A
【分析】根据图象和相关系数的意义可得且,且,依次判断即可.
【详解】①分析图1的相关系数观察图1,散点图中的点大致分布在从左上到右下的带状区域内;
随着的增大,总体呈减小趋势,根据相关系数的定义,
两个变量呈负相关,故;
②分析图2的相关系数观察图2,散点图中的点大致分布在从左下到右上的带状区域内;
随着的增大,总体呈增大趋势;
根据相关系数的定义,两个变量呈正相关,故;
此外,观察图2中点的分布比图1更紧密地围绕在一条直线附近,
说明图2的线性相关性更强,即
选项,已知且,且,故 成立;
选项,因为且,所以,故选项B错误;
选项,因为且,则,选项C错误;
选项,因为且,则,显然不可能大于1,故选项D错误.
2.(25-26高二下·河南南阳·期中)已知,,,四组成对样本数据对应的线性相关系数分别为-0.95,-0.82,0.86,0.93,则线性相关程度最弱的是( )
A.组 B.组 C.组 D.组
【答案】B
【分析】由线性相关系数的性质判断即可得.
【详解】因为,所以线性相关程度最弱的是组.
3.(25-26高二下·河北石家庄·期中)对具有线性相关关系的变量x,y,测得一组数据如下表,根据表中数据,利用最小二乘法得到经验回归方程,据此模型预测当x=20时,y的估计值为( )
x
7
9
11
13
y
2
3
5
6
A.10 B.11 C.12 D.13
【答案】B
【详解】由题意可得:,
因经验回归方程经过样本中心点,故,解得,
所以经验回归方程为,
当时,.
4.(25-26高三·全国·一轮复习)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
【答案】D
【分析】对于A,利用表中的数据分析即可求解;对于B,利用平均数的定义及样本中心,结合样本中心在回归直线上即可求解;对于C,利用回归方程即可求出预测值,对于D,利用预测值和残差的定义即可求解.
【详解】对于A,从数据看随的增加而增加,所以变量与正相关,故A正确;
对于B,由表中数据知,,,
可得样本中心点为,将样本中心点代入中,
得到,故B正确;
对于C,当时该商场5G手机销量约为(千只),故C正确;
对于D,经验回归方程为,所以,
则残差为,故D错误.
5.(2026高三·全国·专题练习)根据如下样本数据:
得到的回归方程为,则( )
A., B., C., D.,
【答案】B
【详解】,,
因为回归方程过样本中心点,
所以,
由样本数据可知,的值随值的增大而大致呈减小趋势,可判断为负相关,
所以,,要使等式成立,必须.
6.(25-26高二下·浙江金华·阶段检测)(多选)下列命题正确的是( )
A.线性回归直线必然过样本中心点
B.在刻画回归模型的拟合效果时,决定系数的值越大,说明拟合的效果越好
C.已知两个变量线性相关,若它们的相关性越强,则相关系数r越接近于1
D.正态曲线当一定时,越小,这条曲线越“瘦高”;越大,正态曲线越“矮胖”
【答案】ABD
【分析】直接利用线性回归直线以及决定系数、相关系数、正态分布曲线的特点,对选项逐一判断即可.
【详解】对于A,线性回归直线必然经过样本中心点,这是线性回归的基本性质,故A正确;
对于B,决定系数是衡量回归模型拟合效果的重要指标,其值越大(越接近),说明模型解释因变量变异的能力越强,即拟合效果越好,故B正确;
对于C,相关系数的绝对值越接近,表示两个变量的线性相关性越强,故C错误;
对于D,正态分布中,当固定时,越小,曲线越“瘦高”,数据越集中;越大,曲线越“矮胖”,数据越分散;故D正确.
7.(2026·江西·模拟预测)(多选)已知某软件公司开发了一款新型智能解题软件,现将该软件上市后的月份以及当月获得的利润(单位:万元)统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
6
7
9
A.
B.可以估计每增加1个月份,月利润平均提高万元
C.可以估计上市后的第7个月的利润为万元
D.上市后的第4个月的利润的残差为万元
【答案】AC
【详解】由统计表可知:
,,
则回归直线过样本中心点,代入回归方程得,
,解得,故A正确;
回归方程为,斜率为,则每增加1个月份,月利润平均提高万元,
故B错误;
时,万元,故C正确;
由统计表知,第4个月,预测值,
残差万元,故D错误.
8.(25-26高二下·江苏南京·期中)(多选)市物价部门对五家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价(元)和销售量(件)之间的数据如表所示:
9
9.5
10
10.5
11
120
100
70
60
50
用最小二乘法求得经验回归方程为,相关系数,则( )
A.
B.变量,相关性较强
C.相对于点的残差为1
D.当时,的估计值为152
【答案】ABD
【分析】根据最小二乘法、残差、相关系数等知识逐项计算判断即可.
【详解】对于A,由题意得,.
因为用最小二乘法求得经验回归方程为,所以.
解得,A正确;
对于B,因为相关系数,其绝对值大小非常接近1,所以变量,相关性较强,B正确;
对于C,相对于点的残差为,C错误;
对于D,当时,的估计值为,D正确.
9.(25-26高二下·广东广州·期末)(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
【答案】AD
【分析】利用非线性转化为线性,即可求线性回归方程,通过系数对比即可得判断.
【详解】由两边取自然对数得:,
由变换后得到线性回归方程,
则,即,故AD正确,BC错误;
故选:AD.
10.(18-19高二下·内蒙古巴彦淖尔·阶段检测)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为________.
【答案】
【分析】由回归直线方程可得:,解出即可求解.
【详解】因为,
所以.
故答案为:.
11.(2026·江苏苏州·三模)已知下表中是关于变量,的5组观测数据,甲同学根据表中数据通过模型得到经验回归方程为,则______.
1
2
3
4
5
【答案】
【详解】令,则,
,两边同时取对数得,即,
因为回归直线经过样本中心点,所以有,
即,,解得.
12.(2026高三·全国·专题练习)在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号
1
2
3
4
5
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
现已知其线性回归方程为,则________,根据此线性回归方程估计数学得90分的同学的物理成绩为________.(四舍五入到整数)
【答案】 40.8 73
【详解】,,
所以,即,
即线性回归方程为.
当时,.
13.(25-26高二下·上海·期中)已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
【答案】
【详解】,,
所以
14.(2026·重庆·模拟预测)现有抽球游戏规则如下:盒子中初始装有2个白球和1个黑球,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球的颜色相同.则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏.否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
1
2
3
4
5
516
209
127
98
50
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和期望;
(2)有数学爱好者统计了近1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如表,经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程(结果保留整数).
附:回归方程系数:,.
参考数据:设,,,,,,.
【答案】(1)分布列见解析,;
(2).
【分析】(1)先求出每一轮成功和失败的概率,再由条件概率公式求解即可;
(2)设,则回归方程为,根据所给数据和公式,求出的值,再代回,即可得答案.
【详解】(1)由题意可知:
第1轮:盒子中共有3个小球(2白1黑),
所以成功的概率为,所以失败的概率为;
第2轮:盒子中共有4个小球(3白1黑),
所以成功的概率为,所以失败的概率为;
第3轮:是否成功都会停止,且只有前两轮失败,就会进行第3轮;
所以,,,
所以的分布列如下:
所以
(2)设,则回归方程为,
因为,,,,,
且,
所以,
所以.
所以回归方程为,
又因为,
所以回归方程为.
15.(2026·河北·三模)某创业者计划开设一家咖啡店,他从本市已开业的15家规模相似的咖啡店中收集了以下数据:x表示周边一公里内日均人流量(千人);y表示日均销售额(百元).
x
4.2
5.2
5.2
6.2
6.2
6.2
5.2
7.2
9.2
8.2
8.2
8.2
9.2
9.2
10.2
y
34
38
40
40
46
52
42
52
54
47
58
69
64
74
70
经计算得
(1)求y关于x的线性回归方程;
(2)预测x=8时,y的估计值y₀;
(3)计算变量x和y的样本相关系数r.
附:最小二乘估计公式分别为:
样本相关系数
【答案】(1)
(2)
(3)
【分析】(1)根据所给数据,代入公式求解即可;
(2)利用回归直线方程,求估计值即可;
(3)根据相关系数公式求解.
【详解】(1) ,
因为样本中心点在回归直线上,所以 ,
所以关于的线性回归方程为 .
(2)当时,的估计值 .
(3).
16.(2026高三·全国·专题练习)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产,所以对水资源的保护刻不容缓.现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适合;
(2).
【分析】(1)由散点图的递增趋势选择更适宜的模型;
(2)先根据所取模型进行线性变换,再代入公式求解回归模型.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,
得,
则,
因此,即
,
所以y关于x的回归方程为.
1 / 1
学科网(北京)股份有限公司
$