内容正文:
第16讲 一元线性回归模型及其应用
【人教A版】
模块一
一元线性回归模型
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.随机误差
在线性回归模型Y=bx+a+e中,a和b为模型的未知参数,e是Y与bx+a之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方程D(e)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
【题型1 解释回归直线方程的意义】
【例1】(24-25高二下·黑龙江·期中)研究表明某地的山高(km)与该山的年平均气温(℃)具有相关关系,根据所采集的数据得到线性回归方程,则下列说法错误的是( )
A.年平均气温为5℃时该山高估计为5km
B.该山高为8km处的年平均气温估计为10℃
C.该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关
D.该地的山高与该山的年平均气温成负相关关系
【变式1.1】(2025高二·全国·专题练习)设一条经验回归直线的方程为,则当变量x增加一个单位时,( )
A.y平均增加1.2个单位 B.y平均增加3个单位
C.y平均减少1.2个单位 D.y平均减少3个单位
【变式1.2】(24-25高二下·辽宁抚顺·期末)已知两个变量和之间有线性相关关系,经调查得到的样本数据如下表所示,根据表格中的数据求得回归直线方程,则( )
1
2
4
6
7
4
3
2
0
-2
A., B.,
C., D.,
【变式1.3】(24-25高二下·天津西青·期末)下列有关一元线性回归分析的命题正确的是( )
A.在儿子身高关于父亲身高的经验回归方程中,若父亲身高每增加,其儿子身高平均增加
B.经验回归直线是经过散点图中样本数据点最多的那条直线
C.若两个变量的线性相关程度越强,则样本相关系数就越接近于1
D.若甲、乙两个模型的决定系数分别为0.87和0.78,则模型乙的拟合效果更好
【题型2 由散点图画求近似回归直线】
【例2】(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【变式2.1】(24-25高二下·河南·月考)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【变式2.2】(2026·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高(单位:
167
173
175
177
178
180
181
体重(单位:
90
54
59
64
67
72
76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
【变式2.3】(24-25高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【题型3 根据回归方程进行数据估计】
【例3】(24-25高二下·贵州遵义·月考)相关变量的样本数据如下表:
x
1
2
3
4
y
2
3
a
5
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.当每增加1时,一定增加1.5 B.当每增加13时,一定增加8
C. 与呈负相关 D.
【变式3.1】(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【变式3.2】(24-25高二下·陕西渭南·期末)2023年第5届藏博会在拉萨举行,藏博会上本地核桃油深受大家喜爱,某商家统计了最近5个月销量,如表所示:
时间x
1
2
3
4
5
销售量y/万瓶
5.7
4.8
3.8
3.2
2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.样本中心点为
C.可以预测当时销量约为1.8万瓶 D.线性回归方程中
【变式3.3】(2025·陕西汉中·二模)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
模块二
一元线性回归模型参数的最小二乘估计
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【注】
1.经验回归直线过点.
2.求时,常用公式.
【题型4 残差的计算】
【例4】(24-25高二下·福建泉州·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【变式4.1】(24-25高二下·山东青岛·期末)已知变量,线性相关,其一组样本数据满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到新的经验回归方程,则此时数据的残差为( )
A. B. C.1 D.2
【变式4.2】(24-25高二下·福建泉州·月考)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【变式4.3】(24-25高二下·河南驻马店·月考)某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【题型5 刻画回归效果的方式】
【例5】(24-25高二下·山东枣庄·期末)下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
【变式5.1】(24-25高二下·安徽蚌埠·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
【变式5.2】(2025高二·全国·专题练习)某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线的方程:,相关系数为,决定系数为;经过残差分析,确定点E为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线的方程:相关系数为,决定系数为.则以下结论中,正确的是( )
① ② ③ ④
A.①② B.①②③ C.②④ D.②③④
【变式5.3】(24-25高二上·黑龙江哈尔滨·期中)下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
【题型6 求回归直线方程】
【例6】(24-25高二下·江西赣州·期中)已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【变式6.2】(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【变式6.2】(24-25高二下·全国·课后作业)某地为响应“绿水青山”的号召,经过多年的环境治理,将荒山改造成了林区.为了解该林区某种树木的材积量与根部横截面面积之间的关系,随机选取了一定量的这种树木进行测量,得到每棵树的根部横截面面积x(单位:)和对应的平均材积量y(单位:)如下表所示,则y关于x的经验回归方程为_________.
根部横截面面积
0.04
0.05
0.06
0.07
0.08
材积量
0.25
0.34
0.40
0.46
0.50
附:经验回归方程,其中.
【变式6.3】(24-25高三下·江苏常州·月考)随机抽取家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
则其经验回归方程__________.
(参考数据:,参考公式:;)
【题型7 线性回归分析】
【例7】(24-25高二下·四川广元·期末)某机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x
4
6
8
10
识图能力y
3
5
7
8
由表中数据,求得经验回归方程为,若某儿童记忆能力为12,则他的识图能力的预测值为( ).
A.10 B.9.8 C.9.5 D.9.2
【变式7.1】(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
【变式7.2】(24-25高二下·山西长治·期中)网络时代,直播带货成为新的售货方式.某平台一网红月粉丝数量x(万人)与当月获得的利润y(万元)的数据如下表所示,已知y与x之间具有线性相关关系.
月份
1
2
3
4
5
粉丝数量万人
1.5
1.6
1.7
1.8
1.9
利润万元
1.6
2
2.4
2.5
3
(1)求y关于x的线性回归方程;
(2)若此网红每月增加粉丝1000人,根据(1)中所得的线性回归方程,预测本年最后一个月12月份可获得的利润.
参考公式:,.
【变式7.3】(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【题型8 非线性回归分析】
【例8】(2025·广东梅州·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份
2018年
2019年
2020年
2021年
2022年
年份代码x
1
2
3
4
5
云计算市场规模y/千万元
7.4
11
20
36.6
66.7
2
2.4
3
3.6
4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
【变式8.1】(2025高二·全国·专题练习)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【变式8.2】(24-25高二下·四川广安·期中)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【变式8.3】(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【题型9 线性回归与其他知识交汇】
【例9】(24-25高二下·江西·月考)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2024年中国出生人数y(单位:万人)与年份代码x的统计数据:
年份代码x
1
2
3
4
5
出生人数y
1200
1062
956
902
954
(1)根据上表数据求得y关于x的经验回归方程为,求x与y的相关系数r,并判断该经验回归方程是否有价值:(若,则认为经验回归方程有价值)
(2)从表中第2行的5个数据中任取3个数据,记取到大于1000的数据个数为X,求X的分布列与期望.
参考数据与公式:回归方程中,相关系数.
【变式9.1】(2025·广东·一模)近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
【变式9.2】(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【变式9.3】(24-25高二下·黑龙江大庆·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.
①在学生甲获得奖学金的条件下,求他获得一等奖学金的概率;
②已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额的分布列及数学期望.
一、单选题
1.(24-25高二下·天津河东·阶段检测)已知两个具有线性相关关系的变量的一组数据,,…,,下列说法错误的是( )
A.相关系数越接近1,变量x,y相关性越强
B.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
C.决定系数越小,残差平方和越大,即模型的拟合效果越差
D.回归方程为时,变量x与y负线性相关
2.(24-25高二下·甘肃定西·期末)根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
3.(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
4.(24-25高二下·广东深圳·期末)某智能机器人公司从某年起7年的利润情况如下表所示,y关于x的回归直线方程是,则该智能机器人公司第4年利润的残差是( )
第x年
1
2
3
4
5
6
7
利润y/亿元
m
A.亿元 B.亿元 C.亿元 D.亿元
5.(24-25高二下·广西桂林·开学考试)某产品在去年6月至10月的销量(单位:万件)如下表所示:
月份
6
7
8
9
10
销量
1.1
1.3
1.9
2.2
2.5
若与线性相关,且线性回归方程为,则( )
A.样本的相关系数为负数
B.
C.
D.当时,销量为3.28万件
6.(24-25高二下·广东中山·月考)已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:若y关于t的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
年份
2020
2021
2022
2023
2024
年份代号t
1
2
3
4
5
成交额y(万元)
50
60
70
80
100
A.84万元 B.96万元 C.108万元 D.120万元
7.(24-25高二下·山东济宁·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
8.(24-25高二下·四川绵阳·期末)已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
二、多选题
9.(24-25高二下·山东泰安·期末)下列说法中正确的是( )
A.如果由一组样本数据,,…得到的经验回归方程是,那么经验回归直线至少经过点,,…中的一个
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和0.3
10.(24-25高二下·江苏无锡·阶段检测)市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
按公式计算,y与x的回归直线方程是:,相关系数,则下列说法正确的是( )
A. B.变量x,y线性负相关且相关性较强
C.相应于点的残差约为 D.当时,y的估计值为14.4
11.(25-26高三上·福建福州·月考)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
三、填空题
12.(24-25高二下·新疆乌鲁木齐·期末)某饮料店的日盈利(单位:百元)与当天平均气温(单位:℃)之间有如下数据:
x/℃
0
1
2
y/百元
5
4
2
2
1
由表中数据可得回归方程中.试预测当天平均气温为℃时,饮料店的日盈利约为_________百元.
13.(2025·江西新余·模拟预测)某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
研发费用x
3.4
4.7
5
5.6
6.3
销售量y
15
16.9
19.2
18
20.9
根据表中数据可得经验回归方程为,则第三个样本点对应的残差为____________.
14.(24-25高二下·山东青岛·期末)新冠肺炎疫情,是新中国成立以来在我国发生的传播速度最快、感染范围最广防控难度最大的一次重大突发公共卫生事件中华民族历史上经历过很多磨难,但从来没有被压垮过,而是愈挫愈勇,不断在磨难中成长,从磨难中奋起在这次疫情中,全国人民展现出既有责任担当之勇、又有科学防控之智,某市某校学生也运用数学知识展开了对这次疫情的研究,一名同学在疫情初期数据统计中发现,从2020年2月1日至2月7日期间,日期x和全国累计报告确诊病例数量y(单位:万人)之间的关系如下表:
日期x
1
2
3
4
5
6
7
确诊病例数量y(万人)
1.4
1.7
2.0
2.4
2.8
3.1
3.5
根据表中的数据,适宜作为确诊病例数量关于日期的回归方程类型,则此线性回归方程___________.(精确到0.01)
参考数据:①;②.其中,.
参考公式:对于一组数据,,…,其回归方程中斜率和截距的最小二乘估计公式分别为:①,②.
四、解答题
15.(24-25高二下·江西·期末)某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:
营业时间
1
2
3
4
5
饮品销量
17
36
56
77
99
已知与线性相关.
(1)根据以上数据求饮品销量关于营业时间的回归直线方程;
(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?
参考公式:回归直线方程中,,.
16.(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
17.(24-25高二下·新疆喀什·期末)随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升,小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:
附:回归直线中.
18.(24-25高二下·河北唐山·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
19.(24-25高二下·江苏南京·期末)“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
第 1 页 共 23 页
学科网(北京)股份有限公司
$
第16讲 一元线性回归模型及其应用
【人教A版】
模块一
一元线性回归模型
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.随机误差
在线性回归模型Y=bx+a+e中,a和b为模型的未知参数,e是Y与bx+a之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方程D(e)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
【题型1 解释回归直线方程的意义】
【例1】(24-25高二下·黑龙江·期中)研究表明某地的山高(km)与该山的年平均气温(℃)具有相关关系,根据所采集的数据得到线性回归方程,则下列说法错误的是( )
A.年平均气温为5℃时该山高估计为5km
B.该山高为8km处的年平均气温估计为10℃
C.该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关
D.该地的山高与该山的年平均气温成负相关关系
【答案】B
【解题思路】根据回归直线方程逐个验证选项可得答案.
【解答过程】对于A,因为时,,即山高估计为5km,A正确;
对于B,令,解得,即山高为8km处的年平均气温估计为℃,B错误;
对于C,由线性回归方程的系数的含义可知C正确;
对于D,因为,所以该地的山高与该山的年平均气温成负相关关系.
故选:B.
【变式1.1】(2025高二·全国·专题练习)设一条经验回归直线的方程为,则当变量x增加一个单位时,( )
A.y平均增加1.2个单位 B.y平均增加3个单位
C.y平均减少1.2个单位 D.y平均减少3个单位
【答案】C
【解题思路】由经验回归直线的方程中的系数的意义即可得解.
【解答过程】设一条经验回归直线的方程为,则当变量x增加一个单位时,y平均减少1.2个单位.
故选:C.
【变式1.2】(24-25高二下·辽宁抚顺·期末)已知两个变量和之间有线性相关关系,经调查得到的样本数据如下表所示,根据表格中的数据求得回归直线方程,则( )
1
2
4
6
7
4
3
2
0
-2
A., B.,
C., D.,
【答案】D
【解题思路】根据回归方程系数所表示的含义和表格中的数据进行判断即可.
【解答过程】由样本数据得随着的增大呈现减小的趋势,
所以和之间存在负相关的关系,所以,易得.
故选:D.
【变式1.3】(24-25高二下·天津西青·期末)下列有关一元线性回归分析的命题正确的是( )
A.在儿子身高关于父亲身高的经验回归方程中,若父亲身高每增加,其儿子身高平均增加
B.经验回归直线是经过散点图中样本数据点最多的那条直线
C.若两个变量的线性相关程度越强,则样本相关系数就越接近于1
D.若甲、乙两个模型的决定系数分别为0.87和0.78,则模型乙的拟合效果更好
【答案】A
【解题思路】根据回归方程的意义,逐项分析理解即可.
【解答过程】对于A,0.839的含义就是每增加一个单位,估计值 就平均增加0.839个单位,故A正确;
对于B,确定回归直线的根据是误差最小,并不是经过的样本点最多,故B错误;
对于C,相关有正相关和负相关,共同点是相关性越强,相关系数的绝对值越接近于1,故C错误;
对于D, 是描述拟合效果的, 越大拟合效果越好,应该是甲的拟合效果更好,故D错误.
故选:A.
【题型2 由散点图画求近似回归直线】
【例2】(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【解题思路】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【解答过程】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
【变式2.1】(24-25高二下·河南·月考)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【答案】B
【解题思路】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【解答过程】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:.
故选:B.
【变式2.2】(2026·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高(单位:
167
173
175
177
178
180
181
体重(单位:
90
54
59
64
67
72
76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
【答案】A
【解题思路】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.
【解答过程】身高的平均数为,
因为离群点的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉后经验回归直线的截距变小而斜率变大,故
去掉后相关性更强,拟合效果也更好,且还是正相关,
,
故选:A.
【变式2.3】(24-25高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【答案】B
【解题思路】由散点图的变化趋势,结合四个选项中函数的单调性即可得结论.
【解答过程】由图可知,图象随着x的增大而增高,且增长速度越来越快,
结合选项,可判断最适宜作为感染人数y和时间x的回归方程.
故选:B.
【题型3 根据回归方程进行数据估计】
【例3】(24-25高二下·贵州遵义·月考)相关变量的样本数据如下表:
x
1
2
3
4
y
2
3
a
5
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.当每增加1时,一定增加1.5 B.当每增加13时,一定增加8
C. 与呈负相关 D.
【答案】D
【解题思路】根据回归方程的意义可判断AB的正误,根据回归系数的正负可判断C的正误,根据回归方程过样本中心可求,从而可判断D的正误.
【解答过程】对于A,因为回归直线方程为,故当每增加1时,增加约为 ,
故A错误;
对于B,因为回归直线方程为,故当每增加13时,增加约为,
故B错误;
对于C,因为,故与呈正相关,故C错误;
对于D,,故,故,故,
故D正确;
故选:D.
【变式3.1】(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【答案】D
【解题思路】对于A,由回归方程可判断变量y与x的负相关;对于B,利用回归方程过可判断选项正误;对于C,由回归方程及残差定义可判断选项正误;对于D,由回归方程可得预测值.
【解答过程】对于A,因回归方程斜率为负值,则变量y与x负相关,故A正确;
对于B,,,
因回归方程过,则,故B正确;
对于C,当时,由B分析,,则残差为:
故C正确;
对于D,当,由B分析,,故D错误.
故选:D.
【变式3.2】(24-25高二下·陕西渭南·期末)2023年第5届藏博会在拉萨举行,藏博会上本地核桃油深受大家喜爱,某商家统计了最近5个月销量,如表所示:
时间x
1
2
3
4
5
销售量y/万瓶
5.7
4.8
3.8
3.2
2.5
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关 B.样本中心点为
C.可以预测当时销量约为1.8万瓶 D.线性回归方程中
【答案】C
【解题思路】对于A,利用表中的数据变化情况分析判断,对于B,利用计算平均数即可求出样本中心点,对于C,利用回归方程可求出预测值,对于D,利用回归方程一定过样本中心点即可求解.
【解答过程】对于A,从表中的数据看,随的增大而减小,所以变量负相关,所以A正确,
对于B,,则样本中心点为,所以B正确,
对于C,当时,,
所以可以预测当时销量约为1.6万瓶,所以C错误,
对于D,由选项B可得,得,所以D正确.
故选:C.
【变式3.3】(2025·陕西汉中·二模)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
【答案】B
【解题思路】利用线性回归方程计算判断ABD;求出第60百分位数判断C.
【解答过程】对于A,由,得与成正相关,样本相关系数,A错误;
对于B,,,则,B正确;
对于C,,因此第60百分位数为,C错误;
对于D,由选项B知,,当时,,
则当年所需要支出的维修费用约为12.38万元,D错误.
故选:B.
模块二
一元线性回归模型参数的最小二乘估计
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【注】
1.经验回归直线过点.
2.求时,常用公式.
【题型4 残差的计算】
【例4】(24-25高二下·福建泉州·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【解题思路】利用线性回归方程必过样本中心点这个性质来求解,结合残差为实际值减去预测值,即可作出判断.
【解答过程】由回归直线方程为必过点,所以,
由于去掉两个样本点和后,
得到新的样本数据的平均数为:
因为新的回归直线的斜率为3,根据必过点,
可得回归直线方程为:,即,
当时,,
在新的经验回归方程下,样本的残差为,
故选:B.
【变式4.1】(24-25高二下·山东青岛·期末)已知变量,线性相关,其一组样本数据满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到新的经验回归方程,则此时数据的残差为( )
A. B. C.1 D.2
【答案】D
【解题思路】根据已知数据求原数据的样本中心,再确定新数据的样本中心,进而得出新的回归直线方程,再结合残差的定义计算即可.
【解答过程】由题意可知,旧数据,则,
增加数据后,,,
将点代入中得, ,即,则,
当时,,故残差为.
故选:D.
【变式4.2】(24-25高二下·福建泉州·月考)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【答案】D
【解题思路】利用回归方程过样本点,可求参数,然后再根残差概念即可求解.
【解答过程】由表格中数据可求得:,
,
根据关于的经验回归方程必过点得:
,故经验回归方程为,
当时,预报值,
所以在样本点处的残差为,
故选:D.
【变式4.3】(24-25高二下·河南驻马店·月考)某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【答案】C
【解题思路】根据相关系数的绝对值不超过1可得选项A错误;根据回归直线方程可得选项B错误;根据残差的概念可得选项C正确,选项D错误.
【解答过程】A.相关系数的绝对值不超过1,A错误;
B.由回归直线方程知,每增加一个单位,平均减少个单位,B错误;
C.第二个样本点对应的残差,C正确;
D.第三个样本点对应的残差,D错误.
故选:C.
【题型5 刻画回归效果的方式】
【例5】(24-25高二下·山东枣庄·期末)下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
【答案】A
【解题思路】由残差平方和越小的模型,拟合的效果越好可判断A;x与y线性相关越强,在线性回归直线上的点不一定越多,可判断B;两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,可判断C;值越大,则模型的拟合效果越好,可判断D.
【解答过程】对于A,残差平方和越小的模型,拟合的效果越好,故A正确;
对于B,x与y线性相关越强,在线性回归直线上的点不一定越多,故B错误;
对于C,两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故C错误;
对于D,值越大,则模型的拟合效果越好,故D错误.
故选:A.
【变式5.1】(24-25高二下·安徽蚌埠·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
【答案】C
【解题思路】根据各个变量的意义作出判断,得到答案.
【解答过程】A选项,残差图带状区域越宽,说明误差大,模型的拟合效果越差,A错误;
B选项,残差平方和越小,模型的拟合效果越好,B错误;
C选项,决定系数越大,模型的拟合效果越好,C正确;
D选项,相关系数越大,说明两个变量线性相关性越强,与模型的拟合效果无关,D错误.
故选:C.
【变式5.2】(2025高二·全国·专题练习)某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线的方程:,相关系数为,决定系数为;经过残差分析,确定点E为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线的方程:相关系数为,决定系数为.则以下结论中,正确的是( )
① ② ③ ④
A.①② B.①②③ C.②④ D.②③④
【答案】B
【解题思路】利用回归方程的性质,利用相关系数和相关指数分析解答.
【解答过程】由散点图可知,x,y之间是正相关关系,所以,故①正确;
由散点图可知,回归直线的斜率是正数,且的斜率大于的斜率,
所以,故②③正确:
由散点图可知,去掉“离群点”E后,相关性更强,拟合的效果更好,
所以,故④错误.
故选:B.
【变式5.3】(24-25高二上·黑龙江哈尔滨·期中)下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
【答案】D
【解题思路】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.
【解答过程】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A错误;
对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B错误;
对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是错误;
对于D,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,
模型的拟合效果越好,故D正确.
故选:D.
【题型6 求回归直线方程】
【例6】(24-25高二下·江西赣州·期中)已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【答案】D
【解题思路】根据已知数据求,代入回归直线方程即可求解.
【解答过程】由题意得.
,,
所以,
故线性回归方程为.
故选:D.
【变式6.2】(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【答案】A
【解题思路】根据公式可求得结果.
【解答过程】由题可得,,
由,
,
所以所求经验回归方程为.
故选:A.
【变式6.2】(24-25高二下·全国·课后作业)某地为响应“绿水青山”的号召,经过多年的环境治理,将荒山改造成了林区.为了解该林区某种树木的材积量与根部横截面面积之间的关系,随机选取了一定量的这种树木进行测量,得到每棵树的根部横截面面积x(单位:)和对应的平均材积量y(单位:)如下表所示,则y关于x的经验回归方程为_________.
根部横截面面积
0.04
0.05
0.06
0.07
0.08
材积量
0.25
0.34
0.40
0.46
0.50
附:经验回归方程,其中.
【答案】
【解题思路】由最小二乘法的计算公式即可求解.
【解答过程】由于,,
,
,所以,,
所以关于的经验回归方程为.
故答案为:.
【变式6.3】(24-25高三下·江苏常州·月考)随机抽取家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
则其经验回归方程__________.
(参考数据:,参考公式:;)
【答案】
【解题思路】根据条件,求得,,结合条件,求,即可求解.
【解答过程】易知,,又,
所以,
,则,
故答案为:.
【题型7 线性回归分析】
【例7】(24-25高二下·四川广元·期末)某机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x
4
6
8
10
识图能力y
3
5
7
8
由表中数据,求得经验回归方程为,若某儿童记忆能力为12,则他的识图能力的预测值为( ).
A.10 B.9.8 C.9.5 D.9.2
【答案】A
【解题思路】由表格中的数据求得样本中心,代数回归方程求得参数,从而可得答案.
【解答过程】由表格中的数据可得,,则样本中心为,
代入,则,解得,即,
将代入,可得.
故选:A.
【变式7.1】(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
【答案】D
【解题思路】由题意求得样本中心,从而求得回归直线方程,代入数据,可得答案.
【解答过程】依题意,.
又线性回归方程为必过点,所以,解得,
所以,2026年的年份代号为6,所以当时,,
所以根据回归方程预测该店2026年“五一”黄金周的销售额是111万元.
故选:D.
【变式7.2】(24-25高二下·山西长治·期中)网络时代,直播带货成为新的售货方式.某平台一网红月粉丝数量x(万人)与当月获得的利润y(万元)的数据如下表所示,已知y与x之间具有线性相关关系.
月份
1
2
3
4
5
粉丝数量万人
1.5
1.6
1.7
1.8
1.9
利润万元
1.6
2
2.4
2.5
3
(1)求y关于x的线性回归方程;
(2)若此网红每月增加粉丝1000人,根据(1)中所得的线性回归方程,预测本年最后一个月12月份可获得的利润.
参考公式:,.
【答案】(1)
(2)万元
【解题思路】(1)根据题意求出即可求解;
(2)根据题意先求最后一个12月粉丝数量,代入(1)回归方程即可求解.
【解答过程】(1)由题意有,
,
,
,
,,
所以,
(2)根据题意最后一个12月粉丝数量为,
所以(万元),
所以预测本年最后一个月12月份可获得的利润为万元.
【变式7.3】(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【答案】(1)拟合效果非常好,理由见解析
(2);
【解题思路】(1)首先根据表格里面的数据求出的平均值,然后根据根据相关系数公式求出相关系数.
(2)首先求出回归方程的表达式,然后将冷却速率值代入,求出金属的凝固点温度.
【解答过程】(1)易知,
因为,,
,
因为
所以该经验回归方程的拟合效果非常好.
(2)由(1)知,由,
因为,
所以,故所求的经验回归方程为.
当时,,
所以冷却速率为时,该金属的凝固点温度为.
【题型8 非线性回归分析】
【例8】(2025·广东梅州·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份
2018年
2019年
2020年
2021年
2022年
年份代码x
1
2
3
4
5
云计算市场规模y/千万元
7.4
11
20
36.6
66.7
2
2.4
3
3.6
4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
【答案】B
【解题思路】根据可得线性回归方程,再由回归方程求出2025年的预测值,代入即可得解.
【解答过程】因为,
所以,
即经验回归方程,
当时,,
所以,
即2025年该科技公司云计算市场规模y的估计值为,
故选:B.
【变式8.1】(2025高二·全国·专题练习)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【答案】B
【解题思路】先根据散点图确定函数图象的趋势,再结合5个函数图象,进行判断选择.
【解答过程】从散点图知,样本点分布在抛物线上或对数型曲线上,结合所给5个的曲线类型,所以或较适宜.
故选:B.
【变式8.2】(24-25高二下·四川广安·期中)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【答案】(1)选.
(2);690
【解题思路】(1)观察散点图,结合散点图的特征选择合适的回归方程类型.
(2)由,得.再根据所给数据,结合线性回归方程的有关计算公式,可求回归方程,再令求值即可.
【解答过程】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,
所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.
(2)因为表示活动推出的天数,,则.
.
因为,所以.
所以 ,所以.
又,所以.
所以.
当时,.
所以预测活动推出第8天售楼部来访的人次为690.
【变式8.3】(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【答案】(1)选择,回归方程为
(2)万
【解题思路】(1)根据散点图可作出判断,令,所以,利用最小二乘法求出、的值,即可得出回归方程;
(2)将代入回归方程,可得结果.
【解答过程】(1)由散点图可知,更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型.
因为,所以.
因为,,,,
所以,
所以,所以回归方程为.
所以每年月份来哈尔滨的游客数量关于年份代码的回归直线方程为.
(2)当时,,
所以预测年月份来哈尔滨的游客数量为万.
【题型9 线性回归与其他知识交汇】
【例9】(24-25高二下·江西·月考)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2024年中国出生人数y(单位:万人)与年份代码x的统计数据:
年份代码x
1
2
3
4
5
出生人数y
1200
1062
956
902
954
(1)根据上表数据求得y关于x的经验回归方程为,求x与y的相关系数r,并判断该经验回归方程是否有价值:(若,则认为经验回归方程有价值)
(2)从表中第2行的5个数据中任取3个数据,记取到大于1000的数据个数为X,求X的分布列与期望.
参考数据与公式:回归方程中,相关系数.
【答案】(1),有价值
(2)分布列见解析,
【解题思路】(1)根据题干中的条件和公式,将数值代入即可求得线性回归方程与相关系数./
(2)由表中第2行的5个数据中任取3个数据,且大于1000,故X的取值可为0,1,2,
根据离散型随机变量求出各个的概率,即可求出分布列和期望.
【解答过程】(1)由x的取值依次为1,2,3,4,5,得,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
(2)X的取值依次为0,1,2,
,
所以X的分布列为
X
0
1
2
P
所以.
【变式9.1】(2025·广东·一模)近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
【答案】(1),千辆;
(2)预计最多可调整人去其他部门.
【解题思路】(1)根据所给数据计算,即可得到关于的线性回归方程,由此可得结果.
(2)根据条件可得培训后能使用人工智能工具的人数,计算,根据宣传部门员工创造的年净利润不低于调整前可得结果.
【解答过程】(1)由题意得,
,
所以,,
所以关于的线性回归方程为,
由题意得,年月份的月份代码为,当时,,
所以估计该地区新能源汽车在年月份的销量为千辆.
(2)记事件为“员工经过培训后,能使用人工智能工具”,
则,
设宣传部门调至其他部门人数为,则参加培训的人数为,
设为培训后能使用人工智能工具的人数,
则,故,
调整后年净利润预计为:万元,
由题意得,
解得,
所以预计最多可调整人去其他部门.
【变式9.2】(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1)
(2)
【解题思路】(1)根据散点图确定模型,代入数据计算即可;
(2)设相应事件,可得相应概率,结合全概率公式计算概率运算求解;
【解答过程】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,
所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
【变式9.3】(24-25高二下·黑龙江大庆·期末)某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量(单位:箱)
7
6
6
5
6
收益(单位:元)
165
142
148
125
150
(1)求收益关于售出水量的回归直线,并计算每天售出8箱水时预计收益是多少元?
附:
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级前201~500名,获二等奖学金300元;考入年级501名以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.
①在学生甲获得奖学金的条件下,求他获得一等奖学金的概率;
②已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额的分布列及数学期望.
【答案】(1),186元.
(2)①;②分布列见解析,600元
【解题思路】(1)由题干所给数据及公式求出,,即可得到回归直线方程,再令计算可得;
(2)①根据条件概率公式计算可得;②依题意的取值可能为,求出所对应的概率,即可求出分布列与数学期望.
【解答过程】(1)依题意可得,
,
,
当时,(元),
即某天售出8箱水的预计收益是186元.
(2)①设事件为“学生甲获得奖学金”,事件为“学生甲获得一等奖学金”,
则,,
所以,
即学生甲获得奖学金的条件下,获得一等奖学金的概率为.
②依题意的取值可能为,
所以,
,
,
即的分布列为
0
300
500
600
800
1000
则的数学期望(元).
一、单选题
1.(24-25高二下·天津河东·阶段检测)已知两个具有线性相关关系的变量的一组数据,,…,,下列说法错误的是( )
A.相关系数越接近1,变量x,y相关性越强
B.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
C.决定系数越小,残差平方和越大,即模型的拟合效果越差
D.回归方程为时,变量x与y负线性相关
【答案】B
【解题思路】由线性回归方程的相关知识即可逐一判断求解.
【解答过程】对于A,相关系数越接近1,变量x,y相关性越强,故A正确;
对于B,回归直线方程拟合效果是由相关系数决定,故B错误;
对于C,决定系数越小,残差平方和越大,即模型的拟合效果越差,故C正确;
对于D,回归方程为时,变量x与y负线性相关,故D正确.
故选:B.
2.(24-25高二下·甘肃定西·期末)根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【答案】B
【解题思路】根据线性回归直线经过样本中心点,求的值.
【解答过程】由题意:,.
因为一元线性回归直线经过点,
可得: .
故选:B.
3.(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【解题思路】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
【解答过程】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C.
4.(24-25高二下·广东深圳·期末)某智能机器人公司从某年起7年的利润情况如下表所示,y关于x的回归直线方程是,则该智能机器人公司第4年利润的残差是( )
第x年
1
2
3
4
5
6
7
利润y/亿元
m
A.亿元 B.亿元 C.亿元 D.亿元
【答案】A
【解题思路】计算出,根据回归方程,得到,从而得到方程,求出,再计算出当时,,求出残差.
【解答过程】由题意,,关于的回归直线方程为,
所以,故,解得,
所以当时,,则.
故选:A.
5.(24-25高二下·广西桂林·开学考试)某产品在去年6月至10月的销量(单位:万件)如下表所示:
月份
6
7
8
9
10
销量
1.1
1.3
1.9
2.2
2.5
若与线性相关,且线性回归方程为,则( )
A.样本的相关系数为负数
B.
C.
D.当时,销量为3.28万件
【答案】B
【解题思路】根据表格数据的关系,可判断两变量呈正相关,从而判断A项;根据回归直线经过数据样本中心点,可判断BC项;将代入回归直线方程,可求得销量预测值,可判断D项.
【解答过程】对于A,根据表格数据知,销量随月份的增大而增大,所以两个变量呈正相关,相关系数为正数,故A错误;
对于B,C,根据题表数据,可得,,
所以样本中心为,将样本中心代入线性回归方程得,解得,
所以线性回归方程为,故B正确,C错误;
对于D,当时,得,所以预测销量约为3.28万件,所得数据为销量的预测值,并非实际销量,故D错误.
故选:B.
6.(24-25高二下·广东中山·月考)已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:若y关于t的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
年份
2020
2021
2022
2023
2024
年份代号t
1
2
3
4
5
成交额y(万元)
50
60
70
80
100
A.84万元 B.96万元 C.108万元 D.120万元
【答案】C
【解题思路】根据线性回归直线过样本中心点这一性质进行求解即可.
【解答过程】依题意,
又线性回归方程为必过点,
所以,解得,所以,
2025年的年份代号为6,所以当时,,
所以根据回归方程预测该店2025年“五一”黄金周的成交额是108万元.
故选:C.
7.(24-25高二下·山东济宁·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
【答案】A
【解题思路】先根据原经验回归方程和求出原样本数据的,再计算去除两个样本点后的和,最后根据经验回归方程的性质求出新的经验回归方程.
【解答过程】因为经验回归方程为,,
所以.
原样本有10个数据点,,
则.
去除两个样本点后,样本有8个数据点,且,
所以新样本的
因为新的经验回归直线的斜率不变,则设新的经验回归方程为,
将代入方程得,
所以新的经验回归方程为.
故选:A.
8.(24-25高二下·四川绵阳·期末)已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
【答案】C
【解题思路】利用样本中心在回归直线上求参数判断A;根据回归直线一次项系数判断B;计算残差判断C;由回归直线的实际意义判断D.
【解答过程】由题设,所以,可得,故A错误;
所以,又,即与正相关,则样本相关系数,故B错误;
由时,,残差为,故C正确;
由回归方程说明随变化值的变化趋势,不能说变量每增加一个单位,的值一定增加个单位,故D错误.
故选:C.
二、多选题
9.(24-25高二下·山东泰安·期末)下列说法中正确的是( )
A.如果由一组样本数据,,…得到的经验回归方程是,那么经验回归直线至少经过点,,…中的一个
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和0.3
【答案】BCD
【解题思路】ABC选项,根据线性回归方程,回归分析中决定系数,残差图的相关概念对选项一一判断;D选项,变形后对照系数,得到,,所以c,k的值分别是和0.3,D正确.
【解答过程】A选项,可能不经过点,,…中的任何一个,A错误;
B选项,回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,B正确;
C选项,残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,
说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高,C正确;
D选项,中,两边取对数,设,得,所以,,
所以c,k的值分别是和0.3,D正确.
故选:BCD.
10.(24-25高二下·江苏无锡·阶段检测)市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
按公式计算,y与x的回归直线方程是:,相关系数,则下列说法正确的是( )
A. B.变量x,y线性负相关且相关性较强
C.相应于点的残差约为 D.当时,y的估计值为14.4
【答案】BD
【解题思路】A选项,计算出样本中心点,代入回归直线方程得;B选项,随着的增大而减小,又,B正确;C选项,当时,,从而计算出残差约为0.4;D选项,代入,得到答案.
【解答过程】A选项,,,
将代入回归直线方程得,,解得,A错误;
B选项,从表可以看出,随着的增大而减小,又,接近于1,
所以变量x,y线性负相关且相关性较强,B正确;
C选项,回归直线方程为,当时,,
,故相应于点的残差约为0.4,C错误;
D选项,当时,y的估计值为,D正确.
故选:BD.
11.(25-26高三上·福建福州·月考)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
【答案】AB
【解题思路】根据经验回归方程的性质,结合已知条件逐一分析各选项,对相关性、相关系数、残差等进行判断.
【解答过程】经验回归方程为,斜率为,函数单调递增,
y随着x的增大而增大,即y与x正相关,故A正确;
样本中心点必在回归线方程上,
,将代入回归方程,得,解得,
,解得,故B正确;
当时,预测值,实际值为,
残差,故C错误;
经验回归方程为,斜率为,
样本的相关系数,故D错误.
故选:AB.
三、填空题
12.(24-25高二下·新疆乌鲁木齐·期末)某饮料店的日盈利(单位:百元)与当天平均气温(单位:℃)之间有如下数据:
x/℃
0
1
2
y/百元
5
4
2
2
1
由表中数据可得回归方程中.试预测当天平均气温为℃时,饮料店的日盈利约为_________百元.
【答案】
【解题思路】求出样本中心点,代入得到值,再令即得.
【解答过程】由已知数据
因为,则,代入,则,
则,
令,则.
故答案为:.
13.(2025·江西新余·模拟预测)某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
研发费用x
3.4
4.7
5
5.6
6.3
销售量y
15
16.9
19.2
18
20.9
根据表中数据可得经验回归方程为,则第三个样本点对应的残差为____________.
【答案】1.2
【解题思路】由表格中的数据,根据平均数求得样本中心,代入回归方程可得参数的值,代入第三个样本点的值,集合残差的定义,可得答案.
【解答过程】由已知,得,,
所以,于是,
当时,,
因此,第三个样本点对应的残差为.
故答案为:.
14.(24-25高二下·山东青岛·期末)新冠肺炎疫情,是新中国成立以来在我国发生的传播速度最快、感染范围最广防控难度最大的一次重大突发公共卫生事件中华民族历史上经历过很多磨难,但从来没有被压垮过,而是愈挫愈勇,不断在磨难中成长,从磨难中奋起在这次疫情中,全国人民展现出既有责任担当之勇、又有科学防控之智,某市某校学生也运用数学知识展开了对这次疫情的研究,一名同学在疫情初期数据统计中发现,从2020年2月1日至2月7日期间,日期x和全国累计报告确诊病例数量y(单位:万人)之间的关系如下表:
日期x
1
2
3
4
5
6
7
确诊病例数量y(万人)
1.4
1.7
2.0
2.4
2.8
3.1
3.5
根据表中的数据,适宜作为确诊病例数量关于日期的回归方程类型,则此线性回归方程___________.(精确到0.01)
参考数据:①;②.其中,.
参考公式:对于一组数据,,…,其回归方程中斜率和截距的最小二乘估计公式分别为:①,②.
【答案】
【解题思路】利用给定的已知数据,结合公式即可求解.
【解答过程】由题意得:,,
根据公式得:,
再由,
则此线性回归方程为,
故答案为:.
四、解答题
15.(24-25高二下·江西·期末)某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:
营业时间
1
2
3
4
5
饮品销量
17
36
56
77
99
已知与线性相关.
(1)根据以上数据求饮品销量关于营业时间的回归直线方程;
(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?
参考公式:回归直线方程中,,.
【答案】(1)
(2)能,理由见详解
【解题思路】(1)根据回归方程相关参数的计算公式计算即可;
(2)根据(1)中的回归方程,先估计销量即可判断总利润是否超过1000元.
【解答过程】(1)根据题意,,
,,
,
,
所以回归直线方程为.
(2)由(1)知,回归方程为,
早上9点开始营业,晚上9点结束营业,共营业12小时,
所以估计共销售杯,盈利元,
所以试预测当日饮品的总利润能超过1000元.
16.(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【解题思路】(1)利用函数①②③的性质及表中的数据,即可求解;
(2)先将非线性回归方程转化成线性回归方程,再根据题设条件,利用最小二乘法,即可求解.
【解答过程】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
17.(24-25高二下·新疆喀什·期末)随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升,小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:
附:回归直线中.
【答案】(1)
(2)0.7
【解题思路】(1)由数据求得回归方程系数,即可求解;
(2)由全概率公式即可求解.
【解答过程】(1),,
由参考数据
所以
故广告费投入y关于年销售量x的回归方程为.
(2)设“在甲汽车店购买汽车”,“在乙汽车店购买汽车”,
“购买的是新能源汽车”,
,,,
由全概率公式得,.
18.(24-25高二下·河北唐山·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
【答案】(1)变量与的线性相关程度很强
(2),38.5百亿元
【解题思路】(1)求出,,从而代入公式计算出,得到结论;
(2)代入公式求出y关于x的经验回归方程为,代入,预测2027年该网站“双11”当天的交易额.
【解答过程】(1)由题意,根据表格中的数据,
可得,,
则,
,
,
故,
所以,
非常接近,说明变量与的线性相关程度很强.
(2)由(1)可得,
所以,
则.
可得关于的经验回归方程为,
令,可得,
所以预测2027年该网站“双11”当天的交易额为38.5百亿元.
19.(24-25高二下·江苏南京·期末)“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
【答案】(1),186
(2)分布列见解析,600
【解题思路】(1)求出、,从而求出回归方程,将代入求出即可;
(2)计算对应的概率的值,求出其分布列和期望值即可.
【解答过程】(1),
,
,
当时,(元),
即某天售出8箱水的预计收益是186元.
(2)X的取值可能为0,300,500,600,800,1000,
,,
,,
,,
即X的分布列为
X
0
300
500
600
800
1000
P
X的数学期望
(元).
第 1 页 共 23 页
学科网(北京)股份有限公司
$