内容正文:
第14讲 回归分析
【人教A版2019】
模块一
一元线性回归模型
1.回归分析
对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,回归分析就是寻找相关关系中这种非确定关系的某种确定性.
2.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【题型1 解释回归直线方程的意义】
【例1.1】(23-24高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数的绝对值越接近0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点一定在经验回归直线上
D.若经验回归方程为,则每增加1个单位,的值就增加10个单位
【例1.2】(23-24高二下·河北张家口·阶段练习)某学生在研究性学习中,收集到某品牌汽车今年前5个月的销售量(单位:万辆)的数据如下表所示,若x,y线性相关,线性回归方程为,则以下判断正确的是( )
x(月份)
1
2
3
4
5
y(万辆)
5
6
7
8
10
A.x增加1个单位长度,则y一定增加1.2个单位长度
B.x减少1个单位长度,则y必减少1.2个单位长度
C.当时,y的预测值为10.8万辆
D.线性回归直线经过点
【变式1.1】(23-24高二下·河南南阳·开学考试)在线性回归方程中,为回归系数,下列关于的说法中不正确的是( )
A.为回归直线的斜率
B.,表示随增加,值增加,,表示随增加,值减少
C.是唯一确定的值
D.回归系数的统计意义是当每增加(或减少)一个单位,平均改变个单位
【变式1.2】(24-25高二下·河南南阳·阶段练习)相关变量的样本数据如下表,
x
1
2
3
4
5
6
7
y
2.9
3.3
3.6
4.4
4.8
a
5.9
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.x增加1时,y一定增加2.3 B.变量x与y负相关
C.当y为6.3时,x一定是8 D.a=5.2
【题型2 由散点图画求近似回归直线】
【例2.1】(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【例2.2】(23-24高二下·河南驻马店·阶段练习)有以下几组的统计数据:要使剩下的数据具有较强的相关关系,应去掉的一组数据是( )
A. B. C. D.
【变式2.1】(23-24高二下·河南信阳·期末)如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【变式2.2】(24-25高二下·河南·阶段练习)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
模块二
一元线性回归模型参数的最小二乘估计
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为,由
(i=1,2,,n),得,显然越小,表示样本数据点离直线y=bx+a
的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回
归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最
小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点.
2.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
3.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【题型3 残差的计算】
【例3.1】(24-25高二下·全国·课后作业)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【例3.2】(23-24高二下·河南濮阳·期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第天的高度为,测得一些数据如下表所示
第天
1
2
3
4
5
6
7
高度
1
4
6
9
11
12
13
由表格数据可得到关于的经验回归方程为,则第6天的残差为( )
A. B.2.12 C. D.0.08
【变式3.1】(23-24高二下·河南郑州·期末)已知由样本数据组成一个样本,可得到回归直线方程为,且,则样本点的残差为( )
A.0.3 B.-0.3 C.1.3 D.-1.3
【变式3.2】(2025·山东烟台·一模)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
【题型4 刻画回归效果的方式】
【例4.1】(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【例4.2】(24-25高三上·四川绵阳·阶段练习)由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
【变式4.1】(24-25高二下·全国·课后作业)关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数r越大,线性相关程度越强;
③决定系数越接近1拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【变式4.2】(23-24高二下·广西·期末)下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
【题型5 回归直线方程的计算】
【例5.1】(24-25高二下·江西赣州·期中)已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程,中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【例5.2】(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【变式5.1】(23-24高二下·广东广州·期末)为了预测某地的经济增长情况,某经济学专家根据该地2023年1~6月的GDP的数据(单位:百亿元)建立了线性回归模型,得到的经验回归方程为,其中自变量指的是月的编号,其中部分数据如表所示:
时间
1月
2月
3月
4月
5月
6月
编号
1
2
3
4
5
6
百亿元
11.1
参考数据:.则下列说法不正确的是( )
A.经验回归直线经过点
B.
C.根据该模型,该地2023年12月的GDP的预测值为14.4百亿元
D.相应于点的残差为0.1
【变式5.2】(24-25高二·全国·单元测试)某种细胞的存活率y(%)与存放温度x(℃)之间具有线性相关关系,其样本数据如下表所示:
存放温度x/℃
20
15
10
5
0
−5
−10
存活率y/%
6
14
26
33
43
60
63
计算得,,,,并求得经验回归方程为,但实验人员发现表中数据的对应值60录入有误,更正为.则更正后的经验回归方程为( )
A. B. C. D.
【题型6 线性回归分析】
【例6.1】(24-25高二下·江苏镇江·期中)根据统计,某蔬菜基地西红柿亩产量的增加量(单位:百千克)与某种液体肥料每亩使用量(单位:千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数,并说明线性相关性的强弱(相关系数精确到小数点后2位,若,则线性相关程度很高);
(2)求关于的线性回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少百千克.
附:数据和公式:;回归方程:,其中.相关系数:.
【例6.2】(24-25高二下·辽宁本溪·阶段练习)下表为2018年~2024年某公司年利润(单位:亿元)的统计表,其中2018年~2024年对应的年份代码依次为1~7.
年份代码
1
2
3
4
5
6
7
年利润
2.2
2.5
2.9
3.6
4.1
4.6
5.3
(1)由上表数据,是否可用线性回归模型拟合与之间的关系?请用相关系数加以说明;
(2)求关于的线性回归方程.
参考数据:,,,.
参考公式:相关系数,若,则与的线性相关程度高;
对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【变式6.1】(24-25高三下·重庆·阶段练习)自2016年1月1日起,我国全面二孩政策正式实施,这次人口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了200户有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
(1)请用相关系数说明该组数据中变量与之间的关系可以用线性回归模型拟合,并求关于的线性回归方程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,现从这5个成对数据中任取3个做残差分析,求取到的数据中“次数据”个数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
【变式6.2】(2025·甘肃平凉·模拟预测)高血脂症是指脂肪代谢或者运转异常使人体血液中的血脂含量超过正常范围,表现为血中胆固醇或甘油三酯过高或高密度脂蛋白过低,现代医学称“血脂异常”.高血脂症是常见病、多发病,更是导致心脑血管疾病的元凶.最新的调查显示,中国成人高血脂的患病率为41.1%,大概每五位成人中就有两位是高血脂患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血脂水平下降,高血脂发病率降低,控制高血脂的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动起5个季度社区高血脂患者的血脂情况统计.
季度
1
2
3
4
5
血脂明显降低(或治愈)人数/人
100
150
210
270
320
已知血脂明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,试求出与的经验回归方程,并预测第6季度血脂明显降低(或治愈)者大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组去参加徒步走比赛.若比赛分为初赛和决赛,其中初赛有两轮,只有两轮都获胜才能进入决赛.已知甲组在每轮比赛中获胜的概率均为;乙组在第一轮和第二轮比赛中获胜的概率分别为和;丙组在第一轮和第二轮获胜的概率分别为和.设进入决赛的组数为,求的分布列与数学期望.
附:经验回归方程中斜率和截距的最小二乘估计公式分别为:,
【题型7 非线性回归分析】
【例7.1】(23-24高二下·山西·期中)某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:
选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:
31.5
15
15
49.5
(1)求出与的回归方程;
(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.
【例7.2】(2023·河北承德·模拟预测)某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度()与灭死率的数据,得下表:
浓度()
灭死率
0.1
0.24
0.46
0.76
0.94
(1)以为解释变量,为响应变量,在和中选一个作为灭死率关于浓度()的经验回归方程,不用说明理由;
(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;
(ii)依据(i)中所求经验回归方程,要使灭死率不低于,估计该灭草剂的浓度至少要达到多少?
参考公式:对于一组数据,,,,其经验回归直线的斜率和截距的最小二乘法估计分别为,.
【变式7.1】(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【变式7.2】(2024·浙江台州·二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
一、单选题
1.(24-25高二下·河南·阶段练习)已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为,则的值为( )
2
4
6
8
10
6
5
4
3
2
A. B. C. D.
2.(24-25高二下·辽宁抚顺·开学考试)观测两相关变量得如下数据:则两变量间的回归直线方程为( ).
X
Y
A. B.
C. D.
3.(2025·河北沧州·一模)若变量y与x之间存在线性相关关系,且根据最小二乘法得到的经验回归方程为,样本点中心为,则样本点的残差为( )
A. B.1.5 C.0.5 D.
4.(24-25高二下·河南驻马店·阶段练习)某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
5.(24-25高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为( )
A.9.6 B.10 C.10.6 D.9.4
6.(2025高二下·全国·专题练习)由一组样本数据,利用最小二乘法得到两个变量的回归直线方程为,记,,则下面说法不正确的是( )
A.直线至少经过点中的一个点
B.直线必经过点
C.样本相关系数与回归系数同号
D.对样本相关系数,越大,两个变量之间的线性相关性越强
7.(2025·江西九江·二模)植物的根是吸收水分和矿物养分的主要器官.已知在一定范围内,小麦对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽小麦实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:)与氮元素吸收量(单位:天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及线性回归方程为,则( )
A.
B.变量与的相关系数
C.在一定范围内,小麦的根长度每增加,它一天的氮元素吸收量平均增加
D.若对小麦的根长度与钾元素吸收量的相关数据进行统计,则对应回归方程不变
8.(24-25高二下·全国·课后作业)已知与之间的几组数据如表:
1
2
3
4
5
6
0
2
1
3
3
4
假设根据上表数据所得回归直线方程为 .若某同学根据上表中的前两组数据和求得的回归直线方程为,则以下结论正确的是( )
A., B., C., D.,
二、多选题
9.(24-25高二下·江苏镇江·期中)下列有关线性回归分析的问题中,正确的是( )
A.回归直线至少经过点、、、、中的一个点
B.若线性回归方程为,则当变量增加个单位时,平均增加个单位
C.两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于
D.对具有线性相关关系的变量、,其线性回归方程为,若样本点的中心为,则实数的值是
10.(2024·四川绵阳·模拟预测)某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
2
3
4
5
6
销售额(万元)
19
25
34
38
44
根据上表可得回归直线方程为,下列说法正确的是 ( )
A.回归直线必经过样本点
B.这组数据的样本中心点未必在回归直线上
C.回归系数的含义是广告费用每增加万元,销售额估计约增加万元
D.据此模型预报广告费用为万元时销售额为万元
11.(24-25高二下·江苏南京·开学考试)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:关于的回归直线方程中,
A.
B.由散点图知变量和负相关
C.相关系数
D.用最小二乘法求得关于的线性回归直线方程为
三、填空题
12.(24-25高二下·陕西汉中·阶段练习)如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 .
3
5
7
9
2.5
4
6.5
13.(24-25高二下·全国·课后作业)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 .
广告支出费用/万元
1
3
4
6
11
销售量万件
1.9
3.2
4.4
6.3
12.7
14.(23-24高二下·福建宁德·阶段练习)商家项目投资的利润产生是一个复杂的系统结果.它与项目落地国的商业环境,政府执政能力,法律生态等都有重大的关联.如表所示是某项目在中国和南亚某国投资额和相应利润的统计表.
项目落地国
中国
南亚某国
投资额x(亿元)
10
11
12
13
14
10
11
12
13
14
利润y(亿元)
11
12
14
16
19
12
13
13
14
15
请选择平均利润较高的落地国,用最小二乘法求出回归直线方程为 .
参考数据和公式:,中国,南亚某国,,.
四、解答题
15.(24-25高二下·河南南阳·期中)某人工智能公司从2018至2024年的利润情况如下表所示:
年份
2018
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
7
利润y(单位:亿元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)根据表中的数据,推断变量y与x之间是否线性相关.计算y与x之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出y关于x的经验回归方程,并预测该人工智能公司2025年的利润;
参考数据:
参考公式:对于一组数据,①相关系数为:;
②经验回归直线x的斜率和截距的最小二乘估计公式分别,
16.(24-25高二下·河北衡水·阶段练习)随机选取变量和变量的5对观测数据,选取的第对观测数据记为,其数值对应如下表所示:
编号i
1
2
3
4
5
9
8
7
6
5
75
95
110
135
150
参考数据:,,.
假设变量关于的一元线性回归模型为.
(1)求关于的经验回归方程;
(2)设为时该回归模型的残差,求、、、、的方差.
参考公式:,
17.(24-25高二下·江西·阶段练习)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2024年中国出生人数y(单位:万人)与年份代码x的统计数据:
年份代码x
1
2
3
4
5
出生人数y
1200
1062
956
902
954
(1)根据上表数据求得y关于x的经验回归方程为,求x与y的相关系数r,并判断该经验回归方程是否有价值:(若,则认为经验回归方程有价值)
(2)从表中第2行的5个数据中任取3个数据,记取到大于1000的数据个数为X,求X的分布列与期望.
参考数据与公式:回归方程中,相关系数.
18.(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
19.(24-25高二下·广西柳州·期中)近期根据中国消费者信息研究报告显示,超过40%的消费者更加频繁地使用网上购物,某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和时间第x天间的数据,列表如下:
x
1
2
3
4
5
y
75
84
93
98
100
(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和时间第x天之间的关系?若可用,求出y关于x的经验回归方程,并估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若相关系数,则线性相关程度很高,可以用线性回归模型拟合,r精确到0.01);
(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
参考数据:.,,
附:相关系数,,
第 1 页 共 28 页
学科网(北京)股份有限公司
$$
第14讲 回归分析
【人教A版2019】
模块一
一元线性回归模型
1.回归分析
对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,回归分析就是寻找相关关系中这种非确定关系的某种确定性.
2.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【题型1 解释回归直线方程的意义】
【例1.1】(23-24高二下·海南·期末)以下关于一元线性回归模型的说法中,错误的是( )
A.相关系数的绝对值越接近0,则两个变量的线性相关程度越弱
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好
C.点一定在经验回归直线上
D.若经验回归方程为,则每增加1个单位,的值就增加10个单位
【解题思路】由相关系数的定义求解选项A.由残差图的含义求解选项B.由线性回归方程的性质知点一定在经验回归直线上求解选项C.由经验回归方程的性质和意义求解选项D.
【解答过程】选项A:由相关系数的绝对值越接近0,则两个变量的线性相关程度越弱,可知选项A正确;
选项B:由在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合效果越好可知选项B正确;
选项C:由点一定在经验回归直线上知选项C正确;
选项D:由回归方程的性质可知;若经验回归方程为,则每增加1个单位,的值就平均增加3个单位,可知D选项C错误.
故选:D.
【例1.2】(23-24高二下·河北张家口·阶段练习)某学生在研究性学习中,收集到某品牌汽车今年前5个月的销售量(单位:万辆)的数据如下表所示,若x,y线性相关,线性回归方程为,则以下判断正确的是( )
x(月份)
1
2
3
4
5
y(万辆)
5
6
7
8
10
A.x增加1个单位长度,则y一定增加1.2个单位长度
B.x减少1个单位长度,则y必减少1.2个单位长度
C.当时,y的预测值为10.8万辆
D.线性回归直线经过点
【解题思路】首先求得平均数,代入求得回归直线方程,再对选项再对选项逐一判断,即可得出结果.
【解答过程】,,
代入线性回归方程中得,所以,
故线性回归方程为,
对于A:回归直线方程是点分布在直线附近或在直线上,x增加1个单位长度,
则y可能增加1.2个单位长度,A错误;
对于B:回归直线方程是点分布在直线附近或在直线上,x减少1个单位长度,
则y可能减少1.2个单位长度,B错误;
对于C:当时,,故C正确;
对于D:线性回归直线必经过点,故D错误.
故选:C.
【变式1.1】(23-24高二下·河南南阳·开学考试)在线性回归方程中,为回归系数,下列关于的说法中不正确的是( )
A.为回归直线的斜率
B.,表示随增加,值增加,,表示随增加,值减少
C.是唯一确定的值
D.回归系数的统计意义是当每增加(或减少)一个单位,平均改变个单位
【解题思路】利用回归直线方程的特点逐项判断即得.
【解答过程】对于A,线性回归方程中的为回归直线的斜率,A正确;
对于B,,表示随增加,值增加,,表示随增加,值减少,B正确;
对于C,是由总体的一个样本利用一定的方法计算得到的,选择不同的样本
或不同的计算方法得到的一般是不同的,C错误;
对于D,回归系数的统计意义是当每增加(或减少)一个单位,平均改变个单位,D正确.
故选:C.
【变式1.2】(24-25高二下·河南南阳·阶段练习)相关变量的样本数据如下表,
x
1
2
3
4
5
6
7
y
2.9
3.3
3.6
4.4
4.8
a
5.9
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.x增加1时,y一定增加2.3 B.变量x与y负相关
C.当y为6.3时,x一定是8 D.a=5.2
【解题思路】根据回归直线方程的几何意义判断A、B错误;令求解判断C,计算并代入回归直线方程中,求得a的值,判断D正确.
【解答过程】根据回归直线方程知,x增加1时,估计y增加,故A错误;
由知,,故变量x与y正相关,故B错误;
时,,解得,估计的值应为8,故C错误;
又,,
代入回归直线方程中,则,解得,故D正确.
故选:D.
【题型2 由散点图画求近似回归直线】
【例2.1】(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【解题思路】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【解答过程】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
【例2.2】(23-24高二下·河南驻马店·阶段练习)有以下几组的统计数据:要使剩下的数据具有较强的相关关系,应去掉的一组数据是( )
A. B. C. D.
【解题思路】在坐标系中画出五个点,结果除去之外,其余的点都在一条线附近,去掉这个点以后剩下的数据更具有相关关系.
【解答过程】,在坐标系中画出五个点,
结果除去之外,其余的点都在一条线附近,
去掉这个点以后剩下的数据更具有相关关系,
故选:C.
【变式2.1】(23-24高二下·河南信阳·期末)如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【解题思路】根据散点图与给所函数的图象的偏离情况,即可求解.
【解答过程】由散点图可知,y与x负相关,故排除A,B,对于D:,点偏离较大,而点近似在曲线附近,所以 y关于x的回归方程是C的可能性大.
故选:C.
【变式2.2】(24-25高二下·河南·阶段练习)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【解题思路】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【解答过程】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:.
故选:B.
模块二
一元线性回归模型参数的最小二乘估计
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为,由
(i=1,2,,n),得,显然越小,表示样本数据点离直线y=bx+a
的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回
归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最
小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点.
2.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
3.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【题型3 残差的计算】
【例3.1】(24-25高二下·全国·课后作业)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【解题思路】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由残差定义可得结果.
【解答过程】,增加两个样本点后的平均数为;
,,增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的残差为.
故选:D.
【例3.2】(23-24高二下·河南濮阳·期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第天的高度为,测得一些数据如下表所示
第天
1
2
3
4
5
6
7
高度
1
4
6
9
11
12
13
由表格数据可得到关于的经验回归方程为,则第6天的残差为( )
A. B.2.12 C. D.0.08
【解题思路】根据样本中心得回归直线方程,由残差的计算即可求解.
【解答过程】
根据线性经验回归方程过样本中心,故有,则有,
此时,当时,,残差,
故选:A.
【变式3.1】(23-24高二下·河南郑州·期末)已知由样本数据组成一个样本,可得到回归直线方程为,且,则样本点的残差为( )
A.0.3 B.-0.3 C.1.3 D.-1.3
【解题思路】先将中心代入回归方程求出,将代入回归方程求得,结合残差的定义即可求解.
【解答过程】由题意知,将点代入,
得,所以,
将代入,解得,
所以样本点的残差为.
故选:A.
【变式3.2】(2025·山东烟台·一模)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
【解题思路】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线,估计的对应值,最后由残差的定义求解.
【解答过程】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以,有,故残差的绝对值为.
故选:A.
【题型4 刻画回归效果的方式】
【例4.1】(24-25高二上·黑龙江哈尔滨·期末)某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【解题思路】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
【解答过程】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C.
【例4.2】(24-25高三上·四川绵阳·阶段练习)由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
【解题思路】根据相关系数的含义可判断AB;根据回归直线的含义可判断CD;
【解答过程】对于A,若相关系数越小,则两组变量的相关性越弱,A错误;
对于B,若越大,则两组变量的相关性越强,是回归直线的斜率,
它不反应两变量的相关性强弱,B错误;
对于C,经验回归方程不一定经过样本数据中的一个,C错误;
对于D,在经验回归方程中,当解释变量x每增加1个单位时,
若,相应的观测值y约增加个单位;若,相应的观测值y约增加个单位;
故当解释变量x每增加1个单位时,相应的观测值y约增加个单位,正确,
故选:D.
【变式4.1】(24-25高二下·全国·课后作业)关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数r越大,线性相关程度越强;
③决定系数越接近1拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【解题思路】根据回归直线方程的性质,相关系数、决定系数及随机误差平方和的意义判断各项的正误即可.
【解答过程】对于①,回归直线一定经过样本点的中心,故①正确;
对于②,相关系数r的绝对值越接近于1,线性相关性越强,故②错误;
对于③,决定系数R越接近1拟合效果越好,故③正确;
对于④,随机误差平方和越小,拟合效果越好,故④正确.
故选:C.
【变式4.2】(23-24高二下·广西·期末)下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
【解题思路】根据线性回归方程和相关系数及残差分析即可判断正误.
【解答过程】线性回归方程可以不经过任何一个样本点,①错,
值越大则两个变量的相关程度越强,②错,
决定系数越大,模型拟合效果越好,③对,
残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,④对.
故选:B.
【题型5 回归直线方程的计算】
【例5.1】(24-25高二下·江西赣州·期中)已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程,中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【解题思路】根据已知数据求,代入回归直线方程即可求解.
【解答过程】由题意得.
,,
所以,
故线性回归方程为.
故选:D.
【例5.2】(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【解题思路】根据公式可求得结果.
【解答过程】由题可得,,
由,
,
所以所求经验回归方程为.
故选:A.
【变式5.1】(23-24高二下·广东广州·期末)为了预测某地的经济增长情况,某经济学专家根据该地2023年1~6月的GDP的数据(单位:百亿元)建立了线性回归模型,得到的经验回归方程为,其中自变量指的是月的编号,其中部分数据如表所示:
时间
1月
2月
3月
4月
5月
6月
编号
1
2
3
4
5
6
百亿元
11.1
参考数据:.则下列说法不正确的是( )
A.经验回归直线经过点
B.
C.根据该模型,该地2023年12月的GDP的预测值为14.4百亿元
D.相应于点的残差为0.1
【解题思路】求得数据的样本中心点,即可判断A;结合回归直线方程求出可判断B;将代入回归直线方程求得预测值,可判断C;根据残差的定义计算可判断D.
【解答过程】选项A:由题意得:,
因为,,所以,得,
因此该经验回归直线经过样本点的中心,故A正确;
选项B:由A知,,得,故B正确;
选项C:由B得,则当时,,
故该地2023年12月的GDP的预测值为百亿元,故C正确;
选项D:当时,,
相应于点的残差为,故D错误,
故选:D.
【变式5.2】(24-25高二·全国·单元测试)某种细胞的存活率y(%)与存放温度x(℃)之间具有线性相关关系,其样本数据如下表所示:
存放温度x/℃
20
15
10
5
0
−5
−10
存活率y/%
6
14
26
33
43
60
63
计算得,,,,并求得经验回归方程为,但实验人员发现表中数据的对应值60录入有误,更正为.则更正后的经验回归方程为( )
A. B. C. D.
【解题思路】根据给定信息,求出更正后的和,再利用最小二乘法计算作答.
【解答过程】依题意,设更正后的经验回归方程为,更正后,,
,, ,
,所以更正后的经验回归方程为.
故选:A.
【题型6 线性回归分析】
【例6.1】(24-25高二下·江苏镇江·期中)根据统计,某蔬菜基地西红柿亩产量的增加量(单位:百千克)与某种液体肥料每亩使用量(单位:千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数,并说明线性相关性的强弱(相关系数精确到小数点后2位,若,则线性相关程度很高);
(2)求关于的线性回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少百千克.
附:数据和公式:;回归方程:,其中.相关系数:.
【解题思路】(1)根据题意,结合相关系数的公式,求得,即可得到结论;
(2)根据最小二乘法的公式,求得,得出的值,求得回归方程,令,求得的值,即可得到预测值.
【解答过程】(1)根据题意,可得,
且,
,
,
可得,
因为时线性相关程度很高,所以与线性相关性很强.
(2)由,则,
所以线性回归方程为,
当时,,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为6.1百千克.
【例6.2】(24-25高二下·辽宁本溪·阶段练习)下表为2018年~2024年某公司年利润(单位:亿元)的统计表,其中2018年~2024年对应的年份代码依次为1~7.
年份代码
1
2
3
4
5
6
7
年利润
2.2
2.5
2.9
3.6
4.1
4.6
5.3
(1)由上表数据,是否可用线性回归模型拟合与之间的关系?请用相关系数加以说明;
(2)求关于的线性回归方程.
参考数据:,,,.
参考公式:相关系数,若,则与的线性相关程度高;
对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解题思路】(1)根据给定的数据,利用相关系数公式求出相关系数,即可判断.
(2)根据给定的数据,利用最小二乘法公式求出回归直线方程.
【解答过程】(1)依题意,,,
则相关系数
,与的线性相关程度高,
所以可用线性回归模型拟合与之间的关系.
(2)依题意,,
由(1)得,,
所以关于的线性回归方程为.
【变式6.1】(24-25高三下·重庆·阶段练习)自2016年1月1日起,我国全面二孩政策正式实施,这次人口与生育政策的历史性调整,使得“要不要再生一个”,“生二孩能休多久产假”等问题成为千千万万个家庭在生育决策上避不开的话题.为了解针对产假的不同安排方案形成的生育意愿,某调查机构随机抽取了200户有生育二胎能力的适龄家庭进行问卷调查,得到如下数据:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
(1)请用相关系数说明该组数据中变量与之间的关系可以用线性回归模型拟合,并求关于的线性回归方程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,现从这5个成对数据中任取3个做残差分析,求取到的数据中“次数据”个数的分布列和数学期望.
附:①样本相关系数,当时,相关性较强,当时,相关性一般;
②经验回归方程中斜率和截距的最小二乘估计公式分别为,;
③,,.
【解题思路】(1)由已知求出,,再公式求出,即可说明相关性很强,因此变量与之间的关系可以用线性回归模型拟合;利用公式求出,即可得到关于的线性回归方程;
(2)由回归方程求出预测值,可得残差的绝对值,判断是否为“次数据”,可得“次数据”和非“次数据”个数,“次数据”个数为,求出对应概率,即可列出分布列求出数学期望.
【解答过程】(1)由已知,,
,
,
则
,
因为,说明相关性很强,因此变量与之间的关系可以用线性回归模型拟合.
因为,
,
所以关于的线性回归方程为.
(2)由(1)回归方程为,样本数据的残差的绝对值大于1时,称该对数据为一个“次数据”,
则由题意,列出下表:
产假安排(单位:周)
14
15
16
17
18
有生育意愿家庭数(单位:户)
4
8
16
20
26
预测值
3.6
9.2
14.8
20.4
26
残差的绝对值
0.4
1.2
1.2
0.4
0
是否为“次数据”
否
是
是
否
否
则“次数据”共有2个,非“次数据”共有3个,
从这5个数据中任取3个,“次数据”个数为,
则,,,
分布列为:
X
0
1
2
P
数学期望为.
【变式6.2】(2025·甘肃平凉·模拟预测)高血脂症是指脂肪代谢或者运转异常使人体血液中的血脂含量超过正常范围,表现为血中胆固醇或甘油三酯过高或高密度脂蛋白过低,现代医学称“血脂异常”.高血脂症是常见病、多发病,更是导致心脑血管疾病的元凶.最新的调查显示,中国成人高血脂的患病率为41.1%,大概每五位成人中就有两位是高血脂患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血脂水平下降,高血脂发病率降低,控制高血脂的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动起5个季度社区高血脂患者的血脂情况统计.
季度
1
2
3
4
5
血脂明显降低(或治愈)人数/人
100
150
210
270
320
已知血脂明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,试求出与的经验回归方程,并预测第6季度血脂明显降低(或治愈)者大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组去参加徒步走比赛.若比赛分为初赛和决赛,其中初赛有两轮,只有两轮都获胜才能进入决赛.已知甲组在每轮比赛中获胜的概率均为;乙组在第一轮和第二轮比赛中获胜的概率分别为和;丙组在第一轮和第二轮获胜的概率分别为和.设进入决赛的组数为,求的分布列与数学期望.
附:经验回归方程中斜率和截距的最小二乘估计公式分别为:,
【解题思路】(1)首先计算和,再代入参考公式,求回归方程,代入,即可求解;
(2)确定的取值,再根据随机变量的意义,结合独立事件概率公式,即可求分布列,最后代入期望公式,即可求解.
【解答过程】(1),.
,
,
所以,
所以,
所以,
当时,,
所以第6季度血脂明显降低(或治愈)者大约有378人.
(2)由题知的可能取值为0,1,2,3.
依题意,甲组、乙组、丙组进入决赛的概率分别为,,,
所以,
,
,
.
所以随机变量的分布列为:
0
1
2
3
所以.
【题型7 非线性回归分析】
【例7.1】(23-24高二下·山西·期中)某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:
选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:
31.5
15
15
49.5
(1)求出与的回归方程;
(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.
【解题思路】(1)由表中数据代入最小二乘法公式计算即可;
(2)按照(1)中所求回归方程,结合参考数据,代入计算即可.
【解答过程】(1)因为
由表中数据得,
所以,所以,
所以年该材料费用和年利润额的回归方程为;
(2)令,得,
所以(十万),
故下一年应至少投入498万元该材料费用.
【例7.2】(2023·河北承德·模拟预测)某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度()与灭死率的数据,得下表:
浓度()
灭死率
0.1
0.24
0.46
0.76
0.94
(1)以为解释变量,为响应变量,在和中选一个作为灭死率关于浓度()的经验回归方程,不用说明理由;
(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;
(ii)依据(i)中所求经验回归方程,要使灭死率不低于,估计该灭草剂的浓度至少要达到多少?
参考公式:对于一组数据,,,,其经验回归直线的斜率和截距的最小二乘法估计分别为,.
【解题思路】(1)根据表格数据的特征选择回归模型;
(2)(i)令,将所给数据处理,再求出,,,,即可求出,,从而得到回归方程;
(ii)令,根据对数函数的性质解出不等式,即可得解.
【解答过程】(1)根据表格数据可知解析变量呈现指数增长,而响应变量增长幅度不大,且相应的增加量大约相等,
故选.
(2)(i)令,则,
所以可得如下数据
0.1
0.24
0.46
0.76
0.94
则,,
,
,
所以,,
所以,即;
(ii)依题意,即,即,
所以,即要使灭死率不低于,则该灭草剂的浓度至少要达到 .
【变式7.1】(2023·江苏镇江·三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【解题思路】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【解答过程】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
【变式7.2】(2024·浙江台州·二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
【解题思路】(1)分别求得模型①和②的相关系数,,然后比较得出结论;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【解答过程】(1)解:设模型①和②的相关系数分别为,.
由题意可得:,
.
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为0.3.
一、单选题
1.(24-25高二下·河南·阶段练习)已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为,则的值为( )
2
4
6
8
10
6
5
4
3
2
A. B. C. D.
【解题思路】根据表格中的数据,求得样本中心点,将其代入回归直线方程,求得的值,即可得到答案.
【解答过程】由表格中的数据,可得,,
所以样本中心点必在线性回归直线上,将代入回归直线方程,
可得,解得.
故选:D.
2.(24-25高二下·辽宁抚顺·开学考试)观测两相关变量得如下数据:则两变量间的回归直线方程为( ).
X
Y
A. B.
C. D.
【解题思路】利用回归直线方程过样本中心点即可求解.
【解答过程】由表中数据可得,,
所以样本中心点为,代入选项中检验B正确.
故选:B.
3.(2025·河北沧州·一模)若变量y与x之间存在线性相关关系,且根据最小二乘法得到的经验回归方程为,样本点中心为,则样本点的残差为( )
A. B.1.5 C.0.5 D.
【解题思路】先求出线性回归方程,再由残差的定义求解即可.
【解答过程】依题意,,所以,即经验回归方程为,
又当时,,所以样本点的残差为,
故选:B.
4.(24-25高二下·河南驻马店·阶段练习)某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【解题思路】根据相关系数的绝对值不超过1可得选项A错误;根据回归直线方程可得选项B错误;根据残差的概念可得选项C正确,选项D错误.
【解答过程】A.相关系数的绝对值不超过1,A错误;
B.由回归直线方程知,每增加一个单位,平均减少个单位,B错误;
C.第二个样本点对应的残差,C正确;
D.第三个样本点对应的残差,D错误.
故选:C.
5.(24-25高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为( )
A.9.6 B.10 C.10.6 D.9.4
【解题思路】先根据,求出,再根据去掉的两组数据发现样本中心点没变,求出新的回归直线方程,将代入即可求得.
【解答过程】由和,得.
所以去掉数据与后得到的新数据的平均数,,
由题意可设去掉两组数据后的经验回归方程为,
代入,求得,
故去掉与这两组数据后求得的经验回归方程为.
将代入经验回归方程,得.
故选:A.
6.(2025高二下·全国·专题练习)由一组样本数据,利用最小二乘法得到两个变量的回归直线方程为,记,,则下面说法不正确的是( )
A.直线至少经过点中的一个点
B.直线必经过点
C.样本相关系数与回归系数同号
D.对样本相关系数,越大,两个变量之间的线性相关性越强
【解题思路】根据回归直线性质、相关系数、回归系数的概念逐项分析可得答案.
【解答过程】回归直线是由点拟合而成的,可能不过任何一个样本点,但必过数据的中心点,A错误,B正确.
样本相关系数为正时,两个变量为正相关,回归系数为正;样本相关系数为负时,两个变量为负相关,回归系数为负.
故样本相关系数与回归系数同号,C正确.
样本相关系数,越大,两个变量之间的线性相关性越强,D正确.
故选:A.
7.(2025·江西九江·二模)植物的根是吸收水分和矿物养分的主要器官.已知在一定范围内,小麦对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽小麦实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:)与氮元素吸收量(单位:天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及线性回归方程为,则( )
A.
B.变量与的相关系数
C.在一定范围内,小麦的根长度每增加,它一天的氮元素吸收量平均增加
D.若对小麦的根长度与钾元素吸收量的相关数据进行统计,则对应回归方程不变
【解题思路】根据样本中心在方程上可求解A,进而可判断B,根据回归方程的含义即可求解CD.
【解答过程】由线性回归方程过样本中心点知,,故A错误;
小麦对氮元素的吸收量与它的根长度具有正相关关系,故相关系数,故B错误;
由线性回归方程可得,在一定范围内,小麦的根长度每增加,它一天的氮元素吸收量平均增加,故C正确;
若研究小麦的根长度与钾元素吸收量的相关关系,回归方程可能发生改变,故D错误.
故选:C.
8.(24-25高二下·全国·课后作业)已知与之间的几组数据如表:
1
2
3
4
5
6
0
2
1
3
3
4
假设根据上表数据所得回归直线方程为 .若某同学根据上表中的前两组数据和求得的回归直线方程为,则以下结论正确的是( )
A., B., C., D.,
【解题思路】根据回归直线方程中的和计算公式分别计算和,以及和,再进行比较即得.
【解答过程】因为,,
故,,
而
故,.
故选:C.
二、多选题
9.(24-25高二下·江苏镇江·期中)下列有关线性回归分析的问题中,正确的是( )
A.回归直线至少经过点、、、、中的一个点
B.若线性回归方程为,则当变量增加个单位时,平均增加个单位
C.两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于
D.对具有线性相关关系的变量、,其线性回归方程为,若样本点的中心为,则实数的值是
【解题思路】利用回归直线相关知识可判断ABD选项;利用线性相关系数可判断C选项.
【解答过程】对于A选项,回归直线不一定经过样本点,但一定经过样本中心点,A错;
对于B选项,若线性回归方程为,则当变量增加个单位时,平均增加个单位,B对;
对于C选项,两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于或,C错;
对于D选项,对具有线性相关关系的变量、,其线性回归方程为,
若样本点的中心为,则,解得,D对.
故选:BD.
10.(2024·四川绵阳·模拟预测)某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
2
3
4
5
6
销售额(万元)
19
25
34
38
44
根据上表可得回归直线方程为,下列说法正确的是 ( )
A.回归直线必经过样本点
B.这组数据的样本中心点未必在回归直线上
C.回归系数的含义是广告费用每增加万元,销售额估计约增加万元
D.据此模型预报广告费用为万元时销售额为万元
【解题思路】根据回归直线必过样本中心点,可判断AB的真假;根据回归系数的含义可判断C的真假;求出回归直线方程,可判断D的真假.
【解答过程】由题意:,.
即样本中心点为.
因为线性回归方程必过样本中心点,但不一定过样本点,故AB错误;
根据回归系数的含义可知,C正确;
由 .预测:当时,,故D正确.
故选:CD.
11.(24-25高二下·江苏南京·开学考试)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:关于的回归直线方程中,
A.
B.由散点图知变量和负相关
C.相关系数
D.用最小二乘法求得关于的线性回归直线方程为
【解题思路】对于A,根据条件,直接求出,即可求解;对于B和C,根据条件,画出散点图,即可求解;对于D,利用线性回归直线方程过样中心,代入计算,即可求解.
【解答过程】对于选项A,由题知,,故选项A正确,
对于选项B,由图表可得散点图如下,由散点图知变量和正相关,所以选项B错误,
对于选项C,由选项B知变量和正相关,所以,故选项C正确,
对于选项D,因为样本中心点为,又,
所以不是关于的线性回归直线方程,故选项D错误,
故选:AC.
三、填空题
12.(24-25高二下·陕西汉中·阶段练习)如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 5 .
3
5
7
9
2.5
4
6.5
【解题思路】通过表格计算出样本中心点,代入回归方程即可求解.
【解答过程】由表可知,,,
所以样本中心点为,
代入,得,解得.
故答案为:5.
13.(24-25高二下·全国·课后作业)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 2.02 .
广告支出费用/万元
1
3
4
6
11
销售量万件
1.9
3.2
4.4
6.3
12.7
【解题思路】先求出样本点的中心点,然后代入回归方程求出,从而求出当时,解得,从而可求解.
【解答过程】由题意,,
而样本点的中心点在经验回归直线上,
代入得,解得.
所以,当时,解得,
所以残差为.
故答案为:.
14.(23-24高二下·福建宁德·阶段练习)商家项目投资的利润产生是一个复杂的系统结果.它与项目落地国的商业环境,政府执政能力,法律生态等都有重大的关联.如表所示是某项目在中国和南亚某国投资额和相应利润的统计表.
项目落地国
中国
南亚某国
投资额x(亿元)
10
11
12
13
14
10
11
12
13
14
利润y(亿元)
11
12
14
16
19
12
13
13
14
15
请选择平均利润较高的落地国,用最小二乘法求出回归直线方程为 .
参考数据和公式:,中国,南亚某国,,.
【解题思路】比较平均利润,然后根据题设数据得到答案.
【解答过程】两国的平均利润分别为和,故中国的平均利润较高.
根据题设数据,有,.
故答案为:.
四、解答题
15.(24-25高二下·河南南阳·期中)某人工智能公司从2018至2024年的利润情况如下表所示:
年份
2018
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
7
利润y(单位:亿元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)根据表中的数据,推断变量y与x之间是否线性相关.计算y与x之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出y关于x的经验回归方程,并预测该人工智能公司2025年的利润;
参考数据:
参考公式:对于一组数据,①相关系数为:;
②经验回归直线x的斜率和截距的最小二乘估计公式分别,
【解题思路】(1)用题目给的、、的值代入算 r ,再依据 r 的值和正负判断变量关系.
(2)把已知的和的值代入计算,得到涉及的系数,进而得到方程.再 把给定 x 值代入回归方程算出 y 值.
【解答过程】(1)由题设,易知y与x线性相关,且,
,
由于,可以推断变量y与x成正线性相关且相关程度很强.
(2)由题设,,,
所以,因此y关于x的回归方程为,
当时,,即预测该人工智能公司2025的利润为6.3亿元.
16.(24-25高二下·河北衡水·阶段练习)随机选取变量和变量的5对观测数据,选取的第对观测数据记为,其数值对应如下表所示:
编号i
1
2
3
4
5
9
8
7
6
5
75
95
110
135
150
参考数据:,,.
假设变量关于的一元线性回归模型为.
(1)求关于的经验回归方程;
(2)设为时该回归模型的残差,求、、、、的方差.
参考公式:,
【解题思路】(1)先求出变量和变量的平均值,结合参考数据代入最小二乘法公式求出、的值即可求解.
(2)计算出、、、、,再利用方差公式求得结果即可.
【解答过程】(1)由题意得,,
代入公式得,
则,
所以关于的经验回归方程为.
(2)由,计算得该回归模型的残差如下表所示:
而、、、、的平均数为,
则由方差公式得残差的方差为.
17.(24-25高二下·江西·阶段练习)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2024年中国出生人数y(单位:万人)与年份代码x的统计数据:
年份代码x
1
2
3
4
5
出生人数y
1200
1062
956
902
954
(1)根据上表数据求得y关于x的经验回归方程为,求x与y的相关系数r,并判断该经验回归方程是否有价值:(若,则认为经验回归方程有价值)
(2)从表中第2行的5个数据中任取3个数据,记取到大于1000的数据个数为X,求X的分布列与期望.
参考数据与公式:回归方程中,相关系数.
【解题思路】(1)根据题干中的条件和公式,将数值代入即可求得线性回归方程与相关系数./
(2)由表中第2行的5个数据中任取3个数据,且大于1000,故X的取值可为0,1,2,
根据离散型随机变量求出各个的概率,即可求出分布列和期望.
【解答过程】(1)由x的取值依次为1,2,3,4,5,得,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
(2)X的取值依次为0,1,2,
,
所以X的分布列为
X
0
1
2
P
所以.
18.(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【解题思路】(1)根据散点图可作出判断,令,所以,利用最小二乘法求出、的值,即可得出回归方程;
(2)将代入回归方程,可得结果.
【解答过程】(1)由散点图可知,更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型.
因为,所以.
因为,,,,
所以,
所以,所以回归方程为.
所以每年月份来哈尔滨的游客数量关于年份代码的回归直线方程为.
(2)当时,,
所以预测年月份来哈尔滨的游客数量为万.
19.(24-25高二下·广西柳州·期中)近期根据中国消费者信息研究报告显示,超过40%的消费者更加频繁地使用网上购物,某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和时间第x天间的数据,列表如下:
x
1
2
3
4
5
y
75
84
93
98
100
(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和时间第x天之间的关系?若可用,求出y关于x的经验回归方程,并估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若相关系数,则线性相关程度很高,可以用线性回归模型拟合,r精确到0.01);
(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
参考数据:.,,
附:相关系数,,
【解题思路】(1)先计算相关系数,再结合线性回归方程的知识求解即可;
(2)首先根据二项分布的概率公式求出为的概率值,则方案二的期望可求,与方案一的950进行比较即可判断.
【解答过程】(1)由表中数据可得,,所以,所以可用线性回归模型拟合人数与天数之间的关系.而,则所以
令,可得,所以1月10日到该专营店购物的人数约为109.
(2)若选方案一、需付款元.
若选方案二、设需付款元,则的取值可能为,则,
,
所以,因此选择方案二更划算.
第 1 页 共 28 页
学科网(北京)股份有限公司
$$