内容正文:
第13讲 一元线性回归分析
课程标准
学习目标
1.通过一元线性回归分析,提升数学运算的素养.培养逻辑推理的素养.
1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
3.针对实际问题,会用一元线性回归模型进行预测.
知识点01经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
【即学即练1】(2024高二下·上海·专题练习)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
题型一:解释回归直线方程的意义
1.(23-24高三上·上海普陀·期末)下列命题中,真命题的是( )
A.若回归方程,则变量与负相关
B.线性回归分析中决定系数用来刻画回归的效果,若该值越小,则模型的拟合效果越好
C.若样本数据的方差为2,则数据的方差9
D.若与独立,则
2.(23-24高二上·上海·课后作业)两个变量x与y之间的回归方程( )
A.表示x与y之间的函数关系; B.表示x与y之间的不确定关系;
C.反映x与y之间的真实关系; D.是反映x与y之间的真实关系的一种最佳拟合.
3.(22-23高二下·上海浦东新·期末)给出下列有关线性回归分析的四个命题,其中为真命题的是( )
A.线性回归直线未必过样本数据点的中心;
B.回归直线就是散点图中经过数据点最多的那条直线;
C.当相关系数时,两个变量正相关;
D.如果两个变量的相关性越强,则相关系数r就越接近于1.
4.(24-25高三下·上海·阶段练习)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.无法确定
5.(24-25高三·上海·课堂例题)有时候,一些东西吃起来口味越好,对我们的身体越有害,下表给出了不同类型的某种食品的数据.第二行表示此种食品所含热量的百分比,第三行数据表示由一些美食家以百分制给出的对此种食品口味的评价:
品牌
A
B
C
D
E
F
G
H
I
J
所含热量的百分比
25
34
20
19
26
20
19
24
19
13
口味记录
89
89
80
78
75
71
65
62
60
52
(1)作出散点图;
(2)你能从散点图中发现两者之间的近似关系吗?
(3)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系;
(4)对于食品,为什么人们更喜欢吃位于直线上方的食品而不是下方的?
题型二:用回归直线方程对总体进行估计
1.(25-26高三上·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
2.(23-24高二上·上海·课后作业)若对具有线性相关关系的两个变量建立的回归方程为,则当时,的估计值为 .
3.(22-23高二下·上海浦东新·阶段练习)已知,则 .
4.(2023·上海徐汇·模拟预测)假如女儿的身高y(单位:cm)关于父亲身高x(单位:cm)的线性回归方程是,已知父亲身高为175cm,则估计女儿的身高为 cm.(结果精确到整数)
题型三:计算样本的中心点和根据样本中心点求参数
1.(2024·上海·三模)已知x,y是两个具有线性相关的两个变量,其取值如下表:
x
1
2
3
4
5
y
4
a
9
b
11
其回归方程为,则 .
2.(23-24高三下·上海嘉定·阶段练习)某产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
a
50
70
已知y关于x的线性回归方程为,则表格中实数a的值为 .
3.(22-23高三下·上海青浦·阶段练习)根据变量与的对应关系(如表),求得关于的线性回归方程为,则表中的值为 .
2
4
5
6
8
30
40
50
70
4.(22-23高二下·上海宝山·期中)已知x,y的对应值如下表所示:
0
2
4
6
8
1
13
若y与x线性相关,且回归直线方程为,则 .
5.(2023·上海虹口·模拟预测)供电公司为了分析某小区的用电量y(单位:kw·h)与气温x(单位:℃)之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系见下表:
气温x
18
13
10
-1
用电y
24
34
m
64
利用最小二乘法得到的回归方程为,则 .
6.(22-23高三下·上海闵行·阶段练习)已知的对应值如下表所示:
0
2
4
6
8
1
11
若与线性相关,且回归直线方程为,则 .
7.(21-22高二下·上海黄浦·期末)由表中三个样本点,利用最小二乘法得到的变量之间的线性回归方程为,且当时,预测值,则 .
12
9
14
27
20
8.(24-25高三·上海·课堂例题)某机构为了解某大学中男生的体重(单位:kg)与身高(单位:cm)是否存在较好的线性关系,该机构搜集了7位该校男生的数据,得到如下表格:
序号
1
2
3
4
5
6
7
身高(cm)
161
175
169
178
173
168
180
体重(kg)
52
62
54
70
66
57
73
根据表中数据计算得到关于的线性回归方程为,求.
题型四:根据回归方程进行数据估计
1.(2023·上海黄浦·三模)实验测得六组成对数据的值为,,,,,,由此可得y与x之间的回归方程为,则可预测当时,y的值为( )
A.67 B.66 C.65 D.64
2.(2023·上海浦东新·二模)某种产品的广告支出与销售额(单位:万元)之间有下表关系,与的线性回归方程为,当广告支出6万元时,随机误差的效应即离差(真实值减去预报值)为( ).
2
4
5
6
8
30
40
60
70
80
A.1.6 B.8.4 C.11.6 D.7.4
3.(25-26高三上·上海·单元测试)某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
1
2
3
4
销售额(万元)
2
3
现已知,且回归方程中的,据此模型预测广告费用为10万元时,销售额为 万元.
4.(25-26高三上·上海·单元测试)现调查得到本系列手机上市时间和市场占有率(单位:%)的几组相关对应数据,绘制如图所示的折线图,图中的,分别代表该手机上市的4月份,以及5月份,6月份,7月份,8月份,….据此数据得出关于的回归方程为,用此方程预测该系列手机市场占有率的变化趋势,要使该系列手机的市场占有率超过0.5%,最早会在初次上市后的第 个月.
5.(25-26高三上·上海·单元测试)某产品的宣传费用(单位:万元)与销售额(单位:万元)的统计数据如表所示:
4
5
6
7
8
60
80
90
100
120
根据上表可得回归方程,则宣传费用为9万元时,销售额为 万元.(填整数)
6.(23-24高二下·上海·期末)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃ )存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了y关于x的线性回归方程.
x(次数/分钟)
20
30
40
50
60
y(℃)
25
27.5
29
32.5
36
则当蟋蟀每分钟鸣叫62次时,该地当时的气温预报值为 .
7.(2024高二下·上海·专题练习)某产品的广告费用与销售额的统计数据如表
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
根据上表可得回归方程中的为10,据此模型预报广告费用为6万元时销售额为 万元.
8.(2024·上海奉贤·三模)为了研究某班学生的脚步(单位厘米)和身高之间有线性相关关系,设其回归直线方程为.该班某学生的脚长为24,据此估计其身高为 .
9.(2024·上海普陀·二模)为了提高学生参加体育锻炼的积极性,某校本学期依据学生特点针对性的组建了五个特色运动社团,学校为了了解学生参与运动的情况,对每个特色运动社团的参与人数进行了统计,其中一个特色运动社团开学第1周至第5周参与运动的人数统计数据如表所示.
周次
1
2
3
4
5
参与运动的人数
35
36
40
39
45
若表中数据可用回归方程来预测,则本学期第11周参与该特色运动社团的人数约为 .(精确到整数)
10.(2023·上海浦东新·模拟预测)某产品的广告费投入与销售额的统计数据如下表所示:
广告费万元万元
4
2
3
5
销售额万元万元
49
26
39
54
根据上表建立线性回归方程,预测当广告费投入6万元时,销售额约为 万元.
题型五:求回归直线方程
1.(24-25高三上·上海·开学考试)下表中是某公司一年中每月的广告投入费用与销售额的情况,设广告投入费用为x(单位:万元),销售额为y(单位:万元),则y关于x的回归方程为 .(回归系数精确到0.01)
广告费用(万元)
30
26
21
17
11
18
13
16
17
23
25
29
销售额(万元)
843
725
621
587
485
608
523
554
600
703
728
792
2.(24-25高三上·上海·单元测试)调查某市出租车使用年限和该年支出维修费用(万元),得到数据如下表:
使用年限
2
3
4
5
6
维修费用
2.2
3.8
5.5
6.5
7.0
则线性回归方程是 .
3.(23-24高三上·上海长宁·期中)已知两个线性相关变量的统计数据如表所示,则其回归方程是 .
1
2
3
4
5
3
0
-2
-4
-5
4.(22-23高二下·上海杨浦·期中)以下是一些城市的海拔高度与该城市的大气压的对照表.我们已知大气压与海拔高度是近似线性的关系.
城市
海拔高度/m
大气压/Pa
北京
31.2
99.86
哈尔滨
171.7
98.51
上海
4.5
100.53
昆明
1891.4
80.80
拉萨
3658.0
65.23
则我们可以利用一元线性回归分析(其中海拔高度为解释变量,大气压为反应变量),估计珠穆朗玛峰顶(海拔米)的大气压为 (近似到小数点后两位).
5.(24-25高三上·上海·单元测试)现有某高新技术企业年研发费用投入(百万元)与企业年利润(百万元)之间具有线性相关关系,近5年的年研发费用和年利润的具体数据如表:
年研发费用(百万元)
1
2
3
4
5
年利润(百万元)
2
3
4
4
7
数据表明与之间有较强的线性关系.
(1)求对的回归直线方程;
(2)如果该企业某年研发费用投入8百万元,预测该企业获得年利润为多少?
6.(24-25高三·上海·课堂例题)某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,得到的实验数据经整理得到如下的折线图:
参考数据:,,.
(1)由图可以看出,这种酶的活性指标值与温度具有较强的线性相关性,请用相关系数加以说明;
(2)求关于的线性回归方程,并预测当温度为30℃时,这种酶的活性指标值.(计算结果精确到0.01)
题型六:最小二乘法的概念及辨析
1.(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
2.(2023·上海杨浦·二模)对成对数据、、…、用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
一、单选题
1.(24-25高三·上海·课堂例题)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论中正确的是( )
A.直线过点 B.和的相关系数为直线的斜率
C.和的相关系数在0到1之间 D.当为偶数时,分布在两侧的样本点的个数一定相同
2.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
3.(2024·上海·三模)设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
4.(23-24高二下·上海·期末)为了研究关于的线性相关关系,收集了5组样本数据(见表):若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.
B.去掉样本点后,与的样本相关系数不会改变
C.当时,的预测值为2.2
D.与的样本是负相关
二、填空题
5.(23-24高二下·上海·期中)某公司为了解用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天气温,并制作了如下对照表:
气温
用电量
由表中数据可得回归方程中.试预测当气温为时,用电量约为 .
6.(24-25高三·上海·课堂例题)从某大学中随机选取8名女大学生,其身高(单位:cm)与体重(单位:kg)的数据如下表:
165
165
157
170
175
165
155
170
48
57
50
54
64
61
43
59
若已知与的线性回归方程为,那么选取的女大学生身高为175cm时,相应的残差为 .
7.(23-24高二下·上海·期末)某新能源汽车销售公司统计了某款汽车行驶里程x(单位:万千米)对应维修保养费用y(单位:万元)的四组数据,这四组数据如下表:
行驶里程万千米/万千米
1
2
4
5
维修保养费用万元/万元
0.50
0.90
2.30
2.70
若用最小二乘法求得回归直线方程为,则估计该款汽车行驶里程为10万千米时的维修保养费是 .
8.(25-26高三上·上海·期末)贵州六马盛产“蜂糖李”,其以果大味甜闻名当地.某电商以“绿水青山就是金山银山”理念为引导,大力推进绿色发展,现需订购一批苗木,苗木长度与售价如下表.由表可知苗木长度与售价/元之间存在线性相关关系,回归方程为.当苗木长度为120cm时,估计价格为 元.
10
20
30
40
50
60
/元
2
6
10
14
16
18
9.(23-24高三下·上海闵行·阶段练习)某公司为了增加某商品的销售利润,调查了该商品投入的广告费用:(单位:万元)与销售利润(单位:万元)的相关数据,如表所示,根据表中数据,得到经验回归方程,则下列命题正确的是 (请填写序号)
广告费用
3
4
5
8
销售利润
4
5
7
8
①; ②;③直线必过点;④直线必过点
10.(2024·上海宝山·二模)某公司为了了解某商品的月销售量单位:万件与月销售单价单位:元件之间的关系,随机统计了个月的销售量与销售单价,并制作了如下对照表:
月销售单价元件
月销售量万件
由表中数据可得回归方程中,试预测当月销售单价为元件时,月销售量为 万件.
11.(23-24高二下·上海长宁·期末)某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为 度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
12.(24-25高三·上海·课堂例题)为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如下表所示:
开业天数
10
20
30
40
50
销售额/天(万元)
62
75
81
89
根据上表提供的数据,求得关于的线性回归方程为,由于表中有一个数据模糊看不清,请你推断出该数据的值为 .
13.(24-25高三上·上海·单元测试)下列说法中正确的是 .
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量、的相关系数为,则越接近于0,和之间的线性相关程度越强;
④在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大.
14.(24-25高三·上海·随堂练习)某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为,其中,.
15.(2023·上海普陀·二模)“民生”供电公司为了分析“康居”小区的用电量y(单位)与气温x(单位:℃)之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系见下表:
气温x
18
13
10
用电量y
24
34
38
64
若上表中的数据可用回归方程来预测,则当气温为时该小区相应的用电量约为 .
16.(22-23高二下·上海松江·期末)某产品的广告费投入与销售额的统计数据如下表所示(单位:万元):
广告费
4
2
3
5
销售额
49
26
39
54
根据上表建立线性回归方程中的为10,预测广告费为6万元时,销售额约为 万元.
三、解答题
17.(23-24高二上·上海·课后作业)某产品的广告费投入与销售额的统计数据如下表所示.
广告费x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表建立的回归方程中,.的实际意义是什么?
18.(2024·上海·一模)为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:克每立方米)与样本对原点的距离(单位:米)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中).
6
97.90
0.21
240
0.14
14.12
26.13
(1)利用相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型;
(2)根据(1)的结果建立关于的回归方程,并估计样本对原点的距离米时,平均金属含量是多少?
19.(24-25高三·上海·课堂例题)下面的数据是年龄在40到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平(满分100),以及每天花在看电视上的平均时间(小时).
看电视的平均时间
4.4
4.6
2.7
5.8
0.2
4.6
心脏功能水平
52
53
69
57
89
65
(1)求心脏功能水平与每天花在看电视上的平均时间之间的相关系数;
(2)求心脏功能水平与每天花在看电视上的平均时间的线性回归方程,并讨论方程是否有意义;(系数保留两位小数)
(3)估计平均每天看电视3小时的男子的心脏功能水平.
20.(25-26高三上·上海·单元测试)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2016
2017
2018
2019
2020
时间代号
1
2
3
4
5
储蓄存款/千亿元
5
6
7
8
10
(1)求关于的线性回归方程;
(2)用所求回归方程预测该地区2022年()的人民币储蓄存款.
21.(23-24高三下·上海·阶段练习)社会实践是大学生课外教育的一个重要方面,在校大学生利用暑期参加社会实践活动,是认识社会、了解社会、提高自我能力的重要机会.某省统计了该省其中的4所大学2023年毕业生的人数及参加过暑期社会实践活动的人数(单位:千人),得到如下表格:
大学
A大学
B大学
C大学
D大学
2023年毕业生的人数(千人)
7
6
5
4
2023年毕业生中参加过社会实践人数(千人)
0.5
0.4
0.3
0.2
若该省大学2023年毕业生人数为12万人,对参加过暑期社会实践活动的大学生每人发放1000元的补贴.
(1)写出关于的线性回归方程,并估计该省2023年发放补贴的总金额(单位:万元);
(2)若2023年毕业生中的小李、小王参加暑期社会实践活动的概率分别为,该省对小李、小王两人补贴总金额的期望不超过1500元,求的取值范围.
参考公式:.
原创精品资源学科网独家享有版权,侵权必究!2
学科网(北京)股份有限公司
$$
第13讲 一元线性回归分析
课程标准
学习目标
1.通过一元线性回归分析,提升数学运算的素养.培养逻辑推理的素养.
1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
3.针对实际问题,会用一元线性回归模型进行预测.
知识点01经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
【即学即练1】(2024高二下·上海·专题练习)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】根据最小二乘法的概念和求解过程,即可求解.
【详解】根据最小二乘法的概念和求解,可得回归方程是为了使得每个数据与估计值之间的差的平方和最小.
故选:D.
题型一:解释回归直线方程的意义
1.(23-24高三上·上海普陀·期末)下列命题中,真命题的是( )
A.若回归方程,则变量与负相关
B.线性回归分析中决定系数用来刻画回归的效果,若该值越小,则模型的拟合效果越好
C.若样本数据的方差为2,则数据的方差9
D.若与独立,则
【答案】A
【分析】对于A,结合回归方程的相关性的性质,即可求解;对于B,结合线性回归决定系数的定义,即可求解;对于C,结合方差的线性公式,即可求解;对于D,举反例说明.
【详解】对于A,回归方程为,又,所以变量与负相关,故A正确,
对于B,线性回归分析中决定系数用来刻画回归的效果,若值越大,说明模型的拟合效果越好,故B错误.
对于C,若样本数据的方差为2,则数据的方差,故C错误,
对于D, 掷一枚骰子,设事件A:点数小于3,则;
事件B:点数为偶数,则,
所以,即与独立,
又,,故D错误.
故选:A.
2.(23-24高二上·上海·课后作业)两个变量x与y之间的回归方程( )
A.表示x与y之间的函数关系; B.表示x与y之间的不确定关系;
C.反映x与y之间的真实关系; D.是反映x与y之间的真实关系的一种最佳拟合.
【答案】D
【分析】根据回归直线方程的定义,结合选项,即可求解.
【详解】根据回归方程的定义,可得两个变量x与y之间的回归方程是反映x与y之间的真实关系的一种最佳拟合.
故选:D.
3.(22-23高二下·上海浦东新·期末)给出下列有关线性回归分析的四个命题,其中为真命题的是( )
A.线性回归直线未必过样本数据点的中心;
B.回归直线就是散点图中经过数据点最多的那条直线;
C.当相关系数时,两个变量正相关;
D.如果两个变量的相关性越强,则相关系数r就越接近于1.
【答案】C
【分析】由回归直线的性质逐一分析四个选项得答案.
【详解】线性回归直线必过样本数据点的中心,故A错误;
回归直线一定经过样本点的中心,但不一定经过散点图中的点,故B错误;
当相关系数时,两个变量正相关,故C正确;
如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误.
故选:C.
4.(24-25高三下·上海·阶段练习)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.无法确定
【答案】A
【分析】根据线性相关系数的定义直接得解.
【详解】由已知样本数据所对应的点均在直线上,
则,又,所以满足负相关,
即.
故选:A.
5.(24-25高三·上海·课堂例题)有时候,一些东西吃起来口味越好,对我们的身体越有害,下表给出了不同类型的某种食品的数据.第二行表示此种食品所含热量的百分比,第三行数据表示由一些美食家以百分制给出的对此种食品口味的评价:
品牌
A
B
C
D
E
F
G
H
I
J
所含热量的百分比
25
34
20
19
26
20
19
24
19
13
口味记录
89
89
80
78
75
71
65
62
60
52
(1)作出散点图;
(2)你能从散点图中发现两者之间的近似关系吗?
(3)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系;
(4)对于食品,为什么人们更喜欢吃位于直线上方的食品而不是下方的?
【答案】(1)作图见解析
(2)基本近似成线性相关关系
(3)作图见解析
(4)因为直线上方的食品口味更好.
【分析】对于(1),首先以两个变量分别为横轴和纵轴作平面直角坐标系,再在坐标系中描出各点坐标,即作出散点图;
对于(2),由散点图中点的分布规律可判断两变量的相关性;
对于(3),根据(1)的散点图,画一条直线近似地表示两个变量线性相关即可;
对于(4),从口味分析.
【详解】(1)散点图如图所示;
(2)从散点图上可以看出,食品所含热量的百分比与口味值之间总体趋势近似地成一条直线,也就是说他们之间是线性相关的;
(3)直线如上图所示;
(4)因为当直线上方的食品和下方的食品所含热量相同时,直线上方的食品口味更好.
题型二:用回归直线方程对总体进行估计
1.(25-26高三上·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
【答案】C
【分析】根据折线图中各阶段的数据,计算其样本中心纵坐标、极差,并结合数据的变化趋势画出近似回归直线,即可确定回归方程参数之间的大小关系.
【详解】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,
∴由图知:2010年至2014年数据为;
2015年至2019年数据为;
2010年至2019年数据为;均成递减趋势.
又,,,且极差分别为6、51、65,
三条回归方程的直线大致图象,如下图示:
∴回归方程的斜率大小关系为,且截距.
故选:C.
2.(23-24高二上·上海·课后作业)若对具有线性相关关系的两个变量建立的回归方程为,则当时,的估计值为 .
【答案】
【分析】将代入回归直线方程可得结果.
【详解】将代入回归直线方程可得.
故答案为:.
3.(22-23高二下·上海浦东新·阶段练习)已知,则 .
【答案】
【分析】根据求和符号的意义,准确运算,即可求解.
【详解】由题意知,则:
.
故答案为:.
4.(2023·上海徐汇·模拟预测)假如女儿的身高y(单位:cm)关于父亲身高x(单位:cm)的线性回归方程是,已知父亲身高为175cm,则估计女儿的身高为 cm.(结果精确到整数)
【答案】
【分析】根据回归方程代入数据计算即得.
【详解】因为女儿身高为(单位:)关于父亲身高(单位:)的经验回归方程是,
所以当父亲的身高为时,.
故答案为:.
题型三:计算样本的中心点和根据样本中心点求参数
1.(2024·上海·三模)已知x,y是两个具有线性相关的两个变量,其取值如下表:
x
1
2
3
4
5
y
4
a
9
b
11
其回归方程为,则 .
【答案】11
【分析】根据给定的数表,求出样本的中心点,再利用回归直线的性质计算即得.
【详解】依题意,,,
由在回归直线上,得,所以.
故答案为:11
2.(23-24高三下·上海嘉定·阶段练习)某产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
a
50
70
已知y关于x的线性回归方程为,则表格中实数a的值为 .
【答案】
【分析】先求出,代入回归方程求出,再列方程求实数a的值.
【详解】由条件得,
则,
所以,
解得.
故答案为:.
3.(22-23高三下·上海青浦·阶段练习)根据变量与的对应关系(如表),求得关于的线性回归方程为,则表中的值为 .
2
4
5
6
8
30
40
50
70
【答案】60
【分析】先求出,然后代入回归方程中可求出的值.
【详解】由题意得,,
因为关于的线性回归方程为,
所以,解得,
故答案为:60
4.(22-23高二下·上海宝山·期中)已知x,y的对应值如下表所示:
0
2
4
6
8
1
13
若y与x线性相关,且回归直线方程为,则 .
【答案】1
【分析】根据线性回归方程过样本中心点直接计算即可.
【详解】根据表格可知,,
,
因为y与x线性相关,且回归直线方程为,
所以,得,解得.
故答案为:1
5.(2023·上海虹口·模拟预测)供电公司为了分析某小区的用电量y(单位:kw·h)与气温x(单位:℃)之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系见下表:
气温x
18
13
10
-1
用电y
24
34
m
64
利用最小二乘法得到的回归方程为,则 .
【答案】
【分析】利用样本中心点在回归直线上即可求解.
【详解】由题意可知,,
,
所以样本中心点的坐标为.
将代入,得,解得.
故答案为:.
6.(22-23高三下·上海闵行·阶段练习)已知的对应值如下表所示:
0
2
4
6
8
1
11
若与线性相关,且回归直线方程为,则 .
【答案】
【分析】利用回归直线方程经过样本中心点,即可求出结果.
【详解】由表可知,,
因为回归直线方程经过样本中心点,
所以,
解得.
故答案为:2.
7.(21-22高二下·上海黄浦·期末)由表中三个样本点,利用最小二乘法得到的变量之间的线性回归方程为,且当时,预测值,则 .
12
9
14
27
20
【答案】32
【分析】由预报值求得参数,得回归方程,求出,代入中心点坐标即得.
【详解】由题可得,
∴,,
又,
∴,
∴.
故答案为:32.
8.(24-25高三·上海·课堂例题)某机构为了解某大学中男生的体重(单位:kg)与身高(单位:cm)是否存在较好的线性关系,该机构搜集了7位该校男生的数据,得到如下表格:
序号
1
2
3
4
5
6
7
身高(cm)
161
175
169
178
173
168
180
体重(kg)
52
62
54
70
66
57
73
根据表中数据计算得到关于的线性回归方程为,求.
【答案】
【分析】根据给定数表,求出样本的中心点,再由回归直线必过样本中心点即可得解.
【详解】依题意,,
,而,
所以.
题型四:根据回归方程进行数据估计
1.(2023·上海黄浦·三模)实验测得六组成对数据的值为,,,,,,由此可得y与x之间的回归方程为,则可预测当时,y的值为( )
A.67 B.66 C.65 D.64
【答案】B
【分析】先求出样本中心点,线性回归方程恒过,代入即可求出,再令,代入求解即可.
【详解】由表中数据可得,,,
线性回归方程为,则,解得,
故,当时,.
故选:B.
2.(2023·上海浦东新·二模)某种产品的广告支出与销售额(单位:万元)之间有下表关系,与的线性回归方程为,当广告支出6万元时,随机误差的效应即离差(真实值减去预报值)为( ).
2
4
5
6
8
30
40
60
70
80
A.1.6 B.8.4 C.11.6 D.7.4
【答案】A
【分析】代入,得到,从而得到随机误差的效应即离差.
【详解】当时,,故随机误差的效应即离差为.
故选:A
3.(25-26高三上·上海·单元测试)某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
1
2
3
4
销售额(万元)
2
3
现已知,且回归方程中的,据此模型预测广告费用为10万元时,销售额为 万元.
【答案】35
【分析】由求解即可.
【详解】,
由,则,得,
所以,
当时,得.
故答案为:35
4.(25-26高三上·上海·单元测试)现调查得到本系列手机上市时间和市场占有率(单位:%)的几组相关对应数据,绘制如图所示的折线图,图中的,分别代表该手机上市的4月份,以及5月份,6月份,7月份,8月份,….据此数据得出关于的回归方程为,用此方程预测该系列手机市场占有率的变化趋势,要使该系列手机的市场占有率超过0.5%,最早会在初次上市后的第 个月.
【答案】13
【分析】先求出样本中心点,代入中,求得的值,再解不等式,即可.
【详解】,,
样本中心点为,
将其代入,得,解得,
,
当时,有,解得,
应取,
故答案为:13.
5.(25-26高三上·上海·单元测试)某产品的宣传费用(单位:万元)与销售额(单位:万元)的统计数据如表所示:
4
5
6
7
8
60
80
90
100
120
根据上表可得回归方程,则宣传费用为9万元时,销售额为 万元.(填整数)
【答案】132
【分析】由表格数据求样本中心,根据回归直线过样本中心点求,将代入方程求销售额估计值即可.
【详解】由表格数据知:,,
∴由回归方程,有:,即,故,
∴当万元时,万元.
故答案为:132.
6.(23-24高二下·上海·期末)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃ )存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了y关于x的线性回归方程.
x(次数/分钟)
20
30
40
50
60
y(℃)
25
27.5
29
32.5
36
则当蟋蟀每分钟鸣叫62次时,该地当时的气温预报值为 .
【答案】
【分析】根据给定数表求出样本的中心点,再求出值并求出预报值.
【详解】依题意,,,
于是,解得,则y关于x的线性回归方程为,
当时,,
所以该地当时的气温预报值为(℃).
故答案为:
7.(2024高二下·上海·专题练习)某产品的广告费用与销售额的统计数据如表
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
根据上表可得回归方程中的为10,据此模型预报广告费用为6万元时销售额为 万元.
【答案】67
【分析】求出,,根据回归方程过样本中心点,求出,即可得到回归直线方程,再代入计算可得.
【详解】根据表中数据,可得:,;
且回归方程过样本中心点,
所以,解得,
所以回归方程为.
当时,,
即广告费用为6万元时销售额为67万元.
故答案为:67.
8.(2024·上海奉贤·三模)为了研究某班学生的脚步(单位厘米)和身高之间有线性相关关系,设其回归直线方程为.该班某学生的脚长为24,据此估计其身高为 .
【答案】
【分析】将代入回归直线方程即可得解.
【详解】由题意,令,则,
即该班某学生的脚长为24,据此估计其身高为厘米.
故答案为:.
9.(2024·上海普陀·二模)为了提高学生参加体育锻炼的积极性,某校本学期依据学生特点针对性的组建了五个特色运动社团,学校为了了解学生参与运动的情况,对每个特色运动社团的参与人数进行了统计,其中一个特色运动社团开学第1周至第5周参与运动的人数统计数据如表所示.
周次
1
2
3
4
5
参与运动的人数
35
36
40
39
45
若表中数据可用回归方程来预测,则本学期第11周参与该特色运动社团的人数约为 .(精确到整数)
【答案】57
【分析】由已知求出样本点中心的坐标,代入线性回归方程,再取求解.
【详解】,,
把代入,得.
可得线性回归方程为.
把代入,可得.
故答案为:57.
10.(2023·上海浦东新·模拟预测)某产品的广告费投入与销售额的统计数据如下表所示:
广告费万元万元
4
2
3
5
销售额万元万元
49
26
39
54
根据上表建立线性回归方程,预测当广告费投入6万元时,销售额约为 万元.
【答案】
【分析】首先求所给数据的平均数,得到样本中心点,利用回归系数公式求出回归系数,再根据回归直线过样本中心点,求出,再利用回归直线方程即可求出预测销售额.
【详解】因为,,
,
,
所以,
因为数据的样本中心点在线性回归直线上,
所以,
所以线性回归方程为,当时,,
所以广告费投入6万元时,销售额为万元.
故答案为:.
题型五:求回归直线方程
1.(24-25高三上·上海·开学考试)下表中是某公司一年中每月的广告投入费用与销售额的情况,设广告投入费用为x(单位:万元),销售额为y(单位:万元),则y关于x的回归方程为 .(回归系数精确到0.01)
广告费用(万元)
30
26
21
17
11
18
13
16
17
23
25
29
销售额(万元)
843
725
621
587
485
608
523
554
600
703
728
792
【答案】
【分析】分别求出,再带入线性回归方程求解即可.
【详解】,
,
,
,
所以
所以
所以,
故答案为:.
2.(24-25高三上·上海·单元测试)调查某市出租车使用年限和该年支出维修费用(万元),得到数据如下表:
使用年限
2
3
4
5
6
维修费用
2.2
3.8
5.5
6.5
7.0
则线性回归方程是 .
【答案】
【分析】根据所给的数据,求出变量x,y的平均数,根据最小二乘法作出线性回归方程的系数b,再根据样本中心点一定在回归直线上,求出a的值;
【详解】变量x的平均数为:
变量y的平均数为: 代入公式得
,
所以回归直线方程为
故答案为:
3.(23-24高三上·上海长宁·期中)已知两个线性相关变量的统计数据如表所示,则其回归方程是 .
1
2
3
4
5
3
0
-2
-4
-5
【答案】
【分析】利用最小二乘法求回归直线方程即可.
【详解】由表可知,
根据,
,
所以线性回归方程为:.
故答案为:
4.(22-23高二下·上海杨浦·期中)以下是一些城市的海拔高度与该城市的大气压的对照表.我们已知大气压与海拔高度是近似线性的关系.
城市
海拔高度/m
大气压/Pa
北京
31.2
99.86
哈尔滨
171.7
98.51
上海
4.5
100.53
昆明
1891.4
80.80
拉萨
3658.0
65.23
则我们可以利用一元线性回归分析(其中海拔高度为解释变量,大气压为反应变量),估计珠穆朗玛峰顶(海拔米)的大气压为 (近似到小数点后两位).
【答案】
【分析】设海拔高度为,则大气压为,用最小二乘法求出经验回归方程,令即可得出答案.
【详解】设海拔高度为,则大气压为Pa,
由表中数据得:
,
,
,,
可用一元线性回归模型拟合与的关系,其中,,
所以,
,
所以经验回归方程为,
当时,,
所以珠穆朗玛峰顶(海拔米)的大气压为,
故答案为:.
5.(24-25高三上·上海·单元测试)现有某高新技术企业年研发费用投入(百万元)与企业年利润(百万元)之间具有线性相关关系,近5年的年研发费用和年利润的具体数据如表:
年研发费用(百万元)
1
2
3
4
5
年利润(百万元)
2
3
4
4
7
数据表明与之间有较强的线性关系.
(1)求对的回归直线方程;
(2)如果该企业某年研发费用投入8百万元,预测该企业获得年利润为多少?
【答案】(1)
(2)9.5百万元
【分析】(1)由已知求得与的值,则线性回归方程可求得;
(2)根据(1)的回归方程中,取求得值即可.
【详解】(1)由题意可知,,
,
,
所以,
所以,
所以所求回归直线的方程为;
(2)在(1)中的方程中,令,得,
故如果该企业某年研发费用投入百万元,预测该企业获得年利润为百万元.
6.(24-25高三·上海·课堂例题)某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,得到的实验数据经整理得到如下的折线图:
参考数据:,,.
(1)由图可以看出,这种酶的活性指标值与温度具有较强的线性相关性,请用相关系数加以说明;
(2)求关于的线性回归方程,并预测当温度为30℃时,这种酶的活性指标值.(计算结果精确到0.01)
【答案】(1)理由见解析
(2),13.22
【分析】(1)根据折线图中的数据求出,,然后根据已知数据和公式可求出相关系数,从而进行判断;
(2)根据已知的数据结合公式求出,从而可求出回归方程,把代入回归方程可预测当温度为30℃时,这种酶的活性指标值.
【详解】(1)由题可知,
,
,
则,
因为非常接近1,所以酶的活性与温度具有较强的线性相关性;
(2)由题可知,,
,
,
所以关于的线性回归方程为,
当时,.
故预测当温度为30℃时,这种酶的活性指标值为13.22.
题型六:最小二乘法的概念及辨析
1.(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】由最小二乘法的定义判断即可.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
即残差平方和最小.
故选:D
2.(2023·上海杨浦·二模)对成对数据、、…、用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】由最小二乘法的求解即可知.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
故选:D
一、单选题
1.(24-25高三·上海·课堂例题)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论中正确的是( )
A.直线过点 B.和的相关系数为直线的斜率
C.和的相关系数在0到1之间 D.当为偶数时,分布在两侧的样本点的个数一定相同
【答案】A
【分析】根据回归方程过定点、相关系数的范围和回归直线斜率的关系、回归直线与样本点的关系判断各个选项;
【详解】对于A,线性回归直线一定过点,A正确;
对于B,和的相关系数和直线的斜率存在一定的关系,但并不是直线的斜率,B错误;
对于C.和的相关系数在到1之间,C错误;
对于D,当为偶数时,分布在两侧的样本点的个数没有直接关系,D错误;
故选:A.
2.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A,进一步可得回归方程,由此即可验算B选项,由百分位数的概念即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
对于B,当时,y的预测值为,故B错误;
对于C,样本数据y的第40百分位数为,故C错误;
对于D,由相关系数公式可知,去掉样本点后,x与y的样本相关系数r不会改变,故D正确.
故选:D.
3.(2024·上海·三模)设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
【答案】C
【分析】利用与r的含义判断AB,根据r大于零时两变量正相关即可得一定大于零判断CD.
【详解】影响的是回归直线的斜率,r影响是两个变量之间的相关性,
所以与r之间数值大小没有关系,但符号有影响,故选项AB错误;
若r大于零,则说明两个变量之间成正相关,故一定大于零,故选项C正确,D错误.
故选:C
4.(23-24高二下·上海·期末)为了研究关于的线性相关关系,收集了5组样本数据(见表):若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.
B.去掉样本点后,与的样本相关系数不会改变
C.当时,的预测值为2.2
D.与的样本是负相关
【答案】B
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A,由相关系数公式即可判断B,根据回归方程代入计算即可判断C,由的正负即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
由相关系数公式可知,去掉样本点后,x与y的样本相关系数r不会改变,故B正确;
当时,y的预测值为,故C错误;
因为,所以与的样本是正相关,故D错误.
故选:B
二、填空题
5.(23-24高二下·上海·期中)某公司为了解用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天气温,并制作了如下对照表:
气温
用电量
由表中数据可得回归方程中.试预测当气温为时,用电量约为 .
【答案】
【分析】根据样本中心在回归直线上可得回归直线方程,进而可得估计值.
【详解】,,
样本点的中心为,
代入,
,
则线性回归方程为,
取,得,
故答案为:.
6.(24-25高三·上海·课堂例题)从某大学中随机选取8名女大学生,其身高(单位:cm)与体重(单位:kg)的数据如下表:
165
165
157
170
175
165
155
170
48
57
50
54
64
61
43
59
若已知与的线性回归方程为,那么选取的女大学生身高为175cm时,相应的残差为 .
【答案】0.96
【分析】由线性回归方程先求时的值,再根据残差的计算公式即可求解.
【详解】令得,所以残差为
故答案为:
7.(23-24高二下·上海·期末)某新能源汽车销售公司统计了某款汽车行驶里程x(单位:万千米)对应维修保养费用y(单位:万元)的四组数据,这四组数据如下表:
行驶里程万千米/万千米
1
2
4
5
维修保养费用万元/万元
0.50
0.90
2.30
2.70
若用最小二乘法求得回归直线方程为,则估计该款汽车行驶里程为10万千米时的维修保养费是 .
【答案】5.66
【分析】先利用线性回归方程必过样本中心点,求出,再用回归方程进行估计.
【详解】因为,,
由利用线性回归方程必过样本中心点,得:,
所以当时,.
故答案为:5.66
8.(25-26高三上·上海·期末)贵州六马盛产“蜂糖李”,其以果大味甜闻名当地.某电商以“绿水青山就是金山银山”理念为引导,大力推进绿色发展,现需订购一批苗木,苗木长度与售价如下表.由表可知苗木长度与售价/元之间存在线性相关关系,回归方程为.当苗木长度为120cm时,估计价格为 元.
10
20
30
40
50
60
/元
2
6
10
14
16
18
【答案】36.5
【分析】利用表格信息求出,由回归方程经过点求得,即得回归方程,代入的值即得价格估计值.
【详解】由表格可得,,
因回归方程必过,
则得,,解得,,即,
故当时,元.
故答案为:36.5.
9.(23-24高三下·上海闵行·阶段练习)某公司为了增加某商品的销售利润,调查了该商品投入的广告费用:(单位:万元)与销售利润(单位:万元)的相关数据,如表所示,根据表中数据,得到经验回归方程,则下列命题正确的是 (请填写序号)
广告费用
3
4
5
8
销售利润
4
5
7
8
①; ②;③直线必过点;④直线必过点
【答案】①②④
【分析】
根据平均数的求解可判断④③,利用最小二乘法求解系数即可判断①②.
【详解】
由表中数据可得,,,
则样本中心为,故直线必过点,故④正确,③错误,
,,
则,①②正确.
故答案为:①②④.
10.(2024·上海宝山·二模)某公司为了了解某商品的月销售量单位:万件与月销售单价单位:元件之间的关系,随机统计了个月的销售量与销售单价,并制作了如下对照表:
月销售单价元件
月销售量万件
由表中数据可得回归方程中,试预测当月销售单价为元件时,月销售量为 万件.
【答案】
【分析】根据给定数表求出样本中心点,再代入回归直线求出参数即可求得结果.
【详解】依题意,,,
所以样本中心点坐标为,代入回归方程得,,
解得,
所以回归方程为,
当时,,
即当月销售单价为元件时,月销售量约为万件.
故答案为:
11.(23-24高二下·上海长宁·期末)某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为 度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
【答案】40
【分析】先求解,代入方程求得,然后可得气温为时用电量的度数.
【详解】,
,
所以,所以当时,.
故答案为:40.
12.(24-25高三·上海·课堂例题)为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如下表所示:
开业天数
10
20
30
40
50
销售额/天(万元)
62
75
81
89
根据上表提供的数据,求得关于的线性回归方程为,由于表中有一个数据模糊看不清,请你推断出该数据的值为 .
【答案】68
【分析】由样本中心在回归方程上并求出样本中心,代入求解.
【详解】设表中有一个数据模糊看不清的为m,
,,
由,得,得,
故答案为:68
13.(24-25高三上·上海·单元测试)下列说法中正确的是 .
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量、的相关系数为,则越接近于0,和之间的线性相关程度越强;
④在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大.
【答案】①④
【分析】利用方差的性质判断①的正误;利用回归直线的性质判断②,相关系数判断③,独立检验判断④.
【详解】对于①,将一组数据中的每一个数据都加上或减去同一个常数后,方差不变,满足方差的性质,①正确;
对于②,设有一个线性回归方程,变量x增加1个单位时,平均减少5个单位;所以②不正确;
对于③,设具有相关关系的两个变量x,y的相关系数为r,则越接近于0,x和y之间的线性相关程度越弱,所以③ 不正确;
对于④,在一个2×2列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,所以④正确;
故答案为:①④.
14.(24-25高三·上海·随堂练习)某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为,其中,.
【答案】1384
【分析】计算出,故代入公式得到,,得到,代入,预测第五期的产量.
【详解】设父代产量为,子代产量为,
则,,
所以,
,
所以,.
则线性回归方程为,当时,,
所以预测第五期的产量为每亩1384公斤.
故答案为:1384
15.(2023·上海普陀·二模)“民生”供电公司为了分析“康居”小区的用电量y(单位)与气温x(单位:℃)之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系见下表:
气温x
18
13
10
用电量y
24
34
38
64
若上表中的数据可用回归方程来预测,则当气温为时该小区相应的用电量约为 .
【答案】
【分析】求出样本中心点,再根据线性回归方程必过样本中心点求出,再将代入即可得解.
【详解】,
则,解得,
所以,
当时,,
即当气温为时该小区相应的用电量约为.
故答案为:.
16.(22-23高二下·上海松江·期末)某产品的广告费投入与销售额的统计数据如下表所示(单位:万元):
广告费
4
2
3
5
销售额
49
26
39
54
根据上表建立线性回归方程中的为10,预测广告费为6万元时,销售额约为 万元.
【答案】67
【分析】样本中心代入回归方程,求出,得到回归方程,再由回归方程进行预测.
【详解】,,
把代入回归方程,有,得,
所以线性回归方程为,
当时,有.
故答案为:67
三、解答题
17.(23-24高二上·上海·课后作业)某产品的广告费投入与销售额的统计数据如下表所示.
广告费x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表建立的回归方程中,.的实际意义是什么?
【答案】广告费投入每增加1万元,销售额平均增加万元.
【分析】根据给定的回归方程,结合回归方程斜率的意义回答即可.
【详解】依题意,是指产品的广告费投入每增加1万元,销售额平均增加约为万元.
18.(2024·上海·一模)为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:克每立方米)与样本对原点的距离(单位:米)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中).
6
97.90
0.21
240
0.14
14.12
26.13
(1)利用相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型;
(2)根据(1)的结果建立关于的回归方程,并估计样本对原点的距离米时,平均金属含量是多少?
【答案】(1)更适宜作为回归方程类型;
(2),.
【分析】(1)根据题意,分别求得相关系数的值,结合和,结合,即可得到结论.
(2)(i)根据最小二乘法,求得回归系数,进而求得回归方程;(ii)当时,结合回归方程,即可求得预报值.
【详解】(1)因为的线性相关系数,
的线性相关系数,
因为,
所以更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)依题意,,
则,于是,
所以关于的回归方程为.
当时,金属含量的预报值为.
19.(24-25高三·上海·课堂例题)下面的数据是年龄在40到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平(满分100),以及每天花在看电视上的平均时间(小时).
看电视的平均时间
4.4
4.6
2.7
5.8
0.2
4.6
心脏功能水平
52
53
69
57
89
65
(1)求心脏功能水平与每天花在看电视上的平均时间之间的相关系数;
(2)求心脏功能水平与每天花在看电视上的平均时间的线性回归方程,并讨论方程是否有意义;(系数保留两位小数)
(3)估计平均每天看电视3小时的男子的心脏功能水平.
【答案】(1)
(2),有意义
(3)69
【分析】(1)根据相关系数公式求解即可;
(2)计算线性回归方程,再根据相关系数的绝对值判断即可;
(3)将x=3代入回归直线方程判断即可.
【详解】(1)由题意,,,
,
,
,
心脏功能水平与每天花在看电视上的平均时间之间的相关系数:
;
(2),
,
心脏功能水平与每天花在看电视上的平均时间的线性回归方程为.
因为,样本相关系数的绝对值接近1,
所以可以推断心脏功能水平与每天花在看电视上的平均时间两个变量线性相关,
且相关程度很强,所以这个线性回归方程是有意义的.
(3)将代入线性回归方程,可得,
即平均每天看电视3小时,心脏功能水平约为69.
20.(25-26高三上·上海·单元测试)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2016
2017
2018
2019
2020
时间代号
1
2
3
4
5
储蓄存款/千亿元
5
6
7
8
10
(1)求关于的线性回归方程;
(2)用所求回归方程预测该地区2022年()的人民币储蓄存款.
【答案】(1)
(2)(千亿元)
【分析】(1)由已知,求出,,再求出,,则可求出,,即可求出关于的线性回归方程;
(2)将代入回归方程,即可求出该地区2022年的人民币储蓄存款.
【详解】(1)根据题意得:,,
,
,
,,
所以关于的线性回归方程;
(2)当时,(千亿元),
即该地区2022年()的人民币储蓄存款为12千亿元.
21.(23-24高三下·上海·阶段练习)社会实践是大学生课外教育的一个重要方面,在校大学生利用暑期参加社会实践活动,是认识社会、了解社会、提高自我能力的重要机会.某省统计了该省其中的4所大学2023年毕业生的人数及参加过暑期社会实践活动的人数(单位:千人),得到如下表格:
大学
A大学
B大学
C大学
D大学
2023年毕业生的人数(千人)
7
6
5
4
2023年毕业生中参加过社会实践人数(千人)
0.5
0.4
0.3
0.2
若该省大学2023年毕业生人数为12万人,对参加过暑期社会实践活动的大学生每人发放1000元的补贴.
(1)写出关于的线性回归方程,并估计该省2023年发放补贴的总金额(单位:万元);
(2)若2023年毕业生中的小李、小王参加暑期社会实践活动的概率分别为,该省对小李、小王两人补贴总金额的期望不超过1500元,求的取值范围.
参考公式:.
【答案】(1);1180
(2)
【分析】(1)根据给定数表,结合最小二乘法公式计算即得到回归直线方程,再代入求出参加过暑期社会实践活动的人数,从而估计出补贴的总金额;
(2)设小李、小王参加过暑期社会实践活动的人数为,求出,再利用期望的性质得到不等式,解得即可.
【详解】(1)由数表知,,,
,,
,
,
所以,,
因此,
所以关于的线性回归方程是,
当千人时,(千人),
所以该省要发放补贴的总金额约为:万元;
(2)设小李、小王参加过暑期社会实践活动的人数为,则的可能取值为、、,
所以,
,
,
所以,
因此,解得,而,即,
于是,所以的取值范围是.
原创精品资源学科网独家享有版权,侵权必究!2
学科网(北京)股份有限公司
$$