内容正文:
专题01 成对数据的统计相关性与一元线性回归模型
知识归纳与题型突破
知识点1 散点图
1.散点图:由坐标系及散点形成的数据图叫作散点图.
2.相关关系:如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系.简称为相关关系.(如图a,b)
3.线性相关:如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称它们线性相关,这实际上就是函数关系.(如图c,d)
知识点2 相关系数
知识点3 多组成对数据的相关性
知识点4 系数的相关性与向量夹角
1.将向量的每个元素都减去均值,形成
这表明两组成对数据表示的向量在原点处夹角的余弦值与相关系数公式是一致的.
2.余弦值与数据的相关性:
知识点5 回归直线方程
1.回归直线与回归直线方程:
2.回归分析:
3.一元回归方程:
4.一元线性回归模型:
5.最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.最小.
6.回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
7.样本中心点:(,)称为样本点的中心.回归直线方一点过样本中心.
知识点6 一元线性回归模型的应用
1.运用一元线性回归模型思想解决实际问题的步骤:
2.非线性回归问题
题型一 散点图问题
【例1】(24-25高二下·全国·课后作业)2023年3月6日,中华人民共和国国务院新闻办公室举行“权威部门话开局”系列主题新闻发布会,介绍“加快推进新型工业化做强做优做大实体经济”有关情况.经综合研判,今年我国新能源汽车产业将保持良好的发展态势,生产和销售将实现稳定增长.据统计,去年10月至今年2月某品牌新能源汽车的市场销售量如下表.
月份
10月
11月
12月
1月
2月
销售量万辆
0.6
0.7
1.0
1.3
1.6
(1)根据数据作出散点图;
(2)判断与之间的相关关系.
【变式1-1】(24-25高二下·天津·阶段练习)以下散点图经过标准化后,相关系数最大的是( )
A. B.
C. D.
【变式1-2】(24-25高三下·上海浦东新·阶段练习)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性 B.相关系数变大
C.相关系数变小 D.相关系数不变
【变式1-3】(24-25高二下·全国·课后作业)党的二十大报告指出绿水青山就是金山银山.某市为加快生态文明建设进程,加大生态环境保护投入力度,为祖国现代化建设增砖添瓦.现统计了该市近几年的生态环境保护投入资金,统计如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号x
1
2
3
4
5
6
投入资金y/千万
14
31
33
38
41
47
(1)根据上表作出散点图;
(2)观察散点图,判断投入资金y与年份编号x是否具有相关性.如果有,是正相关还是负相关.
题型二 相关系数问题
【例2】(24-25高二下·全国·课后作业)已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
【变式2-1】(多选)(2024高二下·全国·专题练习)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分
1
2
3
4
5
用时小时)
9.5
8.8
7.8
7
6.1
由上表数据得到的错误结论是( )
参考数据:,
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【变式2-2】(24-25高二下·全国·课后作业)某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
附:.
【变式2-3】(24-25高二下·全国·课后作业)近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2018-2022年某市家庭平均教育支出占家庭总支出的比例(百分比)与年份编号之间的关系:
年份
2018
2019
2020
2021
2022
1
2
3
4
5
21
26
40
49
54
则与的样本相关系数 (保留3位小数).
附:,.
题型三 求回归直线方程
【例3】(24-25高二下·全国·课后作业)随着经济的发展某地居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份
2013
2014
2015
2016
2017
储蓄存款(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,,得到下表:
时间代号
1
2
3
4
5
0
1
2
3
5
(1)求关于的经验回归方程;
(2)通过(1)中的方程,求出关于的经验回归方程;
(3)用所求经验回归方程预测到2021年年底,该银行储蓄存款可达多少?
附:对于经验回归方程,其中,.
【变式3-1】(24-25高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为( )
A.9.6 B.10 C.10.6 D.9.4
【变式3-2】(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【变式3-3】(2025高三下·全国·专题练习)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2020年至2024年的利润(单位:亿元),得到如图所示的散点图.其中2020年至2024年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润Y(单位:亿元)关于年份代码X的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立Y关于X的回归方程;
(3)根据(2)的结果,估计2025年的企业利润.
参考公式及数据:,.
题型四 最小二乘法的应用
【例4】(22-23高三·全国·课后作业)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月1日
3月2日
3月3日
3月4日
3月5日
温差x(℃)
10
11
13
12
9
发芽数y(颗)
23
25
30
26
16
(1)从3月1日至3月5日中任选2天,记发芽的种子数分别为m、n,求事件“且”的概率;
(2)甲,乙两位同学都发现种子的发芽数与昼夜温差近似成线性关系,给出的拟合直线分别为y=2.2x与y=2.5x-3,试利用“最小二乘法”的思想,判断哪条直线拟合程度更好;
(3)你能找到一条比甲、乙两位同学给出的更好的拟合直线吗?如果能,请求出直线方程;如果不能,请说明理由.
【变式4-1】(多选)(24-25高二下·江苏南京·开学考试)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:关于的回归直线方程中,
A.
B.由散点图知变量和负相关
C.相关系数
D.用最小二乘法求得关于的线性回归直线方程为
【变式4-2】(多选)(23-24高二上·全国·课后作业)(多选)设某大学的女生体重Y(单位:kg)与身高X(单位:cm)具有线性相关关系.根据一组样本数据,用最小二乘法建立的线性回归方程为,则下列结论中正确的是( )
A.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
B.回归直线过点
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.两变量Y与X正相关
【变式4-3】(多选)(2023·浙江绍兴·模拟预测)由变量和变量组成的10个成对样本数据得到的经验回归方程为,设过点的直线方程为,记,则( )
A.变量正相关
B.若,则
C.经验回归直线至少经过中的一个点
D.
题型五 根据回归方程求原始数据中的值
【例5】(23-24高二下·甘肃白银·期末)某车间加工零件的数量与加工时间的统计数据如下表:
零件数个
10
20
30
加工时间分钟
21
39
现已求得上表数据的线性回归方程为,但由于某种失误,丢失了其中一个数据,则丟失的数据是 .
【变式5-1】(24-25高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【变式5-2】(24-25高二上·广西梧州·期末)由数据可得关于的线性回归方程为,若,则 .
【变式5-3】(23-24高二下·吉林通化·期中)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验收集到的数据如下表:
零件数-x
10
20
30
40
50
加工时间y/min
62
75
81
89
由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清﹐请你推断出该数据的值为 .
题型六 计算样本中心点
【例6】(2024高三·全国·专题练习)某科研团队研究发现向日葵花盘中所含的二萜化合物对灰葡萄孢菌具有良好的抗菌活性,能通过破坏细胞膜完整性等方式来抑制病原菌生长,增加果蔬的保鲜时长.通过实验得到不同浓度的二萜化合物对灰葡萄孢菌的抑制率如下表:
二萜化合物浓度
20
40
60
80
100
抑制率
10
15
18
21
25
若呈线性相关,且满足经验回归方程为,则当时,抑制率的值为 .
【变式6-1】(23-24高二下·辽宁朝阳·期末)已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【变式6-2】(22-23高二下·陕西商洛·阶段练习)根据如下样本数据得到的回归直线方程为,则下列结论不正确的是( )
2
3
4
5
6
4.0
2.5
-0.5
0.5
-2
A. B.
C. D.预计时,
【变式6-3】(24-25高二上·江西南昌·期末)经过对中学生记忆能力和识图能力进行统计分析,得到如下数据:
记忆能力
4
6
8
10
识图能力
3
5
6
8
由表中数据,求得线性回归方程为,若小明同学的记忆能力为,则可预测其识图能力为( )
A.8 B.6 C.2 D.1.9
题型七 根据样本中心点求参数
【例7】(23-24高二下·甘肃临夏·期末)科技创新赋能高质量发展,某公司研发新产品投入x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示(其中m为后期整理数据时导致数据缺失),且由该5组数据用最小二乘法得到的回归直线方程为.
x
5
6
8
9
12
y
16
20
25
28
m
(1)求m的值.
(2)若将表中的点去掉,样本相关系数r是否改变?说明你的理由.
参考公式:相关系数.
【变式7-1】(24-25高二下·全国·单元测试)某工厂为了研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的回归直线方程为.据此计算出在样本处的随机误差为,则表中m的值为( )
A.4.5 B.4.2 C.4.8 D.5
【变式7-2】(24-25高二上·江西·期末)根据下表数据得到y关于x的线性回归方程,则 .
x
1
2
3
4
y
1
4
5
8
【变式7-3】(23-24高二下·辽宁沈阳·期中)王伯伯家的果园最近4年的支出(单位:万元)和收入(单位:万元)之间的数据如下:
2020年
2021年
2022年
2023年
1.8
2.1
2.3
3.0
2.0
2.8
3.2
4.0
若果园最近4年的收入与支出满足线性相关关系,则的值为 ,若计划2024年该果园的收入达到6万元,预计2024年的支出为 万元.
题型八 根据回归方程进行数据估计
【例8】(21-22高二下·江西吉安·期末)防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
【变式8-1】(23-24高二下·黑龙江双鸭山·开学考试)如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
【变式8-2】(24-25高三上·湖北·阶段练习)某市为创建全国文明城市,自2019年1月1日起,在机动车斑马线礼让行人方面,通过公开违规行车的照片及车牌号,效果显著.下表是该市人民广场某路口连续5年监控设备抓拍到该路口机动车不礼让行人的统计数据:记方案执行时间为执行后第年,不礼让行人车数为(单位:百辆).
/年
1
2
3
4
5
/百辆
5.8
5.2
4.5
3.7
2.8
(1)求不礼让行人车数与执行时间之间的经验回归方程;
(2)预测该路口2025年不礼让行人车数.
参考公式:经验回归方程中斜率和截距的最小二乘法估计公式分别为,.
【变式8-3】(20-21高二·江苏·课后作业)下面的表里是统计学家安斯库姆(F. Anscombe)所提供的4组数据.这四组数据的线性相关系数非常接近,均约等于0.8161,它们的线性回归方程也基本一致,均可表示为.
数据组A
x
10
8
13
9
11
14
6
4
12
7
5
y
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
数据组B
x
10
8
13
9
11
14
6
4
12
7
5
y
9.14
8.14
8.74
8.77
9.26
8.10
6.13
3.10
9.13
7.26
4.74
数据组C
x
10
8
13
9
11
14
6
4
12
7
5
y
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
数据组D
x
8
8
8
8
8
8
8
8
8
8
19
y
6.58
5.76
7.71
8.84
8.47
7.04
5.25
5.56
7.91
6.89
12.50
(1)这四组数据的线性相关程度真的如此一致吗?
(2)对哪个(些)组的数据,可以用回归直线来预测时的y值?
(3)分别对四组数据提出自己的见解.
题型九 根据回归方程进行总体估计
【例9】(24-25高二下·全国·课堂例题)偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科平均分的差叫某科偏差(实际成绩平均分偏差).在某次考试成绩统计中,某老师为了对学生数学偏差(单位:分)与物理偏差(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差
20
15
13
3
2
物理偏差
6.5
3.5
3.5
1.5
0.5
(1)若与之间具有线性相关关系,求关于的回归直线方程;
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.
参考数据和参考公式:,,
回归直线方程为,其中
【变式9-1】(24-25高二上·河北沧州·阶段练习)近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)试求与间的样本相关系数,并说明与是否具有较强的线性相关关系(若0.75,则认为与具有较强的线性相关关系,否则认为没有较强的线性相关关系);
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由.
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为,相关系数.
参考数据:.
【变式9-2】(22-23高二下·河南驻马店·期末)市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x
1
2
3
4
5
6
净利润y(万元)
1.0
1.4
1.7
2.0
2.2
2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若时,则线性相关程度较高,,则线性相关程度一般,计算时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据,其回归直线的斜率
,.相关系数.
参考数据:,,,,,.
【变式9-3】(23-24高二下·陕西西安·期末)某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.
参考数据:,,.
题型十 非线性回归问题
【例10】(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【变式10-1】(24-25高二上·黑龙江哈尔滨·期末)2024年初,哈尔滨利用得天独厚的冰雪资源,成功火出圈,吸引了大批游客前来旅游.2024年底,第26届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.超级冰滑梯作为园区最具人气的娱乐项目,每年冬天都会吸引众多游客慕名前来体验,坐上专用爬犁,上演冰雪版的速度与激情,让游客大呼过瘾.为了提升游客的游玩体验,园区决定增加超级冰滑梯的滑道数量.现有开放滑道数量和游客平均排队等待时间的数据如下:
滑道数量
11
12
13
14
15
平均等待时间(分钟)
88
81
75
70
66
(1)通过回归分析,可以利用模型对与的关系进行拟合.利用表中数据,求出关于的回归方程,并依据该模型预测,为了让游客的平均等待时间不超过40分钟,至少应开放多少条滑道?
(2)园区内超级冰滑梯和雪花摩天轮2个项目每个项目的平均排队时间为60分钟,冰雪世界等4个体验项目每个项目的平均排队时间为40分钟,梦想大舞台等3个演出活动每个项目的平均排队时间为30分钟.由于天气原因,小红决定选择其中的3个项目进行游玩,求小红排队时间总和恰为120分钟的概率;
(3)为吸引游客,园区开展了抽奖活动.现有一家三口参加该抽奖活动,有两种抽奖方式可供选择:
方式①:三人独立抽奖,每人抽奖一次,每人中奖的概率为30%;
方式②:三人组队抽奖,共抽奖三次,第一次中奖的概率为20%,若某次抽奖不中,那么下一次中奖的概率会增加10%,若已中奖,那么下一次中奖的概率恢复到20%.为使三人中奖次数的期望更大,应选择哪种抽奖方式?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:设,,,,,,,,,,.
【变式10-2】(23-24高二下·河北石家庄·阶段练习)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
【变式10-3】(24-25高二上·辽宁·期末)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
1 / 17
学科网(北京)股份有限公司
$$
专题01 成对数据的统计相关性与一元线性回归模型
知识归纳与题型突破
知识点1 散点图
1.散点图:由坐标系及散点形成的数据图叫作散点图.
2.相关关系:如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系.简称为相关关系.(如图a,b)
3.线性相关:如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称它们线性相关,这实际上就是函数关系.(如图c,d)
知识点2 相关系数
知识点3 多组成对数据的相关性
知识点4 系数的相关性与向量夹角
1.将向量的每个元素都减去均值,形成
这表明两组成对数据表示的向量在原点处夹角的余弦值与相关系数公式是一致的.
2.余弦值与数据的相关性:
知识点5 回归直线方程
1.回归直线与回归直线方程:
2.回归分析:
3.一元回归方程:
4.一元线性回归模型:
5.最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.最小.
6.回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
7.样本中心点:(,)称为样本点的中心.回归直线方一点过样本中心.
知识点6 一元线性回归模型的应用
1.运用一元线性回归模型思想解决实际问题的步骤:
2.非线性回归问题
题型一 散点图问题
【例1】(24-25高二下·全国·课后作业)2023年3月6日,中华人民共和国国务院新闻办公室举行“权威部门话开局”系列主题新闻发布会,介绍“加快推进新型工业化做强做优做大实体经济”有关情况.经综合研判,今年我国新能源汽车产业将保持良好的发展态势,生产和销售将实现稳定增长.据统计,去年10月至今年2月某品牌新能源汽车的市场销售量如下表.
月份
10月
11月
12月
1月
2月
销售量万辆
0.6
0.7
1.0
1.3
1.6
(1)根据数据作出散点图;
(2)判断与之间的相关关系.
【答案】(1)作图见解析
(2)正相关关系
【知识点】绘制散点图、根据散点图判断是否线性相关
【分析】(1)根据表格中的数据即可作出散点图;
(2)由散点图即可判断与之间的相关关系.
【详解】(1)作出散点图如下:
(2)由散点图可知,5组样本数据呈正相关关系.
【变式1-1】(24-25高二下·天津·阶段练习)以下散点图经过标准化后,相关系数最大的是( )
A. B.
C. D.
【答案】A
【知识点】判断正、负相关、相关系数的意义及辨析
【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案.
【详解】对于,散点呈上升趋势,线性相关系数为正数,这些点紧密的聚集在一条直线的附近,线性相关性强;
对于,散点分布呈曲线趋势,线性相关程度比弱;
对于,散点呈下降趋势,线性相关系数为负数;
对于,散点分布比较分散,线性相关程度比弱;
所以相关系数最大的是.
故选:.
【变式1-2】(24-25高三下·上海浦东新·阶段练习)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性 B.相关系数变大
C.相关系数变小 D.相关系数不变
【答案】C
【知识点】判断两个变量是否有相关关系、相关系数的意义及辨析
【分析】根据散点图,可判断A选项,加入点后,回归效果变差,从而可判断B,C,D选项.
【详解】对于A,加入点后,变量与预报变量相关性变弱,但不能说不具有线性相关性,故A错误;
对于B,C,D,由于点远离其他点,故加上点后,回归效果会变差,
所以相应的样本相关系数的绝对值会变小,
根据题中散点图,显然,所以会变小,故C正确,B,D错误.
故选:C.
【变式1-3】(24-25高二下·全国·课后作业)党的二十大报告指出绿水青山就是金山银山.某市为加快生态文明建设进程,加大生态环境保护投入力度,为祖国现代化建设增砖添瓦.现统计了该市近几年的生态环境保护投入资金,统计如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号x
1
2
3
4
5
6
投入资金y/千万
14
31
33
38
41
47
(1)根据上表作出散点图;
(2)观察散点图,判断投入资金y与年份编号x是否具有相关性.如果有,是正相关还是负相关.
【答案】(1)答案见解析
(2)具有相关关系,且呈现正相关关系.
【知识点】根据散点图判断是否线性相关、绘制散点图、判断正、负相关
【分析】(1)根据题意直接作出散点图即可;
(2)由散点图直接判断即可.
【详解】(1)作出散点图如下:
(2)由散点图可知,投入资金y与年份编号x具有相关关系,且呈现正相关关系.
题型二 相关系数问题
【例2】(24-25高二下·全国·课后作业)已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
【答案】0.999,具有很强的相关性.
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】根据给定条件,求出相关数据,再代入公式计算即可得答案.
【详解】依题意,,
,
,
,
因此,
所以这组成对的样本数据相关系数为0.999,具有很强的相关性.
【变式2-1】(多选)(2024高二下·全国·专题练习)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分
1
2
3
4
5
用时小时)
9.5
8.8
7.8
7
6.1
由上表数据得到的错误结论是( )
参考数据:,
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【答案】ABD
【知识点】判断正、负相关、线性回归、相关系数的计算
【分析】利用公式求出相关系数值,根据相关系数的正负值判断与正负相关性;利用相关系数值判断相关程度强与弱.
【详解】由题意,
,
,,
且
因为相关系数.
即相关系数近似为,且相关程度强,
并且与负相关,从而可用线性回归模型拟合与的关系.
所以选项ABD错误,C正确.
故选:ABD.
【变式2-2】(24-25高二下·全国·课后作业)某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
附:.
【答案】
【知识点】相关系数的计算
【分析】根据题意,结合表格中的数据,利用相关系数的计算公式,准确计算,即可求解.
【详解】由表格中的数据,可得,,
则,
,,
故.
故答案为:.
【变式2-3】(24-25高二下·全国·课后作业)近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2018-2022年某市家庭平均教育支出占家庭总支出的比例(百分比)与年份编号之间的关系:
年份
2018
2019
2020
2021
2022
1
2
3
4
5
21
26
40
49
54
则与的样本相关系数 (保留3位小数).
附:,.
【答案】0.976
【知识点】计算几个数的平均数、相关系数的计算
【分析】根据题中数据分别求,代入相应公式运算即可.
【详解】由题意可知:,
可得,
所以.
故答案为:0.976.
题型三 求回归直线方程
【例3】(24-25高二下·全国·课后作业)随着经济的发展某地居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份
2013
2014
2015
2016
2017
储蓄存款(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,,得到下表:
时间代号
1
2
3
4
5
0
1
2
3
5
(1)求关于的经验回归方程;
(2)通过(1)中的方程,求出关于的经验回归方程;
(3)用所求经验回归方程预测到2021年年底,该银行储蓄存款可达多少?
附:对于经验回归方程,其中,.
【答案】(1)
(2)
(3)14.4千亿元
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)利用最小二乘法求出z关于t的线性回归方程;
(2)通过,代入,把z关于t的线性回归方程化成y关于x的回归方程;
(3)利用回归方程代入求值.
【详解】(1)设关于的线性回归方程为,
经计算得:,,
,
,
∴,,
∴;
(2)将,代入得:,
即;
(3)时,(千亿元),
预测到年年底,该银行储蓄存款额可达千亿元.
【变式3-1】(24-25高二下·全国·课后作业)已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为( )
A.9.6 B.10 C.10.6 D.9.4
【答案】A
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】先根据,求出,再根据去掉的两组数据发现样本中心点没变,求出新的回归直线方程,将代入即可求得.
【详解】由和,得.
所以去掉数据与后得到的新数据的平均数,,
由题意可设去掉两组数据后的经验回归方程为,
代入,求得,
故去掉与这两组数据后求得的经验回归方程为.
将代入经验回归方程,得.
故选:A.
【变式3-2】(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【答案】A
【知识点】求回归直线方程
【分析】根据公式可求得结果.
【详解】由题可得,,
由,
,
所以所求经验回归方程为.
故选:A.
【变式3-3】(2025高三下·全国·专题练习)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2020年至2024年的利润(单位:亿元),得到如图所示的散点图.其中2020年至2024年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,和哪一个适宜作为企业利润Y(单位:亿元)关于年份代码X的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立Y关于X的回归方程;
(3)根据(2)的结果,估计2025年的企业利润.
参考公式及数据:,.
【答案】(1)适宜
(2)
(3)99.25亿元.
【知识点】由散点图画求近似回归直线、用回归直线方程对总体进行估计、求回归直线方程
【分析】(1)利用散点图的变化趋势,即可得出答案;
(2)利用最小二乘法求出即可得解;
(3)令即可得解.
【详解】(1)由散点图的变化趋势,知适宜作为企业利润Y(单位:亿元)关于年份代码X的回归方程类型.
(2)由题意得:,,
,
所以.
(3)令,估计2025年的企业利润为99.25亿元.
题型四 最小二乘法的应用
【例4】(22-23高三·全国·课后作业)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月1日
3月2日
3月3日
3月4日
3月5日
温差x(℃)
10
11
13
12
9
发芽数y(颗)
23
25
30
26
16
(1)从3月1日至3月5日中任选2天,记发芽的种子数分别为m、n,求事件“且”的概率;
(2)甲,乙两位同学都发现种子的发芽数与昼夜温差近似成线性关系,给出的拟合直线分别为y=2.2x与y=2.5x-3,试利用“最小二乘法”的思想,判断哪条直线拟合程度更好;
(3)你能找到一条比甲、乙两位同学给出的更好的拟合直线吗?如果能,请求出直线方程;如果不能,请说明理由.
【答案】(1)
(2)直线y=2.5x-3的拟合效果更好
(3)能,
【知识点】用回归直线方程对总体进行估计、求回归直线方程、最小二乘法的概念及辨析、计算古典概型问题的概率
【分析】(1)应用古典概型公式求解即可;(2) 用两个直线作为拟合直线时所得的y的值与y的实际值的差的平方和
为依据比较模拟效果;(3)应用已知数据求样本中心点,再求,代入样本中心点可求,即可求得回归直线方程
【详解】(1)m、n的取值情况有,,
基本事件总数为10.设“且”为事件A,
则事件A包含的基本事件为基本事件数为3,得,
所以事件“且”的概率为.
(2)分别计算甲、乙给出的拟合直线的y的值,得到下表:
x
10
11
13
12
9
y
23
25
30
26
16
y=2.2x
22
24.2
28.6
26.4
19.8
y=2.5x-3
22
24.5
29.5
27
19.5
用y=2.2x作为拟合直线时,所得的y的值与y的实际值的差的平方和为
.
用y=2.5x-3作为拟合直线时,所得的y的值与y的实际值的差的平方和为
.
由于,因此直线y=2.5x-3的拟合效果更好.
(3)由列表得:,,;.
设回归方程为,则
,,
所以能找到方程为的拟合直线比甲、乙两位同学给出的更好.
【变式4-1】(多选)(24-25高二下·江苏南京·开学考试)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:关于的回归直线方程中,
A.
B.由散点图知变量和负相关
C.相关系数
D.用最小二乘法求得关于的线性回归直线方程为
【答案】AC
【知识点】绘制散点图、求回归直线方程、相关系数的意义及辨析、计算样本的中心点
【分析】对于A,根据条件,直接求出,即可求解;对于B和C,根据条件,画出散点图,即可求解;对于D,利用线性回归直线方程过样中心,代入计算,即可求解.
【详解】对于选项A,由题知,,故选项A正确,
对于选项B,由图表可得散点图如下,由散点图知变量和正相关,所以选项B错误,
对于选项C,由选项B知变量和正相关,所以,故选项C正确,
对于选项D,因为样本中心点为,又,
所以不是关于的线性回归直线方程,故选项D错误,
故选:AC.
【变式4-2】(多选)(23-24高二上·全国·课后作业)(多选)设某大学的女生体重Y(单位:kg)与身高X(单位:cm)具有线性相关关系.根据一组样本数据,用最小二乘法建立的线性回归方程为,则下列结论中正确的是( )
A.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
B.回归直线过点
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.两变量Y与X正相关
【答案】BCD
【知识点】根据回归方程进行数据估计、最小二乘法的概念及辨析、解释回归直线方程的意义、判断正、负相关
【分析】根据线性回归方程的含义可判断A,B,C;根据回归方程的系数可判断两变量Y与X正相关,判断D.
【详解】用所给的线性回归方程对总体进行估计不能得到肯定的结论,
故该大学某女生身高为170cm,则可说其体重大约为58.79 kg,故A不正确;
由最小二乘法的计算公式可知,回归直线过样本中心点,B正确;
依据线性回归方程中的含义可知,X每变化1个单位,Y相应变化约为0.85个单位,C正确;
回归方程中X的系数为0.85,,因此Y与X正相关,D正确.
故选:BCD
【变式4-3】(多选)(2023·浙江绍兴·模拟预测)由变量和变量组成的10个成对样本数据得到的经验回归方程为,设过点的直线方程为,记,则( )
A.变量正相关
B.若,则
C.经验回归直线至少经过中的一个点
D.
【答案】ABD
【知识点】判断正、负相关、最小二乘法的概念及辨析、计算样本的中心点
【分析】根据回归直线的相关性质分别判断各个选项即可.
【详解】对于A:回归方程一次项系数大于零是正相关,A正确;
对于B:代入回归直线可得,B正确;
经验回归直线可以不经过任意一个点,C错误;
根据回归直线的求法最小二乘法值,回归直线的残差平方和最小,D正确.
故选:ABD.
题型五 根据回归方程求原始数据中的值
【例5】(23-24高二下·甘肃白银·期末)某车间加工零件的数量与加工时间的统计数据如下表:
零件数个
10
20
30
加工时间分钟
21
39
现已求得上表数据的线性回归方程为,但由于某种失误,丢失了其中一个数据,则丟失的数据是 .
【答案】
【知识点】根据样本中心点求参数、根据回归方程求原数据中的值
【分析】根据题意,求得,代入回归方程,即可求解.
【详解】由车间加工零件的数量与加工时间的统计数据表,可得,
因为线性回归方程一定经过点,可得,
解得.
故答案为:.
【变式5-1】(24-25高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【答案】C
【知识点】计算样本的中心点、根据回归方程进行数据估计、根据样本中心点求参数
【分析】根据给定条件,求出样本的中心点并求出经验回归方程,进而求出身高的估计值.
【详解】由,,得样本的中心点为,
则,解得,因此经验回归方程为,
当时,(cm).
故选:C
【变式5-2】(24-25高二上·广西梧州·期末)由数据可得关于的线性回归方程为,若,则 .
【答案】32
【知识点】根据回归方程求原数据中的值、根据样本中心点求参数
【分析】根据线性回归方程过求解即可.
【详解】依题意,,由,得,解得,所以.
故答案为:32
【变式5-3】(23-24高二下·吉林通化·期中)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验收集到的数据如下表:
零件数-x
10
20
30
40
50
加工时间y/min
62
75
81
89
由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清﹐请你推断出该数据的值为 .
【答案】68
【知识点】根据样本中心点求参数、根据回归方程求原数据中的值
【分析】先求样本中心点,再根据回归直线经过样本中心点求参即可.
【详解】由于回归直线方程过样本中心点,,,
代入回归直线方程得,解得,
故答案为:68.
题型六 计算样本中心点
【例6】(2024高三·全国·专题练习)某科研团队研究发现向日葵花盘中所含的二萜化合物对灰葡萄孢菌具有良好的抗菌活性,能通过破坏细胞膜完整性等方式来抑制病原菌生长,增加果蔬的保鲜时长.通过实验得到不同浓度的二萜化合物对灰葡萄孢菌的抑制率如下表:
二萜化合物浓度
20
40
60
80
100
抑制率
10
15
18
21
25
若呈线性相关,且满足经验回归方程为,则当时,抑制率的值为 .
【答案】
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】根据样本中心点坐标在回归方程上,可得,代入计算可得结果.
【详解】由题得,,
所以,解得,
可得,
当时,.
故答案为:
【变式6-1】(23-24高二下·辽宁朝阳·期末)已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【答案】D
【知识点】用回归直线方程对总体进行估计
【分析】根据样本中心点在回归直线方程上代入计算可得结果.
【详解】易知样本数据的中心点在回归直线方程上,
易知,所以,
即,可得.
故选:D
【变式6-2】(22-23高二下·陕西商洛·阶段练习)根据如下样本数据得到的回归直线方程为,则下列结论不正确的是( )
2
3
4
5
6
4.0
2.5
-0.5
0.5
-2
A. B.
C. D.预计时,
【答案】D
【知识点】解释回归直线方程的意义、用回归直线方程对总体进行估计、根据样本中心点求参数
【分析】根据表格中的数据,求得样本中点的坐标,结合由随着的增大而趋于减小,逐项判定,即可求解.
【详解】由表格中的数据,可得,,
所以样本点的中心的坐标为,
对于B中,由随着的增大而趋于减小,可得的斜率,所以B正确;
对于A中,当时,可得,所以A正确;
对于C中,将样本中心代入回归方程,可得,所以C正确;
对于D中,由由随着的增大而趋于减小,预计时,,所以D错误.
故选:D.
【变式6-3】(24-25高二上·江西南昌·期末)经过对中学生记忆能力和识图能力进行统计分析,得到如下数据:
记忆能力
4
6
8
10
识图能力
3
5
6
8
由表中数据,求得线性回归方程为,若小明同学的记忆能力为,则可预测其识图能力为( )
A.8 B.6 C.2 D.1.9
【答案】D
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】求出,线性回归方程恒过,代入即可求出,再令,代入求解即可.
【详解】由表中数据可得,,,
又线性回归方程为,则,解得,
故,当时,.
故选:D
题型七 根据样本中心点求参数
【例7】(23-24高二下·甘肃临夏·期末)科技创新赋能高质量发展,某公司研发新产品投入x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示(其中m为后期整理数据时导致数据缺失),且由该5组数据用最小二乘法得到的回归直线方程为.
x
5
6
8
9
12
y
16
20
25
28
m
(1)求m的值.
(2)若将表中的点去掉,样本相关系数r是否改变?说明你的理由.
参考公式:相关系数.
【答案】(1)
(2)不变,理由见解析
【知识点】根据样本中心点求参数、相关系数的计算、相关系数的意义及辨析、根据回归方程求原数据中的值
【分析】(1)计算平均数得样本中心,即可代入求解,
(2)根据相关系数的计算公式即可求解.
【详解】(1)由题意可知,,,
所以样本中心为,将点代入,可得,解得.
(2)由(1)可得,样本中心为,所以,.
由相关系公式知,,将点去掉后,样本相关系数r不变
【变式7-1】(24-25高二下·全国·单元测试)某工厂为了研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的回归直线方程为.据此计算出在样本处的随机误差为,则表中m的值为( )
A.4.5 B.4.2 C.4.8 D.5
【答案】A
【知识点】计算样本的中心点、求回归直线方程、根据回归方程求原数据中的值
【分析】根据条件求出,再运用回归直线经过样本中心可解.
【详解】根据题意可得,在样本处,,则,解得.
由题表可知,.
因为回归直线过样本点的中心,
所以.故,解得.
故选:A.
【变式7-2】(24-25高二上·江西·期末)根据下表数据得到y关于x的线性回归方程,则 .
x
1
2
3
4
y
1
4
5
8
【答案】1
【知识点】根据样本中心点求参数
【分析】根据给定的数表求出样本的中心点,再利用回归直线方程求出的值.
【详解】,
所以,解得.
故答案为:1
【变式7-3】(23-24高二下·辽宁沈阳·期中)王伯伯家的果园最近4年的支出(单位:万元)和收入(单位:万元)之间的数据如下:
2020年
2021年
2022年
2023年
1.8
2.1
2.3
3.0
2.0
2.8
3.2
4.0
若果园最近4年的收入与支出满足线性相关关系,则的值为 ,若计划2024年该果园的收入达到6万元,预计2024年的支出为 万元.
【答案】 4.175
【知识点】用回归直线方程对总体进行估计、计算样本的中心点、根据回归方程进行数据估计、根据样本中心点求参数
【分析】由已知求得样本点的中心坐标,代入线性回归方程求解;然后在线性回归方程中取求得值即可.
【详解】由图表可知,,,
则样本点的中心为,
代入,得.
收入与支出满足线性回归方程为.
取,可得,则.
预计2024年的支出为4.175万元.
故答案为:;4.175.
题型八 根据回归方程进行数据估计
【例8】(21-22高二下·江西吉安·期末)防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
【答案】(1),6月份该厂的订单数为59.9万元;
(2),与之间具有很强的正相关关系.
【知识点】求回归直线方程、线性回归、相关系数的计算、根据回归方程进行数据估计
【分析】(1)求出与的值,可得关于的线性回归方程,取求得值得答案;
(2)由已知数据求得值,可得与的相关系数近似为0.99,故与之间的线性相关程度相当高.
【详解】(1)解:由题可得:,
,
,
关于的线性回归方程为,
2022年6月对应的变量为6,将代入,
得,
估计6月份该厂的订单数为59.9万元.
(2)相关系数.
与之间具有很强的正相关关系.
【变式8-1】(23-24高二下·黑龙江双鸭山·开学考试)如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
【答案】回归方程为,预测2024年该地区生活垃圾无害化处理量将约万吨
【知识点】根据回归方程进行数据估计、计算样本的中心点、线性回归、求回归直线方程
【分析】根据最小二乘法计算出回归方程,进而代入预测值,即可求解.
【详解】,,
,
得,
又,,
y关于t的回归方程为.
,将2024对应的代入回归方程得:,
预测2024年该地区生活垃圾无害化处理量将约万吨.
【变式8-2】(24-25高三上·湖北·阶段练习)某市为创建全国文明城市,自2019年1月1日起,在机动车斑马线礼让行人方面,通过公开违规行车的照片及车牌号,效果显著.下表是该市人民广场某路口连续5年监控设备抓拍到该路口机动车不礼让行人的统计数据:记方案执行时间为执行后第年,不礼让行人车数为(单位:百辆).
/年
1
2
3
4
5
/百辆
5.8
5.2
4.5
3.7
2.8
(1)求不礼让行人车数与执行时间之间的经验回归方程;
(2)预测该路口2025年不礼让行人车数.
参考公式:经验回归方程中斜率和截距的最小二乘法估计公式分别为,.
【答案】(1)
(2)140辆
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据线性回归方程的求法计算得解;
(2)根据所求回归方程代入数据预测即可.
【详解】(1)由题意得,,,
由最小二乘法估计可得
,
不礼让行人车数与执行时间的经验回归方程为;
(2)在2025年年底时,该方案已执行7年,
令得到,
2025年该路口不礼让行人车数的预测值是140辆.
【变式8-3】(20-21高二·江苏·课后作业)下面的表里是统计学家安斯库姆(F. Anscombe)所提供的4组数据.这四组数据的线性相关系数非常接近,均约等于0.8161,它们的线性回归方程也基本一致,均可表示为.
数据组A
x
10
8
13
9
11
14
6
4
12
7
5
y
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
数据组B
x
10
8
13
9
11
14
6
4
12
7
5
y
9.14
8.14
8.74
8.77
9.26
8.10
6.13
3.10
9.13
7.26
4.74
数据组C
x
10
8
13
9
11
14
6
4
12
7
5
y
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
数据组D
x
8
8
8
8
8
8
8
8
8
8
19
y
6.58
5.76
7.71
8.84
8.47
7.04
5.25
5.56
7.91
6.89
12.50
(1)这四组数据的线性相关程度真的如此一致吗?
(2)对哪个(些)组的数据,可以用回归直线来预测时的y值?
(3)分别对四组数据提出自己的见解.
【答案】(1)四组数据线性相关程度不一致;
(2)C组数据预测时的y值;
(3)见解见解析.
【知识点】根据散点图判断是否线性相关、线性回归、非线性回归、相关系数的意义及辨析
【分析】(1)根据各组数据画出对应散点图,即可知它们的线性相关程度是否一致.
(2)根据(1)所得的散点图,及对应拟合直线即可判断用哪组数据预测.
(3)注意数据分析需要对原始数据作图分析,并对变量间的关系作基本的判断,再进行作统计分析.
【详解】(1)数据组A对应散点图及拟合直线如下:
数据组B对应散点图及拟合直线如下:
数据组C对应散点图及拟合直线如下:
数据组D对应散点图及拟合直线如下:
由上散点图知:四组数据的线性相关程度不一致.
(2)由(1)中的散点图及其拟合直线知:
∴数据组C的更接近回归直线,故用它来预测时的y值.
(3)1、相关指数接近且回归直线一致,并不能保证数据样本之间的线性相关程度一致;
2、数据分析前需要对原始数据作图分析,相关变量的关系是非线性的,而分析过程中应用线性方程拟合,会导致分析结果与实际结果有很大的差异.
题型九 根据回归方程进行总体估计
【例9】(24-25高二下·全国·课堂例题)偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科平均分的差叫某科偏差(实际成绩平均分偏差).在某次考试成绩统计中,某老师为了对学生数学偏差(单位:分)与物理偏差(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号
1
2
3
4
5
6
7
8
数学偏差
20
15
13
3
2
物理偏差
6.5
3.5
3.5
1.5
0.5
(1)若与之间具有线性相关关系,求关于的回归直线方程;
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.
参考数据和参考公式:,,
回归直线方程为,其中
【答案】(1)
(2)94分.
【知识点】根据回归方程进行数据估计、求回归直线方程、用回归直线方程对总体进行估计
【分析】(1)利用最小二乘法即可求解,
(2)代入即可求解.
【详解】(1)由题意可得,
,
,
,
所以,
故回归直线方程为.
(2)由题意,设该同学的物理成绩为,则物理偏差为.
而数学偏差为,
所以,
解得,
所以,可以预测这位同学的物理成绩为94分.
【变式9-1】(24-25高二上·河北沧州·阶段练习)近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)试求与间的样本相关系数,并说明与是否具有较强的线性相关关系(若0.75,则认为与具有较强的线性相关关系,否则认为没有较强的线性相关关系);
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由.
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为,相关系数.
参考数据:.
【答案】(1)0.95,与具有较强的线性相关关系.
(2),估计值为4.6.
(3)需要进行治理,理由见解析
【知识点】根据回归方程进行数据估计、相关指数的计算及分析、相关系数的计算、求回归直线方程
【分析】(1)求出,求出相关系数公式中的各个量,即可得出结论;
(2)利用(1)中的数据求出,求出线性回归方程,即可求出时,的值;
(3)分别求出,的值,13与对比,即可得出结论.
【详解】(1)由题表得,.
,
所以,
,
,
所以,
因为,所以与具有较强的线性相关关系.
(2)由(1)得,
所以经验回归方程为.
当时,,
即当指标为7时,指标的估计值为4.6.
(3)该城市的交通管理部门需要进行治理.理由如下:
由题意得,
因为,所以该城市的交通管理部门需要进行治理.
【变式9-2】(22-23高二下·河南驻马店·期末)市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x
1
2
3
4
5
6
净利润y(万元)
1.0
1.4
1.7
2.0
2.2
2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若时,则线性相关程度较高,,则线性相关程度一般,计算时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据,其回归直线的斜率
,.相关系数.
参考数据:,,,,,.
【答案】(1)可以,理由见解析
(2),3.32万元
【知识点】求回归直线方程、线性回归、相关系数的计算、根据回归方程进行数据估计
【分析】(1)计算出相关数据,利用相关系数公式计算即可;
(2)根据线性回归方程公式计算即可.
【详解】(1)由条件则,
,
.
根据相关系数公式则
.
因此可以用线性回归模型拟合x与y的关系.
(2)根据(1)则变量x,y线性相关,设所求的线性回归方程为.
根据回归方程的回归系数公式则
.
又因为.
从而可得变量x,y线性回归方程为
当时,
因此预测9月份的利润为3.32万元.
【变式9-3】(23-24高二下·陕西西安·期末)某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.
参考数据:,,.
【答案】(1),相关程度较高
(2),9.3亿元
【知识点】相关系数的计算、求回归直线方程、用回归直线方程对总体进行估计
【分析】(1)通过计算相关系数来进行判断.
(2)先计算回归直线方程,并由此作出预测.
【详解】(1)由表中数据可知,,,
,,,
则,
故相关程度较高;
(2),,
则,,
故,
令,解得,
故研发投入至少9.3亿元.
题型十 非线性回归问题
【例10】(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
【知识点】非线性回归、相关系数的意义及辨析、根据回归方程进行数据估计
【分析】(1)分别求出两种模型的相关系数,再根据相关系数的几何意义即可得出结论;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解.
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
【变式10-1】(24-25高二上·黑龙江哈尔滨·期末)2024年初,哈尔滨利用得天独厚的冰雪资源,成功火出圈,吸引了大批游客前来旅游.2024年底,第26届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.超级冰滑梯作为园区最具人气的娱乐项目,每年冬天都会吸引众多游客慕名前来体验,坐上专用爬犁,上演冰雪版的速度与激情,让游客大呼过瘾.为了提升游客的游玩体验,园区决定增加超级冰滑梯的滑道数量.现有开放滑道数量和游客平均排队等待时间的数据如下:
滑道数量
11
12
13
14
15
平均等待时间(分钟)
88
81
75
70
66
(1)通过回归分析,可以利用模型对与的关系进行拟合.利用表中数据,求出关于的回归方程,并依据该模型预测,为了让游客的平均等待时间不超过40分钟,至少应开放多少条滑道?
(2)园区内超级冰滑梯和雪花摩天轮2个项目每个项目的平均排队时间为60分钟,冰雪世界等4个体验项目每个项目的平均排队时间为40分钟,梦想大舞台等3个演出活动每个项目的平均排队时间为30分钟.由于天气原因,小红决定选择其中的3个项目进行游玩,求小红排队时间总和恰为120分钟的概率;
(3)为吸引游客,园区开展了抽奖活动.现有一家三口参加该抽奖活动,有两种抽奖方式可供选择:
方式①:三人独立抽奖,每人抽奖一次,每人中奖的概率为30%;
方式②:三人组队抽奖,共抽奖三次,第一次中奖的概率为20%,若某次抽奖不中,那么下一次中奖的概率会增加10%,若已中奖,那么下一次中奖的概率恢复到20%.为使三人中奖次数的期望更大,应选择哪种抽奖方式?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:设,,,,,,,,,,.
【答案】(1),21条
(2)
(3)方式一
【知识点】非线性回归、计算古典概型问题的概率、二项分布的均值、均值的实际应用
【分析】(1)根据所给的数据,利用最小二乘估计法求和,即可求解回归方程,再根据方程转化为不等式,即可求解;
(2)根据古典概型概率公式,结合组合公式,即可求解;
(3)分别求两个方式的分布,以及期望,比较大小,即可判断.
【详解】(1)设,
则,,∴
令,,∴至少应开放21条滑道
(2)设事件“小红排队时间总和恰为120分钟”
则4个体验项目选取3个,或是超级冰滑梯和雪花摩天轮选1个,或是梦想大舞台3个中选2个,则
,
(3)方式①:中奖次数,
方式二:设中奖次数为
,
,
,所以选方式一
【变式10-2】(23-24高二下·河北石家庄·阶段练习)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
【答案】(1);
(2)乙建立的回归模型拟合效果更好.
【知识点】求回归直线方程、非线性回归、相关系数的意义及辨析、根据样本中心点求参数
【分析】(1)对两边取对数得,令,利用最小二乘法可求得,由此可得回归方程;
(2)根据公式计算可得相关指数,由此可得结论;
【详解】(1)将两边取对数得:,
令,则,
因为,
所以根据最小二乘估计可知:,
所以,
所以回归方程为,即.
(2)甲建立的回归模型的.
所以乙建立的回归模型拟合效果更好.
【变式10-3】(24-25高二上·辽宁·期末)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【知识点】非线性回归、求离散型随机变量的均值、利用全概率公式求概率
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
1 / 17
学科网(北京)股份有限公司
$$