内容正文:
第11讲 线性回归分析
目录
题型归纳 1
题型01 根据散点图判断是否线性相关 3
题型02 解释回归直线方程的意义 4
题型03 用回归直线方程对总体进行估计 6
题型04 根据回归方程求原数据中的值 6
题型05 计算样本的中心点 7
题型06 根据回归方程进行数据估计 8
题型07 根据样本中心点求参数 10
题型08 求回归方程 12
题型09 最小二乘法的概念及辨析 14
分层练习 16
夯实基础 16
能力提升 21
知识点01一元线性回归
回归
直线
从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线
回归
方程
线性回归方程: =+x中,
回归系数的计算公式: ==,
的计算公式: =-.
相关
系数
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性
[方法技巧]
判断相关关系的两种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.
1.回归直线方程中系数的两种求法
(1)公式法:利用公式,求出回归系数,.
(2)待定系数法:利用回归直线过样本点中心(,)求系数.
2.回归分析的两种策略
(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.
(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数.
题型01根据散点图判断是否线性相关
【例1】(22-23高二下·四川成都·期中)下列关系图中,变量与具有正相关关系的是( )
A. B.
C. D.
【变式1】(20-21高二上·陕西榆林·期中)在下列各图中,变量、具有线性相关关系的是( )
A. B.
C. D.
【变式2】(21-22高二下·陕西咸阳·期中)如表中给出五组数据,从中选出四组使其线性相关最大,且保留第一组,那么应去掉第 组.
1
2
3
4
5
-5
-4
-3
-2
4
-3
-2
4
-1
6
【变式3】(20-21高一下·陕西宝鸡·期中)如图是根据变量、的观测数据得到的散点图,由这些散点图可以判断变量、具有相关关系的图是 (填序号).
题型02 解释回归直线方程的意义
【例2】(20-21高二下·新疆巴音郭楞·期中)已知某回归方程为:,则当解释变量增加1个单位时,预报变量平均:( )
A.增加3个单位 B.增加个单位
C.减少3个单位 D.减少个单位
【变式1】(22-23高二下·四川眉山·期中)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①与负相关且;
②y与负相关且;
③y与正相关且;
④y与正相关且.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
【变式2】(20-21高二下·天津西青·期末)对两个变量x,y进行回归分析.
①残差的平方和越小,模型的拟合效果越好;
②相关系数的绝对值接近于0,两个随机变量的线性相关性越强;
③在经验回归方程中,当解释变量x每增加1个单位时,相应变量平均增加个单位;
④某人研究儿子身高与父亲身高的关系,得到经验回归方程,当时,,即:如果一个父亲的身高为,则儿子的升高一定为.
则以上结论中正确的序号为 .
【变式3】(20-21高二上·山东德州·期末)19世纪中期,英国著名的统计学家弗朗西斯·高尔顿搜集了1078对夫妇及其儿子的身高数据,发现这些数据的散点图大致呈直线状态,即儿子的身高y(单位:cm)与父母平均身高x(单位:cm)具有线性相关关系,通过样本数据,求得回归直线方程,则下列结论中正确的是 .
①回归直线方程至少过,,…,中的一个点;
②若,,则回归直线过点;
③若父母平均身高增加1cm,则儿子身高估计增加0.516cm;
④若样本数据所构成的点都在回归直线上,则线性相关系数.
题型03 用回归直线方程对总体进行估计
【例3】(22-23高二下·江苏南通·阶段练习)设某中学的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据,用最小二乘法建立的经验回归方程为.若该中学女生的平均身高为,则该中学女生的平均体重的估计值是( )
A. B. C. D.
【变式1】(20-21高二上·江西上饶·期末)给出下列说法:
①回归直线恒过样本点的中心;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变;
④在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位.
其中说法正确的是 .
【变式2】(20-21高二下·天津河北·期末)假如女儿身高为(单位:)关于父亲身高(单位:)的经验回归方程为,,已知父亲的身高为,则可以估计女儿的身高为 .(四舍五入到个位)
【变式3】(21-22高二下·河南焦作·期末)为了解某小区居民的家庭年收入(万元)与年支出(万元),随机调查了该小区的10户家庭,根据调查数据可得关于的回归直线方程为,,.若该小区某家庭的年收入为30万元,则估计该家庭的年支出为 万元.
题型04 根据回归方程求原数据中的值
【例4】(23-24高二上·江苏常州·期末)用最小二乘法得到一组数据的线性回归方程为,若,则( )
A.11 B.13 C.63 D.78
【变式1】(22-23高二下·河南南阳·期中)鞋子的尺码又叫鞋号,这是一种衡量人类脚的形状以便配鞋的标准单位系统,已知女鞋欧码及对应的脚长(单位:厘米)如下表所示:
脚长
22
22
22.5
23
23.5
24
24.5
25
25.5
26
26.5
27
欧码
35
35.5
36
36.5
37.5
38
38.5
39
40
40.5
41
42
某数学兴趣小组通过调查发现某高中的女学生的脚长x(单位:厘米)和身高y(单位:厘米)之间有线性相关关系,其回归直线方程为.已知该高中某女学生的身高为166厘米,则预测她穿的鞋子为( )
A.36码 B.36.5码
C.38码 D.39码
【变式2】(23-24高二下·河南·期末)已知变量和的统计数据如下表:
1
2
3
4
5
1.5
2
4
4.5
若由表中数据得到经验回归直线方程为,则 .
【变式3】(20-21高二下·新疆塔城·期中)在2014年3月15日那天,某物价部门对市内的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格
9
9.5
10
10.5
11
销量
10
8
6
5
由最小二乘法求得线性回归方程为=-3.2x+40,发现表中有一个数据模糊不清,则该处数据的值为 .
题型05 计算样本的中心点
【例5】(22-23高二下·天津和平·期中)如果记录了,的几组数据分别为,,,,那么y关于x的经验回归直线必过点( )
A. B. C. D.
【变式1】(23-24高二下·广东江门·期末)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了6次试验,收集数据如下表所示,建立加工时间关于零件数的一元线性回归模型,则回归直线必过点( )
零件数个
50
60
70
80
90
100
加工时间min
88
95
102
108
115
122
A. B. C. D.
【变式2】(22-23高二·全国·课后作业)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据: ,,,,,根据收集到的数据可知,并求得回归直线方程为,则的值为 .
【变式3】(21-22高三上·辽宁沈阳·阶段练习)观测两相关变量得如下数据:
则两变量间的回归直线必过点 .
题型06 根据回归方程进行数据估计
【例6】(23-24高二下·吉林长春·期末)对于数据组,如果由线性回归方程得到的自变量的估计值是,那么将称为样本点处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到下表所示数据.若某商品销量y(单位:件)与单价x(单位:元)之间的线性回归方程为,且样本点处的残差为2,则( )
单价x/元
8.2
8.4
8.6
8.8
销量y/件
84
82
78
m
A.66 B.68 C.70 D.72
【变式1】(23-24高二下·陕西西安·期末)已知一系列样本点的一个经验回归方程为,若样本点的残差为2,则( ).
A. B.1 C. D.5
【变式2】(23-24高二上·江西·期末)“守得住经典,当得了网红”,这是时下人们对国货最高的评价,网络平台的发展让越来越多的消费者熟悉了国货品牌的优势,使得各大国货品牌都受到高度关注,销售额迅速增长,已知某国货品牌2023年8-12月在网络平台的月销售额(单位:百万元)与月份具有线性相关关系,并根据这5个月的月销售额,求得回归方程为,则该国货品牌2023年8-12月在网络平台的总销售额为 百万元.
【变式3】(22-23高二下·黑龙江七台河·期末)某市场研究人员为了了解产业园引进的甲公司前期的经营状况,对该公司2022年连续六个月(1~6月)的利润进行了统计,并根据得到的数据绘制了相应的折线图,如图所示.
(1)由折线图可以看出,可用线性回归模型拟合月利润y(单位:百万元)与月份x之间的关系,求y关于x的经验回归方程,并据此预测该公司2022年12月份的利润;
(2)甲公司新研制了一款产品,需要采购一批新型材料,现有A,B两种型号的新型材料可供选择,按规定每种新型材料最多可使用4个月,但新型材料的不稳定性会导致材料损坏的时间不同,现对A,B两种型号的新型材料对应的产品各100件进行科学模拟测试,得到如下频数统计表.若从产品使用寿命的角度考虑,甲公司的负责人选择采购哪款新型材料更好?(用频率估计概率)
材料类型
使用寿命
1个月
2个月
3个月
4个月
合计
A
20
35
35
10
100
B
10
30
40
20
100
参考数据:,.
参考公式:在经验回归方程中,,.
题型07 根据样本中心点求参数
【例7】(24-25高二上·山东日照·期末)已知之间的一组数据:
1
2
3
4
5.5
4
3.5
3
若与满足回归方程,则的值为( )
A. B. C. D.
【变式1】(24-25高二上·江西南昌·期末)经过对中学生记忆能力和识图能力进行统计分析,得到如下数据:
记忆能力
4
6
8
10
识图能力
3
5
6
8
由表中数据,求得线性回归方程为,若小明同学的记忆能力为,则可预测其识图能力为( )
A.8 B.6 C.2 D.1.9
【变式2】(24-25高二上·江西·期末)根据下表数据得到y关于x的线性回归方程,则 .
x
1
2
3
4
y
1
4
5
8
【变式3】(20-21高二上·四川南充·期末)某产品的广告费用(单位:万元)与销售额(单位:万元)的统计数据如下表:
根据上表可得回归方程.
(1)求;
(2)估计广告费用万元时,销售额是多少万元?
题型08 求回归直线方程
【例8】(23-24高二下·广东清远·期末)生活经验告诉我们,儿子身高与父亲身高是线性相关的.有人调查了5位学生的身高和其父亲的身高,得到的数据如表:
父亲身高
166
169
170
172
173
儿子身高
168
170
171
175
176
并利用相关知识得到儿子身高关于父亲身高的经验回归方程为.根据该经验回归方程,已知某父亲身高为,预测其儿子身高为( )
A. B. C. D.
【变式1】(22-23高二下·上海杨浦·期中)以下是一些城市的海拔高度与该城市的大气压的对照表.我们已知大气压与海拔高度是近似线性的关系.
城市
海拔高度/m
大气压/Pa
北京
31.2
99.86
哈尔滨
171.7
98.51
上海
4.5
100.53
昆明
1891.4
80.80
拉萨
3658.0
65.23
则我们可以利用一元线性回归分析(其中海拔高度为解释变量,大气压为反应变量),估计珠穆朗玛峰顶(海拔米)的大气压为 (近似到小数点后两位).
【变式2】(23-24高二上·四川泸州·期中)《中华人民共和国道路交通安全法》第条的相关规定:机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”,其中第条规定:对不礼让行人的驾驶员处以扣分,罚款元的处罚.下表是某市一主干路口监控设备所抓拍的个月内驾驶员不“礼让斑马线”行为统计数据:
月份
违章驾驶员人数
参考公式:,
(1)请利用所给数据求违章人数与月份之间的回归直线方程;
(2)预测该路口月份的不“礼让斑马线”违章驾驶员人数.
【变式3】(22-23高二下·河北沧州·期末)两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
题型09 最小二乘法的概念及辨析
【例9】(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【变式1】(20-21高二上·江西赣州·期末)小明研究变量x与y的线性相关性,用线性回归方法求出了直线,小亮研究变量ν与w的线性相关性,用线性回归方法求出了直线,两个人发现平均值,则下列说法一定不正确的是( )
A.与重合 B.与平行 C.与相交 D.与垂直
【变式2】(21-22高二下·安徽黄山·期末)下列命题是真命题的有( )
A.经验回归方程至少经过其样本数据点中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数的模型比决定系数的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
【变式3】(20-21高二下·安徽·阶段练习)2020年初的新冠疫情对零售业造成严重冲击,随着疫情逐步得到控制,各地经济逐渐得到恢复,以下是某地一超市2020年6月某星期的营业收入统计情况:
星期:x
1
2
3
4
5
营业收入:y(单位;万元)
5
7.5
9
10.5
13
(1)根据数据可知y与x之间存在较强线性关系,求出y关于x的线性回归方程;
(2)该超市为鼓励员工努力工作,制定如下奖励方案:若当天营业收入达到或超过8万元,则当天上班的每一位员工可获得一个50元的红包,若当天营业收入达到或超过12万元,则当天上班的每一位员工可获得一个100元的红包.假设某员工这5天中上了3天班,每天上班的可能性都一样,求该员工5天中获得红包奖励不少于100元的概率.
附:.
【夯实基础】
一、单选题
1.(23-24高二上·江西萍乡·期末)根据下表数据,通过最小二乘法求得关于的线性回归方程为:,则( )
1
2
3
4
0.6
0.8
1.1
1.5
A.0.2 B.0.25 C.0.3 D.1
2.(23-24高二下·广西·期末)下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
3.(23-24高二下·河南南阳·期中)某电脑公司有3名产品推销员,其工作年限与年推销金额数据如下表所示:
推销员编号
1
2
3
工作年限年
3
5
10
推销金额万元
2
3
4
由表中数据算出经验回归方程中的.若第4名推销员的工作年限为7年,则估计他的年推销金额为( )
A.3.08万元 B.3.14万元 C.3.21万元 D.3.27万元
4.(23-24高二下·江苏宿迁·期中)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
2
4
5
6
8
30
40
50
60
70
若与的线性回归方程为,预测当工作时间为10小时时,工资大约为 ( )
A.82.5元 B.83.5元 C.84.5元 D.88.5元
二、多选题
5.(23-24高二下·云南临沧·期末)(多选)某商家统计了最近5个月某产品的销量,如表所示:若y与x线性相关,且线性回归方程为,则( )
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.
6.(24-25高二上·江苏常州·期末)国家统计局7月15日发布数据显示,2024年上半年我国经济运行总体平稳,其中新能源产业依靠持续的技术创新实现较快增长.某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
A.
B.由散点图知变量和正相关
C.相关系数
D.用最小二乘法求得关于的经验回归直线方程为
三、填空题
7.(23-24高二下·贵州安顺·期末)经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:
15
16
18
19
22
102
98
115
120
若由表中样本数据求得线性回归方程为,则实数 .
8.(23-24高二下·天津滨海新·期末)在下表的统计量中,有一个数值不清晰,用m表示.
x
1
2
3
4
5
y
6.3
7.4
8.1
8.7
m
已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则 当;时, .
四、解答题
9.(22-23高二下·陕西宝鸡·期中)随着旅游观念的转变和旅游业的发展,国民在旅游休闲方面的投入不断增多,民众对旅游的需求也在不断提高.某村村委会统计了年到年每年春节期间外出旅游的家庭数,具体统计数据如下表所示:
年份
家庭数
(1)从这年中随机抽取年,求春节期间外出旅游的家庭数至少有年多于的概率;
(2)利用所给数据,求出春节期间外出旅游的家庭数与年份之间的回归方程;
(3)利用(2)中所求出的回归方程估计该村年在春节期间外出旅游的家庭数.
10.(23-24高二下·吉林通化·期中)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据:
第一次
第二次
第三次
第四次
参会人数x(万人)
8
9
10
11
原材料y(袋)
20
23
25
28
(1)请根据所给四组数据,求出y关于x的线性回归方程;
(2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?注:
11.(23-24高二下·宁夏石嘴山·期中)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【能力提升】
一、单选题
1.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
工作时间
2
4
5
6
8
工资
30
40
50
70
若对的线性回归方程为,则的值为( )
A.56.5 B.58 C.60 D.62.5
2.(21-22高二下·黑龙江鸡西·期中)在2009年春节期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场该商品的售价x元和销售量y件之间的一组数据如下表所示:
价格(元)
9
9.5
10
10.5
11
销售量(件)
11
10
8
6
5
通过分析,发现销售量y对商品价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为( )
A. B.
C. D.
3.(22-23高二下·江西赣州·期中)直播带货已经成为农民创业增收的好帮手,数据显示2022年全国农村直播电商已达到573.2万家.已知2022年某农村电商每月直播销售收入Y(单位:万元)与月份具有线性相关关系,利用该电商全年12个月的直播销售月收入数据,求得线性回归方程为,则下列结论一定正确的是( )
A.把代入求得的是第n个月的销售收入
B.相关系数
C.2022年该电商直播销售收入逐月增加
D.该电商2022年直播销售总收入为213.6万元
4.(22-23高二下·河南洛阳·期中)杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
周期数(x)
1
2
3
4
5
频数(y)
2
17
36
93
142
由表格可得关于的二次回归方程为,则此回归模型第2周期的残差(实际值与预报值之差)为( )
A.0 B.1 C.4 D.5
二、多选题
5.(23-24高二下·广东广州·期末)变量的一组样本数据如下表所示:
6
8
10
12
6
3
2
通过散点图发现样本点分布在一条直线附近,并通过最小二乘法求得经验回归方程为,则( )
A.变量之间呈负相关关系 B.变量之间的相关系数
C. D.样本点的残差为
6.(24-25高二上·黑龙江齐齐哈尔·期末)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
A
B
C
D
E
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
下列说法正确的是( )(参考公式:;参考数据:)
A.经验回归直线经过点 B.经验回归方程为
C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元
三、填空题
7.(20-21高二下·广西钦州·阶段练习)下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:)的对比表,已知表中数据计算得到y关于x的线性回归方程为,则相应于点的残差为 .
气温
5
10
15
20
25
杯数y
26
20
16
14
14
8.(23-24高二下·上海·期中)为了研究小滑块在平面上的运动,测量得到如下一组数据:
时间(s)
1
2
3
4
5
6
7
位移(cm)
1.8
3.6
5.3
7.1
8.8
10.4
12.0
这组数据的线性回归方程经过点,则 .
四、解答题
9.(23-24高二上·河南焦作·期中)已知高三某学生为了迎接高考,参加了学校的5次模拟考试,其中5次的模拟考试成绩如表所示,
次数(x)
1
2
3
4
5
考试成绩(y)
498
499
497
501
505
设变量x,y满足回归直线方程.
(1)假如高考也符合上述的模拟考试的回归直线方程,高考看作第10次模拟考试,预测2024年的高考的成绩;
(2)从上面的5次考试成绩中随机抽取3次,其中2次成绩都大于500分的概率.
参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.
10.(23-24高二下·浙江丽水·期中)浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
11.(23-24高二下·山西·期中)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额:
月份
1
2
3
4
5
带货金额/万元
350
440
580
700
880
(1)计算变量,的相关系数(结果精确到0.01).
(2)求变量,之间的线性回归方程,并据此预测2023年7月份该公司的直播带货金额.
参考数据:,,,
,.
参考公式:相关系数,线性回归方程的斜率,截距.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$
第11讲 线性回归分析
目录
题型归纳 1
题型01 根据散点图判断是否线性相关 3
题型02 解释回归直线方程的意义 6
题型03 用回归直线方程对总体进行估计 8
题型04 根据回归方程求原数据中的值 11
题型05 计算样本的中心点 13
题型06 根据回归方程进行数据估计 16
题型07 根据样本中心点求参数 20
题型08 求回归方程 23
题型09 最小二乘法的概念及辨析 28
分层练习 31
夯实基础 31
能力提升 41
知识点01一元线性回归
回归
直线
从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线
回归
方程
线性回归方程: =+x中,
回归系数的计算公式: ==,
的计算公式: =-.
相关
系数
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性
[方法技巧]
判断相关关系的两种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.
1.回归直线方程中系数的两种求法
(1)公式法:利用公式,求出回归系数,.
(2)待定系数法:利用回归直线过样本点中心(,)求系数.
2.回归分析的两种策略
(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.
(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数.
题型01根据散点图判断是否线性相关
【例1】(22-23高二下·四川成都·期中)下列关系图中,变量与具有正相关关系的是( )
A. B.
C. D.
【答案】D
【知识点】根据散点图判断是否线性相关
【分析】根据散点图,由正相关关系的定义判断.
【详解】A.散点图中,样本点不成带状分布,则这两个变量不具有线性相关关系,故错误;
B.是相关关系,但不是正相关关系,故错误;
C. 是相关关系,是负相关关系,故错误;
D. 是相关关系,是正相关关系,故正确;
故选:D
【变式1】(20-21高二上·陕西榆林·期中)在下列各图中,变量、具有线性相关关系的是( )
A. B.
C. D.
【答案】A
【知识点】根据散点图判断是否线性相关
【分析】利用散点图判断可得出结论.
【详解】由散点图可知,A选项中的散点均匀地分布在一条直线附近,变量、具有线性相关关系,
BCD选项中的散点没有分布在一条直线附近,故BCD选项中变量、不具有线性相关关系.
故选:A.
【变式2】(21-22高二下·陕西咸阳·期中)如表中给出五组数据,从中选出四组使其线性相关最大,且保留第一组,那么应去掉第 组.
1
2
3
4
5
-5
-4
-3
-2
4
-3
-2
4
-1
6
【答案】3
【知识点】根据散点图判断是否线性相关
【分析】画出散点图,根据线性相关及点偏离程度判断应去掉的点.
【详解】根据表格数据,散点图如下图示:
显然偏离程度最高,故去掉第三组.
故答案为:3
【变式3】(20-21高一下·陕西宝鸡·期中)如图是根据变量、的观测数据得到的散点图,由这些散点图可以判断变量、具有相关关系的图是 (填序号).
【答案】③④
【知识点】根据散点图判断是否线性相关
【分析】根据散点图中点的分布可得出结论.
【详解】根据散点图可知,③④中的散点大致分布在一条直线的两侧,具有线性相关关系.
故答案为:③④.
题型02 解释回归直线方程的意义
【例2】(20-21高二下·新疆巴音郭楞·期中)已知某回归方程为:,则当解释变量增加1个单位时,预报变量平均:( )
A.增加3个单位 B.增加个单位
C.减少3个单位 D.减少个单位
【答案】C
【知识点】解释回归直线方程的意义
【分析】根据回归方程确定正确答案.
【详解】依题意,回归方程为:,
所以当解释变量增加1个单位时,预报变量平均减少3个单位.
故选:C
【变式1】(22-23高二下·四川眉山·期中)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①与负相关且;
②y与负相关且;
③y与正相关且;
④y与正相关且.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
【答案】D
【知识点】解释回归直线方程的意义
【分析】由回归直线的方程概念判断,
【详解】设回归直线方程为,若y与正相关,则,若y与负相关,则,可知①④一定不正确,
故选:D
【变式2】(20-21高二下·天津西青·期末)对两个变量x,y进行回归分析.
①残差的平方和越小,模型的拟合效果越好;
②相关系数的绝对值接近于0,两个随机变量的线性相关性越强;
③在经验回归方程中,当解释变量x每增加1个单位时,相应变量平均增加个单位;
④某人研究儿子身高与父亲身高的关系,得到经验回归方程,当时,,即:如果一个父亲的身高为,则儿子的升高一定为.
则以上结论中正确的序号为 .
【答案】①③
【知识点】残差的计算、相关系数的意义及辨析、解释回归直线方程的意义
【分析】根据残差和相关系数的意义判定①②;根据线性回归方程的意义判定③④.
【详解】根据残差的定义,可知①正确;相关系数绝对值越接近于1,线性相关性越强,故②错误;
由回归方程的意义,根据回归方程的解释变量的系数为0.3, 变量平均增加个单位,
故③正确;
回归方程是表示一种统计规律,具有随机的不确定性,不能说一定是,故④错误;
故答案为:①③.
【变式3】(20-21高二上·山东德州·期末)19世纪中期,英国著名的统计学家弗朗西斯·高尔顿搜集了1078对夫妇及其儿子的身高数据,发现这些数据的散点图大致呈直线状态,即儿子的身高y(单位:cm)与父母平均身高x(单位:cm)具有线性相关关系,通过样本数据,求得回归直线方程,则下列结论中正确的是 .
①回归直线方程至少过,,…,中的一个点;
②若,,则回归直线过点;
③若父母平均身高增加1cm,则儿子身高估计增加0.516cm;
④若样本数据所构成的点都在回归直线上,则线性相关系数.
【答案】②③④
【知识点】解释回归直线方程的意义
【分析】根据线性回归模型的相关知识依次分析即可.
【详解】对于①,由线性回归模型可知,回归直线不一定经过样本数据所表示的点,故①错误;
对于②,由样本中心落在回归直线上,可知②正确;
对于③,由知,每增加1单位,则增加个单位,本题父母平均身高为,儿子身高为,,故③正确;
对于④,样本数据所构成的点都在回归直线上,等价于它们的关系为函数关系,此时线性相关系数,故④正确;
故选:②③④.
题型03 用回归直线方程对总体进行估计
【例3】(22-23高二下·江苏南通·阶段练习)设某中学的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据,用最小二乘法建立的经验回归方程为.若该中学女生的平均身高为,则该中学女生的平均体重的估计值是( )
A. B. C. D.
【答案】A
【知识点】用回归直线方程对总体进行估计
【分析】将代入回归直线方程,可得出该中学女生的平均体重的估计值.
【详解】将代入回归直线方程得,
因此,该中学女生的平均体重的估计值是.
故选:A.
【变式1】(20-21高二上·江西上饶·期末)给出下列说法:
①回归直线恒过样本点的中心;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变;
④在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位.
其中说法正确的是 .
【答案】①②④.
【知识点】用回归直线方程对总体进行估计、相关关系与函数关系的概念及辨析
【分析】①回归直线恒过样本点的中心;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,平均值不变,方差改变;
④回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位是平均减少,或者估计减少.
【详解】①回归直线恒过样本点的中心,正确;
②两个变量相关性越强,则相关系数就越接近1,正确;
③某7个数的平均数为4,方差为2,现加入一个新数据4,平均值不变,方差改变,故错误;
④回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位是平均减少,或者估计减少,故正确.
故答案为:①②④.
【变式2】(20-21高二下·天津河北·期末)假如女儿身高为(单位:)关于父亲身高(单位:)的经验回归方程为,,已知父亲的身高为,则可以估计女儿的身高为 .(四舍五入到个位)
【答案】
【知识点】用回归直线方程对总体进行估计
【分析】根据回归方程代入数据计算即可得答案.
【详解】解:根据女儿身高为(单位:)关于父亲身高(单位:)的经验回归方程,当父亲的身高为时,.
故答案为:
【变式3】(21-22高二下·河南焦作·期末)为了解某小区居民的家庭年收入(万元)与年支出(万元),随机调查了该小区的10户家庭,根据调查数据可得关于的回归直线方程为,,.若该小区某家庭的年收入为30万元,则估计该家庭的年支出为 万元.
【答案】.
【知识点】用回归直线方程对总体进行估计
【分析】根据回归直线恒过样本中心点,求得回归直线方程为,代入,即可求解.
【详解】由题意,回归直线恒过样本中心点,可得,解得,
即回归直线方程为,
当时,可得,
故估计该家庭的年支出为万元.
故答案为:.
题型04 根据回归方程求原数据中的值
【例4】(23-24高二上·江苏常州·期末)用最小二乘法得到一组数据的线性回归方程为,若,则( )
A.11 B.13 C.63 D.78
【答案】D
【知识点】根据回归方程求原数据中的值
【分析】根据线性回归方程为一定过点,先求出,代入回归方程即可得出,进而可得的值.
【详解】依题意,
因为,所以,
因为线性回归方程为一定过点,
所以,
所以.
故选:D.
【变式1】(22-23高二下·河南南阳·期中)鞋子的尺码又叫鞋号,这是一种衡量人类脚的形状以便配鞋的标准单位系统,已知女鞋欧码及对应的脚长(单位:厘米)如下表所示:
脚长
22
22
22.5
23
23.5
24
24.5
25
25.5
26
26.5
27
欧码
35
35.5
36
36.5
37.5
38
38.5
39
40
40.5
41
42
某数学兴趣小组通过调查发现某高中的女学生的脚长x(单位:厘米)和身高y(单位:厘米)之间有线性相关关系,其回归直线方程为.已知该高中某女学生的身高为166厘米,则预测她穿的鞋子为( )
A.36码 B.36.5码
C.38码 D.39码
【答案】C
【知识点】根据回归方程求原数据中的值
【分析】将身高值代入回归直线方程,求解,再结合表格中数据得出结果.
【详解】由题意可估计该女学生的脚长为,
则她穿的鞋子为38码.
故选:C.
【变式2】(23-24高二下·河南·期末)已知变量和的统计数据如下表:
1
2
3
4
5
1.5
2
4
4.5
若由表中数据得到经验回归直线方程为,则 .
【答案】3
【知识点】根据回归方程求原数据中的值
【分析】根据经验回归直线经过样本中心点求解.
【详解】易知,经验回归直线过样本点的中心,
所以,所以,解得.
故答案为:
【变式3】(20-21高二下·新疆塔城·期中)在2014年3月15日那天,某物价部门对市内的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格
9
9.5
10
10.5
11
销量
10
8
6
5
由最小二乘法求得线性回归方程为=-3.2x+40,发现表中有一个数据模糊不清,则该处数据的值为 .
【答案】11
【知识点】根据回归方程求原数据中的值
【分析】由于回归直线过样本中心点,所以先由表中的数据求出,代入回归直线方程中求出,再结合平均数的公式可求出结果
【详解】由题意,==10,
∵=-3.2x+40,
∴=8,
∴所求数据为5×8-10-8-6-5=11.
故答案为:11
题型05 计算样本的中心点
【例5】(22-23高二下·天津和平·期中)如果记录了,的几组数据分别为,,,,那么y关于x的经验回归直线必过点( )
A. B. C. D.
【答案】D
【知识点】计算样本的中心点
【分析】求出得中心点,即为所求.
【详解】由已知,,
所以回归直线必过点.
故选:D.
【变式1】(23-24高二下·广东江门·期末)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了6次试验,收集数据如下表所示,建立加工时间关于零件数的一元线性回归模型,则回归直线必过点( )
零件数个
50
60
70
80
90
100
加工时间min
88
95
102
108
115
122
A. B. C. D.
【答案】B
【知识点】计算样本的中心点
【分析】求出,,根据回归直线方程必过样本中心点,即可判断.
【详解】依题意可得,
,
所以回归直线必过点.
故选:B
【变式2】(22-23高二·全国·课后作业)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据: ,,,,,根据收集到的数据可知,并求得回归直线方程为,则的值为 .
【答案】341
【知识点】计算样本的中心点
【分析】计算,代入方程计算得到,得到答案.
【详解】,则,
当时,,
故.
故答案为:
【变式3】(21-22高三上·辽宁沈阳·阶段练习)观测两相关变量得如下数据:
则两变量间的回归直线必过点 .
【答案】
【知识点】计算样本的中心点
【分析】根据回归直线方程的特点即可得出结果.
【详解】由,
,
则两变量间的回归直线必过点.
故答案为:
题型06 根据回归方程进行数据估计
【例6】(23-24高二下·吉林长春·期末)对于数据组,如果由线性回归方程得到的自变量的估计值是,那么将称为样本点处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到下表所示数据.若某商品销量y(单位:件)与单价x(单位:元)之间的线性回归方程为,且样本点处的残差为2,则( )
单价x/元
8.2
8.4
8.6
8.8
销量y/件
84
82
78
m
A.66 B.68 C.70 D.72
【答案】B
【知识点】计算样本的中心点、根据回归方程进行数据估计、残差的计算
【分析】利用样本点处的残差为2,求得,再由,求得,进而可求得.
【详解】由条件知当时,,
代入,解得,于是,
又,所以,即,解得.
故选:B.
【变式1】(23-24高二下·陕西西安·期末)已知一系列样本点的一个经验回归方程为,若样本点的残差为2,则( ).
A. B.1 C. D.5
【答案】C
【知识点】根据回归方程进行数据估计、残差的计算
【分析】根据残差计算公式计算即可.
【详解】由题意得,得,
故选:C.
【变式2】(23-24高二上·江西·期末)“守得住经典,当得了网红”,这是时下人们对国货最高的评价,网络平台的发展让越来越多的消费者熟悉了国货品牌的优势,使得各大国货品牌都受到高度关注,销售额迅速增长,已知某国货品牌2023年8-12月在网络平台的月销售额(单位:百万元)与月份具有线性相关关系,并根据这5个月的月销售额,求得回归方程为,则该国货品牌2023年8-12月在网络平台的总销售额为 百万元.
【答案】225
【知识点】根据回归方程进行数据估计、计算样本的中心点
【分析】根据样本中心点在回归直线上的性质,先计算出,代入回归方程求得,再用代表月平均销售额,即可算得总销售额.
【详解】依题意,,因样本中心点在回归直线上,代入得:,
所以该国货品牌2023年8-12月在网络平台的总销售额为百万元.
故答案为:225.
【变式3】(22-23高二下·黑龙江七台河·期末)某市场研究人员为了了解产业园引进的甲公司前期的经营状况,对该公司2022年连续六个月(1~6月)的利润进行了统计,并根据得到的数据绘制了相应的折线图,如图所示.
(1)由折线图可以看出,可用线性回归模型拟合月利润y(单位:百万元)与月份x之间的关系,求y关于x的经验回归方程,并据此预测该公司2022年12月份的利润;
(2)甲公司新研制了一款产品,需要采购一批新型材料,现有A,B两种型号的新型材料可供选择,按规定每种新型材料最多可使用4个月,但新型材料的不稳定性会导致材料损坏的时间不同,现对A,B两种型号的新型材料对应的产品各100件进行科学模拟测试,得到如下频数统计表.若从产品使用寿命的角度考虑,甲公司的负责人选择采购哪款新型材料更好?(用频率估计概率)
材料类型
使用寿命
1个月
2个月
3个月
4个月
合计
A
20
35
35
10
100
B
10
30
40
20
100
参考数据:,.
参考公式:在经验回归方程中,,.
【答案】(1),33百万元
(2)B型号的新型材料
【知识点】根据回归方程进行数据估计、求离散型随机变量的均值
【分析】(1)根据经验回归方程的参考公式求解即可;
(2)分别求A,B两种型号的新型材料对应的产品使用寿命的平均值,作比较后即可得出判断结果.
【详解】(1)由折线图可知统计数据(x,y)共有6组,即(1,11),(2,13),(3,16),(4,15),(5,20),(6,21).
计算可得,,
所以,
所以月利润y关于月份x的经验回归方程为.
当x=12时,.
故预测甲公司2022年12月份的利润为33百万元.
(2)由题意知,A型号的新型材料可使用1个月、2个月、3个月、4个月的概率分别为0.2,0.35,0.35,0.1,所以A型号的新型材料对应产品的使用寿命的平均数为.
B型号的新型材料可使用1个月,2个月,3个月,4个月的概率分别为0.1,0.3,0.4,0.2,所以B型号的新型材料对应产品的使用寿命的平均数为.
因为,所以甲公司的负责人应该采购B型号的新型材料.
题型07 根据样本中心点求参数
【例7】(24-25高二上·山东日照·期末)已知之间的一组数据:
1
2
3
4
5.5
4
3.5
3
若与满足回归方程,则的值为( )
A. B. C. D.
【答案】B
【知识点】根据样本中心点求参数、计算样本的中心点
【分析】根据题意求,结合线性回归方程必过样本中心点运算求解.
【详解】由表可得,
因为线性回归方程过样本中心点,
则,解得.
故选:B.
【变式1】(24-25高二上·江西南昌·期末)经过对中学生记忆能力和识图能力进行统计分析,得到如下数据:
记忆能力
4
6
8
10
识图能力
3
5
6
8
由表中数据,求得线性回归方程为,若小明同学的记忆能力为,则可预测其识图能力为( )
A.8 B.6 C.2 D.1.9
【答案】D
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】求出,线性回归方程恒过,代入即可求出,再令,代入求解即可.
【详解】由表中数据可得,,,
又线性回归方程为,则,解得,
故,当时,.
故选:D
【变式2】(24-25高二上·江西·期末)根据下表数据得到y关于x的线性回归方程,则 .
x
1
2
3
4
y
1
4
5
8
【答案】1
【知识点】根据样本中心点求参数
【分析】根据给定的数表求出样本的中心点,再利用回归直线方程求出的值.
【详解】,
所以,解得.
故答案为:1
【变式3】(20-21高二上·四川南充·期末)某产品的广告费用(单位:万元)与销售额(单位:万元)的统计数据如下表:
根据上表可得回归方程.
(1)求;
(2)估计广告费用万元时,销售额是多少万元?
【答案】(1);(2)
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】(1)首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的一个系数;
(2)利用线性回归方程,把自变量6代入,预报出结果.
【详解】解:(1),,
数据的样本中心点在线性回归直线上,回归方程,
,
,
(2)线性回归方程是,
广告费用为6万元时销售额为万元,
题型08 求回归直线方程
【例8】(23-24高二下·广东清远·期末)生活经验告诉我们,儿子身高与父亲身高是线性相关的.有人调查了5位学生的身高和其父亲的身高,得到的数据如表:
父亲身高
166
169
170
172
173
儿子身高
168
170
171
175
176
并利用相关知识得到儿子身高关于父亲身高的经验回归方程为.根据该经验回归方程,已知某父亲身高为,预测其儿子身高为( )
A. B. C. D.
【答案】C
【知识点】根据样本中心点求参数、根据回归方程进行数据估计、求回归直线方程
【分析】根据图表,先求出,进而得到,即可求出结果.
【详解】因为,,
所以,解得,所以,当时,,
故选:C.
【变式1】(22-23高二下·上海杨浦·期中)以下是一些城市的海拔高度与该城市的大气压的对照表.我们已知大气压与海拔高度是近似线性的关系.
城市
海拔高度/m
大气压/Pa
北京
31.2
99.86
哈尔滨
171.7
98.51
上海
4.5
100.53
昆明
1891.4
80.80
拉萨
3658.0
65.23
则我们可以利用一元线性回归分析(其中海拔高度为解释变量,大气压为反应变量),估计珠穆朗玛峰顶(海拔米)的大气压为 (近似到小数点后两位).
【答案】
【知识点】求回归直线方程
【分析】设海拔高度为,则大气压为,用最小二乘法求出经验回归方程,令即可得出答案.
【详解】设海拔高度为,则大气压为Pa,
由表中数据得:
,
,
,,
可用一元线性回归模型拟合与的关系,其中,,
所以,
,
所以经验回归方程为,
当时,,
所以珠穆朗玛峰顶(海拔米)的大气压为,
故答案为:.
【变式2】(23-24高二上·四川泸州·期中)《中华人民共和国道路交通安全法》第条的相关规定:机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”,其中第条规定:对不礼让行人的驾驶员处以扣分,罚款元的处罚.下表是某市一主干路口监控设备所抓拍的个月内驾驶员不“礼让斑马线”行为统计数据:
月份
违章驾驶员人数
参考公式:,
(1)请利用所给数据求违章人数与月份之间的回归直线方程;
(2)预测该路口月份的不“礼让斑马线”违章驾驶员人数.
【答案】(1)
(2)人
【知识点】求回归直线方程、用回归直线方程对总体进行估计
【分析】(1)求出、的值,将表格中的数据代入最小二乘法公式,求出、的值,可得出回归直线方程;
(2)将代入回归直线方程,即可得解.
【详解】(1)解:由表格中的数据可得,
,
所以,,
,
所以,,,
所以,违章人数与月份之间的回归直线方程为.
(2)解:当时,,
因此,预测该路口月份的不“礼让斑马线”违章驾驶员人数为人.
【变式3】(22-23高二下·河北沧州·期末)两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
【答案】(1)138
(2)
【分析】(1)化简,由此确定正确答案.
(2)根据相关系数求得,进而求得关于的经验回归方程.
【详解】(1)
,
代入数据可得.
(2)由已知得,,∵,
∴,
,
∴关于的经验回归方程为.
题型09 最小二乘法的概念及辨析
【例9】(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【知识点】最小二乘法的概念及辨析
【分析】由最小二乘法的定义判断即可.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
即残差平方和最小.
故选:D
【变式1】(20-21高二上·江西赣州·期末)小明研究变量x与y的线性相关性,用线性回归方法求出了直线,小亮研究变量ν与w的线性相关性,用线性回归方法求出了直线,两个人发现平均值,则下列说法一定不正确的是( )
A.与重合 B.与平行 C.与相交 D.与垂直
【答案】B
【知识点】最小二乘法的概念及辨析
【解析】利用线性回归直线的概念和已知条件判断与有公共点,依次判断选项是否满足该条件,即得结果.
【详解】由线性回归直线的概念可知,直线过其样本中心点,直线过其样本中心点,而,故两条直线有公共点.
当与重合、相交或垂直时都有公共点,可能正确;当与平行时,没有公共点,故一定不正确.
故选:B
【变式2】(21-22高二下·安徽黄山·期末)下列命题是真命题的有( )
A.经验回归方程至少经过其样本数据点中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数的模型比决定系数的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
【答案】D
【知识点】相关指数的计算及分析、相关系数的意义及辨析、最小二乘法的概念及辨析
【分析】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.
【详解】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A是假命题;
对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B是假命题;
对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是假命题;
由残差的统计学意义知,D为真命题.
故选: D
【变式3】(20-21高二下·安徽·阶段练习)2020年初的新冠疫情对零售业造成严重冲击,随着疫情逐步得到控制,各地经济逐渐得到恢复,以下是某地一超市2020年6月某星期的营业收入统计情况:
星期:x
1
2
3
4
5
营业收入:y(单位;万元)
5
7.5
9
10.5
13
(1)根据数据可知y与x之间存在较强线性关系,求出y关于x的线性回归方程;
(2)该超市为鼓励员工努力工作,制定如下奖励方案:若当天营业收入达到或超过8万元,则当天上班的每一位员工可获得一个50元的红包,若当天营业收入达到或超过12万元,则当天上班的每一位员工可获得一个100元的红包.假设某员工这5天中上了3天班,每天上班的可能性都一样,求该员工5天中获得红包奖励不少于100元的概率.
附:.
【答案】(1);(2).
【知识点】计算样本的中心点、最小二乘法的概念及辨析、求回归直线方程
【分析】(1)结合参考公式求出,即可写出y关于x的线性回归方程;
(2)根据题意列出基本事件,并求出符合条件的事件的个数,然后根据古典概型求概率的公式即可求解.
【详解】(1)由条件得
y关于x的线性回归方程:,
(2)设事件A:“红包奖励不少于100元”,
则5天中上了3天班有,共10种
事件A包含,共8种
所以,.
【夯实基础】
一、单选题
1.(23-24高二上·江西萍乡·期末)根据下表数据,通过最小二乘法求得关于的线性回归方程为:,则( )
1
2
3
4
0.6
0.8
1.1
1.5
A.0.2 B.0.25 C.0.3 D.1
【答案】B
【分析】先计算样本中心点,再根据样本中心点在回归直线方程上代入求解即可.
【详解】因为,,
所以,解得.
故选:B.
2.(23-24高二下·广西·期末)下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
【答案】B
【分析】根据线性回归方程和相关系数及残差分析即可判断正误.
【详解】线性回归方程可以不经过任何一个样本点,①错,
值越大则两个变量的相关程度越强,②错,
决定系数越大,模型拟合效果越好,③对,
残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,④对.
故选:B.
3.(23-24高二下·河南南阳·期中)某电脑公司有3名产品推销员,其工作年限与年推销金额数据如下表所示:
推销员编号
1
2
3
工作年限年
3
5
10
推销金额万元
2
3
4
由表中数据算出经验回归方程中的.若第4名推销员的工作年限为7年,则估计他的年推销金额为( )
A.3.08万元 B.3.14万元 C.3.21万元 D.3.27万元
【答案】D
【分析】利用表格求出,代入经验回归方程,求得,即得回归方程,最后代入年限即可求得.
【详解】由题表中数据得,
由经验回归直线过点.又,所以,
所以,则当时,3.27,
所以估计第4名推销员的年推销金额为3.27万元.
故选:D.
4.(23-24高二下·江苏宿迁·期中)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
2
4
5
6
8
30
40
50
60
70
若与的线性回归方程为,预测当工作时间为10小时时,工资大约为 ( )
A.82.5元 B.83.5元 C.84.5元 D.88.5元
【答案】A
【分析】由样本中心点可求得,将代入回归直线即可求得结果.
【详解】由表格数据知:,,
,
线性回归方程为,
当时,
即当工作时间为小时时,工资大约为元.
故选:A.
二、多选题
5.(23-24高二下·云南临沧·期末)(多选)某商家统计了最近5个月某产品的销量,如表所示:若y与x线性相关,且线性回归方程为,则( )
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.
【答案】ACD
【分析】根据已知条件,结合线性回归方程的性质,即可求解.
【详解】对于A,由题中数据可知,随着x变大,变小,则变量y与x负相关,故A正确;
对于D,由表中数据可知,,,
又因为,则,解得,故D正确;
对于B,当时,残差为,故B错误;
对于C,当时,,
故可以预测当时销量约为2.1万只,故C正确.
故选:ACD.
6.(24-25高二上·江苏常州·期末)国家统计局7月15日发布数据显示,2024年上半年我国经济运行总体平稳,其中新能源产业依靠持续的技术创新实现较快增长.某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
A.
B.由散点图知变量和正相关
C.相关系数
D.用最小二乘法求得关于的经验回归直线方程为
【答案】AB
【分析】根据平均数公式以及表格汇出散点图的图象特征判断ABC,根据回归直线过样本点中心,即可判断D.
【详解】A,,故A正确;
B,根据表格汇出散点图的图象如下,散点图的分布从左下到右上,所以是正相关,故B正确;
C,由选项B可知相关系数,故C错误;
D,根据回归直线过样本点中心,
当时,,故D错误;
故选:AB
三、填空题
7.(23-24高二下·贵州安顺·期末)经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:
15
16
18
19
22
102
98
115
120
若由表中样本数据求得线性回归方程为,则实数 .
【答案】115
【分析】根据已知条件,利用回归直线必过样本的中心点,列式求解.
【详解】依题意,,,
而线性回归方程为,则,
所以.
故答案为:115
8.(23-24高二下·天津滨海新·期末)在下表的统计量中,有一个数值不清晰,用m表示.
x
1
2
3
4
5
y
6.3
7.4
8.1
8.7
m
已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则 当;时, .
【答案】
【分析】由经验回归方程恒过样本点的中心求解,进而求得经验回归方程,即可求解时的值.
【详解】,,
因为经验回归方程过点,
所以,解得,
由,可得,则,
当时,,
故答案为:,.
四、解答题
9.(22-23高二下·陕西宝鸡·期中)随着旅游观念的转变和旅游业的发展,国民在旅游休闲方面的投入不断增多,民众对旅游的需求也在不断提高.某村村委会统计了年到年每年春节期间外出旅游的家庭数,具体统计数据如下表所示:
年份
家庭数
(1)从这年中随机抽取年,求春节期间外出旅游的家庭数至少有年多于的概率;
(2)利用所给数据,求出春节期间外出旅游的家庭数与年份之间的回归方程;
(3)利用(2)中所求出的回归方程估计该村年在春节期间外出旅游的家庭数.
【答案】(1)
(2)
(3)
【分析】(1)列举出所有基本事件,并确定满足题意的基本事件个数,由古典概型概率公式可求得结果;
(2)根据表格数据,利用最小二乘法可求得回归方程;
(3)将代入回归方程即可求得估计值.
【详解】(1)从年中随机抽取年,则基本事件有:,,,,,,,,,,共个;
其中满足至少有年多于的基本事件有:,,,,,,,共个;
至少有年多于的概率.
(2)由已知数据得:,,
,
,
,,
回归方程为:.
(3)令,则,家庭数为整数,
估计该村年在春节期间外出旅游的家庭数为.
10.(23-24高二下·吉林通化·期中)某大型商品交易会展馆附近的一家特色餐厅为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近4次交易会的参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下数据:
第一次
第二次
第三次
第四次
参会人数x(万人)
8
9
10
11
原材料y(袋)
20
23
25
28
(1)请根据所给四组数据,求出y关于x的线性回归方程;
(2)若该店现有原材料20袋,据悉本次交易会大约有12万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?注:
【答案】(1)
(2)11袋.
【分析】(1)根据表中数据求出,即可求出,再求出,可得线性回归方程.
(2)由(1)的线性回归方程,当时,求出,减去20可得补充原材料的袋数.
【详解】(1)由数据得,
,
,
,
由公式,求得,,
y关于x的线性回归方程为.
(2)由,得,
而(袋),
所以该店应至少再补充原材料11袋.
11.(23-24高二下·宁夏石嘴山·期中)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)①;
(2).
【分析】(1)根据残差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
,
则关于的线性回归方程为,即,
产卵数y关于温度x的回归方程为.
【能力提升】
一、单选题
1.(24-25高二上·广西桂林·期末)某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
工作时间
2
4
5
6
8
工资
30
40
50
70
若对的线性回归方程为,则的值为( )
A.56.5 B.58 C.60 D.62.5
【答案】C
【分析】求出样本中心点,代入回归直线即可求得结果.
【详解】由表格数据知:,,
由线性回归方程为,
,解得.
故选:C.
2.(21-22高二下·黑龙江鸡西·期中)在2009年春节期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场该商品的售价x元和销售量y件之间的一组数据如下表所示:
价格(元)
9
9.5
10
10.5
11
销售量(件)
11
10
8
6
5
通过分析,发现销售量y对商品价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为( )
A. B.
C. D.
【答案】B
【分析】用最小二乘法求线性回归方程的系数公式直接求解即可.
【详解】由题可得,,,,,,所以回归直线方程为.
故选:B.
3.(22-23高二下·江西赣州·期中)直播带货已经成为农民创业增收的好帮手,数据显示2022年全国农村直播电商已达到573.2万家.已知2022年某农村电商每月直播销售收入Y(单位:万元)与月份具有线性相关关系,利用该电商全年12个月的直播销售月收入数据,求得线性回归方程为,则下列结论一定正确的是( )
A.把代入求得的是第n个月的销售收入
B.相关系数
C.2022年该电商直播销售收入逐月增加
D.该电商2022年直播销售总收入为213.6万元
【答案】D
【分析】根据线性回归方程为,分别判断A,C,D选项,根据相关系数概念判断B选项.
【详解】利用求得的是每月直播销售收入的预测数据,与每月直播销售收入的真实数据可能不相同,错误;
不是相关系数,,B错误;
,由在回归直线上,得,所以该电商2022年年直播销售总收入为万元.
故选:D.
4.(22-23高二下·河南洛阳·期中)杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
周期数(x)
1
2
3
4
5
频数(y)
2
17
36
93
142
由表格可得关于的二次回归方程为,则此回归模型第2周期的残差(实际值与预报值之差)为( )
A.0 B.1 C.4 D.5
【答案】B
【分析】令则回归方程为,符合线性回归,计算中心点代入方程求得,继而得到回归方程,算出预估值,即可求出残差.
【详解】令则回归方程为,符合线性回归,
周期数的平均数,
频数的平均数,
则中心点为,代入,
可得,则,
所以,
当时的预估值为,
则第2周期的残差为,
故选:B.
二、多选题
5.(23-24高二下·广东广州·期末)变量的一组样本数据如下表所示:
6
8
10
12
6
3
2
通过散点图发现样本点分布在一条直线附近,并通过最小二乘法求得经验回归方程为,则( )
A.变量之间呈负相关关系 B.变量之间的相关系数
C. D.样本点的残差为
【答案】ACD
【分析】根据线性回归方程的性质可判断A,根据相关系数的公式可判断B,根据线性回归方程必过点可判断C,根据残差的定义可判断D.
【详解】对于A.根据线性回归方程为,可知回归系数,故判断,之间呈现负相关关系,故正确,符合题意;
对于B.相关系数,故错误,不符合题意;
对于C.根据表中数据,计算,,
代入回归方程,得,解得,正确,符合题意;
对于D.由可知,
所以样本点的残差为,故正确,符合题意.
故选:ACD.
6.(24-25高二上·黑龙江齐齐哈尔·期末)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
A
B
C
D
E
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
下列说法正确的是( )(参考公式:;参考数据:)
A.经验回归直线经过点 B.经验回归方程为
C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元
【答案】BC
【分析】A选项,计算出样本中心点,得到A错误;B选项,计算出,得到经验回归方程;C选项,代入,求出,得到残差;D选项,代入,计算出,D错误.
【详解】A选项,,,
故经验回归直线经过点,A错误;
B选项,,
,故经验回归方程为,B正确;
C选项,将代入中得,
故样本点的残差为,C正确;
D选项,将代入中得,
预测广告支出10万元时的销售额为87万元,D错误.
故选:BC
三、填空题
7.(20-21高二下·广西钦州·阶段练习)下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:)的对比表,已知表中数据计算得到y关于x的线性回归方程为,则相应于点的残差为 .
气温
5
10
15
20
25
杯数y
26
20
16
14
14
【答案】.
【分析】由表中数据计算出,,代入线性回归方程求出,进而可求得结果.
【详解】,,
代入线性回归方程得,解得,
则线性回归方程为.
所以,则相应于点的残差为.
故答案为:.
8.(23-24高二下·上海·期中)为了研究小滑块在平面上的运动,测量得到如下一组数据:
时间(s)
1
2
3
4
5
6
7
位移(cm)
1.8
3.6
5.3
7.1
8.8
10.4
12.0
这组数据的线性回归方程经过点,则 .
【答案】7
【分析】根据线性回归方程过样本数据中心点求解.
【详解】因为,
所以线性回归方程经过的点为样本中心点,
所以,
故答案为:7
四、解答题
9.(23-24高二上·河南焦作·期中)已知高三某学生为了迎接高考,参加了学校的5次模拟考试,其中5次的模拟考试成绩如表所示,
次数(x)
1
2
3
4
5
考试成绩(y)
498
499
497
501
505
设变量x,y满足回归直线方程.
(1)假如高考也符合上述的模拟考试的回归直线方程,高考看作第10次模拟考试,预测2024年的高考的成绩;
(2)从上面的5次考试成绩中随机抽取3次,其中2次成绩都大于500分的概率.
参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)预测2024年的高考成绩为511.2分;
(2).
【分析】(1)依题意求出,,即可求出、,从而得到回归直线方程,再将代入计算可得;
(2)利用列举法列出所有可能结果,再根据古典概型的概率公式计算可得.
【详解】(1)由表得,,
∴.
将点代入回归直线方程可得,解得,
∴回归直线方程为.
当时,,
∴预测2024年的高考成绩为511.2分.
(2)记“从5次考试成绩中选出3次成绩”为事件,
则事件的情况有,,,,
,,,,
,,共10种情况,
其中2次成绩都大于500分情况有,,,共3种情况,
∴所求的概率.
10.(23-24高二下·浙江丽水·期中)浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【答案】(1)证明见解析
(2),预测当年份序号为7时该校的招生人数为4.5千人
【分析】(1)求出,结合公式求出r,即可下结论;
(2)利用最小二乘法求出回归直线方程,令计算,即可求解.
【详解】(1)由,,
,
所以,
因为与1非常接近,故可用线性回归模型拟合与的关系.
(2),
所以关于的回归直线方程为.
当时,,
由此预测当年份序号为7时该校的招生人数为4.5千人
11.(23-24高二下·山西·期中)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额:
月份
1
2
3
4
5
带货金额/万元
350
440
580
700
880
(1)计算变量,的相关系数(结果精确到0.01).
(2)求变量,之间的线性回归方程,并据此预测2023年7月份该公司的直播带货金额.
参考数据:,,,
,.
参考公式:相关系数,线性回归方程的斜率,截距.
【答案】(1)0.99
(2);预测2023年7月份该公司的直播带货金额为1118万元
【分析】(1)直接代入求相关系数即可;
(2)根据线性回归方程求解回归方程即可.
【详解】(1).
(2)因为,,,
,
所以,,
所以变量,之间的线性回归方程为,
当时,(万元).
所以预测2023年7月份该公司的直播带货金额为1118万元.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$