内容正文:
8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
第1课时 一元线性回归模型及其参数的最小二乘估计
第八章 成对数据的统计分析
[学习目标] 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义. 2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
知识点1 一元线性回归模型
内容索引
知识点2 最小二乘法和经验回归方程
课时作业 巩固提升
知识点3 经验回归直线恒过样本中心点的应用
课堂达标·素养提升
3
知识点1 一元线性回归模型
称为Y关于x的一元线性回归模型.其中,Y称为
或 ,x称为 或 ;a和b为模型的未知参数,a称为 ,b称为 ;e是Y与bx+a之间的 .
因变量
响应变量
自变量
解释变量
截距参数
斜率参数
随机误差
[例1] 建立一元线性回归模型时一般假定( )
A.自变量是随机变量,因变量是非随机变量
B.两个变量都是随机变量
C.自变量是非随机变量,因变量是随机变量
D.两变量都是非随机变量
[分析] 理解一元线性回归模型的概念.
C
[解析] 在相关关系中,x是自变量,又称为解释变量,具有确定性,y是因变量,也称为响应变量,是随机变量.
1.若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入为10亿元,年支出预计不会超过( )
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元
D
跟踪训练
解析:因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,所以y=0.7x+3+e.当x=10时,得y=0.7×10+3+e=10+e,又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,所以年支出预计不会超过10.5亿元.
知识点2 最小二乘法和经验回归方程
经验回归方程
经验回归函数
经验回归公式
经验回归直线
最小二乘法
最小二乘估计
[例2] 某种工程车随着使用年限的增加,每年的维修费用也相应增加,根据相关资料可知该种工程车自购入使用之日起,前5年中每年的维修费用如表所示.已知y与x具有线性相关关系.
年份序号x 1 2 3 4 5
维修费用y/万元 1.1 1.6 2 2.5 2.8
(1)求y关于x的经验回归方程;
(2)根据实际用车情况,若某辆工程车每年维修费用超过4万元时,可以申请报备更换新车,请根据回归方程预估一辆该种工程车一般使用几年后可以申请报备更换新车.
思维提升
2.某企业近年来的广告费用x(单位:百万元)与所获得的利润y(单位:千万元)的数据如表所示,已知y与x之间具有线性相关关系.
跟踪训练
年份 2018 2019 2020 2021 2022
广告费用x/百万元 1.5 1.6 1.7 1.8 1.9
利润y/千万元 1.6 2 2.4 2.5 3
(1)求y关于x的经验回归方程;
(2)若该企业从2018年开始,广告费用连续每一年都比上一年增加10万元,根据(1)中所得的线性回归方程,预测2025年该企业可获得的利润.
知识点3 经验回归直线恒过样本中心点的应用
[例3] (1)某车间加工零件的数量x与加工时间y的统计数据如表:
零件数x/个 18 20 22
加工时间y/分 27 m 33
[答案] (1)C (2)BC
思维提升
跟踪训练
ABC
〈课堂达标·素养提升〉
A
2.某老师很喜欢某App中的“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数,如表:
天数x 1 2 3 4 5 6 7
一次最多答对题数y 14 16 18 21 21 a 27
B
42
课时作业 巩固提升
1
2
3
4
5
6
7
8
9
10
11
12
13
A
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
B
14
解析:因为经验回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3.当今时代,数字技术作为世界科技革命和产业变革的先导力量,日益融入经济社会发展各领域全过程,深刻改变着生产生活方式,从而带动了大量电子产品在市场上的销售.某商城统计了2023年6月份到12月份某电子产品的实际销量如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
月份 6 7 8 9 10 11 12
月份代码x 1 2 3 4 5 6 7
销量y/千只 0.6 0.9 1.0 1.3 1.5 1.7 2.1
14
1
2
3
4
5
6
7
8
9
10
11
12
13
B
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
AC
14
解析:经验回归直线一定过样本中心点,但不一定过某个样本点,故A正确,B错误;
由题图可知x和y的样本相关系数在区间[-1,0)上,故C正确;
不能因为2 024是偶数就断定分布在直线l两侧的样本点的个数相同,故D错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
0.254
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
5
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
1
2
3
4
5
6
7
8
9
10
11
12
13
单价x/元 8 8.2 8.4 8.6 8.8 9
销量y/件 90 84 83 80 75 68
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
8.某社区居民2013年至2019年人均收入y(万元)的统计数据如表:
1
2
3
4
5
6
7
8
9
10
11
12
13
年份 2013 2014 2015 2016 2017 2018 2019
年份代号x 1 2 3 4 5 6 7
人均收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
14
已知变量x,y具有线性相关关系.
(1)求y关于x的经验回归方程;
(2)利用(1)中的经验回归方程,分析2013年至2019年该社区居民人均收入的变化情况,并预测该社区居民2024年的人均收入.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
AD
14
解析:A结论错误,由经验回归方程知,此两变量的关系是正相关;B结论正确,经验回归方程符合负相关的特征;C结论正确,经验回归方程符合正相关的特征;D结论错误,经验回归方程符合负相关的特征.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10.(多选)某地区2023年上半年月份x与对应数字经济的生产总值(即GDP)y(单位:亿元)如表所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
月份x 1 2 3 4 5 6
生产总值y 30 33 35 38 41 45
14
1
2
3
4
5
6
7
8
9
10
11
12
13
ABD
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
11.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
1
2
3
4
5
6
7
8
9
10
11
12
13
时间x 1 2 3 4 5
命中率y 0.4 0.5 0.6 0.6 0.4
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案:0.5 0.53
1
2
3
4
5
6
7
8
9
10
11
12
13
14
12.为了提高学生参加体育锻炼的积极性,某校本学期依据学生特点针对性地组建了五个特色运动社团,学校为了了解学生参与运动的情况,对每个特色运动社团的参与人数进行了统计,其中一个特色运动社团开学第1周至第5周参与运动的人数统计数据如表所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
周次x 1 2 3 4 5
参与运动
的人数y 35 36 40 39 45
14
若表中数据可用回归方程y=2.3x+b(1≤x≤18,x∈N)来预测,则本学期第11周参与该特色运动社团的人数约为________.(精确到整数)
1
2
3
4
5
6
7
8
9
10
11
12
13
57
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13.为了提高市民参观的体验感,某博物馆需要招募若干志愿者对馆藏文物进行整理.已知整理所需时长y(单位:小时)与招募的志愿者人数x(单位:人)的数据统计如表:
13
志愿者人数x 1 2 3 4 5
整理时长y 70 m 50 40 35
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
[C组 素养培优练]
14.为促进农业发展,加快农村建设,某地政府扶持兴建了一批“超级蔬菜大棚”.为了解大棚的面积与年利润之间的关系,随机抽取了其中的7个大棚,并对当年的利润进行统计整理后得到了如下数据对比表:
13
大棚面积(亩)x 4.5 5.0 5.5 6.0 6.5 7.0 7.5
年利润(万元)y 6 7 7.4 8.1 8.9 9.6 11.1
14
1
2
3
4
5
6
7
8
9
10
11
12
由所给数据的散点图可以看出,各样本点都分布在一条直线附近,并且y与x有很强的线性相关关系.
(1)求y关于x的经验回归方程.(精确到0.001)
(2)小明家的“超级蔬菜大棚”面积为8.0亩,估计小明家的大棚当年的利润为多少.
(3)另外调查了近5年的不同蔬菜亩平均利润(单位:万元),其中无丝豆为1.5,1.7,2.1,2.2,2.5;彩椒为1.8,1.9,1.9,2.2,2.2,请分析种植哪种蔬菜比较好?
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
用各散点到直线的竖直距离的平方之和Q=(yi-bxi-a)2来刻画“整体接近程度”,取使Q达到最小的a和b的值,作为截距和斜率的估计值.将=x+称为Y关于x的 ,也称
________________或______________,其图形称为______________,求经验回归方程的方法叫做____________,求得的,叫做b,a的
________________,其中
(1)经验回归直线过点(,).
(2)经验回归直线的截距和斜率都是通过样本估计而得到的,存在着误差,这种误差可能导致预报结果的偏差.
(3)经验回归方程=+x中的表示x增加1个单位时,y的平均变化量为,而表示y不随x的变化而变化部分.
(4)可以利用经验回归方程=+x预报在x取某值时,y的估计值.
参考数据:x=55, xiyi=34.3.
参考公式:经验回归方程=x+的斜率和截距的最小二乘法估计分别为=,=-.
[分析] (1)根据条件,解出=3,=2,需要代入公式变形=,即可求得,的值;
(2)结合(1)中的经验回归方程列出不等式求解即可.
[解] (1)依题意,=×=3,
=×=2.
∵x=55,iyi=34.3,
∴===0.43,
∴=2-0.43×3=0.71,
∴所求经验回归方程为=0.43x+0.71.
(2)由题意可得,0.43x+0.71>4,即x>.
∵7<<8,∴预计一辆该种工程车一般使用8年后可以申请报备更换新车.
求经验回归方程的一般步骤
1.收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
2.作出散点图,确定x,y具有线性相关关系.
3.把数据制成表格xi,yi,x,xiyi.
4.计算,,,iyi.
5.代入公式计算,,公式为==,=-(注意公式的变形形式).
6.写出经验回归方程=x+.
参考公式:==,=-.
解:(1)据题意,得=1.7,=2.3,
∴====3.3,
=-=2.3-3.3×1.7=-3.31,
∴y关于x的经验回归方程为=3.3x-3.31.
(2)由表可知2025年该企业广告费用为x=2.2百万元,
代入=3.3x-3.31得=3.95千万元.
∴预测2025年该企业可获得的利润为3.95千万元.
由最小二乘法近似得到y关于x的经验回归方程=x+,该经验回归直线必过点(,).
现已求得上表数据的回归方程=x+中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为102分钟,则m的值为( )
A.28 B.29
C.30 D.32
(2)(多选)为调研加工零件效率,调研员通过试验获得加工零件个数x与所用时间y(单位:min)的5组数据为(10,52),(20,67),(30,70),(40,75),(50,86),根据以上数据可得经验回归方程为=0.76x+,则( )
A.=47.3
B.回归直线=0.76x+必过点(30,70)
C.加工60个零件的时间大约为92.8 min
D.若去掉(30,70),剩下4组数据的经验回归方程会有变化
[分析] (1)根据题意求得=0.9x+12,再结合线性回归方程过样本中心点(,)运算求解.
(2)求得数据的样本中心点可判断B;结合回归方程可求出=47.2可判断A;将x=60代入回归方程求得预测值可判断C;根据=0.76x+47.2恒过(30,70),可判断D.
[解析] (1)由题意可知:=0.9x+,且当x=100时,=0.9×100+=90+=102,解得=12,可知=0.9x+12,又因为==20,==,可知点(20,)在=0.9x+12上,即20×0.9+12=,解得m=30.
(2)=(10+20+30+40+50)=30,=(52+67+70+75+86)=70,
所以=0.76x+恒过(30,70),所以70=0.76×30+,
解得=47.2,故A错误,B正确;
所以=0.76x+47.2,令x=60,则=0.76×60+47.2=92.8,
故加工60个零件的时间大约为92.8 min,故C正确;
因为=0.76x+47.2恒过(30,70),
所以剩下4组数据的经验回归方程不会有变化,故D错误.
样本中心(,)必在经验回归直线上.
3.(多选)已知某高中的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(i=1,2,3,…,n),由最小二乘法近似得到y关于x的经验回归方程为=0.85x-85.71,则下列结论中正确的是( )
A.y与x是正相关的
B.该经验回归直线必过点
C.若该高中的女生身高增加1 cm,则其体重约增加0.85 kg
D.若该高中的女生身高为160 cm,则其体重必为50.29 kg
解析:根据y关于x的经验回归方程,易知y关于x是正相关的,所以A正确;
经验回归直线过点,所以B正确;
根据经验回归方程=0.85x-85.71的斜率为0.85,可知该高中的女生身高增加1 cm,其体重约增加0.85 kg,所以C正确;
经验回归方程确定之后只能用于预测,所以D错误.
1.给定两个随机变量(X,Y)的5组成对数据:(0,1),(1,2),(2,3),(3,3),(4,5).通过计算,得到Y关于X的经验回归方程为Y^=0.9X+,则=( )
A.1 B.1.1
C.0.9 D.1.15
解析:因为==2,==2.8,所以2.8=0.9×2+,解得=1.
根据最小二乘法得到y关于x的回归直线方程为=2x+12,则a=( )
A.22 B.23 C.24 D.25
解析:因为=4,=,所以=2×4+12,解得a=23.
3.具有线性相关关系的变量x,y的一组观测数据为(xi,yi)(i=1,2,…,10),其经验回归方程为=x+2,且i=20,i=100,则当x=10时,=__________.
解析:因为i=20,i=100,所以=2,=10,
又因为经验回归直线=x+2过样本点的中心(2,10),所以10=2+2,得到=4,
所以经验回归方程为=4x+2,当x=10时,=4×10+2=42.
[A组 必备知识练]
1.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得经验回归方程可能为( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
解析:由x与y正相关,排除选项C,D.将=3,=3.5代入选项A,B,经检验B不成立.
2.工人工资y(元)关于劳动生产率x(千元)的经验回归方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元
根据表中数据,认为y与x线性相关,且y关于x的经验回归方程为=0.24x+,则预测2024年3月份该商场这种电子产品的销量约为( )
A.2 600只 B.2 740只
C.2 800只 D.2 900只
解析:依题意=(1+2+3+4+5+6+7)=4,=(0.6+0.9+1+1.3+1.5+1.7+2.1)=1.3,所以样本中心点为(4,1.3),则1.3=0.24×4+,解得=0.34,所以=0.24x+0.34,其中2024年3月份对应的月份代码为x=10,当x=10时=0.24×10+0.34=2.74(千只),所以预测2024年3月份该商场这种电子产品的销量约为2 740只.
4.(多选)设(x1,y1),(x2,y2),…,(x2 024,y2 024)是变量x和y的2 024个样本点,直线l是由这些样本点通过最小二乘法得到的经验回归直线,如图所示,下列结论正确的是( )
A.直线l过点(,)
B.直线l过点(x1 012,y1 012)
C.x和y的样本相关系数在区间[-1,0)上
D.因为2 024是偶数,所以分布在直线l两侧的样本点的个数一定相同
5.某地调查了若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元).调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的经验回归方程:=0.254x+0.321.由经验回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:家庭年收入每增加1万元,对应经验回归方程中的x增加1,相应的的值平均增加0.254,即年饮食支出平均增加0.254万元.
6.已知y与x具有相关关系,且利用y关于x的回归直线方程进行预测,当x=6时,=36,当x=8时,=46,则y关于x的回归直线方程中的回归系数为__________.
解析:设y关于x的回归直线方程为=x+,由题意得,解得=5,即回归系数为5.
(1)求经验回归方程=x+,其中=-20.
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=×(8+8.2+8.4+8.6+8.8+9)=8.5,
=×(90+84+83+80+75+68)=80,
所以=-=80+20×8.5=250,从而经验回归方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.故当单价定为8.25元时,工厂可获得最大利润.
附参考公式:经验回归方程=x+,
=,=-.
解:(1)==4,
==4.3,
(xi-)(yi-)=-3×(-1.4)-2×(-1)-1×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
(xi-)2=(-3)2+(-2)2+(-1)2+0+12+22+32=28,
所以===0.5,由=+,即4.3=0.5×4+,得=2.3,
所以y关于x的经验回归方程=0.5x+2.3.
(2)2013年至2019年居民人均收入逐步提高,翻了一番,平均每年增加0.5万元,
当x=12时,=0.5×12+2.3=8.3(万元),
∴预测该社区2024年人均收入8.3万元.
[B组 关键能力练]
9.(多选)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得经验回归方程,分别得到以下四个结论,其中一定不正确的结论是( )
A.y与x负相关,且=2.347x-6.423
B.y与x负相关,且=-3.476x+5.648
C.y与x正相关,且=5.437x+8.493
D.y与x正相关,且=-4.326x-4.578
根据上表可得到回归方程=x+,则( )
A.=
B.y与x正相关
C.若r表示变量y与x之间的相关系数,则r=
D.若该地区对数字经济的相关政策保持不变,则该地区7月份的生产总值约为亿元
解析:对于A,=(1+2+3+4+5+6)=,=(30+33+35+38+41+45)=37,
所以=-=37-×=,故A正确;
对于B,因为=>0,所以y与x正相关,故B正确;
对于C,相关系数r=
≠=,故C错误;
对于D,当x=7时,=x+=×7+=,故D正确.
参考公式:=,=-.
解析:小李这5天的平均投篮命中率=×(0.4+0.5+0.6+0.6+0.4)=0.5,=3,==0.01,=-=0.5-0.03=0.47,∴经验回归方程为=0.01x+0.47,则当x=6时,=0.53,
∴预测小李该月6号打6小时篮球的投篮命中率为0.53.
解析:==3,==39,把(3,39)代入y=2.3x+b,得b=39-2.3×3=32.1.可得线性回归方程为y=2.3x+32.1.把x=11代入y=2.3x+32.1,可得y=2.3×11+32.1=57.4≈57.
(1)若i=250,求y关于x的经验回归方程=x+;
(2)根据(1)中的经验回归方程,若博物馆计划在20小时内完成对文物的整理工作,求博物馆至少需要招募的志愿者人数.
附:经验回归方程=x+中,=,=-.
解:(1)由于i=250,故70+m+50+40+35=250,所以m=55,
则==3,==50,
iyi=1×70+2×55+3×50+4×40+5×35=665,
=12+22+32+42+52=55,
故==-8.5,=50+8.5×3=75.5,
故y关于x的经验回归方程为=-8.5x+75.5.
(2)令-8.5x+75.5≤20,解得x≥,而x∈N*,故x≥7,
故博物馆计划在20小时内完成对文物的整理工作,博物馆至少需要招募的志愿者人数为7.
参考数据:iyi=359.6,(xi-)2=7.
参考公式:=,=-.
解:(1)根据题意,=6,=8.3,则7 =348.6,
===≈1.571,
=-≈8.3-1.571×6=-1.126,
即经验回归方程为=1.571x-1.126.
(2)将x=8.0代入方程,得=1.571×8.0-1.126=11.442,即小明家的“超级大棚”当年的利润大约为11.442万元.
(3)近5年来,无丝豆亩平均利润的平均数为m==2,
方差s=[(1.5-2)2+(1.7-2)2+(2.1-2)2+(2.2-2)2+(2.5-2)2]=0.128.
彩椒亩平均利润的平均数为
n==2,
方差为s=[(1.8-2)2+(1.9-2)2+(1.9-2)2+(2.2-2)2+(2.2-2)2]=0.028.
因为m=n,s>s,所以种植彩椒比较好.
$$