第9章 9.1.2 一元线性回归模型-(课件PPT+Word教案)【步步高】2024-2025学年高二数学选择性必修第二册教师用书(苏教版2019)
2025-05-05
|
2份
|
129页
|
58人阅读
|
3人下载
教辅
山东金榜苑文化传媒有限责任公司
进店逛逛 资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学苏教版选择性必修 第二册 |
| 年级 | 高二 |
| 章节 | 9.1.2线性回归方程 |
| 类型 | 备课综合 |
| 知识点 | - |
| 使用场景 | 同步教学-新授课 |
| 学年 | 2025-2026 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 44.40 MB |
| 发布时间 | 2025-05-05 |
| 更新时间 | 2025-05-05 |
| 作者 | 山东金榜苑文化传媒有限责任公司 |
| 品牌系列 | 步步高·学习笔记 |
| 审核时间 | 2025-04-14 |
| 下载链接 | https://m.zxxk.com/soft/51601958.html |
| 价格 | 4.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
9.1.2 一元线性回归模型
[学习目标] 1.能结合实例,根据散点图判断两个变量是否具有相关关系.2.了解最小二乘法原理,会求经验回归方程,并能根据经验回归方程进行预测.3.理解残差的概念,会通过分析残差判断回归模型的拟合效果.
导语
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是衡量生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对样本数据建立一个模型进行预测?
一、一元线性回归模型
问题1 如果散点图中的样本点大体分布在一条直线附近,怎样选择恰当的直线反映两个变量之间的线性相关关系?
提示 可以用y=a+bx+ε来反映两个变量之间的线性相关关系.
知识梳理
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.
2.随机误差产生的主要原因
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
3.一元线性回归模型中a,b值的求法
y=a+bx+ε称为一元线性回归模型.其中,y称为因变量或响应变量,x称为自变量或解释变量.
a,b的估计值分别记为,,其计算公式为
上述方法称为“最小二乘法”,由此求得的,分别叫作b,a的最小二乘估计.
4.经验回归直线和经验回归方程
直线=+x称为经验回归直线,此直线方程称为经验回归方程,称为回归截距,称为回归系数,称为回归值.
注意点:
(1)经验回归方程的系数的计算,有时利用公式=;
(2)经验回归方程=x+必经过点(,).
例1 (课本例4) 如表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系.如果具有线性相关关系,求出经验回归方程;如果不具有线性相关关系,说明理由.
机动车辆数x/103辆
交通事故数y/103件
95
6.2
110
7.5
112
7.7
120
8.5
129
8.7
135
9.8
150
10.2
180
13
解 计算相应的数据之和:
=1 031,=71.6,=137 835,
=671,=9 611.7.
根据样本相关系数公式可得r=0.992 7,故两变量之间具有很强的线性相关关系.再由公式(1)计算得≈0.077 4,≈-1.024 1.
因此,所求经验回归方程为
=-1.024 1+0.077 4x.
例1 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
求经验回归方程.
解 列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
4
16
25
36
64
=5,=50,=145,xiyi=1 380
则===6.5,
=-=50-6.5×5=17.5.
故所求的经验回归方程是=6.5x+17.5.
反思感悟 求经验回归方程可分如下四步来完成
(1)列:列表表示xi,yi,,xiyi.
(2)算:计算,,,xiyi.
(3)代:代入公式计算,的值.
(4)写:写出经验回归方程.
跟踪训练1 随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位:次)之间的对应数据如下表所示:
x/件
1
3
5
7
9
y/次
10
30
40
50
60
(1)根据表中数据画出散点图;
(2)根据表中的数据,求出y关于x的经验回归方程.
解 (1)散点图如图所示.
(2)根据散点图可得,变量x与y之间具有线性相关关系.
根据数据可知,=5,=38,xiyi=1 190,=165,代入公式得===6,
=-=38-6×5=8.
故所求的经验回归方程是=6x+8.
二、利用经验回归方程对总体进行估计
例2 (课本例5) 统计学家K.Pearson收集了大量父亲和儿子的身高数据,如表是从中随机抽取的10对父子的身高数据.
父亲的身高x/cm
儿子的身高y/cm
152.4
161.3
157.5
165.6
162.6
167.6
165.1
166.4
167.6
169.9
170.2
170.4
172.7
171.2
177.8
173.5
182.9
178.1
188.0
177.8
试估计父亲身高为166 cm时,他的儿子的身高.
解 根据表中数据画出散点图,如图所示.
由表中数据可得=1 696.8,=1 701.8,=289 021.12,=289 866.08,
=289 281.27.
根据样本相关系数公式可得r=0.980 3,说明父亲与儿子的身高之间具有很强的线性相关关系.
再由公式(1)计算得≈0.469 1,≈90.577,
故经验回归方程为=0.469 1x+90.577,
当x=166时,=0.469 1×166+90.577≈168,即父亲身高为166 cm时,他的儿子的身高约为168 cm.
例2 某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如表所示:
年份x
2018
2019
2020
2021
2022
储蓄存款额
y/千亿元
5
6
7
8
10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 017,z=y-5,得到下表.
t
1
2
3
4
5
z
0
1
2
3
5
(1)求z关于t的经验回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2025年年底,该地此银行储蓄存款额可达到多少?
解 (1)=3,=2.2,tizi=45,=55,
则==1.2,
=-=2.2-1.2×3=-1.4.
所以z关于t的经验回归方程为=1.2t-1.4.
(2)将t=x-2 017,z=y-5代入=1.2t-1.4,
得-5=1.2(x-2 017)-1.4,
即=1.2x-2 416.8.
故y关于x的回归方程为=1.2x-2 416.8.
(3)将x=2 025代入=1.2x-2 416.8中得,=1.2×2 025-2 416.8=13.2,
所以预测到2025年年底,该地此银行储蓄存款额可达到13.2千亿元.
反思感悟 (1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求经验回归方程,注意运算的正确性.
(3)根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
跟踪训练2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得如表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)试根据求出的经验回归方程,估计记忆力为9的同学的判断力.
参考公式:=,=-.
解 (1)散点图如图所示.
(2)==9,
==4,
=62+82+102+122=344,
xiyi=6×2+8×3+10×5+12×6=158,
===0.7,
=-=4-0.7×9=-2.3,
故经验回归方程为=0.7x-2.3.
(3)由(2)中经验回归方程可知,当x=9时,=0.7×9-2.3=4,即记忆力为9的同学的判断力约为4.
三、非线性回归问题
知识梳理
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
一般步骤为:
说明:由于涉及的数据比较多,考虑到可操作性,考试时往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
例3 某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,…,10)的数据,得到散点图如图所示.
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
(2)对数据作出如下处理,令ui=ln xi,vi=ln yi,得到相关统计量的值如下表:
vi
ui
(ui-)(vi-)
(ui-)2
15
15
28.25
56.5
根据第(1)问的判断结果及表中数据,求y关于x的回归方程.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
解 (1)由散点图可知,选择回归类型y=c·xd更适合.
(2)对y=c·xd两边取对数,得ln y=ln c+dln x,
即v=ln c+du.
由表中数据求得===,
===.
令ln c=m,则=-=-×=,
即c=.所以年销售量y与年研发费用x的回归方程为=.
反思感悟 非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据一元线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示.
②处理方法:设x'=ln x,原方程可化为y=bx'+a,
再根据一元线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x'=x2,原方程可化为y=bx'+a,再根据一元线性回归模型的方法求出a,b.
跟踪训练3 为了研究某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
求y关于x的回归方程.
参考数据:ln 6≈1.79,ln 12≈2.48,
ln 25≈3.22,ln 49≈3.89,ln 95≈4.55,
ln 190≈5.25.
解 作出散点图如图(1)所示.
由散点图可以看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.由表中数据得到经验回归方程为=0.69x+1.115.因此细菌的繁殖个数y关于天数x的回归方程为=e0.69x+1.115.
四、残差及残差分析
问题2 课本例5中我们知道儿子身高Y关于父亲身高x的经验回归方程为=0.469 1x+90.577,那么当x=166时,=0.469 1×166+90.577≈168(cm),如果一位父亲的身高为166 cm,他儿子长大成人后的身高一定是168 cm吗?为什么?
提示 不一定,因为还有其他影响他儿子身高的因素,父亲的身高不能完全决定儿子身高.
问题3 对于课本表9-1-5中的第4个观测,我们发现当父亲身高为165.1 cm时,儿子的身高实际为166.4 cm,实际身高与预测的身高相差了多少?
提示 166.4-168.03=-1.63(cm).
知识梳理
残差:一般地,我们将观测值与对应的估计值之差称为残差,残差是随机误差ε的估计结果.
例4 某运动员训练次数x与成绩y的数据如表:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)建立成绩y关于次数x的经验回归方程(结果精确到0.001);
(3)用残差分析的方法判断用一元线性回归模型是否合理;
(4)计算R2,并用R2说明拟合效果的好坏.
解 (1)该运动员成绩y与训练次数x之间的散点图如图所示,由散点图可知,它们之间具有线性相关关系.
(2)∵=39.25,=40.875,
=12 656,
xiyi=13 180,
∴==≈1.041,
=-≈0.016.
∴经验回归方程为=1.041x+0.016.
(3)某运动员训练次数与成绩之间的数据及相应的残差数据为
x
30
33
35
37
39
44
46
50
y
30
34
37
39
42
46
48
51
=y-
-1.246
-0.369
0.549
0.467
1.385
0.18
0.098
-1.066
残差图如图所示.
由图可知,残差比较均匀地分布在横轴的两边,说明该一元线性回归模型比较合理.
(4)计算得R2=1-≈0.985.说明拟合效果较好.
反思感悟 刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好.
(3)R2法:R2=1-越接近1,表明模型的拟合效果越好.
跟踪训练4 对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是 ( )
答案 A
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
1.知识清单:
(1)一元线性回归模型.
(2)利用经验回归方程对总体进行估计.
(3)非线性回归问题.
(4)残差及残差分析.
2.方法归纳:最小二乘法、转化化归、公式法.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程导致出现错误.
1.(多选)以下四个散点图中,两个变量的关系适合用一元线性回归模型刻画的是 ( )
答案 AC
解析 AC中的点分布在一条直线附近,适合用一元线性回归模型刻画.
2.设一个经验回归方程为=2-2.5x,若变量x增加1个单位,则变量y ( )
A.平均增加2.5个单位
B.平均增加2个单位
C.平均减少2.5个单位
D.平均减少2个单位
答案 C
解析 由经验回归方程的意义知,当x增加1个单位时,平均减少2.5个单位.
3.已知具有线性相关关系的两个变量x,y之间的一组数据如下,且经验回归方程是=0.95x+,则当x=6时,y的预测值为 ( )
x
0
1
2
3
4
y
2.2
4.3
4.5
4.8
6.7
A.8.4 B.8.3 C.8.2 D.8.1
答案 B
解析 由已知数据可得=2,=4.5,
∴4.5=0.95×2+,∴=2.6,
∴经验回归方程是=0.95x+2.6,
当x=6时,y的预测值为0.95×6+2.6=8.3.
4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的附近.令z=ln y,求得经验回归方程为=0.25x-2.58,则y关于x的回归方程为 .
答案 =e0.25x-2.58
解析 因为=0.25x-2.58,z=ln y,
所以=e0.25x-2.58.
课时对点练 [分值:100分]
单选题每小题5分,共40分;多选题每小题6分,共12分
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为 ( )
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
答案 B
2.已知经验回归方程为=x+,其中=3且=1,=2,则经验回归方程为 ( )
A.=x+3 B.=-2x+3
C.=-x+3 D.=x-3
答案 C
解析 经验回归直线一定过点(,),将(1,2)代入方程可得=-1.
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得到=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是 ( )
A.年龄为37岁的人体内脂肪含量一定为20.901
B.年龄为37岁的人体内脂肪含量约为21.01
C.年龄为37岁的人群中的体内脂肪含量平均为20.901
D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5
答案 C
解析 当x=37时,=0.577×37-0.448=20.901,由此估计,年龄为37岁的人群中的体内脂肪含量平均为20.901.
4.设两个变量x和y之间具有线性相关关系,它们的样本相关系数是r,y关于x的经验回归方程斜率是,纵轴上的截距是,那么必有 ( )
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
答案 A
解析 因为>0时,两变量正相关,此时r>0;<0时,两变量负相关,此时r<0,所以与r的符号相同.
5.甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和 (yi-)2如表:
甲
乙
丙
丁
散点图
残差
平方和
115
106
124
103
哪位同学的实验结果表明拟合A,B两变量关系的模型拟合精度高? ( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 残差平方和越小,拟合效果越好.
6.(多选)根据如下样本数据得到的经验回归方程为=x+,则 ( )
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
A.>0 B.>0
C.<0 D.<0
答案 AD
解析 作出散点图如下:
观察图象可知,经验回归方程=x+的斜率<0,
当x=0时,=>0.故>0,<0.
7.(5分)已知y与x之间的经验回归方程为=0.5x+2.2,且=3,样本数据中y的取值依次为2.5,m,3.4,4.2,5.4,则m= .
答案 3
解析 因为经验回归方程过(,),所以=0.5×3+2.2=3.7,
所以m=3.7×5-(2.5+3.4+4.2+5.4)=3.
8.(5分)某工厂为研究某种产品产量x(吨)与所需某种原料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如表所示:
x
3
4
6
7
y
2.5
3
4
m
根据表中数据,得出y关于x的经验回归方程为=0.7x+.据此计算出在点(4,3)处的残差为-0.15,则表中m的值为 .
答案 5.9
解析 由点(4,3)处的残差为-0.15,
得3-(0.7×4+)=-0.15,可得=0.35,
即经验回归方程为=0.7x+0.35,
又由样本数据的平均数为==5,
=,
所以0.7×5+0.35=,
解得m=5.9.
9.(10分)某人计划购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如下表:
月份编号t
1
2
3
4
5
销量y(万辆)
0.5
0.6
1
1.4
1.7
经分析发现,可用一元线性回归模型拟合该品牌新能源汽车的实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的经验回归方程=t+,并预测月份编号t为6时,该品牌新能源汽车的销量.
解 易知==3,==1.04,
=12+22+32+42+52=55,
tiyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8,
====0.32,
=-=1.04-0.32×3=0.08.
则y关于t的经验回归方程为=0.32t+0.08.
当t=6时,=2,即月份编号为6时,当地该品牌新能源汽车的销量约为2万辆.
10.(11分)近年来,随着社会对教育的重视,家庭的平均教育支出增长较快,随机抽样调查某市2016~2022年的家庭平均教育支出,得到如下表格.(年份代码1~7分别对应的年份是2016~2022).经计算得=10,(ti-)·(yi-)=139.
年份t
1
2
3
4
5
6
7
教育支出占家庭支出比例y(百分比)
21
26
34
38
43
46
51
(1)计算样本相关系数,并判断两个变量相关性的强弱;(精确到0.01)(4分)
(2)建立y关于t的经验回归方程;(精确到0.01)(4分)
(3)若预计2025年该市某家庭总支出为10万元,预测该家庭教育支出约为多少万元?(3分)
附:相关系数:r=;
经验回归方程:=t+,
其中=,=-.
解 (1)=×(1+2+3+4+5+6+7)=4,
=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,
所以r==≈0.99,
故两个变量有很强的线性相关性.
(2)=×(21+26+34+38+43+46+51)=37,
所以==≈4.96,
=-≈37-4.96×4=17.16,
所以经验回归方程为=4.96t+17.16.
(3)当t=10时,=4.96×10+17.16=66.76,
故家庭教育支出为10×66.76%=6.676(万元).
11.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的经验回归方程可能是 ( )
A.=-2x+9.5 B.=2x-2.4
C.=-0.3x-4.4 D.=0.4x+2.3
答案 A
解析 因为变量x与y负相关,所以排除B,D;将样本平均数=3,=3.5代入选项验证可知,选项A符合题意.
12.“学习强国”学习平台是由中宣部主管,以深入学习宣传习近平新时代中国特色社会主义思想为主要内容,立足全体党员、面向全社会的优质平台,现日益成为老百姓了解国家动态、紧跟时代脉搏的热门APP.为了解某单位职工“学习强国”每天的学习时长与所得积分之间的关系,现从该单位随机抽取10名职工,统计他们某天的学习时长x(min)得到条形图如图所示,该10名职工的学习积分分别为yi(i=1,2,…,10),若学习时长x与所得积分y之间有线性相关关系,设其经验回归方程为=x+.已知yi=350,=.若该单位某人在一天的学习时长为40 min,据此估计其所得积分为 ( )
A.25 B.28 C.29 D.30
答案 C
解析 ==50,
==35,
又=,∴=35-×50=5,∴=x+5,
取x=40,得=×40+5=29.
13.(多选)月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时间”,单位:小时)与天数x(x为阴历日数,x∈N*,且0≤x≤30)的有关数据,如表,并且根据表中数据,求得y关于x的经验回归方程为=0.8x+.
x
2
4
7
10
15
22
y
8.1
9.4
12
14.4
18.5
24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才升起.则 ( )
A.经验回归直线过点(10,14.4)
B.=6.8
C.预测月出时间为16时的那天是阴历13日
D.预测阴历27日的月出时间为阴历28日早上4:00
答案 AD
解析 ==10,
==14.4,
故经验回归直线过点(10,14.4),选项A正确;
将点(10,14.4)代入=0.8x+,
得=6.4,选项B错误;
∵=0.8x+6.4,当y=16时,x=12,
∴月出时间为阴历12日,选项C错误;
∵阴历27日,即x=27,
代入=0.8×27+6.4=28,
∴日出时间应该为28日早上4:00,选项D正确.
14.(5分)已知y与x之间具有很强的线性相关关系,现观测得到x,y的四组观测值并制作了对照表.
x
15
17
11
-3
y
6
17
21
36
由表中数据粗略地得到经验回归方程为=x+60,其中的值没有写上,当x不小于-5时,预测y最大为 .(结果保留整十数)
答案 80
解析 由表格可知=10,=20,代入经验回归方程可知=-4,令x≥-5,可得≤80.故预测y的最大值为80.
15.已知变量y关于x的回归方程为=,其一组数据如下表所示:
x
1
2
3
4
y
e
e3
e4
e6
若x=5,则预测y的值可能为 ( )
A.e5 B. C.e7 D.
答案 D
解析 将式子两边取对数,得到ln =x-0.5,
令=ln ,得到=x-0.5,
列出x,z的取值对应的表格如下:
x
1
2
3
4
z
1
3
4
6
则==2.5,==3.5,
∵(,)满足=x-0.5,
∴3.5=×2.5-0.5,解得=1.6,
∴=1.6x-0.5,∴=e1.6x-0.5,
当x=5时,=e1.6×5-0.5=.
16.(12分)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件个数x/个
10
20
30
40
50
加工时间y/分
62
68
75
81
89
零件个数x/个
60
70
80
90
100
加工时间y/分
95
102
108
115
122
(1)求y关于x的经验回归方程;(结果精确到0.01)(5分)
(2)作出残差图并进行残差分析.(7分)
参考数据:=38 500,xiyi=55 950.
解 (1)根据收集的数据作散点图,如图所示.
从图中可以看出,这些点分布在一条直线的附近,
因此可以用一元线性回归模型刻画零件个数与加工时间之间的关系.
由表中数据可得=55,=91.7,
所以=
==≈0.67,
=-≈91.7-0.67×55=54.85.
所以经验回归方程为=0.67x+54.85.
(2)列出残差表如下:
yi
62
68
75
81
89
61.6
68.3
75.0
81.7
88.4
yi-
0.4
-0.3
0
-0.7
0.6
yi
95
102
108
115
122
95.1
101.8
108.5
115.2
121.9
yi-
-0.1
0.2
-0.5
-0.2
0.1
以零件个数为横坐标,残差为纵坐标建立直角坐标系,作出残差图如图所示.
残差分析:由残差图可以观察到第4个点和第5个点的残差比较大,需要确认在采集这两对数据的过程中是否有人为的失误,若有,则需要纠正数据,重新建立回归模型.由残差图中的残差点比较均匀地落在水平的带状区域中(在直线y=-0.70和y=0.70之间),说明选用的一元线性回归模型较为合适,带状区域的宽度仅为1.40,比较狭窄,说明经验回归方程较好地刻画了零件个数与加工时间的关系.
学科网(北京)股份有限公司
$$
第9章
<<<
9.1.2
一元线性回归模型
1.能结合实例,根据散点图判断两个变量是否具有相关关系.
2.了解最小二乘法原理,会求经验回归方程,并能根据经验回归方程进行预测.
3.理解残差的概念,会通过分析残差判断回归模型的拟合效果.
学习目标
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得
出的比例数,指居民家庭中食物支出占消费总支出
的比重,是衡量生活水平高低的一个指标.其计算公
式:恩格尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
导 语
恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对样本数据建立一个模型进行预测?
一、一元线性回归模型
二、利用经验回归方程对总体进行估计
随堂演练
三、非线性回归问题
四、残差及残差分析
内容索引
课时对点练
4
一
一元线性回归模型
如果散点图中的样本点大体分布在一条直线附近,怎样选择恰当的直线反映两个变量之间的线性相关关系?
问题1
提示 可以用y=a+bx+ε来反映两个变量之间的线性相关关系.
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中 是确定性函数, 称为随机误差.
2.随机误差产生的主要原因
(1)所用的 不恰当引起的误差;
(2)忽略了 ;
(3)存在 误差.
a+bx
确定性函数
某些因素的影响
观测
ε
知识梳理
3.一元线性回归模型中a,b值的求法
y= 称为一元线性回归模型.其中,y称为因变量或响应变量,x称为自变量或解释变量.
a,b的估计值分别记为,,其计算公式为
上述方法称为“最小二乘法” ,由此求得的,分别叫作b,a的最小二乘估计.
a+bx+ε
知识梳理
4.经验回归直线和经验回归方程
直线=+x称为经验回归直线,此直线方程称为经验回归方程,称为 ,称为 ,称为 .
回归截
回归系数
回归值
知识梳理
(1)经验回归方程的系数的计算,有时利用公式=;
(2)经验回归方程=x+必经过点(,).
注 意 点
<<<
10
(课本例4) 如表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系.如果具有线性相关关系,求出经验回归方程;如果不具有线性相关关系,说明理由.
例 1
机动车辆
数x/103辆 交通事故
数y/103件
95 6.2
110 7.5
112 7.7
120 8.5
机动车辆
数x/103辆 交通事故
数y/103件
129 8.7
135 9.8
150 10.2
180 13
11
计算相应的数据之和:
=1 031, =71.6, =137 835, =671, =9 611.7.
根据样本相关系数公式可得r=0.992 7,故两变量之间具有很强的线性相关关系.再由公式(1)计算得≈0.077 4,≈-1.024 1.
因此,所求经验回归方程为
=-1.024 1+0.077 4x.
12
某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
例 1
x 2 4 5 6 8
y 30 40 60 50 70
求经验回归方程.
13
列出下表,并用科学计算器进行有关计算.
i 1 2 3 4 5
xi 2 4 5 6 8
yi 30 40 60 50 70
xiyi 60 160 300 300 560
4 16 25 36 64
=5,=50,=145,xiyi=1 380
14
则===6.5,
=-=50-6.5×5=17.5.
故所求的经验回归方程是=6.5x+17.5.
15
求经验回归方程可分如下四步来完成
(1)列:列表表示xi,yi,,xiyi.
(2)算:计算,,,xiyi.
(3)代:代入公式计算,的值.
(4)写:写出经验回归方程.
反
思
感
悟
16
随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位:次)之间的对应数据如下表所示:
跟踪训练 1
x/件 1 3 5 7 9
y/次 10 30 40 50 60
(1)根据表中数据画出散点图;
17
散点图如图所示.
18
(2)根据表中的数据,求出y关于x的经验回归方程.
根据散点图可得,变量x与y之间具有线性相关关系.
根据数据可知,=5,=38,xiyi=1 190,=165,代入公式得===6,
=-=38-6×5=8.
故所求的经验回归方程是=6x+8.
19
二
利用经验回归方程对总体进行估计
(课本例5) 统计学家K.Pearson收集了大量父亲和儿子的身高数据,如表是从中随机抽取的10对父子的身高数据.
例 2
父亲的身高x/cm 儿子的身高y/cm
152.4 161.3
157.5 165.6
162.6 167.6
165.1 166.4
167.6 169.9
170.2 170.4
21
试估计父亲身高为166 cm时,他的儿子的身高.
父亲的身高x/cm 儿子的身高y/cm
172.7 171.2
177.8 173.5
182.9 178.1
188.0 177.8
22
根据表中数据画出散点图,如图所示.
由表中数据可得 =1 696.8,
=1 701.8, =289 021.12, =
289 866.08, =289 281.27.
根据样本相关系数公式可得r=0.980 3,说明父亲与儿子的身高之间具有很强的线性相关关系.
23
再由公式(1)计算得≈0.469 1,≈90.577,
故经验回归方程为=0.469 1x+90.577,
当x=166时,=0.469 1×166+90.577≈
168,即父亲身高为166 cm时,他的
儿子的身高约为168 cm.
24
某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如表所示:
例 2
年份x 2018 2019 2020 2021 2022
储蓄存款额y/千亿元 5 6 7 8 10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 017,z=y-5,得到下表.
t 1 2 3 4 5
z 0 1 2 3 5
(1)求z关于t的经验回归方程;
25
=3,=2.2,tizi=45,=55,
则==1.2,
=-=2.2-1.2×3=-1.4.
所以z关于t的经验回归方程为=1.2t-1.4.
26
(2)通过(1)中的方程,求出y关于x的回归方程;
将t=x-2 017,z=y-5代入=1.2t-1.4,
得-5=1.2(x-2 017)-1.4,
即=1.2x-2 416.8.
故y关于x的回归方程为=1.2x-2 416.8.
27
(3)用所求回归方程预测到2025年年底,该地此银行储蓄存款额可达到多少?
将x=2 025代入=1.2x-2 416.8中得,=1.2×2 025-2 416.8=13.2,
所以预测到2025年年底,该地此银行储蓄存款额可达到13.2千亿元.
28
反
思
感
悟
(1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求经验回归方程,注意运算的正确性.
(3)根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
某研究机构对高三学生的记忆力x和判断力y进行统计分析,得如表数据:
跟踪训练 2
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图;
散点图如图所示.
30
x 6 8 10 12
y 2 3 5 6
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
参考公式:=,=-.
31
==9,==4,
=62+82+102+122=344,
xiyi=6×2+8×3+10×5+12×6=158,
===0.7,=-=4-0.7×9=-2.3,
故经验回归方程为=0.7x-2.3.
32
(3)试根据求出的经验回归方程,估计记忆力为9的同学的判断力.
由(2)中经验回归方程可知,当x=9时,=0.7×9-2.3=4,即记忆力为9的同学的判断力约为4.
33
三
非线性回归问题
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
一般步骤为:
知识梳理
说明:由于涉及的数据比较多,考虑到可操作性,考试时往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
知识梳理
某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,…,10)的数据,得到散点图如图所示.
例 3
37
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
由散点图可知,选择回归类型y=c·xd更适合.
38
(2)对数据作出如下处理,令ui=ln xi,vi=ln yi,得到相关统计量的值如下表:
vi ui (ui-)(vi-) (ui-)2
15 15 28.25 56.5
根据第(1)问的判断结果及表中数据,求y关于x的回归方程.
39
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
40
对y=c·xd两边取对数,得ln y=ln c+dln x,
即v=ln c+du.
由表中数据求得===,
===.
令ln c=m,则=-=-×=,
即c=.所以年销售量y与年研发费用x的回归方程为=.
41
反
思
感
悟
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示.
非线性回归问题的处理方法
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=
ln y,把原始数据(x,y)转化为(x,z),再根据一元线性回归模型的方法求出a,b.
反
思
感
悟
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示.
②处理方法:设x'=ln x,原方程可化为y=bx'+a,
再根据一元线性回归模型的方法求出a,b.
反
思
感
悟
(3)y=bx2+a型
处理方法:设x'=x2,原方程可化为y=bx'+a,再根据一元线性回归模型的方法求出a,b.
为了研究某种细菌随时间x变化的繁殖个数y,收集数据如下:
跟踪训练 3
天数x 1 2 3 4 5 6
繁殖个数y 6 12 25 49 95 190
求y关于x的回归方程.
参考数据:ln 6≈1.79,ln 12≈2.48,
ln 25≈3.22,ln 49≈3.89,ln 95≈4.55,
ln 190≈5.25.
45
作出散点图如图(1)所示.
由散点图可以看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.由表中数据得到经验回归方程为=0.69x+1.115.因此细菌的繁殖个数y关于天数x的回归方程为=e0.69x+1.115.
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
46
四
残差及残差分析
提示 不一定,因为还有其他影响他儿子身高的因素,父亲的身高不能完全决定儿子身高.
课本例5中我们知道儿子身高Y关于父亲身高x的经验回归方程为=0.469 1x+90.577,那么当x=166时,=0.469 1×166+90.577≈
168(cm),如果一位父亲的身高为166 cm,他儿子长大成人后的身高一定是168 cm吗?为什么?
问题2
提示 166.4-168.03=-1.63(cm).
对于课本表9-1-5中的第4个观测,我们发现当父亲身高为165.1 cm时,儿子的身高实际为166.4 cm,实际身高与预测的身高相差了多少?
问题3
残差:一般地,我们将 与对应的 之差称为残差,残差是随机误差ε的估计结果.
观测值
估计值
知识梳理
某运动员训练次数x与成绩y的数据如表:
例 4
次数x 30 33 35 37 39 44 46 50
成绩y 30 34 37 39 42 46 48 51
(1)作出散点图;
该运动员成绩y与训练次数x之间的散点图如图所示,由散点图可知,它们之间具有线性相关关系.
51
(2)建立成绩y关于次数x的经验回归方程(结果精确到0.001);
52
∵=39.25,=40.875,
=12 656,xiyi=13 180,
∴==≈1.041,
=-≈0.016.
∴经验回归方程为=1.041x+0.016.
53
(3)用残差分析的方法判断用一元线性回归模型是否合理;
54
某运动员训练次数与成绩之间的数据及相应的残差数据为
x 30 33 35 37 39 44 46 50
y 30 34 37 39 42 46 48 51
=y- -1.246 -0.369 0.549 0.467 1.385 0.18 0.098 -1.066
残差图如图所示.
由图可知,残差比较均匀地分布在横轴的两边,说明该一元线性回归模型比较合理.
55
计算得R2=1-≈0.985.说明拟合效果较好.
(4)计算R2,并用R2说明拟合效果的好坏.
56
反
思
感
悟
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好.
(3)R2法:R2=1-越接近1,表明模型的拟合效果越好.
刻画回归效果的三种方法
对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是
跟踪训练 4
√
58
用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
59
1.知识清单:
(1)一元线性回归模型.
(2)利用经验回归方程对总体进行估计.
(3)非线性回归问题.
(4)残差及残差分析.
2.方法归纳:最小二乘法、转化化归、公式法.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程导致出现错误.
课堂小结
60
随堂演练
五
1
2
3
4
1.(多选)以下四个散点图中,两个变量的关系适合用一元线性回归模型刻画的是
AC中的点分布在一条直线附近,适合用一元线性回归模型刻画.
√
√
2.设一个经验回归方程为=2-2.5x,若变量x增加1个单位,则变量y
A.平均增加2.5个单位 B.平均增加2个单位
C.平均减少2.5个单位 D.平均减少2个单位
1
2
3
4
√
由经验回归方程的意义知,当x增加1个单位时,平均减少2.5个单位.
3.已知具有线性相关关系的两个变量x,y之间的一组数据如下,且经验回归方程是=0.95x+,则当x=6时,y的预测值为
1
2
3
4
x 0 1 2 3 4
y 2.2 4.3 4.5 4.8 6.7
A.8.4 B.8.3 C.8.2 D.8.1
√
1
2
3
4
由已知数据可得=2,=4.5,
∴4.5=0.95×2+,∴=2.6,
∴经验回归方程是=0.95x+2.6,
当x=6时,y的预测值为0.95×6+2.6=8.3.
4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的附近.令z=ln y,求得经验回归方程为=0.25x-2.58,则y关于x的回归方程为 .
1
2
3
4
因为=0.25x-2.58,z=ln y,
所以=e0.25x-2.58.
=e0.25x-2.58
课时对点练
六
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
基础巩固
√
2.已知经验回归方程为=x+,其中=3且=1,=2,则经验回归方程为
A.=x+3 B.=-2x+3
C.=-x+3 D.=x-3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
经验回归直线一定过点(,),将(1,2)代入方程可得=-1.
√
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得到=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是
A.年龄为37岁的人体内脂肪含量一定为20.901
B.年龄为37岁的人体内脂肪含量约为21.01
C.年龄为37岁的人群中的体内脂肪含量平均为20.901
D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
当x=37时,=0.577×37-0.448=20.901,由此估计,年龄为37岁的人群中的体内脂肪含量平均为20.901.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4.设两个变量x和y之间具有线性相关关系,它们的样本相关系数是r,y关于x的经验回归方程斜率是,纵轴上的截距是,那么必有
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因为>0时,两变量正相关,此时r>0;<0时,两变量负相关,此时r<0,所以与r的符号相同.
5.甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和 (yi-)2如表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
哪位同学的实验结果表明拟合A,B两变量关系的模型拟合精度高?
A.甲 B.乙 C.丙 D.丁
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
残差平方和越小,拟合效果越好.
6.(多选)根据如下样本数据得到的经验回归方程为=x+,则
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
A.>0 B.>0
C.<0 D.<0
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
作出散点图如下:
观察图象可知,经验回归方程=x+的斜率<0,
当x=0时,=>0.故>0,<0.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7.已知y与x之间的经验回归方程为=0.5x+2.2,且=3,样本数据中y的取值依次为2.5,m,3.4,4.2,5.4,则m= .
因为经验回归方程过(,),所以=0.5×3+2.2=3.7,
所以m=3.7×5-(2.5+3.4+4.2+5.4)=3.
3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
8.某工厂为研究某种产品产量x(吨)与所需某种原料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如表所示:
x 3 4 6 7
y 2.5 3 4 m
根据表中数据,得出y关于x的经验回归方程为=0.7x+.据此计算出在点(4,3)处的残差为-0.15,则表中m的值为 .
5.9
79
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由点(4,3)处的残差为-0.15,
得3-(0.7×4+)=-0.15,可得=0.35,
即经验回归方程为=0.7x+0.35,
又由样本数据的平均数为==5,=,
所以0.7×5+0.35=,
解得m=5.9.
80
9.某人计划购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如下表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
月份编号t 1 2 3 4 5
销量y(万辆) 0.5 0.6 1 1.4 1.7
经分析发现,可用一元线性回归模型拟合该品牌新能源汽车的实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的经验回归方程=t+,并预测月份编号t为6时,该品牌新能源汽车的销量.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
易知==3,==1.04,
=12+22+32+42+52=55,
tiyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8,
====0.32,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
=-=1.04-0.32×3=0.08.
则y关于t的经验回归方程为=0.32t+0.08.
当t=6时,=2,即月份编号为6时,当地该品牌新能源汽车的销量约为2万辆.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
10.近年来,随着社会对教育的重视,家庭的平均教育支出增长较快,随机抽样调查某市2016~2022年的家庭平均教育支出,得到如下表格.(年份
代码1~7分别对应的年份是2016~2022).经计算得=10(ti-)·(yi-)=139.
年份t 1 2 3 4 5 6 7
教育支出占家庭支出比例y
(百分比) 21 26 34 38 43 46 51
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(1)计算样本相关系数,并判断两个变量相关性的强弱;(精确到0.01)
附:样本相关系数:r=;
经验回归方程:=t+,其中=,=-.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
=×(1+2+3+4+5+6+7)=4,
=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,
所以r==≈0.99,
故两个变量有很强的线性相关性.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)建立y关于t的经验回归方程;(精确到0.01)
附:相关系数:r=;
经验回归方程:=t+,其中=,=-.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
=×(21+26+34+38+43+46+51)=37,
所以==≈4.96,
=-≈37-4.96×4=17.16,
所以经验回归方程为=4.96t+17.16.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(3)若预计2025年该市某家庭总支出为10万元,预测该家庭教育支出约为多少万元?
当t=10时,=4.96×10+17.16=66.76,
故家庭教育支出为10×66.76%=6.676(万元).
11.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的经验回归方程可能是
A.=-2x+9.5 B.=2x-2.4
C.=-0.3x-4.4 D.=0.4x+2.3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
综合运用
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因为变量x与y负相关,所以排除B,D;
将样本平均数=3,=3.5代入选项验证可知,选项A符合题意.
12.“学习强国”学习平台是由中宣部主管,以深入学习宣传习近平新时代中国特色社会主义思想为主要内容,立足全体党员、面向全社会的优质平台,现日益成为老百姓了解国家动态、紧跟时代脉搏的热门APP.为了解某单位职工“学习强国”每天的学习时长与所得积分之间的关系,现从该单位随机抽取10名职工,统计他们某天的学习时长x(min)得到条形图如图所示,该10名职工的学习积分分别为yi(i=1,2,…,10),若学习时长x与所得积分y之间有线性相关关系,设其经验回归方程为=x+.已
知yi=350,=.若该单位某人在一天的学习时长为40 min,据此估计其所得积分为
A.25 B.28 C.29 D.30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
==50,
==35,
又=,∴=35-×50=5,∴=x+5,
取x=40,得=×40+5=29.
13.(多选)月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时间”,单位:小时)与天数x(x为阴历日数,x∈N*,且0≤x≤30)的有关数据,如表,并且根据表中数据,求得y关于x的经验回归方程为=0.8x+.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才升起.则
A.经验回归直线过点(10,14.4)
B.=6.8
C.预测月出时间为16时的那天是阴历13日
D.预测阴历27日的月出时间为阴历28日早上4:00
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
==10,
==14.4,
故经验回归直线过点(10,14.4),选项A正确;
将点(10,14.4)代入=0.8x+,
得=6.4,选项B错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
∵=0.8x+6.4,
当y=16时,x=12,
∴月出时间为阴历12日,选项C错误;
∵阴历27日,即x=27,
代入=0.8×27+6.4=28,
∴日出时间应该为28日早上4:00,选项D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
14.已知y与x之间具有很强的线性相关关系,现观测得到x,y的四组观测值并制作了对照表.
x 15 17 11 -3
y 6 17 21 36
由表中数据粗略地得到经验回归方程为=x+60,其中的值没有写上,当x不小于-5时,预测y最大为 .(结果保留整十数)
80
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由表格可知=10,=20,代入经验回归方程可知=-4,令x≥-5,可得≤80.故预测y的最大值为80.
x 15 17 11 -3
y 6 17 21 36
15.已知变量y关于x的回归方程为=,其一组数据如下表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
拓广探究
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为
A.e5 B. C.e7 D.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
将式子两边取对数,得到ln =x-0.5,
令=ln ,得到=x-0.5,
列出x,z的取值对应的表格如下:
x 1 2 3 4
z 1 3 4 6
则==2.5,==3.5,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
∵(,)满足=x-0.5,
∴3.5=×2.5-0.5,解得=1.6,
∴=1.6x-0.5,∴=e1.6x-0.5,
当x=5时,=e1.6×5-0.5=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件个数x/个 10 20 30 40 50
加工时间y/分 62 68 75 81 89
零件个数x/个 60 70 80 90 100
加工时间y/分 95 102 108 115 122
(1)求y关于x的经验回归方程;(结果精确到0.01)
参考数据:=38 500,xiyi=55 950.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
根据收集的数据作散点图,如图所示.
从图中可以看出,这些点分布在一条直线的附近,
因此可以用一元线性回归模型刻画零件个数与加工时间之间的关系.
由表中数据可得=55,=91.7,
所以===≈0.67,
=-≈91.7-0.67×55=54.85.
所以经验回归方程为=0.67x+54.85.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)作出残差图并进行残差分析.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
列出残差表如下:
yi 62 68 75 81 89
61.6 68.3 75.0 81.7 88.4
yi- 0.4 -0.3 0 -0.7 0.6
yi 95 102 108 115 122
95.1 101.8 108.5 115.2 121.9
yi- -0.1 0.2 -0.5 -0.2 0.1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
以零件个数为横坐标,残差为纵坐标建立直角坐标系,作出残差图如图所示.
残差分析:由残差图可以观察到第4个点和第5个
点的残差比较大,需要确认在采集这两对数据的
过程中是否有人为的失误,若有,则需要纠正数据,重新建立回归模型.由残差图中的残差点比较均匀地落在水平的带状区域中(在直线y=-0.70和y=0.70之间),说明选用的一元线性回归模型较为合适,带状区域的宽度仅为1.40,比较狭窄,说明经验回归方程较好地刻画了零件个数与加工时间的关系.
第一章
<<<
$$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。