内容正文:
9.1.2
线性回归方程
第9章 §9.1 线性回归分析
学习目标
1.能结合实例,根据散点图判断两个变量是否具有相关关系.
2.了解最小二乘法原理,会求线性回归方程,并能根据线性回归方程进行预测.
3.理解残差的概念,会通过分析残差判断回归模型的拟合效果.
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是衡量生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
导语
一个家庭收入越少,家庭收入中或者家庭总支出中用
来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对样本数据建立一个模型进行预测?
内容索引
一、线性回归模型
二、利用线性回归方程对总体进行估计
课时对点练
三、非线性回归问题
随堂演练
四、残差及残差分析
线性回归模型
一
问题1 如果散点图中的样本点大体分布在一条直线附近,怎样选择恰当的直线反映两个变量之间的线性相关关系?
提示 可以用y=a+bx+ε来反映两个变量之间的线性相关关系.
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中______是确定性函数,____称为随机误差.
2.随机误差产生的主要原因
(1)所用的___________不恰当引起的误差;
(2)忽略了_______________;
(3)存在_____误差.
a+bx
ε
确定性函数
某些因素的影响
观测
知识梳理
7
3.线性回归模型中a,b值的求法
y=_________称为线性回归模型.
上述方法称为“最小二乘法”.
a+bx+ε
知识梳理
8
4.回归直线和线性回归方程
回归
截距
回归系数
回归值
知识梳理
9
注意点:
知识梳理
10
例1 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
求线性回归方程.
11
列出下表,并用科学计算器进行有关计算.
i 1 2 3 4 5
xi 2 4 5 6 8
yi 30 40 60 50 70
xiyi 60 160 300 300 560
4 16 25 36 64
12
13
求线性回归方程可分如下四步来完成
(4)写:写出线性回归方程.
反思感悟
14
跟踪训练1 随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位:次)之间的对应数据如下表所示:
x/件 1 3 5 7 9
y/次 10 30 40 50 60
(1)根据表中数据画出散点图;
15
散点图如图所示.
16
(2)根据表中的数据,求出y关于x的线性回归方程.
x/件 1 3 5 7 9
y/次 10 30 40 50 60
17
根据散点图可得,变量x与y之间具有线性相关关系.
18
二
利用线性回归方程对总体进行估计
例2 某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如下表所示:
年份x 2018 2019 2020 2021 2022
储蓄存款额y/千亿元 5 6 7 8 10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 017,z=y-5,得到下表.
t 1 2 3 4 5
z 0 1 2 3 5
(1)求z关于t的线性回归方程;
20
21
(2)通过(1)中的方程,求出y关于x的回归方程;
年份x 2018 2019 2020 2021 2022
储蓄存款额y/千亿元 5 6 7 8 10
t 1 2 3 4 5
z 0 1 2 3 5
22
(3)用所求回归方程预测到2024年年底,该地此银行储蓄存款额可达到多少?
年份x 2018 2019 2020 2021 2022
储蓄存款额y/千亿元 5 6 7 8 10
t 1 2 3 4 5
z 0 1 2 3 5
所以预测到2024年年底,该地此银行储蓄存款额可达到12千亿元.
23
(1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求线性回归方程,注意运算的正确性.
(3)根据线性回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
反思感悟
24
跟踪训练2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得如表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图;
散点图如图所示.
25
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程
x 6 8 10 12
y 2 3 5 6
26
27
(3)试根据求出的线性回归方程,估计记忆力为9的同学的判断力.
x 6 8 10 12
y 2 3 5 6
由(2)中线性回归方程可知,当x=9时, =0.7×9-2.3=4,即记忆力为9的同学的判断力约为4.
28
三
非线性回归问题
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
知识梳理
30
一般步骤为:
说明:由于涉及的数据比较多,考虑到可操作性,考试时往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
知识梳理
31
例3 某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,…,10)的数据,得到散点图如图所示.
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
由散点图可知,选择回归类型y=c·xd更适合.
32
(2)对数据作出如下处理,令ui=ln xi,vi=ln yi,得到相关统计量的值如下表:
根据第(1)问的判断结果及表中数据,求y关于x的回归方程.
33
34
对y=c·xd两边取对数,得ln y=ln c+dln x,
即v=ln c+du.
35
非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
反思感悟
36
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示.
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
反思感悟
37
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
反思感悟
38
跟踪训练3 为了研究某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6
繁殖个数y 6 12 25 49 95 190
求y关于x的回归方程.
参考数据:ln 6≈1.79,ln 12≈2.48,ln 25≈3.22,ln 49≈3.89,ln 95 ≈4.55,ln 190≈5.25.
39
作出散点图如图(1)所示.
由散点图可以看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
相应的散点图如图(2)所示.
40
从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
41
四
残差及残差分析
提示 不一定,因为还有其他影响他儿子身高的因素,父亲的身高不能完全决定儿子身高.
问题3 对于课本表9-1-5中的第4个观测,我们发现当父亲身高为165.1 cm时,儿子的身高实际为166.4 cm,实际身高与预测的身高相差了多少?
提示 166.4-168.03=-1.63(cm).
残差:一般地,我们将_______与对应的_______之差称为残差,残差是随机误差的估计效果.
观测值
估计值
知识梳理
45
例4 某运动员训练次数x与成绩y的数据如表:
次数x 30 33 35 37 39 44 46 50
成绩y 30 34 37 39 42 46 48 51
(1)作出散点图;
该运动员成绩y与训练次数x之间的散点图如图所示,由散点图可知,它们之间具有线性相关关系.
46
次数x 30 33 35 37 39 44 46 50
成绩y 30 34 37 39 42 46 48 51
(2)建立成绩y关于次数x的线性回归方程(结果精确到0.001);
47
48
次数x 30 33 35 37 39 44 46 50
成绩y 30 34 37 39 42 46 48 51
(3)用残差分析的方法判断用线性回归模型是否合理;
49
某运动员训练次数与成绩之间的数据及相应的残差数据为
x 30 33 35 37 39 44 46 50
y 30 34 37 39 42 46 48 51
-1.246 -0.369 0.549 0.467 1.385 0.18 0.098 -1.066
残差图如图所示.
由图可知,残差比较均匀地分布在横轴的两边,说明该线性回归模型比较合理.
50
次数x 30 33 35 37 39 44 46 50
成绩y 30 34 37 39 42 46 48 51
(4)计算R2,并用R2说明拟合效果的好坏.
51
刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
反思感悟
52
跟踪训练4 对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是
用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
√
53
1.知识清单:
(1)线性回归模型.
(2)利用线性回归方程对总体进行估计.
(3)非线性回归问题.
(4)残差及残差分析.
2.方法归纳:最小二乘法、转化化归、公式法.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解线性回归方程导致出现错误.
课堂小结
随堂演练
五
1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是
AC中的点分布在一条直线附近,适合用线性回归模型刻画.
1
2
3
4
√
√
2.设一个线性回归方程为 =2-2.5x,若变量x增加1个单位,则变量y
A.平均增加2.5个单位
B.平均增加2个单位
C.平均减少2.5个单位
D.平均减少2个单位
1
2
3
4
√
3.已知具有线性相关关系的两个变量x,y之间的一组数据如下,且线性回归方程是 ,则当x=6时,y的预测值为
当x=6时,y的预测值为0.95×6+2.6=8.3.
1
2
3
4
x 0 1 2 3 4
y 2.2 4.3 4.5 4.8 6.7
A.8.4 B.8.3 C.8.2 D.8.1
√
4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的附近.令z=ln y,求得线性回归方程为 =0.25x-2.58,则y关于x的非线性回归方程为___________.
1
2
3
4
课时对点练
六
1.已知变量x,y之间具有线性关系,其散点图如图所示,则其线性回归方程可能为
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
基础巩固
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得到 =0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是
A.年龄为37岁的人体内脂肪含量一定为20.901
B.年龄为37岁的人体内脂肪含量约为21.01
C.年龄为37岁的人群中的体内脂肪含量平均为20.901
D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
5.甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散
点图与残差平方和
甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
哪位同学的实验结果表明拟合A,B两变量关系的模型拟合精度高?
A.甲 B.乙 C.丙 D.丁
√
残差平方和越小,拟合效果越好.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
作出散点图如右:
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7.已知由变量x与y相对应的一组样本数据(1,y1),(5,y2),(7,y3),(13,y4),(19,y5)得到的线性回归方程为
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
63
8.某工厂为研究某种产品产量x(吨)与所需某种原料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 3 4 6 7
y 2.5 3 4 m
根据表中数据,得出y关于x的线性回归方程为 据此计算出在点(4,3)处的残差为-0.15,则表中m的值为_____.
5.9
由点(4,3)处的残差为-0.15,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解得m=5.9.
9.某人计划购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如下表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
月份编号t 1 2 3 4 5
销量y(万辆) 0.5 0.6 1 1.4 1.7
经分析发现,可用线性回归模型拟合该品牌新能源汽车的实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的线性回归方程 并预测月份编号t为6时,该品牌新能源汽车的销量.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
10.近年来,随着社会对教育的重视,家庭的平均教育支出增长较快,随机抽样调查某市2016~2022年的家庭平均教育支出,得到如下表格.(年份
代码1~7分别对应的年份是2016~2022).经计算得
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
年份t 1 2 3 4 5 6 7
教育支出占家庭支出比例y(百分比) 21 26 34 38 43 46 51
(1)计算相关系数,并判断两个变量的相关性强弱;(精确到0.01)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
故两个变量有很强的线性相关性.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)建立y关于t的线性回归方程;(精确到0.01)
年份t 1 2 3 4 5 6 7
教育支出占家庭支出比例y(百分比) 21 26 34 38 43 46 51
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(3)若2023年该市某家庭总支出为10万元,预测该家庭教育支出约为多少万元?
年份t 1 2 3 4 5 6 7
教育支出占家庭支出比例y(百分比) 21 26 34 38 43 46 51
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
当t=8时,y=4.96×8+17.16=56.84,
故家庭教育支出为10×56.84%=5.684(万元).
因为变量x与y负相关,所以排除B,D;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
综合运用
√
12.“学习强国”学习平台是由中宣部主管,以深入学习宣传习近平新时代中国特色社会主义思想为主要内容,立足全体党员、面向全社会的优质平台,现日益成为老百姓了解国家动态、紧跟时代脉搏的热门APP.为了解某单位职工“学习强国”每天的学习时长与所得积分之间的关系,现从该单位随机抽取10名职工,统计他
们某天的学习时长x(min)得到条形图如
图所示,该10名职工的学习积分分别为
yi(i=1,2,…,10),若学习时长x与所得
积分y之间有线性相关关系,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A.25 B.28 C.29 D.30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
13.(多选)月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时间”,单位:小时)与天数x(x为阴历日数,x∈N*,且0≤x≤30)的有关数据,如表,并且根据表中数据,求得y关于x的线性回归方程为
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日
0:00)才升起.则
A.回归直线过点(10,14.4)
B. =6.8
C.预测月出时间为16时的那天是阴历13日
D.预测阴历27日的月出时间为阴历28日早上4:00
√
√
故回归直线过点(10,14.4),选项A正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
∴月出时间为阴历12日,选项C错误;
∴日出时间应该为28日早上4:00,选项D正确.
14.已知y与x之间具有很强的线性相关关系,现观测得到x,y的四组观测值并制作了对照表.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 15 17 11 -3
y 6 17 21 36
由表中数据粗略地得到线性回归方程为 的值没有写上,当x不小于-5时,预测y最大为_____.(结果保留整十数)
80
15.已知变量y关于x的非线性回归方程为 = ,其一组数据如下表所示:
若x=5,则预测y的值可能为
A.e5 B.
C.e7 D.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
拓广探究
x 1 2 3 4
y e e3 e4 e6
√
列出x,z的取值对应的表格如下:
x 1 2 3 4
z 1 3 4 6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件个数x/个 10 20 30 40 50
加工时间y/分 62 68 75 81 89
零件个数x/个 60 70 80 90 100
加工时间y/分 95 102 108 115 122
(1)求y关于x的线性回归方程;(结果精确到0.01)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
根据收集的数据作散点图,如图所示.
从图中可以看出,这些点分布在一条直线的附近,
因此可以用线性回归模型刻画零件个数与加工时间之间的关系.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)作出残差图并进行残差分析.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
零件个数x/个 10 20 30 40 50
加工时间y/分 62 68 75 81 89
零件个数x/个 60 70 80 90 100
加工时间y/分 95 102 108 115 122
列出残差表如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
yi 62 68 75 81 89
61.6 68.3 75.0 81.7 88.4
yi- 0.4 -0.3 0 -0.7 0.6
yi 95 102 108 115 122
95.1 101.8 108.5 115.2 121.9
yi- -0.1 0.2 -0.5 -0.2 0.1
以零件个数为横坐标,残差为纵坐标建立直角坐标系,作出残差图如图所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
残差分析:由残差图可以观察到第4个点
和第5个点的残差比较大,需要确认在采
集这两对数据的过程中是否有人为的失误,
若有,则需要纠正数据,重新建立回归模型.由残差图中的残差点比较均匀地落在水平的带状区域中(在直线y=-0.70和y=0.70之间),说明选用的线性回归模型较为合适,带状区域的宽度仅为1.40,比较狭窄,说明线性回归方程较好地刻画了零件个数与加工时间的关系.
a,b的估计值为,,则
-
直线=+x称为回归直线,此直线方程即为线性回归方程,称为_____
_____,称为_________,称为_______.
(1)线性回归方程的系数的计算,有时利用公式=;
(2)线性回归方程=x+必经过(,).
x
=5,=50,=145,iyi=1 380
则===6.5,
=-=50-6.5×5=17.5.
故所求的线性回归方程是=6.5x+17.5.
(1)列:列表表示xi,yi,x,xiyi.
(2)算:计算,,,iyi.
(3)代:代入公式计算,的值.
故所求的线性回归方程是=6x+8.
根据数据可知,=5,=38,iyi=1 190,=165,
代入公式得===6,
=-=38-6×5=8.
所以z关于t的线性回归方程为=1.2t-1.4.
=3,=2.2,izi=45,=55,
则==1.2,
=-=2.2-1.2×3=-1.4.
将t=x-2 017,z=y-5代入=1.2t-1.4,
得-5=1.2(x-2 017)-1.4,即=1.2x-2 416.8.
故y关于x的回归方程为=1.2x-2 416.8.
将x=2 024代入=1.2x-2 416.8中得,=1.2×2 024-2 416.8=12,
=x+;
参考公式:=, =- .
===0.7,=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
==9,==4,
=62+82+102+122=344,
iyi=6×2+8×3+10×5+12×6=158,
i
i
(ui-)(vi-)
(ui-)2
15
15
28.25
56.5
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
即c= .所以年销售量y与年研发费用x的回归方程为= .
由表中数据求得===,
===.
令ln c=m,则=-=-×=,
由表中数据得到线性回归方程为=0.69x+1.115.
因此细菌的繁殖个数y关于天数x的非线性回归
方程为=e0.69x+1.115.
问题2 课本例5中我们知道儿子身高Y关于父亲身高x的线性回归方程为=0.469 1x+90.577,那么当x=166时,=0.469 1×166+90.577 ≈168(cm),如果一位父亲的身高为166 cm,他儿子长大成人后的身高一定是168 cm吗?为什么?
∴线性回归方程为=1.041x+0.016.
∵=39.25,=40.875,=12 656,iyi=13 180,
∴==≈1.041,
=-≈0.016.
=y-
计算得R2=1-≈0.985.说明拟合效果较好.
(2)残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)R2法:R2=1-越接近1,表明模型的拟合效果越好.
由线性回归方程的意义知,当x增加1个单位时,平均减少2.5个单位.
∴4.5=0.95×2+,∴=2.6,
∴线性回归方程是=0.95x+2.6,
由已知数据可得=2,=4.5,
=0.95x+
=e0.25x-2.58
因为=0.25x-2.58,z=ln y,所以=e0.25x-2.58.
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
回归直线一定过点(,),将(1,2)代入方程可得=-1.
2.已知线性回归方程为=x+,其中=3且=1,=2,则线性回归方程为
A.=x+3 B.=-2x+3
C.=-x+3 D.=x-3
当x=37时,=0.577×37-0.448=20.901,由此估计,年龄为37岁的人群中的体内脂肪含量平均为20.901.
因为>0时,两变量正相关,此时r>0;
<0时,两变量负相关,此时r<0,所以与r的符号相同.
4.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的线性回归方程斜率是,纵轴上的截距是,那么必有
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
(yi-i)2如表:
观察图象可知,线性回归方程=x+的斜率
<0,
当x=0时,=>0.故>0,<0.
6.(多选)根据如下样本数据得到的线性回归方程为=x+,则
A.>0 B.>0 C.<0 D.<0
∵=×(1+5+7+13+19)=9,=2+45,
=2x+45,则=_____.
∴=2×9+45=63.
=0.7x+.
得3-(0.7×4+)=-0.15,可得=0.35,
即线性回归方程为=0.7x+0.35,
又由样本数据的平均数为==5,=,
所以0.7×5+0.35=,
=t+,
====0.32,
易知==3,==1.04,
=12+22+32+42+52=55,
iyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8,
=-=1.04-0.32×3=0.08.
则y关于t的线性回归方程为=0.32t+0.08.
当t=6时,=2,即月份编号为6时,当地该品牌新能源汽车的销量约为2万辆.
i=259,iyi=1 175,
=10,(ti-)(yi-)=139.
附:相关系数:r=;
线性回归方程:=t+,其中=,=.
=×(1+2+3+4+5+6+7)=4,
(ti-)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,
所以r==≈0.99,
=×(21+26+34+38+43+46+51)=37,
所以==≈4.96,=-=37-4.96×4≈17.16,
所以线性回归方程为=4.96t+17.16.
将样本平均数=3,=3.5代入选项验证可知,选项A符合题意.
11.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的线性回归方程可能是
A.=-2x+9.5 B.=2x-2.4
C.=-0.3x-4.4 D.=0.4x+2.3
设其线性回归方程为=x+.已知i=350,=.若该单位某人在一天的学习时长为40 min,据此估计其所得积分为
==50,
==35,
又=,∴=35-×50=5,
取x=40,得=×40+5=29.
∴=x+5,
=0.8x+.
==10,
==14.4,
将点(10,14.4)代入=0.8x+,得=6.4,选项B错误;
∵=0.8x+6.4,当y=16时,x=12,
∵阴历27日,即x=27,代入=0.8×27+6.4=28,
=x+60,其中
由表格可知=10,=20,代入线性回归方程可知=-4,令x≥
-5,可得≤80.故预测y的最大值为80.
∵(,)满足=x-0.5,
∴3.5=×2.5-0.5,解得=1.6,
∴=1.6x-0.5,∴=e1.6x-0.5,当x=5时,=e1.6×5-0.5= .
将式子两边取对数,得到ln =x-0.5,
令=ln ,得到=x-0.5,
则==2.5,==3.5,
参考数据:=38 500,iyi=55 950.
由表中数据可得=55,=91.7,
所以=
==≈0.67,
=-≈91.7-0.67×55=54.85.
所以线性回归方程为=0.67x+54.85.
i
i
i
i
$$