内容正文:
9.1 线性回归分析
9.1.2 一元线性回归模型
必备知识 清单破
知识点 1
一元线性回归模型
散点图上的点在一条直线附近,但并不都在这条直线上.也就是说,这条直线并不能精确
地反映x与y之间的关系,y的值不能由x确定,在此,我们将两者之间的关系表示为y=a+bx+ε,其
中a+bx是确定性函数,ε称为随机误差.我们将y=a+bx+ε称为一元线性回归模型.其中,y称为因
变量或响应变量,x称为自变量或解释变量.
高中同步
第9章 统计
设有n对观测数据(xi,yi)(i=1,2,3,…,n),根据一元线性回归模型,对于每一个xi,对应的随机
误差项εi=yi-(a+bxi),当 + +…+ 取得最小值时得到的直线 = + x称为这n对数据的经验
回归直线,此直线方程称为y关于x的经验回归方程,其中 称为回归截距, 称为回归系数, 称
为回归值.
, 的计算公式分别为 = = , = - .把上述方法称为“最小
二乘法”,由此求得的 , 分别叫作b,a的最小二乘估计.
知识点 2
经验回归方程与最小二乘法
高中同步
第9章 统计
1.残差的概念
观测值与对应的估计值之差称为残差.残差是随机误差ε的估计结果.
2.判断模型拟合效果的方法
(1)利用残差图:若残差比较均匀地分布在横轴的两边,则说明选用的模型比较合理,分布区域
的宽度越窄,说明模型的拟合效果越好.
(2)利用决定系数R2:R2=1- .
R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的
拟合效果越差.
知识点 3
残差
高中同步
第9章 统计
知识辨析
1.对于散点图中的点没有均匀分布在某条直线附近或毫无规则可言的两个变量,可以用最小
二乘法求对应的经验回归方程吗?
2.经验回归直线一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
3.利用经验回归方程求出的函数值是准确的吗?
4.y的观测值与对应的估计值之间的误差记为ε,称之为随机误差,它是由计算产生的误差吗?
5.相关系数r与决定系数R2有何区别?
高中同步
第9章 统计
一语破的
1.可以.已知两个变量的成对样本数据,利用公式都可以求出对应的经验回归方程,只是样本
相关系数的绝对值大小不同而已.
2.不一定.经验回归直线必过样本中心点( , ).
3.不一定.它只是一个估计值.
4.不一定.随机误差产生的原因有很多,如:用线性回归模型作为真实模型的近似所引起的误
差,忽略了某些因素的影响,观测误差等.
5.计算方法不同:相关系数r不需求出经验回归方程,决定系数R2需求出经验回归方程,利用残
差求出;结论不同:相关系数r不仅可以判断线性相关程度的强弱,还可以判断正、负相关,决
定系数R2只能判断相关程度的强弱.
高中同步
第9章 统计
1.求经验回归方程中 和 的方法
(1)公式法:利用公式求 , .
(2)待定系数法:利用经验回归直线必过样本中心点( , )求 , .
2.经验回归方程的应用
(1)利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值.
(2)利用经验回归方程判断正、负相关:决定正相关还是负相关的是 的正负.
关键能力 定点破
定点 1
经验回归方程的求解与应用
高中同步
第9章 统计
典例 某公司想了解某产品投入的宣传费用对该产品的营业额的影响.下图是以往该公司对
该产品的宣传费用x(单位:万元)和产品营业额y(单位:万元)的折线统计图.
(1)根据折线图判断是否可用一元线性回归模型拟合产品营业额y与宣传费用x之间的关系,
并用样本相关系数加以说明;(结果保留两位小数)
高中同步
第9章 统计
(2)建立产品营业额y关于宣传费用x的经验回归方程;(相关计算结果保留两位小数)
(3)若某段时间内产品利润z(单位:万元)与宣传费用x及营业额y的关系为z=x(y-1.01x-0.09)+5
0,应投入宣传费用多少万元才能使利润最大?并求出最大利润.
附: yi=37.28, xiyi=160.68, =2.2, ≈2.65;样本相关系数r= ;经
验回归方程 = x+ 中,回归系数和回归截距的最小二乘估计分别为 = , = - .
高中同步
第9章 统计
解析 (1)可以用一元线性回归模型拟合产品营业额y与宣传费用x之间的关系.
由题图中数据和参考数据得 =4, = = ≈5.33, (xi- )2=28.
样本相关系数r= ≈ ≈0.98.
因为y与x的样本相关系数近似为0.98,说明y与x的线性相关程度很强,所以可以用一元线性回
归模型拟合y与x之间的关系.
(2)易得 = ≈ ≈0.41, = - ≈5.33-0.41×4=3.69,
所以y关于x的经验回归方程为 =0.41x+3.69.
高中同步
第9章 统计
(3)由(2)得 =x(0.41x+3.69-1.01x-0.09)+50=-0.6x2+3.6x+50,所以当x=- =3时, 取得最大
值,且 =55.4,所以应投入宣传费用3万元才能使利润最大,最大利润为55.4万元.
高中同步
第9章 统计
1.研究两个变量的关系时,依据样本数据画出散点图,从整体上看,如果散点没有分布在一条
直线附近,就称这两个变量之间不具有线性相关关系.当两个变量不具有线性相关关系时,依
据散点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两
个
变量间的非线性回归方程.常见的非线性回归方程的转换方式如下:
定点 2
非线性回归分析
高中同步
第9章 统计
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
y=axb c=ln a,v=ln x,u=ln y u=c+bv
y=aebx c=ln a,u=ln y u=c+bx
y=a c=ln a,v= ,u=ln y u=c+bv
y=a+bln x v=ln x y=a+bv
高中同步
第9章 统计
2.建立非线性回归模型的基本步骤
(1)确定研究对象,明确涉及的变量;
(2)画出确定好的变量间的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例型
函数模型、指数型函数模型、对数型函数模型等);
(4)通过换元,将非线性回归模型转化为线性回归模型;
(5)按照公式计算经验回归方程中的参数,得到经验回归方程;
(6)消去新元,得到非线性回归方程.
高中同步
第9章 统计
典例 混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建
筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指
标.为了解某型号某批次混凝土的抗压强度(单位:MPa)随龄期(单位:天)的发展规律,质检部门
在标准试验条件下记录了10组混凝土试件在龄期xi(i=1,2,…,10)分别为2,3,4,5,7,9,12,14,17,21
时的抗压强度yi的值,并对数据进行了初步处理,得到散点图及一些统计量的值.
高中同步
第9章 统计
(xi- )2 (wi- )2
9.4 29.7 2 370.4 5.5
(xi- )(yi- ) (wi- )(yi- )
439.2 55
高中同步
第9章 统计
表中wi=ln xi, = wi.
(1)根据散点图判断y=a+bx与y=c+dln x哪一个适宜作为抗压强度y关于龄期x的回归方程类型,
根据判断结果和表中数据,建立y关于x的回归方程;
(2)工程中常把龄期为28天的混凝土试件的抗压强度f28视作混凝土抗压强度标准值.已知该型
号混凝土设置的最低抗压强度标准值为40 MPa.
①试预测该批次混凝土是否达标;
②由于抗压强度标准值需要较长时间才能评定,因此早期预测在工程质量控制中具有重要的
意义.经验表明,该型号混凝土第7天的抗压强度f7与第28天的抗压强度f28具有线性相关关系f28
=1.2f7+7,试估计在早期质量控制中,龄期为7天的混凝土试件需达到的抗压强度.
参考数据:ln 2≈0.69,ln 7≈1.95.
高中同步
第9章 统计
解析 (1)由题中的散点图可以判断出,y=c+dln x适宜作为抗压强度y关于龄期x的回归方程类
型.
由题知,w=ln x,先建立y关于w的经验回归方程.
由于 = = =10,
= - =29.7-10×2=9.7,
所以y关于w的经验回归方程为 =9.7+10w,
因此y关于x的回归方程为 =9.7+10ln x.
(2)①由(1)知,当龄期为28天,即x=28时,抗压强度y的估计值 =9.7+10ln 28=9.7+10×(2ln 2+ln
7)≈9.7+10×(2×0.69+1.95)=43.
因为43>40,所以预测该批次混凝土达标.
高中同步
第9章 统计
②令f28=1.2f7+7≥40,得f7≥27.5,
所以估计龄期为7天的混凝土试件需达到的抗压强度为27.5 MPa.
高中同步
第9章 统计
$