内容正文:
把式子 称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变
量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与
bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
知识点 1 一元线性回归模型
8.2 一元线性回归模型及其应用
必备知识 清单破
第七章 随机变量及其分布
高中同步
知识点2 经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(xi,yi)(i=1,2,…,n),通常用各散点
到直线y=bx+a的竖直距离的平方之和Q= 来刻画各样本观测数据与该直线的
“整体接近程度”.
当a,b的取值为 时,Q达到最小.
将 = x+ 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验
回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的 , 叫做b,a的最小二乘估计.
知识点 2
第七章 随机变量及其分布
高中同步
知识点3 残差
知识点 3
1.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观
测值减去预测值所得的差称为残差.
2.残差分析
通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据
等,这方面工作称为残差分析.
第七章 随机变量及其分布
高中同步
3.判断模型拟合效果的方式
(1)利用残差图:若残差比较均匀地分布在水平带状区域内,则说明选用的模型比较合适,带状
区域的宽度越窄,说明模型的拟合效果越好.
(2)利用决定系数R2:R2=1- .R2越大,表示残差平方和越小,即模型的拟合效果越好;R2
越小,表示残差平方和越大,即模型的拟合效果越差.
第七章 随机变量及其分布
高中同步
知识辨析
1.对于散点图中的点没有均匀分布在某条直线附近或毫无规则可言的两个变量,可以用最小
二乘法求对应的经验回归方程吗?
2.经验回归直线一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
3.利用经验回归方程求出的函数值是准确的吗?
4.y的观测值与预测值之间的误差记为e,称之为随机误差,它是由计算产生的误差吗?
5.样本相关系数r与决定系数R2有何区别?
第七章 随机变量及其分布
高中同步
一语破的
1.可以.已知两个变量的成对样本数据,利用公式都可以求出对应的经验回归方程,只是样本
相关系数的绝对值大小不同而已.
2.不一定.经验回归直线必过样本点的中心( , ).
3.不一定.它只是一个预测值.
4.不一定.随机误差产生的原因有很多.如:用线性回归模型作为真实模型的近似所引起的误
差,忽略了某些因素的影响,观测误差等.
5.计算方法不同:样本相关系数r不需求出经验回归方程,决定系数R2需求出经验回归方程,利
用残差求出;判断结论不同:样本相关系数r不仅可以判断线性相关程度的强弱,还可以判断正
负相关,决定系数R2只能判断线性相关程度的强弱.
第七章 随机变量及其分布
高中同步
定点1 经验回归方程的求解与应用
关键能力 定点破
定点 1
1.求经验回归方程中系数的方法
(1)公式法:利用公式求出 , .
(2)待定系数法:利用经验回归直线过样本点的中心( , )求系数.
2.经验回归方程的应用
(1)利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值.
(2)利用经验回归方程判断正负相关:决定正相关还是负相关的是 的正负.
第七章 随机变量及其分布
高中同步
典例 某公司想了解某产品投入的宣传费用对该产品的营业额的影响.下图是以往该公司对
该产品的宣传费用x(单位:万元)和产品营业额y(单位:万元)的折线统计图.
(1)根据折线图判断是否可用一元线性回归模型拟合产品营业额y与宣传费用x之间的关系,
并用样本相关系数加以说明;(结果保留两位小数)
第七章 随机变量及其分布
高中同步
(2)建立产品营业额y关于宣传费用x的经验回归方程;(相关计算结果保留两位小数)
(3)若某段时间内产品利润z(单位:万元)与宣传费用x及营业额y的关系为z=x(y-1.01x-0.09)+5
0,应投入宣传费用多少万元才能使利润最大?并求出最大利润.
参考数据: yi=37.28, xiyi=160.68, =2.2, ≈2.65.
参考公式:样本相关系数r=
,经验回归方程 = x+ 中, = , = - .
第七章 随机变量及其分布
高中同步
解析 (1)可以用一元线性回归模型拟合产品营业额y与宣传费用x之间的关系.由题图中数
据和参考数据得 =4, = = ≈5.33, (xi- )2=28,
则样本相关系数r= = ≈0.98.
因为y与x的样本相关系数近似为0.98,说明y与x的线性相关程度相当高,
所以可以用一元线性回归模型拟合y与x之间的关系.
(2)易得 = = ≈0.41,
= - =5.33-0.41×4=3.69,
第七章 随机变量及其分布
高中同步
所以y关于x的经验回归方程为 =0.41x+3.69.
(3)由(2)得 =x(0.41x+3.69-1.01x-0.09)+50=-0.6x2+3.6x+50,
所以当x=- =3时, 取得最大值,且 =55.4,
所以应投入宣传费用3万元才能使利润最大,最大利润为55.4万元.
第七章 随机变量及其分布
高中同步
定点2 非线性回归分析
定点 2
1.常见的非线性经验回归方程的转换
有时根据成对样本数据作出散点图后,发现这些散点并未分布在某一条直线附近,而是分布
在某一条曲线附近,此时,我们需要根据曲线的形状,选择适当的函数模型来拟合,再通过变量
代换,利用线性回归模型得到两个变量间的非线性回归方程.常见的非线性回归模型如下:
第七章 随机变量及其分布
高中同步
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
y=axb c=ln a, u=c+bv
y=aebx c=ln a, u=c+bx
y=a c=ln a, u=c+bv
y=a+bln x v=ln x y=a+bv
第七章 随机变量及其分布
高中同步
2.建立非线性回归模型的基本步骤
(1)确定研究对象,明确涉及的变量;
(2)画出变量间的散点图,观察它们之间的关系(是否存在非线性相关关系);
(3)由经验确定非线性经验回归方程的类型(如果我们观察到数据呈非线性相关关系,一般选
用反比例函数模型、指数函数模型、对数函数模型等);
(4)通过换元,将非线性回归模型转化为线性回归模型;
(5)按照公式计算经验回归方程中的参数,得到经验回归方程;
(6)消去新元,得到非线性经验回归方程.
第七章 随机变量及其分布
高中同步
典例 某果园种植“糖心苹果”已有十余年,为了提高利润,该果园每年投入一定的资金,对
种植、采摘、包装、宣传等环节进行改进.下图是2015年至2024年该果园每年的投资金额x
(单位:万元)与年利润增量y(单位:万元)的散点图.
该果园为了预测2025年投资金额为20万元时的年利润增量,建立了y关于x的两个回归模型:
第七章 随机变量及其分布
高中同步
模型①:由最小二乘法可求得y关于x的经验回归方程为 =2.5x-2.5;
模型②:由图中散点的分布,可以认为散点集中在曲线y=bln x+a的附近,令t=ln x,则y=bt+a,且
有 =22, yi=230, yi=569, =50.92.
(1)根据所给的统计量,求模型②中y关于x的非线性经验回归方程;
(2)分别利用这两个回归模型预测投资金额为20万元时的年利润增量(结果保留两位小数);
(3)根据表中的数据比较两个模型的决定系数R2,并说明哪个模型的拟合效果更好.
模型 模型① 模型②
(yi- )2 102.28 36.19
参考数据:ln 2≈0.693 1,ln 5≈1.609 4.
第七章 随机变量及其分布
高中同步
解析 (1)∵ =22, yi=230,
∴ =2.2, =23,
∴ = = =25,
= - =23-25×2.2=-32,
又t=ln x,
∴模型②中y关于x的非线性经验回归方程为 =25ln x-32.
(2)当x=20时,模型①的年利润增量的预测值为2.5×20-2.5=47.50(万元),
模型②的年利润增量的预测值为25ln 20-32=25×(2ln 2+ln 5)-32≈25×(2×0.693 1+1.609 4)-32
=42.89(万元).
第七章 随机变量及其分布
高中同步
(3)∵102.28>36.19,
∴1- <1- ,
∴模型①的决定系数小于模型②的决定系数,
∴模型②的拟合效果更好.
第七章 随机变量及其分布
高中同步
$