内容正文:
8.2 一元线性回归分析
第八章 成对数据的统计分析
沪教版选择性必修第二册·高二
学 习 目 标
1
2
结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
3
针对实际问题,会用一元线性回归模型进行预测.
1
情景导入
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
思考:恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对成对样本数据建立一个模型进行预测?
2
问题提出
对于一组有某种线性关系的成对数据,上一节介绍的相关系数分析了数据之间线性关系的方向与程度.但有时我们还需要进一步了解其中一个变量随另一个变量变化的大致情况.
更准确地说,我们要找到关联两个变量的一个线性方程,使得在平面直角坐标系上数据所确定的点尽可能地“贴近”方程所定义的直线.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
3
新知讲授
先回到本章第一节的例1.为了找一条直线去“贴近”数据散点图中的各点,甲、乙两名同学分别给出了线性方程:
甲:,
乙:
我们在散点图上把这两个线性方程所定义的直线绘制出来,如图所示,其中红色直线是甲的方程所定义的,蓝色直线是乙的方程所定义的.
3
新知探究
问题1:如何判断两个线性方程中哪一个与数据点更贴近呢?
因为没有明确的标准,因此凭直觉我们很难断定哪条直线与数据点贴近得更好.
至此,我们会提出问题:
(1)有没有明确的标准来衡量直线与数据点的贴近程度?
(2)如果有这样的标准,如何找出在此标准下最佳的直线?
可以用回归分析的方法来解决以上两个问题.
3
新知探究
一般地,设给定一组有线性相关关系的成对数据和一个线性方程(或称线性模型)
①
探究:如何描述数据与此线性方程的贴近度呢?
当自变量时,令它是变量与对应的理想值.但数据中的与不一定相同,它们的差称为在处的离差(dispersion),当时称为正离差,而当时称为负离差.显然,离差直观地描述了数据与线性方程①的贴近度.
引入“离差”
3
新知探究
由于离差可正可负 ,考虑数据整体与线性方程 ① 的贴近度时 , 不能简单地用离差的代数和作为指标 . 我们可以像计算方差那样 , 用离差的平方和
来刻画直线与点之间的拟合程度 . Q称为 拟合误差 (fitting error), 它是一个很好的描述数据与函数贴合程度的指标 . 我们把拟合误差取得最小值时得到的线性方程 ( 线性模型 ) 记为
②
探究:如何描述数据与此线性方程的贴近度呢?
3
新知探究
我们把拟合误差取得最小值时得到的线性方程 ( 线性模型 ) 记为
②
并称之为变量 y 随 x 波动的 回归方程 (regression equation)或 回归模型(regression model) , 其中自变量 x称为 解释变量(explanatory variable), 因变量 y称为 反应变量(response variable) .
回归方程所定义的直线称为 回归直线(regression line), 回归方程的系数 ( 或称回归模型的参数 ) 与称为 回归系数(regression coefficients). 由一组有某种线性关系的成对数据求其回归方程的方法称为一元线性 回归分析(regression analysis).
反应变量
解释变量
回归系数
3
新知探究
回归系数与 的计算公式如下:
③
其中与分别是数据与的算术平均值,数对称为样本点的中心.
将公式③中的、 ,代入方程②就得到了这一组成对数据的回归方程.
3
新知探究
问题2:回归分析用的是什么方法?
回归分析是基于Q取最小值的假设,即基于所有离差的平方和取最小值的假设进行的.
这种回归分析的方法称为最小二乘法(least squares),由最小二乘法导出的估计量称为最小二乘估计量,所得到的回归系数与又称为模型参数a与b的最小二乘估计(least squares estimate).
3
新知探究
关于线性回归方程的说明:
(1)回归方程必过样本的中心点.
(2)这种求回归方程的方法叫最小二乘法,求得的回归系数与称为模型参数a与b的最小二乘估计.
(3)用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程无意义.
(4)在解决具体问题时,如果数据量不大,可以用上面的公式直接计算出回归系数,,进而得出回归方程.如果数据量大,就要借助统计软件,通过计算机或计算器来实现这一过程了.
4
新知应用
请绘制上述数据的散点图,并依据散点图观察两组数据的相关性.
例1 通过随机抽样,我们获得某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的一组调查数据,如表8-1所示.
例1
下面我们针对本章第一节中的例1来求回归方程,并理解回归直线与观察值之间的关系
4
新知应用
依据表8-1给出的某种商品“年需求量”(y)与“每千克价格”(x)之间的一组观察数据以及所得到的散点图,可以得到这两个变量形成的数据点大致分布在一条直线的附近,即“年需求量”(y)与“每千克价格”(x)大致呈线性关系,因而可以用线性回归方程来刻画它们之间的数量关系.
用回归系数的计算公式可求得
于是回归方程为.
这个方程所定义的直线即这组数据的回归直线,它是给定数据点的最佳拟合直线.
4
新知应用
问题3:回顾问题1,如何根据所求的回归方程判断甲、乙哪个同学的方程与数据点更贴近?
由回归方程,我们可以算出每个对应的计算值(结果精确到 0.1),如下表
可得到
4
新知应用
问题3:回顾问题1,如何根据所求的回归方程判断甲、乙哪个同学的方程与数据点更贴近?
有了上述准备,现在我们就能判断本节开始时学生甲和乙给出的线性方程哪个更贴近所给的数据点了.
学生乙所给的方程实际上是系数精确度不同的回归方程,如果用这个方程来制作表8-4, 只会出现一些由数据精确度不同引起的小误差;学生甲所给的方程与回归方程有本质的差别.
5
典例分析
一元线性回归分析的应用举例
例1 依据本章第一节例2中某市高中男生身高与体重的抽样数据,运用电子表格办公软件求“体重”(y)关于“身高”(x)的回归方程.
解 将表8-3中的数据输入工作簿,然后选择“插入图表”,再选择“散点图”,则自动生成如下的散点图.
例1
5
典例分析
在数据点上单击右键,选择“添加趋势线”-“线型”,并在“趋势线选项”标签中要求给出公式,可以得到回归直线.
图中标明了所求的回归方程为:
根据所得的回归方程,对于身高178cm的男生,可以预测其体重为
5
归纳小结
建立一元线性回归模型的一般步骤
建立一元线性回归模型的一般步骤如下:
(1)确定研究对象,从一组数据出发,根据实际问题,明确哪个变量是自变量,哪个变量是因变量;
(2)对确定的自变量和因变量,绘制相应的散点图,观察它们之间的关系(如是否存在线性关系等)
(3)若观察到数据呈线性关系,则选用线性方程;
(4)利用最小二乘法估计线性方程中的参数a、b,得到回归方程
(5)得出结果后计算离差,采用统计方法检验模型是否合适(这一步本书不作要求);
(6)利用所求的回归方程进行预测.
6
新知探究
问题4:相关分析与回归分析作为处理成对数据的两种基本统计方法,两者有哪些区别与联系?
(1)相关分析主要测定变量之间相关性的强弱和变化方向, 而回归分析则是在相关分析的基础上建立回归模型,定量地描述变量间具体的变动关系.只有在两组变量具有线性相关性时,才作线性回归分析,得到回归直线.
(2)在相关分析中,两个变量的地位是对等的;而在回归分析中,要考察的是一个变量随另一个变量的变化趋势,其中自变量是解释变量,因变量是反应变量.
6
新知探究
问题4:相关分析与回归分析作为处理成对数据的两种基本统计方法,两者有哪些区别与联系?
(3)回归分析具有因果分析和预测的功能,可以分析反应变受解释变量的影响程度,也可以通过回归方程求得反应变量的计算值来估计其他同类的观察值.
(4)在相关分析中,一般要求两个变量的总体都满足正态分布;而在回归分析时,一般只要求反应变量的总体满足正态分布
7
新知延伸
非线性回归方程
除了具有线性关系的散点图以外,线性回归分析还可以处理呈指数分布性状的数据分布.如下表是1999年至2018年我国国内游客数量(单位:万人次)的统计表,如下图是根据这些数据所作的散点图.从图上可以看出年份与游客人数之间不是线性关系,而是有明显的指数增长的性状
7
新知延伸
非线性回归方程
为了建立这组数据的拟合模型,我们将国内游客数量(方便起见记为N,单位:万人次)取自然对数,可得到下表.
7
新知延伸
非线性回归方程
对表8-6中的变量y(年份)和绘制散点图.
从上图中可以看出各数据点之间呈线性关系,于是我们作线性回归分析,求得Y与的线性拟合 最终我们得到
其中是一个常数.
8
新知应用
1.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求回归直线方程.
8
新知应用
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
8
新知应用
(2)列出下表,并用科学计算器进行有关计算.
i 1 2 3 4 5
xi 2 4 5 6 8
yi 30 40 60 50 70
xiyi 60 160 300 300 560
4 16 25 36 64
课堂小结
感谢聆听!
沪教版选择性必修第二册·高二
eq \o(x,\s\up6(-))=5,eq \o(y,\s\up6(-))=50,eq \o(∑,\s\up20(5),\s\do20(i=1))xeq \o\al(2,i)=145,eq \o(∑,\s\up20(5),\s\do20(i=1))xiyi=1 380
于是所求的回归直线方程是y=6.5x+17.5.
$