内容正文:
人教A版2019选修第三册
第 八 章 成对数据的统计分析
8.2.1 一元线性回归模型
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义;
2.针对实际问题,会用一元线性回归模型进行预测.
教学目标
情境导入
PART.01
情境导入
恩格尔系数(Engel’s Coefficient)指的是居民家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
思考:恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对成对样本数据建立一个模型进行预测?
温故知新
1. 样本相关系数:
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
问题提出
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等. 进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
一元线性回归模型
PART.02
概念讲解
问题1:一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图,如右图所示.
由图可知散点大致分布在一条从左下
角到右上角的直线附近,表明儿子身高和父亲身高
线性相关. 利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
概念讲解
思考1:根据上表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
表中的数据,存在父亲身高相同而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176cm和174cm;同样在第3,4个观测中,儿子的身高都是170cm,而父亲的身高分别为173cm,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
概念讲解
我们称(1)式为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 模型中的Y也是随机变量,其值虽不能由变量x的值确定,但却能表示为bx+a与e的和,前一部分由x所确定,后一部分是随机的. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
由于儿子的身高和父亲的身高身高有较强的线性相关,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素作为随机误差,得到刻画两个变量之间关系的线性回归模型.
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
(1)
概念讲解
问题1:为什么要假设E(e)=0,而不假设其为某个不为0的常数?
①因为误差是