内容正文:
4.2 一元线性回归模型
[学习目标] 1.能通过具体实例说明一元线性回归模型修改的依据与方法.2.理解一元线性回归模型参数的最小二乘估计.3.通过对具体问题的进一步分析,能将某些非线性回归问题转化为线性回归问题并加以解决,提高数学运算能力.
知识点一 回归直线方程
[问题导引1] 通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.
如果能像建立函数模型刻画两个变量之间的确定性关系那样,是否可以通过建立适当的统计模型刻画两个随机变量的相关关系?如果成对样本数据的散点图分布在一条直线附近,那么这条直线可以反映两个变量之间的相关关系吗?
提示: 可以,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测;可以.
[问题导引2] 描述n对观测值(xi,yi)(i=1,2,…,n)的直线有多少条?我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?
提示: 无数条;随机误差的平方和最小,这条直线就是所要求的回归直线.
1.回归直线方程
(1)回归直线:找出与散点图中各点散布趋势相似的直线,使各点经过或充分靠近该直线,这样所得到的直线就可以比较科学地反映实际问题中两个变量之间的相关关系.这条直线叫作回归直线,这条直线的方程叫作回归直线方程.
回归分析:由散点图求出回归直线并进行统计推断的过程叫作回归分析.
一元线性回归方程:如果具有相关关系的两个变量x,y可用方程y=a+bx来近似刻画,则称该方程为y关于x的一元线性回归方程,其中a,b称为回归系数.
(2)一元线性回归模型:
把yi=+xi+ei(i=1,2,…,n)这一描述因变量y如何依赖于自变量x和随机误差ei的方程称为一元线性回归模型.
学生用书第129页
点拨:估计的回归直线方程的形式为=+x,所以根据回归直线方估计出i与实际观测值yi的误差,即yi-i=yi-(+xi)(i=1,2,…,n),称为随机误差,记作ei,其中随机误差的均值为0,两个变量的相关关系可以用一元线性回归模型来描述.
2.最小二乘法
=x+
这种使“随机误差平方和最小”的方法叫作最小二乘法.
[点拨] (1)回归直线方程必过样本中心点(,);(2),,都是估计值;(3)与rxy符号相同,是回归直线的斜率,是回归直线在y轴上的截距.
某班5名学生的数学和物理成绩如下表:
学生
A
B
C
D
E
数学成绩x/分
88
76
73
66
63
物理成绩y/分
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y关于数学成绩x的回归直线方程(结果保留三位小数).
解析: (1)散点图如图所示.
(2)因为=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8,
iyi=88×78+76×65+73×71+66×64+63×61=25 054,
=882+762+732+662+632=27 174,
所以=≈0.625,
=-≈67.8-0.625×73.2=22.050.
因此y关于x的回归直线方程为=22.050+0.625x.
画出散点图,观察出样本点具有线性相关,代入,的计算公式,求出回归直线方程,对于数据较大的运算量,往往借助于计算器或计算机软件来实现这一目的,所以在今后题目中涉及运算量大的,往往给出相关的数据值,代入公式计算即可.
即时练1.随着我国中医学的发展,药用昆虫的使用越来越多,每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫,已知某种药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,收集了该种药用昆虫的5组观测数据如下表:
日期
2日
7日
15日
22日
30日
温度x
10
11
13
12
8
产卵数y
23
25
30
26
16
参考公式:最小二乘法求线性回归方程系数公式: =, =-.
(1)从这5天中任选2天,记这2天的药用昆虫的产卵数分别为m,n,求事件“m,n均不小于26”的概率;
(2)科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验;
①若选取的是3月2日和30日这两组数据,请根据7日、15日、22日这3组数据求出y关于x的线性回归方程;
②若由线性回归方程得到的估计产卵数与所选出的检验数据的误差不超过2个,则认为得到的线性回归方程是可靠的.按照此标准①中得到的线性回归方程是否可靠?说明理由.
解析: (1)依题