内容正文:
4.3 统计模型
4.3.1 一元线性回归模型
[课标解读]1.了解变量间的相关关系,会画散点图,并会利用散点图判断两个变量之间是否具有相关关系.2.了解线性回归思想,会求回归直线方程.3.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.
知识点一 变量的相关关系
1.相关关系的概念:我们所研究的很多问题中,两个变量之间经常存在着相互影响、相互依赖的关系.这些关系常见的有两类:函数关系和相关关系.
[概念辨析] 相关关系与函数关系的异同:
关系
异同点
函数关系
相关关系
相同点
两者均是两个变量之间的关系
不同点
是一种确定性关系
是一种非确定性关系
是一种因果关系
不一定是因果关系,也可能是伴随关系
是一种理想的关系
是更为一般的情况
2.散点图
(1)概念:一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示:
序号i
1
2
3
…
n
变量x
x1
x2
x3
…
xn
变量y
y1
y2
y3
…
yn
则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
(2)作用:散点图展示了样本点散布的位置.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
(1)散点图具有直观、简明的特点,我们可以根据散点图来判断两个变量有没有相关关系;
(2)通过散点图不但可以判断测量值的大小、变动范围与整体趋势,还可以通过观察剔除异常数值,提高估计相关程度的准确性;
(3)当所画的散点图的横坐标与纵坐标所对应的数据差距很大时,可在实际作图时,将横坐标与纵坐标取不同的单位长度,使画出的散点图形象、美观.
3.正相关与负相关
(1)从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关,散点图如图(甲)所示;
(2)从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,称这两个变量负相关,散点图如图(乙)所示.
4.线性相关与非线性相关:
(1)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这两个变量线性相关;
(2)非线性相关:如果两个变量具有相关性,但不是线性相关,就称这两个变量非线性相关或曲线相关.
知识点二 回归直线方程
1.回归直线方程的概论
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则y=x+称为y关于x的回归直线方程(对应的直线称为回归直线).
2.最小二乘法
上述求回归直线方程的过程中需使得平方和最小,所以其中涉及的方法称为最小二乘法.
可以证明,给定两个y与x的一组数据之后,回归直线方程=x+总是存在的,而且
==,=-.
其中,称为回归系数.它实际上也就是回归直线方程的斜率.回归直线方程确定之后,就可用于预测.
需要注意的是,上述公式中,指的是x1,x2,x3,…,xn的平均数,即=(x1+x2+…+xn)=i;类似地,是y1,y2,y3,…,yn的平均数,即=i.
(1)回归直线一定过点(,);
(2)y与x正相关的充要条件是>0;y与x负相关的充要条件是<0;
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义;
(4)回归直线方程=x+中x的系数是,表示直线的斜率,注意与《选择性必修第一册》中的一次函数的关系式或直线方程y=ax+b进行区分.
知识点三 相关系数
1.概念:注意到现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用
r=
=来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
2.性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
(1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程;
(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.
3.相关系数与向量夹角的余弦
一般地,a=(x1-,x2-,…,xn-),b=(y1-,y2-,…,yn-)都称为n