内容正文:
专题06 成对数据统计分析综合
知识点一:成对数据的统计相关性
1:变量的相关关系
变量与变量之间的关系常见的有两类:一类是变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了;另一类是变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性.
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)函数关系与相关关系的异同点
函数关系
相关关系
相同点
两者均是指两个变量之间的关系
不同点
是一种确定性关系
是一种非确定性的关系
是两个变量之间的关系
①一个为变量,另一个为随机变量;②两个都是随机变量
是一种因果关系
不一定是因果关系,也可能是伴随关系
是一种理想的相关关系模型
是一种更为一般的情况
2:散点图的概念
(1)一般地,如果收集到了变量和变量的对数据(简称为成对样本数据),如下表所示
序号
1
2
3
4
变量
变量
则在直角坐标系中描出点,就可以得到这对数据的散点图
(2)正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;
如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关理解.
3:相关关系的强弱
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
知识点二:一元线性回归模型及其应用
1:一元线性回归模型
(1)一元线性回归模型
我们称
为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
(2)随机误差
在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程.
线性回归模型的完整表达式为 , 在此模型中,随机误差的方差越小,用预报真实值的精度越高.
2:一元线性回归模型参数的最小二乘法
(1)经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
(2)求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
(3)经验回归方程的性质
①经验回归直线一定过点,点通常称为样本点的中心;
②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是.
③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位.
3:残差
(1)残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(3)残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
4:决定系数
(1)残差平方和
残差平方和,残差平方和越小,模