内容正文:
专题01 统计案例(知识梳理)
一、基本概念
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关;
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关;
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
(4)相关系数:
,
越接近于
相关性越强。
2、回归方程
(1)最小二乘法:求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法;
(2)回归方程:方程
是两个具有线性相关关系的变量的一组数据
、
、…、
的回归方程,其中
、
是待定参数。
,
。
(3)求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②计算出
、
、
、
的值,求回归系数
、
;
③写出回归直线方程
,并利用回归直线方程进行预测说明。
3、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:
(1)确定研究对象,明确两个变量即解释变量和预报变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。
4、利用统计方法解决实际问题的基本步骤:
(1)提出问题;
(2)收集数据;
(3)分析整理数据;
(4)进行预测或决策。
5、残差变量
的主要来源:
(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。可能存在非线性的函数能够更好地描述
与
之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这种由于模型近似所引起的误差包含在
中。
(2)忽略了某些因素的影响。影响变量
的因素不只变量
一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在
中。
(3)观测误差。由于测量工具等原因,得到的
的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在
中。上面三项误差越小,说明我们的回归模型的拟合效果越好。
6、独立性检验:
利用随机变量
来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
(1)独立性检验的一般步骤:
①根据样本数据制成
列联表;
②根据公式
,计算
的值;
③查表比较
与临界值的大小关系,作出统计判断。
(2)回归分析是处理变量相关关系的一种数学方法,根据回归方程进行预报,仅是一个预报值,而不是真实发生的值;独立性检验是一种假设检验,在对总体的估计中,通过抽样,构造合适的随机变量,对假设的正确性进行判断。
7、判断结论成立的可能性的步骤:
(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
二、例题选讲
例1.对变量
、
有观测数据
(
)可以得到散点图(1);对变量
、
有观测数据
(
)可以得到散点图(2)。由这两个散点图可以判断( )。
A、变量
与
正相关,
与
正相关
B、变量
与
正相关,
与
负相关
C、变量
与
负相关,
与
正相关
D、变量
与
负相关,
与
负相关
【答案】C
【解析】由散点图可得两组数据均线性相关,
且图(1)的线性回归方程斜率为负,图(2)的线性回归方程斜率为正,
则由此散点图可判断变量
与
负相关,
与
正相关,故选C。
例2.有五组变量:①汽车的重量和汽车每消耗
升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量。其中两个变量成正相关的是( )。
A、①③
B、②④
C、②⑤
D、④⑤
【答案】C
【解析】由变量的相关关系的概念知,②⑤是正相关,①③是负相关,④为函数关系,故选C。
例3.为了解儿子身高与其父亲身高的关系,随机抽取
对父子的身高数据如下:
父亲身高
(
)
儿子身高
(
)
则
对