内容正文:
专题08 成对数据的统计分析综合
知识点一 相关关系
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
知识点二 相关关系的刻画
1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
2.样本相关系数
(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=.
(2)样本相关系数r的取值范围为[-1,1].
①若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
知识点三 一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
知识点四 最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中=,=-.
知识点五 残差与残差分析
1.残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点六 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
知识点七 2×2列联表
1.2×2列联表给出了成对分类变量数据的交叉分类频数.
2.定义一对分类变量X和Y,我们整理数据如下表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
像这种形式的数据统计表称为2×2列联表.
知识点八 独立性检验
1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.
2.χ2=.其中n=a+b+c+d.
3.独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
考点1 变量间相关关系的判断
【例1】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图1,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图2.由这两个散点图可以判断( )
图1 图2
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【答案】C
【解析】由题图可得两组数据均线性相关,且图1的经验回归直线的斜率为负,图2的经验回归直线的斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
【解后感悟】判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
【变式1-1】已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
【答案】C
【解析】因为y=-0.1x+1的斜率小于0,故x与y负相关.