内容正文:
【高二下学期数学】【期末专项复习】【专题04】成对数据的统计分析
【知识点回顾】
一、回归分析
1.样本相关系数
1). 样本相关系数:r= ,r为变量x和变量y的样本相关系数,有时也称样本线性相关系数.
2). 样本相关系数r的特征
(1)r∈[-1,1].
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
(3)当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本
数据的线性相关程度越弱.
2). 样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征.
2.两个变量相关性的判断
1). 利用散点图判断两个变量的相关性
(1)作两个变量的散点图,可观察它们的相关性.
(2)若散点从左至右呈上升趋势,则这两个变量正相关;若散点从左至右呈下降趋势,则这两个变量负相关;若散点毫无规律,则这两个变量无相关关系;若散点大致分布在一条直线附近,则这两个变量线性相关,否则没有线性相关关系.
2). 利用样本相关系数判断两个变量相关性的强弱
样本相关系数r是从数值上来判断变量间的线性相关程度的量,是定量分析法.
|r|刻画了样本点集中于某条直线的程度.
|r|越接近1,散点图中的样本点分布越接近一条直线,两个变量的线性相关程度越强.
3.一元线性回归模型
把式子称为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量, x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
4.经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(xi,yi)(i=1,2,…,n),通
常用各散点到直线y=bx+a的竖直距离的平方之和Q= 来刻画各样本观测数据与该直线的“整体接近程度”.
(1)当a,b的取值为 时,Q达到最小.
(2)将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,求得的, 叫做b,a的最小二乘估计.
5.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差=观测值-预测值
6.回归模型拟合效果的检验
刻画回归效果的方式
(1)残差图法
以残差为纵坐标,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图. 在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法:残差平方和为 (yi-)2,残差平方和越小,模型拟合效果越好.
(3)决定系数R2法:R2=1-.
R2越大,残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
二、独立性检验
1.分类变量与列联表
1). 分类变量:为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量. 分类变量的取值可以用实数表示.
2). 2× 2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3). 两个分类变量之间关联关系的定性分析方法
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系. 通常通过列联表列出两个分类变量的频数表来进行分析.
(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常用等高堆积条形图展示列联表中数据的频率特征.
2.独立性检验
1). 假定通过简单随机抽样得到了X和Y的抽样数据列联表,如表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则χ2=.
2). 利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
3. χ2独立性检验中5个常用的小概率值和相应的临界值如下表所示.
α