内容正文:
8.成对数据的统计分析
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其
中的一个去精确地决定另一个的程度,这
种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关
或负相关,而且散点落在 附近,我
们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是
线性相关,那么我们就称这两个变量非线
性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y 的样本相关系数r的计算
公式如下:
r=
∑
n
i=1
(xi-x)(yi-y)
∑
n
i=1
(xi-x)2 ∑
n
i=1
(yi-y)2
.
(2)相关系数r的性质
①当r>0时,称成对样本数据 相关;
当r<0时,成对样本数据 相关;当r=0
时,成对样本数据间没有线性相关关系.
②样 本 相 关 系 数r 的 取 值 范 围 为
.
当|r|越接近1时,成对样本数据的线性相
关程度越 ;
当|r|越接近0时,成对样本数据的线性相
关程度越 .
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将ŷ=̂bx+̂a称为Y 关于x 的经验回
归方程,也称经验回归函数或经验回归公
式,其图形称为经验回归直线.这种求经验
回归方程的方法叫做最小二乘法,求得的
b̂,̂a叫做b,a的最小二乘估计,
其中
b̂=
∑
n
i=1
(xi-x)(yi-y)
∑
n
i=1
(xi-x)2
= ,
â=y-̂bx.
ì
î
í
ï
ï
ï
ï
ïï
(2)利用决定系数R2 刻画回归效果
R2=1-
∑
n
i=1
(yi-̂yi)2
∑
n
i=1
(yi-y)2
,R2 越 ,即拟合
效果越好,R2 越 ,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X 和Y,它们
的取值分别为{x1,x2}和{y1,y2},其2×2
列联表为
x
y
y=y1 y=y2
合计
x=x1 a b a+b
x=x2 c d c+d
合计 a+c b+d n=a+b+c+d
(2)临界值
χ
2= n
(ad-bc)2
(a+b)(c+d)(a+c)(b+d).
忽略χ
2
的实际分布与该近似分布的误差后,对于
任何小概率值α,可以找到相应的正实数
xα,使得P(χ
2≥xα)=α成立.我们称xα 为
α的临界值,这个临界值就可作为判断χ
2
大小的标准.
81
(3)独立性检验
基于小概率值α的检验规则是:
当χ
2≥xα 时,我们就推断H0 不成立,即认
为X 和Y 不独立,该推断犯错误的概率不
超过α;
当χ
2<xα 时,我们没有充分证据推断 H0
不成立 ,可以认为X 和Y 独立.
这种利用χ
2 的取值推断分类变量X 和Y
是否独立的方法称为χ
2 独立性检验,读作
“卡方独立性检验”,简称独立性检验.
下表给出了χ
2 独立性检验中几个常用的
小概率值和相应的临界值
α 01 005 001 0005 0001
xα 2706 3841 6635 7879 10828
1.(多选)下列关系中,属于相关关系的是
( )
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车打车费与行驶的里程
D.降雪量与交通事故的发生率之间的关系
2.以下关于独立性检验的说法中,错误的是
( )
A.独立性检验的依据是小概率原理
B.独立性检验的结论一定正确
C.样本不同,独立性检验的结 论 可 能 有
差异
D.独立性检验不是判定两个分类变量是否
相关的唯一方法
3.某中学的兴趣小组在某座山测得了海拔高
度、气压和沸点的若干个数据,并绘制成如
图所示的散点图,则下列说法错误的是
( )
A.沸点与海拔高度正相关
B.沸点与气压正相关
C.沸点与海拔高度负相关
D.沸点 与 海 拔 高 度、沸 点 与 气 压 都 线 性
相关
4.对两个变量x,y进行分析