内容正文:
第八章
成对数据的统计分析
[知识结构]
__.
相关关系的判断与辨析
相关系数的计算与分析
残差的计算与分析
变量的相关关系
散点图的绘制及应用
[样本相关系数
用回归直线方程估计总体
(一元线性回归模型
成对数
样本中心点求参数问题
据的统
残差
[常考题型
一元线性回归模型的应用
计分析
分类变量与列联表
线性回归分析问题
列联表的完善与分析
[等高堆积条形图
等高条形图及应用
独立性检验的基本思想
独立性检验的应用
统计与统计案例的综合应用
统计案例、概率的综合应用
[知识梳理]
一、成对数据的统计相关性
1.变量的相关关系
(1)常见的两变量之间的关系有两类,一类是函数关系,另一类是相关关
系,与函数关系不同,相关关系是一种非确定性关系;
(2)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也吴
现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另
一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
(3)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一
条直线附近,就称这两个变量线性相关
2.样本相关系数
2(-)(y-)
(1)样本相关系数,一
##7###)一#
·24·
(2)样本相关系数-的性质
①当,>0时,称成对样本数据正相关;当,<0时,成对样本数据负相关
当,一0时,成对样本数据间没有线性相关关系
②样本相关系数,的取值范围为[一1,1.当,越接近1时,成对样本数
据的线性相关程度越强;当 越接近0时,成对样本数据的线性相关程
度越弱.
[例1](1)已知变量x和y满足关系y=一0.1x十1,变量y与:正相关
。
下列结论中正确的是
_
A.x与y负相关,:与负相关
B.x与y正相关,x与:正相关
C.x与y正相关,:与:负相关
D.x与y负相关,x与:正相关
A 解析 因为变量x和y满足关系y一-0.1x十1,一次项系数为-0.
1 0,所以x与y负相关;变量y与正相关,设y一kz(>0),所以
k2--0.1x十1,得到z--
负相关.
(2)调查某种群花长度和花瓣长度,所得数据如图所示,其中相关系数
,。
,一0.8245,下列说法正确的是
_
花瓣长度
花曹长度
A.花瓣长度和花长度没有相关性
B.花瓣长度和花弯长度呈现负相关
C.花瓣长度和花要长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245
·25·
分析:根据散点图的特点可分析出相关性的问题,从而判断A、B、C选项,
根据相关系数的定义可以判断D选项.
C 解析 根据散点的集中程度可知,花瓣长度和花长度有相关性,A
选项错误.
散点的分布是从左下到右上,从而花瓣长度和花长度呈现正相关性,B
选项错误,C选项正确;
由于,一0.8245是全部数据的相关系数,取出来一部分数据,相关程度可
能变强,可能变弱,即取出的数据的相关系数不一定是0.8245,D选项
错误。
解后反思:
判断相关关系的方法
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量
之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近
变量之间就有线性相关关系
(2)相关系数法:计算样本点的相关系数,若越接近于1,两个变量的
相关程度越强
二、一元线性回归模型及其应用
1.一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通
过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条
直线叫做经验回归直线
(2)经验回归方程为-bx十ā,
2(x-)(v-)
-
其中_二(
(-)}
#
1二1
(3)通过求Q-(y-bx:-a){}的最小值而得到经验回归直线的方法,
即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最
小二乘法.
·26·
2.判断回归模型的拟合效果
由成对样本数据(x,y)(i一1,2....,”)按照最小二乘法得到经验回归方
程-x十ā,其中y叫做观测值,叫做预测值,残差=y-.相对于
样本点(x,y)的随机误差=y-y=y-(x十ā).
(1)残差分析法
①作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或x:数
据,或y数据,这样作出的图形称为残差图
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型
比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回
归方程的预报精度越高
(-)2}
(2)决定系数(R)法:R{*一1一
越趋近于1,模型的拟合效果越好.
__
[例2] 最小二乘法的原理是
_
A.使得[y-(a-bx:)]最小
B.使得□y-(a十bx)“]最小
C.使得[-(a十bx)*]最小
D.使得[y-(a十bx)]*最小
D 解析 原理应为“使得样本数据的点到经验回归直线的距离的平方和
最小”。
[例3] 研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如
T:
水深x/m
1.40 1.50 1.601.701.80 1.902.002.10
流速y
1.70 1.791.88 1.95 2.03 2.102.162.21
(m.s)
(1)求y对x的回归直线方程;
(2)预测水深为1.95m时水的流速是多少?
分析:本题考查如何求经验回归直线的方程,可先把有关数据用散点图表
示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两
个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式
求得经验回归方程
解。
(1)由于问题中要求根据水深预测水的流速,
因此选取水深为解释变量,流速为预报变量,作散点图;
(m,s)
由图容易看出,x与v之间有近似的线性关系,或者说,可以用一个经验回
15
_~0.733,ā~
0.694.
x,y之间的经验回归方程为-0.733x十0.694
(2)由(1)中求出的经验回归方程,把x=1.95代入,易得:一0.733×1
95+0.694~2.12(m/s).
计算结果表示,当水深为1.95m时可以预测渠通水的流速为2.12m/s.
三、列联表与独立性检验
1.分类变量与列联表
(1)分类变量,变量的不同“值”表示个体所属的不同类别,像这样的变量
称为分类变量;
(2)列联表:列出的两个分类变量的频数表,称为列联表,假设有两个分类
变量X和Y,X表示相互对立的两个事件X一0和X一1,Y表示相互
对立的两个事件(Y-0)和{Y-1),其中a,b,c,d是事件X=x,Y=y
(x,v一0,1)的频数,n是样本容量,其抽样数据列联表(称为2×2列联
表)如表所示:
·28·
Y
X
合计
Y-0$
Y=1
b
$$x=0
a
a+b
d
$=1
C
c十d
合计
a十c十d
n-a十b十c十d
2.等高条堆积形图
等高堆积条形图与表格相比,图形更能直观地反映出两个分类变量间是
否相互影响,常用等高堆积条形图展示列表数据的频率特征.
[例4] 四川省将从2022年秋季入学的高一年级学生开始实行高考综合改
革,高考采用“3十1十2”模式,其中“1”为首选科目,即物理与历史二选一.
某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如
_
下两个等高堆积条形图,根据条形图信息,下列结论正确的是
_~
罔物理□历史
2男生□女生
100%-
100%-
50%-
50%-
0%-
男生
女生
0%-
物理
历更
图1
图2
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C. 样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
分析:根据等高堆积条形图的概念结合条件逐项分析即得
C 解析 根据等高堆积条形图图1可知样本中选择物理学科的人数较
多,故C正确;
根据等高堆积条形图图2可知样本中男生人数多于女生人数,故D错误;
样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿
的男生比例高,选择历史意愿的女生比例低,所以样本中选择物理意愿的
男生人数多于选择历史意愿的女生人数,故A错误;
。29·
样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,
故B错误.
3.独立性检验
(1)小概率值。的临界值;对于任何小概率值a,可以找到相应的正实数
x。,使得关系P(x{二x。)一a成立.我们称工。为a的临界值,这个临界值
可作为判断x^{}大小的标准,概率值a越小,临界值x。越大;
n(ad-bc)2}
(2)X{的计算公式:x2一
(a十b)(c十d)(a十c)(6十d):
(3)独立性检验:利用×{的取值推断分类变量X和Y是否独立的方法称
为文^{}独立性检验,读作“卡方独立性检验”,简称独立性检验
(4)基于小概率值。的检验规则:当×二x。时,我们就推断H。不成立,即
认为X和Y不独立,该推断犯错误的概率不超过a;当×^{}<x。时,我们没有充
分证据推断H。不成立,可以认为X和Y独立(其中c.为;的临界值)
(5)应用独立性检验解决实际问题的主要环节;
①提出零假设H。;X和Y相互独立,并给出在问题中的解释
②根据抽样数据整理出2×2列联表,计算×{的值,并与临界值x。比较
③根据检验规则得出推断结论
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和
Y间的影响规律
(6)独立性检验中几个常用的小概率值和相应的临界值
0.05
0.10
0.01
0.005
0.001
2。
2.706
3.841
7.879
6.635
10.828
[例5]
绿化祖国要扩绿、兴绿、护绿并举,某校植树节分别在甲,乙两块不
同的土地上栽种某品种树苗各500株.甲地土质含有M元素,乙地土质不
含有M元素,其它土质情况均相同,一段时间后,为了弄清楚该品种树苗
的成活情况与M元素含量是否有关联,分别在甲,乙两块土地上随机抽取
树苗各50株作为样本进行统计分析,经统计,甲地成活45株,乙地成活
40株.
·30·
(1)根据所给数据,完成下面的2×2列联表(单位:株),并判断依据小概率
值g三0.10的独立性检验,能否认为该品种树苗成活与M元素含量有
关联?
2X2列联表:
树苗成活情况
类别
合计
成活
不成活
含M元素
不含M元素
合计
(2)若将频率视为概率,从样本中不成活的树苗中随机抽取3株,其中取自
甲地的株数为X,求X的分布列及方差。
n(ad-bc):
参考公式:x一
参考数据:
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
分析:(1)题意可得2×2列联表,进而计算可得x{~1.961二2.706
3。.1。,进而可得结论;
(2)X的可能取值为0,1,2,3,求得分布列,进而可得数学期望与方差,
解
(1)依题意可得2X2列联表如下:
树苗成活情况
合计
类别
成活
不成活
1
45
含M元素
50
10
40
不含M元素
50
85
合计
15
100
·31·
零假设为H。:该品种树苗成活与M元素含量无关联
根据列联表中的数据,
100×(45×10-40×5)*
100
22
51
-~1.9612.706-x。1。.
50×50×85×15
根据小概率值a一0.10的独立性检验,没有充分证据推断H。不成立,
因此可以认为H。成立,即认为该品种树苗成活与M元素含量无关联
(2)由题意知,不成活的树苗共有15株,甲地不成活的树苗有5株,X的
可能取值为0,1,2,3,
CCo24
CCd45
故P(X-0)-
,P(X-1)-
C
9'
C
91'
C:Cio20
CCo2
P(X-2)-
C
C
91
故X的分布列为:
X
0
2
”2二
1}二
_
二
91
91
91
24
20
方差D(X)-
×(1-1)2}+
91
91
×(3一
91
91
·32·