内容正文:
第八章 成对数据的统计分析
§8.1 成对数据的统计相关性
§8.2 一元线性回归模型及其应用
§8.3 列联表与独立性检验
索引
选择性必修
第三册
1
8.1.1 变量的相关关系
我们知道,如果变量y是变量x的函数,那么由就可以唯一确定y。
然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度。
例如,人的体重与身高存在关系,一个人的体重与他的身高有关系。一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小。但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素。
像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系。
索引
§8.1 成对数据的统计相关性
两个变量具有相关关系的事例在现实中大量存在。
(1)子女身高y与父亲身高x之间的关系。一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮。但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高。
(2)商品销售收入y与广告支出x之间的关系。一般来说,广告支出越多,商品销售收人越高。但广告支出并不是决定商品销售收人的唯一因素,商品销售收人还与商品质量、居民收入等因素有关。
(3)空气污染指数y与汽车保有量x之间的关系。一般来说,汽车保有量增加,空气污染指数会上升。但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业废气排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素。
索引
§8.1 成对数据的统计相关性
(4)粮食亩产量y与施肥量x之间的关系。在一定范围内,施肥量越大,粮食亩产量就越高。但施肥量并不是决定粮食亩产量的唯一因素,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响。
因为在相关关系中,变量y的值不能随变量的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系。对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断。
“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足。例如,不同经验的人对同一情形可能会得出不同结论,不是所有的情形都有经验可循等。
因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的型,再利用模型进行估计或推断。
索引
§8.1 成对数据的统计相关性
【探究】在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表所示。表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据。
根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?
编号 1 2 3 4 5 6 7
年龄/岁 23 27 39 41 45 49 50
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄/岁 53 54 56 57 58 60 61
脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6
通过表格我们可以发现,随着年龄的增长,人体脂肪含量相对也会增长。
索引
§8.1 成对数据的统计相关性
为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征。用横轴表示年龄,纵轴表示脂肪含量。
表中每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了如图所示的统计图。我们把这样的统计图叫做散点图。
观察上图,可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增加的趋势。这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系。
索引
§8.1 成对数据的统计相关性
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关。
由散点图,能够推断脂肪含量与年龄这两个变量正相关。
索引
§8.1 成对数据的统计相关性
散点图是描述成对数据之间关系的一种直观方法。观察上面的散点图,从中我们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出散点落在某条直线附近。
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关。
索引
§8.1 成对数据的统计相关性
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关。
索引
§8.1 成对数据的统计相关性
观察上面三幅散点图,你有什么发现?它们是线性相关吗?
图(1)中的散点落在某条曲线附近,而不是落在条直线附近,说明这两个变量具有相关性,但不是线性相关;
图(2)中的散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;
图(3)中的散点杂乱无章,无规律可言,看不出这两个变量有什么相关性。
索引
§8.1 成对数据的统计相关性
8.1.2 样本相关系数
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等。
散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小。能否像引入均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和。
为了刻画每个变量的观测数据相对其均值的增减情况,将每个变量的观测数据减去其均值,并绘制散点图。得到成对数据为
索引
§8.1 成对数据的统计相关性
利用上述方法处理前面研究人体的脂肪含量和年龄之间关系的表中的数据,得到上图。我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号。显然,这样的规律是由人体脂肪含量与年龄正相关所决定的。
索引
§8.1 成对数据的统计相关性
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第象限、第三象限,对应的成对数据同号的居多,如图(1)所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示。
索引
§8.1 成对数据的统计相关性
从上述讨论得到启发,利用散点 的横、纵坐标是否同号,可以构造一个量。
一般情形下,Lxy>0表明成对样本数据正相关;Lxy<0表明成对样本数据负相关。
因为Lxy的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小。例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的Lxy将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变。
索引
§8.1 成对数据的统计相关性
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理。我们用
分别除 和
为简单起见,把上述“标准化”处理后的成对数据分别记为
索引
§8.1 成对数据的统计相关性
仿照Lxy的构造,可以得到
我们称r为变量x和变量y的样本相关系数。
(1)当r>0时,称成对样本数据正相关。这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。
(2)当r<0时,称成对样本数据负相关。这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小。
索引
§8.1 成对数据的统计相关性
样本相关系数r的取值范围
观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量a,b的数量积仍然定义为
其中θ为向量a,b的夹角。类似于平面或空间向量的坐标表示,对于向量a=(a1,a2,…,an)和b=(b1,b2,…,bn),我们有
设“标准化”处理后的成对数据
索引
§8.1 成对数据的统计相关性
因为 ,所以样本相关系数为
由此可见,样本相关系数r的取值范围为[-1,1]样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:
(1)当| r |越接近1时,成对样本数据的线性相关程度越强;
(2)当| r |越接近0时,成对样本数据的线性相关程度越弱。
索引
§8.1 成对数据的统计相关性
索引
§8.1 成对数据的统计相关性
综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度;r的符号反映了相关关系的正负性;| r |的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度。
索引
§8.1 成对数据的统计相关性
【例1】下列图中,能反映出相应两个变量之间具有线性相关关系的是( )
B
A. B. C. D.
【解析】 由图象可知,两个变量间是确定的函数关系,不是相关关系;
由散点图可知,散点落在一条直线附近,所以两个变量具有线性相关关系;
由散点图可知,散点分布没有什么规律,故两个变量没有相关关系;
由散点图可知,散点分布在一条曲线附近,所以两个变量具有相关关系,但不是
线性相关关系.
索引
§8.1 成对数据的统计相关性
21
【例2】根据变量, 的观测数据 ,绘制成散点图,如图1;根据
变量, 的观测数据 ,绘制成散点图,如图2.令表示变量,的
样本相关系数, 表示变量, 的样本相关系数,则( )
A
A.
B.
C.
D.
索引
§8.1 成对数据的统计相关性
22
【解析】 由题图可知,随 的增大而减
小,随 的增大而减小,
所以与呈负相关关系,与 呈负相关关
系,故, .又由题图
可知,图1的线性相关程度更强,故 更接
近 ,(各点与某条直线越“紧密”,线性相
关程度越强, 越接近于1)所以
.
. .
. .
索引
§8.1 成对数据的统计相关性
【例3】近年来,随着互联网的发展,诸如“滴滴打车”“神州专车”等网约车服务在我国
各城市迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌
握网约车在省的发展情况, 省某调查机构从该省抽取了5个城市,分别收集和分析
了网约车的,两项指标数, ,数据如下表:
城市1 城市2 城市3 城市4 城市5
指标数 2 4 5 6 8
指标数 3 4 4 4 5
经计算,, ,
试求与之间的样本相关系数,并利用说明与 是否具有较高的线性相关程度?
参考数据:, .
索引
§8.1 成对数据的统计相关性
24
【解析】 由表格中的数据,可得, ,且
,
则 ,
因为,所以可以推断与 正线性相关,且线性相关程度较高.
索引
§8.1 成对数据的统计相关性
25
$$