内容正文:
第八章 成对数据的统计分析
在必修课程中, 我们学习了单个变量的观察数据的直观表示和统计特征的刻画等知识与方法. 例如,用直方图描述样本数据的分布规律 , 用均值刻画样本数据的集中趋势 , 用方差刻画样本数据的离散程度等. 这些方法主要适用于通过样本认识单个变量的统计规律.
在现实中, 我们还经常需要了解两个或两个以上变量之间的关系. 例如,教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系; 医疗卫生部门要制定预防青少年近视的措施,需要了解有哪些因素会影响视力,以及这些因素是如何影响视力的;
商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等. 为此,我们需要进一步学习通过样本推断变量之间关系的知识方法.
本章的学习内容有成对数据的统计相关性、一元线性回归模型和2×2列联表, 这些知识与方法在解决实际问题中非常有用. 可以发现,两个随机变量的相关性可以通过成对样本数据进行分析; 利用一元线性回归模型可以研究变量之间的随机关系, 进行预测;利用2×2列联表可以检验两个随机变量的独立性. 本章的学习对于提高我们解决实际问题的能力,提升数据分析、数学建模等素养都是非常有帮组的.
8.1 成对数据的相关关系
我们知道 , 如果变量y是变量x的函数 , 那么由x就可以唯一确定y. 然而, 现实世界中还存在这样的情况: 两个变量之间有关系 , 但密切程度又达不到函数关系的程度 . 例如, 人的体重与身高存在关系 , 但由一个人的身高值并不能确定他的体重值 , 那么 , 该如何刻画这两个变量之间的关系呢? 下面我们就来研究这个问题.
8.1.1变量的相关关系
我们知道, 一个人的体重与他的身高有关系. 一般而言, 个子高的人往往体重值较大, 个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素 , 例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素 . 像这样 , 两个变量有关系 , 但又没有确切到可由其中的一个去精确地决定另一个的程度 , 这种关系称为相关关系.
两个变量具有相关关系的事例在现实中大量存在. 例如:
1.子女身高y与父亲身高x之间的关系. 一般来说, 父亲的个子高, 其子女的个子也会比较高; 父亲个子矮, 其子女的个子也会比较矮 , 但影响子女身高的因素 , 除父亲身高外还有其他因素 , 例如母亲身高、饮食结构、体育锻炼等 , 因此父亲身高又不能完全决定子女身高.
2.商品销售收人 y与广告支出x之间的关系 . 一般来说 , 广告支出越多, 商品销售收入越高. 但广告支出并不是决定商品销售收入的唯一因素 , 商品销售收入还与商品质量、居民收入等因素有关.
3.空气污染指数 y与汽车保有量 x之间的关系. 一般来说 , 汽车保有量增加 , 空气污染指数会上升. 但汽车保有量并不是造成空气污染的唯一因素 , 气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素.
4.粮食亩产量y与施肥量x之间的关系. 在一定范围内, 施肥量越大, 粮食亩产量就越高. 但施肥量并不是决定粮食亩产量的唯一因索 , 粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响.
因为在相关关系中, 变量 y 的值不能随变量 x 的值的确定而唯一确定, 所以我们无法直接用函数去描述变量之间的这种关系. 对上述各例中两个变量之间的相关关系 , 我们往往会根据自己以往积累的经验作出推断 . “经验之中有规律”, 经验的确可以为我们的决策提供一定的依据 , 但仅凭经验推断又有不足, 例如 , 不同经验的人对同一情形可能会得出不同结论 , 不是所有的情形都有经验可循等.
因此 , 在研究两个变量之间的相关关系时 , 我们需要借助数据说话. 即通过样本数据分析, 从数据中提取信息, 并构建适当的模型, 再利用模型进行估计或推断.
探究 ! 在对人体的脂肪的含量和年龄之间关系的研究中, 科研人员获得了一些年龄和脂肪含量的简单随机样本数据 , 如表所示 , 表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果 , 它们构成了成对数据.
编号 1 2 3 4 5 6 7
年龄/岁 23 27 39 41 45 49 50
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄/岁 53 54 56 57 58 60 61
脂肪含量/% 29.6 30.2 3