内容正文:
2021年高考数学(理)选考与统计部分突破性讲练
04 变量间的相关关系与统计案例
一、考点传真:
1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;
4.了解回归分析的基本思想、方法及其简单应用.
二、知识点梳理:
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+__,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.
回归直线一定过样本点的中心(,).
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:R2=1-.其中 (yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
4.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量K2=,其中n=a+b+c+d为样本容量.
【注意点】
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
三、例题:
例1.(2020年全国1卷理数,5)某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在至之间,下面四个回归方程类型中最适宜作为发芽率和温度的回归方程类型的是( )
A. B. C. D.
【答案】D
【解析】根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.
例2.(2020年全国2卷理数,18)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分为面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,.
【解析】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为.
(2)样本的相关系数
.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.