内容正文:
专题31 统计案例和回归方程、独立性检验
知识点一、一元线性回归模型及其应用
一、变量的相关关系
1.相关关系:若两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,则称这种关系为相关关系.
2.相关关系的分类:正相关和负相关.
3.线性相关:一般地,若两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
二、样本相关系数
1.样本相关系数
2.样本相关系数的取值范围为,是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征,它的绝对值大小可以反映成对样本数据之间线性相关的程度.
(1)当时,成对样本数据正相关;
(2)当时,成对样本数据负相关;
(3)当越接近1时,成对样本数据的线性相关程度越强;
(4)当越接近0时,成对样本数据的线性相关程度越弱.
三、经验回归模型
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
四、对模型刻画数据效果的分析
1.残差图法
在残差图中,若残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量之间的关系.
2.残差平方和法
残差平方和 越小,模型的拟合效果越好.
3.决定系数法
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
考点一 成对数据的相关性
【例1】(2024·天津卷)在下列图中,样本相关系数最大的是( ).
A. B. C. D.
【变式1-1】以下是标号分别为①、②、③、④的四幅散点图,它们的样本相关系数分别为,,,,那么样本相关系数的大小关系为 (按由小到大的顺序排列).
考点二 回归模型及其应用
【例2】某市逐渐加大充电基础设施的建设,并统计了近五年新能源汽车充电站的数量(单位:个),得到如下数据:
年份编号
1
2
3
4
5
年份
2020
2021
2022
2023
2024
数量个
37
104
147
196
226
(1)已知可用经验回归模型拟合与的关系,请用样本相关系数加以说明;
(2)求关于的经验回归方程,并预测2026年该市新能源汽车充电站的数量.
参考数据:,,,.
参考公式:样本相关系数,经验回归直线中斜率和截距的最小二乘估计公式分别为,.
方法总结
求经验回归方程的步骤
【变式2-1】为研究混凝土的抗震强度与抗压强度的关系,某研究部门得到下表的样本数据:
140
150
170
180
195
23
26
28
28
若与线性相关,且经验回归方程为,则下列说法正确的是( ).
A. B. 与正相关
C. 与的样本相关系数为负数 D. 若,则
知识点二、列联表与独立性检验
一、分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
二、列联表与独立性检验
1、列联表
合计
合计
像这种形式的数据统计表称为列联表.
2、独立性检验
(1)定义:利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(2) ,其中.
提醒 常用的小概率值和相应的临界值如表所示.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
考点一 分类变量与列联表
【例3】为了了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了列联表如表所示:
性别
打篮球
合计
喜爱
不喜爱
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为,则, .
【例4】为了获得不同年龄段的人对“绿色消费”意义的认知情况,某地研究机构将“90后与00后”作为A组,将“70后与80后”作为B组,并从A,B两组中各随机选取了100人进行问卷调查,整理数据后获得列联表如表所示:
年龄段
认知情况
合计
知晓
不知晓
A组(90后与00后)
75
25
100
B组(70后与80后)
45
55
100
合计
120
80
200
(1)若从样本中知晓“绿色消费”意义的120人中用按比例分配的分层随机抽样方法随机抽取16人,求应在A组、B组中分别抽取的人数;
(2)能否依据小概率值的独立性检验,认为对“绿色消费”意义的认知情况与年龄有关?
方法总结
独立性检验的一般步骤
(1)根据样本数据制成列联表.
(2)提出假设.
(3)根据公式计算的值.
(4)比较与临界值 的大小关系,作出统计推断.
【变式4-1】清明节,又称踏青节、行清节、三月节、祭祖节等,是传统的重大春祭节日.扫墓祭祀、缅怀祖先,是中华民族自古以来的优良传统.某社区进行流动人口统计,随机抽取了100人了解他们今年是否回老家祭祖,得到如下不完整的列联表:
年龄
是否回老家情况
合计
回老家
不回老家
50周岁及以下
55
50周岁以上
15
40
合计
100
(1)根据统计完成以上列联表,并根据表中数据估计该社区流动人口中50周岁以上的居民今年回老家祭祖的概率;
(2)依据小概率值的独立性检验,能否认为是否回老家祭祖与年龄有关?
【变式4-2】(2024·上海卷)为了了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29 000名学生中随机抽取580人,得到日均体育锻炼时长(单位:小时)与学业成绩的数据如表所示:
时间范围
学业成绩
优秀
不优秀
5
134
44
147
42
137
3
40
1
27
(1)该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1小时).
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
附:,,.
专题31 统计案例和回归方程、独立性检验
例1【解析】观察4幅图可知,图的散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,的值相比于其他3幅图更接近1.故选.
变式1-1【解析】根据散点图可知,图①③成正相关,图②④成负相关,
,,,.
又图①②的散点图近似在一条直线上, 图①②中两变量的线性相关程度比较高.
图③④的散点图比较分散,故图③④中两变量的线性相关程度比较低.
故.
例2【解析】(1)由已知数据得,
,
,
,
所以.
因为 与 的样本相关系数近似为,接近1,说明 与 的线性相关程度相当高,所以可以用经验回归模型拟合 与 的关系.
(2)由(1)得,则,
故所求经验回归方程为.
将2026年对应的年份编号代入经验回归方程,得,故预测2026年该市新能源汽车充电站的数量为330.
变式2-1【解析】依题意,得,,
由,解得,故 正确;
因为在经验回归方程 中 的系数为正数,所以 与 正相关,且样本相关系数为正数,故 正确,错误;
当 时,的值约为,故 错误.
故选.
例3【解析】在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为,故喜爱打篮球的学生共有(人).因为喜爱打篮球的女生有10人,所以喜爱打篮球的男生有22人,即.结合题意可知不喜爱打篮球的女生有(人),即.
例4【解析】(1)由题意知,在 组中抽取的人数为,在 组中抽取的人数为.
(2)零假设为 对“绿色消费”意义的认知情况与年龄无关.
由题意得,,
故依据小概率值的独立性检验,推断不成立,即认为对“绿色消费”意义的认知情况与年龄有关.
变式4-1【解析】(1)补全表格如下:
年龄
是否回老家情况
合计
回老家
不回老家
50周岁及以下
5
55
60
50周岁以上
15
25
40
合计
20
80
100
该社区中50周岁以上的居民今年回老家祭祖的概率为.
(2)因为,
所以依据小概率值的独立性检验,可以认为是否回老家祭祖与年龄有关.
变式4-2【解析】(1)由表可知日均锻炼时长不小于1小时的人数占比为,则估计该地区29 000名学生中日均体育锻炼时长不小于1小时的人数为.
(2)因为,
所以估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题可得列联表如下:
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
零假设为该地区成绩优秀与日均体育锻炼时长不小于1小时且小于2小时无关.
其中,,则零假设不成立,
即有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关.
1
学科网(北京)股份有限公司
$