内容正文:
第八章 成对数据的统计分析
序号
单元核心知识模块
新课标学业质量要求
单元核心复习目标
达标层级
(3 级)
高考对接考向
学生掌握情况自查
1
成对数据的相关关系
能借助散点图直观认识两个变量的相关关系,区分正相关、负相关与不相关;理解样本相关系数r的取值范围与实际意义,能利用相关系数判断线性相关强弱
会画出成对样本数据的散点图;会通过散点图判断成对样本数据的相关性;结合实例,了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性.
□基础达标
□能力提升
□素养拓展
散点图判断相关性、样本相关系数大小与意义判断、相关关系辨析
□未掌握
□部分掌握
□完全掌握
2
一元线性回归模型及其应用
掌握回归直线方程推导逻辑,熟记回归系数计算公式,明确回归直线过样本中心点;能利用回归模型进行数据预测
了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;用一元线性回归模型进行预测实际问题.
□基础达标
□能力提升
□素养拓展
求回归直线方程、利用回归方程进行实际预测、样本中心点应用、回归分析实际应用题
□未掌握
□部分掌握□完全掌握
3
分类变量与列联表
认识分类变量,掌握2×2列联表数据填写方式;理解独立性检验思想,熟记卡方公式,能依据临界值判断两个分类变量是否有关联
理解2×2列联表的统计意义;了解2×2列联表与独立性检验及其应用.
□基础达标
□能力提升
□素养拓展
2×2列联表数据分析、独立性检验卡方计算、依据临界值作出独立性判断、生活实际独立性检验题型
□未掌握
□部分掌握□完全掌握
1、 重难考点分层突破
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.
(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在从左上角到右下角的区域内,两个变量的相关关系称为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程
①最小二乘法:通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:方程是两个具有线性相关关系的变量的一组数据
的回归方程,其中是待定参数.
,其中称为样本点的中心.
(3)相关系数r
①;
②当时,表明两个变量正相关;当时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.当r的绝对值大于或等于0.75时,认为两个变量有很强的线性相关关系.
(4)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.在线性回归模型中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量.
3.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
4.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(称为2×2列联表)为:
总计
a
b
c
d
总计
可构造一个随机变量,其中为样本容量.
5.独立性检验
利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
两个分类变量X和Y是否有关系的判断标准:
统计学研究表明:当时,认为X与Y无关;
当时,有95%的把握说X与Y有关;
当时,有99%的把握说X与Y有关;
当时,有99.9%的把握说X与Y有关.
2、 易混易错点清零
1.散点图判断相关性出错:
点从左下到右上:正相关;点从左上到右下:负相关;点散乱无规律:无线性相关.
误区:点稍有偏离就判定无相关.
2.样本相关系数r理解偏差:
范围:-1≤r<1;
|r|越接近1,线性相关性越强;越接近0,线性相关性越弱;
r>0正相关,r<0负相关误区:r为负代表无相关、认为r越大相关性一定越强.
3.一元线性回归方程答题步骤:
(1)求样本中心点;(2)求回归系数;(3)写出回归直线方程;(4)预测求值规范.
4.散点图判断相关性答题模板:
作图描述:根据已知数据作出成对样本数据的散点图;
判定话术:散点大致呈从左下向右上分布,则两变量正线性相关;
散点大致呈从左上向右下分布,则两变量负线性相关;
散点分布杂乱无规律,则两变量线性相关程度极弱.
5.独立性检验(卡方检验)答题规范:
(1)列出2×2列联表;
(2)计算卡方统计量;
(3)对比临界值下结论.
1、 经济生活专项情境:
1.经济决策类设问:
根据回归模型,合理控制成本投入,避免盲目加大投资;
依据价格与销量关系,制定最优定价,提升总利润;
结合收入消费规律,预判市场消费趋势,调整经营方案;
区分有效投入与无效投入,提升资金利用效率.
2.经济情境标准答题话术:
由相关系数可知,二者存在较强正/负线性相关关系,适合建立线性回归模型;
根据一元线性回归方程进行市场销量、经营收益预估,为商业经营提供数据参考;
该预测结果仅为统计估计值,实际收益还受市场环境、政策、同行竞争等因素影响;
结合数据分析结果,可科学调整经营策略,降低经营风险,提高经济效益;
经独立性检验,有较大把握认为经营方式与盈利状况存在关联.
分析民生政策实施效果,优化社会治理方案,提升群众生活幸福感.
例:1.为大力提倡“厉行节约,反对浪费”,某大学通过随机询问100名学生能否做到“光盘行动”,得到如下列联表(单位:人):
性别
“光盘行动”
做不到
能做到
女
46
9
男
31
14
附表:.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
经计算则下列结论正确的是( )
A.依据的独立性检验,认为“该校学生能否做到‘光盘’行动与性别有关”
B.依据的独立性检验,认为“该校学生能否做到‘光盘’行动与性别无关”
C.依据的独立性检验,认为“该校学生能否做到‘光盘’行动与性别有关”
D.依据的独立性检验,认为“该校学生能否做到‘光盘’行动与性别无关”
答案:B
解析:由题意得,所以依据的独立性检验,认为“该校学生能否做到‘光盘’行动与性别无关”.故选:B.
2.某市政府调查市民收入与旅游欲望时,采用独立性检验法抽取3000人,计算发现,则根据这一数据查阅下表,市政府断言市民收入增减与旅游欲望有关系的把握是( )
…
0.25
0.15
0.10
0.025
0.010
0.005
…
k
…
1.323
2.072
2.706
5.024
6.635
7.879
…
A.90% B.95% C.97.5% D.99.5%
答案:C
解析:,可断言市民收入增减与旅游欲望有关的把握为97.5%.
故选:C.
二、校园学习情境:
1.分类变量(独立性检验)校园情境:
是否整理错题本—考试成绩是否优秀;
是否课前预习—课堂听课是否高效;
是否按时完成作业—学业水平是否达标;
是否主动请教问题—薄弱知识点是否突破;
是否制定学习计划—学习效果是否良好.
2.实际学习应用:
借助散点图、相关系数,判断哪种学习方式提分效果更明显;
建立回归方程,测算单位学习时长对应的分数提升值,高效规划作息;
合理平衡学习与休息,避免盲目耗时间低效率内卷;
依据数据调整学习计划,舍弃低效学习方式,聚焦高效提分行为.
例:1.某课外兴趣小组为研究数学成绩优秀是否与性别有关,通过随机抽样调查,得到成对样本观测数据的分类统计结果,并计算得出,经查阅独立性检验的小概率值和相应的临界值,知,则下列判断正确的是( )
A.若某人数学成绩优秀,那么他为男生的概率是
B.每100个数学成绩优秀的人中就会有1名是女生
C.数学成绩优秀与性别有关,此推断犯错误的概率不大于
D.在犯错误的概率不超过的前提下认为数学成绩优秀与性别无关
答案:C
解析:因为,所以数学成绩优秀与性别有关,此推断犯错误的概率不大于,即在犯错误率不超过的前提下认为“数学成绩优秀与性别有关”,故C正确,D错误;
若某人数学成绩优秀,由已知数据不能判断他为男生的概率,故A错误;
每个数学成绩优秀的人中可能没有女生,也有可能有多名女生,由已知数据不能确定结论,故B错误;故选:C.
2.某校乒乓球社团为了解喜欢乒乓球运动是否与性别有关,随机抽取了若干人进行调查已知抽查的男生,女生人数均为,其中男生喜爱乒乓球运动的人数占男生人数的,女生喜爱乒乓球运动的人数占女生人数的若本次调查得出“有99.5%的把握认为喜爱乒乓球运动与性别有关”的结论,则m的最小值为( )附:参考公式及据:.
a
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.20 B.21 C.22 D.23
答案:D
解析:由题意可得列联表如下:
男性
女性
合计
喜爱乒乓球
4m
3m
7m
不喜爱乒乓球
2m
3m
5m
合计
6m
6m
12m
则,若本次调查得出“有99.5%的把握认为喜爱乒乓球运动与性别有关”,所以有,解得,又因为上述列联表中的所有数字均为整数,m最小为23.故选:D.
三、社会民生情境:
1.分类变量(独立性检验)民生情境:
是否完善便民设施↔居民生活满意度是否达标;
是否落实惠民政策↔家庭生活压力是否减轻;
是否开展社区文化建设↔邻里和谐度是否提升;
是否加强城市治安管理↔群众出行安全感是否充足;
是否普及便民政务服务↔群众办事效率是否提高.
2.民生实际应用价值:
依托数据相关性,预判民生资源供需,提前调配水电、交通、公共服务资源;
建立回归模型,测算民生基建投入带来的实际社会效益;
依据统计规律合理规划城市建设、民生保障、便民服务项目;
分析民生政策实施效果,优化社会治理方案,提升群众生活幸福感.
例:1.某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
答案:B
解析:由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,所以,根据小概率值的独立性检验,我们推断不成立,即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.故选:B.
2.根据吸烟与患肺癌这两个分类变量的样本数据,计算得出,经查阅独立性检验的小概率值和相应的临界值,则下列说法正确的是( )
A.在100个吸烟的人中就会有99人患肺癌
B.若某人吸烟,那么他有99%的可能患肺癌
C.若某人患肺癌,那么他有99%的可能为吸烟者
D.吸烟与患肺癌有关联,此推断犯错误的概率不大于1%
答案:D
解析:由,得吸烟与患肺癌有关联,此推断犯错误的概率不大于1%,D正确;
卡方检验仅说明吸烟与患肺癌两个变量间的关联性,无法量化个体情况,这两个变量间也无因果关系,ABC错误.故选:D.
学科网(北京)股份有限公司
$