内容正文:
第九章 统计
序号
单元核心知识模块
新课标学业质量要求
单元核心复习目标
达标层级
(3 级)
高考对接考向
学生掌握情况自查
1
随机抽样
能结合实际问题识别随机抽样类型,依据抽样原则规范抽取样本,具备初步数据收集统计意识
理解简单随机抽样的概念,掌握抽签法、随机数法的一般步骤;理解分层随机抽样的概念,学会用分层抽样的方法从总体中抽取样本;区分简单随机抽样与分层随机抽样,并会选择适当方法进行抽样;掌握分层随机抽样在实际生活中的应用.
□基础达标
□能力提升
□素养拓展
抽样方法辨析、分层抽样计算、实际抽样方案选取
□未掌握
□部分掌握
□完全掌握
2
样本估计总体
能结合实际问题识别随机抽样类型,依据抽样原则规范抽取样本,具备初步数据收集统计意识
能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义;能用样本估计总体的取值规律;能用样本估计百分位数,理解百分位数的统计含义.
□基础达标
□能力提升
□素养拓展
统计量计算、总体特征推断、百分位数应用、数据分析题型
□未掌握
□部分掌握□完全掌握
1、 重难考点分层突破
1.简单随机抽样
(1)定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个不放回地抽取n()个个体作为样本,如果每次抽取时各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样方法有两种:随机数法和抽签法.
2.分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样.
(2)应用范围:总体是由差异明显的几个部分组成的.
(3)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比 .
3.频率分布表与频率分布直方图
频率分布表与频率分布直方图的绘制步骤如下:
(1)求极差,即求一组数据中最大值与最小值的差;
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表,落在各小组内的数据的个数叫做频数,每小组的频数与样本容量的比值叫做这一小组的频率,计算各小组的频率,列出频率分布表;
(5)画频率分布直方图,依据频率分布表画出频率分布直方图,其中纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组上的小长方形的面积,即每个小长方形的面积.
各个小长方形面积的总和等于1.
4.用样本的数字特征估计总体的数字特征
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分为左右两个面积相等的部分,分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小长方形的面积乘小长方形底边中点的横坐标之和
方差和标准差反映了数据波动程度的大小.
方差:;
标准差:.
5.百分位数
(1)把100个样本数据按从小到大排序,得到第p个和第p+1个数据分别为.可以发现,区间内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数,并称此数为这组数据的第p百分位数,或p%分位数.
(2)一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(3)四分位数
常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
2、 易混易错点清零
1.抽样方式易错
简单随机抽样:总体个数有限、逐个抽取、不放回;易混:放回抽样不属于此类.
分层抽样:按比例分层抽取,每层抽样比一致;易错:层数划分混乱、抽样比例计算出错.
系统抽样:等距分段抽取,先编号分组;易错:分段间隔算错,首尾样本选取失误.
区分误区:随机≠随便抽取,分层看类别差异,系统看排布规律.
2.频率分布图表易错
频率分布直方图:
纵坐标:,不是频率
频率=×组距,所有矩形面积和为1
中位数:平分面积的竖线对应数值;
平均数:每组中点×频率求和.
茎叶图:看清茎、叶代表数位,避免读数错位;忽略重复数据统计.
易错:误把纵坐标当作频率,计算概率、频数出错.
3.统计概念认知误区
样本估计总体:样本结论不能等同于总体绝对事实,存在误差.
相关概念区分:个体、样本、总体、样本容量,容量无单位.
易混:相关关系≠函数关系,统计趋势不能判定必然因果.
4.计算常见失误
数据求和、平方运算粗心出错
单位、有效数字统一规范遗漏
图表读取数据看错行列、组别边界
5.百分位数求解步骤
数据从小到大排序;
计算位次i=n×p%;
i为整数,取第i与i+1项均值;非整数向上取整取值.
6.实际应用题解题步骤
建模:实际场景对应抽样、图表、数字特征题型;
套公式列式,分步计算;
结合实际意义解释结果,检验数值合理性.
1、 工业情境:
1.常见应用场景
简单随机抽样质检:工业流水线成品、零部件逐一随机不放回抽检,随机抽取批次工件检测精度、合格率,无差别抽取样本评估整批产品质量.
分层抽样产能统计:按不同生产车间、不同工序、不同设备型号、不同班次分层,按比例抽取样本,统计各层级产能、次品率、设备故障情况,解决总体差异大的抽样统计问题.
制程数据分布统计:收集大批量工件加工误差、设备运行时长、单件生产耗时、产品重量尺寸等数据,制作频率分布表与频率分布直方图,直观呈现工业数据分布规律.
生产数据特征分析:通过样本数据的平均数、中位数、众数、方差、标准差,分析产品加工精度均值、生产效率平均水平、产品质量波动、设备运行稳定性.
工业数据分级判定:利用百分位数、四分位数,对产品精度、生产能耗、工时效率、次品偏差数据进行分级,划定合格标准、优质等级、临界预警阈值.
2.常考题型:
简单随机抽样、分层抽样的方案辨析与样本数量计算;
工业生产数据的极差、组距、频率、频数计算,补全频率分布表与直方图;
从工业样本数据、频率分布直方图中求解众数、中位数、平均数、方差,分析生产质量稳定性;
工业检测数据的百分位数、四分位数计算,依据分位数划分产品质量等级、判定生产达标情况;
用工业样本统计数据估计总体产能、合格率、能耗水平,完成统计推断与实际生产评价.
例:1.某AI数据中心共有4个开源大模型供公众使用.该中心分别对这4个模型在某天内的词元调用量进行调查,画出频率分布直方图,其中词元调用量的平均数低于中位数的为( )
A. B.
C. D.
答案:D
解析:在频率分布直方图中,中位数左右两边面积相等,平均数受极端值影响,偏向长尾方向.
直方图左偏(左边拖尾长,右边集中),如D选项→平均数<中位数;
直方图右偏(右边拖尾长,左边集中),如B选项→平均数>中位数;
直方图对称,如AC选项→平均数≈中位数.故选D.
2.某科研团队构建了超导量子计算原型机,为了评估其稳定性,团队记录了6次关键性能测试的保真度数据:0.9992,0.9988,0.9990,0.9987,0.9994,0.9990,则这组数据的75%分位数为( )
A.0.9988 B.0.9991 C.0.9992 D.0.9994
答案:C
解析:把这组数据从小到大排列为:0.9987,0.9988,0.9990,0.9990,0.9992,0.9994,又,所以这组数据的75%分位数为重新排列后的第5个数0.9992.故选:C.
2、 农业情境:
1.常见应用场景
简单随机抽样测产:随机选取农田地块、农林作物、畜禽样本,不放回抽样检测作物长势、果实品质、畜禽健康状况,预估整片种养区域整体产量与质量.
分层抽样农情统计:按种植品类、土地地势、种养片区、耕作模式分层,按比例抽取样本,统计作物产量、病虫害发生率、农资损耗数据,解决农业总体差异显著的抽样问题.
农情数据分布统计:采集农作物亩产量、植株高度、果实重量、灌溉用水量、病虫害侵染数量数据,绘制频率分布表与直方图,分析农业生产数据分布规律.
农业数据特征分析:利用平均数、中位数、众数、方差、标准差,研判区域农作物平均产能、种养效率,分析农产品品质、农事生产的波动稳定性.
农业数据分级判定:借助百分位数、四分位数,对农作物产量、农产品品质、农资消耗、灾害受损程度分级,划定农产品优劣等级、丰产标准与灾害预警阈值.
2.常考题型
农业场景下简单随机抽样、分层抽样的方法辨析、抽样方案判断及样本容量计算;
农业生产数据极差、组距、频数、频率运算,补全频率分布表格、完善频率分布直方图;
依托样本数据与频率分布直方图,求解各类数字特征,分析农作物产能、农产品品质的稳定程度;
计算农业检测数据的百分位数、四分位数,利用分位数完成农产品质量分级、丰产达标判定;
以样本统计量估计总体参数,推断区域农作物总产量、优品率、农资消耗整体水平,完成农业生产评价.
例:1.2023年袁隆平“超级稻”突破亩产,再次刷新了杂交水稻单季亩产世界纪录.已知甲、乙两种杂交水稻在面积相等的两块试验田中连续6年的产量如图所示,则( )
A.甲的平均产量高于乙的平均产量 B.甲的最高产量高于乙的最高产量
C.甲的产量更稳定 D.乙的产量更稳定
答案:D
解析:A选项,甲的平均产量为kg,
乙的平均产量为,A错误;
B选项,甲的最高产量为1200kg,乙的最高产量为1251kg,B错误;
C、D选项,由折线图可知甲的波动更大,所以乙的产量更稳定,D正确.故选:D
2.气象学上判定春季进入夏季的标准为:当某地连续5天的日平均气温达到或超过时,便将这5天中的第一天定为夏季的开始.已知甲、乙、丙3个地区某连续5天日均气温的数据特征如下:
甲地:中位数是27,平均数是26.
乙地:最高气温31,平均数是26,方差是10.4.
丙地:中位数是24,众数是22.
则由此判断一定进入夏季的地区是( )
A.乙地 B.丙地 C.甲地,乙地 D.乙地,丙地
答案:B
解析:设5天气温从小到大排列为.
甲地:中位数,平均数26.因中位数大于平均数26,所以必有,可构造,不一定入夏,如21,26,27,28,28.
乙地:5天平均气温为26,总和为,方差,故气温与均值差的平方和为.假设存在一天气温为21(低于22),与均值差为,平方为25,最高气温31,剩余4天平方和只需,又因为.所以完全可以构造出五个数满足总和130,方差10.4,最大为31的数值,因此乙地不能保证每天气温,不一定进入夏季,如21,25,26,27,31.
丙地:中位数,众数22,,故;众数为22,则,5天均,一定入夏.
3、 校园生活情境:
1.常见应用场景:
简单随机抽样调研:随机抽取在校学生、课堂作业、考试试卷样本,不放回抽样抽查学习情况、答题质量、日常行为,预估全校整体学习与生活状态.
分层抽样学情统计:按年级、班级、性别、选科类型分层,按比例抽取样本,统计学业成绩、体测水平、社团参与、课后时长数据,解决校园总体个体差异显著的抽样问题.
校园数据分布统计:采集学生考试分数、体测成绩、课后学习时长、校园消费金额、出勤时长数据,绘制频率分布表与直方图,分析校园学情数据分布规律.
校园数据特征分析:利用平均数、中位数、众数、方差、标准差,研判学生整体学业水平、身体素质均值,分析班级成绩、体测数据的波动稳定性.
校园数据分级判定:借助百分位数、四分位数,对考试成绩、体测分数、学习时长数据分级,划定学业优良等级、体测达标标准与学情分层阈值.
2.常考题型:
校园场景下简单随机抽样、分层抽样的方法辨析、抽样方案判断及样本容量计算;
校园学情与生活数据极差、组距、频数、频率运算,补全频率分布表格、完善频率分布直方图;
依托样本数据与频率分布直方图,求解各类数字特征,分析学生学业、体测数据的稳定程度与整体水平;
计算校园学情数据的百分位数、四分位数,利用分位数完成学生成绩分层、体测等级、学情达标判定;
以样本统计量估计总体参数,推断全校学业水平、体测合格率、课后学习时长整体情况,完成校园学情综合评价.
例:1.某学校为培养学生创新精神和实践能力,组织了一次“科技小发明”竞赛活动,并对200位参赛学生的综合表现进行评分,评分的频率分布直方图如图,根据图中数据,下列说法错误的是( )
A. B.估计评分的平均数为76.5
C.估计评分的第25百分位数为65 D.评分在的人数约为20
答案:C
解析:对A,由频率之和为1得,解得,故A正确;
对B,平均数为,故B正确;
对C,评分在的频率为0.1,评分在的频率为0.2,评分的第25百分位数对应累计频率为0.25,落在组内,故第25百分位数为,故C错误;
对D,评分在的频率为0.1,则其中人数约为,故D正确.故选:C.
2.高一某班参加“红五月校园合唱比赛”,10位评委的打分如下:,则( )
A.该组数据的平均数为7,众数为
B.该组数据的第60百分位数为6
C.评判该班合唱水平的高低可以使用这组数据的平均数、中位数,也可以使用这组数据的众数
D.如果再增加一位评委给该班也打7分,则该班得分的方差变小
答案:D
解析:选项A,这组数据从小到大排列为,故平均数为,众数为7和8,中位数为7,故A错误;
选项B,,则第百分位数为,故B错误;
选项C:因为众数有两个,故不能用众数评判该班合唱水平的高低,故C错误;
选项D,方差为,如果再增加一位评委给该班也打7分,则平均分不变也为7,此时的方差为,故D正确.故选:D.
·
学科网(北京)股份有限公司
$