内容正文:
专题06 统计
内容导航
01 复习目标→ 明考向、知权重、晓关联、以目标导学,以考向定标
02 知识重构 → 系统讲解重难核心知识,重构整合形成体系
03 题型突破 → 汇总常考题型,举一反三,方法提炼
题型1 随机数表法
题型2 简单随机抽样的概率与总体
题型3 分层抽样
题型4 统计图表
题型5 用样本估计总体的集中趋势
题型6 用样本估计总体的离散程度
题型7 用频率直方图估计总体分布
题型8 百分位数
04综合通关 → 综合演练,梯度设题;查漏补缺,闭环收官
05错题留痕 → 预留固定区域,记录错题题号、错因与正解
常考考点
命题风向
1. 随机数表法
考察随机数表的使用步骤:确定起始位置、读取方向(向右或向下)、按规则取数(跳过重复和超出范围的号码)。易错点:读数时忽略已选号码、未注意编号位数。
2. 简单随机抽样的概率与总体
每个个体被抽中的概率相等,与抽取顺序无关;常考用样本估计总体的思想,以及由样本容量计算总体中某类个体的数量(按比例)。
3. 分层抽样
按某个特征将总体分成若干层(互不重叠),各层内独立简单随机抽样,样本量与层大小成比例(等比例分配)或按需分配。常考各层样本数的计算,以及分层后估计总体均值(加权平均)。
4. 统计图表
包括条形图、折线图、扇形图、茎叶图、频率分布直方图等。常考:从图表中读取数据(众数、中位数、极差)、识图比较两组数据、判断图表的适用场景(如茎叶图保留原始数据,适合小样本)。
5. 用样本估计总体的集中趋势
集中趋势指标:平均数、中位数、众数。常考:计算样本平均数(加权或算术)、由频率直方图估算中位数(面积等分点)、众数(最高矩形中点)。注意极端值对平均数影响大,对中位数影响小。
6. 用样本估计总体的离散程度
离散程度指标:极差、方差、标准差。常考:计算样本方差(理解平方和与平均数的关系)、比较两组数据稳定性(方差越小越稳定)、利用方差判断数据波动。注意方差单位是原始数据单位的平方。
7. 用频率直方图估计总体分布
频率直方图中,每个矩形的面积代表该组频率,所有矩形面积和为1。常考:由频率直方图求频率、频数、估计平均数(各组组中值乘以频率之和)、估计中位数(找出左边面积达到0.5的组)、估计百分位数。
8. 百分位数
百分位数表示数据中第p%的数小于或等于该值。常考:计算一组数据的第p百分位数(排序后按位置公式确定)、由频率直方图估计百分位数(面积累加达到p%时对应的数值)。易混淆:四分位数即第25、50、75百分位数,中位数是第50百分位数。
考情解码: 统计部分的核心是用样本推断总体。通过合理的抽样(简单随机、分层等)获取代表性样本,然后利用统计图表直观展示数据,再用集中趋势(平均数、中位数)和离散程度(方差、标准差)指标定量描述数据特征,最后用频率分布和百分位数估计总体的分布形态。解题时需分清概念(如频率与频数、方差与标准差),掌握图表识读技巧,注意抽样方法的适用条件和计算中的细节(如组中值的取法、百分位数位置公式)。
知识点一 简单随机抽样
1、简单随机抽样的概念
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
2、常见的两种简单随机抽样方法
(1)抽签法
一般地,抽签法就是把总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也
可以是卡片、小球等)上作为号签,并将这些号签放在一个不透明的盒,充分搅拌,最后从盒中不放回
地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的数量.
(2)随机数法
先把总体中的N个个体编号,用随机数工具产生1~N范围内的整数随机数,把产生的随机数作为抽中
的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的数量.如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
3、总体平均数与样本平均数
总体平均数:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数.
样本平均数:如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称为样本均值,又称样本平均数.
【易错提醒】
1、忘记每个个体被抽中的概率相等,误以为与抽取顺序或是否放回有关(实际放回或不放回概率相同)。
2、在随机数表法中,忽略编号位数一致、重复跳过、超出范围继续等规则,导致选取错误。
3、混淆样本均值与总体均值,误将样本特征直接当作总体特征而忽略抽样误差。
即时即练(25-26高一下·江苏泰州·阶段检测)总体由编号为00,01,02,…,49的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第3列和第4列数字开始从左到右依次选取两个数字,则选出的第5个个体的编号为__________.
附:第6行至第9行的随机数表
27 48 61 98 71 64 41 48 70 86 28 88 85 19 16 20
74 77 01 11 16 30 24 04 29 79 79 91 96 83 51 25
32 11 49 19 73 06 49 16 76 77 87 33 99 74 67 32
26 35 79 00 33 70 91 60 16 20 38 82 77 57 49 50
【答案】
16
【分析】依据随机数表法抽取样本的规则,从指定起始位置依次选取范围内的不重复编号,计数到第5个有效编号即可.
【详解】首先确定起始位置:随机数表第6行的第3列和第4列组成两位数字48,属于的编号范围,记为第1个有效编号;
从左到右依次选取后续两位数字,仅保留编号在范围内且不重复的结果:
1.选取61,数值大于49,舍去;
2.选取98,数值大于49,舍去;
3.选取71,数值大于49,舍去;
4.选取64,数值大于49,舍去;
5.选取41,符合要求,记为第2个有效编号;
6.选取48,与已选编号重复,舍去;
7.选取70,数值大于49,舍去;
8.选取86,数值大于49,舍去;
9.选取28,符合要求,记为第3个有效编号;
10.选取88,数值大于49,舍去;
11.选取85,数值大于49,舍去;
12.选取19,符合要求,记为第4个有效编号;
13.选取16,符合要求,记为第5个有效编号,
故第5个个体的编号为16.
知识点二 分层随机抽样
1、分层随机抽样的概念:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
2、比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
3、分层随机抽样的平均数、方差计算
在分层随机抽样中,如果层数为2层,第1层和第2层包含的个体数分别为和,抽样的样本容量分别为和,第1层、第2层的总体平均数分别为和,第1层、第2层的样本平均数分别为和,方差分别记为 ,总体平均数为,样本平均数为,方差记为则
(1),
(2)
【易错提醒】
1、各层抽样比例计算错误,误用等额分配(每层抽相同数量)而忽略应按层的大小比例分配。
2、估计总体均值时,权重使用错误(应使用各层总体单位数占总体总数的比例,而非样本量的比例)。
即时即练(25-26高一下·安徽阜阳·阶段检测)某校有老师200人,男学生1200人,女学生1000人,现用比例分配的分层随机抽样的方法从所有师生中抽取一个容量为的样本.已知从女生中抽取80人,则等于( )
A.80 B.100 C.192 D.200
【答案】C
【详解】因为,所以,所以.
知识点三 频率分布直方图
1、频率分布直方图的特点:
①,
②个小长方形的面积等于1,
③.
2、频率分布直方图中的统计数据
(1)频率分布直方图中的“平均数”:因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)频率分布直方图中的“中位数”:根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也就有50%的个体大于或等于中位数。因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值。
(3)频率分布直方图中的“众数”:根据众数的意义,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数。一般用中点近似值代替。
【易错提醒】
1、误将纵轴“频率/组距”当作频率,实际小矩形面积才是频率。
2、估计平均数时错误使用组端点而非组中值(应用各组组中值乘频率之和)。
3、求中位数时找面积等分点出错,需精确计算累计频率达到0.5的位置。
即时即练(25-26高一下·安徽阜阳·阶段检测)某校高一年级和高二年级分别有学生3 000名和2 000名,该校为了了解本校高一和高二两个年级的学生在五一假期期间的课外阅读情况,利用简单随机抽样的方法在两个年级分别抽取100名学生,记录每人假期期间每天的平均阅读时间(单位:分钟),得到如图所示的频率分布直方图:
(1)求高一和高二两个年级的100名学生在五一假期期间阅读时间的第80百分位数(保留整数).
(2)两个年级的100名学生在五一假期期间平均每天阅读时间超过一个小时的百分比各是多少?
(3)从众数和平均数两个角度来分析两个年级的阅读情况(每组的值用该组的中点值作代表).
【答案】(1)82,77
(2),
(3)答案见解析
【分析】(1)先根据频率分布直方图所有矩形面积和为1求出高一的未知参数,再分别计算高一、高二的累积频率,确定第80百分位数所在分组,最后代入百分位数计算公式求出对应结果;
(2)1小时等于60分钟,分别统计高一、高二平均阅读时间超过60分钟的累计频率,即可得到两个年级对应情况的百分比;
(3)先根据频率分布直方图得到两个年级阅读时间的众数,再以每组中点为代表计算两个年级的平均阅读时间,最后对比两个年级的众数和平均数结果,分析两个年级的阅读情况.
【详解】(1)由题可知,,
所以.
设高一年级100名学生在五一假期期间阅读时间的第80百分位数为m,则,解得.
设高二年级100名学生在五一假期期间阅读时间的第80百分位数为n,
则,解得.
(2)高一年级100名学生在五一假期期间,阅读时间超过一个小时的百分比为,
高二年级100名学生在五一假期期间,阅读时间超过一个小时的百分比为.
(3)由频率分布直方图可知,高一年级100名学生在五一假期期间阅读时间的众数为75,
平均数为.
高二年级100名学生在五一假期期间阅读时间的众数为65,
平均数为.
由此可以看出,无论从阅读时间的众数来讲,还是从阅读的平均时间来看,高一年级都明显高于高二年级,所以高一学生的阅读情况要好于高二学生的阅读情况,这可能与高二的学业加重有关.
知识点四 总体百分位数的估计
1、概念:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2、可以通过下面的步骤计算一组n个数据的第p百分位数:
(1)按从小到大排列原始数据.
(2)计算
(3)若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第(i+1)项数据的平均数.
【易错提醒】
注意要将原始数据排序,注意数据取得的规则。
即时即练(25-26高一下·四川广安·期中)数据4,5,5,5,6,8,9,10的60%分位数为________.
【答案】6
【详解】由题意知数据4,5,5,5,6,8,9,10,已按从小到大排列,
因为,故这组数据的60%分位数为6.
知识点五 总体集中趋势的估计
1、相关概念
(1)众数:在样本数据中,出现次数最多的那个数据;
(2)中位数:将样本数据按大小顺序排列,若数据的个数为奇数,则最中间的数据为中位数,
若样本数据个数为偶数,则取中间两个数据的平均数作为中位数。
(3)平均数:设样本的数据为,则样本的算术平均数为;
2、众数、中位数和平均数的比较
名称
优点
缺点
平均数
与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数
不受少数几个极端数据(即排序靠前或靠后的数据)的影响
对极端值不敏感
众数
体现了样本数据的最大集中点
众数只能传递数据中的信息的很少一部分,对极端值不敏感
3、平均数相关结论:
①如果两组数和的平均数分别是和,则一组数的平均数是;
②如果一组数的平均数为,则一组数的平均数为。
③如果一组数的平均数为,则一组数的平均数为
【易错提醒】
众数可以有多个(一组数据中出现次数最多的数值,若有多个并列最多,则它们都是众数)
即时即练(25-26高一下·山西忻州·阶段检测)(多选)已知一组从小到大排列的数据2,3,4,4,5,,7,10的上四分位数为6,则( )
A. B.该组数据的众数为4和5
C.剔除该组数据中的后,剩下数据的平均数变小 D.剔除该组数据中的后,剩下数据的方差变大
【答案】ABD
【详解】A,数据已从小到大排列:共8个数据,上四分位数(第75百分位数)的位置为,
取第6个和第7个数据的平均值,即,解得,故A正确;
B,此时数据为,众数为4和5(均出现两次),故B正确;
C,原平均数,剔除后,新平均数为,平均数不变,故C错误;
D,原方差,剔除后新方差,方差变大,故D正确.
知识点六 总体离散程度的估计
用样本的标准差估计总体的标准差
(1)数据的离散程度可以用极差、方差或标准差来描述;
(2)极差(又叫全距)是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
(3)样本方差描述了一组数据围绕平均数波动的大小;
一般地,设样本的数据为,样本的平均数为,
定义样本方差为;
简化公式:=(方差等于原数据平方的平均数减去平均数的平方)
(4)样本的标准差是方差的算术平方根.
样本标准差.
标准差越大数据离散程度越大,数据家分散;标准差越小,数据集中在平均数周围.
(5)方差相关结论:
①如果一组数的方差为,则一组数的方差为;
②如果一组数的方差为,则一组数的方差为。
【易错提醒】
总体与样本之间的方差与平均数之间的关系要弄清,尤其是多组数据之间的平均数与方差关系。
即时即练(25-26高一下·安徽蚌埠·阶段检测)已知样本数据的方差为3,若,则的方差为( )
A.31 B.27 C.13 D.9
【答案】B
【分析】由样本数据的方差的性质求解.
【详解】因为,所以.
题型1 随机数表法
例1.(25-26高一下·福建厦门·阶段检测)某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,…,899进行编号,从中抽取90个样本,利用科学计算器依次生成一组随机数如下:6859926968 2731099169 6729315571 2101421882 6498176555,则选出的第5个样本的编号是________.
【答案】
【分析】依据随机数表法的抽样规则,依次读取三位随机数,舍去编号范围外、重复的编号,直到选出第5个有效样本编号.
【详解】已知疫苗编号为三位,范围是,按从左到右的顺序依次读取三位随机数:
第一组随机数为685,在编号范围内,为第1个有效样本;第二组随机数为992,超出编号范围,舍去;
第三组随机数为696,在编号范围内,为第2个有效样本;第四组随机数为827,在编号范围内,为第3个有效样本;
第五组随机数为310,在编号范围内,为第4个有效样本;第六组随机数为991,超出编号范围,舍去;
第七组随机数为696,与已选样本重复,舍去;第八组随机数为729,在编号范围内,为第5个有效样本, 因此选出的第5个样本的编号是729.
例2.(25-26高一下·安徽阜阳·阶段检测)某校对高一新生进行了数学摸底测试,现利用随机数表从中抽取60名学生进行成绩分析,先将全体900名学生编号为001,002,003,…,900,从中抽取60个样本,并提供了随机数表的第1行到第2行,如下所示.若从该随机数表中第1行第4列开始向右读取数据,则得到的第5个样本的编号为( )
95226000 49840128 66175168 39682927 43772366 27096623
92580956 43890890 06482834 59741458 29778149 64608925
A.175 B.866 C.751 D.615
【答案】A
【详解】从随机数表中第1行第4列开始向右读取数据,前5个数据依次是260,004,012,866,175,所以得到的第5个样本的编号为175.
【技巧总结】
统一编号:将总体中个体按位数一致编号(如001、002…)。
确定起始:随机指定表中某行某列作为起点。
定向读取:按行、列或一定方向连续取数,每次取与编号相同位数。
取舍规则:只取编号范围内的数,重复或超出范围的跳过,直至取够样本量。
【变式训练1-1】(25-26高一下·山东·阶段检测)某工厂利用随机数表法对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 15 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从随机数表的第1行第6列开始向右依次读取数据,则得到的样本中,第5个个体的编号是________.
【答案】
10
【分析】按照题意结合随机数表依次读出前5个数即可.
【详解】从随机数表第1行的第6列数字开始由左向右每次连续读取2个数字,
删除超出范围及重复的编号,符合条件的编号有03,46,41,11,10,
所以选出来的第5个个体的编号为10.
【变式训练1-2】(25-26高一下·北京·期末)要考察某种品牌的450颗种子的发芽率,从中抽取50颗种子进行实验.利用随机数表抽取种子时,先将450颗种子按001,002,,450进行编号,如果从随机数表第2行第4组(随机数组中每5个数为一组)开始,自左向右自上至下读数,使用各个5位数组的前3位,则最先抽取的4颗种子的编号是__,___,___,___.
(下面摘取了随机数表第1行至第4行)
43021 92980 27768 26916 27783 84572 78483 39820
61459 39073 79242 20372 21048 87088 34600 34636
63171 58247 12907 50303 28814 40422 97895 61421
42372 53183 51546 90385 12120 64042 51320 22983.
【答案】 203 210 346 129
【详解】从随机数表第2行第4组(随机数组中每5个数为一组)开始,自左向右自上至下读数,
使用各个5位数组的前3位,可得:
第一个数字是203,符合题意;
第二个数字是210,也符合题意;
第三个数字是870,大于450,舍去;
第四个数字是346,符合题意;
第五个数字是346,重复,舍去;
第六个数字是631,大于450,舍去;
第七个数字是582,大于450,舍去;
第八个数字是129,符合题意.
最先抽取的4颗种子的编号为:203,210,346,129.
题型2 简单随机抽样的概率与总体
例1.(25-26高一上·河南·期末)采用简单随机抽样的方法,从含有25个个体的总体中抽取1个容量为10的样本,则某个个体被抽到的概率为( )
A. B. C. D.
【答案】B
【分析】根据每个个体被抽到的概率相等,所以每个个体被抽到的概率是样本容量和总体数量的比值.
【详解】由于每个个体被抽到的概率相等,
所以每个个体被抽到的概率是.
故选:B
例2.(25-26高二上·广东·阶段检测)采用简单随机抽样的方法,从含有4个个体的总体中抽取1个,某个个体被抽到的概率是( )
A. B. C. D.
【答案】C
【分析】根据随机抽样的性质运算求解即可.
【详解】由随机抽样的性质可知:每个个体被抽到的概率均等,概率均为.
故选:C.
【技巧总结】
简单随机抽样概率与总体:
等概率性:每个个体被抽到的概率均为 (n为样本量,N为总体容量),与抽取顺序无关。
求概率:直接利用组合或等可能事件计算,注意“不放回”与“一次抽取多个”等价。
总体估计:用样本均值、比例估计总体参数时,需明确抽样是等可能的。
【变式训练2-1】(25-26高二上·广东茂名·期中)为了了解某地区5000名小学生的体育素质情况,从中抽取了500名小学生进行测试,该地区每位小学生被抽到的可能性为( )
A. B. C. D.
【答案】A
【分析】利用简单随机抽样的定义求解即可.
【详解】该地区每位小学生被抽到的可能性为,
故选:A
【变式训练2-2】(25-26高二上·海南省直辖县级单位·阶段检测)为了了解某小区2000户居民缴纳社保情况,从中抽取了100户居民进行调查.该小区每位居民被抽到的可能性为( )
A. B. C. D.
【答案】C
【分析】由样本容量除以总体容量即可.
【详解】由题意可知为了了解某小区2000户居民缴纳社保情况,
从中抽取了100户居民进行调查,该小区每位居民被抽到的可能性都是相同的,
故可能为.
故选:C
题型3 分层抽样
例1.(多选)(25-26高一上·全国·单元测试)(多选)某高中学校从有120名学生的“航天”社团中随机抽取30名参加一个交流会,若按社团中高一、高二、高三年级的成员人数比例分层随机抽样,则高一年级抽取10人;若按性别比例分层随机抽样,则男生抽取18人.则下列结论正确的有
( )
A.样本量为30 B.120名社团成员中男生有72人
C.高二与高三年级的社团成员共有85人 D.高一年级的社团成员中女生最多有48人
【答案】AB
【分析】根据分层抽样的相关概念及等比例性质依次判断各项的正误.
【详解】A:从中随机抽取30名,则样本量为30,对;
B:设120名社团成员中男生有人,因为按性别比例分层随机抽样时男生抽取18人,
所以,解得,所以120名社团成员中男生有72人,对;
C:设高二与高三年级的社团成员共有人,
因为按社团中高一、高二、高三年级的成员人数比例分层随机抽样时高一年级抽取10人,
所以,解得,所以高二与高三年级的社团成员共有80人,错;
D:根据C知,高一年级的社团成员有(人),故高一年级的社团成员中女生最多有40人,错.
故选:AB
例2.(多选)(25-26高一下·全国·课堂例题)(多选)在100个零件中,有一级品20个,二级品30个,三级品50个,从中抽取20个作为样本.
方法一:采用简单随机抽样的方法,将零件编号为00,01,…,99,用抽签法抽取20个.
方法二:采用分层抽样的方法,从一级品中随机抽取4个,从二级品中随机抽取6个,从三级品中随机抽取10个.
对于上述问题,下列说法中正确的有( )
A.不论采用哪种抽样方法,这100个零件中每个零件被抽到的概率都是
B.采用不同的方法,这100个零件中每一个零件被抽到的可能性各不相同
C.在上述两种抽样方法中,方法一抽到的样本比方法二抽到的样本更能反映总体的特征
D.在上述两种抽样方法中,方法二抽到的样本比方法一抽到的样本更能反映总体的特征
【答案】AD
【详解】选项A,.
选项B,方法一抽取时零件之间没有区别,抽取概率为.
方法二抽取时各分层概率也均为,因此两方法每一个零件被抽取概率相同.
选项C,方法二的分层抽样按照比例从不同级别的样品中抽取比随机抽样更能反映总体的特征.
选项D,和C同理.
【技巧总结】
分层原则:将总体按特征分成互不重叠的层,层内差异小,层间差异大。
样本分配:常用按比例分配(各层样本数 = 该层个体数 / 总体数 × 总样本量),也可按其他权重。
抽样实施:在各层内分别进行简单随机抽样或系统抽样,然后将各层样本合并。
估计技巧:总体均值或比例需用各层加权平均(权重为层总体占比),避免直接用样本均值。
【变式训练3-1】(2026高一·全国·专题练习)某学校高一年级在校人数为人,其中男生人,女生人,为了解学生身高发展情况,按分层随机抽样的方法抽出的男生身高为一个样本,其样本平均数为cm,抽出的女生身高为一个样本,其样本平均数为cm,则可估计该校高一学生的平均身高为_______cm.
【答案】
【分析】通过分层随机抽样,平均数的概念求解.
【详解】由题意可知,,且,
所以该校高一学生平均身高的估计值,
故该校高一学生的平均身高的估计值为.
【变式训练3-2】(25-26高一下·全国·课堂例题)某单位有老年人27人,中年人54人,青年人81人,为了调查他们身体状况的某项指标,按照老、中、青三个年龄层次进行分层抽样.已知在青年人中抽了18人,那么该单位抽取的样本容量为( )
A.27 B.36 C.54 D.81
【答案】B
【分析】由分层抽样中某一层的人数,计算样本总量的方法,结合题意即可求得该单位抽取的样本容量.
【详解】样本容量
故选:B.
题型4 统计图表
例1.(多选)(25-26高一下·山西晋中·阶段检测)(多选)2021至2025年我国快递业务量及其增长速度如图所示,则( )
A.2021至2025年我国快递业务量逐年增长
B.2021至2025年我国快递业务量增长速度逐年增长
C.2021至2025年我国快递业务量每年增长量超过200亿件
D.估计我国2020年的快递业务量小于650亿件
【答案】AD
【详解】 选项A:由柱状图数据可知,2021至2025年我国快递业务量分别为(亿件),数值逐年增大,
说明业务量在逐年增加,故选项A正确;
选项B:由折线图数据可知,2021至2025年我国快递业务量增长速度分别为,呈现先减后增的趋势,并非逐年增长,故选项B错误;
选项C:2023年的快递业务量增长量为(亿件),显然,不满足每年增长量超过200亿件,故选项C错误;
选项D:设我国2020年的快递业务量为亿件,根据2021年的业务量为亿件且增长率为,
可得,解得.
因为,所以估计我国2020年的快递业务量小于650亿件,故选项D正确.
例2.(25-26高一下·广东·期末)人口普查的主要目的是全面查清我国人口数量、结构、分布等方面的情况,为完善我国人口发展战略和政策体系、制定经济社会发展规划、推动高质量发展提供准确统计信息支持.根据国家统计局发布的第七次全国人口普查结果,全国人口共141178万人,全国共有家庭户49416万户,家庭户人口为129281万人.如图所示的为历次人口普查中的全国人口及年均增长率,根据该统计图,下列说法正确的是( )
A.我国人口近10年来继续保持低速增长态势
B.我国人口的年平均增长率持续下降
C.2020年的全国人口相比2010年增加了
D.我国人口出生率仍然持续上升
【答案】A
【详解】我国人口近10年的年平均增长率为,保持低速增长态势,故A正确,C错误;
1964年年,我国人口的年平均增长率上升,故B错误;
从图中不能判定我国人口出生率的情况,故D错误.
【技巧总结】
对频率分布直方图、茎叶图、条形图(柱状图)、扇形图(饼图)、折线图、散点图、频率分布表中的数据的读取、多各统计数据的计算。
【变式训练4-1】(25-26高一下·甘肃酒泉·期中)随着生活水平的不断提高,旅游已经成为人们生活的一部分.某地旅游部门从年月到该地旅游的游客中随机抽取部分游客进行调查,得到各年龄段游客的人数比例和各年龄段中自助游的比例,如图,则下列说法错误的是( )
A.若调查的游客中青年人有人,则一共调查了人
B.估计年月到该地旅游的游客中选择自助游的青年人占总游客人数的
C.用分层随机抽样的方法对所调查游客进行抽样,若老年人有人,则中年人有人
D.估计年月到该地旅游且选择自助游的游客中青年人不超过一半
【答案】D
【详解】设年月到该地旅游的游客总人数为.
由题意,游客中老年人、中年人、青年人的人数分别为,
其中选择自助游的老年人、中年人、青年人的人数分别为.
对于A,,解得,即一共调查的游客人数是人,故A正确;
对于B,估计年月到该地旅游的游客中选择自助游的青年人占总游客人数的,故B正确;
对于C,设中年人应抽取人,依题意得,解得,即中年人应抽取人,故C正确;
对于D,因为年月到该地旅游且选择自助游的游客的人数为,其中青年人的人数为,所以选择自助游的游客中青年人超过一半,故D错误.
【变式训练4-2】(25-26高一下·甘肃武威·阶段检测)班长统计了去年月“书香校园”活动中全班同学的课外阅读数量(单位:本),并绘制了如图所示的折线统计图,下列说法不正确的是( )
A.阅读数量最大的是8月份
B.阅读数量最小的是1月份
C.阅读数量最大的月份比最小的月份多55本
D.每月阅读数量超过40的有6个月
【答案】B
【详解】由图知阅读数量最大的是8月份,为83本;阅读数量最小的是6月份,为28本,故A正确,B错误.
阅读数量最大的月份比最小的月份多本,故C正确;
每月阅读数量超过40的有2,3,4,5,7,8共6个月,故D正确.
题型5 用样本估计总体的集中趋势
例1.(2026·湖北·三模)已知一组样本数据有两层,第一层有N个数据,平均数为,第二层有M个数据,平均数为,两层数据合到一起计算出的平均数为,后来第一层又增加了n个数据,这n个数据的平均数为,则新的样本数据的平均数为( )
A. B. C. D.
【答案】D
【详解】所有数据和为,
新的样本数据的平均数为.
例2.(2026·天津和平·二模)如图所示,某单峰频率分布直方图在右边“拖尾”,若由频率分布直方图估计样本数据的中位数为m,众数为n,平均数为p,则( )
A. B. C. D.
【答案】A
【分析】根据平均数,中位数,众数的概念结合图形分析判断.
【详解】由频率分布直方图可知,单峰不对称且右“拖尾”,最高峰偏左,众数最小.
平均数受极端值影响,与中位数相比,平均数总在“拖尾”那边,故平均数大于中位数,
故得.
【技巧总结】
平均数:用样本均值直接估计总体均值,注意加权平均(各层或各组)。
中位数:将样本数据排序后取中间值,或从频率分布直方图中估算(面积平分点)。
众数:样本中出现次数最多的数,或直方图中最高矩形中点。
单峰对称分布时,三者相等(如正态分布),右偏(正偏)分布:平均数 > 中位数 > 众数(长尾在右侧),左偏(负偏)分布:平均数 < 中位数 < 众数(长尾在左侧)。
【变式训练5-1】(多选)(25-26高一上·甘肃定西·开学考试)(多选)为防范新型毒品对青少年的危害,某校开展青少年禁毒知识竞赛,小星所在小组5个学生的真实成绩分别为80,86,95,96,98,由于小星将其中一名成员的96分错记为98分,则与所在小组的真实成绩相比,统计成绩的( )
A.平均数变小 B.平均数变大 C.中位数不变 D.众数不变
【答案】BC
【分析】由平均数、中位数以及众数的概念逐一判断各个选项即可求解.
【详解】对于AB,由于小星将其中一名成员的96分错记为98分,
则总成绩变大,从而与所在小组的真实成绩相比,统计成绩的平均数变大,A错误,B正确;
对于CD,记录成绩为:80,86,95,98,98,真实成绩为:80,86,95,96,98,
他们的中位数都是95,记录成绩的众数是98,真实成绩无众数,C正确,D错误.
故选:BC
【变式训练5-2】(多选)(25-26高一下·安徽阜阳·阶段检测)某公司欲对甲、乙、丙、丁四名实习生进行考核,考核规则为对连续五个工作日的工作情况进行打分,若每天的得分均不低于80分(所得分均为整数),则考核合格,否则视为不合格,四人连续五个工作日的得分记录如下.
甲:众数为83,平均数为82.
乙:中位数为82,众数为80.
丙:中位数为85,平均数为82.
丁:有个工作日得分为89,平均数为83,方差为9.2.
甲、乙、丙、丁四人中,考核一定合格的为( )
A.甲 B.乙 C.丙 D.丁
【答案】BD
【分析】分别结合甲、乙、丙、丁四人已知的众数、中位数、平均数、方差的统计性质,逐一验证是否存在得分低于分的可能性,由此判断哪名实习生一定满足五天得分均不低于分的合格要求.
【详解】对于A:若甲有四个工作日的得分为,则剩余的那个工作日的得分为,
故甲的考核不一定合格,A错误;
对于B:将得分排序后,第三个为,且至少有两个,这两个必然是最小的两个数,
因此所有得分均不低于,故乙的考核一定合格,B正确;
对于C:丙的中位数为,平均数为,其得分可以为,
故丙的考核不一定合格,C错误;
对于D,由于丁有一个工作日的得分为,且平均数为,
若有一个工作日的得分为,由,
可知其方差必超过了,所以丁连续五个工作日的得分均不低于,
故丁的考核一定合格,D正确.
题型6 用样本估计总体的离散程度
例1.(多选)(25-26高一下·河北衡水·阶段检测)已知一组样本数据,,的方差为3,则( )
A.,,不可能都相等
B.,,的方差也为3
C.该组样本数据的平均数有最值
D.的最小值为9
【答案】ABD
【详解】由题意,,.
对于A,若,则,
所以,不满足题意,
则,,不可能都相等,故A正确;
对于B,,,的平均数为,
则方差为
,故B正确;
对于C,由方差的性质可知,样本数据,,的方差为3,
,,的的方差也为3,
由k具有任意性,可知该组样本数据的平均数没有最值,故C错误;
对于D,因为,
所以,
当时,取得最小值9,故D正确.
例2.(多选)(25-26高一下·江苏南京·期中)若是样本数据:,,,的平均数(,,,不全相等),则( )
A.,,,的极差等于,,,,的极差
B.,,,的平均数等于,,,,的平均数
C.,,,的中位数等于,,,,的中位数
D.,,,的标准差大于,,,,的标准差
【答案】ABD
【分析】由统计中的数学特征进行计算即可.
【详解】不妨设,此时,A中极差均为,故A对;
,所以,故B对;
C中前者中位数为,后者中位数为或或,故C错;
D中前者标准差为,
后者标准差为,故D对.
【技巧总结】
方差/标准差:样本方差用n−1作分母(无偏估计),总体方差用n;计算时先求均值,再算离差平方和。
极差:样本最大值减最小值,直观但易受极端值影响,用于初步判断波动范围。
应用:比较两组数据稳定性时,看标准差(或方差)大小,越小越稳定。
【变式训练6-1】(多选)(25-26高一下·甘肃酒泉·期中)有一组样本数据,其平均数为5,方差为,中位数为.在这组数中,去掉一个最大的数10和一个最小的数1,余下8个数据的中位数为,方差为,极差为,则( )
A. B. C. D.
【答案】AD
【分析】根据平均数和方差的运算公式,结合中位数的定义、极差的运算公式逐一判断即可.
【详解】不妨设,则.
因为与的中位数都是,
所以,故A正确.
当时,,故B错误.
,故C错误.
由已知得.
因为,所以,
去掉一个最大的数10和一个最小的数1,余下8个数据的和为,
所以由
,
所以余下8个数据的方差
所以,故D正确.
【变式训练6-2】(多选)(25-26高三下·云南楚雄·阶段检测)有一组样本数据,由这组数据得到新样本数据,其中,则下列说法正确的是( )
A.若样本数据的极差为,则样本数据的极差为
B.若样本数据的中位数为,则样本数据的中位数为
C.若样本数据的平均数为,则样本数据的平均数为
D.若样本数据的方差为,则样本数据的方差为
【答案】AC
【分析】使用中位数,平均数,极差,方差的定义求解.
【详解】若样本数据的极差为,中位数为,平均数为,方差为,则样本数据的极差为,选项正确;
中位数为,选项错误;
平均数为,选项正确;
方差为,选项D错误.
题型7 用频率直方图估计总体分布
例1.(25-26高一下·湖南衡阳·期中)某烘焙店为调研某款全麦面包的质量情况,随机抽取了100个这款全麦面包,将称重后得到的数据分成六组,分别为[,,…,(单位:克),得到如图所示的频率分布直方图.
(1)求图中的值,并估计这100个样本数据的平均数;(同一组中的数据以该组所在区间的中点值为代表)
(2)若样本在内的平均质量是65克,方差是6,在内的平均质量为75克,方差是3,求这两组质量的总方差.
【答案】(1);
(2)
【分析】(1)根据频率分布直方图的性质,列出方程求得,结合平均数的计算公式,即可求解;
(2)根据题意,利用分层抽样的方差的计算公式,即可求解.
【详解】(1)解:由频率分布直方图的性质,可得,
解得.
各组的组中值依次为,对应频率依次为,
所以数据的平均数
,
所以估计这100个样本数据的平均数为.
(2)解:由于样本数据在与内的频率之比为,
所以两组的总平均数为,
所以总方差.
例2.(25-26高一下·安徽蚌埠·阶段检测)为点燃同学们对数学的热爱,使其探寻数字背后的文化密码,某校高一年级举办“数学文化”知识竞赛.为了解参赛者的成绩情况,从所有参赛者中随机抽取100人的成绩(百分制)作为样本,并按分组,作出频率分布直方图如图所示.
(1)求的值,并估计样本中成绩不低于60分的人数;
(2)估计样本中成绩的上四分位数;
(3)若规定成绩不低于80分为“良好”等级,已知样本中成绩在内的平均数为88,方差为7,成绩在内的平均数为96,方差为7,求样本中“良好”等级的成绩的平均数和方差.
【答案】(1),90
(2)86
(3)平均数为91,方差为22.
【分析】(1)根据频率分布直方图的特征求的值,再利用频率估计总体即可;
(2)根据百分位数的求解方式求解即可;
(3)根据分层抽样的方差公式求解.
【详解】(1)在频率分布直方图中,所有小矩形的面积之和为1,
则,解得,
估计样本中成绩不低于60分的人数为.
(2)前四个小矩形的面积之和为,
前五个小矩形的面积之和为,
所以成绩的上四分位数落在内,设其为,
则,
解得,
即估计样本中成绩的上四分位数为86.
(3)样本中成绩在内占成绩在内的比例为,
样本中成绩在内占成绩在内的比例为.
设样本中“良好”等级的成绩的平均数和方差分别为,
由分层随机抽样的平均数公式可得,
由分层随机抽样的方差公式可得,
故样本中“良好”等级的成绩的平均数为91,方差为22.
【技巧总结】
读图要素:注意纵轴是频率/组距,每组频率 = 纵轴值 × 组距。
估计数字特征:用每组中点值近似代表该组数据,加权平均得均值;找中位数即找累计频率达0.5的对应横轴位置。
判断分布形状:观察各组矩形高低,判断对称性、偏态或是否存在多个峰值。
【变式训练2-1】(25-26高一下·新疆·阶段检测)2026年5月25日至5月31日将是第四届全国城市生活垃圾分类宣传周,为提高同学们的垃圾分类意识.某中学举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛的成绩情况,从中随机抽取了100名学生的竞赛成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,按,,,,分为5组,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)在这100名学生中,从这次竞赛成绩在内的学生中采用分层随机抽样的方法抽取27名学生进行调查,求这100名学生这次竞赛成绩在内被抽取的人数.
(3)估计这100名学生这次竞赛成绩的中位数与平均数;
【答案】(1)
(2)
(3)中位数为,平均数为
【分析】(1)利用频率分布直方图中各小长方形面积之和等于1求出;
(2)先求出成绩在内、内的人数,再按分层随机抽样的比例求解;
(3)用各组的组中值分别乘对应人数,再除以总人数,求得平均数,利用面积和为可得中位数.
【详解】(1)由频率分布直方图可知,各组的组距都是,
各组对应的小长方形面积之和等于总频率1,所以,
化简得,即,即,即,
所以图中.
(2)由(1)知,
因此各组的频率分别为,
,
对应这名学生各组的人数分别为,
成绩在内的人数为,
成绩在内的人数为,
所以成绩在内的总人数为,
现从这45人中采用分层随机抽样的方法抽取27人,
则成绩在内被抽取的人数为,
所以这名学生这次竞赛成绩在内被抽取的人数为6.
(3)由(2)知,各组的人数分别为,
各组的组中值分别为,
则,
所以估计这名学生这次竞赛成绩的平均数为分.
由可得中位数位于中间,设为,
则.
【变式训练2-2】(25-26高一下·河南·阶段检测)某环保小组对某市连续40天的PM2.5日均浓度(单位:)数据进行统计分析,将数据分成,,,,五组,得到如图所示的频率分布直方图.
(1)求图中a的值;
(2)求该市这40天中PM2.5日均浓度低于的天数;
(3)估计该市PM2.5日均浓度的平均数(各组数据以该组中间值作代表).
【答案】(1)
(2)天
(3)
【分析】(1)根据频率分布直方图中,长方形的面积和为1,计算a的值;
(2)根据频数等于频率和总数的乘积计算即可;
(3)利用每组中间值和频率的乘积之和计算平均数.
【详解】(1)由可得:,
故;
(2)低于的组为,,,
对应的频率和为:,
天数为:(天);
(3)各组中间值分别为:25,35,45,55,65,
.
题型8 百分位数
例1.(25-26高一下·浙江绍兴·期中)某校高一年级个班参加合唱比赛的得分如下:89,87,93,91,96,94,90,92,则这组数据的第25百分位数和平均数分别是( )
A.89和 B.和 C.90和 D.和92
【答案】B
【详解】将这组数据按照从小到大的顺序排列为:,
因为,所以这组数据的第25百分位数为;
平均数为.
例2.(25-26高一下·湖南·阶段检测)某校组织了“人工智能知识”测试,现随机抽取了100名学生的测试成绩(单位:分),这100名学生的成绩都分布在区间内,绘制成如图所示的频率分布直方图. 则这100名学生成绩的61%分位数为______.
【答案】82
【分析】由百分位数求解即可.
【详解】设这100名学生成绩的61%分位数为x,
因为前4组频率之和为,
前5组频率之和为,
所以这100名学生成绩的61%分位数落在第5组内,
所以,解得,所以这200名学生成绩的61%分位数为82.
【技巧总结】
排序数据:从小到大排列。
计算位置:用 位置,为数据个数。
取值规则:若位置为整数,取该位与下一位的平均值;若为小数,向上取整直接取该位数据。
【变式训练8-1】(2026·陕西渭南·模拟预测)样本数据4,16,5,27,6,30,11,21的第40百分位数为( )
A. B.11 C. D.
【答案】B
【分析】先从小到大把一组数据排序,再根据第百分位数的位置计算方法运算即可.
【详解】原数据按从小到大顺序排序为;
由第百分位数的位置计算公式为.
样本容量,得.
根据百分位数定义,当位置不是整数时,向上取整得到的数即为对应百分位数的位置.
因为不是整数,向上取整得,即取排序后第项,排序后第项数据为.
因此该组数据的第百分位数为.
【变式训练8-2】(2026·安徽·模拟预测)在一个文艺比赛中,10位观众评委给同一名选手的打分依次为:82,84,80,93,85,87,89,88,91,88,这组数据的第80百分位数为( )
A.88 B.89 C.90 D.91
【答案】C
【详解】将数据按照从小到大的顺序排列为80,82,84,85,87,88,88,89,91,93,
因为,则第80百分位数是第8个数字和第9个数字的平均数,
所以这组数据的第80百分位数为.
1.(25-26高一下·宁夏银川·期中)高一某班有56名学生,其中男生24人,女生32人.按性别进行分层,用分层随机抽样的方法,从该班学生中抽取14人参加跳绳比赛,如果样本按比例分配,则应抽取的男生人数为( )
A.5 B.6 C.7 D.8
【答案】B
【详解】因为样本按比例分配,男女比例为,
所以应抽取的男生人数为.
2.(25-26高二上·四川成都·阶段检测)某学校有教师300人,男学生1200人,女学生900人,现用分层抽样的方法从全体师生中抽取一个容量为n的样本,已知抽取的男生比女生多6人,则n的值为( )
A.56 B.52 C.48 D.44
【答案】C
【分析】根据分层抽样的定义即可得到答案.
【详解】根据分层抽样方法中所抽取的比例相等,
所以,解得.
故选:C.
3.(25-26高一下·贵州遵义·阶段检测)某保险公司为客户定制了5个险种:甲,一年期短期;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得到如图所示的统计图表.则下列说法中正确的是( )
A.丁险种参保人数超过六成 B.41岁以上参保人数超过总参保人数的五成
C.54周岁以上人群参保的总费用最少 D.人均参保费用不超过5000元
【答案】D
【详解】对于A,由条形图可知丁险种参保比例为,故A错误;
对于B,由扇形图可知,41岁以上参保人数占比为,故B错误;
对于C,由扇形图与折线图可知18-29周岁人群参保人数占比,人均参保费用在元,
而54岁及以上人群参保比例虽只占,但人均参保费用为6000元,所以18-29周岁人群参保的总费用最少,故C错误;
对于D,由扇形图与折线图可知,人均参保费用约,故D正确.
4.(2026·湖南·模拟预测)国家能源集团研发的“擎源”大模型用于预测关键节点电价,研究人员利用模型对某节点连续8个小时的实际与预测电价数据进行记录,并利用上述数据绘制成实际值与预测值对比的折线图(两条折线):
观察图表与数据,下列结论不能直接从中得出的是( )
A.实际电价与预测电价的变化趋势一致,均在下午时段(第5小时左右)达到峰值
B.这8小时内,预测值与实际值的差异(两个值的差的绝对值)平均在10元/MWh左右
C.模型对所有“价格下跌时段”(如第5-6小时)的预测都出现了滞后性(即预测反应慢于实际变化)
D.模型的预测精度较高,趋势与实际基本一致,对电网调度有重要参考价值
【答案】C
【详解】由图可知:实际电价与预测电价的变化趋势一致,均在下午时段(第5小时左右)达到峰值,A正确;
对于B,差异平均值为,B正确;
由图可知两折线的趋势基本一致,且误差较小,故精确度高,D正确;
对于C,没有足够的理由说明预测变化慢于实际变化,C错误.
5.(25-26高一下·全国·单元测试)(多选)某商场一年中各月份的收入,支出情况如图所示,下列说法中正确的是( )
A.支出最高值与支出最低值的比是
B.4至6月份的平均收入为50万元
C.利润最高的月份是2月份
D.2至3月份的收入的变化率与11至12月份的收入的变化率相同
【答案】AD
【分析】根据折线统计图即可判断各选项.
【详解】由图可知,支出最高值为60万元,支出最低值为10万元,其比是,故A正确.
由图可知,4至6月份的平均收入为(万元),故B错误.
由图可知,利润最高的月份为3月份和10月份,故C错误.
由图可知,2至3月份的收入的变化率为,
与11至12月份的收入的变化率为,故D正确.
故选:AD
6.(25-26高一下·陕西·期中)某社区共有1200名老年居民和800名中青年居民,通过分层随机抽样的方法,得到老年居民、中青年居民每周的锻炼时长的平均数分别为10小时和4小时,则社区这2000名居民每周的锻炼时长平均数估计为( )
A.7小时 B.7.2小时 C.7.6小时 D.8小时
【答案】C
【详解】社区这2000名居民每周的锻炼时长平均数估计为小时.
7.(25-26高一下·浙江嘉兴·阶段检测)(多选)已知,记一组数据1,2,3,a,8为,则( )
A.若的极差为9,则 B.若的80%分位数是6,则
C.若的平均数为3,则 D.若,则的方差为6.6
【答案】AB
【详解】对于A,因为,其极差为9,所以,所以,故A正确;
对于B,中共有5个数,,则80%分位数是从小到大排列后第4个数和第5个数的平均数,
因为80%分位数是6,则,即得,解得,故B正确;
对于C,由,解得,故C错误;
对于D,当时,由C项知的平均数为3,故的方差为,故D错误.
8.(2026高一·全国·专题练习)已知实数,则使和最小的实数k分别为
的( )
A.中位数,标准差 B.平均数,中位数
C.中位数,平均数 D.标准差,平均数
【答案】C
【分析】根据中位数和平均数的性质,结合绝对值的性质、二次函数最值性质进行运算求解判断即可.
【详解】表示2 025个绝对值之和,
根据绝对值的几何意义知,绝对值的和的最小值表示距离和的最小值,
因为2 025为奇数,
所以k取的中位数时,有最小值;
显然该式可以看成关于k的一元二次函数,
故当时,有最小值,
即k为的平均数时,有最小值.
9.(25-26高一下·甘肃兰州·期中)(多选)在某次数学练习中,高三班的男生数学平均分为120,方差为2,女生数学平均分为112,方差为1,已知该班级男女生人数分别为25、15,则下列说法正确的有( )
A.该班级此次练习数学成绩的均分为118
B.该班级此次练习数学成绩的方差为16.625
C.利用分层抽样的方法从该班级抽取8人,则应抽取5名男生
D.从该班级随机选择2人参加某项活动,则至少有1名女生的概率为
【答案】BCD
【详解】在班级中男生所占比例为,女生所占比例为
A选项,,故A错误;
B选项,,故B正确;
C选项,应抽取名男生,故C正确;
D选项,先从班级中选择1人,有种方法,再从剩余人数中选择1人,有种方法,
故从该班级随机选择2人共有种方法,
同理,从该班级随机选择2个男生,共有种方法,
故至少有1名女生的概率为,故D正确.
10.(25-26高一下·江苏泰州·阶段检测)某幼儿园根据部分同年龄段儿童的身高数据绘制了如图所示的频率分布直方图,其中身高(单位:)的变化范围是,样本数据分组为,,,,.
(1)求出的值;
(2)已知样本中身高小于的人数是60,求出样本容量的数值;
(3)根据频率分布直方图提供的数据,现用分层抽样的方法从身高在,,内的儿童中共抽出42名儿童参加活动,求三个组内分别要抽取的儿童数.
【答案】(1)
(2)
(3)
在,,内抽取儿童数为名
【分析】(1)利用频率分布直方图中所有小矩形的面积之和为建立方程求解;
(2)先计算身高小于的频率,再利用频数除以频率求样本容量;
(3)计算三个区间的频率之比或人数之比,利用分层抽样的比例关系求解。
【详解】(1) 由频率分布直方图可知,组距为, 根据所有小矩形的面积之和为,
所以 ;
(2)身高小于的频率为 .
因为身高小于的人数是, 所以样本容量;
(3)身高在,,内的频率分别为,,,
这三组的人数分别为,,.
这三组的总人数为,故抽样比为,
则三个组内分别要抽取的儿童数为:
第一组(名) ,第二组(名) ,第三组(名) ,
故三个组内分别要抽取的儿童数为名.
1 / 2
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题06 统计
内容导航
01 复习目标→ 明考向、知权重、晓关联、以目标导学,以考向定标
02 知识重构 → 系统讲解重难核心知识,重构整合形成体系
03 题型突破 → 汇总常考题型,举一反三,方法提炼
题型1 随机数表法
题型2 简单随机抽样的概率与总体
题型3 分层抽样
题型4 统计图表
题型5 用样本估计总体的集中趋势
题型6 用样本估计总体的离散程度
题型7 用频率直方图估计总体分布
题型8 百分位数
04综合通关 → 综合演练,梯度设题;查漏补缺,闭环收官
05错题留痕 → 预留固定区域,记录错题题号、错因与正解
常考考点
命题风向
1. 随机数表法
考察随机数表的使用步骤:确定起始位置、读取方向(向右或向下)、按规则取数(跳过重复和超出范围的号码)。易错点:读数时忽略已选号码、未注意编号位数。
2. 简单随机抽样的概率与总体
每个个体被抽中的概率相等,与抽取顺序无关;常考用样本估计总体的思想,以及由样本容量计算总体中某类个体的数量(按比例)。
3. 分层抽样
按某个特征将总体分成若干层(互不重叠),各层内独立简单随机抽样,样本量与层大小成比例(等比例分配)或按需分配。常考各层样本数的计算,以及分层后估计总体均值(加权平均)。
4. 统计图表
包括条形图、折线图、扇形图、茎叶图、频率分布直方图等。常考:从图表中读取数据(众数、中位数、极差)、识图比较两组数据、判断图表的适用场景(如茎叶图保留原始数据,适合小样本)。
5. 用样本估计总体的集中趋势
集中趋势指标:平均数、中位数、众数。常考:计算样本平均数(加权或算术)、由频率直方图估算中位数(面积等分点)、众数(最高矩形中点)。注意极端值对平均数影响大,对中位数影响小。
6. 用样本估计总体的离散程度
离散程度指标:极差、方差、标准差。常考:计算样本方差(理解平方和与平均数的关系)、比较两组数据稳定性(方差越小越稳定)、利用方差判断数据波动。注意方差单位是原始数据单位的平方。
7. 用频率直方图估计总体分布
频率直方图中,每个矩形的面积代表该组频率,所有矩形面积和为1。常考:由频率直方图求频率、频数、估计平均数(各组组中值乘以频率之和)、估计中位数(找出左边面积达到0.5的组)、估计百分位数。
8. 百分位数
百分位数表示数据中第p%的数小于或等于该值。常考:计算一组数据的第p百分位数(排序后按位置公式确定)、由频率直方图估计百分位数(面积累加达到p%时对应的数值)。易混淆:四分位数即第25、50、75百分位数,中位数是第50百分位数。
考情解码: 统计部分的核心是用样本推断总体。通过合理的抽样(简单随机、分层等)获取代表性样本,然后利用统计图表直观展示数据,再用集中趋势(平均数、中位数)和离散程度(方差、标准差)指标定量描述数据特征,最后用频率分布和百分位数估计总体的分布形态。解题时需分清概念(如频率与频数、方差与标准差),掌握图表识读技巧,注意抽样方法的适用条件和计算中的细节(如组中值的取法、百分位数位置公式)。
知识点一 简单随机抽样
1、简单随机抽样的概念
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
2、常见的两种简单随机抽样方法
(1)抽签法
一般地,抽签法就是把总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也
可以是卡片、小球等)上作为号签,并将这些号签放在一个不透明的盒,充分搅拌,最后从盒中不放回
地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的数量.
(2)随机数法
先把总体中的N个个体编号,用随机数工具产生1~N范围内的整数随机数,把产生的随机数作为抽中
的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的数量.如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
3、总体平均数与样本平均数
总体平均数:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数.
样本平均数:如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称为样本均值,又称样本平均数.
【易错提醒】
1、忘记每个个体被抽中的概率相等,误以为与抽取顺序或是否放回有关(实际放回或不放回概率相同)。
2、在随机数表法中,忽略编号位数一致、重复跳过、超出范围继续等规则,导致选取错误。
3、混淆样本均值与总体均值,误将样本特征直接当作总体特征而忽略抽样误差。
即时即练(25-26高一下·江苏泰州·阶段检测)总体由编号为00,01,02,…,49的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第3列和第4列数字开始从左到右依次选取两个数字,则选出的第5个个体的编号为__________.
附:第6行至第9行的随机数表
27 48 61 98 71 64 41 48 70 86 28 88 85 19 16 20
74 77 01 11 16 30 24 04 29 79 79 91 96 83 51 25
32 11 49 19 73 06 49 16 76 77 87 33 99 74 67 32
26 35 79 00 33 70 91 60 16 20 38 82 77 57 49 50
知识点二 分层随机抽样
1、分层随机抽样的概念:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
2、比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
3、分层随机抽样的平均数、方差计算
在分层随机抽样中,如果层数为2层,第1层和第2层包含的个体数分别为和,抽样的样本容量分别为和,第1层、第2层的总体平均数分别为和,第1层、第2层的样本平均数分别为和,方差分别记为 ,总体平均数为,样本平均数为,方差记为则
(1),
(2)
【易错提醒】
1、各层抽样比例计算错误,误用等额分配(每层抽相同数量)而忽略应按层的大小比例分配。
2、估计总体均值时,权重使用错误(应使用各层总体单位数占总体总数的比例,而非样本量的比例)。
即时即练(25-26高一下·安徽阜阳·阶段检测)某校有老师200人,男学生1200人,女学生1000人,现用比例分配的分层随机抽样的方法从所有师生中抽取一个容量为的样本.已知从女生中抽取80人,则等于( )
A.80 B.100 C.192 D.200
知识点三 频率分布直方图
1、频率分布直方图的特点:
①,
②个小长方形的面积等于1,
③.
2、频率分布直方图中的统计数据
(1)频率分布直方图中的“平均数”:因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)频率分布直方图中的“中位数”:根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也就有50%的个体大于或等于中位数。因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值。
(3)频率分布直方图中的“众数”:根据众数的意义,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数。一般用中点近似值代替。
【易错提醒】
1、误将纵轴“频率/组距”当作频率,实际小矩形面积才是频率。
2、估计平均数时错误使用组端点而非组中值(应用各组组中值乘频率之和)。
3、求中位数时找面积等分点出错,需精确计算累计频率达到0.5的位置。
即时即练(25-26高一下·安徽阜阳·阶段检测)某校高一年级和高二年级分别有学生3 000名和2 000名,该校为了了解本校高一和高二两个年级的学生在五一假期期间的课外阅读情况,利用简单随机抽样的方法在两个年级分别抽取100名学生,记录每人假期期间每天的平均阅读时间(单位:分钟),得到如图所示的频率分布直方图:
(1)求高一和高二两个年级的100名学生在五一假期期间阅读时间的第80百分位数(保留整数).
(2)两个年级的100名学生在五一假期期间平均每天阅读时间超过一个小时的百分比各是多少?
(3)从众数和平均数两个角度来分析两个年级的阅读情况(每组的值用该组的中点值作代表).
知识点四 总体百分位数的估计
1、概念:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2、可以通过下面的步骤计算一组n个数据的第p百分位数:
(1)按从小到大排列原始数据.
(2)计算
(3)若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第(i+1)项数据的平均数.
【易错提醒】
注意要将原始数据排序,注意数据取得的规则。
即时即练(25-26高一下·四川广安·期中)数据4,5,5,5,6,8,9,10的60%分位数为________.
知识点五 总体集中趋势的估计
1、相关概念
(1)众数:在样本数据中,出现次数最多的那个数据;
(2)中位数:将样本数据按大小顺序排列,若数据的个数为奇数,则最中间的数据为中位数,
若样本数据个数为偶数,则取中间两个数据的平均数作为中位数。
(3)平均数:设样本的数据为,则样本的算术平均数为;
2、众数、中位数和平均数的比较
名称
优点
缺点
平均数
与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数
不受少数几个极端数据(即排序靠前或靠后的数据)的影响
对极端值不敏感
众数
体现了样本数据的最大集中点
众数只能传递数据中的信息的很少一部分,对极端值不敏感
3、平均数相关结论:
①如果两组数和的平均数分别是和,则一组数的平均数是;
②如果一组数的平均数为,则一组数的平均数为。
③如果一组数的平均数为,则一组数的平均数为
【易错提醒】
众数可以有多个(一组数据中出现次数最多的数值,若有多个并列最多,则它们都是众数)
即时即练(25-26高一下·山西忻州·阶段检测)(多选)已知一组从小到大排列的数据2,3,4,4,5,,7,10的上四分位数为6,则( )
A. B.该组数据的众数为4和5
C.剔除该组数据中的后,剩下数据的平均数变小 D.剔除该组数据中的后,剩下数据的方差变大
知识点六 总体离散程度的估计
用样本的标准差估计总体的标准差
(1)数据的离散程度可以用极差、方差或标准差来描述;
(2)极差(又叫全距)是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
(3)样本方差描述了一组数据围绕平均数波动的大小;
一般地,设样本的数据为,样本的平均数为,
定义样本方差为;
简化公式:=(方差等于原数据平方的平均数减去平均数的平方)
(4)样本的标准差是方差的算术平方根.
样本标准差.
标准差越大数据离散程度越大,数据家分散;标准差越小,数据集中在平均数周围.
(5)方差相关结论:
①如果一组数的方差为,则一组数的方差为;
②如果一组数的方差为,则一组数的方差为。
【易错提醒】
总体与样本之间的方差与平均数之间的关系要弄清,尤其是多组数据之间的平均数与方差关系。
即时即练(25-26高一下·安徽蚌埠·阶段检测)已知样本数据的方差为3,若,则的方差为( )
A.31 B.27 C.13 D.9
题型1 随机数表法
例1.(25-26高一下·福建厦门·阶段检测)某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,…,899进行编号,从中抽取90个样本,利用科学计算器依次生成一组随机数如下:6859926968 2731099169 6729315571 2101421882 6498176555,则选出的第5个样本的编号是________.
例2.(25-26高一下·安徽阜阳·阶段检测)某校对高一新生进行了数学摸底测试,现利用随机数表从中抽取60名学生进行成绩分析,先将全体900名学生编号为001,002,003,…,900,从中抽取60个样本,并提供了随机数表的第1行到第2行,如下所示.若从该随机数表中第1行第4列开始向右读取数据,则得到的第5个样本的编号为( )
95226000 49840128 66175168 39682927 43772366 27096623
92580956 43890890 06482834 59741458 29778149 64608925
A.175 B.866 C.751 D.615
【技巧总结】
统一编号:将总体中个体按位数一致编号(如001、002…)。
确定起始:随机指定表中某行某列作为起点。
定向读取:按行、列或一定方向连续取数,每次取与编号相同位数。
取舍规则:只取编号范围内的数,重复或超出范围的跳过,直至取够样本量。
【变式训练1-1】(25-26高一下·山东·阶段检测)某工厂利用随机数表法对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 15 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从随机数表的第1行第6列开始向右依次读取数据,则得到的样本中,第5个个体的编号是________.
【变式训练1-2】(25-26高一下·北京·期末)要考察某种品牌的450颗种子的发芽率,从中抽取50颗种子进行实验.利用随机数表抽取种子时,先将450颗种子按001,002,,450进行编号,如果从随机数表第2行第4组(随机数组中每5个数为一组)开始,自左向右自上至下读数,使用各个5位数组的前3位,则最先抽取的4颗种子的编号是__,___,___,___.
(下面摘取了随机数表第1行至第4行)
43021 92980 27768 26916 27783 84572 78483 39820
61459 39073 79242 20372 21048 87088 34600 34636
63171 58247 12907 50303 28814 40422 97895 61421
42372 53183 51546 90385 12120 64042 51320 22983.
题型2 简单随机抽样的概率与总体
例1.(25-26高一上·河南·期末)采用简单随机抽样的方法,从含有25个个体的总体中抽取1个容量为10的样本,则某个个体被抽到的概率为( )
A. B. C. D.
例2.(25-26高二上·广东·阶段检测)采用简单随机抽样的方法,从含有4个个体的总体中抽取1个,某个个体被抽到的概率是( )
A. B. C. D.
【技巧总结】
简单随机抽样概率与总体:
等概率性:每个个体被抽到的概率均为 (n为样本量,N为总体容量),与抽取顺序无关。
求概率:直接利用组合或等可能事件计算,注意“不放回”与“一次抽取多个”等价。
总体估计:用样本均值、比例估计总体参数时,需明确抽样是等可能的。
【变式训练2-1】(25-26高二上·广东茂名·期中)为了了解某地区5000名小学生的体育素质情况,从中抽取了500名小学生进行测试,该地区每位小学生被抽到的可能性为( )
A. B. C. D.
【变式训练2-2】(25-26高二上·海南省直辖县级单位·阶段检测)为了了解某小区2000户居民缴纳社保情况,从中抽取了100户居民进行调查.该小区每位居民被抽到的可能性为( )
A. B. C. D.
题型3 分层抽样
例1.(多选)(25-26高一上·全国·单元测试)(多选)某高中学校从有120名学生的“航天”社团中随机抽取30名参加一个交流会,若按社团中高一、高二、高三年级的成员人数比例分层随机抽样,则高一年级抽取10人;若按性别比例分层随机抽样,则男生抽取18人.则下列结论正确的有
( )
A.样本量为30 B.120名社团成员中男生有72人
C.高二与高三年级的社团成员共有85人 D.高一年级的社团成员中女生最多有48人
例2.(多选)(25-26高一下·全国·课堂例题)(多选)在100个零件中,有一级品20个,二级品30个,三级品50个,从中抽取20个作为样本.
方法一:采用简单随机抽样的方法,将零件编号为00,01,…,99,用抽签法抽取20个.
方法二:采用分层抽样的方法,从一级品中随机抽取4个,从二级品中随机抽取6个,从三级品中随机抽取10个.
对于上述问题,下列说法中正确的有( )
A.不论采用哪种抽样方法,这100个零件中每个零件被抽到的概率都是
B.采用不同的方法,这100个零件中每一个零件被抽到的可能性各不相同
C.在上述两种抽样方法中,方法一抽到的样本比方法二抽到的样本更能反映总体的特征
D.在上述两种抽样方法中,方法二抽到的样本比方法一抽到的样本更能反映总体的特征
【技巧总结】
分层原则:将总体按特征分成互不重叠的层,层内差异小,层间差异大。
样本分配:常用按比例分配(各层样本数 = 该层个体数 / 总体数 × 总样本量),也可按其他权重。
抽样实施:在各层内分别进行简单随机抽样或系统抽样,然后将各层样本合并。
估计技巧:总体均值或比例需用各层加权平均(权重为层总体占比),避免直接用样本均值。
【变式训练3-1】(2026高一·全国·专题练习)某学校高一年级在校人数为人,其中男生人,女生人,为了解学生身高发展情况,按分层随机抽样的方法抽出的男生身高为一个样本,其样本平均数为cm,抽出的女生身高为一个样本,其样本平均数为cm,则可估计该校高一学生的平均身高为_______cm.
【变式训练3-2】(25-26高一下·全国·课堂例题)某单位有老年人27人,中年人54人,青年人81人,为了调查他们身体状况的某项指标,按照老、中、青三个年龄层次进行分层抽样.已知在青年人中抽了18人,那么该单位抽取的样本容量为( )
A.27 B.36 C.54 D.81
题型4 统计图表
例1.(多选)(25-26高一下·山西晋中·阶段检测)(多选)2021至2025年我国快递业务量及其增长速度如图所示,则( )
A.2021至2025年我国快递业务量逐年增长
B.2021至2025年我国快递业务量增长速度逐年增长
C.2021至2025年我国快递业务量每年增长量超过200亿件
D.估计我国2020年的快递业务量小于650亿件
例2.(25-26高一下·广东·期末)人口普查的主要目的是全面查清我国人口数量、结构、分布等方面的情况,为完善我国人口发展战略和政策体系、制定经济社会发展规划、推动高质量发展提供准确统计信息支持.根据国家统计局发布的第七次全国人口普查结果,全国人口共141178万人,全国共有家庭户49416万户,家庭户人口为129281万人.如图所示的为历次人口普查中的全国人口及年均增长率,根据该统计图,下列说法正确的是( )
A.我国人口近10年来继续保持低速增长态势
B.我国人口的年平均增长率持续下降
C.2020年的全国人口相比2010年增加了
D.我国人口出生率仍然持续上升
【技巧总结】
对频率分布直方图、茎叶图、条形图(柱状图)、扇形图(饼图)、折线图、散点图、频率分布表中的数据的读取、多各统计数据的计算。
【变式训练4-1】(25-26高一下·甘肃酒泉·期中)随着生活水平的不断提高,旅游已经成为人们生活的一部分.某地旅游部门从年月到该地旅游的游客中随机抽取部分游客进行调查,得到各年龄段游客的人数比例和各年龄段中自助游的比例,如图,则下列说法错误的是( )
A.若调查的游客中青年人有人,则一共调查了人
B.估计年月到该地旅游的游客中选择自助游的青年人占总游客人数的
C.用分层随机抽样的方法对所调查游客进行抽样,若老年人有人,则中年人有人
D.估计年月到该地旅游且选择自助游的游客中青年人不超过一半
【变式训练4-2】(25-26高一下·甘肃武威·阶段检测)班长统计了去年月“书香校园”活动中全班同学的课外阅读数量(单位:本),并绘制了如图所示的折线统计图,下列说法不正确的是( )
A.阅读数量最大的是8月份
B.阅读数量最小的是1月份
C.阅读数量最大的月份比最小的月份多55本
D.每月阅读数量超过40的有6个月
题型5 用样本估计总体的集中趋势
例1.(2026·湖北·三模)已知一组样本数据有两层,第一层有N个数据,平均数为,第二层有M个数据,平均数为,两层数据合到一起计算出的平均数为,后来第一层又增加了n个数据,这n个数据的平均数为,则新的样本数据的平均数为( )
A. B. C. D.
例2.(2026·天津和平·二模)如图所示,某单峰频率分布直方图在右边“拖尾”,若由频率分布直方图估计样本数据的中位数为m,众数为n,平均数为p,则( )
A. B. C. D.
【技巧总结】
平均数:用样本均值直接估计总体均值,注意加权平均(各层或各组)。
中位数:将样本数据排序后取中间值,或从频率分布直方图中估算(面积平分点)。
众数:样本中出现次数最多的数,或直方图中最高矩形中点。
单峰对称分布时,三者相等(如正态分布),右偏(正偏)分布:平均数 > 中位数 > 众数(长尾在右侧),左偏(负偏)分布:平均数 < 中位数 < 众数(长尾在左侧)。
【变式训练5-1】(多选)(25-26高一上·甘肃定西·开学考试)(多选)为防范新型毒品对青少年的危害,某校开展青少年禁毒知识竞赛,小星所在小组5个学生的真实成绩分别为80,86,95,96,98,由于小星将其中一名成员的96分错记为98分,则与所在小组的真实成绩相比,统计成绩的( )
A.平均数变小 B.平均数变大 C.中位数不变 D.众数不变
【变式训练5-2】(多选)(25-26高一下·安徽阜阳·阶段检测)某公司欲对甲、乙、丙、丁四名实习生进行考核,考核规则为对连续五个工作日的工作情况进行打分,若每天的得分均不低于80分(所得分均为整数),则考核合格,否则视为不合格,四人连续五个工作日的得分记录如下.
甲:众数为83,平均数为82.
乙:中位数为82,众数为80.
丙:中位数为85,平均数为82.
丁:有个工作日得分为89,平均数为83,方差为9.2.
甲、乙、丙、丁四人中,考核一定合格的为( )
A.甲 B.乙 C.丙 D.丁
题型6 用样本估计总体的离散程度
例1.(多选)(25-26高一下·河北衡水·阶段检测)已知一组样本数据,,的方差为3,则( )
A.,,不可能都相等
B.,,的方差也为3
C.该组样本数据的平均数有最值
D.的最小值为9
例2.(多选)(25-26高一下·江苏南京·期中)若是样本数据:,,,的平均数(,,,不全相等),则( )
A.,,,的极差等于,,,,的极差
B.,,,的平均数等于,,,,的平均数
C.,,,的中位数等于,,,,的中位数
D.,,,的标准差大于,,,,的标准差
【技巧总结】
方差/标准差:样本方差用n−1作分母(无偏估计),总体方差用n;计算时先求均值,再算离差平方和。
极差:样本最大值减最小值,直观但易受极端值影响,用于初步判断波动范围。
应用:比较两组数据稳定性时,看标准差(或方差)大小,越小越稳定。
【变式训练6-1】(多选)(25-26高一下·甘肃酒泉·期中)有一组样本数据,其平均数为5,方差为,中位数为.在这组数中,去掉一个最大的数10和一个最小的数1,余下8个数据的中位数为,方差为,极差为,则( )
A. B. C. D.
【变式训练6-2】(多选)(25-26高三下·云南楚雄·阶段检测)有一组样本数据,由这组数据得到新样本数据,其中,则下列说法正确的是( )
A.若样本数据的极差为,则样本数据的极差为
B.若样本数据的中位数为,则样本数据的中位数为
C.若样本数据的平均数为,则样本数据的平均数为
D.若样本数据的方差为,则样本数据的方差为
题型7 用频率直方图估计总体分布
例1.(25-26高一下·湖南衡阳·期中)某烘焙店为调研某款全麦面包的质量情况,随机抽取了100个这款全麦面包,将称重后得到的数据分成六组,分别为[,,…,(单位:克),得到如图所示的频率分布直方图.
(1)求图中的值,并估计这100个样本数据的平均数;(同一组中的数据以该组所在区间的中点值为代表)
(2)若样本在内的平均质量是65克,方差是6,在内的平均质量为75克,方差是3,求这两组质量的总方差.
例2.(25-26高一下·安徽蚌埠·阶段检测)为点燃同学们对数学的热爱,使其探寻数字背后的文化密码,某校高一年级举办“数学文化”知识竞赛.为了解参赛者的成绩情况,从所有参赛者中随机抽取100人的成绩(百分制)作为样本,并按分组,作出频率分布直方图如图所示.
(1)求的值,并估计样本中成绩不低于60分的人数;
(2)估计样本中成绩的上四分位数;
(3)若规定成绩不低于80分为“良好”等级,已知样本中成绩在内的平均数为88,方差为7,成绩在内的平均数为96,方差为7,求样本中“良好”等级的成绩的平均数和方差.
【技巧总结】
读图要素:注意纵轴是频率/组距,每组频率 = 纵轴值 × 组距。
估计数字特征:用每组中点值近似代表该组数据,加权平均得均值;找中位数即找累计频率达0.5的对应横轴位置。
判断分布形状:观察各组矩形高低,判断对称性、偏态或是否存在多个峰值。
【变式训练2-1】(25-26高一下·新疆·阶段检测)2026年5月25日至5月31日将是第四届全国城市生活垃圾分类宣传周,为提高同学们的垃圾分类意识.某中学举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛的成绩情况,从中随机抽取了100名学生的竞赛成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,按,,,,分为5组,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)在这100名学生中,从这次竞赛成绩在内的学生中采用分层随机抽样的方法抽取27名学生进行调查,求这100名学生这次竞赛成绩在内被抽取的人数.
(3)估计这100名学生这次竞赛成绩的中位数与平均数;
【变式训练2-2】(25-26高一下·河南·阶段检测)某环保小组对某市连续40天的PM2.5日均浓度(单位:)数据进行统计分析,将数据分成,,,,五组,得到如图所示的频率分布直方图.
(1)求图中a的值;
(2)求该市这40天中PM2.5日均浓度低于的天数;
(3)估计该市PM2.5日均浓度的平均数(各组数据以该组中间值作代表).
题型8 百分位数
例1.(25-26高一下·浙江绍兴·期中)某校高一年级个班参加合唱比赛的得分如下:89,87,93,91,96,94,90,92,则这组数据的第25百分位数和平均数分别是( )
A.89和 B.和 C.90和 D.和92
例2.(25-26高一下·湖南·阶段检测)某校组织了“人工智能知识”测试,现随机抽取了100名学生的测试成绩(单位:分),这100名学生的成绩都分布在区间内,绘制成如图所示的频率分布直方图. 则这100名学生成绩的61%分位数为______.
【技巧总结】
排序数据:从小到大排列。
计算位置:用 位置,为数据个数。
取值规则:若位置为整数,取该位与下一位的平均值;若为小数,向上取整直接取该位数据。
【变式训练8-1】(2026·陕西渭南·模拟预测)样本数据4,16,5,27,6,30,11,21的第40百分位数为( )
A. B.11 C. D.
【变式训练8-2】(2026·安徽·模拟预测)在一个文艺比赛中,10位观众评委给同一名选手的打分依次为:82,84,80,93,85,87,89,88,91,88,这组数据的第80百分位数为( )
A.88 B.89 C.90 D.91
1.(25-26高一下·宁夏银川·期中)高一某班有56名学生,其中男生24人,女生32人.按性别进行分层,用分层随机抽样的方法,从该班学生中抽取14人参加跳绳比赛,如果样本按比例分配,则应抽取的男生人数为( )
A.5 B.6 C.7 D.8
2.(25-26高二上·四川成都·阶段检测)某学校有教师300人,男学生1200人,女学生900人,现用分层抽样的方法从全体师生中抽取一个容量为n的样本,已知抽取的男生比女生多6人,则n的值为( )
A.56 B.52 C.48 D.44
3.(25-26高一下·贵州遵义·阶段检测)某保险公司为客户定制了5个险种:甲,一年期短期;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得到如图所示的统计图表.则下列说法中正确的是( )
A.丁险种参保人数超过六成 B.41岁以上参保人数超过总参保人数的五成
C.54周岁以上人群参保的总费用最少 D.人均参保费用不超过5000元
4.(2026·湖南·模拟预测)国家能源集团研发的“擎源”大模型用于预测关键节点电价,研究人员利用模型对某节点连续8个小时的实际与预测电价数据进行记录,并利用上述数据绘制成实际值与预测值对比的折线图(两条折线):
观察图表与数据,下列结论不能直接从中得出的是( )
A.实际电价与预测电价的变化趋势一致,均在下午时段(第5小时左右)达到峰值
B.这8小时内,预测值与实际值的差异(两个值的差的绝对值)平均在10元/MWh左右
C.模型对所有“价格下跌时段”(如第5-6小时)的预测都出现了滞后性(即预测反应慢于实际变化)
D.模型的预测精度较高,趋势与实际基本一致,对电网调度有重要参考价值
5.(25-26高一下·全国·单元测试)(多选)某商场一年中各月份的收入,支出情况如图所示,下列说法中正确的是( )
A.支出最高值与支出最低值的比是
B.4至6月份的平均收入为50万元
C.利润最高的月份是2月份
D.2至3月份的收入的变化率与11至12月份的收入的变化率相同
6.(25-26高一下·陕西·期中)某社区共有1200名老年居民和800名中青年居民,通过分层随机抽样的方法,得到老年居民、中青年居民每周的锻炼时长的平均数分别为10小时和4小时,则社区这2000名居民每周的锻炼时长平均数估计为( )
A.7小时 B.7.2小时 C.7.6小时 D.8小时
7.(25-26高一下·浙江嘉兴·阶段检测)(多选)已知,记一组数据1,2,3,a,8为,则( )
A.若的极差为9,则 B.若的80%分位数是6,则
C.若的平均数为3,则 D.若,则的方差为6.6
8.(2026高一·全国·专题练习)已知实数,则使和最小的实数k分别为
的( )
A.中位数,标准差 B.平均数,中位数
C.中位数,平均数 D.标准差,平均数
9.(25-26高一下·甘肃兰州·期中)(多选)在某次数学练习中,高三班的男生数学平均分为120,方差为2,女生数学平均分为112,方差为1,已知该班级男女生人数分别为25、15,则下列说法正确的有( )
A.该班级此次练习数学成绩的均分为118
B.该班级此次练习数学成绩的方差为16.625
C.利用分层抽样的方法从该班级抽取8人,则应抽取5名男生
D.从该班级随机选择2人参加某项活动,则至少有1名女生的概率为
10.(25-26高一下·江苏泰州·阶段检测)某幼儿园根据部分同年龄段儿童的身高数据绘制了如图所示的频率分布直方图,其中身高(单位:)的变化范围是,样本数据分组为,,,,.
(1)求出的值;
(2)已知样本中身高小于的人数是60,求出样本容量的数值;
(3)根据频率分布直方图提供的数据,现用分层抽样的方法从身高在,,内的儿童中共抽出42名儿童参加活动,求三个组内分别要抽取的儿童数.
1 / 2
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$