内容正文:
第13讲 数字特征与样本估计总体综合应用
目录
01 题型归纳目录 2
02 知识点梳理 3
知识点1:统计的有关概念 3
03 重难点题型 8
题型一:随机数表法抽样 8
题型二:分层随机抽样 9
题型三:频率分布直方图的绘制与解读 10
题型四:数据的平均数、方差、众数、中位数与百分位数计算 15
题型五:用样本估计总体的分布与数字特征 17
题型六:分层抽样下的方差计算 20
题型七:平均数与方差的运算性质 24
04 过关检测 27
知识点1:统计的有关概念
1、统计的相关概念
(1)普查
像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查.
(2)总体、个体
在一个调查中,我们把调查对象的全体称为总体.组成总体的每一个调查对象称为个体.为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体.
(3)抽样调查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查.
(4)样本、样本量
我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.
2、简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样.
3、简单随机抽样的方法
(1)抽签法:
把总体中的N个个体编号,把编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需的个数.
(2)随机数法:
用随机数工具产生编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需的个数.
①用随机试验生成随机数;
②用信息技术生成随机数;
③用计算器生成随机数;
④用电子表格软件生成随机数;
⑤用R统计软件生成随机数.
4、总体均值
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式
5、样本均值
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 为样本均值,又称样本平均数.
探究:总体均值与样本均值有何区别与联系?
答案:(1)区别:当总体中个体较多时,总体均值不易计算,样本均值比较方便计算.总体均值是一个确定的数,样本均值具有随机性.
(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.
6、分层抽样定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样.
7、分层抽样适用范围
当总体是由差异明显的几个部分组成时,往往采用分层抽样.
8、分层抽样的步骤
(1)根据已掌握的信息,将总体分成若干部分.
(2)根据总体中的个体数N和样本容量n计算出抽样比k=.
(3)根据抽样比k计算出各层中应抽取的个体数:·Ni (其中Ni为第i层所包含的个体总数).
(4)按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.
9、两种抽样方法的区别和联系
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中各个个体被抽到的机会相等,且都是不放回抽取
从总体中逐个抽取
最基本的抽样方法
总体容量较少
分层抽样
抽样过程中各个个体被抽到的机会相等,且都是不放回抽取
将总体分成几部分,每一部分按比例抽取
每层抽样时采用简单随机抽样
总体由差异明显的若干部分组成
10、获取数据的途径
统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.
(1)通过调查获取数据
适用范围:对于有限总体问题,一般通过抽样调查或普查的方法获取数据.
注意事项:充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.
(2)通过试验获取数据.
适用范围:没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.
注意事项:严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.
(3)通过观察获取数据.
适用范围:自然现象.
注意事项:需要专业测量设备获取观测数据.
(4)通过查询获得数据.
适用范围:二手数据.
注意事项:数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真.
11、频率分布直方图绘制步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第i组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
12、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.
13、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.
14、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
15、常见的其他统计图:条形图、扇形图、折线图.
扇形图主要用于直观描述各类数据占总数的比例;
条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
折线图主要用于描述数据随时间的变化趋势.
16、各个统计图特点
(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.
(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.
17、第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
18、计算第百分位数的步骤
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.
19、四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
20、众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:如果个数,那么叫做这个数的平均数.
21、频率分布直方图中的众数、中位数、平均数
①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
12、方差、标准差的定义
一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.
23、总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.
24、样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.
25、方差、标准差特征
标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
题型一:随机数表法抽样
例1.(2026·高一·安徽阜阳·阶段检测)某校对高一新生进行了数学摸底测试,现利用随机数表从中抽取60名学生进行成绩分析,先将全体900名学生编号为001,002,003,…,900,从中抽取60个样本,并提供了随机数表的第1行到第2行,如下所示.若从该随机数表中第1行第4列开始向右读取数据,则得到的第5个样本的编号为( )
95226000 49840128 66175168 39682927 43772366 27096623
92580956 43890890 06482834 59741458 29778149 64608925
A.175 B.866 C.751 D.615
【答案】A
【解析】从随机数表中第1行第4列开始向右读取数据,前5个数据依次是260,004,012,866,175,所以得到的第5个样本的编号为175.
例2.(2026·高二·广东中山·阶段检测)总体由编号为00,01,…,59的60个个体组成.利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第6个数字开始由左到右依次选取两个数字,则选出来的第3个个体的编号为( )
5044664421 6606580562 6165543502 4235489632
1452415248 2266221586 2663754199 5842367224
A.42 B.16 C.56 D.06
【答案】C
【解析】由题意可知,从该随机数表第1行的第6个数字开始由左到右依次选取两个数字,
则选出来的个体编号依次为:64(舍去),42,16,60(舍去),
65(舍去),80(舍去),56,26,16(舍去),55,43,
即选出的6个个体编号依次为:42,16,56,26,55,43,所以第3个个体的编号为56.
例3.某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,分别为001,002,…,599,600,再从中抽取60个样本.随机数表的第5行到第7行如下.
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
若从第6行第6列开始向右每次读取3个数字,则得到的第8个样本的编号为( )
A.324 B.345 C.577 D.578
【答案】B
【解析】从第6行第6列开始抽取三位数,分别为:
808,不满足;436,满足;789,不满足;
535,满足;577,满足;348,满足;
994,不满足;837,不满足;522,满足;
535,前面已有,故不满足;578,满足;
324,满足;577,前面已有,故不满足;
892,不满足;345,满足,且为第8个样本的编号.
故选:B.
变式1.(2026·高一·福建福州·期末)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…500,假设从第1行第4列的数字开始,则第5个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.447 D.672
【答案】B
【解析】由题知,选取的同学编号分别是442,175,572,175,455,608,331,047,
剔除重复数据,超过500的数据,符合条件的是442,175,455,331,047,第五个是047.
故选:B.
题型二:分层随机抽样
例4.(2026·高一·福建漳州·阶段检测)某校有学生2000人,其中高三学生500人.为了解学生身体情况,采用按年级分层抽样的方法,从该校学生中抽取一个200人的样本,则样本中高三学生的人数为( )
A.100 B.60 C.50 D.40
【答案】C
【解析】设样本中高三学生数为,根据分层抽样等比例性质知.
例5.(2026·高一·安徽阜阳·阶段检测)某校有老师200人,男学生1200人,女学生1000人,现用比例分配的分层随机抽样的方法从所有师生中抽取一个容量为的样本.已知从女生中抽取80人,则等于( )
A.80 B.100 C.192 D.200
【答案】C
【解析】因为,所以,所以.
例6.(2026·高一·山西忻州·阶段检测)为了解某校学生每天课外运动时长,按年级采用比例分配的分层随机抽样的方法从高一、高二、高三中共抽取130名学生进行调查,已知该校高一有1500名学生,高二有1200名学生,高三有1200名学生,则高一、高二共抽取( )
A.40名学生 B.50名学生 C.80名学生 D.90名学生
【答案】D
【解析】由,
所以高一、高二共抽取名学生.
变式2.(2026·高一·安徽阜阳·阶段检测)某学校高一年级共有1 500名学生,从中随机抽取300名学生以了解学生对四大名著的阅读情况,其中只阅读两本名著的有135人,至少阅读三本名著的有96人,请估计该校高一全体1 500名学生中,至多阅读一本名著的人数约为( )
A.350 B.345 C.450 D.485
【答案】B
【解析】在这300人中,至多阅读一本名著的人数为(人),
则高一全体名学生中,至多阅读一本名著的人数约为.
题型三:频率分布直方图的绘制与解读
例7.(2026·高一·四川成都·开学考试)随着车辆的增加,交通违规的现象越来越严重,交警对某雷达测速区检测到的一组汽车的时速数据进行整理,得到其频数及频率如表(未完成):
数据段
频数
频率
30~40
10
0.05
40~50
36
50~60
0.39
60~70
70~80
20
0.10
总计
200
1
注:30~40为时速大于等于30千米而小于40千米,其他类同
(1)请你把表中的数据填写完整;
(2)补全频数分布直方图;
(3)如果汽车时速不低于60千米即为违章,则违章车辆共有多少辆?
【解析】(1)填表如下:
数据段
频数
频率
30~40
10
0.05
40~50
36
0.18
50~60
78
0.39
60~70
56
0.28
70~80
20
0.10
总计
200
1
(2)根据(1)中数据补全频数分布直方图,如图所示:
(3)违章车辆数:56+20=76(辆).
答:违章车辆有76辆.
例8.(2026·高二·江苏淮安·阶段检测)有900名学生参加“环保知识竞赛”,为考察竞赛成绩情况,从中抽取部分学生的成绩(得分均整数,满分为100分)进行统计,请你根据尚未完成并有局部污损的频率分面表和频率分布直方图(如图)解释下列问题.
分组
频数
频率
4
0.08
0.16
10
16
0.32
合计
50
(1)填满频率分布表;
(2)补全频率分布直方图;
(3)若成绩在的学生可以获得二等奖,求获得二等奖的学生人数.
【解析】(1)因为,,,,且所有频率和为1,
据此填满频率分布表,如下表所示:
分组
频数
频率
4
0.08
8
0.16
10
0.2
16
0.32
12
0.24
合计
50
1
(2)根据(1)中数据可得频率分布直方图,如图所示:
(3)由题意可知:成绩在频率为,
估计获得二等奖的学生人数为.
例9.(2026·高一·陕西西安·阶段检测)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:
组号
分组
频数
频率
第1组
0.100
第2组
①______
第3组
20
②______
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
(1)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).
(2)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,则第3,4,5组每组各抽取多少名选手进入第二轮面试?
【解析】(1)第组的频数为,所以①填,对应频率;
②填,由此补全频率分布表如下:
组号
分组
频数
频率
第1组
0.100
第2组
第3组
20
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
由此补全频率分布直方图如下:
(2)第3,4,5组的频率之比为,
所以第组分别抽取人,人,人.
变式3.(2026·高一·河北衡水·期末)杭州市某高中从学生中招收志愿者参加迎亚运专题活动,现已有高一540人、高二360人,高三180人报名参加志愿活动.根据活动安排,拟采用分层抽样的方法,从已报名的志愿者中抽取120名.对抽出的120名同学某天参加运动的时间进行了统计,运动时间均在39.5至99.5分钟之间,其频率分布直方图如下:
(1)需从高一、高二、高三报名的学生中各抽取多少人;
(2)请补全频率分布直方图.
【解析】(1)报名的学生共有1080人,抽取的比例为,
所以高一抽取人,高二抽取人,高三抽取人;
(2)第三组的频率为,
故第三组的小矩形的高度为,补全频率分布直方图得
题型四:数据的平均数、方差、众数、中位数与百分位数计算
例10.样本数为9的四组数据,它们的平均数都是5,条形图如图所示,则标准差最大的一组是( )
A.第一组 B.第二组 C.第三组 D.第四组
【答案】D
【解析】第一组中,样本数据都为5,数据没有波动幅度,标准差为0;第二组中,样本数据为4,4,4,5,5,5,6,6,6,标准差为;第三组中,样本数据为3,3,4,4,5,6,6,7,7,标准差为;第四组中,样本数据为2,2,2,2,5,8,8,8,8,标准差为,故标准差最大的一组是第四组.
故选:D.
例11.(2026·高一·全国·单元测试)2020年初全国人民为支持国家抗疫,全民在家,为了响应教育部停课不停学的号召,某学校开展了网络教学,高三(2)班班主任为了了解学生上网课时连线发言的情况,对某一天本班男、女生发言次数进行了统计,并绘制成频数分布折线图如图所示,则下列说法不正确的是( )
A.男生发言次数的中位数为4次
B.女生发言次数的中位数为5次
C.男生发言次数的平均数为4次
D.女生发言次数的平均数为5次
【答案】D
【解析】由题目中图形知,男女生总人数都是20人,按发言次数从小到大排列后,
第10个男生发言是4次,第11个男生发言也是4次,所以男生发言次数的中位数是4次;
同理得女生的发言次数的中位数是5次.
计算男生发言次数的平均数为=×(1×2+2×1+3×6+4×4+5×2+6×3+7×2)=4;
女生发言次数的平均数为=×(1×1+2×2+3×3+4×2+5×5+6×4+7×3)=4.6.
故选:D.
例12.(2026·安徽芜湖·二模)已知甲、乙两名同学在高三的六次模考中数学成绩统计如图,则下列说法错误的是( )
A.甲成绩的极差小于乙成绩的极差
B.第5次模考甲的数学成绩比乙高
C.若甲、乙两组数据的平均数分别为,,则
D.若甲、乙两组数据的方差分别为,,则
【答案】D
【解析】甲乙两名同学在本学期的六次考试成绩统计如图,
甲乙两组数据的平均值分别为,,
甲、乙两组数据的方差分别为,,
则由折线图得:
在中,甲成绩的极差小于乙成绩的极差, 故正确;
在中,第5次模考甲的数学成绩比乙高,故正确;
在中,,故正确;
在中,,故错误.
故选:D.
变式4.(多选题)(2026·高一·河北邢台·期末)五名同学各投掷骰子一次,分别记录每次投掷骰子的点数,根据下列统计结果,可以推断可能投掷出点数1的是( )
A.平均数为3,中位数为2 B.平均数为3,极差为4
C.平均数为4,方差为2 D.中位数为3,众数为4
【答案】ABD
【解析】对于A,当掷骰子出现的结果为1,1,2,5,6时,满足平均数为3,中位数为2,可出现点1,A是;
对于B,当掷骰子出现的结果为1,2,3,4,5时,满足平均数为3,极差为4,可出现点1,B是;
对于C,平均数为4,若出现点数1,则最多一个1,否则,
另四个数的和为19,则最多两个4,,
因此当平均数为4,方差为2时,一定不会出现点数1,C错误;
对于D,当郑骰子出现的结果为1,2,3,4,4时,满足中位数为3,众数为4,可出现点1,D是,
故选:ABD
变式5.(多选题)(2026·高一·河北·阶段检测)在一次射击决赛中,某位选手射击了一组子弹,得分分别为,,则( )
A.该组数据的极差为1.8
B.该组数据的众数为10.1
C.该组数据的分位数为9.9
D.若该组数据去掉一个数得到一组新数据,则这两组数据的平均数可能相等
【答案】ACD
【解析】对于A项,极差等于,故A正确;
对于B项,该组数据的众数为10.1和,故B错误;
对于C项,,故分位数为,故C正确;
对于D项,平均数等于,
去掉后,这两组数据的平均数相等,故D正确.
故选:ACD.
题型五:用样本估计总体的分布与数字特征
例13.(2026·高一·安徽阜阳·阶段检测)2026年5月25日至5月31日将是第四届全国城市生活垃圾分类宣传周,为提高同学们的垃圾分类意识.某中学举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛的成绩情况,从中随机抽取了100名学生的竞赛成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,按,分为5组,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)估计这100名学生这次竞赛成绩的中位数与平均数.
【解析】(1)由频率分布直方图可知,,解得.
(2)由(1)知.因此各组的频率分别为,
对应这100名学生各组的人数分别为10,20,25,35,10,
各组的组中值分别为55,65,75,85,95,
则,
所以估计这100名学生这次竞赛成绩的平均数为.
由可得中位数位于[70,80]中间,设为,
则,即中位数为78.
例14.(2026·高一·浙江嘉兴·阶段检测)在某高校举行的一次国际学术与文化交流会上,对外国留学生举行了“中华文化知多少”的知识竞赛.某数学兴趣小组从中随机抽取部分学生的成绩,整理后分成五段:,绘制了如下的频率分布直方图.
(1)求的值;
(2)根据频率分布表,估计该小组第百分位数以及平均成绩.
【解析】(1)由频率分布直方图,得,
所以.
(2)成绩在的频率分别为,
则该小组第百分位数,,解得,
所以该小组第百分位数为;
该小组平均成绩.
例15.(2026·高一·湖南长沙·阶段检测)为了调查假期期间数学网课学习情况,某校组织了高一年级学生进行了数学测试.根据测试成绩(总分100分),将所得数据按照,,,,,分成6组,其频率分布直方图如图所示.
(1)求图中的值;
(2)估计本次数学测试成绩的平均分和中位数.(每一组中的数据用该组区间的中点值作代表)
【解析】(1)由频率分布直方图可知每组频率依次为:,,,,,,
则,解得.
(2)由(1)可知每组频率依次为:,,,,,,
估计本次数学测试成绩的平均分为(分);
因为,所以估计本次数学测试成绩的中位数为分.
变式6.(2026·高一·四川内江·阶段检测)某校100名学生某次数学考试成绩(单位:分)的频率分布直方图如下:
(1)求频率分布直方图中a的值;
(2)估计这次考试的众数、平均数及中位数(中位数保留两位小数).
【解析】(1)由频率直方图可得,解得.
(2)由图可知,第三组的矩形最高,所以众数为;
平均数,
因为前2组的频率之和,
前3组的频率之和,
所以中位数位于区间内,则中位数为.
变式7.(2026·高一·河南·阶段检测)某环保小组对某市连续40天的PM2.5日均浓度(单位:)数据进行统计分析,将数据分成,,,,五组,得到如图所示的频率分布直方图.
(1)求图中a的值;
(2)求该市这40天中PM2.5日均浓度低于的天数;
(3)估计该市PM2.5日均浓度的平均数(各组数据以该组中间值作代表).
【解析】(1)由可得:,
故;
(2)低于的组为,,,
对应的频率和为:,
天数为:(天);
(3)各组中间值分别为:25,35,45,55,65,
.
题型六:分层抽样下的方差计算
例16.(2026·上海杨浦·一模)为了了解某校高三年级学生的体育成绩,随机选取名学生参加考核,将考核的成绩(满分分,成绩均为不低于分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)在考核成绩为,,的三组学生中,用分层抽样的方法抽取人,则考核成绩在中的学生应抽取多少人?
(3)若落在学生的平均成绩是,方差是,落在学生的平均成绩为,方差是,求这两组学生成绩的平均数和方差.(结果精确到)
【解析】(1)由频率分布直方图可得,
解得.
(2)由频率分布直方图知,样本考核成绩在,,的三组学生有(人),
其中样本考核成绩在的市民人数为,
用分层抽样的方法应从考核成绩在的市民中抽取(人).
(3)由频率分布直方图知,成绩在的学生人数为,
成绩在的市民人数为,
所以总平均数,
总方差.
例17.某校高二共有5000名学生,其中男生2600人,女生2400人.为分析某次数学成绩(总分150分),应用等可能的抽样方法随抽取100名学生,计算得到男生的平均分为108分,方差为6;女生的平均分为83分,方差为9.
(1)若已知男、女样本量按比例分配,求所抽取的样本总平均分和总方差;
(2)若男、女样本量分别为,,所抽取的样本总平均分为分,总方差为,求,.
【解析】(1)由已知,按分层抽样,抽取男生:(人),女生:(人),
故该样本的总平均分为:(分),
总方差为:.
(2)由已知,,
解这个方程组,得.
例18.(2026·高二·湖北·期中)某校艺术团共有人,男生与女生的比例是.为了解艺术团全体学生的身高,按性别比例进行分层随机抽样,抽取样本量为的样本,并观测样本身高数据(单位:).已知男生样本的身高平均数为,标准差为.下表是抽取的女生样本的数据:
抽取次序
身高
记抽取的第个女生的身高为,样本平均数,标准差.
(1)用女生样本的身高频率分布情况估计艺术团女生总体的身高频率分布情况,试估计艺术团女生总体身高在范围内的人数;
(2)用总样本的平均数和方差估计艺术团总体身高的平均数和方差,求的值;
(3)若女生样本数据在之外的数据称为偏离值,剔除偏离值后,计算剩余女生样本身高的平均数与方差.(其中,样本平均数,标准差.)【参考数据:,,.】
【解析】(1)在女生样本中,身高在的频率,
艺术团女生总体身高在范围内的人数估计为人.
(2)由题意知:男生样本的身高平均数为,方差为,
女生样本的身高平均数为,方差,
则总样本的平均数为,
方差为,
,.
(3)由题意知:,
由样本数据可知:,为偏离值,
剔除后,女生样本的身高平均数为,
由得:,
则剔除后,女生样本的身高的方差为.
变式8.(2026·高二·湖北·阶段检测)在对某高中1500名高二年级学生的百米成绩的调查中,采用按学生性别比例分配的分层随机抽样抽取100人,已知这1500名高二年级学生中男生有900人,且抽取的样本中男生成绩的平均数和方差分别为13.2秒和13.36,女生成绩的平均数和方差分别为15.2秒和17.56.
(1)求抽取的总样本的平均数;
(2)试估计高二年级全体学生的百米成绩的方差.
【解析】(1)样本中男生的人数为:;女生的人数为:.
所以总样本的平均数为:.
(2)记总样本的方差为,
则.
所以,估计高二年级全体学生的百米成绩的方差为16.
变式9.某快餐店统计了近100天内每日接待的顾客人数,将前50天的数据进行整理得到频率分布表和频率分布直方图.
组别
分组
频数
频率
第1组
[20,30)
4
0.08
第2组
[30,40)
a
第3组
[40,50)
20
b
第4组
[50,60)
0.32
第5组
[60,70)
4
0.08
合计
50
1.00
(1)求a,b,c的值,并估计该快餐店在前50天内每日接待的顾客人数的平均数;
(2)已知该快餐店在前50天内每日接待的顾客人数的方差为104,在后50天内每日接待的顾客人数的平均数为51,方差为100,估计这家快餐店这100天内每日接待的顾客人数的平均数和方差.
【解析】(1)由表可知第4组的频数为,所以,,
第2组的频率为,
,
前50天内每日接待的顾客人数的平均数为.
(2)设前50天接待的顾客人数分别为,,…,,
后50天接待的顾客人数分别为,,…,,
则由(1)知,前50天内每日接待的顾客人数的平均数,
方差,
后50天内每日接待的顾客人数的平均数,方差,
故这100天内每日接待的顾客人数的平均数为,
方差为
题型七:平均数与方差的运算性质
例19.(2026·高一·河北保定·阶段检测)已知样本数据,,,,的平均数为4,方差为2,则样本数据,,,,的平均数和方差分别为________和________.
【答案】 10 18
【解析】由题意知,
.
所以
.
.
例20.(2026·江西九江·一模)已知成对样本数据中互不相等,且所有样本点都在曲线上.若的平均值与方差均为5,则的平均值为__________.(其中)
【答案】
【解析】因为的平均值为5,即,所以,
因为的方差为5,即,解得.
因为所有样本点都在曲线上,
所以,
所以,
所以的平均值为,
故答案为:.
例21.(2026·高一·辽宁沈阳·阶段检测)若样本数据的标准差为6,则数据的方差为______
【答案】144
【解析】由样本数据的标准差为6,即方差为36,
则数据的方差为.
故答案为:144
变式10.(2026·高二·浙江·期中)已知数据的平均数为4,方差为2,则数据的平均数与方差的和为_____.
【答案】19
【解析】因为数据的平均数为4,方差为2,
所以的平均数为,方差为,
所以平均数与方差的和为19.
故答案为:19.
变式11.(2026·高一·贵州遵义·阶段检测)若一组数据的,,,的平均数为4,则,,,的平均数为________.
【答案】
【解析】设一组数据的,,,的平均数为,则,
则,,,的平均数为.
变式12.(2026·高三·山东济南·开学考试)若一组样本数据的平均数为8,则数据,的平均数为___________.
【答案】14
【解析】由于样本数据的平均数为8,故,
的平均数为,
则,
故数据,的平均数为,
故答案为:14
1.(2026·高一·贵州黔南·期末)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,,50,从中抽取6个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第1行第6列开始向右依次读取数据,则得到的第6个样本编号是( )
A.57 B.50 C.40 D.10
【答案】B
【解析】从随机数表第1行的第6列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,
符合条件的编号有03,46,40,11,10,50,所以选出来的第6个个体的编号为50.
故选:B.
2.(2026·高一·新疆乌鲁木齐·期末)某班有56名学生,从中选出5名同学.把56名同学进行编号,分别为.现利用随机数表(以下摘取了随机数表中第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第7列和第8列数字开始由左向右依次选取两个数字(作为个体的编号),如果选取的两个数字不在总体内,则将它去掉,继续向右选取两个数字,则选出来的第4个个体的编号为( )
32
45
66
67
14
64
05
71
95
86
11
05
65
09
68
76
83
20
37
90
57
16
00
11
66
14
90
84
45
11
75
73
88
05
90
52
27
41
14
86
A.09 B.20 C.37 D.05
【答案】A
【解析】从随机数表第1行的第7列和第8列数字是67无效,后面依次为14,05,11,09,
所以第4个为09.
故选:A.
3.(2026·高一·甘肃兰州·阶段检测)某高校对中文系新生进行体测,利用随机数表对400名学生进行抽样,先将400名学生进行编号,001,002,……,399,400.从中抽取40个样本,如图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第4个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77
A.328 B.253 C.007 D.860
【答案】A
【解析】从表中第5行第6列开始向右读取数据为:253,313,457(舍),860(舍),736(舍),253(舍),007,328,所以第四个数为328.
故选:A.
4.从某地区15000位老人中按性别分层抽取一个容量为500的样本,调查其生活能否自理的情况如下表所示.
猜测该地区生活不能自理的老人中男性比女性多的人数约为( )
A.60 B.100 C.1500 D.2000
【答案】A
【解析】根据给出的数据,500人中,不能自理的老人中男性比女性多的人数为人,
所以猜测该地区生活不能自理的老人中男性比女性多的人数约为.
故选:A
5.(2026·高二·云南·期末)某学校为了解学生参加跑步运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取70名学生,已知该校初中部和高中部分别有900名和1200名学生,则高中部应抽取的人数为( )
A.20 B.30 C.40 D.50
【答案】C
【解析】根据分层抽样的定义知,高中部共抽取人,
故选:C.
6.(2026·高二·广东汕尾·期末)汕尾4个国家级名录特色农产品(城区东涌镇宝楼村红灯笼荔枝、华侨管理区红杨桃、陆河县河口镇油柑、陆丰市桥冲镇及内湖镇莲藕)种植户众多.现有荔枝户40户、杨桃户50户、油柑户60户、莲藕户50户.用分层抽样抽取容量为20的样本,应抽取油柑户( )
A.2户 B.4户 C.6户 D.15户
【答案】C
【解析】总体户数(户),
抽样比 ,
应抽取油柑户数量 = (户).
故选:C.
7.(多选题)(2026·高一·福建漳州·期末)四名同学各掷骰子7次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断可能出现了点数6的是( ).
A.平均数为3,中位数为4 B.平均数为3,方差为1
C.平均数为4,极差为4 D.平均数为2,第80百分位数为4
【答案】AC
【解析】对于A,假设这7个数据从小到大排列为,
若平均数为3,中位数为4,则,
即,
若,可以取满足条件,
所以A选项可能出现了点数6;
对于B,若平均数为,方差为,,
则由方差公式可知,,
若,则,即若出现点数6,方差会大于1,
所以B选项不可能出现了点数6;
对于C,设最大值为,最小值为,
若极差为4,则有,
若平均数为4,则有,,
若,则,7次的点数可以取,
满足平均数为4,极差为4的条件,所以C选项可能出现了点数6;
对于D,因为,所以第80百分位数是第6个数,
若平均数为2,则,若第6个数是4,第7个数是6,
那么前5个数的点数和为4,而骰子的点数最小为1,
所以D选项不可能出现了点数6.
故选:AC
8.(多选题)(2026·全国·模拟预测)已知一组样本数据为1,1,4,5,1,4,现往这组数据中加入一个新数据,则新数据与原数据相比,可能( )
A.方差变小 B.众数变多 C.极差变小 D.第80百分位数变大
【答案】ABD
【解析】选项A:若加入的新数据为原数据的平均数,则新数据的方差变小,故A正确.
选项B:原数据的众数为1,若加入新数据,则众数变为了1与4,众数变多,故B正确.
选项C:极差为最大值与最小值之差,显然极差只可能不变或增大,不可能变小,故C错误.
选项D:将原数据按从小到大的顺序排列,为1,1,1,4,4,5,而,
故原数据的第百分位数为4.
当新数据时,第百分位数为从小到大排列的第个数,也将大于,故D正确.
故选:ABD
9.(多选题)(2026·高一·湖北武汉·期末)四名同学各掷骰子7次,分别记录每次骰子出现的点数,根据四名同学的统计结果,判断可能出现了点数6的是( )
A.中位数为3,极差为3 B.平均数为2,第百分位数为4
C.平均数为3,中位数为4 D.平均数为3,方差为1
【答案】AC
【解析】对于A,易得满足题意;
对于B,因为第百分位数为4,若有点数6,
则,故平均数不可能为2,故B错误;
对于C,易得满足题意;
对于D,若出现点数6,则,不符合题意,
故选:AC.
10.(2026·高一·吉林四平·期末)若一组数据的平均数为4,方差为3,那么数据的平均数和方差分别是___________.
【答案】10,12
【解析】若一组数据的平均数为4,方差为3,
则数据的平均数和方差分别是.
故答案为:.
11.(2026·高二·陕西榆林·期中)小刘从事陕北红枣批发多年,有很多客户,小刘把去年采购陕北红枣的数量x(单位:箱)在的客户称为“大客户”,并把他们去年采购的数量制成下表:
采购数
客户数
20
20
10
40
10
已知去年“大客户”们采购的陕北红枣数量占小刘去年总销售量的.
(1)根据表中的数据完善频率分布直方图,并估计采购数在150箱以下(含150箱)的“大客户”数;
(2)估算小刘去年总的销售量(同一组中的数据用该组区间的中点值为代表).
【解析】(1)作出频率分布直方图如图所示.
根据上图,可知采购量在150箱以下(含150箱)的“大客户”人数估计是
(人).
(2)去年“大客户”所采购的陕北红枣总数大约为(箱),
所以小刘去年总的销售量为(箱).
12.(2026·高二·四川南充·期末)我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了促使居民节约用水,决定在该市实行阶梯水价,为合理确定出阶梯水价的用水量标准,从该市随机调查了100户居民,获取了他们去年的月人均用水量(单位:吨),并列出了月人均用水量的频数分布表().
月人均用水量
频数
4
6
14
18
16
8
7
3
(1)求出的值,并补全频率分布直方图;
(2)市政府举行听证会后,决定实施阶梯水价:家庭人均月用水量不超过吨的部分,水价为3元/吨;超过吨但不超过3.5吨的部分,水价为5元/吨;超过3.5吨的部分,水价为8元/吨.结合听证会上市政府的决定,为确保超过60%但不超过70%的居民只用3元/吨的水费,求的标准值(取0.5的整数倍).
(3)按照(2)中的方案,请你写出常住人口为的家庭月用水量为吨时,应缴水费的表达式.
【解析】(1)由题意可知,
用水量在的频率为0.18;用水量在的频率为0.24;用水量在的频率为0.16.
故补全频率分布直方图如下:
(2)由频数分布表易知:
前4组频率之和为;
前5组频率之和为;
前6组频率之和为;
所以为确保超过60%但不超过70%的居民只用3元/吨的水,
需 解得:,即,
又∵为0.5的整数倍,
∴;
(3)常住人口为的家庭月用水量为吨时,其家庭人均月用水量为,
所以当时,;
当时,;
当时,;
总数所述:.
13.(2026·高一·江西鹰潭·阶段检测)某高校在2021年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下表示.
组号
分组
频数
频率
第1组
5
第2组
第3组
第4组
20
第5组
10
合计
100
(1)求频率分布表中的值,并补充完整相应的频率分布直方图;
(2)为了能选拔出最优秀的学生,高校决定在笔试成绩高的第组中用分层抽样的方法抽取6名学生进入第二轮面试,则第组每组各抽取多少名学生进入第二轮面试?
【解析】(1)由已知,
,,
则,
补充频率分布直方图如下图所示:
(2)由已知,在笔试成绩高的第组的人数之比为,现用分层抽样的方法选6名学生,
故第组每组各抽学生人数为3、2、1.
14.(2026·高一·甘肃兰州·期中)某校100名学生某次数学考试成绩(单位:分)的频率分布直方图如下:
(1)求频率分布直方图中a的值;
(2)分别求出成绩落在与中的学生人数;
(3)估计这次考试的众数、平均数及78分以上的人数.
【解析】(1)由题意得,解得.
(2)设为成绩落在上的概率,为成绩落在的人数,
由题意得,
设为成绩落在上的概率,为成绩落在的人数,
.
(3)由题意得众数为75分;
由(1)得成绩落在的频率为0.1,落在的频率为0.15,
落在的频率为0.35,落在的频率为0.3,落在的频率为0.1,
则平均数为,
设为78分以上的频率,为78分以上的人数,
则
,
故78分以上的人数为47人.
15.(2026·高一·新疆·阶段检测)2026年5月25日至5月31日将是第四届全国城市生活垃圾分类宣传周,为提高同学们的垃圾分类意识.某中学举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛的成绩情况,从中随机抽取了100名学生的竞赛成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,按,,,,分为5组,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)在这100名学生中,从这次竞赛成绩在内的学生中采用分层随机抽样的方法抽取27名学生进行调查,求这100名学生这次竞赛成绩在内被抽取的人数.
(3)估计这100名学生这次竞赛成绩的中位数与平均数;
【解析】(1)由频率分布直方图可知,各组的组距都是,
各组对应的小长方形面积之和等于总频率1,所以,
化简得,即,即,即,
所以图中.
(2)由(1)知,
因此各组的频率分别为,
,
对应这名学生各组的人数分别为,
成绩在内的人数为,
成绩在内的人数为,
所以成绩在内的总人数为,
现从这45人中采用分层随机抽样的方法抽取27人,
则成绩在内被抽取的人数为,
所以这名学生这次竞赛成绩在内被抽取的人数为6.
(3)由(2)知,各组的人数分别为,
各组的组中值分别为,
则,
所以估计这名学生这次竞赛成绩的平均数为分.
由可得中位数位于中间,设为,
则.
16.2023年10月22日,2023襄阳马拉松成功举行,志愿者的服务工作是马拉松成功举办的重要保障,某单位承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)估计这100名候选者面试成绩的平均数.
(2)现从以上各组中用分层抽样的方法选取20人,担任本次宣传者.若本次宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和70,据此估计这次第二组和第四组所有面试者的方差.
【解析】(1)由题意可知,
解得
可知每组的频率依次为,,
所以这100名候选者面试成绩的平均数为:
.
(2)设第二组、第四组的平均数分别为,方差分别为,
且各组频率之比为:
,
所以用分层抽样的方法抽取第二组面试者人,
第四组面试者人,
则第二组和第四组面试者的面试成绩的平均数,
第二组、第四组面试者的面试成绩的方差
故估计第二组、第四组面试者的面试成绩的方差是.
17.(2026·高三·云南·阶段检测)已知总体分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,.记总样本的平均数为,样本方差为.
(1)试证明:;
(2)在对某高中1500名高三年级学生的身高的调查中,采用按学生性别比例分配的分层随机抽样抽取100人,已知这1500名高三年级学生中男生有900人,且抽取的样本中男生的平均数和方差分别为170cm和12,女生的平均数和方差分别为160cm和38.试用(1)证明的公式估计高三年级全体学生身高的方差.
【解析】(1)证明:已知总体分为2层,通过分层随机抽样,
各层抽取的样本量、样本平均数和样本方差分别为:,,;,,.
记总样本的平均数为,样本方差为,
,
由,得,
所以
.
(2)设在男生、女生中分别抽取m名和n名,
则,解得,,
记抽取的总样本的平均数为,
根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,
可得:,
所以,抽取的总样本的平均数为166cm;
男生样本的平均数为,样本方差为;女生样本的平均数为,
样本方差为,记总样本的样本方差为,
则,
所以,估计高三年级全体学生的身高的方差为46.4.
2 / 2
学科网(北京)股份有限公司
$
第13讲 数字特征与样本估计总体综合应用
目录
01 题型归纳目录 2
02 知识点梳理 3
知识点1:统计的有关概念 3
03 重难点题型 8
题型一:随机数表法抽样 8
题型二:分层随机抽样 8
题型三:频率分布直方图的绘制与解读 9
题型四:数据的平均数、方差、众数、中位数与百分位数计算 12
题型五:用样本估计总体的分布与数字特征 13
题型六:分层抽样下的方差计算 16
题型七:平均数与方差的运算性质 18
04 过关检测 20
知识点1:统计的有关概念
1、统计的相关概念
(1)普查
像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查.
(2)总体、个体
在一个调查中,我们把调查对象的全体称为总体.组成总体的每一个调查对象称为个体.为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体.
(3)抽样调查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查.
(4)样本、样本量
我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.
2、简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样.
3、简单随机抽样的方法
(1)抽签法:
把总体中的N个个体编号,把编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需的个数.
(2)随机数法:
用随机数工具产生编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需的个数.
①用随机试验生成随机数;
②用信息技术生成随机数;
③用计算器生成随机数;
④用电子表格软件生成随机数;
⑤用R统计软件生成随机数.
4、总体均值
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式
5、样本均值
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 为样本均值,又称样本平均数.
探究:总体均值与样本均值有何区别与联系?
答案:(1)区别:当总体中个体较多时,总体均值不易计算,样本均值比较方便计算.总体均值是一个确定的数,样本均值具有随机性.
(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.
6、分层抽样定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样.
7、分层抽样适用范围
当总体是由差异明显的几个部分组成时,往往采用分层抽样.
8、分层抽样的步骤
(1)根据已掌握的信息,将总体分成若干部分.
(2)根据总体中的个体数N和样本容量n计算出抽样比k=.
(3)根据抽样比k计算出各层中应抽取的个体数:·Ni (其中Ni为第i层所包含的个体总数).
(4)按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.
9、两种抽样方法的区别和联系
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中各个个体被抽到的机会相等,且都是不放回抽取
从总体中逐个抽取
最基本的抽样方法
总体容量较少
分层抽样
抽样过程中各个个体被抽到的机会相等,且都是不放回抽取
将总体分成几部分,每一部分按比例抽取
每层抽样时采用简单随机抽样
总体由差异明显的若干部分组成
10、获取数据的途径
统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.
(1)通过调查获取数据
适用范围:对于有限总体问题,一般通过抽样调查或普查的方法获取数据.
注意事项:充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.
(2)通过试验获取数据.
适用范围:没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.
注意事项:严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.
(3)通过观察获取数据.
适用范围:自然现象.
注意事项:需要专业测量设备获取观测数据.
(4)通过查询获得数据.
适用范围:二手数据.
注意事项:数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真.
11、频率分布直方图绘制步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第i组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
12、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.
13、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.
14、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
15、常见的其他统计图:条形图、扇形图、折线图.
扇形图主要用于直观描述各类数据占总数的比例;
条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
折线图主要用于描述数据随时间的变化趋势.
16、各个统计图特点
(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.
(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.
17、第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
18、计算第百分位数的步骤
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.
19、四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
20、众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:如果个数,那么叫做这个数的平均数.
21、频率分布直方图中的众数、中位数、平均数
①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
12、方差、标准差的定义
一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.
23、总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.
24、样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.
25、方差、标准差特征
标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
题型一:随机数表法抽样
例1.(2026·高一·安徽阜阳·阶段检测)某校对高一新生进行了数学摸底测试,现利用随机数表从中抽取60名学生进行成绩分析,先将全体900名学生编号为001,002,003,…,900,从中抽取60个样本,并提供了随机数表的第1行到第2行,如下所示.若从该随机数表中第1行第4列开始向右读取数据,则得到的第5个样本的编号为( )
95226000 49840128 66175168 39682927 43772366 27096623
92580956 43890890 06482834 59741458 29778149 64608925
A.175 B.866 C.751 D.615
例2.(2026·高二·广东中山·阶段检测)总体由编号为00,01,…,59的60个个体组成.利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第6个数字开始由左到右依次选取两个数字,则选出来的第3个个体的编号为( )
5044664421 6606580562 6165543502 4235489632
1452415248 2266221586 2663754199 5842367224
A.42 B.16 C.56 D.06
例3.某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,分别为001,002,…,599,600,再从中抽取60个样本.随机数表的第5行到第7行如下.
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
若从第6行第6列开始向右每次读取3个数字,则得到的第8个样本的编号为( )
A.324 B.345 C.577 D.578
变式1.(2026·高一·福建福州·期末)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…500,假设从第1行第4列的数字开始,则第5个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.447 D.672
题型二:分层随机抽样
例4.(2026·高一·福建漳州·阶段检测)某校有学生2000人,其中高三学生500人.为了解学生身体情况,采用按年级分层抽样的方法,从该校学生中抽取一个200人的样本,则样本中高三学生的人数为( )
A.100 B.60 C.50 D.40
例5.(2026·高一·安徽阜阳·阶段检测)某校有老师200人,男学生1200人,女学生1000人,现用比例分配的分层随机抽样的方法从所有师生中抽取一个容量为的样本.已知从女生中抽取80人,则等于( )
A.80 B.100 C.192 D.200
例6.(2026·高一·山西忻州·阶段检测)为了解某校学生每天课外运动时长,按年级采用比例分配的分层随机抽样的方法从高一、高二、高三中共抽取130名学生进行调查,已知该校高一有1500名学生,高二有1200名学生,高三有1200名学生,则高一、高二共抽取( )
A.40名学生 B.50名学生 C.80名学生 D.90名学生
变式2.(2026·高一·安徽阜阳·阶段检测)某学校高一年级共有1 500名学生,从中随机抽取300名学生以了解学生对四大名著的阅读情况,其中只阅读两本名著的有135人,至少阅读三本名著的有96人,请估计该校高一全体1 500名学生中,至多阅读一本名著的人数约为( )
A.350 B.345 C.450 D.485
题型三:频率分布直方图的绘制与解读
例7.(2026·高一·四川成都·开学考试)随着车辆的增加,交通违规的现象越来越严重,交警对某雷达测速区检测到的一组汽车的时速数据进行整理,得到其频数及频率如表(未完成):
数据段
频数
频率
30~40
10
0.05
40~50
36
50~60
0.39
60~70
70~80
20
0.10
总计
200
1
注:30~40为时速大于等于30千米而小于40千米,其他类同
(1)请你把表中的数据填写完整;
(2)补全频数分布直方图;
(3)如果汽车时速不低于60千米即为违章,则违章车辆共有多少辆?
例8.(2026·高二·江苏淮安·阶段检测)有900名学生参加“环保知识竞赛”,为考察竞赛成绩情况,从中抽取部分学生的成绩(得分均整数,满分为100分)进行统计,请你根据尚未完成并有局部污损的频率分面表和频率分布直方图(如图)解释下列问题.
分组
频数
频率
4
0.08
0.16
10
16
0.32
合计
50
(1)填满频率分布表;
(2)补全频率分布直方图;
(3)若成绩在的学生可以获得二等奖,求获得二等奖的学生人数.
例9.(2026·高一·陕西西安·阶段检测)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:
组号
分组
频数
频率
第1组
0.100
第2组
①______
第3组
20
②______
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
(1)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).
(2)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,则第3,4,5组每组各抽取多少名选手进入第二轮面试?
变式3.(2026·高一·河北衡水·期末)杭州市某高中从学生中招收志愿者参加迎亚运专题活动,现已有高一540人、高二360人,高三180人报名参加志愿活动.根据活动安排,拟采用分层抽样的方法,从已报名的志愿者中抽取120名.对抽出的120名同学某天参加运动的时间进行了统计,运动时间均在39.5至99.5分钟之间,其频率分布直方图如下:
(1)需从高一、高二、高三报名的学生中各抽取多少人;
(2)请补全频率分布直方图.
题型四:数据的平均数、方差、众数、中位数与百分位数计算
例10.样本数为9的四组数据,它们的平均数都是5,条形图如图所示,则标准差最大的一组是( )
A.第一组 B.第二组 C.第三组 D.第四组
例11.(2026·高一·全国·单元测试)2020年初全国人民为支持国家抗疫,全民在家,为了响应教育部停课不停学的号召,某学校开展了网络教学,高三(2)班班主任为了了解学生上网课时连线发言的情况,对某一天本班男、女生发言次数进行了统计,并绘制成频数分布折线图如图所示,则下列说法不正确的是( )
A.男生发言次数的中位数为4次
B.女生发言次数的中位数为5次
C.男生发言次数的平均数为4次
D.女生发言次数的平均数为5次
例12.(2026·安徽芜湖·二模)已知甲、乙两名同学在高三的六次模考中数学成绩统计如图,则下列说法错误的是( )
A.甲成绩的极差小于乙成绩的极差
B.第5次模考甲的数学成绩比乙高
C.若甲、乙两组数据的平均数分别为,,则
D.若甲、乙两组数据的方差分别为,,则
甲、乙两组数据的方差分别为,,
则由折线图得:
在中,甲成绩的极差小于乙成绩的极差, 故正确;
在中,第5次模考甲的数学成绩比乙高,故正确;
在中,,故正确;
在中,,故错误.
故选:D.
变式4.(多选题)(2026·高一·河北邢台·期末)五名同学各投掷骰子一次,分别记录每次投掷骰子的点数,根据下列统计结果,可以推断可能投掷出点数1的是( )
A.平均数为3,中位数为2 B.平均数为3,极差为4
C.平均数为4,方差为2 D.中位数为3,众数为4
变式5.(多选题)(2026·高一·河北·阶段检测)在一次射击决赛中,某位选手射击了一组子弹,得分分别为,,则( )
A.该组数据的极差为1.8
B.该组数据的众数为10.1
C.该组数据的分位数为9.9
D.若该组数据去掉一个数得到一组新数据,则这两组数据的平均数可能相等
题型五:用样本估计总体的分布与数字特征
例13.(2026·高一·安徽阜阳·阶段检测)2026年5月25日至5月31日将是第四届全国城市生活垃圾分类宣传周,为提高同学们的垃圾分类意识.某中学举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛的成绩情况,从中随机抽取了100名学生的竞赛成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,按,分为5组,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)估计这100名学生这次竞赛成绩的中位数与平均数.
例14.(2026·高一·浙江嘉兴·阶段检测)在某高校举行的一次国际学术与文化交流会上,对外国留学生举行了“中华文化知多少”的知识竞赛.某数学兴趣小组从中随机抽取部分学生的成绩,整理后分成五段:,绘制了如下的频率分布直方图.
(1)求的值;
(2)根据频率分布表,估计该小组第百分位数以及平均成绩.
例15.(2026·高一·湖南长沙·阶段检测)为了调查假期期间数学网课学习情况,某校组织了高一年级学生进行了数学测试.根据测试成绩(总分100分),将所得数据按照,,,,,分成6组,其频率分布直方图如图所示.
(1)求图中的值;
(2)估计本次数学测试成绩的平均分和中位数.(每一组中的数据用该组区间的中点值作代表)
变式6.(2026·高一·四川内江·阶段检测)某校100名学生某次数学考试成绩(单位:分)的频率分布直方图如下:
(1)求频率分布直方图中a的值;
(2)估计这次考试的众数、平均数及中位数(中位数保留两位小数).
变式7.(2026·高一·河南·阶段检测)某环保小组对某市连续40天的PM2.5日均浓度(单位:)数据进行统计分析,将数据分成,,,,五组,得到如图所示的频率分布直方图.
(1)求图中a的值;
(2)求该市这40天中PM2.5日均浓度低于的天数;
(3)估计该市PM2.5日均浓度的平均数(各组数据以该组中间值作代表).
题型六:分层抽样下的方差计算
例16.(2026·上海杨浦·一模)为了了解某校高三年级学生的体育成绩,随机选取名学生参加考核,将考核的成绩(满分分,成绩均为不低于分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)在考核成绩为,,的三组学生中,用分层抽样的方法抽取人,则考核成绩在中的学生应抽取多少人?
(3)若落在学生的平均成绩是,方差是,落在学生的平均成绩为,方差是,求这两组学生成绩的平均数和方差.(结果精确到)
例17.某校高二共有5000名学生,其中男生2600人,女生2400人.为分析某次数学成绩(总分150分),应用等可能的抽样方法随抽取100名学生,计算得到男生的平均分为108分,方差为6;女生的平均分为83分,方差为9.
(1)若已知男、女样本量按比例分配,求所抽取的样本总平均分和总方差;
(2)若男、女样本量分别为,,所抽取的样本总平均分为分,总方差为,求,.
例18.(2026·高二·湖北·期中)某校艺术团共有人,男生与女生的比例是.为了解艺术团全体学生的身高,按性别比例进行分层随机抽样,抽取样本量为的样本,并观测样本身高数据(单位:).已知男生样本的身高平均数为,标准差为.下表是抽取的女生样本的数据:
抽取次序
身高
记抽取的第个女生的身高为,样本平均数,标准差.
(1)用女生样本的身高频率分布情况估计艺术团女生总体的身高频率分布情况,试估计艺术团女生总体身高在范围内的人数;
(2)用总样本的平均数和方差估计艺术团总体身高的平均数和方差,求的值;
(3)若女生样本数据在之外的数据称为偏离值,剔除偏离值后,计算剩余女生样本身高的平均数与方差.(其中,样本平均数,标准差.)【参考数据:,,.】
变式8.(2026·高二·湖北·阶段检测)在对某高中1500名高二年级学生的百米成绩的调查中,采用按学生性别比例分配的分层随机抽样抽取100人,已知这1500名高二年级学生中男生有900人,且抽取的样本中男生成绩的平均数和方差分别为13.2秒和13.36,女生成绩的平均数和方差分别为15.2秒和17.56.
(1)求抽取的总样本的平均数;
(2)试估计高二年级全体学生的百米成绩的方差.
变式9.某快餐店统计了近100天内每日接待的顾客人数,将前50天的数据进行整理得到频率分布表和频率分布直方图.
组别
分组
频数
频率
第1组
[20,30)
4
0.08
第2组
[30,40)
a
第3组
[40,50)
20
b
第4组
[50,60)
0.32
第5组
[60,70)
4
0.08
合计
50
1.00
(1)求a,b,c的值,并估计该快餐店在前50天内每日接待的顾客人数的平均数;
(2)已知该快餐店在前50天内每日接待的顾客人数的方差为104,在后50天内每日接待的顾客人数的平均数为51,方差为100,估计这家快餐店这100天内每日接待的顾客人数的平均数和方差.
题型七:平均数与方差的运算性质
例19.(2026·高一·河北保定·阶段检测)已知样本数据,,,,的平均数为4,方差为2,则样本数据,,,,的平均数和方差分别为________和________.
例20.(2026·江西九江·一模)已知成对样本数据中互不相等,且所有样本点都在曲线上.若的平均值与方差均为5,则的平均值为__________.(其中)
例21.(2026·高一·辽宁沈阳·阶段检测)若样本数据的标准差为6,则数据的方差为______
变式10.(2026·高二·浙江·期中)已知数据的平均数为4,方差为2,则数据的平均数与方差的和为_____.
变式11.(2026·高一·贵州遵义·阶段检测)若一组数据的,,,的平均数为4,则,,,的平均数为________.
变式12.(2026·高三·山东济南·开学考试)若一组样本数据的平均数为8,则数据,的平均数为___________.
1.(2026·高一·贵州黔南·期末)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,,50,从中抽取6个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第1行第6列开始向右依次读取数据,则得到的第6个样本编号是( )
A.57 B.50 C.40 D.10
2.(2026·高一·新疆乌鲁木齐·期末)某班有56名学生,从中选出5名同学.把56名同学进行编号,分别为.现利用随机数表(以下摘取了随机数表中第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第7列和第8列数字开始由左向右依次选取两个数字(作为个体的编号),如果选取的两个数字不在总体内,则将它去掉,继续向右选取两个数字,则选出来的第4个个体的编号为( )
32
45
66
67
14
64
05
71
95
86
11
05
65
09
68
76
83
20
37
90
57
16
00
11
66
14
90
84
45
11
75
73
88
05
90
52
27
41
14
86
A.09 B.20 C.37 D.05
3.(2026·高一·甘肃兰州·阶段检测)某高校对中文系新生进行体测,利用随机数表对400名学生进行抽样,先将400名学生进行编号,001,002,……,399,400.从中抽取40个样本,如图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第4个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77
A.328 B.253 C.007 D.860
4.从某地区15000位老人中按性别分层抽取一个容量为500的样本,调查其生活能否自理的情况如下表所示.
猜测该地区生活不能自理的老人中男性比女性多的人数约为( )
A.60 B.100 C.1500 D.2000
5.(2026·高二·云南·期末)某学校为了解学生参加跑步运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取70名学生,已知该校初中部和高中部分别有900名和1200名学生,则高中部应抽取的人数为( )
A.20 B.30 C.40 D.50
6.(2026·高二·广东汕尾·期末)汕尾4个国家级名录特色农产品(城区东涌镇宝楼村红灯笼荔枝、华侨管理区红杨桃、陆河县河口镇油柑、陆丰市桥冲镇及内湖镇莲藕)种植户众多.现有荔枝户40户、杨桃户50户、油柑户60户、莲藕户50户.用分层抽样抽取容量为20的样本,应抽取油柑户( )
A.2户 B.4户 C.6户 D.15户
7.(多选题)(2026·高一·福建漳州·期末)四名同学各掷骰子7次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断可能出现了点数6的是( ).
A.平均数为3,中位数为4 B.平均数为3,方差为1
C.平均数为4,极差为4 D.平均数为2,第80百分位数为4
8.(多选题)(2026·全国·模拟预测)已知一组样本数据为1,1,4,5,1,4,现往这组数据中加入一个新数据,则新数据与原数据相比,可能( )
A.方差变小 B.众数变多 C.极差变小 D.第80百分位数变大
9.(多选题)(2026·高一·湖北武汉·期末)四名同学各掷骰子7次,分别记录每次骰子出现的点数,根据四名同学的统计结果,判断可能出现了点数6的是( )
A.中位数为3,极差为3 B.平均数为2,第百分位数为4
C.平均数为3,中位数为4 D.平均数为3,方差为1
10.(2026·高一·吉林四平·期末)若一组数据的平均数为4,方差为3,那么数据的平均数和方差分别是___________.
11.(2026·高二·陕西榆林·期中)小刘从事陕北红枣批发多年,有很多客户,小刘把去年采购陕北红枣的数量x(单位:箱)在的客户称为“大客户”,并把他们去年采购的数量制成下表:
采购数
客户数
20
20
10
40
10
已知去年“大客户”们采购的陕北红枣数量占小刘去年总销售量的.
(1)根据表中的数据完善频率分布直方图,并估计采购数在150箱以下(含150箱)的“大客户”数;
(2)估算小刘去年总的销售量(同一组中的数据用该组区间的中点值为代表).
12.(2026·高二·四川南充·期末)我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了促使居民节约用水,决定在该市实行阶梯水价,为合理确定出阶梯水价的用水量标准,从该市随机调查了100户居民,获取了他们去年的月人均用水量(单位:吨),并列出了月人均用水量的频数分布表().
月人均用水量
频数
4
6
14
18
16
8
7
3
(1)求出的值,并补全频率分布直方图;
(2)市政府举行听证会后,决定实施阶梯水价:家庭人均月用水量不超过吨的部分,水价为3元/吨;超过吨但不超过3.5吨的部分,水价为5元/吨;超过3.5吨的部分,水价为8元/吨.结合听证会上市政府的决定,为确保超过60%但不超过70%的居民只用3元/吨的水费,求的标准值(取0.5的整数倍).
(3)按照(2)中的方案,请你写出常住人口为的家庭月用水量为吨时,应缴水费的表达式.
13.(2026·高一·江西鹰潭·阶段检测)某高校在2021年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下表示.
组号
分组
频数
频率
第1组
5
第2组
第3组
第4组
20
第5组
10
合计
100
(1)求频率分布表中的值,并补充完整相应的频率分布直方图;
(2)为了能选拔出最优秀的学生,高校决定在笔试成绩高的第组中用分层抽样的方法抽取6名学生进入第二轮面试,则第组每组各抽取多少名学生进入第二轮面试?
14.(2026·高一·甘肃兰州·期中)某校100名学生某次数学考试成绩(单位:分)的频率分布直方图如下:
(1)求频率分布直方图中a的值;
(2)分别求出成绩落在与中的学生人数;
(3)估计这次考试的众数、平均数及78分以上的人数.
15.(2026·高一·新疆·阶段检测)2026年5月25日至5月31日将是第四届全国城市生活垃圾分类宣传周,为提高同学们的垃圾分类意识.某中学举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛的成绩情况,从中随机抽取了100名学生的竞赛成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,按,,,,分为5组,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)在这100名学生中,从这次竞赛成绩在内的学生中采用分层随机抽样的方法抽取27名学生进行调查,求这100名学生这次竞赛成绩在内被抽取的人数.
(3)估计这100名学生这次竞赛成绩的中位数与平均数;
16.2023年10月22日,2023襄阳马拉松成功举行,志愿者的服务工作是马拉松成功举办的重要保障,某单位承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)估计这100名候选者面试成绩的平均数.
(2)现从以上各组中用分层抽样的方法选取20人,担任本次宣传者.若本次宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和70,据此估计这次第二组和第四组所有面试者的方差.
17.(2026·高三·云南·阶段检测)已知总体分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,.记总样本的平均数为,样本方差为.
(1)试证明:;
(2)在对某高中1500名高三年级学生的身高的调查中,采用按学生性别比例分配的分层随机抽样抽取100人,已知这1500名高三年级学生中男生有900人,且抽取的样本中男生的平均数和方差分别为170cm和12,女生的平均数和方差分别为160cm和38.试用(1)证明的公式估计高三年级全体学生身高的方差.
2 / 2
学科网(北京)股份有限公司
$