内容正文:
9.2 用样本估计总体
目录
01 题型归纳目录 2
02 思维导图 3
03 知识点梳理 4
知识点一:用样本估计总体 4
04 题型归纳,举一反三 7
题型一:频率分布直方图的绘制及实际应用 7
题型二:频率分布直方图相关求值计算 10
题型三:折线图、扇形图、条形图的识图与数据分析 12
题型四:百分位数在原始数据中的求解应用 14
题型五:百分位数在统计表格与统计图中的求解应用 15
题型六:平均数、中位数、众数在原始数据中的分析应用 18
题型七:利用频率分布直方图求平均数、中位数、众数 18
题型八:方差与标准差的数据分析及实际应用 22
题型九:借助样本平均数、样本标准差估计总体特征 22
知识点一:用样本估计总体
1、频率分布直方图绘制步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第i组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
2、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.
3、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.
4、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
5、常见的其他统计图:条形图、扇形图、折线图.
扇形图主要用于直观描述各类数据占总数的比例;
条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
折线图主要用于描述数据随时间的变化趋势.
6、各个统计图特点
(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.
(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.
7、第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
8、计算第百分位数的步骤
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.
9、四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
10、众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:如果个数,那么叫做这个数的平均数.
11、频率分布直方图中的众数、中位数、平均数
①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
12、方差、标准差的定义
一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.
13、总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.
14、样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.
15、方差、标准差特征
标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
题型一:频率分布直方图的绘制及实际应用
【典例1-1】(23-24高一下·江苏·单元复习)某校高二年级期末统一测试,随机抽取一部分学生的数学成绩,分组统计如下表.
分组
频数
频率
3
0.03
3
0.03
37
0.37
m
n
15
0.15
合计
M
N
(1)求出表中的值,并根据表中所给数据在给出的坐标系中画出频率直方图;
(2)若全校参加本次考试的学生有600人,试估计这次测试中全校成绩在90分以上的人数.
【典例1-2】(20-21高一·全国·单元测试)某制造商为运动会生产一批直径为40mm的乒乓球,现随机抽样检查20只,测得每只球的直径(单位:mm,保留两位小数)如下:
【变式1-1】02 40.00 39.98 40.00 39.99
【变式1-2】00 39.98 40.01 39.98 39.99
【变式1-3】00 39.99 39.95 40.01 40.02
【变式1-4】98 40.00 39.99 40.00 39.96
(1)完成下面的频率分布表,并画出频率分布直方图;
分组
频数
频率
合计
(2)假定乒乓球的直径误差不超过0.02mm为合格品,若这批乒乓球的总数为10000只,试根据抽样检查结果估计这批产品的合格只数.
【方法技巧与总结】(绘制频率分布直方图的注意事项)
1、在列频率分布表时,极差、组距、组数有如下关系:
(1)若为整数,则=组数;
(2)若不为整数,则的整数部分+1=组数.
2、组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
【变式1-5】(22-23高一下·天津河东·期末)《天津日报》2022年11月24日报道,我市扎实推进实施深入打好污染防治攻坚战“1+3+8”行动方案,生态环境质量持续稳定向好,特别是大气环境质量改善成效显著.记者从市生态环境局获悉,1至10月份,全市PM2.5平均浓度为34微克/立方米,同比改善8.1%,优良天数222天,同比增加3天,重污染天2天,同比减少4天,为10年来最好水平.小明所在的数学兴趣小组根据2022年8月天津市空气质量指数(AQI趋势图)进行数据统计,分析空气质量指数在不同范围内的天数占一个月天数的比例,步骤为“求极差”“决定组距与组数”“数据分组”“列频率分布表”“画频率分布直方图”,请完成上述步骤,绘制频率分布直方图(横轴为空气质量指数,纵轴保留两位有效数字).
【变式1-6】(24-25高一下·全国·单元测试)为了让学生了解环保知识,增强环保意识,某中学举办了一次环保知识竞赛,共有900名学生参加了这次竞赛.为了了解本次竞赛的成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成并有局部污损的频数分布表和频数分布直方图,解答下列问题:
分组
频数
频率
50.5~60.5
4
0.08
60.5~70.5
0.16
70.5~80.5
10
80.5~90.5
16
0.32
90.5~100.5
合计
50
(1)填充频数分布表的空格(将答案直接填在表格内);
(2)补全频数分布直方图;
(3)若成绩在75.5~85.5的学生为二等奖,问获得二等奖的学生约为多少人?
题型二:频率分布直方图相关求值计算
【典例2-1】(2026·吉林长春·二模)某精密仪器厂生产一种标准长度为的金属垫片.现随机抽取200个垫片测量其实际长度(单位:),按长度分组并绘制出如图所示的频率分布直方图.若规定长度在区间内的垫片为合格品,用样本频率估计总体的概率,则任取一个垫片为合格品的概率为( )
A.0.3 B.0.4 C.0.5 D.0.6
【典例2-2】(25-26高一下·北京·期中)某校根据学生情况将物理考试成绩进行赋分,目的是为了更好地对新高考改革中不同选科学生的考试成绩进行横向对比,经过对全校300名学生的成绩统计,可得到如图所示的频率分布直方图,则这些同学物理成绩大于等于80分的人数为( )
A.60 B.90 C.120 D.150
【方法技巧与总结】(计算规律)
1、因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
2、在频率分布直方图中,各小长方形的面积之和等于1.
3、=样本量.
4、在频率分布直方图中,各长方形的面积之比等于频率之比,各长方形的高度之比也等于频率之比.
【变式2-1】(25-26高三下·青海西宁·月考)一农庄的某种水果成熟后,质地较好的水果的重量在80~120g间,现随机抽查100个这种水果,将其质量(单位:g)分组为,,,,,,,,并绘制出频率分布直方图如图,则这100个水果质量在区间(单位:g)内的个数为( )
A.66 B.68 C.70 D.72
【变式2-2】(25-26高一下·全国·课堂例题)如图是容量为100的样本的频率分布直方图,则样本数据在内的频率和频数分别是( )
A.0.32,32 B.0.08,8 C.0.24,24 D.0.36,36
【变式2-3】(23-24高一下·四川达州·期末)随机抽取某机械元件1000件,统计得出它们的连续工作最长时间(,单位:千小时)的频率分布直方图,如图所示.视频率为概率,从该批元件中随机抽取一件,该元件连续工作最长时间在区间(单位:千小时)上的概率为( )
A. B. C. D.
题型三:折线图、扇形图、条形图的识图与数据分析
【典例3-1】(多选题)(2021·江西宜春·模拟预测)某市为最大限度地吸引“高精尖缺”人才,向全球“招贤纳士”,推进了人才引入落户政策.随着人口增多,对住房要求也随之而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取名市民,构成样本,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共户,所占比例为,二居室住户占.如图2是用比例分配的分层随机抽样的方法从所有调查的市民的满意度问卷中抽取的调查结果,构成样本,分析后绘制成的统计图,则下列说法正确的是( )
A.样本的样本量为
B.样本中三居室住户共抽取了户
C.根据样本可估计样本中对四居室满意的住户有户
D.样本中对三居室满意的有户
【典例3-2】(多选题)(24-25高二下·四川·月考)新高一学生会对物理、历史2门课程进行选科,每位同学从中选择1门课程学习.现对该校2000名学生的选科情况进行了统计,如图①,并用比例分配的分层随机抽样的方法从中抽取的学生对所选课程进行了满意率调查,如图②.
则下列说法正确的是( )
A.满意率调查中抽取的样本容量为2000
B.该校学生中对物理课程满意的人数约为720
C.若抽取的学生中对历史课程满意的人数为32,则=80
D.抽取的学生中对物理课程满意的人数多于对历史课程满意的人数
【方法技巧与总结】(各类统计图的特点)
条形统计图反映各组数据的频数或频率;
扇形统计图反映各组数据占总数的比例;
折线统计图反映数据随时间的变化趋势.
【变式3-1】(多选题)(24-25高一下·广东河源·期末)2025年4月23日,在第四届全民阅读大会上正式发布了2024年度中国数字阅读报告.统计了我国近五年数字阅读用户规模和网民规模数据,如图所示,则( )
A.2024年,我国数字阅读用户规模占网民规模的五成以上
B.近五年,我国数字阅读用户规模的增长量比网民规模的增长量大
C.从2020年至2024年,我国数字阅读用户规模逐年递增
D.从2020年至2024年,我国网民规模的增长率逐年递增
【变式3-2】(多选题)(24-25高一下·广东佛山·期末)佛山50公里徒步自2016年首次推出5条路线实现“五龙汇聚”,参与人数逐年增加,到2025年,现场参与人数为45万人,这不仅是一场全民健身的狂欢,更是佛山城市品牌的一次璀璨展示.下面分别为2016年佛山50公里徒步参与人数的扇形统计图(图1)、2025年佛山50公里徒步参与人数的条形统计图(图2,单位:万人),已知2025年高明线的参与人数是2016年的2倍,则( )
A.2016年佛山50公里徒步总的参与人数是20万
B.2025年顺德线的参与人数超过了2016年南海线与顺德线的参与人数总和
C.五条线的参与人数2025年与2016年相比增加人数最少的是三水线
D.五条线的参与人数2025年与2016年相比增长率最高的是南海线
【变式3-3】(多选题)(24-25高一下·广东梅州·月考)为了解某企业员工的学习情况,对该企业员工进行问卷调查,已知他们的得分都处在A,B,C,D四个区间内,根据调查结果得到下面的统计图.已知该企业男员工占则下列结论正确的是( )
A.男、女员工得分在A区间的占比相同
B.在各得分区间男员工的人数都多于女员工的人数
C.得分在C区间的员工最多
D.得分在D区间的员工占总人数的19%
题型四:百分位数在原始数据中的求解应用
【典例4-1】(2026·福建龙岩·一模)已知从小到大排列的一组数据1,2,4,,8,10,若这组数据的第60百分位数与平均数相等,则实数的值为______.
【典例4-2】(25-26高一下·全国·课后作业)某中学甲、乙两名同学最近几次的数学考试成绩情况如下:
甲的得分:95,81,75,89,71,65,76,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,101.
则甲得分的第50百分位数为____________;乙得分的第75百分位数为____________.
【方法技巧与总结】(计算一组n个数据的第p百分位数的步骤)
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【变式4-1】(25-26高一上·广西北海·期末)某次期中考试随机抽取了名同学的数学成绩作为样本,分别是、、、、、.则这组数据的第百分位数为________.
【变式4-2】(25-26高一上·全国·期末)样本数据5,5,6,7,9的80百分位数为___________
【变式4-3】(2025高一上·辽宁沈阳·专题练习)已知甲、乙两组按顺序排列的数据:甲组:27,28,37,,40,50;乙组:24,,34,43,48,52;若这两组数据的第30百分位数、第50百分位数分别对应相等,则等于__________.
题型五:百分位数在统计表格与统计图中的求解应用
【典例5-1】(25-26高二上·江苏苏州·月考)为了解学校高二学生的物理成绩,从某次测试中随机抽取100份测试卷进行成绩调查,发现抽取的测试卷的成绩分数都在40~100之间,将抽取的测试卷按成绩分成六组:,,画出如图所示的频率分布直方图.
(1)若60分(包含60)以上为合格,求的值和合格人数;
(2)求抽取测试卷成绩的第80百分位数.
【典例5-2】(24-25高一下·内蒙古呼伦贝尔·期末)某零食超市某天接待了1250名顾客,老年375人,中青年625人,少年250人,景点为了提升服务质量,采用分层抽样从当天游客中抽取100人,以评分方式进行满意度回访.将统计结果按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成频率分布直方图如图:
(1)求抽取的样本中老年、中青年、少年的人数;
(2)求的值并估计当天游客满意度分值的平均数.(同一组中的数据以这组数据所在区间中点的值作代表);
(3)求样本数据的第85百分位数.
【方法技巧与总结】(频率直方图计算百分位数的规律)
求总体百分位数的估计,首先要从小到大排列数据,频率直方图看作数据均匀分布在直方图上,然后计算出,当i不是整数要取整,频率直方图要计算出比例值.
【变式5-1】(24-25高一下·陕西西安·月考)为庆祝国庆节,某中学团委组织了“歌颂祖国,爱我中华”知识竞赛,从参加考试的学生中抽出60名,将其成绩(成绩均为整数)分成,,,六组,并画出如图所示的部分频率分布直方图,观察图形,回答下列问题:
(1)求第四组的频率,并补全这个频率分布直方图;
(2)请根据频率分布直方图,估计样本的众数、第八十百分位数和平均数.(每组数据以区间的中点值为代表)
【变式5-2】(24-25高一下·北京大兴·期末)小明利用地图软件统计出他近期100次早上从家到公司的导航过程中的红灯等待时间,他将数据分成了,,,,(单位:秒)这5组,并整理得到频率分布直方图,如图所示.
(1)求图中的值;
(2)估计小明红灯等待时间的第60百分位数(结果精确到0.1);
(3)根据以上数据,估计小明在接下来的10次早上从家到公司的出行中,红灯等待时间低于85秒的次数.
【变式5-3】(24-25高一下·内蒙古包头·期末)某中学为了解该校高三年级学生数学学习情况,对一模考试数学成绩进行分析,从中抽取了50名学生的成绩作为样本进行统计(若该校全体学生的成绩均在分),按照,,,,,,,的分组做出频率分布直方图如图所示,若用分层抽样从分数在内抽取8人,则抽得分数在的人数为3人.
(1)求频率分布直方图中的x,y的值;并估计本次考试成绩的平均数(以每一组的中间值为估算值);
(2)计算该校高三年级学生一模考试数学成绩的第95百分位数.(结果保留一位小数)
题型六:平均数、中位数、众数在原始数据中的分析应用
【典例6-1】(多选题)(25-26高一下·全国·课后作业)对某同学的6次数学测试成绩(满分100分)进行统计为78分,83分,83分,85分,91分,90分,以下说法正确的是( )
A.中位数为83 B.众数为83 C.平均数为85 D.极差为12
【典例6-2】(多选题)(25-26高一上·山西忻州·期末)某城市连续7天的最低温度(单位:)为0,2,5,5,6,7,3,则这组数据的( )
A.极差为7 B.分位数为4
C.平均数为4 D.方差为5
【方法技巧与总结】(众数、中位数、平均数的意义)
(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,
可用中位数描述其集中趋势.
【变式6-1】(多选题)(24-25高一下·江苏徐州·阶段检测)已知一组数据4,8,9,3,3,5,7,9,则( )
A.这组数据的上四分位数为8.5 B.这组数据没有众数
C.这组数据的极差为6 D.这组数据的平均数为6
【变式6-2】(多选题)(25-26高二上·湖南·期中)已知2017-2024年中国体育产业规模(单位:万亿元)数据如下表:
年份
2017
2018
2019
2020
2021
2022
2023
2024
体育产业规模(万亿元)
2.20
2.66
2.94
2.70
3.12
3.30
3.67
3.89
则这8个数据的( )
A.极差为1.69 B.中位数为2.91
C.80%分位数是3.67 D.平均数大于3
【变式6-3】(多选题)(2026·湖北武汉·模拟预测)现有10个数据为:3,3,3,3,4,4,4,5,5,6,对于该组数据,下列说法中正确的有( )
A.众数是4 B.平均数是4 C.极差是3 D.中位数是4.5
题型七:利用频率分布直方图求平均数、中位数、众数
【典例7-1】(24-25高一下·吉林长春·期末)某市为了研究高三学生在全市质检中的语文成绩的情况,从全市16000名学生中随机抽取了1600名学生的成绩作为样本(成绩均在内),将所得的成绩分成七组:,,,,,,,得到频率分布直方图如图所示.
(1)求的值,并估计该市语文成绩落在区间内的学生人数;
(2)估计本次考试全市语文成绩的中位数(精确到0.01)和平均数(同一组中的数据用该区间的中点值作代表).
【典例7-2】(24-25高一下·四川乐山·期末)《哪吒之魔童闹海》自上映以来,票房一路高歌猛进,截至2025年5月,票房已突破158亿.根据灯塔数据库的数据,某团队随机抽取1000人为样本,统计他们的年龄,并绘制如下的频数分布表和频率分布直方图:
组数
分组
频数
第一组
100
第二组
第三组
250
第四组
300
第五组
第六组
50
(1)请求出各年龄段频数分布表中的值,并补全各年龄段人数频率分布直方图;
(2)试估计观众年龄的众数、中位数和平均数(每组年龄用中间值代替).
【方法技巧与总结】(知频率分布直方图中求平均数、中位数、众数)
(1)众数:频率分布直方图中,最高矩形的底边中点的横坐标.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数在频率分布直方图中等于每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.
【变式7-1】(24-25高一下·江苏南京·期末)某校高一年级学生期中考试共有450名学生参加.数学考试成绩的频率分布直方图如图所示.
(1)求a的值;
(2)估计这次数学考试成绩的众数、中位数和平均数(结果保留两位小数);
(3)估计该校高一学生这次期中考试数学成绩的第70百分位数(结果保留两位小数).
【变式7-2】(23-24高一下·云南昭通·期末)为了落实习主席提出“绿水青山就是金山银山”的环境治理要求,某市政府积极鼓励居民节约用水.计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准(吨),一位居民的月用水量不超过的部分按平价收费,超出的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年200位居民每人的月均用水量(单位:吨),将数据按照,,…,分成9组,制成了如图所示的频率分布直方图,其中.
(1)求直方图中,的值,并由频率分布直方图估计该市居民用水的平均数(每组数据用该组区间中点值作为代表);
(2)设该市有40万居民,估计全市居民中月均用水量不低于2吨的人数,并说明理由;
【变式7-3】(24-25高一下·浙江丽水·期末)某校为促进学生对数学文化的认识,举办了相关竞赛,从所有答卷中随机抽取份作为样本,发现得分均在区间内现将个样本数据按,,,,,分成组,得到如下频率分布直方图.
(1)求出频率分布直方图中的值;
(2)请估计样本数据的众数和平均数;
(3)学校决定奖励成绩排名前20%的学生,学生甲的成绩是分,请判断学生甲能否得到奖励,并说明理由.
题型八:方差与标准差的数据分析及实际应用
【典例8-1】(25-26高三下·上海·月考)若数据的均值和标准差分别为和,则___________.
【典例8-2】(2026·上海·一模)某同学5次数学周测成绩为:80,84,84,86,86;这组数据的方差为__________.
【方法技巧与总结】(实际应用中标准差、方差的意义)
在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,稳定性越高.
【变式8-1】(25-26高一下·河北保定·月考)已知样本数据,,,,的平均数为4,方差为2,则样本数据,,,,的平均数和方差分别为________和________.
【变式8-2】(25-26高一下·全国·课后作业)国家射击队要从甲、乙、丙、丁四名队员中选出一名选手去参加射击比赛,四人的平均成绩和方差如下表:
甲
乙
丙
丁
平均成绩
8.5
8.8
8.8
8
方差
3.5
3.5
2.1
8.7
则应派____________参赛最为合适.
【变式8-3】(20-21高一下·广东广州·期末)为了解学生的课外阅读情况,某校采用样本量比例分配的分层随机抽样对高中三个年级的学生进行平均每周课外阅读时间(单位:小时)的调查,所得样本数据如下:
年级
抽样人数
样本平均数
样本方差
高一
40
5
3.5
高二
30
2
高三
30
3
已知高中三个年级学生的总样本平均数为4.1,总样本方差为3.14,则高二年级学生的样本平均数______,高三年级学生的样本方差______.
题型九:借助样本平均数、样本标准差估计总体特征
【典例9-1】(25-26高一下·宁夏银川·期中)某校高一年级开设有羽毛球训练课,期末对学生进行羽毛球五项指标(正手发高远球、定点高远球、吊球、杀球以及半场计时往返跑)考核,满分100分.参加考核的学生有40人,考核得分的频率分布直方图如图所示.
(1)由频率分布直方图,求出图中的值,并估计考核得分的第60百分位数:
(2)现已知直方图中考核得分在内的平均数为75,方差为6.25,在内的平均数为85,方差为0.5,求得分在内的平均数和方差.
(附:设两组数据的样本量、样本平均数和样本方差分别为:,记两组数据总体的样本平均数为,则总体样本方差)
【典例9-2】(25-26高一下·甘肃酒泉·期中)近日,省足球青训中心建成投用,某校为了解学生对足球的热爱程度,随机抽取名学生对足球的“喜爱度”进行评分,将样本的成绩分成这五组,得到如图所示的频率分布直方图.
(1)估计样本成绩的平均数(同一组中的数据用该组区间的中点值作代表);
(2)求样本成绩的中位数(结果保留两位小数);
(3)已知落在内的平均成绩是分,方差是,落在内的平均成绩是分,方差是,求两组成绩合并后的平均数和方差.
附:设两组数据的样本量、样本平均数和样本方差分别为,记两组数据总体的样本平均数为,则总体的样本方差.
【方法技巧与总结】(用样本平均数和样本标准差估计总体注意事项)
(1)标准差代表数据的离散程度,考虑数据范围时需要加减标准差.
(2)计算样本平均数、样本方差直接利用公式,注意公式的变形和整体代换.
【变式9-1】(25-26高二下·重庆·阶段检测)“2026重庆马拉松”成功举行,某单位承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)求a,b的值;
(2)若面试成绩前的候选者为优秀候选者,请估计优秀候选者成绩的最低分;
(3)现从以上各组中用分层抽样的方法选取20人,担任本次宣传者.若本次宣传者中第二组面试者的面试成绩的平均数和方差分别为62和30,第四组面试者的面试成绩的平均数和方差分别为80和40,据此估计这次第二组和第四组这两组的所有面试者的方差.
【变式9-2】(2026·四川成都·二模)“十五五规划”是中共中央关于制定国民经济和社会发展第十五个五年规划.成都市为了解市民对“十五五规划”的认知程度,对不同年龄、不同职业的市民举办了一次“十五五规划”知识竞赛,满分为100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄大小分成5组,第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图,已知第一组有6人,从该市大学生、军人、医务人员、工人、个体户五种人群中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加“十五五规划”知识竞赛,分别代表相应组的成绩,年龄组中组的成绩分别为93,96,97,94,90,职业组中组的成绩分别为93,98,94,95,90.
(1)求抽取的x人的年龄的中位数(结果保留整数);
(2)分别求5个年龄组和5个职业组成绩的平均数和方差,并以上述数据为依据,评价5个年龄组和5个职业组对“十五五规划”的认知程度.
【变式9-3】(25-26高一上·陕西渭南·期末)为了解学生对两家餐厅的满意度情况,现从在两家餐厅都用过餐的学生中随机抽取了50人,每人分别对这两家餐厅的满意度进行打分(分数区间为),将其分数记为满意指数.根据打分结果按分组,得到如图所示的频率分布直方图,其中餐厅的满意指数在内的学生有15人.
(1)求图中的值;
(2)利用样本估计总体的思想,比较两家餐厅满意指数的平均数的大小;
(3)若餐厅满意指数频率分布直方图中第三组满意指数的方差,第四组满意指数的方差,求在餐厅用过餐的第三组与第四组所有学生的满意指数的方差.
(注:本题计算平均数时同一组中的数据用该组区间的中点值作代表)
2 / 2
学科网(北京)股份有限公司
$
9.2 用样本估计总体
目录
01 题型归纳目录 2
02 思维导图 3
03 知识点梳理 4
知识点一:用样本估计总体 4
04 题型归纳,举一反三 7
题型一:频率分布直方图的绘制及实际应用 7
题型二:频率分布直方图相关求值计算 12
题型三:折线图、扇形图、条形图的识图与数据分析 15
题型四:百分位数在原始数据中的求解应用 20
题型五:百分位数在统计表格与统计图中的求解应用 21
题型六:平均数、中位数、众数在原始数据中的分析应用 25
题型七:利用频率分布直方图求平均数、中位数、众数 27
题型八:方差与标准差的数据分析及实际应用 31
题型九:借助样本平均数、样本标准差估计总体特征 33
知识点一:用样本估计总体
1、频率分布直方图绘制步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第i组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
2、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.
3、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.
4、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
5、常见的其他统计图:条形图、扇形图、折线图.
扇形图主要用于直观描述各类数据占总数的比例;
条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
折线图主要用于描述数据随时间的变化趋势.
6、各个统计图特点
(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.
(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.
7、第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
8、计算第百分位数的步骤
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.
9、四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
10、众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:如果个数,那么叫做这个数的平均数.
11、频率分布直方图中的众数、中位数、平均数
①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
12、方差、标准差的定义
一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.
13、总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.
14、样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.
15、方差、标准差特征
标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
题型一:频率分布直方图的绘制及实际应用
【典例1-1】(23-24高一下·江苏·单元复习)某校高二年级期末统一测试,随机抽取一部分学生的数学成绩,分组统计如下表.
分组
频数
频率
3
0.03
3
0.03
37
0.37
m
n
15
0.15
合计
M
N
(1)求出表中的值,并根据表中所给数据在给出的坐标系中画出频率直方图;
(2)若全校参加本次考试的学生有600人,试估计这次测试中全校成绩在90分以上的人数.
【解析】(1)由频率分布表得,
所以,,
频率直方图如图所示,
(2)由题意,知全校成绩在90分以上的学生的人数约为.
【典例1-2】(20-21高一·全国·单元测试)某制造商为运动会生产一批直径为40mm的乒乓球,现随机抽样检查20只,测得每只球的直径(单位:mm,保留两位小数)如下:
【变式1-1】02 40.00 39.98 40.00 39.99
【变式1-2】00 39.98 40.01 39.98 39.99
【变式1-3】00 39.99 39.95 40.01 40.02
【变式1-4】98 40.00 39.99 40.00 39.96
(1)完成下面的频率分布表,并画出频率分布直方图;
分组
频数
频率
合计
(2)假定乒乓球的直径误差不超过0.02mm为合格品,若这批乒乓球的总数为10000只,试根据抽样检查结果估计这批产品的合格只数.
【解析】(1)频率分布表如下:
分组
频数
频率
2
0.10
5
4
0.20
10
10
0.50
25
4
0.20
10
合计
20
1.00
50
频率分布直方图、频率分布折线图如图所示.
(2)因为抽样的20只产品中在范围内的有18只,所以合格率为.
所以根据抽样检查结果,可以估计这批产品的合格只数为9000.
【方法技巧与总结】(绘制频率分布直方图的注意事项)
1、在列频率分布表时,极差、组距、组数有如下关系:
(1)若为整数,则=组数;
(2)若不为整数,则的整数部分+1=组数.
2、组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
【变式1-5】(22-23高一下·天津河东·期末)《天津日报》2022年11月24日报道,我市扎实推进实施深入打好污染防治攻坚战“1+3+8”行动方案,生态环境质量持续稳定向好,特别是大气环境质量改善成效显著.记者从市生态环境局获悉,1至10月份,全市PM2.5平均浓度为34微克/立方米,同比改善8.1%,优良天数222天,同比增加3天,重污染天2天,同比减少4天,为10年来最好水平.小明所在的数学兴趣小组根据2022年8月天津市空气质量指数(AQI趋势图)进行数据统计,分析空气质量指数在不同范围内的天数占一个月天数的比例,步骤为“求极差”“决定组距与组数”“数据分组”“列频率分布表”“画频率分布直方图”,请完成上述步骤,绘制频率分布直方图(横轴为空气质量指数,纵轴保留两位有效数字).
【解析】由图中数据知,空气质量指数的最大值为64,最小值为23,它们的差是64-23=41,即极差为41,
根据极差确定组距为7,组数为6,
频率分布表如下:
空气质量指数
频数
频率
5
4
10
3
6
3
由频率分布表,可得频率分布直方图,如下:
【变式1-6】(24-25高一下·全国·单元测试)为了让学生了解环保知识,增强环保意识,某中学举办了一次环保知识竞赛,共有900名学生参加了这次竞赛.为了了解本次竞赛的成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成并有局部污损的频数分布表和频数分布直方图,解答下列问题:
分组
频数
频率
50.5~60.5
4
0.08
60.5~70.5
0.16
70.5~80.5
10
80.5~90.5
16
0.32
90.5~100.5
合计
50
(1)填充频数分布表的空格(将答案直接填在表格内);
(2)补全频数分布直方图;
(3)若成绩在75.5~85.5的学生为二等奖,问获得二等奖的学生约为多少人?
【解析】(1)易知样本容量为50,
故第二组的频数为,第三组的频率为,
第四组的频数为,频率为,
故频数分布表为
分组
频数
频率
50.5~60.5
4
0.08
60.5~70.5
8
0.16
70.5~80.5
10
0.20
80.5~90.5
16
0.32
90.5~100.5
12
0.24
合计
50
1.00
(2)由(1)知,60.5~70.5这一组的频数为8,补全频数分布直方图,如图:
(3)成绩在75.5~80.5的学生占70.5~80.5的学生的,
因为成绩在70.5~80.5的学生频率为0.20,所以成绩在75.5~80.5的学生频率为0.10.
成绩在80.5~85.5的学生占80.5~90.5的学生的,
因为成绩在80.5~90.5的学生频率为0.32,所以成绩在80.5~85.5的学生频率为0.16,
所以成绩在75.5~85.5的学生频率为.
由于有900名学生参加了这次竞赛,
所以该校获得二等奖的学生约为(人).
题型二:频率分布直方图相关求值计算
【典例2-1】(2026·吉林长春·二模)某精密仪器厂生产一种标准长度为的金属垫片.现随机抽取200个垫片测量其实际长度(单位:),按长度分组并绘制出如图所示的频率分布直方图.若规定长度在区间内的垫片为合格品,用样本频率估计总体的概率,则任取一个垫片为合格品的概率为( )
A.0.3 B.0.4 C.0.5 D.0.6
【答案】C
【解析】由题意知,,整理得,解得.
所以任取一个垫片为合格品的概率为:.
【典例2-2】(25-26高一下·北京·期中)某校根据学生情况将物理考试成绩进行赋分,目的是为了更好地对新高考改革中不同选科学生的考试成绩进行横向对比,经过对全校300名学生的成绩统计,可得到如图所示的频率分布直方图,则这些同学物理成绩大于等于80分的人数为( )
A.60 B.90 C.120 D.150
【答案】B
【解析】由频率分布直方图的性质可得,,
解得.
这些同学物理成绩大于等于80分的人数为.
【方法技巧与总结】(计算规律)
1、因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
2、在频率分布直方图中,各小长方形的面积之和等于1.
3、=样本量.
4、在频率分布直方图中,各长方形的面积之比等于频率之比,各长方形的高度之比也等于频率之比.
【变式2-1】(25-26高三下·青海西宁·月考)一农庄的某种水果成熟后,质地较好的水果的重量在80~120g间,现随机抽查100个这种水果,将其质量(单位:g)分组为,,,,,,,,并绘制出频率分布直方图如图,则这100个水果质量在区间(单位:g)内的个数为( )
A.66 B.68 C.70 D.72
【答案】C
【解析】由长方形的面积之和为1,得:
,
所以,
所以水果质量在区间(单位:g)内的个数为个.
【变式2-2】(25-26高一下·全国·课堂例题)如图是容量为100的样本的频率分布直方图,则样本数据在内的频率和频数分别是( )
A.0.32,32 B.0.08,8 C.0.24,24 D.0.36,36
【答案】A
【解析】样本数据在内的频率为,频数为.
故选:A
【变式2-3】(23-24高一下·四川达州·期末)随机抽取某机械元件1000件,统计得出它们的连续工作最长时间(,单位:千小时)的频率分布直方图,如图所示.视频率为概率,从该批元件中随机抽取一件,该元件连续工作最长时间在区间(单位:千小时)上的概率为( )
A. B. C. D.
【答案】B
【解析】由题可得,解得,
该元件连续工作最长时间在区间上的概率为.
故选:B.
题型三:折线图、扇形图、条形图的识图与数据分析
【典例3-1】(多选题)(2021·江西宜春·模拟预测)某市为最大限度地吸引“高精尖缺”人才,向全球“招贤纳士”,推进了人才引入落户政策.随着人口增多,对住房要求也随之而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取名市民,构成样本,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共户,所占比例为,二居室住户占.如图2是用比例分配的分层随机抽样的方法从所有调查的市民的满意度问卷中抽取的调查结果,构成样本,分析后绘制成的统计图,则下列说法正确的是( )
A.样本的样本量为
B.样本中三居室住户共抽取了户
C.根据样本可估计样本中对四居室满意的住户有户
D.样本中对三居室满意的有户
【答案】AD
【解析】对于A,因为调查的名市民中居住的户型结构为四居室的市民共户,所占比例为,
所以,得(户),
又样本是从样本中用比例分配的分层随机抽样的方法抽取所得,且抽样比为,
所以样本的样本量为(户),故A正确;
对于B,样本中户型结构为四居室的市民所占比例为,户型结构为二居室市民所占比例为,
所以样本中户型结构为三居室的市民所占比例为,
所以样本中户型结构为三居室市民有(户),
所以样本中三居室住户共抽取了(户),故B错误;
对于C,样本中户型结构为四居室的市民的满意度为,
所以可估计样本中户型结构为四居室的市民对户型结构满意的比例为,
所以样本中户型结构为四居室的市民对户型结构满意的住户大约有(户),故C错误;
对于D,样本中户型结构为三居室住户有户,
所以对三居室满意的住户有(户),故D正确.
故选:AD.
【典例3-2】(多选题)(24-25高二下·四川·月考)新高一学生会对物理、历史2门课程进行选科,每位同学从中选择1门课程学习.现对该校2000名学生的选科情况进行了统计,如图①,并用比例分配的分层随机抽样的方法从中抽取的学生对所选课程进行了满意率调查,如图②.
则下列说法正确的是( )
A.满意率调查中抽取的样本容量为2000
B.该校学生中对物理课程满意的人数约为720
C.若抽取的学生中对历史课程满意的人数为32,则=80
D.抽取的学生中对物理课程满意的人数多于对历史课程满意的人数
【答案】BC
【解析】根据题意及图①可知:该调查的总体容量为,其中学习物理有人,学习历史有人;
对于选项A::满意率调查中抽取的样本容量为,故选项A错误;
对于选项B:该校学生中对物理课程满意的人数约为,故选项B正确;
对于选项C:按比例分配进行分层随机抽样时,
学习物理有人,学习历史的有人,
若抽取的学生中对历史课程满意的人数为32,则,故选项C正确;
对于选项D:因为,
所以抽取的学生中对历史课程满意的人数为,
又因为抽取的学生中对物理课程满意的人数为,
所以抽取的学生中对物理课程满意的人数、对历史课程满意的人数无法比较,
故选项D错误.
故选:BC.
【方法技巧与总结】(各类统计图的特点)
条形统计图反映各组数据的频数或频率;
扇形统计图反映各组数据占总数的比例;
折线统计图反映数据随时间的变化趋势.
【变式3-1】(多选题)(24-25高一下·广东河源·期末)2025年4月23日,在第四届全民阅读大会上正式发布了2024年度中国数字阅读报告.统计了我国近五年数字阅读用户规模和网民规模数据,如图所示,则( )
A.2024年,我国数字阅读用户规模占网民规模的五成以上
B.近五年,我国数字阅读用户规模的增长量比网民规模的增长量大
C.从2020年至2024年,我国数字阅读用户规模逐年递增
D.从2020年至2024年,我国网民规模的增长率逐年递增
【答案】ABC
【解析】对于A,根据条形图,2024年,我国数字阅读用户规模为6.7亿,网民规模为11.1亿,数字阅读用户规模约占网民规模的,故A正确;
对于B,近五年,我国数字阅读用户规模的增长量为亿,网民规模的增长量为亿,
数字阅读用户规模的增长量大于网民规模的增长量,故B正确;
对于C,根据条形图,可以看出,从2020年至2024年,我国数字阅读用户规模在逐年递增,故C正确;
对于D,根据条形图,从2020年至2021年,我国网民规模的增长率为,
从2023年至2024年,我国网民规模的增长率为,增长率减小了,故D错误.
故选:ABC.
【变式3-2】(多选题)(24-25高一下·广东佛山·期末)佛山50公里徒步自2016年首次推出5条路线实现“五龙汇聚”,参与人数逐年增加,到2025年,现场参与人数为45万人,这不仅是一场全民健身的狂欢,更是佛山城市品牌的一次璀璨展示.下面分别为2016年佛山50公里徒步参与人数的扇形统计图(图1)、2025年佛山50公里徒步参与人数的条形统计图(图2,单位:万人),已知2025年高明线的参与人数是2016年的2倍,则( )
A.2016年佛山50公里徒步总的参与人数是20万
B.2025年顺德线的参与人数超过了2016年南海线与顺德线的参与人数总和
C.五条线的参与人数2025年与2016年相比增加人数最少的是三水线
D.五条线的参与人数2025年与2016年相比增长率最高的是南海线
【答案】ABD
【解析】因为2025年高明线的参与人数是2016年的2倍,则2016年的高明线的参与人数是万人,
对于A:根据扇形图得出万,所以2016年佛山50公里徒步总的参与人数是20万,A选项正确;
2016年佛山50公里徒步高明线,三水线,禅城线,顺德线,南海线参与人数分别为:万,万,万,万,万,
2025年佛山50公里徒步高明线,三水线,禅城线,顺德线,南海线参与人数分别为:万,万,万,万,万,
对于B:因为,2025年顺德线的参与人数超过了2016年南海线与顺德线的参与人数总和,B选项正确;
对于C:五条线的参与人数2025年与2016年相比增加人数最少的是高明线,C选项错误;
对于D:南海线的参与人数2025年与2016年相比增长率,顺德线的参与人数2025年与2016年相比增长率,
禅城线的参与人数2025年与2016年相比增长率,三水线的参与人数2025年与2016年相比增长率,
高明线的参与人数2025年与2016年相比增长率,所以五条线的参与人数2025年与2016年相比增长率最高的是南海线,D选项正确;
故选:ABD.
【变式3-3】(多选题)(24-25高一下·广东梅州·月考)为了解某企业员工的学习情况,对该企业员工进行问卷调查,已知他们的得分都处在A,B,C,D四个区间内,根据调查结果得到下面的统计图.已知该企业男员工占则下列结论正确的是( )
A.男、女员工得分在A区间的占比相同
B.在各得分区间男员工的人数都多于女员工的人数
C.得分在C区间的员工最多
D.得分在D区间的员工占总人数的19%
【答案】AD
【解析】根据题意,设员工总人数为,因为女员工人数为(人),
所以,解得,
所以男员工人数为(人),
对于A,女员工得分在区间的占比为,
男员工得分在区间的占比为,
即男、女员工得分在A区间的占比相同,故A正确;
对于B,由题图1可知,女员工在区间有20人,区间有60人,区间有70人,区间有50人,
男员工在区间有(人),区间有(人),
区间有(人),区间有(人),
所以区间男员工少于女员工,故B错误;
对于C,区间有(人),区间有(人),
所以区间人数比C区间多,故C错误;
对于D,区间有(人),
所以得分在区间的员工占总人数的,故D正确.
故选:AD
题型四:百分位数在原始数据中的求解应用
【典例4-1】(2026·福建龙岩·一模)已知从小到大排列的一组数据1,2,4,,8,10,若这组数据的第60百分位数与平均数相等,则实数的值为______.
【答案】5
【解析】因为,所以该组数据的第60百分位数为从小到大排列的第4个数据.
由题意知,解得.
【典例4-2】(25-26高一下·全国·课后作业)某中学甲、乙两名同学最近几次的数学考试成绩情况如下:
甲的得分:95,81,75,89,71,65,76,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,101.
则甲得分的第50百分位数为____________;乙得分的第75百分位数为____________.
【答案】 88 101
【解析】把甲的得分由小到大排列为65,71,75,76,81,88,89,94,95,107,110.
把乙的得分由小到大排列为79,83,86,88,93,98,98,99,101,103,114.
由,可知甲得分的第50百分位数为第6个数据,即甲得分的第50百分位数为88;
又由,可知乙得分的第75百分位数为第9个数据,即乙得分的第75百分位数为101.
故答案为:88;101.
【方法技巧与总结】(计算一组n个数据的第p百分位数的步骤)
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【变式4-1】(25-26高一上·广西北海·期末)某次期中考试随机抽取了名同学的数学成绩作为样本,分别是、、、、、.则这组数据的第百分位数为________.
【答案】
【解析】因为,故这组数据的第百分位数为.
故答案为:.
【变式4-2】(25-26高一上·全国·期末)样本数据5,5,6,7,9的80百分位数为___________
【答案】8
【解析】因为,
故数据5,5,6,7,9的80百分位数应是第4个数与第5个数的平均数,
即.
故答案为:8.
【变式4-3】(2025高一上·辽宁沈阳·专题练习)已知甲、乙两组按顺序排列的数据:甲组:27,28,37,,40,50;乙组:24,,34,43,48,52;若这两组数据的第30百分位数、第50百分位数分别对应相等,则等于__________.
【答案】/
【解析】对于甲组数据,,
所以甲组数据的第30百分位数为28,第50百分位数为
对于乙组数据,,
所以乙组数据的第30百分位数为,第50百分位数为.
由题意得,,解得,
所以.
故答案为:
题型五:百分位数在统计表格与统计图中的求解应用
【典例5-1】(25-26高二上·江苏苏州·月考)为了解学校高二学生的物理成绩,从某次测试中随机抽取100份测试卷进行成绩调查,发现抽取的测试卷的成绩分数都在40~100之间,将抽取的测试卷按成绩分成六组:,,画出如图所示的频率分布直方图.
(1)若60分(包含60)以上为合格,求的值和合格人数;
(2)求抽取测试卷成绩的第80百分位数.
【解析】(1)由.
100份测试卷中,合格人数为:人.
(2)因为,,
所以成绩的第80百分位数为:.
【典例5-2】(24-25高一下·内蒙古呼伦贝尔·期末)某零食超市某天接待了1250名顾客,老年375人,中青年625人,少年250人,景点为了提升服务质量,采用分层抽样从当天游客中抽取100人,以评分方式进行满意度回访.将统计结果按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成频率分布直方图如图:
(1)求抽取的样本中老年、中青年、少年的人数;
(2)求的值并估计当天游客满意度分值的平均数.(同一组中的数据以这组数据所在区间中点的值作代表);
(3)求样本数据的第85百分位数.
【解析】(1)由题可知:老年抽取:人,中青年抽取:人,少年抽取人.
(2)由图可知:,
平均数为:
(3)的频率为:;的频率为;的频率为;的频率为;所以可知第85百分位数落在,
所以第85百分位数为
【方法技巧与总结】(频率直方图计算百分位数的规律)
求总体百分位数的估计,首先要从小到大排列数据,频率直方图看作数据均匀分布在直方图上,然后计算出,当i不是整数要取整,频率直方图要计算出比例值.
【变式5-1】(24-25高一下·陕西西安·月考)为庆祝国庆节,某中学团委组织了“歌颂祖国,爱我中华”知识竞赛,从参加考试的学生中抽出60名,将其成绩(成绩均为整数)分成,,,六组,并画出如图所示的部分频率分布直方图,观察图形,回答下列问题:
(1)求第四组的频率,并补全这个频率分布直方图;
(2)请根据频率分布直方图,估计样本的众数、第八十百分位数和平均数.(每组数据以区间的中点值为代表)
【解析】(1)设第四组的频率为,则由频率分布直方图可得:
,解得.
故可补全频率分布直方图为:
(2)由频率分布直方图,可估计样本众数为:;
设样本的第八十百分位数为,则,解得;
样本的平均数为:.
【变式5-2】(24-25高一下·北京大兴·期末)小明利用地图软件统计出他近期100次早上从家到公司的导航过程中的红灯等待时间,他将数据分成了,,,,(单位:秒)这5组,并整理得到频率分布直方图,如图所示.
(1)求图中的值;
(2)估计小明红灯等待时间的第60百分位数(结果精确到0.1);
(3)根据以上数据,估计小明在接下来的10次早上从家到公司的出行中,红灯等待时间低于85秒的次数.
【解析】(1)易知组距为10,依题意可得,
解得;
(2)易知和两区间的频率之和为;
前三组,,的频率之和为;
因此第60百分位数位于区间内,
设第60百分位数为,所以,
解得
(3)由频率分布直方图可知红灯等待时间低于85秒的频率为,
所以估计10次早上从家到公司的出行中,红灯等待时间低于85秒的次数为次.
【变式5-3】(24-25高一下·内蒙古包头·期末)某中学为了解该校高三年级学生数学学习情况,对一模考试数学成绩进行分析,从中抽取了50名学生的成绩作为样本进行统计(若该校全体学生的成绩均在分),按照,,,,,,,的分组做出频率分布直方图如图所示,若用分层抽样从分数在内抽取8人,则抽得分数在的人数为3人.
(1)求频率分布直方图中的x,y的值;并估计本次考试成绩的平均数(以每一组的中间值为估算值);
(2)计算该校高三年级学生一模考试数学成绩的第95百分位数.(结果保留一位小数)
【解析】(1)设由分层抽样可得分数在的人数与分数在的人数之比为3:5,
所以,则,
,
又由频率分布直方图可知分数在的频率为0.04,分数在的频率为0.06,
分数在的频率为0.1,分数在的频率为0.2,分数在的频率为0.3,
分数在的频率为0.14,分数在的频率为0.1,分数在的频率为0.06.
则平均数为分.
(2)由题意可知分数在的频率为6%,所以第95百分位数在该组,不妨设第95百分位数为,则可得等式为
,
∴,
所以:第95百分位数为.
题型六:平均数、中位数、众数在原始数据中的分析应用
【典例6-1】(多选题)(25-26高一下·全国·课后作业)对某同学的6次数学测试成绩(满分100分)进行统计为78分,83分,83分,85分,91分,90分,以下说法正确的是( )
A.中位数为83 B.众数为83 C.平均数为85 D.极差为12
【答案】BC
【解析】将各数据按从小到大排列为:78, 83,83,85,90,91.
中位数为,故A不对,
众数为83,B正确;
平均数为,故C正确,
极差为,故D错误.
故选:BC.
【典例6-2】(多选题)(25-26高一上·山西忻州·期末)某城市连续7天的最低温度(单位:)为0,2,5,5,6,7,3,则这组数据的( )
A.极差为7 B.分位数为4
C.平均数为4 D.方差为5
【答案】AC
【解析】将数据从小到大排列,,
则极差为,故A正确;
,故分位数为,故B错误;
平均数为,故C正确;
,故D错误.
故选:AC
【方法技巧与总结】(众数、中位数、平均数的意义)
(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,
可用中位数描述其集中趋势.
【变式6-1】(多选题)(24-25高一下·江苏徐州·阶段检测)已知一组数据4,8,9,3,3,5,7,9,则( )
A.这组数据的上四分位数为8.5 B.这组数据没有众数
C.这组数据的极差为6 D.这组数据的平均数为6
【答案】ACD
【解析】对于A,将给定数据从小到大排列为3,3,4,5,7,8,9,9,而,
所以这组数据的上四分位数为,故A正确;
对于B,这组数据的众数是3和9,故B错误;
对于C,这组数据的极差为6,故C正确;
对于D,这组数据的平均数为,故D正确.
故选:ACD.
【变式6-2】(多选题)(25-26高二上·湖南·期中)已知2017-2024年中国体育产业规模(单位:万亿元)数据如下表:
年份
2017
2018
2019
2020
2021
2022
2023
2024
体育产业规模(万亿元)
2.20
2.66
2.94
2.70
3.12
3.30
3.67
3.89
则这8个数据的( )
A.极差为1.69 B.中位数为2.91
C.80%分位数是3.67 D.平均数大于3
【答案】ACD
【解析】极差为,故A正确;
中位数为这8个数据按照从小到大的顺序排列后的第4个数2.94与第5个数3.12的平均数3.03,故B错误;
分位数是这8个数据按照从小到大的顺序排列后的第7个数3.67,故C正确;
平均数为,故D正确.
故选:ACD.
【变式6-3】(多选题)(2026·湖北武汉·模拟预测)现有10个数据为:3,3,3,3,4,4,4,5,5,6,对于该组数据,下列说法中正确的有( )
A.众数是4 B.平均数是4 C.极差是3 D.中位数是4.5
【答案】BC
【解析】10个数据中3出现了4次,4出现了3次,5出现了2次,6出现了1次,
所以次数最多的数据是3,所以众数是3,故A错误;
平均数为,故B正确;
极差为,故C正确;
中位数为,故D错误.
题型七:利用频率分布直方图求平均数、中位数、众数
【典例7-1】(24-25高一下·吉林长春·期末)某市为了研究高三学生在全市质检中的语文成绩的情况,从全市16000名学生中随机抽取了1600名学生的成绩作为样本(成绩均在内),将所得的成绩分成七组:,,,,,,,得到频率分布直方图如图所示.
(1)求的值,并估计该市语文成绩落在区间内的学生人数;
(2)估计本次考试全市语文成绩的中位数(精确到0.01)和平均数(同一组中的数据用该区间的中点值作代表).
【解析】(1)由题意知,解得,
所以该市语文成绩落在区间的频率为,
估计该市语文成绩落在区间内的学生人数是;
(2)由频率分布直方图得,分数在区间的频率为,
的频率分别为,
因此该校语文成绩的中位数在之间,
所以,解得,
语文成绩的平均数为.
【典例7-2】(24-25高一下·四川乐山·期末)《哪吒之魔童闹海》自上映以来,票房一路高歌猛进,截至2025年5月,票房已突破158亿.根据灯塔数据库的数据,某团队随机抽取1000人为样本,统计他们的年龄,并绘制如下的频数分布表和频率分布直方图:
组数
分组
频数
第一组
100
第二组
第三组
250
第四组
300
第五组
第六组
50
(1)请求出各年龄段频数分布表中的值,并补全各年龄段人数频率分布直方图;
(2)试估计观众年龄的众数、中位数和平均数(每组年龄用中间值代替).
【解析】(1)第二组的频率为,
,
,
补全频率分布直方图如下:
(2)观众年龄的众数为,
设年龄的中位数为,,
中位数位于.
则,解得,
年龄的平均数.
【方法技巧与总结】(知频率分布直方图中求平均数、中位数、众数)
(1)众数:频率分布直方图中,最高矩形的底边中点的横坐标.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数在频率分布直方图中等于每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.
【变式7-1】(24-25高一下·江苏南京·期末)某校高一年级学生期中考试共有450名学生参加.数学考试成绩的频率分布直方图如图所示.
(1)求a的值;
(2)估计这次数学考试成绩的众数、中位数和平均数(结果保留两位小数);
(3)估计该校高一学生这次期中考试数学成绩的第70百分位数(结果保留两位小数).
【解析】(1)由频率分布直方图,得,
所以.
(2)由频率分布直方图知:数据落在内最多,因此众数为65;
由,,得中位数,
则,解得,所以中位数为67.69;
平均数为.
(3)成绩小于70分的频率为,
成绩小于80分的频率为,则第70百分位数在内,
所以第70百分位数为.
【变式7-2】(23-24高一下·云南昭通·期末)为了落实习主席提出“绿水青山就是金山银山”的环境治理要求,某市政府积极鼓励居民节约用水.计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准(吨),一位居民的月用水量不超过的部分按平价收费,超出的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年200位居民每人的月均用水量(单位:吨),将数据按照,,…,分成9组,制成了如图所示的频率分布直方图,其中.
(1)求直方图中,的值,并由频率分布直方图估计该市居民用水的平均数(每组数据用该组区间中点值作为代表);
(2)设该市有40万居民,估计全市居民中月均用水量不低于2吨的人数,并说明理由;
【解析】(1)由频率分布直方图可得
,
又,则,,
该市居民用水的平均数估计为:
.
(2)由频率分布直方图可得,
月均用水量不超过2吨的频率为:,
则月均用水量不低于2吨的频率为:,
所以全市40万居民中月均用水量不低于2吨的人数为:(万).
【变式7-3】(24-25高一下·浙江丽水·期末)某校为促进学生对数学文化的认识,举办了相关竞赛,从所有答卷中随机抽取份作为样本,发现得分均在区间内现将个样本数据按,,,,,分成组,得到如下频率分布直方图.
(1)求出频率分布直方图中的值;
(2)请估计样本数据的众数和平均数;
(3)学校决定奖励成绩排名前20%的学生,学生甲的成绩是分,请判断学生甲能否得到奖励,并说明理由.
【解析】(1)由直方图知,所以;
(2)平均值为:分,众数为:分;
(3)成绩低于分的频率为,成绩低于分的频率为,则得到奖励的最低成绩为,所以学生甲能得到奖励.
题型八:方差与标准差的数据分析及实际应用
【典例8-1】(25-26高三下·上海·月考)若数据的均值和标准差分别为和,则___________.
【答案】
【解析】由均值的计算公式,可得数据的均值为,
标准差为,
所以.
【典例8-2】(2026·上海·一模)某同学5次数学周测成绩为:80,84,84,86,86;这组数据的方差为__________.
【答案】4.8
【解析】所以这组数据的平均数为,
方差为.
【方法技巧与总结】(实际应用中标准差、方差的意义)
在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,稳定性越高.
【变式8-1】(25-26高一下·河北保定·月考)已知样本数据,,,,的平均数为4,方差为2,则样本数据,,,,的平均数和方差分别为________和________.
【答案】 10 18
【解析】由题意知,
.
所以
.
.
【变式8-2】(25-26高一下·全国·课后作业)国家射击队要从甲、乙、丙、丁四名队员中选出一名选手去参加射击比赛,四人的平均成绩和方差如下表:
甲
乙
丙
丁
平均成绩
8.5
8.8
8.8
8
方差
3.5
3.5
2.1
8.7
则应派____________参赛最为合适.
【答案】丙
【解析】由表可知,丙的平均成绩较高,且发挥比较稳定,应派丙去参赛最合适.
故答案为:丙.
【变式8-3】(20-21高一下·广东广州·期末)为了解学生的课外阅读情况,某校采用样本量比例分配的分层随机抽样对高中三个年级的学生进行平均每周课外阅读时间(单位:小时)的调查,所得样本数据如下:
年级
抽样人数
样本平均数
样本方差
高一
40
5
3.5
高二
30
2
高三
30
3
已知高中三个年级学生的总样本平均数为4.1,总样本方差为3.14,则高二年级学生的样本平均数______,高三年级学生的样本方差______.
【答案】 4 1.5
【解析】由题意得高中三个年级学生的总样本平均数为4.1,
可得,解得;
因为总样本方差为3.14,
所以,
解得.
故答案为:4;1.5.
题型九:借助样本平均数、样本标准差估计总体特征
【典例9-1】(25-26高一下·宁夏银川·期中)某校高一年级开设有羽毛球训练课,期末对学生进行羽毛球五项指标(正手发高远球、定点高远球、吊球、杀球以及半场计时往返跑)考核,满分100分.参加考核的学生有40人,考核得分的频率分布直方图如图所示.
(1)由频率分布直方图,求出图中的值,并估计考核得分的第60百分位数:
(2)现已知直方图中考核得分在内的平均数为75,方差为6.25,在内的平均数为85,方差为0.5,求得分在内的平均数和方差.
(附:设两组数据的样本量、样本平均数和样本方差分别为:,记两组数据总体的样本平均数为,则总体样本方差)
【解析】(1)由题意得:,解得,
设第60百分位数为,则,
解得,第60百分位数为85.
(2)由题意知,落在区间内的数据有个,
落在区间内的数据有个.
由题意,,则.
根据方差的定义,
故得分在内的平均数为81,方差为26.8.
【典例9-2】(25-26高一下·甘肃酒泉·期中)近日,省足球青训中心建成投用,某校为了解学生对足球的热爱程度,随机抽取名学生对足球的“喜爱度”进行评分,将样本的成绩分成这五组,得到如图所示的频率分布直方图.
(1)估计样本成绩的平均数(同一组中的数据用该组区间的中点值作代表);
(2)求样本成绩的中位数(结果保留两位小数);
(3)已知落在内的平均成绩是分,方差是,落在内的平均成绩是分,方差是,求两组成绩合并后的平均数和方差.
附:设两组数据的样本量、样本平均数和样本方差分别为,记两组数据总体的样本平均数为,则总体的样本方差.
【解析】(1)由频率分布直方图得,样本成绩的平均数为.
(2)设中位数为.由,,所以,
所以,解得,
所以样本成绩的中位数为分.
(3)第一组的样本容量,
第二组的样本容量,
所以合并后的平均数,
合并后的方差.
【方法技巧与总结】(用样本平均数和样本标准差估计总体注意事项)
(1)标准差代表数据的离散程度,考虑数据范围时需要加减标准差.
(2)计算样本平均数、样本方差直接利用公式,注意公式的变形和整体代换.
【变式9-1】(25-26高二下·重庆·阶段检测)“2026重庆马拉松”成功举行,某单位承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)求a,b的值;
(2)若面试成绩前的候选者为优秀候选者,请估计优秀候选者成绩的最低分;
(3)现从以上各组中用分层抽样的方法选取20人,担任本次宣传者.若本次宣传者中第二组面试者的面试成绩的平均数和方差分别为62和30,第四组面试者的面试成绩的平均数和方差分别为80和40,据此估计这次第二组和第四组这两组的所有面试者的方差.
【解析】(1)由题意可知,,解得;
(2)由(1)及图知,,
所以面试成绩前候选者(分数从高到低)的最低分位于区间,设为,
所以,可得.
(3)设第二组、第四组的平均数分别为,方差分别为,
且各组频率之比为:
,
所以用分层抽样的方法抽取第二组面试者人,
第四组面试者人,
则第二组和第四组面试者的面试成绩的平均数,
第二组、第四组面试者的面试成绩的方差
,
故估计第二组、第四组面试者的面试成绩的方差是.
【变式9-2】(2026·四川成都·二模)“十五五规划”是中共中央关于制定国民经济和社会发展第十五个五年规划.成都市为了解市民对“十五五规划”的认知程度,对不同年龄、不同职业的市民举办了一次“十五五规划”知识竞赛,满分为100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄大小分成5组,第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图,已知第一组有6人,从该市大学生、军人、医务人员、工人、个体户五种人群中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加“十五五规划”知识竞赛,分别代表相应组的成绩,年龄组中组的成绩分别为93,96,97,94,90,职业组中组的成绩分别为93,98,94,95,90.
(1)求抽取的x人的年龄的中位数(结果保留整数);
(2)分别求5个年龄组和5个职业组成绩的平均数和方差,并以上述数据为依据,评价5个年龄组和5个职业组对“十五五规划”的认知程度.
【解析】(1)设中位数为a,∵第一组的频率为,
第二组的频率为,第三组的频率为,
又,,.
则,,则中位数为32岁.
(2)5个年龄组成绩的平均数为,
方差.
5个职业组成绩的平均数为,
方差为.
所以从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定.
【变式9-3】(25-26高一上·陕西渭南·期末)为了解学生对两家餐厅的满意度情况,现从在两家餐厅都用过餐的学生中随机抽取了50人,每人分别对这两家餐厅的满意度进行打分(分数区间为),将其分数记为满意指数.根据打分结果按分组,得到如图所示的频率分布直方图,其中餐厅的满意指数在内的学生有15人.
(1)求图中的值;
(2)利用样本估计总体的思想,比较两家餐厅满意指数的平均数的大小;
(3)若餐厅满意指数频率分布直方图中第三组满意指数的方差,第四组满意指数的方差,求在餐厅用过餐的第三组与第四组所有学生的满意指数的方差.
(注:本题计算平均数时同一组中的数据用该组区间的中点值作代表)
【解析】(1)餐厅样本容量为50,区间频数为15,对应频率为,
频率分布直方图组距为2,故.
所有区间频率和为,
即,解得,
所以.
(2)餐厅满意指数平均数;
餐厅满意指数平均数.
因为,所以餐厅满意指数的平均数大于餐厅满意指数的平均数.
(3)餐厅第三组频率为0.4,人数为,平均数7,方差2;
第四组人数为,平均数9,方差1,
混合数据平均数,
方差
.
2 / 2
学科网(北京)股份有限公司
$