内容正文:
9.2.2 总体百分位数的估计
【学习目标】
1.结合具体实例,理解百分位数的含义,并用样本百分位数估计总体百分位数,提高学生对统计意义的理解程度.
2.在样本估计总体的过程中,逐步形成统计思维,提高学生数据分析能力和数据表达能力,逐步树立用数据分析问题、解释生活现象的意识.
◆ 知识点 百分位数
1.第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按 排列原始数据.
第2步,计算i= .
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第 项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的 .
3.四分位数
, , 这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
其中第25百分位数也称为 或 等,第75百分位数也称为第三四分位数或 等.
【诊断分析】 1.判断下列说法的正误.(正确的打“√”,错误的打“×”)
(1)若一组样本数据各不相等,则其第75百分位数大于第25百分位数. ( )
(2)若一组样本数据的第10百分位数是23,则在这组数据中有10%的数据大于23. ( )
(3)若一组样本数据的第24百分位数是24,则在这组数据中至少有76%的数据大于或等于24. ( )
(4)在1~100这100个整数中,上四分位数是75.5. ( )
(5)中位数相当于是第50百分位数. ( )
2.某组数据的第p百分位数在此组数据中一定存在吗?为什么?
◆ 探究点一 百分位数的概念
例1 (多选题)下列关于百分位数的说法中,正确的是 ( )
A.一组数据中不同的百分位数可能相等
B.百分位数一定是数据中的某一项
C.一个总体的四分位数有3个
D.样本容量越大,第p百分位数估计总体就越准确
变式 (多选题)已知100个数据的第70百分位数是9.3,则下列说法正确的是 ( )
A.这100个数据中至少有70个数据小于或等于9.3
B.把这100个数据从小到大排列后,9.3是第70个数据
C.把这100个数据从小到大排列后,9.3是第70个数据和第71个数据的平均数
D.把这100个数据从小到大排列后,9.3是第70个数据和第69个数据的平均数
[素养小结]
百分位数是用于衡量数据的位置的量度,但它所衡量的不一定是中心位置.百分位数提供了有关数据如何在最小值与最大值之间分布的信息.
◆ 探究点二 由样本数据求百分位数
例2 (1)从某公司生产的产品中,任意抽取12件,得到它们的质量(单位: kg)如下:
7.9,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
则这组数据的25%分位数为 ,75%分位数为 ,95%分位数为 .
(2)求下列数据的四分位数.
13,15,12,27,22,24,28,30,31,18,19,20.
变式 (1)2024年巴黎奥运会奖牌榜前8名的金牌数依次为40,40,20,18,16,15,14,13,这组数据的下四分位数为 ( )
A.13 B.13.5
C.14 D.14.5
(2)已知一组数据1,1,2,3,m,2m,1的第60百分位数为2,其中m∈N*,则这组数据的极差为 .
[素养小结]
设一组数按照从小到大的顺序排列后为x1,x2,…,xn,要求这组数的第p百分位数,先计算i=n×p%的值,如果i不是整数,设i0为大于i的最小整数,那么取为第p百分位数;如果i是整数,那么取为第p百分位数.
◆ 探究点三 由频数(频率)分布表求百分位数
例3 某企业成立的党史学习教育督查组为调研本单位的党史学习情况,采用比例分配的分层随机抽样方法从该企业抽取一个容量为100的样本,经过数据搜集与处理,得到如下频数分布表:
周学习党史时间
(单位:分钟)
[0,
30)
[30,
60)
[60,
90)
[90,
120)
[120,
150]
高层管理人员
0
0
1
0
2
中层管理人员
1
0
2
2
4
普通员工
9
12
45
20
2
(1)已知该企业的中、高层管理人员共有120人,求该企业普通员工的人数;
(2)为激励先进、鞭策后进,督查组拟公布该企业全体人员的周学习党史时间的平均数P(同一组中的数据用该组区间的中点值作为代表)、第25百分位数M及第75百分位数N,试求P,M,N的估计值(精确到0.1).
变式 (1)如表为某平台向公众征集的某电影的评分结果,根据表格可以估计评分的60%分位数约为 ( )
评分(分)
(0,1]
(1,2]
(2,3]
(3,4]
(4,5]
人数占比(%)
1.0
3.2
13.6
34.2
48.0
A.3.98 B.4.03
C.4.17 D.4.38
(2)某学校高二12个班级某次朗诵比赛的得分情况如表,则得分的第75百分位数是 .
班级得分
9
9.2
9.4
9.6
9.8
10
频数
1
2
2
4
1
2
[素养小结]
在由频率分布表求百分位数的问题中,题目给出的分布表与原始数据相比,损失了一些信息,不知道这些具体数据的情况,在求解时,可以把它们看成均匀地分布在某区间上.
◆ 探究点四 由频率分布直方图求百分位数
例4 全国文明城市创建工作是一项长期的系统工程,需要广大市民自觉参与.为了增进全体市民对创建文明城市工作的了解,某学校组织学生开展文明城市应知应会知识测试活动,现把50名学生的成绩绘制成了如图所示的频率分布直方图,根据图中数据回答下列问题:
(1)求a的值;
(2)试估计此样本数据的75%分位数.
变式 (1)(多选题)某市为了了解该市的“全民健身运动”的开展情况,从全体市民中随机调查了100位市民每天的健身运动时间(单位:分钟),所得数据都在区间[5,40]内,其频率分布直方图如图所示,则 ( )
A.估计市民健身运动时间的样本数据的25%分位数为18.75
B.估计市民健身运动时间的样本数据的50%分位数在[20,25)内
C.估计市民健身运动时间的样本数据的75%分位数是28
D.估计市民健身运动时间的样本数据的90%分位数在[35,40)内
(2)某营养学研究人员用随机抽样的方法获得了某高校100名女大学生平均每日摄取的热量(单位:千大卡,1千大卡=1000千卡),这组数据的频率分布直方图如图所示.
①健康的成年女性每天需要摄取1.80~1.90千大卡(不含1.90千大卡)的热量,试估计该校有百分之多少的女大学生摄取的热量在此范围之内;
②已知[1.9,2.0)内的数据为1.9,1.9,1.91,1.91,1.91,1.93,1.94,1.94,1.95,1.95,1.96,1.96, 1.97, 1.98,1.99,若1.91是这100个样本数据的第k百分位数,求正整数k的值.
[素养小结]
根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算,其次估计百分位数在哪一组,再利用方程的思想方法,设出百分位数,解方程可得.
9.2.2 总体百分位数的估计
【课前预习】
知识点
2.从小到大 n×p% j 平均数
3.第25百分位数 第50百分位数 第75百分位数
第一四分位数 下四分位数 上四分位数
诊断分析
1.(1)√ (2)× (3)√ (4)√ (5)√ [解析] (2)这组数据中应至少有10%的数据小于或等于23.
2.解:不一定.因为按照计算第p百分位数的步骤,第2步计算i=n×p%,若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数,若第i项与第(i+1)项数据不相等,则第p百分位数在此组数据中就不存在.
【课中探究】
探究点一
例1 ACD [解析] 对于A,根据百分位数的定义,可知一组数据中不同的百分位数可能相等,故A正确.对于B,百分位数可能是数据中的某一项,也可能是某两个数据的平均数,故B错误.对于C,一个总体的四分位数分别是第25百分位数、第50百分位数、第75百分位数,故C正确.对于D,样本容量越大,第p百分位数估计总体就越准确,故D正确.故选ACD.
变式 AC [解析] 对于A,根据百分位数的定义知,这100个数据中至少有70个数据小于或等于9.3,故A正确;对于B,C,D,因为100×70%=70,为整数,所以把这100个数据从小到大排列后,第70个数据和第71个数据的平均数为这组数据的第70百分位数,所以9.3不一定是第70个数据,9.3也不一定是第70个数据和第69个数据的平均数,故C正确,B,D错误.故选AC.
探究点二
例2 (1)8.15 8.75 9.9 [解析] 将所有数据从小到大排列,得7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,因为共有12个数据,所以12×25%=3,12×75%=9,12×95%=11.4,则25%分位数是=8.15,75%分位数是=8.75,95%分位数是第12个数据9.9.
(2)解:把这12个数据按从小到大的顺序排列,可得12,13,15,18,19,20,22,24,27,28,30,31.因为12×25%=3,12×50%=6,12×75%=9,所以这组数据的第25百分位数为=16.5,第50百分位数为=21,第75百分位数为=27.5.
变式 (1)D (2)2或3 [解析] (1)将这组数据从小到大排列为13,14,15,16,18,20,40,40,由于8×25%=2,故这组数据的下四分位数为=14.5,故选D.
(2)因为7×60%=4.2,所以第60百分位数为将这组数据从小到大排列后的第5个数.当m=1时,将数据从小到大排列为1,1,1,1,2,2,3,第5个数为2,满足题意,此时极差为3-1=2;当m=2时,将数据从小到大排列为1,1,1,2,2,3,4,第5个数为2,满足题意,此时极差为4-1=3;当m≥3,m∈N*时,将数据从小到大排列为1,1,1,2,3,m,2m,第5个数为3,不满足题意.故这组数据的极差为2或3.
探究点三
例3 解:(1)设该企业普通员工的人数为n,因为样本中普通员工有88人,高层管理人员和中层管理人员共有12人,
所以=,解得n=880,
所以该企业普通员工的人数为880.
(2)根据样本数据可得频数分布表如下:
周学习党史时间
(单位:分钟)
[0,
30)
[30,
60)
[60,
90)
[90,
120)
[120,
150]
企业人员
10
12
48
22
8
所以估计周学习党史时间的样本数据的平均数为×(15×10+45×12+75×48+105×22+135×8)=×7680=76.8(分钟).
因为10+12<25<10+12+48,所以周学习党史时间的样本数据的第25百分位数在区间[60,90)内,
由60+30×≈61.9,可以估计周学习党史时间的样本数据的第25百分位数约为61.9.
因为10+12+48<75<10+12+48+22,所以周学习党史时间的样本数据的第75百分位数在区间[90,120)内,
由90+30×≈96.8,可以估计周学习党史时间的样本数据的第75百分位数约为96.8,
用样本估计总体,可知P的估计值为76.8,M的估计值约为61.9,N的估计值约为96.8.
变式 (1)C (2)9.7 [解析] (1)1.0%+3.2%+13.6%+34.2%=52%<60%,设评分的60%分位数为x,则×48%=60%-52%,解得x≈4.17,所以估计评分的60%分位数约为4.17.故选C.
(2)将12个班级的得分按照从小到大排序为9,9.2,9.2,9.4,9.4,9.6,9.6,9.6,9.6,9.8,10,10,因为12×75%=9,所以得分的第75百分位数是=9.7.
探究点四
例4 解:(1)由频率分布直方图得(0.004+0.006+a+0.030+0.024+0.016)×10=1,所以a=0.020.
(2)数据在[40,80)内的频率为(0.004+0.006+0.020+0.030)×10=0.6,数据在[40,90)内的频率为0.6+0.024×10=0.84,因此此样本数据的75%分位数m∈[80,90).由0.6+(m-80)×0.024=0.75,解得m=86.25,所以估计此样本数据的75%分位数为86.25.
变式 (1)ABC [解析] 对于A,健身运动时间在[5,20)内的频率为(0.01+0.01+0.04)×5=0.3=30%,在[5,15)内的频率为(0.01+0.01)×5=0.1=10%,因此25%分位数一定在[15,20)内,且为15+5×=18.75,A正确;对于B,健身运动时间在[5,20)内的频率为0.3=30%,在[5,25)内的频率为(0.01+0.01+0.04+0.06)×5=0.6=60%,因此50%分位数一定在[20,25)内,B正确;对于C,健身运动时间在[5,30)内的频率为(0.01+0.01+0.04+0.06+0.05)×5=0.85=85%,在[5,25)内的频率为0.6=60%,因此75%分位数一定在[25,30)内,且为25+5×=28, C正确;对于D,健身运动时间在[5,35)内的频率为(0.01+0.01+0.04+0.06+0.05+0.02)×5=0.95=95%,在[5,30)内的频率为0.85=85%,因此90%分位数一定在[30,35)内,D错误.故选ABC.
(2)解:①由题意得0.1×(0.6+1.1+1.1+1.8+a+1.5+0.8+0.6+0.4)=1,解得a=2.1,故估计该校有2.1×0.1×100%=21%的女大学生摄取的热量在此范围之内.
②在区间[1.4,1.9)内有100×0.1×(0.6+1.1+1.1+1.8+2.1)=67(个)数据,所以1.91是这100个样本数据的第70,71,72个数据,则第70,71个数据的平均数,和第71,72个数据的平均数均为1.91,同时,第69,70个数据的平均数,和第72,73个数据的平均数都不是1.91,所以当1.91是这100个样本数据的第k百分位数时,必有k=70或k=71,故k的值为70或71.
学科网(北京)股份有限公司
$