内容正文:
5.1.2 数据的数字特征
第1课时 最值、平均数、中位数、百分位数、众数
课程标准
素养解读
1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数)
2.理解集中趋势参数的统计含义
在学习和应用平均数、中位数和众数的过程中,要进行运算,对数据进行分析,发展学生的数学运算素养和数据分析素养
[情境引入]
现从甲、乙、丙三个厂家生产的同一种家电产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下:(单位:年)
甲:3,4,5,6,8,8,8,10;乙:4,6,6,6,8,9,12,13;丙:3,3,4,7,9,10,11,12,
问题 三家广告中都称其产品的使用寿命为8年,利用初中所学的知识,你能说明为什么吗?
提示 三个厂家是从不同角度进行了说明,以宣传自己的产品.其中甲:众数为8年,乙:平均数为8年,丙:中位数为8年.
[知识梳理]
[知识点一]
一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数 最极端 的情况.一般地,最大值用 max 表示,最小值用 min 表示.
[知识点二] 众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数最多的数
众数通常用于描述变量的中心位置,但显然它对其他数据信息的忽视使得其无法客观地反映总体特征
中位数
把一组数据按大小顺序排列,处在 中间 位置的一个数据(或两个数据的平均数)
中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数x1,x2,x3,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
1.一组数据的众数可以是一个或几个也可以没有,那么中位数是否也具有相同的结论?
提示:中位数在一组数据中一定存在且是唯一的.
2.如何通过频率分布直方图确定众数、中位数、平均数?
提示:(1)众数是最高矩形底边的中点.
(2)中位数左边和右边的直方图面积相等,由此来估计中位数的值.
(3)平均数是频率分布直方图的“重心”,它等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
[知识点三] 百分位数
1.第p百分位数的定义
笫50百分位数就是中位数,中位数是百分位数的特例,百分位数是中位数的推广
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有 p% 的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按 从小到大 排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的 平均数 .
3.四分位数
25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数,其中第25百分位数也称为第一四分位数或下四分位数,第75百分位数也称为第三四分位数或上四分位数.
3.班级人数为50的班主任老师说“90%的同学能够考取本科院校”,这里的“90%”是百分位数吗?
提示:不是.是指能够考取本科院校的同学占同学总数的百分比.
4.“这次数学测试成绩的第70百分位数是85分”这句话是什么意思?
提示:有70%的同学数学测试成绩小于或等于85分.
[预习自测]
1.某题的得分情况如下:
得分(分)
0
1
2
3
4
百分率(%)
37.0
8.6
6.0
28.2
20.2
其中众数是( )
A.37.0% B.20.2%
C.0分 D.4分
解析:C [众数出现的频率最大,故选C.]
2.一组观察值4,3,5,6出现的次数分别为3,2,4,2,则样本平均值为( )
A.4.55 B.4.5
C.12.5 D.1.64
解析:A [由条件得=(4×3+3×2+5×4+6×2)≈4.55.]
3.下列数据的中位数和众数分别是( )
79,84,84,86,84,87,93
A.84,84 B.84,86
C.85,84 D.86,84
解析:A [把数据由小到大排列得79,84,84,84,86,87,93,可知众数和中位数都是84.]
4.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为 ________ ,第86百分位数为 ________ .
解析:∵75%×20=15,∴第75百分位数为=14.5.∵86%×20=17.2,∴第86百分位数为第18个数据17.
答案:14.5 17
众数、中位数、平均数意义的应用
1.中位数利用了中间数据的信息.当样本数据质量比较差,即存在一些错误数据时,应该用抗极端性很强的中位数表示数据的中心值.
2.如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息.
3.在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
4.实际问题中求得的平均数、众数和中位数应带上单位.
[例1] 高一(3)班有男同学27名,女同学21名,在一次语文测验中,男同学的平均分是82分,中位数是75分,女同学的平均分是80分,中位数是80分.
(1)求这次测验全班的平均分(精确到0.01分);
(2)估计全班成绩在80分以下(含80分)的同学至少有多少人?
(3)分析男同学的平均分与中位数相差较大的主要原因.
[思路点拨] 根据平均数和中位数的定义解决.
[解析] (1)利用平均数计算公式得=×(82×27+80×21)≈81.13(分).
(2)∵男同学成绩的中位数是75分,
∴至少有14人得分不超过75分.
又∵女同学成绩的中位数是80分,
∴至少有11人得分不超过80分.
∴估计全班至少有25人得分低于80分(含80分).
(3)男同学的平均分与中位数的差别较大,说明男同学的成绩中两极分化现象严重,分数高的和低的相差较大.
如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.众数、中位数、平均数都是描述一组数据集中趋势的量,其中平均数的大小与一组数据中的每个数的大小均有关系,任何一个数据的变化都会引起平均数的变动.
[变式训练]
1.贵阳地铁1号线于2017年12月28日开通运营,某机车某时刻从下麦西站驶往贵阳北站的过程中,10个车站上车的人数统计如下:70,60,60,50,60,40,40,30,30,10,则这组数据的众数、平均数、中位数的和为( )
A.170 B.165
C.160 D.150
解析:D [把数据从小到大排列为:10,30,30,40,40,50,60,60,60,70,则这组数据的众数为60,中位数为(40+50)=45,平均数为(10+30+30+40+40+50+60+60+60+70)=45,故三者之和为60+45+45=150.]
利用众数、中位数、平均数估计总体
[例2] 据了解,某公司的33名职工月工资(单位:元)如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
11 000
10 000
9 000
8 000
6 500
5 500
4 000
(1)求该公司职工月工资的平均数、中位数、众数;
(2)假设副董事长的工资从10 000元提升到20 000元,董事长的工资从11 000元提升到30 000元,那么新的平均数、中位数、众数又是多少?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
[思路点拨] 先根据众数、中位数、平均数的概念进行求解,然后根据众数、中位数、平均数反映的数字特征来进行讨论.
[解] (1)平均数是:=4 000+
≈4 000+1 333=5 333(元).
中位数是4 000元,众数是4 000元.
(2)平均数是′=4 000+
≈4 000+2 212=6 212(元),
中位数是4 000元,众数是4 000元.
(3)在这个问题中,中位数和众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.
众数、中位数、平均数的意义
(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算、不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均教的影响也越大.
(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,可用中位数描述其集中趋势.
[变式训练]
2.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄(单位:岁)如下:
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?
其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?
其中哪个统计量能较好地反映乙群市民的年龄特征?
解:(1)甲群市民年龄的平均数为
=15(岁),
中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为
=15(岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
百分位数的计算
[例3] 从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
7.9,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的第25,50,95百分位数;
(2)请你找出珍珠质量较小的前15%的珍珠质量;
(3)若用第25,50,95百分位数把公司生产的珍珠划分为次品、合格品、优等品和特优品,依照这个样本的数据,给出该公司珍珠等级的划分标准.
[思路点拨] 直观来说,一组数的第p百分位数指的是将这组数按照从小到大的顺序排列后,处于p%位置的数.
[解] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,
所以12×25%=3,12×50%=6,12×95%=11.4,
则第25百分位数是=8.15,
第50百分位数是=8.5,
第95百分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则第15百分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8,7.9.
(3)由(1)可知样本数据的第25百分位数是8.15 g,第50百分位数为8.5 g,第95百分位数是9.9 g,所以质量小于或等于8.15 g的珍珠为次品,质量大于8.15 g且小于或等于8.5 g的珍珠为合格品,质量大于8.5 g且小于或等于9.9 g的珍珠为优等品,质量大于9.9 g的珍珠为特优品.
计算一组n个数据的第p百分位数的一般步骤:
(1)排列:按照从小到大排列原始数据;
(2)算i:计算i=n×p%;
(3)定数:若i不是整数,大于i的最小整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
[变式训练]
3.如图所示是某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,由图可知这10天最低气温的第80百分位数是( )
A.-2 B.0
C.1 D.2
解析:D [由折线图可知,这10天的最低气温按照从小到大的排列为:-3,-2,-1,-1,0,0,1,2,2,2,因为共有10个数据,所以10×80%=8,是整数,则这10天最低气温的第80百分位数是=2.]
百分位数的综合应用
[例4] 某市为了鼓励居民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用低于260元的占80%,求a,b的值;
(3)根据(2)中求得的数据计算用电量的75%分位数.
[思路点拨] 频率分布直方图中第p百分位数的求解方法可以模仿中位数的求解思路:
(1)确定第p百分位数所在的区间[a,b).
(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+×(b-a).
[解] (1)当0≤x≤200时,y=0.5x;
当200<x≤400时,
y=0.5×200+0.8×(x-200)=0.8x-60;
当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y与x之间的函数解析式为
y=
(2)由(1)可知,当y=260时,x=400,即用电量低于400千瓦时的占80%,
结合频率分布直方图可知
解得a=0.001 5,b=0.002 0.
(3)设75%分位数为m,
因为用电量低于300千瓦时的所占比例为
(0.001+0.002+0.003)×100=60%,
用电量低于400千瓦时的占80%,
所以75%分位数m在[300,400)内,
所以0.6+(m-300)×0.002=0.75,
解得m=375(千瓦时),即用电量的75%分位数为375千瓦时.
由频率分布直方图求百分位数的方法
(1)要注意频率分布直方图中小矩形的面积,就是数据落在该组的频率.
(2)一般采用方程的思想,设出第p百分位数,根据其意义列出方程并求解即可.
[变式训练]
4.某市为了了解人们对“中国梦”的伟大构想的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有5人.
(1)求x;
(2)求抽取的x人的年龄的50%分位数(结果保留整数);
(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99,求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对“一带一路”的认知程度,并谈谈你的感想.
解:(1)第一组频率为0.01×5=0.05,
所以x==100.
(2)由图可知年龄低于30岁的所占比例为40%,年龄低于35岁的所占比例为70%,所以抽取的x人的年龄的50%分位数在[30,35)内,由30+5×=≈32,所以抽取的x人的年龄的50%分位数为32.
(3)把参赛的10人的成绩按从小到大的顺序排列:
88,90,92,92,95,96,96.97,98,99,
计算10×20%=2,所以这10人成绩的20%分位数为=91,这10人成绩的平均数为
(88+90+92+92+95+96+96+97+98+99)=94.3.
评价:从第20百分位数和平均数来看,参赛人员的认知程度很高.
感想:略(结合本题和实际,符合社会主义核心价值观即可).
1.一组样本数据按从小到大的顺序排列为13,14,19,x,23,27,28,31,其中位数为22,则x等于( )
A.21 B.22 C.20 D.23
解析:A [根据题意知,中位数22=,则x=21.]
2.下列关于50%分位数的说法正确的是( )
A.50%分位数不是中位数
B.总体数据中的任意一个数小于它的可能性一定是50%
C.它是四分位数
D.它适用于总体是离散型的数据
解析:C [由百分位数的意义可知选项A,B,D错误.]
3.已知一组数据为10,20,30,40,40,40,50,60,70,其中平均数、中位数、众数的大小关系为( )
A.平均数>中位数>众数
B.平均数<中位数<众数
C.中位数<众数<平均数
D.中位数=众数=平均数
解析:D [中位数、众数、平均数均为40.]
4.某学生几次数学测试成绩为53,60,63,71,74,75,80,则该学生这几次数学测试的平均成绩为 ________ .
解析:所求的平均成绩为×(53+60+63+71+74+75+80)=68.
答案:68
5.求下列数据的四分位数.
13,15,12,27,22,24,28,30,31,18,19,20,
解:把12个数据按从小到大的顺序排列可得:
12,13,15,18,19,20,22,24,27,28,30,31,
计算12×25%=3,12×50%=6,12×75%=9,
所以数据的第25百分位数为=16.5,
第50百分位数为=21,
第75百分位数为=27.5
学科网(北京)股份有限公司
$$