内容正文:
第19章 数据的分析
19.3 借助箱线图描述数据的分布
学习目标
1. 通过实例理解四分位数(下四分位数、中位数、上四分位数)的概念,明确其在数据分组中的作用.
2.能掌握四分位数的计算步骤,独立完成不同数据组的四分位数计算.
3.学生能解读箱线图,提取其中的最小值、最大值、四分位数信息,分析数据分布特征,并能对比多组数据的分布情况.
上学期我们学习过如何用频数分布直方图来描述数据的分布情况,借助它我们能从图上直观地看出数据集中于哪里,分布是否对称,等等,在学习了中位数概念之后,现在,我们要学习另一种可以用来描述数据分布的统计图——箱线图.
探究新知
探究新知
问题1 某市去年6月30 天的空气质量指数(AQI)如下:72,91,109,69,66,55,85,78,89,61,
87,65,45,53,59,103,115,94,92,90,
74,69,81,70,88,86,62,33,38,40.
怎样描述该市去年6月AQI的分布情况呢?
分析 我们可以使用频数分布表和频数分布直方图描述它们的分布情况:
探究新知
从表 19.3.1和图19.3.1中可以看出:总体而言,该市去年6月AQI的分布基本对称,中间多,两头少,其中有23天(约占全月30天的77%)AQI处于50和 100 之间,类别为良,有4天类别为优,有3天类别为轻度污染.
统计工作者还会使用另一种名为箱线图的统计图来描述一组数据的分布情况.
它主要用到“中位数”这个概念,先用中位数把一组数据一分为二,再用中位数把分好的左、右两侧都再一分为二,也就是将数据平分,再平分,等分为四份.
探究新知
如图 19.3.2,我们将这30个数据从小到大排列,中位数是处在中间的两个数据72和74 的平均数,即73,它处于总体50%的位置,再将左侧的15个数据分成两等份,位于中间的61就是下四分位数,它处于总体25%的位置;同样地,将右侧的数据也分成两等份,位于中间的89就是上四分位数,它处于总体 75%的位置。
探究新知
根据上面求得的结果,可以整理得到表 19.3.2,并绘制图 19.3.3.
探究新知
图19.3.3中包含了5个数据,从下往上看,分别是本组数据的最小值、下四分位数、中位数、上四分位数和最大值,像这样的统计图称为箱线图。
从箱线图可以看出,总体而言,该市去年6月AQI的分布基本对称.其中有约一半的天数 AQI处于61和89之间,还有约四分之一的天数 AQI低于61,另有约四分之一的天数 AQI高于 89.
图 19.3.3显示,“箱体”从中位数到上四分位数的高度是16,从下四分位数到中位数的高度是12,它们容纳了等量的数据(总量的25%),但中位数离上四分位数略远,所以从中位数到上四分位数这个范围里的数据排列略“松散”,波动幅度略大.
思考
要寻找以下信息,可以借助上面的频数分布直方图还是箱线图?
①该市去年6月AQI的最小值和最大值;
② 按 AQI排序分段后,天数最多或最少的那一段;
③ 该市去年6月 AQI不超过 75 的天数;
④该市去年6月空气质量最好的七八天里,AQI的变化范围.
探究新知
频数分布直方图和箱线图都能描述数据的整体分布,但传达信息的侧重点有所不同.画频数分布直方图和箱线图都需要先将一组数据排序,但频数分布直方图是将涵盖数据最小值和最大值的这一整段等距分组后,回答诸如“每一段内有多少个数据”这样的问题;而箱线图则是将所有数据等分为数据量相同的4个组(每组有四分之一总量个数据),通过计算下四分位数、中位数和上四分位数来确定“箱体”的位置,从而回答诸如“中间50%的数据处在哪个范围”这样的问题.
如果一组数据中有特别大或者特别小的异常值,计算机软件在制作箱线图时会自动甄别并标记出来,提示此时用平均数作为这组数据的代表不太合适,
探究新知
1.已知6名学生的期中考试数学成绩(单位:分)分别为
98,100,110,112,116,120,则下四分位数为( )
A
巩固练习
100分 B. 110分
C. 111分 D. 112分
2.下图为某地区2025年5月和6月的空气质量指数(AQI)箱线图,AQI 值越小,空气质量越好;AQI 值超过200,说明污染严重,则下列说法正确的是( )
A. 5月该地区AQI 最大值为150
B. 6月该地区AQI的中位数与5月该地区AQI 的中
位数相同
C. 5月该地区AQI 下四分位数为80
D. 6月该地区AQI最小值小于5月该地区AQI 最小值
巩固练习
B
这节课你有哪些收获?
1.你能说说你对箱线图有怎样的理解吗?.
2.说一说箱线图与其他统计图的区别与联系?
3.简要陈述制作箱线图的一般步骤?
总结
作业布置
作业:
教材第184页 习题.
2026/3/1
15
$