内容正文:
13.5估计总体的数字特征(第2课时)
沪教版2020必修第三册
第 13章 统计
当我们获得一组样本数据时 , 通常很难一眼看出其中的规
律 , 而用图表则可以使得数据变得更为直观 . 此外 , 我们还可以利用样本数据进行适当的计算来得到一些新的数量 , 并用这些新的数量来代表整个样本数据的某些特征
我们把能反映一组数据某种特征的量称为这组数据的 数字特
征 . 我们在初中阶段学习过的平均数 、 中位数和众数等 , 就是用来刻画一组数据集中趋势的数字特征 , 而方差和标准差则是用来刻画一组数据离散程度的数字特征
本节中我们讨论了用样本的频率分布来估计总体的分布 . 同
样地 , 我们还可用样本的数字特征来估计总体的数字特征
2. 1 通过样本估计总体的集中趋势
利用初中阶段学习过的平均数 、 中位数和众数 , 我们可以描
述有限样本的集中趋势 . 例如 , 设样本数据为 x 1 、 x 2 、…、 xn ,由公式
就得到样本平均数 , 它描述了样本数据的平均水平 . 如果 n 个数据中不同的数据 x1 、 x 2 、…、 xn的频数分别为 f1 、 f 2 、…、fk , 那么样本平均数为
当数据量大且重复率高时 , 后一个公式可减少计算量
某公司实行薪资保密制度 , 员工只知道自己的工作所得 , 而
不知道其他员工的薪资 . 现要了解该公司员工的平均年薪 、 中等年薪以及赚取人数最多的那种年薪 . 在公司员工的花名册中随机抽取 15 名员工 , 调查得到这 15 名员工的年薪 ( 单位 : 万元 )如下 :
公司全体员工的平均年薪可用样本的平均数来估计 , 员工的中等年薪可用样本的中位数来估计 , 而赚取人数最多的那种年薪可用样本的众数来估计
把所有年薪从低到高排序 , 中间第 8 个数 8. 2 即是样本中位数 .8. 1 出现了 3 次 , 次数最多 , 即样本的众数为 8. 1
于是 , 我们估计该公司员工的平均年薪可能为 8. 7 万元 , 中等年薪可能为 8. 2 万元 , 赚取 8. 1 万元年薪的可能性最大 . 当然 ,这样的估计是否合理 , 还取决于样本的容量与代表性
例2. 为了解某体校学生跑步的情况 , 观察随机抽取的20 名学生一周内跑步的累计数 ( 单位 : km ), 在各区间内的频数记录如表 13-6 所示 .
试估计一周内该校学生平均跑步累计数 .
解 先求出各区间的中点值 : 8 、 13 、 18 、 23 、 28 、 33 、 38.则一周内这 20 名学生跑步累计的平均数为
由于这 20 名学生是随机抽取的 , 因此可以估计一周内该校
学生平均跑步累计约 24. 5km.
2. 2 通过样本估计总体的离散程度
现在我们介绍如何用数量来描述数据的另外一种统计特
征 ——— 样本数据的离散程度 .
在一次男子 10 米气手枪射击比赛中 , 甲运动员的成绩 ( 单位 :环 ) 为 7. 5 、 7. 8 、… 、 10. 9 ; 乙运动员的成绩为 8. 4 、 8. 5 、… 、10. 7 , 如图 13-5-3 所示 .
射击队想从两位选手中选取一名外出参加比赛 , 经过计算可
知 , 两位选手 20 次射击的平均环数都是 9. 6 , 但从图 13-5-3 中看 , 甲的成绩比较分散 , 乙的成绩则相对稳定在高环数段 . 但看上去 “ 比较分散 ” 和 “ 相对稳定 ” 只是一种直观的描述 , 我们需要用一些具有统计意义的数量来刻画数据的波动情况
设样本数据为 x1 、 x2 、…、 xn , 我们知道 表示的是样本平均数 . 在 13. 4 节中我们已学习过极差 , 它反映了样本数据变化的最大幅度 , 是样本数据离散程度的一种刻画方式 . 极差对极端数据很敏感 , 也就是说它是不稳定的 .
此外 , 在初中阶段我们已学习过用样本数据的方差
来衡量一组数据的波动大小 . 一组数据的方差越大 , 表明这组数
据波动越大 .
我们把方差的算术平方根
叫做样本数据的 标准差 ( standarddeviation ), 它同样是一个用来衡量样本数据波动大小的统计量
方差和标准差都反映了一组数据围绕平均数波动的大小 , 方
差的单位是观测数据的单位的平方 , 而标准差的单位与观测数据的单位一致 , 因此我们常常用标准差来描述数据的离散程度
我们可以得出上述例子中甲 、 乙两名运动员的射击成绩的标
准差 :
由于 S甲 > S乙 , 说明甲的成绩确实较乙的成绩更为离散 , 即
乙的成绩较为稳定 , 与从茎叶图上观察到的结论一致 , 射击队应选拔乙参加比赛
例3. 在 13. 4 节中 , A 校抽取了 66 名高一年级学生 , 测量他们的身高数据 , 如表 132 所示