内容正文:
9.2 用样本估计总体
第九章 统计
9.2.3 总体集中趋势的估计
复习引入
1.第p百分位数的定义是什么?
2.频率分布直方图估计百分位数的原理是什么?
3.众数、中位数、平均数的意义分别是什么?
4. 根据9.2.1节中100户居民用户的月均用水量数据的频率分别直方图9.2-1,如何估计众数、中位数、平均数?
1.第p百分位数的定义是什么?
至少p%数据≤该值,至少(100−p)%数据≥该值.
3
2.频率分布直方图估计百分位数的原理是什么?
利用频率分布直方图的矩形面积(频率)累加,通过线性插值找到累计频率为 p% 的对应值来估计百分位数.
3.众数、中位数、平均数的意义分别是什么?
众数:一组数据中出现次数最多的数,反映数据中最普 遍的情况,对极端值不敏感.
中位数:将数据从小到大排列后,处于中间位置的数,只与中间位置的数据有关,对极端值不敏感.
平均数:所有数据的算术平均值,与每一个数据都有关,对极端值敏感.
众数:众数取最高矩形底边中点横坐标,
本题最高矩形对应区间[4.2,7.2)
众数==5.7
4.根据9.2.1节中100户居民用户的月均用水量数据的频率分别直方图9.2-1,如何估计众数、中位数、平均数?
中位数:易知中位数落在区间[4.2,7.2)上,设中位数为x,列面积方程:
前一组累计面积+中位数所在区间左侧面积=0.5
即0.077×3+ 0.107 ×(x-4.2)=0.5,解得:x≈6.71
平均数:样本平均数 = 各组组中值 × 本组频率,再全部求和;
=0.077×3× + 0.107×3×+…+ 0.007×3× =8.96.
请同学们阅读教材.
在上述案例计算中,如何提炼求众数、中位数、平均数的一般原理?
教材导学
阅读教材:
1.平均数、中位数、众数,三者的关系与分布形态如何?
2. 在频率分布直方图中如何估计平均数、中位数、众数?
1. 平均数、中位数、众数,三者的关系与分布形态如何?
(1)对称分布:平均数≈中位数.
(2)右偏分布(数据右尾长):平均数 > 中位数.
(3)左偏分布(数据左尾长):平均数 < 中位数.
2. 在频率分布直方图中如何估计平均数、中位数、众数?
众数:最高矩形底边中点数值;
中位数:左右面积各0.5,锁定区间后线性插值;
(频率分布直方图上所有矩形面积平分线的横坐标)
平均数:各组组中值×对应矩形面积,累加求和.
拓展探究
1. 小明用统计软件计算了100户居民用水量的平均数和中位数. 但在录入数据时,不小心把一个数据7.7录成了77. 请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较. 哪个量的值变化更大?
2. 为什么说众数更适合描述分类数据的集中趋势?
3.假如你到人力市场去找工作,有一个企业老板告诉你,我们企业员工的年平均收入是 20 万,你该如何理解这句话?
4.在频率分布直方图中估计平均数、中位数的前提假设是什么?这种估计方法可能存在哪些误差?
1. 小明用统计软件计算了100户居民用水量的平均数和中位数. 但在录入数据时,不小心把一个数据7.7录成了77. 请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较. 哪个量的值变化更大?
(1)平均数有所变化;样本的平均数与每个数据有关,样本中的每一个数据的变化都能引起平均数的变化;
(2)中位数只与样本数据中间位置的一个或两个值有关,与其他数据无关,所以不是任何一个样本数据的改变都会引起中位数的改变.
与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.
2.为什么说众数更适合描述分类数据的集中趋势?
众数是一组数据中出现次数最多的数值.
分类数据(如颜色、职业、性别等非数值型数据)无法计算平均数和中位数(既不能求和也无法排序取中间值),但可以统计各类别出现的频次,出现次数最多的类别就是众数,能直接反映分类数据最普遍的情况,所以众数更适合描述分类数据的集中趋势.
3. 假如你到人力市场去找工作,有一个企业老板告诉你,我们企业员工的年平均收入是 20 万,你该如何理解这句话?
这句话是真实的,但它可能描述的是差异巨大的实际情况.
例如,可能这个企业的工资水平普遍较高,也就是员工年收入的中位数、众数与平均数差不多;也可能是绝大多数员工的年收入较低(如大多数是5万元左右),而少数员工的年收入很高,甚至达到100万元,在这种情况下年收入的平均数就比中位数大得多.
尽管在后一种情况下,用中位数或众数比用平均数更合理些,但这个企业的老板为了招揽员工,却用了平均数.
所以,我们要强调“用数据说话”,但同时又要防止被数据误导,这就需要掌握更多的统计知识和方法.
4.在频率分布直方图中估计平均数、中位数的前提假设是什么?这种估计方法可能存在哪些误差?
前提假设是组内数据均匀分布.
误差来源包括:
①组内分布假设偏差;
②分组丢失细节;
③极端值影响被弱化.
1. 一组数据的众数是唯一的吗?
不一定.
一组数据中,出现次数最多的数可能有多个.
例如:数据 1, 2, 2, 3, 3, 4 中,2和3都出现了2次且次数最多,这组数据就有两个众数:2和3.
巩固应用
不一定.
频率分布直方图是对数据的分组近似,计算时假设每组内的数据均匀分布,这是一种估计值;而原始数据的中位数是根据真实数据计算得到的精确值,两者可能存在差异.
2.频率分布直方图估计的中位数一定和原始数据的中位数完全一致吗?
3.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
(3)求这次测试数学成绩的平均分.
解:(1)如图,众数在最高矩形底边中点数值;
即(70,80)的中点处,
∴众数==75.
(2)中位数为频率分布直方图上所有矩形面积平分线的横坐标
∵0.005×10=0.05,
0.015×10=0.15,
0.02×10=0.2,
0.03×10=0.3
∴中位数落在区间[70,80)内,
设中位数是x ,则
0.05 + 0.15 + 0.2 + (x - 70)·0.03 = 0.5
解得,x ≈ 73.3
∴中位数约为73.3
(3)平均数为各组组中值×对应矩形面积,累加求和.
∴平均数=45 × 0.005 × 10 + 55 × 0.015 × 10 + 65 × 0.02 × 10 + 75 × 0.03 × 10 + 85 × 0.025 × 10 + 95 × 0.005 × 10=72.
小结
1. 知识总结
(1)三个统计量:平均数、中位数、众数的定义与特点.
(2)两类计算:原始数据的精确计算;频率分布直方图的估计方法.
(3)一个核心思想:用样本的集中趋势估计总体的集中趋势.
(4)一个关键提醒:结合实际背景选择合适的统计量,避免被数据误导.
2. 平均数、中位数、众数的混淆.
22
作业
《课时作业》
9.2.3 总体集中趋势的估计
$