内容正文:
5.1.4 用样本估计总体
知识梳理
用样本的数字特征估计总体的数字特征
一般情况下,如果样本的容量恰当,抽样方法又合理的话,样本的特征能够反映总体的特征.特别地,样本平均数(也称为样本均值)、方差(也称为样本方差)与总体对应的值相差不会太大.在容许一定误差存在的前提下,可以用样本的数字特征去估计总体的数字特征,这样就能节省人力和物力等.所以,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.
2
问题1.用样本的数字特征估计总体的数字特征
问题2:分层抽样下用样本的数字特征估计总体的数字特征
用样本的分布来估计总体的分布
如果样本的容量恰当,抽样方法又合理的话,样本的分布与总体分布会差不多.特别地,每一组的频率与总体对应的频率相差不会太大.
如果容许有一定误差,则可以用样本的分布去估计总体的分布.而且,在总体的分布不可能获得时,只能用样本的分布去估计总体的分布.同数字特征的估计一样,分布的估计一般也有误差.
如果总体在每一个分组的频率记为π1,π2,…,πn,样本在每一组对应的频率记为p1,p2,…,pn,一般来说,
(πi-pi)2= [(π1-p1)2+(π2-p2)2+…+(πn-pn)2]
不等于零.同样,大数定律可以保证,当样本的容量越来越大时,上式很小的可能性将越来越大.
依照上述公式可以算出,前述尝试与发现(2)中总体的平均数可以估计为167.86,总体的方差可以估计为25.98.
问题3.用样本的分布估计总体的分布
如果从上述尝试与发现中提到的数据中,抽取两个容量为100的样本,则可以得到如下频数、频率对应表:
频率分布直方图的关系
众数、中位数、平均数与
温故知新:
初中统计部分曾学过用什么来反映总体的水平?
用什么来考察稳定程度?它们是怎么定义的?
1、众数:在一组数据中,出现次数最多的数据叫做
这组数据的众数
在初中我们学过用平均数、众数和中位数反映总体的水平,用方差考察稳定程度。
2、中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数
3、平均数: 一般地,如果n个数 ,那么,
叫做这n个数的平均数
众数、中位数、平均数都是描述一组数据的集中趋势的特征数,本节课就学习如何利用频率分布直方图求众数、中位数、平均数?
我们以前面学过的调查100位居民的月均用水量的问题中,
所得到的频率分布直方图为例,来研究样本的众数、中位数、
平均数等数字特征与样本数据的频率分布直方图的关系。
0.5
2.5
2
1.5
4
3.5
3
4.5
频率
组距
1
如图为 100位居民的月均用水量的样本频率分布直方图:
思考1:图中最高的小长方形的含义是什么?由此你是否能得 出众数是几?
图中最高的小长方形的含义是样本数据落在[2,2.5)的最多,所以众数一定在[2,2.5)内,因为在[2,2.5) 内的数据较多,于是通常取该区间的两个端点的平均数作为众数,即
众数是2.25
2.25
重要结论1:
众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标
我们已经会用频率分布直方图来求样本的众数。那么如何求中位数?
0.5
2.5
2
1.5
4
3.5
3
4.5
频率
组距
1
如图为 100位居民的月均用水量的样本频率分布直方图:
思考2:根据中位数的定义知道:在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,由此你是否能求出中位数是几?
∵中位数左边的数据个数与右边的数据个数是相等的
∴中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值
0.5
2.5
2
1.5
4
3.5
3
4.5
频率
组距
1
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
前四个小长方形的面积和=0.49
后四个小矩形的面积和=0.26
x=a
若令所求的中位数为a,则直线x=a把整个直方图的面积平分为二,于是有0.49+ (a-2)×0.5=0.5得a=2.02
2.02
重要结论2:中位数在样本数据的频率分布直方图中,就是把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
思考题
中位数一定在最高的小长方形内取得吗?
∵最高的小长方形左右两边的小长方形的面积和分别都不会达到0.5
∴结论:中位数一定在最高的小长方形内取得,但是不一定是该区间的两个端点的平均数,即有可能比平均数大,也