内容正文:
5.1.4 用样本估计总体
学习目标
1.通过样本数字特征概念的学习,会用样本的数字特征估计总体的数字特征,提高数据运算的核心素养.
2.通过解决实际问题的应用.会用样本的分布估计总体的分布,提高数据分析的核心素养.
3.通过样本和总体的关系,体会部分和整体的辩证统一的关系,初步建立统计的概念,体会统计在生产和生活中的应用.
1.用样本的数字特征估计总体的数字特征
(1)简单随机抽样的数字特征.
一般情况下,如果样本的容量恰当,抽样方法又合理的话,样本的特征能够反映总体的特征.特别地,样本平均数(也称为样本均值)、方差(也称为样本方差)与总体对应的值相差不会太大.
思考1:样本的数字特征具有哪些性质?
答案:①样本的数字特征具有随机性,这种随机性是由样本的随机性引起的.
②样本的数字特征具有规律性,在很广泛的条件下,简单随机样本的数字特征(如众数、中位数、平均数和标准差等)随样本容量的增加而稳定于总体相应的数字特征(总体的数字特征是一定的,不存在随机性).
(2)分层抽样的数字特征.
我们以分两层抽样的情况为例.假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为t2.则=xi,s2=(xi-)2,=yi,t2=(yi-)2.
如果记样本均值为,样本方差为b2,则可以算出
=(xi+yi)=,
b2==[(ms2+nt2)+(-)2].
2.用样本的分布来估计总体的分布
如果样本的容量恰当,抽样方法又合理的话,样本的分布与总体分布会差不多.特别地,每一组的频率与总体对应的频率相差不会太大.
同数字特征的估计一样,分布的估计一般也有误差.如果总体在每一个分组的频率记为π1,π2,…,πn,样本在每一组对应的频率记为p1,p2,…,pn,一般来说,
=[++…+]不等于零.
同样,大数定律可以保证,当样本的容量越来越大时,上式很小的可能性将越来越大.
3.大数据简介
收集海量的数据,通过各种统计分析得到数据中所蕴含的信息和知识,通常称为“数据挖掘”,这是大数据处理方法.
思考2:如何处理大数据问题?
答案:在大数据处理中,数据的收集和分析,可以先分地区、分阶段展开,再汇总.在汇总时应注意所有数据的平均数不能简单地认为就是各部分平均数的平均值,就像分层抽样中所遇到的情况一样.
用茎叶图估计总体的数字特征及分布
[例1] 某良种培育基地正在培育一小麦新品种A,将其与原有的一种优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:kg)如下:
品种A:
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出品种A与B亩产量数据的茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
解:(1)画出茎叶图如图所示.
(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便.此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.
(3)通过观察茎叶图可以看出:①品种A的亩产量的平均数(或均值)比品种B高;②品种A的亩产量的标准差(或方差)比品种B大,故品种A的亩产量的稳定性较差.
(1)茎叶图保留了全部的样本数据.
(2)从茎叶图上可以发现样本数据的分散与集中程度,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小从而对样本数据的平均值和方差作出定性判断.
针对训练:某车间20名工人年龄数据如表:
年龄/岁
工人数/人
19
1
28
3
29
3
30
5
31
4
32
3
40
1
合计
20
(1)求这20名工人年龄的众数与极差;
(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;
(3)求这20名工人年龄的方差.
解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.
(2)这20名工人年龄的茎叶图如图所示.
(3)这20名工人年龄的平均数为=×(19+3×28+3×29+5×30+4×31+3×32+40)=30,
所以这20名工人年龄的方差为
s2=(xi-=
==12.6.
用频率分布直方图估计总体的数字特征及分布
[例2] 从某企业生产的某