内容正文:
6.4 用样本估计总体
6.4.1 用样本估计总体的集中趋势
第6章 统计学初步
复习引入
前面我们学习了收集、整理和描述统计数据的一些基本方法.通过对统计数据的整理和描述,我们对客观事物的概貌有了一个了解,但这还不够,我们还需要选择适当的统计方法分析数据,并从数据中提取有用信息进而了解数据背后的规律.
我们在研究一个对象时,往往不是那么容易获取其全部数据,这时,可以采用随机抽样的方法在总体中抽取样本.由于样本是从总体中抽取的部分数据,因而样本蕴含着总体的许多信息,这使得我们有可能通过样本的某些特性去估计总体的相应特征.通常包括用样本的数字特征(如平均数、方差)估计总体的数字特征,用样本的频率分布估计总体的分布,而这就是本节要学习的主要内容.
新知探索
在初中,我们已经学习了反映一组数据的集中趋势或离散程度的数字特征,如平均数、中位数、众数、方差等.为便于叙述的展开,先介绍几个统计概念.
参数是用来描述总体特征的指标,常见的总体参数有总体平均数、众数和中位数以及总体方差等等.在统计中,总体参数通常用希腊字母表示.如总体平均数用表示.
统计量是用来描述样本特征的指标.它是根据样本计算出来的量.常见的统计量有样本平均数、样本方差等.统计量通常用英文字母来表示,如样本平均数用表示.接下来,我们将结合案例进一步学习一些常用的统计量,并用它来估计总体参数,体会用样本估计总体的统计思想.
新知探索
平均数也称为均值,在统计学中具有重要的地位,是刻画一组数据集中趋势最主要的指标.若样本容量为,第个个体是,则样本平均数
.
总体均值是总体的指标,是一个固定的量.而样本均值依赖于样本的选择,不同的样本通常有不同的样本均值.所以我们说样本均值带有随机性.
实践和理论都表明:在随机抽样的前提下,当样本容量增加时,样本均值会向总体均值接近.于是,称为的估计.
例析
例 1 一种产品需要人工组装,现有两种可供选择的组装方法.为检验哪种方法生产效率更高,现随机抽取名工人并随机分成两组:第一组人,采用方法组装;第二组人,采用方法组装.让两组工人在相同的时间内组装产品,得到产品数量(单位:个)如下表所示:
哪种组装方法的效率更高?
分析:平均数刻画了一组数据的平均水平.当我们要比较组装方法在相同时间内的效率时,可以分别计算用不同组装方法得到的产品数量的平均数,再通过平均数来进行比较.
例析
解:设两组工人采用方法组装的平均产量分别为,,则
(个),
(个).
由于在相同时间内,方法的平均产量高于方法的平均产量,所以我们可以认为方法的效率更高.
例析
例 2 下表是某地统计局调查个家庭月均用水量(单位:)的频率分布表,试估计该地家庭的月均用水量.
分析:要确定这个家庭的月均用水量,就必须计算其总用水量.由于每组中的个体月用水量只是一个范围,因此可用各组区间的组中值(位于各组中央的值)近似地表示.
例析
解(方法一) 个家庭的月总用水量约为
(),
因此估计该地家庭的月均用水量为.
解(方法二) 求组中值与对应频率之积的和.
(),
因此估计该地家庭的月均用水量为.
例析
一般地,若取值为的频率分别为,则其平均数为.
例在计算平均数时,是用各组的组中值代表各组的实际数据.使用组中值进行计算的前提是假定各组数据在组内的分布是均匀的.
例析
例 3 某市进行家庭年收入调查时,分别对城镇家庭和农村家庭进行调查.在全部城镇的户中无放回地随机抽取了户,在全部农村的户中无放回地随机抽取了户.调查结果为:城镇家庭年平均收入是元,农村家庭年平均收人是元.试估计该市家庭年平均收入.
解 统计调查使用了分层抽样.设总体表示该市所有家庭的年收入,总体分为两层:第一层对应所有城镇家庭的年收入,第二层对应所有农村家庭的年收入.
解 统计调查使用了分层抽样.设总体表示该市所有家庭的年收入,总体分为两层:第一层对应所有城镇家庭的年收入,第二层对应所有农村家庭的年收入.
例析
用表示来自总体的样本均值,用表示来自总体的样本均值,
则,.
在中所占的比例是.
在中所占的比例是.
所以的总体均值的估计是
.
即该市家庭年平均收入的估计是元.
新知探索
在分层抽样中,用表示总体的个体总数,若将总体分为层,用表示第层()的个体总数,则有.
我们称()为第层的层权.
对,用表示从第层抽出样本的均值.我们称是总体均值的简单估计.
分层抽样在获得总体均值估计的同时,也得到各层的均值估计.在例中,不但得到了的均值估计,还得到了和的均值估计.
新知探索
我们称观测数据中出现次数最多的数是众数,用表示.
按照这个定义,在抽样调查中,样本中出现次数最多的数是样本的众数.如果观测数据中每个数出现的次数都相同,它就没有众数.一组数据可以有两个或多个众数.
众数作为一组数据的代表,能反映一组数据的集中趋势.
例如,某鞋店店主统计了一个月内销售各种尺码男鞋的数据,如下表所示:
新知探索
从统计表可以看出,一个月内销售量最多的男鞋尺码是,即众数,这组数据的平均数,此时,用平均数作为这组数据的代表值是没有实际意义的,而用众数作为顾客对男鞋所需尺寸的集中趋势的体现既便捷又符合实际.
众数是一个位置代表值,它不受数据组中极端值的影响.
将一组观测数据按从小到大的顺序排列后,我们称处于中间位置的数是中位数,用表示.
具体而言,当数据的个数是奇数时,处于中间位置的数就是中位数;当数据的个数是偶数时,则中间两个数的平均数即为中位数.
新知探索
由中位数的定义可知,所研究的数据中有一半小于或等于中位数,一半大于或等于中位数.
中位数的作用与算术平均数有些相近,可以用来表示总体的“中等”水平,因此中位数作为一组数据的代表,也能反映一组数据的集中趋势.
例如,某公司共有名职工,他们的年薪分别是万元,万元,万元,万元,万元,万元,万元,万元,万元,万元,则
(万元).年薪的中位数万元表示该公司的中等工资水平.
新知探索
中位数不受数据组中极端值的影响,从而具有较好的稳定性,由于中位数是一种位置的平均数,因此世界许多国家或地区在分析人口统计数据时,常将年龄中位数作为分析人口年龄分布状况和集中趋势的重要指标.
众数、中位数和平均数均能反映数据的集中趋势,而它们作为一组数据的代表又具有不同的特点,我们应当根据问题的需要,选择合适的统计量来描述数据的集中趋势.
例析
例 4 某公司全体职工的月工资如下:
(1)试求出该公司月工资数据中的众数、中位数和平均数.
(2)你认为用平均数、中位数或众数中的哪一个更能反映该公司的工资水平?
(3)对于职工月工资数据的平均数、中位数和众数,你认为该公司总经理、普通员工及应聘者将分别关注哪一个?说说你的理由.
例析
解 (1)在上述个数据中,出现了次,出现的次数最多,因此这组数据的众数是.
把这个数据按从小到大的顺序排列后,位于中间的数是,,因此这组数据的中位数是.
这组数据的平均数为.
例析
我们把这组数据的众数、中位数、平均数表示在下图中.
(2)由于大多数员工的月工资达不到平均数,显然用平均数作为该公司员工月工资的代表值并不合适;众数及中位数在一定程度上代表了大多数人的工资水平,较能反映月工资水平的实际情况.
例析
(3)公司总经理最关心的是月工资的总额,所以他关注的是平均数;普通员工关注的是自己的收入在本公司职工群体中的位置,中位数能帮助职工了解自己的工资收入处于什么样的水平;应聘者最想知道公司发给大多数员工的工资数额,这也是一般应聘者将会拿到的工资,因此应聘者关注的是该公司月工资的众数.
平均数、中位数和众数都是一组数据的代表,它们从不同侧面反映了数据的集中趋势.平均数的计算要用到所有的数据,它能够充分利用数据提供的信息,因此在现实生活中应用较广,但它容易受极端值的影响;中位数对极端值不敏感,但没有利用数据中的所有信息;众数只能反映一组数据中出现次数最多的数据,也没有利用数据中的所有信息.
练习
题型一:众数、中位数、平均数的计算
例1.(1)一组样本数据为:19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为( ).
A.14,14 B.12,14 C.14,15.5 D.12,15.5
答案:A.
例1.(2)已知10名工人生产同一零件,生产的件数分别是16,18,15,11,16,18,18,
17,15,13,设其平均数为中位数为,众数为,则有( ).
A. B.b C. D.
答案:D.
练习
方法技巧:
平均数、众数、中位数的计算方法
平均数一般是根据公式来计算的;计算众数、中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据各自的定义计算.
【注】如果样本平均数远大于样本中位数,说明数据中存在较大的极端值.
练习
变1.(1)某学习小组在一次数学试验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各1人,则该学习小组成绩的平均数、众数、中位数分别是( ).
A.85分、85分、85分 B.87分、85分、86分
C.87分、85分、85分 D.87分、85分、90分
答案:C.
变1.(2)某校在一次学生演讲比赛中,共有7个评委,学生最后得分为去掉一个最高分和一个最低分的平均分.某学生所得分数为9.6,9.4,9.6,9.7,9.7,9.5,9.6,这组数据的众数是____,该学生最后得分为____.
答案:9.6,9.6.
练习
题型二:频率分布直方图中集中趋势参数的计算
例2.某校从参加高二年级学业水平测试的800名学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数;
(3)求这次测试数学成绩的平均数;
(4)试估计这次测验高二年级80分以上的学生人数.
练习
解(1):由图可知,
这次测验数学成绩的众数为:
(2):∵前3组的频率为0.4,前4组的频率为0.7,
∴中位数一定在内.
(法一)设中位数为,
则:解得
(法二).
即这次测验数学成绩的中位数为73.33.
练习
解(3):
(4):由图可知,的频率为0.3.
∴8000.3=240(人).即这次测验高二年级80分以上的学生有240人.
练习
方法技巧:
1.频率分布直方图的性质
(1)小长方形的面积
(2)各小长方形的面积之和等于1.
(3)小长方形的高,所有小长方形的高的和为.
2.要理解并记准频率分布直方图与众数、中位数及平均数的关系.
练习
变2.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
求:(1)高一参赛学生成绩的众数,中位数;
(2)高一参赛学生的平均成绩.
练习
求:(1)高一参赛学生成绩的众数,中位数;
解(1):由图可知,
这次测验数学成绩的众数为:
∵前3组的频率为0.3,前4组的频率为0.7,
∴中位数一定在内.
(法一)设中位数为,
则:解得
(法二).
即这次测验数学成绩的众数为65,中位数为65.
练习
求:(2)高一参赛学生的平均成绩.
解(2):
课堂小结&作业
课堂小结:
(1)平均数;
(2)众数、中位数.
作业:
(1)整理本节课的题型;
(2)课本P232的练习1——2题;
(3)课本P235的练习1——3题.
谢谢学习
Thank you for learning
$$