内容正文:
9.2 用样本估计总体
9.2.2 总体百分位数的估计
9.2.3 总体集中趋势的估计
9.2.4 总体离散程度的估计
第九章 统 计
学习目标
1.了解百分位数的概念.能用样本估计百分位数.理解百分位数的统计意义.
2.理解样本数据基本数字特征的意义和作用,对样本数据中提取的基本 数字特征(如众数、中位数、平均数)作出合理解释.
3.理解样本数据的方差与标准差的意义和作用,会计算样本数据的方差 与标准差.能从样本数据中计算出方差和标准差,并给出合理的解释.
重点:用样本的基本数字特征估计总体的基本数字特征.计算样本数据
的方差与标准差.
难点:分层抽样中的百分位数和方差、标准差.
知识梳理
一、百分位数
一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
计算一组n个数据的第p百分位数的步骤:
第1步,按从小到大排列原始数据.第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.特别的,中位数就是第50百分位数. 常用的分位数还有第25百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,称为四分位数.
二 .平均数、中位数和众数
1.平均数 平均数是指在一组数据中所有数据之和再除以数据的个数。
2.中位数 将一组数据从小到大(或从大到小)排列,中间的数称为这组数据的中位数。如果是奇数个数据,中间的数就为这组数据的中位数,如果是偶数个数据,中间两个数的平均数为这组数据的中位数。
3.众数 一组数据中出现次数最多的数值叫众数,有时在一组数中有几个。
平均数、中位数、众数的特征
1.平均数的大小与一组数据里的每个数均有关系,其中任何数据的变动都会相应引起平均数的变动。2.总数着眼于对各数据出现频率的考察,其大小只与这组数据的部分数据有关。3.中位数仅与数据的排列有关,部分数据的变动对中位数可能没有影响。
标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.显然,在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
常考题型
13.7 14.7 15.3
0.006
89.09
【解题提示】 由频数分布表求出众数、中位数和平均数,比较即可.
C
B
B
C
B
B
A
A
8
D
ABD
D
小结
1.百分位数是把中位数推广了的一个很有用处的统计量,计算
百分位数与计算中位数很类似,它可能是数据中的某个数,
也可能是数据中某相邻两个数字的平均数.
2.中位数、平均数和众数是反映一组数据特征的统计量,平均数
反映了这组数据的平均水平,众数是重复次数最多的那个数.
3.方差和标准差是反映数据离散程度的统计量,方差或标准差
越大,这组数据的离散程度越大;反之离散程度越小.
三、方差与标准差
如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为
,则称
为总体方差,S=
为总体标准差.总体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为
.
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为
,则称
为样本方差,s=
为样本标准差.
方差的简便计算公式的证明
如果有n个数x1,x2,…,xn,那么
=(x1+x2+…+xn)=
那么这组数据的方差
s2=
=
=
-
+
=
-
+
=
-
+
=
-2
+
=
-
一、总体百分位数的估计
1.求样本数据的百分位数
下表为12名毕业生的起始月薪:
毕业生
起始月薪
毕业生
起始月薪
1
2 850
7
2 890
2
2 950
8
3 130
3
3 050
9
2 940
4
2 880
10
3 325
5
2 755
11
2 920
6
2 710
12
2 880
根据表中所给的数据计算第85百分位数.
【解】 将12个数据按从小到大排序:2 710,2 755,2 850,2 880,2 880,2 890,2 920,2 940,2 950,3 050,3 130,3 325.
计算i=12×85%=10.2,
所以所给数据的第85百分位数是第11个数据3 130.
解题方法
计算第p百分位数的步骤
第1步, 按从小到大排列原始数据(共有n个数据).
第2步,计算i=n×p%.
第3步,若 i 不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
例如样本量n=100,则由50%×100=50,知50%分位数即是从小到大排列的第50个与第51个数的平均数,如果n=101,则由50%×101=50.5,得50%分位数即是第51个数,由此我们知道,第50百分位数就是中位数.
训练题
某车间12名工人一天生产某产品(单位:kg)的数量分别为13.8,13,13.5,15.7,13.6,14.8,14,14.6,15,15.2,15.8,15.4 ,则所给数据的第25,50,75百分位数分别是 .
解析:将12个数据按从小到大排序:
13,13.5,13.6,13.8,14,14.6,14.8,15,15.2,15.4,15.7,15.8.
由i=12×25%=3,得所给数据的第25百分位数是第3个数据与第4个数据的平均数,即=13.7;
由i=12×50%=6,得所给数据的第50百分位数是第6个数据与第7个数据的平均数,即=14.7;
由i=12×75%=9,得所给数据的第75百分位数是第9个数据和第10 个数据的平均数,即=15.3.
2.由频率分布直方图求百分位数
例 下图是将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出的频率分布直方图,则该班的模拟考试成绩的80%分位数是 (结果保留两位小数).
【解析】 由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,
分数在130分以下的学生所占的比例为
(0.01+0.015+0.015+0.03+0.022 5)×10×100%=92.5%,
因此,80%分位数一定位于[120,130)内.
由120+×10≈124.44,
故该班的模拟考试成绩的80%分位数约为124.44.
【答案】 124.44
训练题
某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这 50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为[40,50),[50,60),…,[80,90),[90,100],则频率分布直方图中a的值为 ,该企业的职工对该部门评分的第80百分位数是 (结果保留两位小数).
二、众数、中位数、平均数的计算及其应用
例[2020·宁夏银川高三模拟]为了普及环保知识,增强环保意识,某中学随机抽取30名学生参加环保知识竞赛,得分(10分制)的频数分布表如表:
得分
3
4
5
6
7
8
9
10
频数
2
3
10
6
3
2
2
2
设得分的中位数为me,众数为m0,平均数为x,则
( )
A.me=m0=x
B.me=m0<x
C.me<m0<x
D.m0<me<x
【解析】 由表知,众数m0=5;
中位数是将数据从大到小(或从小到大)排序后,第15个数与第16个数的平均数,
由表知将数据从大到小排序后第15 个数是5,第16个数是6,
所以中位数me==5.5;
平均数x=×(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈6.0.
∴ m0<me<x.故选D.
【答案】 D
必知必会
1.众数
众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数.
从分布角度看,众数是具有明显集中趋势的数值.
2.中位数
在按大小顺序排列的一组数据中,如果数据的个数是奇数,则中间那个数据就是这组数据的中位数;如果数据的个数是偶数,则中间那两个数据的平均数就是这组数据的中位数.中位数也是一种衡量数据集中趋势的方法.
3.平均数
平均数是指在一组数据中所有数据之和再除以这组数据的个数,它是反映数据集中趋势的一项指标.
训练题
1.一组数据12,13,x,17,18,19的众数是13,则这组数据的中位数是( )
A.13
B.14
C.15
D.17
2.某旅行社调查了所在城市20户家庭2019年的旅行费用,汇总得到如下表格:
费用(万元)/年
1.2
1.4
1.6
1.8
2
户数
4
6
3
5
2
则这20户家庭该年的旅行费用的众数和中位数分别是
( )
A.1.4,1.4
B.1.4,1.5 C.1.4,1.6
D.1.62,1.6
3.[2020·安徽泗县一中高二开学考试]已知一组数据为20,30,40,50,60,60,70,则这组数据的众数、中位数、平均数的大小关系为
( )
A.中位数>平均数>众数
B.众数>中位数>平均数
C.众数>平均数>中位数
D.平均数>众数>中位数
训练题
1.一组数据12,13,x,17,18,19的众数是13,则这组数据的中位数是( )
A.13
B.14
C.15
D.17
2.某旅行社调查了所在城市20户家庭2019年的旅行费用,汇总得到如下表格:
费用(万元)/年
1.2
1.4
1.6
1.8
2
户数
4
6
3
5
2
则这20户家庭该年的旅行费用的众数和中位数分别是
( )
A.1.4,1.4
B.1.4,1.5 C.1.4,1.6
D.1.62,1.6
3.[2020·安徽泗县一中高二开学考试]已知一组数据为20,30,40,50,60,60,70,则这组数据的众数、中位数、平均数的大小关系为
( )
A.中位数>平均数>众数
B.众数>中位数>平均数
C.众数>平均数>中位数
D.平均数>众数>中位数
三、方差、标准差的计算与应用
例 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中分别抽取6件测量数据为(单位:cm):
甲:99,100,98,100,100,103;
乙:99,100,102,99,100,100.
(1)分别计算两组数据的平均数及方差;
(2)根据计算说明哪台机床加工零件的质量更稳定.
【解】 (1)=(99+100+98+100+100+103)=100,
=(99+100+102+99+100+100)=100,
s2甲=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s2乙=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)由(1)知=,比较它们的方差,
∵ s2甲>s2乙,故乙机床加工零件的质量更稳定.
必知必会
方差、标准差的计算公式
一组数据x1,x2 ,…,xn,用表示这组数据的平均数,称s2=(xi-)2为这组数据的方差,称s=为标准差.
方差(标准差)刻画了数据的离散程度.方差(标准差)越大,数据的离散程度越大;方差(标准差)越小,数据的离散程度越小.
训练题
1.为评估共享单车的使用情况,选了n座城市作试验基地,这n座城市共享单车的使用量(单位:人次/天)分别为x1,x2,…,xn,下面给出的指标中可以用来评估共享单车使用量的稳定程度的是( )
A.x1,x2,…,xn的标准差
B.x1,x2,…,xn的平均数
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
2.某比赛有9位评委进行评分,首先这9位评委给出某选手的原始分数,评定该选手的成绩时从9个原始成绩中去掉一个最高分、一个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,不变的数字特征是
( )
A.中位数
B.平均数
C.方差
D.极差
3.[2020·宁夏六盘山高级中学高一检测]已知一组数据x1,x2,x3,x4,x5的方差为2,则数据2x1+3,2x2+3,2x3+3,2x4+3,2x5+3的方差为 .
四、分层随机抽样中的平均数与方差
例 某校为了解高三年级学生的身高情况,根据男、女学生所占的比例,利用分层随机抽样分别抽取50名男生和30名女生,测量他们的身高,所得数据如下:
性别
人数
平均数(cm)
方差
男生
50
174
191
女生
30
162
110
试估计该校高三年级学生身高的平均数和方差.
【解】 由题意可得样本平均数=(50×174+30×162)=169.5.
方差s2={50×[191+(174-169.5)2] +30×[110+(162-169.5)2]}=194.375.
可以估计该校高三年级学生身高的平均数为169.5 cm,方差为194.375.
解题方法
设有n个个体的样本中不同层的平均数记为(i=1,2,…,k,k≤n),
方差记为si2,相应各层个体的个数记为fi,则样本的平均数=fii,
方差s2=fi[s2i+(-)2].
训练题
某市教育部门采用分层随机抽样的方法从甲、乙、丙三个学校选取了100名学生的某次考试数学成绩(单位:分),并制成如下表格:
学生数
平均数
方差
甲
40
98
10
乙
30
92
12
丙
30
95
15
试估计这次考试数学成绩的平均数与方差.
解:由题意可得,样本平均数=(40×98+30×92+30×95)=95.3,
方差s2={40×[10+(98-95.3)2]+30×[12+(92-95.3)2]+30×[15+(95-95.3)2]}=18.31,可估这次考试数学成绩的平均数为95.3,方差为18.31.
五、统计图中的数字特征的计算
1.频率分布直方图中的数字特征的计算
例[2020·天津市天津中学高三一模]如图是某学校的教研处根据调查结果绘制的本校学生每天放学后的自学时间情况的频率分布直方图,根据频率分布直方图,自学时间的中位数和众数的估计值(精确到0.01)分别是
( )
A.2.20,2.25
B.2.29,2.20
C.2.29,2.25
D.2.25,2.25
【解析】 由频率分布直方图得自学时间在[0.5,2)的频率为(0.16+0.2+0.34)×0.5=0.35,自学时间在[2,2.5)的频率为0.52×0.5=0.26,
所以自学时间的中位数为2+×0.5≈2.29,众数为=2.25.
故选C.
【答案】 C
解题方法
频率分布直方图中的众数、中位数、平均数的求法
1.众数可以用最高的矩形的底边中点的横坐标来近似代替.
2.中位数是使直方图左边和右边的面积相等的分界线与横轴交点的横坐标.
3.平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.
训练题
1.[2020·陕西榆林高三一模]某班全体学生参加历史测试,成绩的频率分布直方图如图,则该班的平均分估计是( )
A.70
B.75
C.66
D.68
2.[2020·宁夏六盘山高级中学高一检测]为提高产品质量,某企业质量管理部门经常不定期地抽查产品进行检测,现在某条生产线上随机抽取100个产品进行相关数据的对比,并对每个产品进行综合评分(满分100分),将每个产品所得的综合评分制成如图所示的频率分布直方图.记综合评分为80分及以上的产品为一等品.
(1)求图中a的值;
(2)求综合评分的中位数.
2解:(1)由频率之和为1,得(0.005+0.010+0.025+a+0.020)×10=1,a=0.040;
(2)设综合评分的中位数为x,
则(0.005+0.010+0.025)× 10+0.040×(x-80)=0.5,
解得x=82.5,
所以综合评分的中位数为82.5.
2.折线图中的数字特征的计算
例 甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示.
(1)填写下表:
平均数
方差
中位数
命中9环及以上
甲
7
1.2
1
乙
5.4
3
(2)请从四个不同的角度对这次测试进行分析:
①结合平均数和方差分析谁的成绩更稳定;
②结合平均数和中位数分析谁的成绩好些;
③结合平均数和命中9环及以上的次数分析谁的成绩好些;
④由折线图上两人射击命中环数及走势分析谁更有潜力.
【解】 (1)由图9-2-30可知,乙的打靶环数依次为2,4,6,8,7,7,8,9,9,10.
所以=(2+4+6+8+7+7+8+9+9+10)=7;乙的打靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是=7.5;甲的打靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如下表所示.
平均数
方差
中位数
命中9环及以上
甲
7
1.2
7
1
乙
7
5.4
7.5
3
(2)①甲、乙的平均数相同,均为7,但s2甲<s2乙,说明甲偏离平均数的程度小,而乙偏离平均数的程度大,故甲的成绩更稳定.
②甲、乙的平均数相同,而乙的中位数比甲大,故从平均数和中位数的角度分析乙打靶成绩比甲好.
(3)甲、乙的平均数相同,但乙有3次命中9环及以上,甲只有1次,故从平均数和命中9环及以上的次数分析乙的成绩好些.
(4)从折线图可以看出乙的成绩有明显进步,甲的成绩较为稳定,所以乙更有潜力.
训练题
[2020·山东菏泽一中高三模拟]空气质量指数AQI是反映空气质量状况的指数,AQI指数值越小,表明空气质量越好,其对应关系如表:
AQI指数值
0~50
51~100
101~150
151~200
201~300
>300
空气质量
优
良
轻度污染
中度污染
重度污染
严重污染
如图是某市12月1日~20日AQI指数值变化折线图.
下列叙述正确的是( )
A.这20天中AQI指数值的中位数略高于100
B.这20天中的中度污染及以上的天数占
C.该市12月的前半个月的空气质量越来越好
D.总体来说,该市12月上旬的空气质量比中旬的空气质量好
3.条形图中的数字特征的计算
例[2020·山东青岛高三模拟]如图统计了截止到2019年年底中国电动汽车充电桩细分产品占比及保有量情况,关于这5次统计,下列说法正确的是
( )
中国电动汽车充电桩细分产品占比情况
中国电动汽车充电桩细分产品保有量情况(单位:万台)
【解析】 私人类电动汽车充电桩细分产品保有量增长率最高的年份是2016年,A错误;这5次统计的公共类电动汽车充电桩细分产品保有量的中位数是21.4万台,B错误;
因为=23.02(万台),故C项错误,D项显然正确.
故选D.
【答案】 D
注意事项
条形图与频率分布直方图的区别
1.条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的,没有实际意义.
2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义.
3.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列.
4.条形图主要用于展示分类数据,而直方图则主要用于展示数据型数据.
训练题
[2019·广东佛山高二检测]已知在一次射击预选赛中,甲、乙两人各射击10次,两人成绩的条形图如图所示,则下列四个选项中判断不正确的是
( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数小于乙的成绩的中位数
C.甲的成绩的方差大于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
$