内容正文:
5.1 统计
5.1.2 数据的数字特征
第五章 统计与概率
[学习目标] 1.理解数据的最值、平均数、中位数、百分位数、众数、极差、方差和标准差的意义和作用. 2.会计算数据的这些数字特征,并能解决有关实际问题.
知识点1 最值、平均数、中位数、百分位数、众数
内容索引
知识点2 极差、方差和标准差的计算及应用
课时作业 巩固提升
知识点3 样本的数字特征的意义及综合应用
课堂达标·素养提升
3
知识点1 最值、平均数、中位数、百分位数、众数
1.最值
一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数
的情况.一般地,最大值用max表示,最小值用 表示.
最极端
min
2.平均数
(1)如果给定的一组数是x1,x2,…,xn,则这组数的平均数为=
,简记为=xi.
(x1+x2+…+xn)
(2)求和符号∑具有以下性质:
①(xi+yi)= ;②(kxi)= ;③t= .
(3)性质:一般地,如果x1,x2,…,xn的平均数为,且a,b为常数,则ax1+b,ax2+b,…,axn+b的平均数为 .
xi+yi
kxi
nt
a+b
3.中位数
如果一组数有奇数个数,且按照从小到大排列后为x1,x2,…,,则称
为这组数的中位数;如果一组数有偶数个数,且按照从小
到大排列后为x1,x2,…,,则称 为这组数的中位数.
4.百分位数
(1)定义
直观来说,一组数的p%分位数指的是,将这组数按照从小到大的顺序排列后,处于 位置的数.中位数就是一个50%分位数.
p%
(2)意义
一组数的p%(p∈(0,100))分位数指的是满足下列条件的一个数值:至少有p%的数据 该值,且至少有 的数据不小于该值.
设一组数按照从小到大排列后为x1,x2,…,xn,计算i=np%的值,如果i不是整数,设i0为大于i的最小整数,取为p%分位数;如果i是整数,取为 .
规定:0分位数是x1(即最小值),100%分位数是xn(即最大值).
不大于
(100-p)%
p%分位数
5.众数
一组数据中,某个数据出现的次数称为这个数据的频数,出现次数
的数据称为这组数据的众数,一组数据的众数可以是一个,也可以是多个.
最多
已知甲、乙两组数据:
甲:18.9,19.5,19.5,19.2,19,18.8,19.5;
乙:2,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,6,6.
(1)求这两组数的众数、中位数、平均数;
例1
[解] (1)将甲按从小到大的顺序排列为18.8,18.9,19,19.2,19.5,19.5,19.5.
则甲组数众数为19.5,中位数为19.2,
平均数为=19.2.
乙组数众数为5,中位数为4,
平均数为=4.
(2)求这两组数的25%分位数、75%分位数及90%分位数.
[解] (2)∵7×25%=1.75,7×75%=5.25,7×90%=6.3.
故甲的25%分位数、75%分位数、90%分位数分别为数据中的第2个,第6个和第7个数.
即25%分位数为18.9,75%分位数为19.5,90%分位数为19.5.
∵20×25%=5,20×75%=15,20×90%=18,
故乙的25%分位数为=3,75%分位数为=5,90%分位数为=5.5.
1.求平均数时要注意数据的个数,不要重计或漏计.
2.求中位数时一定要先对数据按大小排序,若最中间有两个数据,则中位数是这两个数据的平均数.
3.若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数.
思维提升
1.十名工人某天生产同一零件,生产的件数是:15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c B.c>b>a
C.c>a>b D.b>c>a
跟踪训练
B
从小到大排列此数据为10,12,14,14,15,15,16,17,17,17.
平均数为(10+12+14×2+15×2+16+17×3)=14.7;
数据17出现了三次,17为众数;
在第5位、第6位的数据均是15,故15为中位数.
所以这组数据的平均数是14.7,中位数是15,众数是17,
即a=14.7,b=15,c=17,
所以c>b>a.
知识点2 极差、方差和标准差的计算及应用
1.极差
一组数的极差指的是这组数的最大值减去最小值所得的差.
2.方差
如果x1,x2,…,xn的平均数为,则方差可用求和符号表示为s2=
.
此时,如果a,b为常数,则ax1+b,ax2+b,…,axn+b的方差为 .
(xi-)2
a2s2
3.标准差
方差的 称为标准差.
算术平方根
甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中抽取6件测量数据为:
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
例2
[解] (1)=×(99+100+98+100+100+103)=100,
=×(99+100+102+99+100+100)=100,
=×[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
=×[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)根据计算说明哪台机床加工零件的质量更稳定.
[解] (2)由(1)知=,比较它们的方差,∵>,故乙机床加工零件的质量更稳定.
计算方差的步骤
1.求出样本数据的平均数.
2.求出每个样本数据与样本平均数的差xi-(i=1,2,…,n).
3.求出xi-(i=1,2,…,n)的平方值.
4.求出上一步中n个平方值的平均数,即为样本方差.
思维提升
2.为了了解市民的环保意识,某校高一(1)班50名学生在6月5日(世界环境日)这一天调查了各自家庭丢弃旧塑料袋的情况,有关数据如下表:
跟踪训练
每户丢弃旧塑料袋个数 2 3 4 5
户数 6 16 15 13
(1)求这50户居民每天丢弃旧塑料袋的平均数、众数和中位数;
解:(1)平均数=×(2×6+3×16+4×15+5×13)==3.7.
众数是3,中位数是4.
(2)求这50户居民每天丢弃旧塑料袋的标准差.
解: (2)这50户居民每天丢弃旧塑料袋的方差为
s2=×[6×(2-3.7)2+16×(3-3.7)2+15×(4-3.7)2+13×(5-3.7)2]=×48.5=0.97.
所以标准差s≈0.985.
知识点3 样本的数字特征的意义及综合应用
据了解,某公司的33名职工月工资(单位:元)如下:
该公司职工月工资的平均数与中位数分别为 ,在这两个统计量中, 更能反映这个公司员工的工资水平.
[分析] 求出中位数与平均数,再根据其反映的数字特征进行判断.
例3
职务 董事长 副董事长 董事 总经理 经理 管理员 职员
人数 1 1 2 1 5 3 20
工资 11 000 10 000 9 000 8 000 6 500 5 500 4 000
5 333,4 000
中位数
把工资数据由小到大排列,得到中位数为4 000.
平均数=≈5 333.
由数字知,中位数更能反映该公司员工的工资水平,平均数受少数人工资额的影响较大,不能反映这个公司员工的工资水平.
因为平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数不具有的性质,也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于全体样本数据的信息.但平均数受数据的极端值的影响较大,使平均数在估计总体时可靠性降低.
思维提升
3.设矩形的长为a,宽为b,其比满足b∶a=≈0.618,这种矩形给人以美感,称为黄金矩形.黄金矩形常应用于工艺品设计中,下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:
甲批次:0.598 0.625 0.628 0.595 0.639
乙批次:0.618 0.613 0.592 0.622 0.620
跟踪训练
根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是( )
A.甲批次的总体平均数与标准值更接近
B.乙批次的总体平均数与标准值更接近
C.两个批次的总体平均数与标准值接近程度相同
D.两个批次的总体平均数与标准值接近程度不能确定
A
==0.617,
==0.613,
∴与0.618更接近.
〈课堂达标·素养提升〉
1.今年某高一学生下学期政治考试成绩为79,79,84,84,86,84,87,90,90,97,则该生政治考试成绩的平均数和众数依次为( )
A.85 84 B.84 85
C.86 84 D.84 86
由题意可知,平均数==86,
众数为84.
C
2.在一次歌手大奖赛上,七位评委为歌手打出的分数如下:9.4,8.4,9.4,9.9,9.6,9.4,9.7,去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A.9.4,0.484 B.9.4,0.016
C.9.5,0.04 D.9.5,0.016
==9.5,s2=×(0.12×4+0.22)=0.016.
D
3.900,920,920,930,930的20%分位数是 .
因为5×20%=1,所以该组数据的20%分位数是=910.
910
4.高一(18)班十位同学的数学测试成绩分别为:
82,91,73,84,98,99,101,118,98,110,则该组数据的中位数是 .
把这组数据由小到大排列为73,82,84,91,98,98,99,101,110,118,可知中位数为=98.
98
课时作业 巩固提升
[A组 必备知识练]
1.在描述一组数据的集中趋势时,应用最广泛的是( )
A.众数 B.中位数
C.平均数 D.全体数据
由于平均数反映的是这组数据的平均大小,使用最广泛.
1
2
3
4
5
6
7
8
9
10
11
12
C
13
14
2.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各有1人,则该小组成绩的平均数、众数、中位数分别是( )
A.85,85,85 B.87,85,86
C.87,85,85 D.87,85,90
1
2
3
4
5
6
7
8
9
10
11
12
C
13
14
平均分为(100+95+90×2+85×4+80+75)=87.由众数的定义可知众数为85,中位数为85.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x,已知这组数据的平均数为6,则这组数据的方差为( )
A.6 B.
C.66 D.6.5
1
2
3
4
5
6
7
8
9
10
11
12
A
13
14
∵=(2+4+4+5+5+6+7+8+9+11+x)=(61+x)=6,∴x=5.
s2===6.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
4.已知一组数据x1,x2,x3,x4,x5的平均数是=2,方差是,那么另一组数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数和方差分别为( )
A.2, B.2,1
C.4, D.4,3
1
2
3
4
5
6
7
8
9
10
11
12
D
13
14
平均数为=3-2=3×2-2=4,方差为s'2=9s2=9×=3.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
5.一个样本数据按从小到大的顺序排列为13,14,19,x,23,27,28,31,中位数为22,则x= .
由题意知=22,则x=21.
1
2
3
4
5
6
7
8
9
10
11
12
21
13
14
6.甲、乙两位同学某学科的连续五次考试成绩如下:
甲:68 69 70 71 72
乙:63 68 69 69 71
则平均分数较高的是 ,成绩较为稳定的是 .
=70,=68,=×(22+12+12+22)=2,=×(52+12+12+32)=7.2.
1
2
3
4
5
6
7
8
9
10
11
12
甲
甲
13
14
7.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄(单位:岁)如下:
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解:(1)甲群市民年龄的平均数为
=15(岁),
中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
解: (2)乙群市民年龄的平均数为
=15(岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
13
14
8.对划艇运动员甲、乙两人在相同的条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:
甲:27,38,30,37,35,31;
乙:33,29,38,34,28,36.
根据以上数据,试估计两人最大速度的平均数和标准差,并判断他们谁更优秀.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解:=×(27+38+30+37+35+31)==33,
=×[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=,
s甲=≈3.96,
=×(33+29+38+34+28+36)==33,
=×[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]=,
s乙=≈3.56.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
由以上知,甲、乙两人最大速度的平均数均为33 m/s,甲的标准差为
3.96 m/s,乙的标准差为3.56 m/s,说明甲、乙两人的最大速度的平均值相同,但乙的成绩比甲的成绩更稳定,故乙比甲更优秀.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
[B组 关键能力练]
9.(多选)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,发生变化的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
1
2
3
4
5
6
7
8
9
10
11
12
BCD
13
14
由于去掉一个最高分与最低分后,评委所评的9个分数从小到大排序后,中间一个数字不会改变,故中位数不变.由于最高分和最低分是极端分数,因此会影响平均数、方差和极差.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本方差为( )
A. B.
C. D.2
1
2
3
4
5
6
7
8
9
10
11
12
D
13
14
由题可知样本的平均数为1,
所以=1,解得a=-1,
所以样本的方差为×[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
11.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数分别为87,87,94,90,91,90,90+x,99,91,后来
有1个数据模糊,无法辨认,以x表示,则7个剩余分数的方差为 .
1
2
3
4
5
6
7
8
9
10
11
12
13
14
根据所得数据,去掉1个最低分87,1个最高分99,
则×[87+94+90+91+90+(90+x)+91]=91,
∴x=4,
∴s2=×[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
12.若40个数据的平方和是56,平均数是,则这组数据的方差是
,标准差是 .
1
2
3
4
5
6
7
8
9
10
11
12
0.9
13
14
1
2
3
4
5
6
7
8
9
10
11
12
设这40个数据为xi(i=1,2,…,40),平均数为.
则s2=×[(x1-)2+(x2-)2+…+(x40-)2]
=[++…++40-2(x1+x2+…+x40)]==×=0.9,
∴s===.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13.以下是某地在甲、乙两个重要道路交叉口设置的电子监控在连续一周时间里抓拍到的每一天的车辆违章次数情况:
甲:6,8,9,10,9,9,12;
乙:7,9,8,11,10,9,11.
(1)试分别求甲、乙两路口车辆违章次数的平均数、中位数、众数;
13
14
1
2
3
4
5
6
7
8
9
10
11
12
解:(1)甲路口车辆违章次数的平均数为
=9,
将各数按大小排序为6,8,9,9,9,10,12,因此中位数为9,众数是9.
乙路口车辆违章次数的平均数为
≈9.3,
将各数按大小排序为7,8,9,9,10,11,11,因此中位数是9,众数是9和11.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(2)分别求甲的25%分位数和乙的75%分位数.
解: (2)将甲组数从小到大排列为6,8,9,9,9,10,12,共7个数,因为7×25%=1.75,所以甲组数的25%分位数为8.
将乙组数从小到大排列为7,8,9,9,10,11,11,因为7×75%=5.25,所以乙的75%分位数为11.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
[C组 素养培优练]
14.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
13
14
1
2
3
4
5
6
7
8
9
10
11
12
经计算得=xi=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
一天内抽检的零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(1)从这一天抽检的结果看,是否需要对当天的生产过程进行检查?
解:(1)由于=9.97,s≈0.212,-3s=9.334,+3s=10.606,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(2)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的平均数与标准差.(精确到0.01,参考数据:≈0.09)
13
14
1
2
3
4
5
6
7
8
9
10
11
12
解: (2)剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,
即这条生产线当天生产的零件尺寸的平均数为10.02,
因为方差s2=(-16),
所以=16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
×(1 591.134-9.222-15×10.022)≈0.008,
则这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
13
14
$$