内容正文:
第九章 统计
9.2.3 总体集中趋势的估计
9.2.4 总体离散程度的估计
学习目标 1.掌握众数、中位数、平均数、标准差、方差的定义和特征及其在刻画数据中各自的作用.
2.理解平均数和中位数在频率分布直方图中的关系.
3.理解标准差、方差公式的基本性质.
4.通过具体实际问题不断体会集中趋势、离散程度是如何刻画的,以及它们之间的内在联系.
基础落实·必备知识一遍过
知识点1 众数、中位数、平均数
1.众数
(1)定义:一组数据中出现次数最多的数据称为这组数据的众数.
(2)特征:一组数据中的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
2.中位数
一定要注意将数据排序
(1)定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
(2)特征:一组数据中的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
3.平均数
(1)定义:一组数据的和与这组数据的个数的商.数据x1,x2,…,xn的平均数为
(2)特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
(3)若x1,x2,…,xn的平均数是 ,则mx1+a,mx2+a,…,mxn+a的平均数是 .
名师点睛 三种数字特征的优缺点
名称 优点 缺点
众数 (1)体现了样本数据的最大集中点;(2)容易得到 (1)它只能表达样本数据中很少的一部分信息;(2)无法客观地反映总体特征
中
位
数 (1)不受少数几个极端数据,即排序靠前或靠后的几个数据的影响;(2)容易得到,便于利用中间数据的信息 对极端值不敏感
平
均
数 能反映出更多关于样本数据全体的信息 任何一个数据的改变都会引起平均数的改变,数据越“离群”,对平均数的影响越大
思考辨析
1.一组数据中的众数唯一吗?
提示 众数不唯一,可以有一个,也可以有多个.
2.求平均分时常常去掉最高分和最低分,这反映了平均数的什么特征?
提示 平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
自主诊断
1.一组样本数据为19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为( )
A.14,14 B.12,14
C.14,15.5 D.12,15.5
A
解析 把这组数据按从小到大排列为10,12,12,14,14,14,17,18,19,23,27,则可知其众数为14,中位数为14.
2.某中学有男生600人,女生400人.为了调查学生的身高情况,按性别进行分层,用分层随机抽样的方法抽取一个容量为10的样本,样本按比例分配,得到男生、女生的平均身高分别为170 cm和160 cm.用样本估计总体,则该校学生的平均身高是( )
A.162 cm
B.164 cm
C.166 cm
D.168 cm
C
解析 由题意得在抽取的10人中,男生6人,女生4人,故样本平均数为
=166,估计该校学生的平均身高是166 cm.故选C.
知识点2 探索图表中的中位数与平均数数值规律
平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在下图的三种分布形态中,平均数和中位数的大小存在什么关系?
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图1),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图2),那么平均数 中位数;如果直方图在左边“拖尾”(图3),那么平均数 中位数.也就是说,和中位数相比,平均数总是在“长尾巴”那边.
大于
小于
名师点睛
1.平均数是频率分布直方图的“重心”,是直方图的平衡点,因此,每个小矩形的面积与小矩形底边中点的横坐标的乘积之和即为平均数的估计值.
2.根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
思考辨析
借助图表得到的众数、中位数、平均数是准确值吗?
提示 不一定,可能是准确值,多数情况下是估计值.
自主诊断
1.判断正误.(正确的画√,错误的画×)
(1)平均数、中位数和众数从不同的角度描述了一组数据的集中趋势.( )
(2)样本的平均数是频率分布直方图中最高长方形的中点对应的数据.( )
(3)若改变一组数据中其中一个数,则这组数据的平均数、中位数和众数一定都会发生改变.( )
√
×
×
2.如图是根据一组数据绘制的频率分布直方图,a,b,c分别对应这组数据的平均数、中位数和众数,则下列关系正确的是( )
A.a<b<c B.b<a<c
C.c<b<a D.c<a<b
A
解析 由题图知,众数是最高矩形下底边的中点的横坐标,因此众数c为右起第二个矩形下底边的中点值.
直线x=b左右两边直方图的面积相等,而直线x=c左边矩形面积大于右边矩形面积,则b<c,频率分布直方图左边“拖尾”,则平均数a小于中位数b,即a<b,所以a<b<c.故选A.
知识点3 方差、标准差
1.假设一组数据是x1,x2,…,xn,用表示这组数据的平均数.我们用每个数据与平均数的差的绝对值作为“距离”,即|xi-|(i=1,2,…,n)作为xi到的“距离”.
可以得到这组数据x1,x2,…,xn到的“平均距离”为 .为了避免式
中含有绝对值,通常改用平方来代替,即(xi-)2,我们称此式为这组数据的方差.
标准差
由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即 ,我们称此式为这组数据的 .
2.如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为 ,则称
为总体方差, 为总体标准差.与总体均值类似,总
体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方
差为 .
3.如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为 ,则称
为样本方差, 为样本标准差.
4.方差的重要结论
(1)若x1,x2,…,xn的方差是s2,则mx1+a,mx2+a,…,mxn+a的方差是 .
(2)方差的简化公式: ,即方差等于原数据平方的平均数减去平均数的平方.
m2s2
名师点睛
1.样本标准差反映了各样本数据聚集于样本平均数周围的程度,标准差越小,表明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的周围越分散.
2.若样本数据都相等,则s=0.
3.当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度,就由标准差来衡量.
4.数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感;方差则反映了一组数据围绕平均数波动的大小.
思考辨析
现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的.如何求得总体的平均数和标准差呢?
提示 通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,这样做就是合理的,也是可以接受的.
自主诊断
1.判断正误.(正确的画√,错误的画×)
(1)若一组数据的值大小相等,没有波动变化,则标准差为0.( )
(2)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散.( )
√
×
2.(苏教版教材例题)甲、乙两种水稻试验品种连续5年的平均单位面积产量(单位:t/hm2)如表所示,试根据这组数据估计哪一种水稻品种的产量比较稳定.
品种 第1年 第2年 第3年 第4年 第5年
甲 9.8 9.9 10.1 10 10.2
乙 9.4 10.3 10.8 9.7 9.8
解 甲品种的样本平均数为10,样本方差为
[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02.
乙品种的样本平均数也为10,样本方差为
[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.244.
因为0.244>0.02,所以由这组数据可以认为甲种水稻的产量比较稳定.
重难探究·能力素养速提升
探究点一 平均数、众数、中位数的求法
【例1】 某公司全体职工的月工资如下:
月工资/元 18 000 12 000 8 000 6 000 4 000 2 500 2 000 1 500 1 200
人数 1(总
经理) 2(副总
经理) 3 4 10 20 22 12 6
(1)试求出该公司月工资数据中的众数、中位数和平均数.
(2)你认为用平均数、中位数或众数中的哪一个更能反映该公司的工资水平?
(3)对于职工月工资数据的平均数、中位数和众数,你认为该公司总经理、普通员工及应聘者将分别关注哪一个?说说你的理由.
解 (1)在上述80个数据中,2 000出现了22次,出现的次数最多,因此这组数据的众数是2 000.
把这80个数据按从小到大的顺序排列后,位于中间的数是2 000,2 500,因此
(2)由于大多数员工的月工资达不到平均数3 115,显然用平均数作为该公司员工月工资的代表值并不合适;众数2 000及中位数2 250在一定程度上代表了大多数人的工资水平,较能反映月工资水平的实际情况.
(3)公司总经理最关心的是月工资的总额,所以他关注的是平均数;
普通员工关注的是自己的收入在本公司职工群体中的位置,中位数能帮助职工了解自己的工资收入处于什么样的水平;
应聘者最想知道公司发给大多数员工的工资数额,这也是一般应聘者将会拿到的工资,因此应聘者关注的是该公司月工资的众数.
规律方法 平均数、众数、中位数的求解策略
(1)求平均数时要注意数据的个数,不要重计或漏计.
(2)求中位数时一定要先对数据按大小排序,若最中间有两个数据,则中位数是这两数据的平均数.
(3)若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数.
变式训练1(多选题)已知一组数据丢失了其中一个大于3的数据,剩下的六个数据分别是3,3,5,3,6,11,若这组数据的平均数与众数的和是中位数的2倍,则丢失的数据可能是( )
A.4 B.12 C.18 D.20
AC
解析 设丢失的数据为x,则这七个数据的平均数为,众数是3,若3<x<5,则中位数为x,此时+3=2x,解得x=4;
若x≥5,则中位数为5,此时+3=2×5,解得x=18.
综上所述,丢失的数据可能是4或18.
故选AC.
探究点二 方差和标准差
角度1.方差和标准差的计算
【例2】 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中抽取6件测量数据为
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算说明哪台机床加工零件的质量更稳定.
★★【例3】 甲、乙两支田径队的体检结果为:甲队队员体重的平均数为60 kg,方差为200,乙队队员体重的平均数为70 kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和方差分别是多少?
角度2.方差和标准差的性质
【例4】 (2025江西宜春高一期末)若样本a1,a2,…,an的平均数和方差分别为3和5,则样本2a1-1,2a2-1,…,2an-1的平均数和方差分别为( )
A.5和20 B.5和19
C.6和20 D.6和19
A
解析 因为样本a1,a2,…,an的平均数和方差分别为3和5,所以样本2a1-1,
2a2-1,…,2an-1的平均数和方差分别为2×3-1=5和22×5=20.故选A.
规律方法 方差的计算与性质的应用
(1)在实际问题中,仅靠平均数不能完全反映问题,还要研究其偏离平均值的离散程度(即方差或标准差),方差大说明取值分散性大,方差小说明取值分散性小或者取值集中、稳定.
(2)计算分层随机抽样的方差s2的步骤:
变式训练2★★(1)已知某4个数据的平均数为6,方差为3,现再加入一个数据8,则这5个数据的方差为( )
C
解析 设原来4个数据依次为a,b,c,d,则a+b+c+d=24,
又方差为3,则 [(a-6)2+(b-6)2+(c-6)2+(d-6)2]=3,
即[(a-6)2+(b-6)2+(c-6)2+(d-6)2]=12,
所以(a2+b2+c2+d2)-12(a+b+c+d)+36×4=12,
则a2+b2+c2+d2=12+12×24-36×4=156.
(2)(2025天津南开高一期末)已知数据x1,x2,x3,…,x8的平均数为8,方差为6,则3x1+2,3x2+2,3x3+2,…,3x8+2的平均数和方差分别为( )
A.26,54 B.26,56
C.24,54 D.24,56
A
解析 由题意,数据x1,x2,x3,…,x8的平均数为=8,方差为s2=6,
根据平均数和方差的性质可得数据3x1+2,3x2+2,3x3+2,…,3x8+2的平均数为3+2=3×8+2=26,方差为32s2=9×6=54,
故选A.
(3)某校高二年级在一次数学选拔赛中,由于甲、乙两人的竞赛成绩相同,从而决定根据平时在相同条件下进行的六次测试确定出最佳人选,这六次测试的成绩数据如下:
甲 127 138 130 137 135 131
乙 133 129 138 134 128 136
求两人比赛成绩的平均数以及方差,并且分析成绩的稳定性,从中选出一人参加数学竞赛.
探究点三 频率分布直方图(折线图)中的“隐藏”的数据信息
【例5】 如图为学生身高频率分布直方图.
(1)如何在样本数据的频率分布直方图
中估计出众数的值?
(2)如何在样本数据的频率分布直方图
中估计出中位数的值?
(3)如何在样本数据的频率分布直方图中估计出平均数的值?
(4)从样本数据可知,该样本的众数是166,172,中位数是171,平均数是170.1,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?
解 (1)众数大致的值就是样本数据的频率分布直方图中最高小长方形的中点的横坐标.由直方图可估计学生身高众数应为174.5.
(2)在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数使得在它左边和右边的直方图的面积相等,由此可以估计中位数的值,如图,由于
0.08+0.22=0.3,0.08+0.22+0.22=0.52,所以中位数落在区间[167,172)内.
设中位数是x,由
0.08+0.22+(x-167)× =0.5,解得x≈171.55.所以学生身高的中位数约为171.55.
(3)平均数是频率分布直方图的“重心”,是频率分布直方图的平衡点,因此,每个小长方形的面积与小长方形底边中点的横坐标的乘积之和为平均数.由159.5×0.08+164.5×0.22+169.5×0.22+174.5×0.36+179.5×0.12=170.6,得学生身高的平均数为170.6.
(4)因为样本数据频率分布直方图只是直观地表明分布的形状,从直方图本身得不出原始的数据内容,也就是说频率分布直方图损失了一些样本数据的信息,得到的是一个估计值,且所得估计值与数据分组有关,所以估计的值有一定的偏差.
规律方法 1.利用直方图或折线图求得的众数、中位数、平均数均为近似值,往往与实际数据得出的不一致.但它们能粗略估计其众数、中位数和平均数.
2.利用频率分布直方图求数字特征的近似值:
(1)众数是最高小长方形的底边中点的横坐标;
(2)中位数使得在它左、右两侧直方图的面积相等;
(3)平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和.
变式训练3(2025天津河北高一期末)某人工智能公司为优化新开发的语言模型,在其模型试用人群中开展满意度问卷调查,满意度采用计分制(满分100分),统计满意度并绘制成如下频率分布直方图,图中m=2n,则下列结论不正确的是( )
A.n=0.015
B.满意度计分的众数约为75分
C.满意度计分的平均分约为85分
D.满意度计分的第25百分位数约为70分
C
解析 对于A,由频率分布直方图可得(0.01+n+0.035+m+0.01)×10=1,又m=2n,
解得n=0.015,m=0.03,故A正确;
对于B,满意度计分的众数为最高矩形底边中点横坐标75分,故B正确;
对于C,满意度计分的平均分约为(55×0.01+65×0.015+75×0.035+85×0.03+95×0.01)×10=76.5,故C错误;
对于D,前两组的频率之和为0.25,所以满意度计分的第25百分位数约为70分,故D正确.
故选C.
本节要点归纳
1.知识清单:
(1)平均数、众数、中位数的求法.
(2)方差和标准差的计算及应用.
(3)利用频率分布直方图(折线图)估计
样本的数据特征.
2.方法归纳:数据分析.
3.常见误区:(1)平均数与中位数易混淆.
(2)方差与标准差易混淆.
学以致用·随堂检测促达标
1
2
3
4
5
1.一组样本数据按从小到大的顺序排列为13,14,19,x,23,27,28,31,其中位数为22,则x等于( )
A.21 B.22
C.20 D.23
A
1
2
3
4
5
2.(2025浙江湖州高一期末)已知样本数据x1,x2,x3,x4,x5的平均数为,方差为s2,若样本数据ax1+6,ax2+6,…,ax5+6的平均数为4,方差为4s2,则=( )
A.3 B.-3
C.1或3 D.-1或3
C
解析 因为样本数据x1,x2,x3,x4,x5的平均数为,方差为s2,则样本数据ax1+6,ax2+6,…,ax5+6的平均数为a+6,方差为a2s2,
所以
故选C.
1
2
3
4
5
3.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布如图所示:
甲
乙
D
1
2
3
4
5
1
2
3
4
5
4.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:
参赛人 甲 乙 丙 丁
平均环数 8.3 8.8 8.8 8.7
方差s2 3.5 3.6 2.2 5.4
若要从这四人中选择一人去参加该运动会射击项目比赛,最佳人选是 .(填“甲”“乙”“丙”“丁”中的一个)
丙
解析 分析表格数据可知,乙与丙的平均环数最多,又丙的方差比乙小,说明丙成绩发挥得较为稳定,所以最佳人选为丙.
1
2
3
4
5
5.甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中各抽取6件测量,数据为
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
1
2
3
4
5
.
m+a
为了计算方差的方便,我们还把方差写成
|xi-|
S2=fi(Yi-)2
s2=(yi-)2
S=
S=
S2=(Yi-)2
s2=[(+…+)-n]=+…+)-
这组数据的中位数是=2 250.
这组数据的平均数为
=
==3 115.
(2)由(1)知,比较它们的方差,,故乙机床加工零件的质量更稳定.
解 (1)×(99+100+98+100+100+103)=100,
×(99+100+102+99+100+100)=100,
×[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2
+(103-100)2]=,
×[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2
+(100-100)2]=1.
解 由题意可知=60,甲队队员在所有队员中所占权重为,
=70,乙队队员在所有队员中所占权重为,
则甲、乙两队全部队员的平均体重为×60+×70=68(kg),甲、乙两队全部队员的体重的方差为s2=[200+(60-68)2]+[300+(70-68)2]=296.
①确定;
②确定;
③应用公式s2=)2],计算s2.
A. B. C. D.
再加入一个数据8,则其平均数为(a+b+c+d+8)=(24+8)=,
这5个数据的方差为]
=[(a2+b2+c2+d2)-(a+b+c+d)+4+]
=[156-24+4+]=.
故选C.
解 =130+×(-3+8+0+7+5+1)=133,
=130+×(3-1+8+4-2+6)=133,
×[(-6)2+52+(-3)2+42+22+(-2)2]=,
×[02+(-4)2+52+12+(-5)2+32]=.
甲与乙的平均数相同,由于乙的方差较小,所以乙的成绩比甲的成绩稳定,选乙参加数学竞赛比较合适.
解析 根据题意知,中位数22=,则x=21.
令分别表示甲、乙射中环数的均值;分别表示甲、乙射中环数的方差,则( )
A.
B.
C.
D.
解析 由图可知,=7×0.3+8×0.4+9×0.3=8,=7×0.4+8×0.2+9×0.4=8,
=[(7-8)2×0.3+(8-8)2×0.4+(9-8)2×0.3]=0.6,
=[(7-8)2×0.4+(8-8)2×0.2+(9-8)2×0.4]=0.8,
所以.
故选D.
解 (1)(99+100+98+100+100+103)=100,
(99+100+102+99+100+100)=100.
[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2
+(103-100)2]=,
[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2
+(100-100)2]=1.
(2)两台机床所加工零件的直径的平均数相同,
又,所以乙机床加工零件的质量更稳定.
$