内容正文:
第九章 统计
9.2.3 总体集中趋势的估计
9.2.4 总体离散程度的估计
【课标要求】
1.掌握众数、中位数、平均数、标准差、方差的定义和特征及其在刻画数据中各自的作用.
2.理解平均数和中位数在频率分布直方图中的关系.
3.理解标准差、方差公式的基本性质.
4.通过具体实际问题不断体会集中趋势、离散程度是如何刻画的,以及它们之间的内在联系.
基础落实•必备知识全过关
知识点一 众数、中位数、平均数
1.众数
(1)定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数.
(2)特征:一组数据中的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
2.中位数
(1)定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
(2)特征:一组数据中的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
一定要注意将数据排序
3.平均数
(1)定义:一组数据的和与这组数据的个数的商.数据x1,x2,…,xn的平均数为.
(2)特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
(3)若x1,x2,…,xn的平均数是,则mx1+a,mx2+a,…,mxn+a的平均数是_______.
m+a
过关自诊
1.判断正误.(正确的画√,错误的画×)
(1)一组数据的众数可以是1个或几个,也可以没有.( )
(2)一组数据的中位数可能不存在.( )
(3)样本量越小,样本平均数越接近总体平均数.( )
√
×
×
2.一组样本数据为:19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为( )
A.14,14 B.12,14
C.14,15.5 D.12,15.5
A
解析 把这组数据按从小到大排列为10,12,12,14,14,14,17,18,19,23,27,则可知其众数为14,中位数为14.
3.有一组数据,其中10,12,13,15,16出现的频率分别是0.15,0.2,0.3,0.2,0.15,则该组数据的平均数为 .
13.2
解析 该组数据的平均数为10×0.15+12×0.2+13×0.3+15×0.2+16×0.15=13.2.
知识点二 探索图表中的中位数与平均数数值规律
平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在下图的三种分布形态中,平均数和中位数的大小存在什么关系?
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图①),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图②),那么平均数 中位数;如果直方图在左边“拖尾”(图③),那么平均数 中位数.也就是说,和中位数相比,平均数总是在“长尾巴”那边.
大于
小于
名师点睛
1.平均数是频率分布直方图的“重心”,是直方图的平衡点,因此,每个小矩形的面积与小矩形底边中点的横坐标的乘积之和即为平均数的估计值.
2.根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
过关自诊
1.判断正误.(正确的画√,错误的画×)
(1)平均数、中位数和众数从不同的角度描述了一组数据的集中趋势.
( )
(2)样本的平均数是频率分布直方图中最高长方形的中点对应的数据.
( )
(3)若改变一组数据中其中一个数,则这组数据的平均数、中位数和众数一定都会发生改变.( )
√
×
×
2.AQI是表示空气质量的指数,AQI指数值越小,表明空气质量越好,当AQI指数值不大于100时称空气质量为“优良”.如图是某地4月1日到12日AQI指数值的统计数据,图中点A表示4月1日的AQI指数值为201,则下列叙述不正确的是( )
A.这12天中有6天空气质量为“优良”
B.这12天中空气质量最好的是4月9日
C.这12天的AQI指数值的中位数是90
D.从4日到9日,空气质量越来越好
C
解析 这12天中,空气质量为“优良”的有95,85,77,67,72,92,共6天,故A正确;这12天中空气质量最好的是4月9日,AQI指数值为67,故B正确;这12天的AQI指数值的中位数是=99.5,故C不正确;从4日到9日,AQI指数值越来越小,表示空气质量越来越好,故D正确.故选C.
知识点三 方差、标准差
1.假设一组数据是x1,x2,…,xn,用表示这组数据的平均数.我们用每个数据与平均数的差的绝对值作为“距离”,即|xi-|(i=1,2,…,n)作为xi到的“距离”.可以得到这组数据x1,x2,…,xn到的“平均距离”为 .为了避免式
中含有绝对值,通常改用平方来代替,即(xi-)2,我们称此式为这组数据的方差. 由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即
,我们称此式为这组数据的 .
为了计算方差的方便,我们还把方差写成
标准差
|xi-|
2.如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称
_________________为总体方差,S=为总体标准差.与总体均值类似,总体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方
差为 .
3.如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称
___________________为样本方差,s=为样本标准差.
S2=(Yi-)2
S2=fi(Yi-)2
s2=(yi-)2
4.方差的重要结论
(1)若x1,x2,…,xn的方差是s2,则mx1+a,mx2+a,…,mxn+a的方差是_________.
(2)方差的简化公式:s2=[(+…+)-n]=+…+)-,即方差等于原数据平方的平均数减去平均数的平方.
m2s2
名师点睛
1.样本标准差反映了各样本数据聚集于样本平均数周围的程度,标准差越小,表明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的周围越分散.
2.若样本数据都相等,则s=0.
3.当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度,就由标准差来衡量.
4.数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感;方差则反映了一组数据围绕平均数波动的大小.
过关自诊
1.判断正误.(正确的画√,错误的画×)
(1)若一组数据的值大小相等,没有波动变化,则标准差为0.( )
(2)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散.( )
√
×
2.现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的.如何求得总体的平均数和标准差呢?
提示 通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,这样做就是合理的,也是可以接受的.
重难探究•能力素养全提升
探究点一 利用平均数、众数、中位数估计总体
【例1】 甲、乙、丙三家电子厂商在广告中都声称,他们的某型电子产品在正常情况下的待机时间都是12 h,质量检测部门对这三家销售产品的待机时间进行了抽样调查,统计结果(单位:h)如下:
甲:8,9,9,9,9,11,13,16,17,19;
乙:10,10,12,12,12,13,14,16,18,19;
丙:8,8,8,10,11,13,17,19,20,20.
(1)分别求出以上三组数据的平均数、众数、中位数.
(2)这三个厂商的推销广告分别利用了上述哪一种数据来表示待机时间?
(3)如果你是顾客,宜选择哪个厂商的产品?为什么?
解 (1)根据平均数的计算公式可知:
甲厂数据的平均数是
=12;
乙厂数据的平均数是
=13.6;
丙厂数据的平均数是
=13.4.
甲厂、乙厂、丙厂数据的众数分别是9,12,8.
甲厂数据的中位数为=10,
乙厂数据的中位数为=12.5,
丙厂数据的中位数为=12.
(2)甲厂用平均数作为该电子产品的待机时间,乙厂用众数作为该电子产品的待机时间,丙厂用中位数作为该电子产品的待机时间.
(3)我会选乙厂的产品.因为乙厂产品的平均数最大,众数最大,中位数最大,所以待机时间更长些,稳定性也较好.
规律方法
名称 优点 缺点
众数 ①体现了样本数据的最大集中点;
②容易计算 ①它只能表达样本数据中很少的一部分信息;
②无法客观地反映总体的特征
中位数 ①不受少数几个极端数据(即排序靠前或靠后的数据)的影响;
②容易计算,便于利用中间数据的信息 对极端值不敏感
平均数 代表性较好,是反映数据集中趋势的量.一般情况下,可以反映出更多的关于样本数据全体的信息 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
变式训练1一次数学知识竞赛中,两组学生成绩如下:
分数 50 60 70 80 90 100
人数 甲组 2 5 10 13 14 6
乙组 4 4 16 2 12 12
经计算,已知两个组的平均分都是80分,请根据所学过的统计知识,进一步判断这次竞赛中哪个组更优秀,并说明理由.
解 (1)甲组成绩的众数为90,乙组成绩的众数为70,从成绩的众数这一角度看,甲组成绩好些.
(2)甲、乙两组成绩的中位数、平均数都是80,其中甲组成绩在80分以上(含80分)的有33人,乙组成绩在80分以上(含80分)的有26人,从这一角度看,甲组成绩总体较好.
(3)从成绩统计表看,甲组成绩大于或等于90分的有20人,乙组成绩大于或等于90分的有24人,所以乙组成绩在高分段的人数多.同时,乙组满分比甲组多6人,从这一角度看,乙组成绩较好.
探究点二 方差和标准差的计算及应用
【例2】 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中抽取6件测量数据为:
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算说明哪台机床加工零件的质量更稳定.
解 (1)×(99+100+98+100+100+103)=100,
×(99+100+102+99+100+100)=100,
×[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
×[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)由(1)知,比较它们的方差,,故乙机床加工零件的质量更稳定.
【例3】 甲、乙两支田径队的体检结果为:甲队队员体重的平均数为60 kg,方差为200,乙队队员体重的平均数为70 kg,方差为300.已知甲、乙两队的队员人数之比为1∶4,则甲、乙两队全部队员的平均体重和方差分别是多少?
解 由题意可知=60,甲队队员在所有队员中所占权重为,
=70,乙队队员在所有队员中所占权重为,
则甲、乙两队全部队员的平均体重为×60+×70=68(kg),甲、乙两队全部队员的体重的方差为s2=[200+(60-68)2]+[300+(70-68)2]=296.
规律方法 方差的计算与性质的应用
(1)在实际问题中,仅靠平均数不能完全反映问题,还要研究其偏离平均值的离散程度(即方差或标准差),方差大说明取值分散性大,方差小说明取值分散性小或者取值集中、稳定.
(2)计算分层随机抽样的方差s2的步骤:
①确定;
②确定;
③应用公式s2=+()2]++()2],计算s2.
变式训练2某校高二年级在一次数学选拔赛中,由于甲、乙两人的竞赛成绩相同,从而决定根据平时在相同条件下进行的六次测试确定出最佳人选,这六次测试的成绩数据如下:
甲 127 138 130 137 135 131
乙 133 129 138 134 128 136
求两人比赛成绩的平均数以及方差,并且分析成绩的稳定性,从中选出一人参加数学竞赛.
解 =130+×(-3+8+0+7+5+1)=133,
=130+×(3-1+8+4-2+6)=133,
×[(-6)2+52+(-3)2+42+22+(-2)2]=,
×[02+(-4)2+52+12+(-5)2+32]=.
甲与乙的平均数相同,因为乙的方差较小,所以乙的成绩比甲的成绩稳定,选乙参加数学竞赛比较合适.
探究点三 频率分布直方图(折线图)中的
“隐藏”的数据信息
【例4】 某市为了解市民对拔尖人才培养理念的关注程度,举办了“拔尖人才素养必备”知识普及竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100],得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值,并估计该市这次
成绩的众数;
(2)已知落在[50,60)的平均成绩=56,方差=9,
落在[70,80)的平均成绩=76,方差=5,求这两组
成绩的总平均数和总方差s2.
解 (1)由频率分布直方图得
a==0.03,
由最高小矩形底边中点的横坐标为75可得,该市这次竞赛成绩众数的估计值为75.
(2)落在[50,60)与[70,80)的人数比为0.01∶0.03=1∶3,则这两组成绩的总平均数为=71,
这两组成绩的总方差为
s2=
==81.
规律方法 1.利用直方图或折线图求得的众数、中位数、平均数均为近似值,往往与实际数据得出的不一致.但它们能粗略估计其众数、中位数和平均数.
2.利用频率分布直方图求数字特征的近似值:
(1)众数是最高小长方形的底边中点的横坐标;
(2)中位数使得在它左、右两侧直方图的面积相等;
(3)平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和.
变式训练3甲、乙两人在相同条件下各射靶10次,每次射靶的成绩情况如图所示.
请从下列四个不同的角度对这次测试结果进行分析.
(1)从平均数和方差相结合看(分析谁的成绩好些);
(2)从平均数和中位数相结合看(分析谁的成绩好些);
(3)从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);
(4)从折线图上两人射击命中环数的走势看(分析谁更有潜力).
解 根据各问情况作如下统计表.
类别 平均数 方差 中位数 命中9环及9环以上次数
甲 7 1.2 7 1
乙 7 5.4 7.5 3
则(1)∵平均数相同,且,∴甲稳定些.∴甲的成绩比乙好.
(2)∵平均数相同,甲的中位数<乙的中位数,∴乙的成绩比甲好.
(3)∵平均数相同,且乙命中9环及9环以上次数比甲多,∴乙的成绩比甲好.
(4)∵甲的成绩在平均线上下波动;而乙处于上升趋势,从第四次以后就没有比甲少的情况发生,
∴乙更有潜力.
本节要点归纳
1.知识清单:
(1)平均数、众数、中位数的求法.
(2)方差和标准差的计算及应用.
(3)利用频率分布直方图(折线图)估计样本的数据特征.
2.方法归纳:
数据分析.
3.常见误区:
(1)平均数与中位数易混淆.
(2)方差与标准差易混淆.
$