内容正文:
第二节
第九章 统计与成对数据的统计分析
用样本估计总体
【目标要求】 1.能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.2.能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.3.能用样本估计总体的取值规律.4.能用样本估计百分位数,理解百分位数的统计含义.
1.百分位数
(1)一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)四分位数.常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第_____________百分位数也称为第一四分位数或下四分位数等,第_____________百分位数也称为第三四分位数或上四分位数.
25
75
2.平均数、中位数和众数
(1)平均数:如果有n个数x1,x2,…,xn,那么(x1+x2+…+xn)就是这组数据的平均数,用表示,即=_______________.
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在_____________的一个数据(当数据个数是奇数时)或最中间两个数据的_____________(当数据个数是偶数时)叫做这组数据的中位数.
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数.
(x1+x2+…+xn)
最中间
平均数
3.方差和标准差
(1)假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称______________为这组数据的方差.有时为了计算方差的方便,我们还把方差写成 -的形式.为了与原始数据的单位一致,我们对方差开平方,取它的算术平方根______________,称为这组数据的标准差.
(2)方差和标准差刻画了数据的离散程度或波动幅度.
方差:________________________________.
标准差:s=.
(xi-)2
s2=[(x1-)2+(x2-)2+…+(xn-)2]
1.若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
2.若数据x1,x2,…,xn的方差为s2,则:
(1)数据x1+a,x2+a,…,xn+a的方差也为s2;(2)数据ax1,ax2,…,axn的方差为a2s2.
1.思考辨析(对的打“√”,错的打“×”)
(1)对一组数据来说,平均数和中位数总是非常接近.( )
平均数指的是这组数据的平均水平,易受个别数据的影响,中位数指的是这组数据的中间水平,不易受个别数据的影响,两者之间没有必然的联系,故此说法错误.
解析
(2)在频率分布直方图中,样本数据的80%分位数即由小到大分组的累计频率为0.8对应的数据.( )
(3)标准差、方差的取值范围为(0,+∞).( )
(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.( )
在频率分布直方图中,样本数据的80%分位数即由小到大分组的累计频率为0.8对应的数据.故正确.
解析
2.(人A必二P215T2改编)若数据x1,x2,…,x9的方差为2,则数据2x1,2x2,…,2x9的方差为( )
A.2 B.4 C.6 D.8
根据方差的性质可知,数据x1,x2,…,x9的方差s2=2,那么数据2x1,2x2,
…,2x9的方差为22s2=8.故选D.
解析
3.(人A必二P203例2改编)某射击运动员7次的训练成绩分别为86,88,90,89,88,87,85,则这7次成绩的第80百分位数为( )
A.88.5 B.89 C.91 D.89.5
因为7次的训练成绩从小到大排列为85,86,87,88,88,89,90,且7×80%=5.6,所以第80百分位数为从小到大排列的数据中的第6个数据,即89.
解析
4.如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为和,样本标准差分别为sA和sB,则( )
A.>,sA>sB
B.<,sA>sB
C.>,sA<sB
D.<,sA<sB
观察题图可得样本A的数据均小于或等于10,样本B的数据均大于或等于10,故<,又样本B的数据波动范围较小,故sA>sB.故选B.
解析
(1)(2026·大庆模拟)小明记录了近8次数学考试成绩,并绘制成如图所示的折线统计图,这8次成绩的第80百分位数是( )
A.100 B.105 C.110 D.120
考点一
总体百分位数的估计………………自练自悟
因为8×80%=6.4,由题图可知8次成绩由小到大排序的第7个数是110,所以这8次成绩的第80百分位数是110.
解析
(2)现有一组数据:663,664,665,668,671,664,656,674,651,653,652,656,则这组数据的第85百分位数是( )
A.652 B.668 C.671 D.674
由题意这组数据共12个,则12×85%=10.2,将这组数据从小到大排列为651,652,653,656,656,663,664,664,665,668,671,674,故这组数据的第85百分位数为第11个数,即671.故选C.
解析
(3)将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出频率分布直方图如图,则此班模拟考试成绩的80%分位数是_____________.(结果保留两位小数)
124.44
由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,分数在130分以下的学生所占的比例为(0.01+0.015+0.015+0.03+0.022 5)×10×100%=
92.5%,因此80%分位数一定位于[120,130)内.因为120+×
10≈124.44,所以此班模拟考试成绩的80%分位数约为124.44.
解析
1.计算一组n个数据第p百分位数的步骤
(1)按从小到大排列原始数据;(2)计算i=n×p%;(3)若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数;若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据.
2.频率分布直方图中总体百分位数的估计与步骤
(1)确定要求的p%分位数所在分组[A,B);(2)由频率分布直方图知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×.
【例1】 (1)(2026·T8检测训练)(多选题)已知一组数据x1,x2,x3,…,xn的平均数为(≠0),将这组数据分别加上它们的平均数,得到一组新数据x1+,x2+,x3+,…,xn+,则新数据与原数据相比( )
A.极差相同 B.平均数不同
C.方差不同 D.中位数相同
考点二
总体集中趋势的估计
极差为最大值与最小值的差,所以极差相同,所以选项A正确;原数据的平均数=,新数据的平均数==
+=2,所以平均数不同,所以选项B正确;原数据的方差=[(x1-)2+(x2-)2+…+(xn-)2],新数据的方差=[(x1+-2)2+(x2+-2)2+…+(xn+-2)2]=,所以方差相同,所以选项C错误;中位数显然不同,所以选项D错误.
解析
(2)(多选题)某中学九年级在体能测试后,为分析学生的跳绳成绩,随机抽取了120名学生的1分钟跳绳的次数,将所得数据整理后,分为6组画出如图频率分布直方图.为进一步分析学生的成绩分布情况,经计算得到这120名学生中,跳绳次数位于[140,150)的学生跳绳次数的方差为2,跳绳次数位于[150,160]的学生跳绳次数的方差为2.5.(同一组中的数据以这组数据所在区间的中点值为代表)则下列正确的是( )
A.a=0.05
B.估计该年级学生跳绳次数的60%分位数约为135
C.估计该年级学生跳绳次数在140次及以上的学生跳绳次数的平均数为147.5
D.估计该年级学生跳绳次数在140次及以上的学生跳绳次数的方差为26.2
对于A,由频率分布直方图中各长方形面积和为1,得(a+2a+3a+3a+
5a+6a)×10=1,解得a=0.005,故A错误;对于B,根据百分位数的计算,假设该年级学生跳绳次数的60%分位数为x,则(a+3a+5a)×10+6a×
(x-130)=0.6,又a=0.005,所以解得x=135,故B正确;对于C,该年级学生跳绳次数在140次及以上的学生跳绳次数的平均数为145×
+155×=149,故C错误;对于D,该年级学生跳绳次数在140次及以上的学生跳绳次数的方差为×[2+
(149-145)2]+[2.5+(155-149)2]=26.2,故D正确.故选BD.
解析
频率分布直方图的数字特征
1.众数:最高矩形的底边中点的横坐标.
2.中位数:中位数左边和右边的矩形的面积和应该相等.
3.平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
【训练1】 (1)(2025·全国二卷)样本数据2,8,14,16,20的平均数为 ( )
A.8 B.9 C.12 D.18
(2+8+14+16+20)=12,故选C.
解析
(2)(2026·兰州模拟)某校为了提高学生的安全意识,组织高一年级全体学生进行安全知识竞赛答题活动,随机抽取8人的得分作为样本.分数从低到高依次为84,85,87,87,90,a,b,99,若这组数据的第75百分位数为94,则利用样本估计此次竞赛的平均分为( )
A.85 B.86 C.90 D.95
解析
(3)(多选题)如图所示的频率分布直方图显示了三种不同的分布形态.图①形成对称形态,图②形成“右拖尾”形态,图③形成“左拖尾”形态,根据所给图作出以下判断,正确的是( )
A.图①的平均数=中位数=众数 B.图②的平均数<众数<中位数
C.图②的众数<中位数<平均数 D.图③的平均数<中位数<众数
题图①所示的频率分布直方图是对称的,所以平均数=中位数=众数,故A正确;题图②众数最小,右拖尾平均数大于中位数,故B错误,C正确;题图③左拖尾众数最大,平均数小于中位数,故D正确.故选ACD.
解析
【例2】 (2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
考点三
总体离散程度的估计
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
由题意,求出zi的值如表所示,
解
试验序号i 1 2 3 4 5 6 7 8 9 10
zi 9 6 8 -8 15 11 19 18 20 12
则=×(9+6+8-8+15+11+19+18+20+12)=11,s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
解
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)较大,数据的离散程度越大;标准差(方差)较小,数据的离散程度越小.
【训练2】 甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
(1)求两位学生预赛成绩的平均数和方差;
甲 82 81 79 78 95 88 93 84
乙 92 95 80 75 83 80 90 85
=×(82+81+79+78+95+88+93+84)=85,=×(92+95+80+75+83+80+90+85)=85,=×[(82-85)2+(81-85)2+(79-85)2+(78-85)2+(95-85)2+(88-85)2+(93-85)2+(84-85)2]=35.5,=×[(92-85)2+(95-85)2+(80-85)2+(75-85)2+(83-85)2+(80-85)2+(90-85)2+(85-85)2]=41.
解
(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.
由(1)知=,<,甲的成绩较稳定,所以派甲参赛比较合 适.
解
计算分层随机抽样的方差的步骤
分层随机抽样中,如果样本量是按比例分配,记第一层有m个数,第二层有n个数,总的样本平均数为,样本方差为s2.
(1)确定,,,.
(2)确定=+.
(3)s2=[+(-)2]+[+(-)2].
【典例】 (2026·珠海模拟)某学校在上报《国家学生体质健康标 准》高三年级学生的肺活量单项数据中,采用样本量按比例分配的分层随机抽样方法.如果不知道样本数据,只知道抽取了男生20人,其肺活量平均数为3 000 mL,方差为10;抽取了女生30人,其肺活量平均数为2 500 mL,方差为20,则可估计高三年级全体学生肺活量的平均数为_____________mL,方差为_____________.
2 700
60 016
解析
【微练】 某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六组: [40,50),
[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图.
若落在[50,60)的平均成绩是57,方差是2,落在[60,70)的平均成绩为69,方差是5,则这两组成绩的总方差s2=_____________.
36
由频率之和为1结合频率分布直方图可得10×(0.005+0.01+0.02+a
+0.025+0.01)=1,解得a=0.03,样本成绩的平均数约为=45×0.05+
55×0.1+65×0.2+75×0.3+85×0.25+95×0.1=74.由频率分布直方图知,成绩在[50,60)的市民人数为100×0.1=10,成绩在[60,70)的市民人数为100×0.2=20,所以总平均数==65,总方差s2=[2+(57-65)2]+[5+(69-65)2]=36.
解析
因为8×75%=6,所以这组数据的第75百分位数为=94,得a+b=188,所以这组数据的平均数为=90,故选C.
因为2=2=,=11=>,所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
把男生样本平均数记为,方差记为;把女生样本平均数记为,方差记为;把总样本数据的平均数记为,方差记为s2.则=+=×
3 000+×2 500=2 700,s2={20[+(-)2]+30[+(-)2]}=×{20×[10+
(3 000-2 700)2]+30×[20+(2 500-2 700)2]}=60 016.据此可估计高三年级全体学生肺活量的平均数为2 700 mL,方差为60 016.
$