内容正文:
5.1.4 用样本估计总体
课程标准
素养解读
1.正确理解样本数据标准差的意义和作用,学会计算数据的标准差
2.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释
3.会用样本的基本数字特征估计总体的基本数字特征
通过用样本估计总体,提升学生的数据分析和逻辑推理素养
[情境引入]
某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,5,6,6,6,57.
哪个统计量能较好地反映乙群市民的年龄特征?
提示 中位数和众数
[知识梳理]
[知识点一] 用样本的数字特征估计总体的数字特征
利用随机抽样得到样本,从样本数据得到的分布、平均数和标准差(通常称之为样本分布、样本平均数和样本标准差)并不是总体真正的分布、平均数和标准差,而只是总体的一个估计,但这个估计是合理的,特别是当样本容量很大时,它们确实反映了总体的信息.
n个样本数据x1,x2,…,xn的平均数=(x1+x2+…+xn),则有n= x1+x2+…+xn .
设样本的元素为x1,x2,…,xn,样本的平均数为,则样本方差的算术平方根即为样本的标准差,即s=.
[知识点二] 用样本的分布来估计总体的分布
众数
众数是最高长方形的中点所对应的数据,表示样本数据的中心值
中位数
(1)在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;
(2)表示样本数据所占频率的等分线
平均数
(1)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和;
(2)平均数是频率分布直方图的重心,是频率分布直方图的平衡点
1.在一组样本数据中,众数一定是唯一的吗?
提示:不一定
2.用样本估计出的总体中位数一定是样本数据中的某个数吗?
提示:不一定
[预习自测]
1.在用样本频率分布估计总体分布的过程中,下列说法中正确的是( )
A.样本容量一定时总体容量越大,估计越精确
B.总体容量与估计的精确度无关
C.总体容量一定时样本容量越大,估计越精确
D.总体容量一定时样本容量越小,估计越精确
解析:C [当样本容量越大时,估计总体越精确.]
2.样本101,98,102,100,99的标准差为( )
A. B.0 C.1 D.2
解析:A [样本平均数=100,方差为s2=2,
∴标准差s=.]
3.为了了解甲、乙两人的工作效率,随机抽取了甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图所示,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则估计甲、乙两人日加工零件的平均数分别为 ________ 和 ________ .
解析:甲10天每天加工零件的个数分别为:18,19,20,20,21,22,23,31,31,35,所求平均数为甲=×(18+19+20+20+21+22+23+31+31+35)=24.
乙10天每天加工零件的个数分别为:11,17,19,21,22,24,24,30,30,32,所求平均数为
乙=×(11+17+19+21+22+24+24+30+30+32)=23.
用样本的数字特征估计总体的数字特征
[例1] 从同一地块甲、乙两种玉米的苗中共抽18株,分别测得它们的株高(单位:cm)如下茎叶图所示:
(1)哪种玉米的苗长得高?哪种玉米的苗长得齐?
(2)估计这一块地中所有玉米株高的平均数和方差分别是多少?
[思路点拨] 分别计算甲、乙的平均数和方差,做出判断.
[解] (1)由茎叶图可得所抽取的甲、乙两种玉米苗的株高分别为
甲:15,21,22,25,37,39,40,41.
乙:16,16,16,27,27,40,40,40,44,44.
甲=×(15+21+22+25+37+39+40+41)=30,
乙=×(16+16+16+27+27+40+40+40+44+44)=31.
可以估计总体中甲种玉米株高的平均数小于乙种的,所以乙种玉米的苗长得高.
s=×[(15-30)2+(21-30)2+(22-30)2+(25-30)2+(37-30)2+(39-30)2+(40-30)2+(41-30)2]=93.25.
s=×[(16-31)2+(16-31)2+(16-31)2+(27-31)2+(27-31)2+(40-31)2+(40-31)2+(40-31)2+(44-31)2+(44-31)2]=128.8.
可以估计总体中甲种玉米株高的方差小于乙种的,所以甲种玉米的苗长得齐.
(2)因为甲=30,s=93.25.甲种玉米抽了8株,乙=31,s=128.8.乙种玉米抽了10株.
所以这18株玉米株高的平均值=×30+×31≈30.56.
这18株玉米株高的方差s2=×[93.25+(30-30.56)2]+×[128.8+(31-30.56)2]≈113.25.
所以可估计这块地玉米株高的平均值为30.56,方差为113.25.
求平均数和方差的步骤
(1)求和:数据x1,x2,…,xn的和为x1+x2+…+xn;
(2)求平均数:和除以数据的个数n,即x1,x2,…,xn的平均值为(x1+x2+…+xn).
(3)求方差:样本的方差s2=[(x1-)2+(x2-)2+…+(xn-)2].
注意:求平均数和方差时要注意数据的个数,不要重计或漏计.
[变式训练]
1.甲乙两名学生六次数学测验成绩(百分制)如图所示.
①甲同学成绩的中位数大于乙同学成绩的中位数;
②甲同学的平均分比乙同学高;
③甲同学的平均分比乙同学低;
④甲同学成绩的方差小于乙同学成绩的方差.
上面说法正确的是( )
A.③④ B.①②④
C.②④ D.①③
解析:A [甲的中位数81,乙的中位数87.5,故①错,排除B,D;甲的平均分=(76+72+80+82+86+90)=81,乙的平均分=(69+78+87+88+92+96)=85,故②错,③对,排除C.]
利用频率分布直方图求数据的众数、
中位数及平均数
[例2] 从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.
由于一些数据丢失,试利用频率分布直方图求:
(1)这50名学生成绩的众数与中位数.
(2)这50名学生的平均成绩.
[思路点拨] 利用直方图求数字特征:
①众数是最高的矩形的底边的中点.
②中位数左右两边直方图的面积应相等.
③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
[解析] (1)由众数的概念可知,众数是出现次数最多的数.在直方图中高度最高的小长方形框的中间值的横坐标即为所求.所以众数应为75.
由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等.即频率也相等.从而就是小矩形的面积和相等.因此在频率分布直方图中将频率分布直方图中所有小矩形的面积一分为二的直线所对应的成绩即为所求.
∵0.004×10+0.006×10+0.02×10
=0.04+0.06+0.2=0.3,
∴前三个小矩形面积的和为0.3.
而第四个小矩形面积为
0.03×10=0.3,0.3+0.3>0.5,
∴中位数应位于第四个小矩形内.
设其底边为x,高为0.03,
∴令0.03x=0.2得x≈6.7,
故中位数应为70+6.7=76.7.
(2)样本平均值应是频率分布直方图的“重心”.即所有数据的平均值,取每个小矩形底边的中点值乘以每个小矩形的面积即可.
∴平均成绩为45×(0.004×10)+55×(0.006×10)+65×(0.02×10)+75×(0.03×10)+85×(0.021×10)+95×(0.016×10)≈74,
综上(1)众数是75,中位数约为76.7;
(2)平均成绩约为74.
(1)利用频率分布直方图求数字特征;
①众数是最高的矩形的底边的中点;
②中位数左右两侧直方图的面积相等;
③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(2)利用直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数.
[变式训练]
2.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数
(3)求这次测试数学成绩的平均分.
(4) 试估计80分以上的学生人数.
解:(1)由图知众数为=75.
(2)由图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
(3)由图知这次数学成绩的平均分为:
×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
(4)[80,90)分的频率为:0.025×10=0.25,频数为:0.25×80=20.
[90,100]分的频率为:0.005×10=0.05,频数为:0.05×80=4.
所以估计80分以上的学生人数为20+4=24.
1.已知甲,乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )
A.甲投中个数的极差是29
B.乙投中个数的众数是21
C.甲的投中率比乙高
D.甲投中个数的中位数是25
解析:D [由茎叶图可知甲投中个数的极差为37-8=29,故A正确;易知乙投中个数的众数是21,故B正确;甲的投中率为
=0.535,乙的投中率为
=0.422 5,所以甲的投中率比乙高,C正确;甲投中个数的中位数为=23,D不正确,故选D.]
2.样本a,3,5,7的平均数是b,且a,b是方程x2-5x+4=0的两根,则这个样本的方差是( )
A.3 B.4 C.5 D.6
解析:C [x2-5x+4=0的两根是1,4.
当a=1时,a,3,5,7的平均数是4;
当a=4时,a,3,5,7的平均数不是1.
∴a=1,b=4,则方差s2=×[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.]
3.(多选题)在某次高中学科竞赛中,4 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间的中点值作代表,则下列说法中正确的是( )
A.成绩在[70,80)内的考生人数最多
B.不及格的考生人数为1 000
C.考生竞赛成绩的平均分约为70.5分
D.考生竞赛成绩的中位数为75分
解析:ABC [由频率分布直方图可得,成绩在[70,80)内的频率最高,因此考生人数最多,故A正确;由频率分布直方图可得,成绩在[40,60)内的频率为10×(0.01+0.015)=0.25,因此不及格的人数为4 000×0.25=1 000,故B正确;C选项,由频率分布直方图可得,平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5(分),故C正确;因为成绩在[40,70)内的频率为10×(0.01+0.015+0.02)=0.45.在[70,80)内的频率为0.3,所以中位数70+10×≈71.67,故D错误.故选A、B、C.]
4.如图是一次考试结果的频数分布直方图,根据该图可估计,这次考试的平均分数为 ________ .
解析:根据题中统计图,可估计有4人成绩在[0,20)之间,其考试分数之和为4×10=40;有8人成绩在[20,40)之间,其考试分数之和为8×30=240;有10人成绩在[40,60)之间,其考试分数之和为10×50=500;有6人成绩在[60,80)之间,其考试分数之和为6×70=420;有2人成绩在[80,100)之间,其考试分数之和为2×90=180,由此可知,考生总人数为4+8+10+6+2=30,考试总成绩为40+240+500+420+180=1 380,平均分数为=46.
答案:46
5.一个经销鲜花产品的微店,为保障售出的百合花品质,每天从某省鲜花基地空运固定数量的百合花,如有剩余则免费分赠给第二天购花顾客,如果不足,则从本地鲜花供应商处进货.今年四月前10天,微店百合花的售价为每支2元,某省空运来的百合花每支进价1.6元,本地供应商处的百合花每支进价1.8元,微店这10天的订单中百合花的日需求量(单位:支)依次为:251,255,231,243,263,241,265,255,244,252.
(1)求今年四月前10天订单中百合花日需求量的平均数和众数,并完成频率分布直方图;
(2)预计四月的后20天,订单中百合花日需求量的频率分布与四月前10天相同,百合花进货价格与售价均不变,请根据(1)中频率分布直方图判断(同一组中的需求量数据用该组区间的中点值作代表,位于各区间的频率代替位于该区间的概率),微店每天从某省固定空运250支,还是255支百合花,四月后20天百合花销售总利润会更大?
解:(1)四月前10天订单中百合需求量众数为255,
平均数=×(231+241+243+244+251+252+255+255+263+265)=250.
频率分布直方图如图:
(2)设订单中百合花的日需求量为a(支),由(1)中频率分布直方图知,a可能取值为235,245,255,265,相应频率分别为0.1,0.3,0.4,0.2.
所以20天中a=235,245,255,265相应的天数为2天,6天,8天,4天.
①若空运250支,
a=235,当日利润为235×2-250×1.6=70(元),
a=245,当日利润为245×2-250×1.6=90(元),
a=255,当日利润为255×2-250×1.6-5×1.8=101(元),
a=265,当日利润为265×2-250×1.6-15×1.8=103(元),
20天总利润为70×2+90×6+101×8+103×4=1 900(元).
②若空运255支,
a=235,当日利润为235×2-255×1.6=62(元),
a=245,当日利润为245×2-255×1.6=82(元),
a=255,当日利润为255×2-255×1.6=102(元),
a=265,当日利润为265×2-255×1.6-10×1.8=104(元),
20天总利润为62×2+82×6+102×8+104×4=1 848(元).
因为1 900>1 848,所以每天空运250支百合花,四月后20天总利润更大.
学科网(北京)股份有限公司
$$