内容正文:
5.1 统计
5.1.4 用样本估计总体
第五章 统计与概率
[学习目标] 1.正确理解样本数据标准差的意义和作用,学会计算数据的标准差. 2.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释. 3.会用样本的基本数字特征估计总体的基本数字特征.
知识点1 用样本的数字特征估计总体的数字特征
内容索引
知识点2 分层抽样的平均数、方差
课时作业 巩固提升
知识点3 用样本的分布来估计总体的分布
课堂达标·素养提升
3
知识点1 用样本的数字特征估计总体的数字特征
1.用样本的数字特征估计总体的数字特征
(1)一般情况下,如果样本的容量 ,抽样方法又 的话,样本的特征能够反映总体的特征.特别地,样本平均数(也称为样本均值)、方差(也称为样本方差)与总体对应的值相差不会太大.
(2)在容许一定误差存在的前提下,可以用 的数字特征去估计总体的数字特征,这样就能节省人力和物力等.
另外,有时候总体的数字特征不可能获得,此时只能用样本的数字特征去估计总体的数字特征.
恰当
合理
样本
2.众数、中位数、平均数
众数 在频率分布直方图中,众数是最高小矩形的中点所对应的数据
中位
数 (1)在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;
(2)表示样本数据所占频率的等分线
平均
数 (1)在频率分布直方图中,平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和;
(2)平均数是频率分布直方图的重心,是频率分布直方图的平衡点
甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:
例1
(1)填写下表:
平均数 方差 中位数 命中9环及以上
甲 7 1.2 1
乙 5.4 3
[解] (1)乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,所以=(2+4+6+8+7+7+8+9+9+10)=7;乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是=7.5;甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如表所示:
平均数 方差 中位数 命中9环及以上
甲 7 1.2 7 1
乙 7 5.4 7.5 3
(2)请从四个不同的角度对这次测试进行分析:
①从平均数和方差结合分析偏离程度;
②从平均数和中位数结合分析谁的
成绩好些;
③从平均数和命中9环以上的次数相
结合看谁的成绩好些;
④从折线图上两人射击命中环数及走势分析谁更有潜力.
[解] (2)①甲、乙的平均数相同,均为7,但<,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.
②甲、乙的平均水平相同,而乙的中位数比甲大,说明乙射靶成绩比甲好.
③甲、乙的平均水平相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.
④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.
在日常生活中,当面对一组数据时,相比每一个观测值,有时我们更关心的是能反映这组数据特征的一些值,例如上述数据,我们可以从平均数、中位数、百分位数、众数、极差、方差、标准差等角度进行比较.
思维提升
1.甲、乙两人参加某体育项目训练,近期的五次测试成绩得分情况如图所示.
(1)分别求出两人得分的平均数与方差;
跟踪训练
解:(1)由题图可得甲、乙两人五次测试的成绩分别为
甲:10,13,12,14,16;
乙:13,14,12,12,14.
==13,
==13,
=×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
=×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(2)根据图形和(1)中计算结果,对两人的训练成绩作出评价.
解: (2)由>可知乙的成绩较稳定.
从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.
知识点2 分层抽样的平均数、方差
假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为t2.
如果记样本均值为,样本方差为b2,
则==,
b2=
=.
在对某中学高一年级学生身高(单位:cm)的调查中,采用分层抽样的方法,抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62,你能由这些数据计算出样本的方差,并对高一年级全体学生身高的方差作出估计吗?
例2
[解] 把样本中男生的身高记为x1,x2,…,x23,其平均数记为,方差记为;把样本中女生的身高记为y1,y2,…,y27,其平均数记为,方差记为,把样本的平均数记为,方差记为s2.
则==165.2,
s2=
==51.486 2,
即样本的方差为51.486 2.
因此估计高一年级全体学生身高的方差为51.486 2.
1.求分层随机抽样的平均数的步骤
(1)求样本中不同层的平均数;
(2)应用分层随机抽样的平均数公式进行求解.
2.求分层随机抽样的方差的步骤
(1)求样本中不同层的平均数;
(2)求样本中不同层的方差;
(3)应用分层随机抽样的方差公式进行求解.
思维提升
2.工厂为了解每个工人对某零件的日加工量,统计员分别从两车间抽取了甲、乙两人日加工量的两个样本.抽到甲的一个样本容量为10,样本平均数为5,方差为1;乙的一个样本容量为12,样本平均数为6,方差为2.现将这两组样本合在一起,求合在一起后的样本的平均数与方差.
跟踪训练
解:设抽到甲的一个样本数据为x1,x2,…,x10;乙的一个样本数据为y1,y2,…,y12,
由题意知=xi=5,方差s2=(xi-5)2=1,
=yi=6,方差t2=(yi-6)2=2,
则合在一起后的样本容量为22,
样本平均数为=×(10×5+12×6)≈5.55,
样本方差为b2=
×≈1.79.
知识点3 用样本的分布来估计总体的分布
1.同数字特征的估计一样,分布的估计一般也有误差.如果总体在每一个分组的频率记为π1,π2,…,πn,样本在每一组对应的频率记为p1,p2,…,pn,一般来说,(πi-pi)2=不等于零.同样,大数定律可以保证,当样本的容量越来越大时,上式很小的可能性将越来 .
2.用样本的分布来估计总体的分布
如果样本的容量恰当,抽样方法又合理的话,样本的分布与总体分布会差不多,特别地,每一组的频率与总体对应的频率相差不会太大.
[(π1-p1)2+(π2-p2)2+…+(πn-pn)2]
越大
统计局就某地居民的月收入(元)情况调查了10 000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点,不包括右端点,如第一组表示月收入在[500,1 000)内.
例3
(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10 000人中用分层抽样的方法抽出100人作进一步分析,则月收入在[2 000,2 500)内的应抽取多少人?
[分析] 结合频率分布直方图求解.
[解] (1)因为(0.000 2+0.000 4+0.000 3+0.000 1)×500=0.5,所以a==0.000 5,月收入在[2 000,2 500)内的频率为0.25,所以100人中月收入在[2 000,2 500)内的人数为0.25×100=25.
(2)根据频率分布直方图估计样本数据的中位数;
[分析] 结合频率分布直方图求解.
[解] (2)因为0.000 2×500=0.1,
0.000 4×500=0.2.
0.000 5×500=0.25.
0.1+0.2+0.25=0.55>0.5,
所以样本数据的中位数是1 500+=1 900(元).
(3)根据频率分布直方图估计样本数据的平均数.
[分析] 结合频率分布直方图求解.
[解] (3)样本平均数为(750×0.000 2+1 250×0.000 4+1 750×0.000 5+2 250×0.000 5+2 750×0.000 3+3 250×0.000 1)×500=1 900(元).
1.利用频率分布直方图求数字特征
(1)众数是最高的矩形的底边的中点;
(2)中位数左右两侧直方图的面积相等;
(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.利用直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数.
思维提升
3.某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层随机抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如图所示的频率分布直方图:
跟踪训练
(1)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
解:(1)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(2)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解: (2)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30,
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2,
所以根据分层随机抽样原理,总体中男生
和女生人数的比例估计为3∶2.
〈课堂达标·素养提升〉
1.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
B
标准差和方差都能反映一组数据的稳定程度.
2.李大伯承包了一个果园,种植了100棵樱桃树,今年已进入收获期,收获时,从中任选并采摘了10棵树的樱桃,分别称得每棵树所产樱桃的质量如表:
序号 1 2 3 4 5 6 7 8 9 10
质量/
千克 14 21 27 17 18 20 19 23 19 22
据调查,市场上今年樱桃的批发价格为每千克15元,用所学的统计知识估计今年此果园樱桃的总产量与按批发价格销售樱桃所得的总收入分别约为( )
A.200千克,3 000元
B.1 900千克,28 500元
C.2 000千克,30 000元
D.1 850千克,27 750元
C
样本平均数为(14+21+27+17+18+20+19+23+19+22)÷10=20(千克).由此可估计每棵樱桃树所产樱桃质量平均约为20千克,所以这100棵樱桃树所产樱桃的质量约为20×100=2 000(千克).根据樱桃批发价格为每千克15元,可得总收入约为15×2 000=30 000(元).
3.甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如表所示:
从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是( )
A.甲 B.乙
C.丙 D.丁
甲 乙 丙 丁
平均环数 8.6 8.9 8.9 8.2
方差s2 3.5 3.5 2.1 5.6
C
由表可知,乙、丙的成绩最好,平均环数都为8.9,但乙的方差大,说明乙的波动性大,所以丙为最佳人选.
4.在某市今年“创建文明城市”知识竞赛中,考评组从中抽取200份试卷进行分析,其分数的频率分布直方图如图所示,则分数在区间[60,70)上的人数大约为 .
80
根据频率分布直方图,分数在区间[60,70)上的频率为0.04×10=0.4,∴分数在区间[60,70)上的人数为200×0.4=80.
课时作业 巩固提升
[A组 必备知识练]
1.运动员参加体操比赛,当评委亮分后,往往是先去掉一个最高分和一个最低分,再计算剩下分数的平均值,这是为了( )
A.减少计算量 B.避免故障
C.剔除异常值 D.活跃赛场气氛
1
2
3
4
5
6
7
8
9
10
11
12
C
13
14
在体操比赛的评分中使用的是平均分.记分过程中采用“去掉一个最高分和一个最低分”的方法,就是为了防止个别裁判的人为因素而给出过高或过低的分数,对选手的得分造成较大的影响,从而可以降低误差,使得比赛尽量公平.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2.(多选)下列说法中正确的为( )
A.数据的极差越小,样本数据分布越集中、稳定
B.数据的平均数越小,样本数据分布越集中、稳定
C.数据的标准差越小,样本数据分布越集中、稳定
D.数据的方差越小,样本数据分布越集中、稳定
1
2
3
4
5
6
7
8
9
10
11
12
ACD
13
14
由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故B不正确,A,C,D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3.已知样本10,8,10,8,6,13,11,10,12,7,9,8,12,9,11,12,9,10,11,10,那么频率为0.2的范围是( )
A.5.5~7.5 B.7.5~9.5
C.9.5~11.5 D.11.5~13.5
1
2
3
4
5
6
7
8
9
10
11
12
D
13
14
样本容量为20,频率为0.2的数有4个,而在11.5~13.5之间的数有13,12,12,12,共4个,其他的都不正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
4.一组样本数据a,3,5,7的平均数是b,且a,b是方程x2-5x+4=0的两根,则这个样本的方差是( )
A.3 B.4
C.5 D.6
1
2
3
4
5
6
7
8
9
10
11
12
C
13
14
x2-5x+4=0的两根为1,4,当a=1时,a,3,5,7的平均数是4;当a=4时,a,3,5,7的平均数不是1,所以a=1,b=4,s2=5.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
5.在“争创美丽校园,争做文明学生”示范校评比活动中,10位评委给某校的评分情况如表所示:
则这10位评委评分的平均数是 分.
1
2
3
4
5
6
7
8
9
10
11
12
评分/分 80 85 90 95
评委人数 1 2 5 2
89
13
14
==89.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
6.为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图所示,则
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(1)这20名工人中一天生产该产品数量在[55,75)的人数是 .
(1)在[55,75)的人数为(0.040×10+0.025×10)×20=13.
1
2
3
4
5
6
7
8
9
10
11
12
13
13
14
(2)这20名工人中一天生产该产品数量的中位数为 .
(2)设中位数为x,则0.2+(x-55)×0.04=0.5,x=62.5.
1
2
3
4
5
6
7
8
9
10
11
12
62.5
13
14
(3)这20名工人中一天生产该产品数量的平均数为 .
(3)0.20×50+0.40×60+0.25×70+0.10×80+0.05×90=64.
1
2
3
4
5
6
7
8
9
10
11
12
64
13
14
7.甲、乙两台机床在相同的技术条件下,同时生产一种零件,现在从甲、乙生产的零件中分别抽取40件、60件,甲的平均尺寸为10,方差为20,乙的平均尺寸为12,方差为40.那么全部100件产品的平均尺寸和方差分别是多少?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解:甲机床生产的零件的平均尺寸、方差分别为=10,=20,
乙机床生产的零件的平均尺寸、方差分别为=12,=40,
所以100件产品的平均尺寸===11.2,
所以100件产品的方差
s2=×=×[(40×20+60×40)+24×4]=32.96.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
8.某地区100位居民的人均月用水量(单位:t)的分组及各组的频数如下:
[0,0.5),4;[0.5,1),8;[1,1.5),15;[1.5,2),22;[2,2.5),25;[2.5,3),14;[3,3.5),6;
[3.5,4),4;[4,4.5],2.
(1)列出样本的频率分布表;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解:(1)频率分布表如表所示:
1
2
3
4
5
6
7
8
9
10
11
12
分组 频数 频率
[0,0.5) 4 0.04
[0.5,1) 8 0.08
[1,1.5) 15 0.15
[1.5,2) 22 0.22
[2,2.5) 25 0.25
分组 频数 频率
[2.5,3) 14 0.14
[3,3.5) 6 0.06
[3.5,4) 4 0.04
[4,4.5] 2 0.02
合计 100 1.00
13
14
(2)画出频率分布直方图,并根据直方图估计这组数据的平均数、中位数、众数;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解: (2)频率分布直方图如图:
众数:2.25;中位数:2.02;平均数:2.02.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(3)当地政府制定了人均月用水量为3 t的标准,若超出标准加倍收费,当地政府说,85%以上的居民不超过这个标准,这个解释对吗?为什么?
解: (3)人均月用水量在3 t以上的居民所占的比例为6%+4%+2%=12%,即大约有12%的居民月用水量在3 t以上,88%的居民月用水量在3 t以下,因此政府的解释是正确的.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
[B组 关键能力练]
9.是x1,x2,…,x100的平均数,a是x1,x2,…,x40的平均数,b是x41,x42,…,x100的平均数,则下列各式正确的是( )
A.=a+b B.=
C.= D.=
1
2
3
4
5
6
7
8
9
10
11
12
C
13
14
依题意可得100=x1+x2+…+x100,40a=x1+x2+…+x40,60b=x41+x42+…+x100,故=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10.(多选)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数大于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
1
2
3
4
5
6
7
8
9
10
11
12
BC
13
14
由条形统计图知:
甲射靶5次的成绩分别为4,5,6,7,8;
乙射靶5次的成绩分别为5,5,5,6,9,
所以==6;==6,所以=,故A不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B正确.=[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=×10=2,=[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=×12=,因为2<,所以<,故C正确.甲的成绩的极差为8-4=4,乙的成绩的极差为9-5=4,故D不正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
11.一组数据中的每一个数据都减去80,得一组新数据,若求得新数据的平均数是1.2,方差是4.4,则原来数据的平均数和方差分别是
、 .
设原数据的平均数为A,方差为B,则将原数据都减去80,得一组新数据的平均数为A-80,方差为B,则A-80=1.2,∴A=81.2,B=4.4.
1
2
3
4
5
6
7
8
9
10
11
12
81.2
4.4
13
14
12.一定数量的汽车在通过某一段公路时的时速数据的频率分布直方图如图所示,时速在[50,70)内的汽车有160辆,则时速在[40,50)内的汽车有
辆.
1
2
3
4
5
6
7
8
9
10
11
12
20
13
14
1
2
3
4
5
6
7
8
9
10
11
12
时速在[50,70)内的频率为0.03×10+0.05×10=0.8,
∴样本容量为160÷0.8=200,
而时速在[40,50)内的频率为0.01×10=0.1,
∴时速在[40,50)的汽车有200×0.1=20(辆).
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13.已知一个样本:
30,29,26,24,25,27,26,22,24,25,26,28,25,21,23,25,27,29,25,28.
(1)列出样本的频率分布表;
13
14
1
2
3
4
5
6
7
8
9
10
11
12
解:(1)计算极差:30-21=9.
决定组距和组数:取组距为2.
∵=4,∴共分5组.
决定分点,使分点比数据多一位小数.
并把第1小组的分点减小0.5,即分成5组:
20.5~22.5,22.5~24.5,24.5~26.5,26.5~28.5,
28.5~30.5.
列出频率分布表.
分组 频数 频率
[20.5,22.5) 2 0.10
[22.5,24.5) 3 0.15
[24.5,26.5) 8 0.40
[26.5,28.5) 4 0.20
[28.5,30.5] 3 0.15
合计 20 1.00
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(2)画出频率分布直方图和频率分布折线图;
解: (2)取各小长方形上的中点并用线段连接就构成了频率分布折线图,作出频率分布直方图.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(3)根据频率分布直方图,估计总体出现在23~28内的频率是多少.
解: (3)由频率分布表和频率分布直方图观察得:样本值出现在23~28之间的频率为0.15+0.40+0.20=0.75,所以可以估计总体中出现在23~28之间的数的频率约为0.75.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
[C组 素养培优练]
14.对某校高三年级学生参加社区服务的次数进行统计,随机抽取M名学生,得到这M名学生参加社区服务的次数,根据此数据作出频率分布表和频率分布直方图如图所示:
分组 频数 频率
[10,15) 10 0.25
[15,20) 24 n
[20,25) m p
[25,30] 2 0.05
合计 M 1
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(1)求出表中M,p及图中a的值;
13
14
1
2
3
4
5
6
7
8
9
10
11
12
解:(1)由分组[10,15)内的频数是10,频率是0.25,知=0.25,所以M=40,
所以10+24+m+2=40,解得m=4,
所以p===0.10,
a==0.12.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(2)若该校有高三学生240人,试估计该校高三学生参加社区服务的次数在区间[10,15)内的人数;
解: (2)估计该校高三学生参加社区服务的次数在区间[10,15)内的人数为0.25×240=60.
13
14
1
2
3
4
5
6
7
8
9
10
11
12
(3)估计该校高三年级学生参加社区服务次数的平均数.
解: (3)因为n==0.60,
又12.5×0.25+17.5×0.60+22.5×0.10+27.5×0.05=17.25.
所以估计该校高三年级学生参加社区服务次数的平均数是17.25.
13
14
$$