内容正文:
§3 用样本估计总体分布
课程标准
素养解读
1.了解频数与频率的关系
2.会列频数、频率分布表,会画频率分布直方图、频率分布直方图及其折线图
通过对样本的频数、频率分布直方图及其频率折线图的学习,提升学生的数据分析、逻辑推理素养
[情境引入]
下面按时间顺序(从1789年的华盛顿到2017年的特朗普,共45任)给出了历届美国总统就任时的年龄:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,
65,52,56,46,54,49,51,47,55,55,54,42,51,56,
55,51,54,51,60,62,43,55,56,61,52,69,64,46,
54,48,70.
你能很容易地看出这些数据有什么规律吗?若不能,对这些数据如何处理才可以?
提示: 不能.应对这些数据进行整理,用统计图表表示出来才容易看出其规律.
[知识梳理]
[知识点一] 频数与频率
1.频数:将样本按照一定的方法分成若干组,每组内含有的个体数目.
2.频率:频数与总数的比值.
[知识点二] 频率分布直方图
1.画法:
2.本质:频率分布表与频率分布直方图是对纷杂的样本数据整理和表示的一种方案,目的是可以清晰地得到样本数据的频率分布,从而估计总体分布.
3.应用:①数据频数、频率的计算;②估计总体分布.
1.频率分布直方图中小长方形的面积有什么意义?
提示:表示该组数据的频率.
[知识点三] 频率折线图
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的 中点 开始,用线段依次连接各个矩形的 顶端中点 ,直至右边所加区间的 中点 ,就可以得到一条折线,我们称之为频率折线图.
随着样本容量的增大,所划分的区间数也可以随之 增多 ,而每个区间的长度则会相应随之 减小 ,相应的频率折线图就会越接近于一条光滑曲线.
2.对于任何一个总体,它的密度线是不是一定存在?
提示:有的总体没有密度曲线.
[预习自测]
1.将容量为100的样本数据,按从小到大的顺序分成8个组,如下表:
组号
1
2
3
4
5
6
7
8
频数
10
13
14
14
15
13
12
9
则第3组的频率为( )
A.0.14 B. C.0.03 D.
解析:A [第3组的频率为=0.14.]
2.如图是容量为100的样本的频率分布直方图,则样本数据在[6,10)内的频率和频数分别是( )
A.0.32,32 B.0.08,8
C.0.24,24 D.0.36,36
解析:A [频率=0.08×4=0.32,频数=0.32×100=32.]
3.如图所示是一容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在[15,20)内的频数为( )
A.20 B.30 C.40 D.50
解析:B [样本数据落在[15,20)内的频数为100×[1-5×(0.04+0.1)]=30.]
4.容量为100的某个样本,数据拆分为10组,若前七组频率之和为0.79,而剩下的三组的频率依次相差0.05,则剩下的三组中频率最大的一组频率为 ________ .
解析:设剩下的三组中频率最大的一组的频率为x,则另两组的频率分别为x-0.05,x-0.1,而由频率和为1得0.79+(x-0.05)+(x-0.1)+x=1,解得x=0.12.
答案:0.12
频数与频率
[例1] 某市共有5 000名高三学生参加联考,为了解这些学生对数学知识的掌握情况,现
[80,90)
①
②
[90,100)
0.050
[100,110)
0.200
[110,120)
36
0.300
[120,130)
0.275
[130,140)
12
[140,150]
0.050
合计
根据上面的频率分布表,可知①处的数值为 ________ ,②处的数值为 ________ .
[思路点拨] 频数指满足条件的样本数量,频率=
[解析] 设样本量为n,由位于[110,120)的频数为36,频率为=0.300,得样本量n=120,
所以[130,140)的频率为=0.100.
②处的数值为1-0.050-0.200-0.300-0.275-0.100-0.050=0.025,
①处的数值为0.025×120=3.
[答案] 3 0.025
对于频数与频率的问题,首先要明确几个关系,即各组的频数之和等于样本容量,各组的频率之和为1,频率=,在解题过程中,要明确频率、频数以及样本容量之间的关系,弄清楚已知和所求,选择合适的公式解题.
[变式训练]
1.一个频数分布表(样本容量为30)不小心被损坏了一部分,若样本中数据在[20,60)上的频率为0.8,则估计样本在[40,50),[50,60)内的数据个数共为( )
分组
[10,20)
[20,30)
[30,40)
频数
3
4
5
A.15 B.16 C.17 D.19
解析:A [由题意得样本在[40,50),[50,60)内的数据个数共为30×0.8-4-5=15.]
列频率分布表、画频率分布直方图
[例2] 为了解一片经济林的生长情况,随机测量100株的底部周长,得到如下数据:(单位:cm)
(1)编制频率分布表;
(2)绘制频率分布直方图、折线图;
(3)估计该片经济林中底部周长小于100 cm的树木约占多少,周长不小于120 cm的树木约占多少?
[思路点拨] 解答本题可先列出频率分布表,再按步骤作出频率分布直方图及折线图.
[解] (1)从数据中可以看出,这组数据的最大值为135 cm,最小值为80 cm,故极差为55 cm,可将其分为11组,组距为5.
从第一组[80,85)开始,将各组的频数和频率/组距填入表中
分组
频数
频率
频率/组距
[80,85)
1
0.01
0.002
[85,90)
2
0.02
0.004
[90,95)
4
0.04
0.008
[95,100)
14
0.14
0.028
[100,105)
24
0.24
0.048
[105,110)
15
0.15
0.030
[110,115)
12
0.12
0.024
[115,120)
9
0.09
0.018
[120,125)
11
0.11
0.022
[125,130)
6
0.06
0.012
[130,135]
2
0.02
0.004
合计
100
1
0.2
(2)这组数据的频率分布直方图、折线图如图所示.
(3)从频率分布表可以看出,该样本中小于100 cm的频率为0.01+0.02+0.04+0.14=0.21,不小于120 cm的频率为0.11+0.06+0.02=0.19,故可估计该片经济树林中底部周长小于100 cm的树林约占21%,周长不小于120 cm的约占19%.
1.用样本的频率分布估计总体的频率分布就是在一个总体中先按抽样方法选出一个样本后,通过对样本数据的统计分析得到其频率分布表和频率分布直方图,然后用样本估计总体.具体步骤是:
(1)按抽样方法选取样本,样本容量结合总体中的个体数量选定;
(2)求极差,确定组距和组数;
(3)将数据分组,注意每个数据只能落在一个组内;
(4)确定各组的频数并计算频率,列出频率分布表;
(5)结合频率分布表画出频率分布直方图;
(6)根据频率分布表和频率分布直方图估计总体.
2.同一个总体,由于抽样的随机性,如果随机抽取另外一个相同容量的样本,所形成的样本频率分布直方图一般会与前一个样本频率分布直方图有所不同,但它们都可以近似地看作总体的分布.
[变式训练]
2.从某校高三学生中抽取50名参加数学竞赛,成绩分组(单位:分)及各组的频数如下:
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.
(1)列出样本的频率分布表(含累积频率);
(2)画出频率分布直方图;
(3)估计成绩在[60,90)分的学生比例.
解:(1)频率分布表如下:
成绩分组
频数
频率
累积频率
[40,50)
2
0.04
0.04
[50,60)
3
0.06
0.1
[60,70)
10
0.2
0.3
[70,80)
15
0.3
0.6
[80,90)
12
0.24
0.84
[90,100]
8
0.16
1.00
合计
50
1.00
(2)频率分布直方图如图所示.
(3)学生成绩在[60,90)分的频率为0.2+0.3+0.24=0.74=74%,所以估计成绩在[60,90)分的学生比例为74%.
频率分布直方图的应用
[例3] 从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.
(1)直方图中x的值为 ________ ;
(2)在这些用户中,用电量落在区间[100,250)内的户数为 ________ .
[思路点拨] 利用直方图的知识求解.
[解析] (1)由频率分布直方图中长方形的总面积为1,得(0.002 4+0.003 6+0.006+0.002 4+0.001 2+x)×50=1,得x=0.004 4.
(2)用电量在[100,250)内的频率为(0.003 6+0.006+0.004 4)×50=0.7.
∴用电量在区间[100,250)内的户数为0.7×100=70.
[答案] (1)0.004 4 (2)70
1.各组频率的和等于1,因此,各小矩形的面积的和也等于1.
2.频率分布直方图比频率分布表更直观、形象地反映了样本的分布规律.
3.在xOy直角坐标平面内画频率分布直方图时,x=样本数据,y=,这样每一组的频率可以用以该组的组距为底、为高的小矩形的面积来表示.其中,矩形的高==×频数.
4.同样一组数据,如果组距不同,横轴、纵轴单位长度不同,得到的频率分布直方图的形状也会不同.不同的形状给人的印象也不同,这种印象有时会影响我们对总体的判断.
[变式训练]
3.某校组织全体学生参加了主题为“建党百年,薪火相传”的知识竞赛,随机抽取了200名学生进行成绩统计、发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,在被抽取的学生中,成绩在区间[80,90)的学生数是( )
A.30 B.45 C.60 D.100
解析:C [由题意得,10×(0.005+0.01+0.015+x+0.04)=1,解得x=0.03,则学生成绩在区间[80,90)的频率为10×0.03=0.3,由共抽取200名学生,则成绩在区间[80,90)的学生数为200×0.3=60.]
1.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,9,12,9,10,11,12,11.那么频率为0.2的是( )
A.[5.5,7.5) B.[7.5,9.5)
C.[9.5,11.5) D.[11.5,13.5]
解析:D [样本共有20个.根据选项,可分为4组,各组的频数和频率如下表所示:
分组
频数
频率
[5.5,7.5)
2
0.1
[7.5,9.5)
6
0.3
[9.5,11.5)
8
0.4
[11.5,13.5]
4
0.2
合计
20
1.0
从表中可以看出频率为0.2的是[11.5,13.5].]
2.学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n的样本,其频率分布直方图如图所示,其中支出(单位:元)在[50,60]内的学生有30人,则n的值为( )
A.100 B.1 000 C.90 D.900
解析:A [由题意可知,前三组的频率之和为(0.01+0.024+0.036)×10=0.7,∴支出在[50,60]内的频率为1-0.7=0.3,∴n==100.]
3.为了了解某幼儿园儿童的身高情况,抽查该园120名儿童的身高绘制成如图所示的频率分布直方图,则抽查的120名儿童中身高大于或等于98 cm且小于104 cm的有( )
A.90名 B.75名 C.65名 D.40名
解析:A [由题图可知身高大于或等于98 cm且小于104 cm的儿童的频率为(0.1+0.15+0.125)×2=0.75,抽查的120名儿童中有120×0.75=90(名)儿童的身高大于或等于98 cm且小于104 cm.]
4.将容量为100的样本数据分为8个组,如下表:
组号
1
2
3
4
5
6
7
8
频数
10
13
x
14
15
13
12
9
则第3组的频率为 ________ .
解析:由题意得x=100-(10+13+14+15+13+12+9)=14,所以第3组的频率为=0.14.
答案:0.14
5.某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求图中a的值;
(2)若这100名学生的语文成绩在某些分数段的人数x与数学成绩相应分数段的人数y之比如下表所示,求数学成绩在[50,90)之外的人数.
分数段
[50,60)
[60,70)
[70,80)
[80,90)
x∶y
1∶1
2∶1
3∶4
4∶5
解:(1)由频率分布直方图知(2a+0.02+0.03+0.04)×10=1,解得a=0.005.
(2)由频率分布直方图知语文成绩在[50,60),[60,70),[70,80),[80,90)各分数段的人数依次为0.005×10×100=5,0.04×10×100=40,0.03×10×100=30,0.02×10×100=20.由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,40×=20,30×=40,20×=25.故数学成绩在[50,90)之外的人数为100-(5+20+40+25)=10.
学科网(北京)股份有限公司
$$