内容正文:
14.4.3 用频率直方图估计总体分布
能根据样本数据的频率直方图对总体进行估计,提高对较大规模数据的处理能力.
活动一 背景引入
我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?试说明为了较为合理地确定出这个标准需要做哪些工作?
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t):
9.0
13.6
14.9
5.9
4.0
7.1
6.4
5.4
19.4
2.0
2.2
8.6
13.8
5.4
10.2
4.9
6.8
14.0
2.0
10.5
2.1
5.7
5.1
16.8
6.0
11.1
1.3
11.2
7.7
4.9
2.3
10.0
16.7
12.0
12.4
7.8
5.2
13.6
2.6
22.4
3.6
7.1
8.8
25.6
3.2
18.3
5.1
2.0
3.0
12.0
22.2
10.8
5.5
2.0
24.3
9.9
3.6
5.6
4.4
7.9
5.1
24.5
6.4
7.5
4.7
20.5
5.5
15.7
2.6
5.7
5.5
6.0
16.0
2.4
9.5
3.7
17.0
3.8
4.1
2.3
5.3
7.8
8.1
4.3
13.3
6.8
1.3
7.0
4.9
1.8
7.1
28.0
10.2
13.8
17.9
10.1
5.5
4.6
3.2
21.6
思考1►►►
从这组数据中能发现什么信息?
思考2►►►
如果要统计月均用水量在不同范围内的居民用户占全市居民用户的比例,应采用什么图表表示更直观?并根据数据绘制出来.
思考3►►►
你能从图表中发现居民用户月均用水量的哪些分布规律?能用适当的语言描述吗?
活动二 根据样本数据的频率直方图对总体进行估计
例 某市交通部门需要了解新修建的公路某一路段的车流状况,随机抽查了一个月中7天的车流量,得到如下表所示的数据样本.
时间段
日期
2日
7日
12日
18日
21日
25日
29日
0:00~1:00
23
76
45
37
58
16
28
1:00~2:00
15
53
24
42
36
38
49
2:00~3:00
5
21
18
32
27
22
7
3:00~4:00
13
9
16
7
22
19
6
4:00~5:00
58
47
33
5
29
49
33
5:00~6:00
129
177
203
111
155
165
223
6:00~7:00
234
327
297
189
332
478
376
7:00~8:00
847
905
786
546
853
769
695
8:00~9:00
632
602
572
412
517
588
666
9:00~10:00
456
524
389
356
438
537
495
10:00~11:00
443
532
478
444
510
473
533
11:00~12:00
556
621
498
568
645
539
678
12:00~13:00
439
322
403
545
552
453
489
13:00~14:00
632
689
599
637
742
599
655
14:00~15:00
237
305
277
203
311
276
347
15:00~16:00
378
403
321
299
415
178
321
16:00~17:00
478
555
393
388
451
279
439
17:00~18:00
732
810
733
684
767
769
822
18:00~19:00
656
698
736
596
693
711
673
19:00~ 20:00
579
621
602
557
562
493
592
20:00~21:00
483
563
521
511
466
461
399
21:00~22:00
221
198
295
254
179
310
265
22:00~23:00
115
89
67
32
123
154
179
23:00~24:00
76
87
48
19
88
121
33
试估计该公路一天中车流量的分布情况.
一个农技站为了考察某种麦穗长的分布情况,在一块试验地里抽取了100个麦穗,量得长度如下(单位: cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6 5.8 5.5 6.0 6.5 5.1
6.5 5.3 5.9 5.5 5.8 6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4 6.4 5.8 5.9 5.7 6.8
6.6 6.0 6.4 5.7 7.4 6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0 5.6 6.2 6.1 5.3 6.2
6.8 6.6 4.7 5.7 5.7 5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
描述一下这批麦穗的生长情况.
1. (教材改编)在一段时间内有2 000辆车通过高速公路上的某处,现随机抽取其中的200辆进行车速统计,统计结果如频率直方图所示.若该处高速公路规定正常行驶速度为 90 km/h~120 km/h.试估计2 000辆车中,在这段时间内以正常速度通过该处的汽车约有( )
A. 30辆 B. 1 700辆 C. 170辆 D. 300辆
(第1题) (第2题)
2. (2023唐山开滦二中月考)某市为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度. 为了确定一个比较合理的标准,通过简单随机抽样,获得了1 000户居民的月均用水量数据(单位:t),得到如图所示的频率直方图.估计该市居民月均用水量的中位数为( )
A. 8.35 B. 8.45 C. 8.55 D. 8.65
3. (多选)(教材改编)在某市高三年级举行的一次模拟考试中,某学科共有20 000人参加考试.为了解本次考试学生成绩情况,从中抽取了部分学生的成绩(成绩均为正整数,满分为100分)作为样本进行统计,样本容量为n,按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出频率直方图如图所示,其中成绩落在区间[50,60)内的人数为16,则下列结论中正确的是( )
A. 图中x=0.016
B. 样本容量n=1 000
C. 估计该市全体学生成绩的平均分为71.6分
D. 该市要对成绩前25%的学生授予“优秀学生”称号,则授予“优秀学生”称号的学生考试成绩至少为77.25分
(第3题) (第4题)
4. 一所中学共有4 000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱(取整数)的情况,分层抽取容量为300的样本,作出频率直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6~14元的学生大约有________人.
5. (2024宁波期中)为贯彻落实党的二十大关于深化全民阅读活动的重要部署,进一步推动青少年学生阅读深入开展,促进全面提升育人水平,教育部决定开展全国青少年学生读书行动.某校执行了全国青少年学生读书行动实施方案.现在该校的2 400名学生中发放调查问卷,随机调查100名学生一周的课外阅读时间(单位:min),将统计数据按照[0,20),[20,40),…,[120,140]分组后绘制成如图所示的频率直方图.
(1) 若每周课外阅读时间1 h以上视为达标,则该校达标的约为几人(保留整数);
(2) 估计该校学生每周课外阅读的平均时间.
14.4.3 用频率直方图估计总体分布
【活动方案】
思考1:这组数据的最小值是1.3 t,最大值为28.0 t.
思考2:频率分布表或频率直方图.
思考3:从频率直方图中可以清晰地看出,样本观测数据在各个小组的比例大小,在[4.2,7.2)内的居民用户最多.同时可以根据频率直方图估计总体的取值规律,从而确定一个合适的用水标准值.由于样本的随机性,这种估计可能会存在一定的误差,但一般不会影响对总体分布情况的大致了解.
例 先用每一时段的车流量数据的平均数估计每个时间段的车流量,得到下表.
时段
0:00~1:00
1:00~2:00
2:00~3:00
3:00~4:00
4:00~5:00
5:00~6:00
6:00~7:00
7:00~8:00
频数
40
37
19
13
36
166
319
772
频率
0.004 7
0.004 3
0.002 2
0.001 5
0.004 2
0.019 4
0.037 2
0.090 1
时段
8:00~9:00
9:00~10:00
10:00~11:00
11:00~12:00
12:00~13:00
13:00~14:00
14:00~15:00
15:00~16:00
频数
570
456
488
586
458
650
279
331
频率
0.066 5
0.053 2
0.057 0
0.068 4
0.053 5
0.075 9
0.032 6
0.038 6
时段
16:00~17:00
17:00~18:00
18:00~19:00
19:00~20:00
20:00~21:00
21:00~22:00
22:00~23:00
23:00~24:00
频数
426
760
680
572
486
246
108
67
频率
0.049 7
0.088 7
0.079 4
0.066 8
0.056 7
0.028 7
0.012 6
0.007 8
(频数合计8 565,由于取近似出现误差,频率合计0.999 7).
从频率直方图中看出,该路段车流高峰分别为7:00~8:00和17:00~20:00,夜间车流量很小,从5:00起逐步增加.跟踪训练 ①由样本数据得最小值为4.0,最大值为7.4,两者之差为3.4,确定全距为3.6,以组距0.3将区间[3.95,7.55]分成12组;
②绘制频率分布表如下:
分组
频数
频率
[3.95,4.25)
1
0.01
[4.25,4.55)
1
0.01
[4.55,4.85)
2
0.02
[4.85,5.15)
5
0.05
[5.15,5.45)
11
0.11
[5.45,5.75)
15
0.15
[5.75,6.05)
28
0.28
[6.05,6.35)
13
0.13
[6.35,6.65)
11
0.11
[6.65,6.95)
10
0.10
[6.95,7.25)
2
0.02
[7.25,7.55]
1
0.01
合计
100
1.00
③画频率直方图,如图:
从频率直方图中可以看出,绝大部分麦穗长集中在[5.15,6.95)内,其中[5.75,6.05)占比最大,小于5.15 cm和大于6.95 cm的麦穗所占比例很小.
【检测反馈】
1. B 由频率直方图,得在这段时间内以正常速度通过该处的汽车的频率为(0.03+0.035+0.02)×10=0.85,所以估计2 000辆车中,在这段时间内以正常速度通过该处的汽车约有2 000×0.85=1 700(辆).
2. B 由图可知(0.06+0.08)×4=0.56>0.5>0.06×4=0.24,所以中位数在区间[5.2,9.2)内,令中位数为x,则0.06×4+0.08×(x-5.2)=0.5,所以x=8.45.
3. AD 对于A,由(x+0.030+0.040+0.010+0.004)×10=1,解得x=0.016,故A正确;对于B,因为成绩落在区间[50,60)内的人数为16,所以样本容量n=16÷(0.016×10)=100,故B不正确;对于C,学生成绩平均分为0.016×10×55+0.030×10×65+0.040×10×75+0.010×10×85+0.004×10×95=70.6,故C不正确;对于D,设授予“优秀学生”称号的学生考试成绩至少为y,因为[90,100)的频率为0.004×10=0.04,[80,90)的频率为0.010×10=0.10,[70,80)的频率为0.040×10=0.40,所以0.04+0.10=0.14<0.25,0.04+0.10+0.40=0.54>0.25,则y∈[70,80),可得10×(0.004+0.010)+(80-y)×0.040=0.25,解得y=77.25,所以成绩至少为 77.25 的学生能得到此称号,故D正确.故选AD.
4. 2 720 根据频率直方图,得一天使用零花钱在6元~14元的学生频率是1-(0.02+0.03+0.03)×4=1-0.32=0.68,所以对应的频数是 4 000×0.68=2 720,所以估计在全校学生中,一天使用零花钱在6~14元的学生大约有 2 720 人.
5. (1) 由题意,得(0.015+0.007 5+0.005+0.002 5)×20=0.6,
则每周课外阅读时间1 h以上的人数约为0.6×2 400=1 440.
(2) 该校学生每周课外阅读的平均时间为(0.002 5×10+0.005×30+0.012 5×50+0.015×70+0.007 5×90+0.005×110+0.002 5×130)×20=68(min).
学科网(北京)股份有限公司
$$