内容正文:
第五章 统计与概率
5.2 数学探究活动:由编号样本估计总数及其模拟
案例 估计考生总数
情境 某大学美术系平面设计专业的报考人数连创新高,今年报名刚结束,某考生想知道报考人数.
收集数据
考生的考号按0001,0002,…的顺序从小到大依次排列,这位考生随机地了解了50个考生的考号,具体如下:
0400 0904 0747 0090 0636 0714 0017 0432 0403 0276
0986 0804 0697 0419 0735 0278 0358 0436 0946 0123
0647 0349 0105 0186 0079 0434 0960 0543 0495 0974
0219 0380 0397 0283 0504 0140 0518 0966 0559 0910
0658 0442 0694 0065 0757 0702 0498 0156 0225 0327
请给出一种方法,根据这50个随机抽取的考号,帮助这位考生估计考生总数.
总数估计的方法以及计算过程
根据样本数据估计总体总数的方法有多种,
例如,用给出数据的最大值986(与0986对应)估计考生总数;
用数据的最大值与最小值的和(986+17=1003)估计考生总数;
借助数据中的部分数据的信息(如平均值、中位数等)估计考生的总数;等等.
下面给出了平均值估计和区间长度估计两种方法.
设考生总数为N,即N是最大考号.
估计的模拟与结果验证
总数 1000 最大
值估计 平均
值估计 区间长度估计
样本
数据1 379 93 970 111 262 255 844 687 142 979
749 58 565 547 700 360 738 505 797 778
377 792 212 786 426 131 379 841 121 784
829 215 81 762 794 790 501 423 871 814
95 432 366 442 966 860 794 881 282 730 979 1092 999
样本
数据2 39 391 224 778 847 345 531 876
23 711 185 748 95 493 242 834
316 795 623 723 751 843 375 135
707 403 571 982 481 499 770 103
993 852 416 786 936 397 604 184 993 1080 1018
样本
数据3 121 143 285 388 111 681
78 708 816 79 616 568
357 484 904 490 610 78
54 81 692 924 664 925
388 597 856 473 173 220 925 904 956
从模拟结果可以看出,三种方法都存在误差,但还是很接近真实值,相比较而言,用区间长度估计法,误差稍小一些.样本容量大一些,估计值会更接近真实值.
R
方法一 随机抽取的50个数的平均值应该和所有考号的平均值接近,即用样本的平均值估计总体的平均值.
这50个数的算术平均值是24573÷50=491.46,它应该与eq \f(N,2)接近.因此,估计今年报考这所大学美术系平面设计专业的考生总数为N=491.46×2≈983.
类似地,可以通过样本中位数得到N的估计.
方法二 把这50个数从小到大排列,这50个数把区间[0,N]分成51个小区间.由于N未知,除了最右边的区间外,其他区间都是已知的.可以利用这些区间长度来估计N.
由于这50个数是随机抽取的,一般情况下可以认为最右边区间的长度近似等于[0,N]长的eq \f(1,51),并且可以用前50个区间的平均长度近似代替这个区间的长度.因为这50个区间长度的和,恰好是这50个数中的最大值986,因此得到N=eq \f(986,50)×51≈1006.
$$