内容正文:
湘教版
必修第二册
6.5数学建模案例(三) 人数估计
主讲:
湘教版(2019)必修(第二册)
第6章数学建模
湘教版 必修第二册
学习目标
目标
1
重点
2
1.难以理解统计模型的基本思想和方法。
2.在模型建立过程中,对样本数据的处理和分析不够熟练,难以推导出合理的模型。
3.在模型求解和检验过程中,缺乏严谨的科学态度和数据分析能力。
难点
3
1.统计模型的建立和求解方法。
2.模型的验证和实际应用。
理解人数估计问题的背景和实际意义。
掌握数学建模的基本步骤,包括问题描述、模型建立、模型求解和模型检验。
能够应用统计模型和方法解决实际问题。
环节一:创设情境,提出问题
在日常生活中,我们常常需要从部分信息估计总体信息。
例如,统计某地旅游人数、调查某疾病的患者人数等。这些情况下,统计模型和方法是重要的工具。
问题:假设你是一名考生,想知道报考某大学美术系的人数。你随机了解了50个考生的考号,如何利用这些信息估计总报考人数?
环节一:创设情境,提出问题
问题:某大学美术系平面设计专业的报考人数连创新高,今年报名刚结束,某考生想知道报考人数。考生的考号按0001,0002,…的顺序从小到大依次排列。该考生随机了解了50个考生的考号,具体如下:
请你给出一种方法,根据这50个随机抽取的考号,估计考生总数。
问题1:什么是统计模型?它如何帮助我们估计总体信息?
新课讲授
环节二:问题解析与模型建立
问题2:如何建立人数估计的数学模型?
新课讲授
环节二:问题解析与模型建立
模型建立与求解
新课讲授
环节二:问题解析与模型建立
模型建立与求解
新课讲授
环节二:问题解析与模型建立
模型建立与求解
新课讲授
环节二:问题解析与模型建立
模型建立与求解
新课讲授
环节二:问题解析与模型建立
问题3:如何求解不同的人数估计模型?
新课讲授
环节三:模型求解
新课讲授
环节四:模型检验与应用
问题4:如何验证模型的正确性?
问题5:不同模型的优劣如何评价?
新课讲授
环节三:模型求解
新课讲授
模型的进一步讨论
前面我们采用不同的方法对考生总数进行了估计,发现估计方法不同得到的考生总数也不同,存在一定的差异。
而分区间方法由于划分小区间所采用的分段方式不同,也有可能得到不同的估计值。但这些结果都是在某种合理的假设前提下得到的,不能说哪种方法得到的估计值一定是错的。这也体现了统计方法的特点。
按照不同的估计方法往往会得到不同的估计值,那么有没有评价估计方法优劣的标准呢?
问题5:不同模型的优劣如何评价?
新课讲授
模型的进一步讨论
问题5:不同模型的优劣如何评价?
新课讲授
模型的进一步讨论
学以致用
17
学以致用
18
学以致用
根据以上数据,应当如何确定阶梯电价中的电量临界值,才能使得电价更为合理?
19
学以致用
二、问题解析
1.问题分析
选取六月份调查是因为这个城市六月份的部分时间需要使用空调,因此六月份的
用电量在一年12个月中处于中等偏上水平.
如果阶梯电价临界值的确定依赖于居民月用电量的分布,例如计划实施3阶的阶梯
电价,有人给出一个分布如下:的用户在第一档(最低一档), 的用户在第
二档, 的用户在第三档(最高一档).这样,需要通过样本数据估计第一档与第二
档、第二档与第三档的两个电量临界值,即和 这两个电量临界值.
20
学以致用
利用电子表格软件,对上面的样本数据进行排序,可以得到下面的结果:
21
学以致用
22
学以致用
23
学以致用
2.特征量分析
(1)样本数据总共有200个,最小值是8,最大值是626,说明200户居民六月份的
最小用电量为,最大用电量为,极差为 .
(2)因为数据量是200,所以这组数据的样本中位数就是有序样本中第100个数
130和第101个数130的平均数,即130,说明这个城市六月份居民用电量的中间水平大约
在 .
24
学以致用
(3)因为 ,所以第一个临界值为有序样本中第150个数178和第
151个数178的平均数,即178.
因为 ,所以第二个临界值为有序样本中第190个数289和第191个
数304的平均数,这个平均数为(因为是对 分位数的估计,所以估计值可以
是289和304之间任何一个数,为了便于操作可以取值为297).
25
学以致用
3.解决问题
依据确定了的电量临界值,阶梯电价可以规定如下:
(1)用户每月用电量不超过(或每年用电量不超过 ),按
第一档电价标准缴费;
(2)用户每月用电量在区间(单位: )内(或每年用电量在区间
(单位:)内),其中的 按第一档电价标准缴费,超过
的部分按第二档电价标准缴费;
26
学以致用
(3)用户每月用电量超过(或每年用电量超过 ),其中的
按第一档电价标准缴费, 按第二档电价标准缴费,超过
的部分按第三档电价标准缴费.
社会上对这种制定阶梯电价的方法存在不同的意见,可以讨论并制定合理的阶梯电价.
27
问题:本节课你学到了什么?如何利用统计模型估计总体信息?
新课讲授
环节五:小结提升,形成结构
新课讲授
环节六:目标检测,检验效果
环节七:布置作业,应用迁移
主讲:
湘教版(2019)必修(第二册)
感谢聆听
上述问题中,总体中的个体已按自然数编号,
然后在自然数1,2,3,…,
中不放回地随机抽取
个数(这里
),
将抽取的样本从小到大排序后记为
,
,…,
,其中
。
一般来说,关于考生总数没有精确的估计方法,
如果不能获取其他辅助信息,
则只能利用样本估计总体的方法进行近似估计。
为使估计值尽量接近真值,
可以在多种假设的条件下采用不同的估计方法来建立数学模型并求解。
教师引导学生建立不同的人数估计模型:
(1)模型1:用样本最大值估计总体最大值。
(2)模型2:用样本中位数估计总体中位数。
(3)模型3:用样本平均值估计总体平均值。
(4)模型4:用分区间方法求解。
模型1:用样本最大值估计总体的最大值。
用给出数据的最大值
(例如,986)来估计考生总数,
由于
恒成立,
因此,该方法在实际应用中很可能出现低估
的情况。
模型2:用样本中位数估计总体中位数。当
为奇数时,样本的中位数为
,
而总体的中位数取
,由于样本中位数可以近似看成总体中位数,因而有
,故可取
作为
的估计值;当
为偶数时,样本的中位数为
,
从而有
,取
作为
的估计值。为了避免这种方法得到的估计值偏小的问题,可以考虑用下面的方法对考生总数
进行调整:
在本问题中,
且
,因此可用986来估计考生总数。
一般情况下,样本点越多,估计值会越合理。而上述方法的求解过程并没有利用已获得的全部样本信息,因此我们需要建立更为合理的数学模型。
模型3:用样本的平均值估计总体的平均值。
假设随机抽取的50个数的平均值近似等于所有考号的平均值,
以此来估计考生总数
。
由于这50个数的算术平均值为
,
它应该与
接近。因此取
作为
的估计值。
由于983小于样本的最大值986,因此可用986来估计考生总数。
模型4:用分区间方法求解。
把这50个样本从小到大排列,利用它将
个数据分段,选取不同端点,
则得到不同的估计值。
分区间的一种方法是:利用50个样本数据,
将区间[1,N]分成51个小区间
,
,…,
。
这51个小区间长度均值为
,而前50个区间的平均长度为
,
由于样本是随机抽取的,可以认为
,所以
的估计值可取为
。
其中
表示不小于
的最小整数。
上述分区间的方法忽略了
可能取到
的情况,
因此,我们也可以将区间[1,N]改为
,
即把
分成51个小区间
,
,…,
,取
,
所以
的估计值可取为
。
师生活动:教师引导学生求解每个模型:
(1)模型1:取样本最大值作为估计值。
(2)模型2:计算样本中位数并调整估计值。
(3)模型3:计算样本平均值并估计总体平均值。
(4)模型4:通过分区间方法计算估计值。
师生活动:教师引导学生通过模拟实验验证模型的正确性:
(1)利用计算机模拟生成样本数据。
(2)应用不同模型计算估计值。
(3)计算估计值与真实值的偏离程度(如MSE)。
师生活动:教师引导学生讨论不同模型的优劣,总结评价标准:
(1)估计值的准确性(如MSE)。
(2)模型的复杂度和计算成本。
设计意图:帮助学生理解不同模型的适用场景和优劣。
我们可以利用计算机模拟各种估计方法,然后通过计算估计值与真值之间的偏离程度来评价估计方法的优劣。
具体实施步骤如下:
步骤(1):设定
以及试验次数
的值;
步骤(2):在
,
,…,
这
个自然数中不放回地随机抽取50个数据,组成一个样本;
步骤(3):将样本中的50个数据按从小到大排列,即
;
步骤(4):按照不同的估计方法分别得到不同的估计值;
步骤(5):重复上述步骤(1)~(4)
次。
模拟完后,对估计值偏离真值
的程度进行计算:
设第
次试验得到的估计值为
,
次模拟得到的估计值与真值
之间的近似程度用估计值与真值差的平方的平均值来衡量,
即计算
,
将其值记为MSE
结论:当试验次数k足够大时,MSE的大小反映了采用不同估计方法得到的估计值偏离真值
的程度。具有较小MSE值的估计方法更为合理。
1.问题解析;
2.模型建立与求解;
3.模型的进一步推广。
练习:教科书相关练习题。
设计意图:检测学生对人数估计问题的理解和统计模型的应用能力。
(1)必做题:完成教科书第261页练习题。
(2)选做题:设计一个实际问题,应用统计模型进行估计并验证。
设计意图:通过作业巩固所学知识,拓展学生的思维能力。
$$