内容正文:
9.1.2 分层抽样
授课人:张发松 学 校:昆明市呈贡区第一中学
1
学习目标
目标导航
1. 通过实例理解分层随机抽样的概念与产生背景,掌握分层随机抽样的特点、适用条件与比例分配规则.
2. 掌握分层随机抽样的样本量分配方法,能规范计算各层抽取个体数量,理解比例分配的公平性与科学性.
3. 掌握分层随机抽样的总体均值估计公式,理解加权平均的统计本质,能利用样本均值推断总体水平
请注意:
1.正文标题为:黑体,30号字;
2.正文内容为:华文楷体,尽量不小于24号,特殊辅助性文字不低于18;根据文字量可适当调整。内容文字一行一般不能超过28个字,单页文字一般不能超过8行。
3.拍摄版本呈现内容务必与上传版本呈现的内容完全一致。
英文
1.正文标题为:以Times New Roman为主,可搭配使用Arial。字号为32—36号,特别强调可以用40号。
2.正文内容为:以Times New Roman为主,可搭配使用Arial。字号为24—28号,特别强调可用32号。
3.英文每行一般不能超过15个单词;单页文字一般不能超过8行。
2
内容解析
1. 问题本质:修正抽样偏差。简单随机抽样在总体内部存在差异明显的子群体时,易出现样本结构失衡、代表性不足的问题,分层抽样的核心价值是规避极端样本、降低抽样误差、提升推断精度。
2. 方法本质:结构同构、比例复刻。分层抽样的底层逻辑是样本结构复刻总体结构,按总体各层容量占比分配样本量,保证样本与总体的分布一致性,是对简单随机抽样的结构性优化。
3. 运算本质:加权平均建模。分层抽样总体均值不是算术平均,而是以各层总体占比为权重的加权平均,权重思想是统计估计、数据拟合的核心雏形,为后续统计推断、数据分析高阶内容奠基。
请注意:
1.正文标题为:黑体,30号字;
2.正文内容为:华文楷体,尽量不小于24号,特殊辅助性文字不低于18;根据文字量可适当调整。内容文字一行一般不能超过28个字,单页文字一般不能超过8行。
3.拍摄版本呈现内容务必与上传版本呈现的内容完全一致。
英文
1.正文标题为:以Times New Roman为主,可搭配使用Arial。字号为32—36号,特别强调可以用40号。
2.正文内容为:以Times New Roman为主,可搭配使用Arial。字号为24—28号,特别强调可用32号。
3.英文每行一般不能超过15个单词;单页文字一般不能超过8行。
3
内容解析
分层随机抽样是一种利用总体已知结构信息(辅助信息)以提高样本代表性和估计精度的科学抽样方法。其数学本质在于“分解—综合”:
先将存在显著差异的总体划分为层内差异小、层间差异大的若干子总体(层),使每一层内的个体具有较高同质性;
再在各层内独立进行简单随机抽样,
最后将各层样本综合为总样本。
推断总体均值时,用各层均值的加权平均进行估计,权重为各层在总体中的比例,这保证了样本结构与总体结构的一致性,从而有效降低抽样误差。
分层抽样体现了“先验信息”对统计设计的指导作用,是联系简单随机抽样与复杂抽样设计的桥梁。
请注意:
1.正文标题为:黑体,30号字;
2.正文内容为:华文楷体,尽量不小于24号,特殊辅助性文字不低于18;根据文字量可适当调整。内容文字一行一般不能超过28个字,单页文字一般不能超过8行。
3.拍摄版本呈现内容务必与上传版本呈现的内容完全一致。
英文
1.正文标题为:以Times New Roman为主,可搭配使用Arial。字号为32—36号,特别强调可以用40号。
2.正文内容为:以Times New Roman为主,可搭配使用Arial。字号为24—28号,特别强调可用32号。
3.英文每行一般不能超过15个单词;单页文字一般不能超过8行。
4
情景 在树人中学高一年级的712名学生中男生有326名,女生有386名。现欲了解全体高一年级学生的平均身高,要从中抽取一个容量为50的样本,如果你是一名统计员,请你用已经学过的抽样方法设计一个抽样方案.
【环节一】情境导入——创设冲突,催生新知
追问:假设你抽取了50名学生作为样本,有没有可能出现样本中50个个体大部分来自高个子或矮个子的情形?
(1)抽样调查最核心的问题是什么?
样本的代表性
(2)为什么会出现这种“极端样本”?
(3)如何避免这种“极端样本”?
抽样结果的随机性个体差异较大
分组抽样,减少组内差距
【环节二】探究新知——问题驱动,建构核心概念
情景 在树人中学高一年级的712名学生中男生有326名,女生有386名。现欲了解全体高一年级学生的平均身高,要从中抽取一个容量为50的样本,如果你是一名统计员,请你用已经学过的抽样方法设计一个抽样方案.
(4)从统计数据看,哪些因素可能影响高一学生的平均身高?
(5)能否利用“性别”这个信息,改进简单随机抽样的方法,
减少“极端”样本的出现?
分组抽样,减少组内差距
【环节二】探究新知——问题驱动,建构核心概念
情景 在树人中学高一年级的712名学生中男生有326名,女生有386名。现欲了解全体高一年级学生的平均身高,要从中抽取一个容量为50的样本,如果你是一名统计员,请你用已经学过的抽样方法设计一个抽样方案.
追问1:对男生、女生分别进行简单随机抽样,样本量在男生、女生中应如何分配?
等额分配
男生样本量=×总样本量
女生样本量=×总样本量
这样无论是男生还是女生,每个学生被抽到的概率都相等。当总样本量为50时,可以计算出从男生、女生中分别应抽取的人数为:
n男=×50=22.893≈23
n女=×50=27.106≈27
比例分配
√
【环节二】探究新知——问题驱动,建构核心概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
【环节二】探究新知——问题驱动,建构核心概念
分层
按某种特征将总体分成若干互不交叉的层
计算
抽样比
抽样比
定数
按抽样比确定每层抽取的个体数
抽样
各层分别按简单随机抽样的方法抽取样本
汇总
综合各层抽样,组成样本
追问2:根据以上定义,你能总结出分层随机抽样的步骤吗?
分层随机抽样的步骤:
【环节二】探究新知——问题驱动,建构核心概念
分层随机抽样的前提和遵循的两条原则
(1)前提:分层随机抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取;
(2)遵循的两条原则:①每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;②每层样本量与每层个体数量的比等于抽样比.
【环节三】探索样本均值的计算与总体均值的估计
三种抽样方法的特点
【环节二】探究新知——问题驱动,建构核心概念
我们按上述方法抽取了一个容量为50的样本,其观测数据(单位:cm)如下:
男生
173.0 174.0 166.0 172.0 170.0 165.0 165.0 168.0 164.0 173.0
172.0 173.0 175.0 168.0 170.0 172.0 176.0 175.0 168.0 173.0
167.0 170.0 175.0
女生
163.0 164.0 161.0 157.0 162.0 165.0 158.0 155.0 164.0 162.5
154.0 154.0 164.0 149.0 159.0 161.0 170.0 171.0 155.0 148.0
172.0 162.5 158.0 155.5 157.0 163.0 172. 0
【环节三】探索样本均值的计算与总体均值的估计
根据男生、女生身高的样本平均数以及它们各自的人数,可以估计总体平均数为:
【问题2】在分层随机抽样中如何估计总体平均数呢?
在分层随机抽样中,如果层数分为层,第层和第层包含的个体数分别为和,抽取的样本量分别和. 我们用表示第层各个个体的变量值,用表示第层样本的各个个体的变量值;用表示第层各个个体的变量值,用表示第层样本的各个个体的变量值.
第层的总体平均数和样本平均数分别为:
则第层的总体平均数和样本平均数分别为:
【环节三】探索样本均值的计算与总体均值的估计
总体平均数和样本平均数分别为:
由于用第层的样本平均数可以估计第层的总体平均数,用第层的样本平均样本平均数可以估计第层的总体平均数,因此我们可以用
估计总体平均数.
在比例分配的分层随机抽样中,因为 ,所以 =,且 = ,
可得.
在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
【环节三】探索样本均值的计算与总体均值的估计
例1:某公司的高收入员工月平均工资是11 000元,中等收入员工月平均工资是6500元,低收入员工月平均工资是2900元. 能否认为该公司员工的月平均工资收入是 元? 这样计算平均数的方法合理吗?
解:在这个问题中,如果该公司有1 000名员工,其中50名属于高收入者,150名属于中等收入者,800名属于低收入者,那么由于每一类员工所占比例不同,因此上述计算方法显然不合理.
【环节三】探索样本均值的计算与总体均值的估计
1. 某校有初中、高中两个部门,其中初中有学生850人,高中有学生650人,小军想要进行一个视力调查,对学校按部门进行按比例分配分层随机抽样,得到初中生、高中生平均视力分别为,,其中样本量为60,则在初中部、高中部各抽取多少人?整个学校平均视力是多少?
解:
所以在初中部、高中部各抽取34,26人,整个学校平均视力约为0.91.
【环节四】学以致用——典型例题与巩固练习
2. 某一个地区共有五个乡镇,人口3万人,其人口比例为,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.
解:因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,
因而采用分层随机抽样的方法.具体过程如下:
第一步,将3万人分为5层,其中一个乡镇为一层.
第二步,按照样本容量的比例求得各乡镇应抽取的人数分别为
60人,40人,100人,40人,60人.
第三步,按照各层抽取的人数随机抽取各乡镇应抽取的样本.
第四步,将300人合到一起,即得到一个样本.
【环节四】学以致用——典型例题与巩固练习
本节课你学习到了什么?
(知识?方法?思想?)
【环节五】课堂小结——回顾提炼,升华认知
19
【环节五】课堂小结——回顾提炼,升华认知
【环节五】课堂小结——回顾提炼,升华认知
一个核心思想:分层抽样的核心是“化整为零、分别处理、加权综合”——先按某个变量把总体分成若干个“层”,在每层中分别抽样,最后按权重合成总体估计。
两个关键问题:(1)什么时候用分层抽样?(总体由差异明显的几部分组成时)
(2)怎么分?(分层标准要合理,保证层内同质、层间异质)
三个重要公式:
比例分配公式:层样本量 = 总样本量 × 层个体数 / 总体个体数
总体均值估计公式:
每个个体被抽中的概率 = 抽样比 = 样本容量 / 总体容量
总样本均值等于每层的样本均值的加权平均.
(其中k为层数, 为第i层个体数, 为第i层平均数)
21
1.教材第 184页练习第 1、3、4 题(作业本);
情境引入:
课后作业
2.教材第 189 页习题9.1第6、7、8 题(作业本);
感谢大家的聆听
授课人:张发松 学 校:昆明市呈贡区第一中学
23
类别
简单随机抽样
系统抽样
分层抽样
各自
特点
从总体中逐个抽取
将总体均分成几个部分,按事先确定的规则在各部分抽取
将总体分成几层,分层进行抽取
相互
联系
在起始部分采用简单随机抽样
在各层抽样时采用简单随机抽样或系统抽样
适用
范围
总体中的个体数较少
总体中的个体数较多
总体由存在明显差异的几部分组成
共同点
①抽样过程中每个个体被抽到的可能性相等;
②每次抽出个体后不再放回,即不放回抽样
初中部抽取的人数为60×=34,
高中部抽取的人数为60×=26,
整个学校平均视力为×1.0+×0.8≈0.91,
$