内容正文:
13.5 统计估计
第十三章
统计
沪教版2020必修三·高二
第一课时 估计总体的分布
学 习 目 标
1
2
3
1. 理解频率分布表、频率分布直方图与总体分布的关系,能够利用样本数据编制频率分布表、绘制频率分布直方图。
2. 学会通过频率分布直方图观察样本数据的分布特征,并据此直观地估计总体的分布规律。
3. 能够运用样本的频率分布估计总体分布的方法,分析和解释实际生活中的统计数据问题。
情景导入
某医学期刊2018年刊出了关于我国成人高血压的调查结果:我国成人中约2.45亿人可能患有高血压,还有约4.35亿人可能是高血压“后备军”(正常高值血压).是谁统计了这几亿人的数据呢?
实际上并没有人一一统计这几亿人的数据,而是研究团队根据在全国范围内随机调查的约45万名成人的血压数据,推断出了我国成人患高血压情况.为何该研究团队仅仅通过调查约45万名成人的血压数据,就可以推断出我国约10亿成人中患高血压的人数?这就是统计估计所起的强大作用:在实际问题中,当总体的信息难以或无法获得时,我们可以采取科学的抽样方法,获取具有代表性的样本,利用样本信息来估计总体的分布规律.
新知引入
我们知道,总体是指考察对象的全体,个体是总体中的每一个考察的对象,总体的分布指的是总体中不同范围或类型的个体所占的比例.如果我们研究的总体是某校高一年级学生的身高和体重,那么总体的分布是指该校高一年级学生中的不同身高和体重范围的学生个体在总体中所占的比例.如果我们研究的总体是某校高一年级学生偏好的运动方式,那么总体的分布是指该校高一年级学生中偏好每种运动方式的学生个体在总体中所占的比例. 在13.4节中,我们学习了如何通过频率分布表和频率分布直方图来分析样本数据的分布.如果样本数据是随机抽取的,那么依据大数定律,当样本量不断增大时,样本中每组数据的频率会越来越稳定于一个相应的概率,我们就可以把这个概率作为总体中的个体在相应区间内取值的概率,从而用样本的频率分布来估计总体的分布情况.我们知道,总体是指考察对象的全体,个体是总体中的每一个考察的对象,总体的分布指的是总体中不同范围或类型的个体所占的比例。
例1.某营养学研究人员用随机抽样的方法获得了某高校100名女大学生平均每日摄取的热量(单位:千大卡,1千大卡=1000千卡),其数据如下:
典例分析
(1)试估计该校全体女大学生每日摄取热量的分布情况;
(2)健康的成年女性每天需要摄取1.80~1.90千大卡(不含1.90千大卡)的热量,试估计该校有多少比例的女大学生摄取的热量在此范围之内.
典例分析
解 :(1)这里的总体是该校女大学生的每日摄取热量,我们要利用通过抽样获得的100名女大学生的样本信息来估计总体的分布情况.由于从上面的数据很难看出任何规律,因此我们通过制作频率分布表来分析样本数据的频率分布. 这组数据的最小值为1.42,最大值为2.29,故全距为0.87, 可选取组距为0.1,将其分为9组.其频率分布表如表13-5所示.
日摄取热量分组区间 频数 频率
[1.40,1.50) 6 0.06 0.6
[1.50,1.60) 11 0.11 1.1
[1.60,1.70) 11 0.11 1.1
[1.70,1.80) 18 0.18 1.8
[1.80,1.90) 21 0.21 2.1
[1.90,2.00) 15 0.15 1.5
[2.00,2.10) 8 0.08 0.8
[2.10,2.20) 6 0.06 0.6
[2.20,2.30) 4 0.04 0.4
表13-5 100名女大学生每日摄取热量频率分布表
从表13-5中可以估计总体的大致分布情况.比如,该校女大学生每日摄取热量在[1.50,2.00)范围内的频率最大,每日摄取热量不足1.50千大卡或超过2.00千大卡的频率相对较小.
典例分析
解 :(2)从表13-5中可以看出,样本中摄取热 量范围在[1.80,1.90 )的女大学生的频率为0.21.由于样本是随机抽取的, 因此可 以估计该校女大学生每日摄取热量的范围 在[1.80,1.90 )的概率是0.21,或者说约有21%的该校女大学生每日摄取热量的范围在[1.80,1.90 ) .
日摄取热量分组区间 频数 频率
[1.40,1.50) 6 0.06 0.6
[1.50,1.60) 11 0.11 1.1
[1.60,1.70) 11 0.11 1.1
[1.70,1.80) 18 0.18 1.8
[1.80,1.90) 21 0.21 2.1
[1.90,2.00) 15 0.15 1.5
[2.00,2.10) 8 0.08 0.8
[2.10,2.20) 6 0.06 0.6
[2.20,2.30) 4 0.04 0.4
表13-5 100名女大学生每日摄取热量频率分布表
典例分析
绘制频率分布直方图,可以用图中矩形的面积大小来反映分布情况.
从图13-5-1中可以看出,[1.80,1.90)所对应的矩形面积最大,并且整幅直方图具有一定的对称性.由此可以推测该校女大学生每日摄取热量的范围集中在[1.80,1.90)附近,摄取特别多的热量或特别少的热量的女大学生人数都较少.
如果想要使信息更为直观地呈现,那么我们可以怎么做呢?
图13-5-1
思考
若样本量够大,且组距取得足够小,那么相应的频率分布折线图将是怎么样的呢?
探究实践
事实上,尽管总体分布密度曲线是客观存在的,但由于在实际中往往无法获得总体的数据,因此无法精确地得到它的密度曲线,只能通过样本的频率分布折线图来对总体分布的密度曲线进行估计.一般来说,样本容量越近总体容量,样本的频率分布折线图与总体分布密度曲线的贴近程度越高.
图13-5-2
注意,上面我们已通过抽取一定容量的样本来估计该校女大学生每日摄取热量的分布,但如果重新抽取一个包含100名女大学生的样本,由于这个样本极有可能会包含和上一个样本不同的学生,因此每个区间内的样本数的频率会有所不同,即样本具有变异性.但当样本量较大时,样本中每个区间内的样本数的频率会稳定于总体在相应区间内取值的概率,不会有太大的变动.当然,样本容量越大,采集这些样本所需要耗费的人力、物力和财力就会越多,所以应根据实际情况选择适当容量的样本.
如果将样本容量取得足够大,且分组的组距取得足够小,那么相应的频率分布折线图将趋于一条光滑的曲线,称为总体分布密度曲线。
题型探究
1.我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米2020石(石,古代质量单位),验得米内夹谷,抽样取米一把,数得255粒内夹谷29粒,则这批米内夹谷约为(假设一粒谷和一粒米的质量近似相同)( )
A.210石 B.220石 C.230石 D.240石
【点睛】
根据抽样取米一把,数得255粒内夹谷29粒,可计算出夹谷的频率,从而得解
方法技巧
【解】设这批米内夹谷约为x石,根据样本的性质可得,求得x,
即这批米内夹谷约为230石,故选:C.
题型1 简单随机抽样估计总体
C
题型探究
【点睛】
从所有学生中抽取90个学生,可以做出每个学生被抽到的概率,从全体学生中抽取100个,要抽到上次抽取过的人数可以表示出来,列出方程,解方程即可.
方法技巧
题型1 简单随机抽样估计总体
2.某中学开学后从高一年级的学生中随机抽取90名学生进行家庭情况调查.经过一段时间后再次从这个年级随机抽取100名学生进行学情调查,发现有20名同学上次被抽到过,估计这个学校高一年级的学生人数为( )
A.180 B.400 C.450 D.2000
【解】设这个学校高一年级的学生人数为n,
从高一年级的学生中随机抽取90名学生进行家庭情况调查
∵每个学生被抽到的概率是,
∴从中抽取100个,要抽到,
∴n=450,
故选:C.
C
题型探究
3.某地抽样调查30个家庭的人均月收入,得到如下数据(单位:元):
4040 4440 5560 4300 3800 4200 5000 4300 4200 3840
4200 4040 4240 3400 4240 4120 3880 4720 3580 4760
3760 3960 4280 4440 3660 4360 3640 4380 3300 4260
(1)取组距为600,起点为3200,列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计人均月收入在的家庭所占的百分比.
题型2 用频率分布直方图分布情况估计总体分布规律
题型探究
题型2 用频率分布直方图分布情况估计总体分布规律
【点睛】
(1)对数据进行整理即可得到频率分布表;
(2)根据频率分布表,画出频率分布直方图即可;
(3)根据频率分布直方图,计算人均月收入在的频率即可.
方法技巧
(1)频率分布表如下:
分组 频数 频率
[3200,3800) 6 0.20
[3800,4400) 18 0.60
[4400,5000) 4 0.13
[5000,5600) 2 0.07
合计 30 1.00
(2)频率分布直方图如图.
(3)人均月收入落在[4400,5600)上的家庭所占的频率为0.13+0.07=0.2=20%,所以估计人均月收入在[4400,5600)的家庭所占的百分比为20%.
题型探究
4.某校高一年级1200名学生全部参加了体育达标测试,现从中随机抽取40名学生的测试成绩,整理并按分数段[40,50),[50,60),[60,70),[70,80),[80,90),[90,100)进行分组,假设同一组中的每个数据可用该组区间的中点值代替,则得到体育成绩的折线图如图:
(1)估计该校高一年级学生中体育成绩大于或等于70分的学生人数;
(2)现从体育成绩在和的样本学生中随机抽取2人,求2人体育成绩都在的概率.
题型2 用频率分布直方图分布情况估计总体分布规律
【点睛】
(1)根据折线图可得体育成绩大于或等于70分的学生人数,即得答案;
(2)确定体育成绩在[60,70)和[80,90)的样本学生人数,列举出随机抽取2人,所有的基本事件,确定2人体育成绩都在[80,90)的基本事件个数,根据古典概型的概率公式即可求得答案.
方法技巧
题型探究
题型2 用频率分布直方图分布情况估计总体分布规律
【解】(1)根据折线图可以得到体育成绩大于或等于70分的学生人数为所以该校高一年级中体育成绩大于或等于70分的学生人数估计为1200=900.
(2)体育成绩在[60,70)和[80,90)的人数分别为2、3,分别记为a、b、A、B、C,
若随机抽取2人,则所有的基本事件为:(a,b),(a,A),(a,B),(a,C),(b,A),(b,B),(b,C),(A,B),(A,C)(B,C)故基本事件的总数为10,其中2人体育成绩都在[80,90)的基本事件的个数有共3个,
设A为:“2人体育成绩都在[80,90)”,则P(A)=.
题型探究
题型2 用频率分布直方图分布情况估计总体分布规律
5.为了解某校高一年级学生数学学习的阶段性表现,该年级组织了一次测试.已知此次考试共有1000名学生参加,将考试成绩分成六组:第一组,第二组,…,第六组.整理数据得到如图所示的频率分布直方图.
(1)该校根据试卷的难易程度进行分析,认为此次成绩不低于110分,则阶段性学习达到“优秀”,试估计这1000名学生中阶段性学习达到“优秀”的人数;
(2)若采用等比例分层抽样的方法,从成绩在和内的学生中共抽取6人,查看他们的答题情况来分析知识点的掌握情况,再从中随机选取3人进行面对面调查分析,求这3人中恰有1人成绩在内的概率.
题型探究
【点睛】
(1)用学生成绩在内的频率乘以1000即可得解;
(2)写出从6人中任选3人的样本空间,以及抽取的3人中恰有1人成绩在内的样本空间写出来,结合古典概型概率计算公式即可求解.
方法技巧
【解】(1)由频率分布直方图,可得学生成绩[130,150]在内的频率为0.04,在[110,130]内的频率为0.16,
故估计这1000名学生中阶段性学习达到“优秀”的人数为1000.
(2)学生成绩在内的频率为0.08,在内的频率为0.16,
则抽取的6人中,成绩在[50,70]内的有2人,在[110,130]内的有4人.
记成绩在[110,130]内的4名学生为a,b,c,d,在[50,70]内的2名学生为E,F,则从6人中任选3人,样本空间可记 {abc,abd,abE,abF,acd,acE,acF,adE,adF,aEF,bcd,bcE,bcF,bdE,bdF,bEF,cdE,cdEF,cEF,dEF},共包含20个样本.
用事件A表示“这3人中恰有1人成绩在[110,130]内”,则A={aEF,bEF,cEF,dEF},A包含4个样本.
故所求概率P(A)=.
题型2 用频率分布直方图分布情况估计总体分布规律
课堂小结
估计总体的分布
简单随机抽样估计总体
用频率分布直方图分布情况估计总体分布规律
1.(基础层)教材P152 练习13.5(1) 第1题
分层作业
2.(进阶层)教材P152 练习13.5(1) 第2题
3.(拓展层)教材P162 习题13.5 A组第3题
感谢聆听!
$