内容正文:
13.5 统计估计
第十三章
统计
沪教版2020必修三·高二
第二课时 估计总体的数字特征
学 习 目 标
1
2
3
1. 理解总体均值、方差等数字特征的概念,能够识别不同情境下对应的数字特征类型。
2. 学会运用样本数据估计总体的均值、方差等数字特征,掌握相应的计算方法与步骤。
3. 能够根据总体数字特征的估计结果,对总体的分布规律和特征进行合理分析与解读,并应用于实际问题的解决。
情景导入
在一次男子10米气手枪射击比赛中,甲运动员的成绩(单位:环)为7.5、7.8、… 、10.9;乙运动员的成绩为8.4、8.5、… 、10.7,如图所示.
射击队应该推荐哪一名运动员外出比赛?
我发现甲队员的分布相对分散,而乙队员的分布集中程度较高。
新知引入
(1)能反映一组数据某种特征的量叫做这组数据的数字特征。
初中我们学过哪些刻画数据集中趋势的数字特征?
平均数、中位数、众数
先说平均数,你还记得怎么算平均数吗?
情景导入
(2)样本平均数:设样本数据为、、…、,则
它描述了样本数据的平均水平.
如果n个数据中不同的数据的频数分别为那么样本平均数为
1.通过样本估计总体的集中趋势
当数据量大且重复率高时,此公式可减少计算量.
我们引进一个记号 表示多项连加的和即
例1.某公司实行薪资保密制度,员工只知道自己的工作所得,而不知道其他员工的薪资。现要了解该公司员工的平均年薪、中等年薪以及赚取人数最多的那种年薪.在公司员工的花名册中随机抽取15名员工,调查得到这15名员工的年薪(单位:万元)如下:8.1 8.1 8.4 11.0 5.3 8.2 7.4 9.8 7.6 13.8 8.1 6.5 10.5 9.5 8.2
典例分析
该公司的人事部门招聘员工时,最有可能用哪种年薪来回答有关待遇方面的问题?
【解】公司全体员工的平均年薪可用样本的平均数来估计,员工的中等年薪可用样本的中位数来估计,而赚取人数最多的那种年薪可用样本的众数来估计.
样本的平均值==8.7(万元).把所有年薪从低到高排序,中间第8个数8.2即是样本中位数.8.1出现了3次,次数最多,即样本的众数为8.1.
于是,我们估计该公司员工的平均年薪可能为8.7万元,中等年薪可能为8.2万元,赚取8.1万元年薪的可能性最大.当然,这样的估计是否合理,还取决于样本的容量与代表性.
例2.为了解某体校学生跑步的情况,观察随机抽取的20名学生一周内跑步的累计数(单位:km),在各区间内的频数记录如表13-6所示.
典例分析
试估计一周内该校学生平均跑步累计数.
原始记录没有提供每个数据的准确值,只提供了它们所在的区间,这时,为了计算均值,可用区间的中点值给区间内的每个数据赋值.
典例分析
【解】先求出各区间的中点值:8、13、18、23、28、33、38.则一周内这20名学生跑步累计的平均数为(km).
由于这20名学生是随机抽取的,因此可以估计一周内该校学生平均跑步累计约24.5km.
典例分析
2.通过样本估计总体的离散程度
现在我们介绍如何用数量来描述数据的另外一种统计特征———样本数据的离散程度.
在一次男子10米气手枪射击比赛中,甲运动员的成绩(单位:环)为7.5、7.8、… 、10.9;乙运动员的成绩为8.4、8.5、… 、10.7,如图13-5-3所示.
图13-5-3甲、乙两位运动员20次气手枪比赛成绩的茎叶图
典例分析
2.通过样本估计总体的离散程度
射击队想从两位选手中选取一名外出参加比赛,经过计算可知,两位选手20次射击的平均环数都是9.6,但从图13-5-3中看,甲的成绩比较分散,乙的成绩则相对稳定在高环数段.但看上去“比较分散”和“相对稳定”只是一种直观的描述,我们需要用一些具有统计意义的数量来刻画数据的波动情况.
设样本数据为,我们知道表示的是样本平均数.在13.4节中我们已学习过极差,它反映了样本数据变化的最大幅度,是样本数据离散程度的一种刻画方式.极差对极端数据很敏感,也就是说它是不稳定的.此外,在初中阶段我们已学习过用样本数据的方差
=
来衡量一组数据的波动大小.一组数据的方差越大,表明这组数据波动越大.
典例分析
2.通过样本估计总体的离散程度
方差和标准差都反映了一组数据围绕平均数波动的大小,方差的单位是观测数据的单位的平方,而标准差的单位与观测数据的单位一致,因此我们常常用标准差来描述数据的离散程度.现在我们可以得出上述例子中甲、乙两名运动员的射击成绩的标准差:
由于说明甲的成绩确实较乙的成绩更为离散,即乙的成绩较为稳定,与从茎叶图上观察到的结论一致,射击队应选拔乙参加比赛.
(3)标准差:设样本数据为、、…、,则我们把方差的算术平方根叫做样本数据的标准差,即
它同样是一个用来衡量样本数据波动大小的统计量.
=
在实验中,为了消除系统性偏差,标准差公式中往往以n-1代替n,用来作为总体标准差的估计值.
例3.在13.4节中,A校抽取了66名高一年级学生, 测量他们的身高数据,如表13-2所示.现在假设由于某种原因这些原始样本数据不可查得,但已知按照分层随机抽样原则抽取了样本,其中男生34名,身高样本平均数为173.1cm,方差为25.9;女生32名,身高样本平均数为161.3cm,方差为23.3. 试用这些已知的数据求该66名高一年级学生身高的样本平均数和方差,并估计高一年级学生身高的总体方差.(结果精确到0.01)
典例分析
【解】记男生样本为、、…、,平均数为,方差为,女生样本为
、…、,平均数为,方差为,所有数据的平均数为,我们很容易从给出的男生和女生各自身高的样本平均数求出所有学生样本的身高平均数:
=
与的计算其实 都不依赖于男、女生的样本量,而只依赖于两个样本量之比.如果在本例中把精确的男、女生样本量改为知道男、女生样本量之比为17:16,同学们不妨试求与.
例3.在13.4节中,A校抽取了66名高一年级学生, 测量他们的身高数据,如表13-2所示.现在假设由于某种原因这些原始样本数据不可查得,但已知按照分层随机抽样原则抽取了样本,其中男生34名,身高样本平均数为173.1cm,方差为25.9;女生32名,身高样本平均数为161.3cm,方差为23.3. 试用这些已知的数据求该66名高一年级学生身高的样本平均数和方差,并估计高一年级学生身高的总体方差.(结果精确到0.01)
典例分析
对于方差,我们也要推导出不依赖于原始数据的计算公式. 据方差的定义,
=
把上述和式中每个方括号用平方和公式展开,并注意到
例3.在13.4节中,A校抽取了66名高一年级学生, 测量他们的身高数据,如表13-2所示.现在假设由于某种原因这些原始样本数据不可查得,但已知按照分层随机抽样原则抽取了样本,其中男生34名,身高样本平均数为173.1cm,方差为25.9;女生32名,身高样本平均数为161.3cm,方差为23.3. 试用这些已知的数据求该66名高一年级学生身高的样本平均数和方差,并估计高一年级学生身高的总体方差.(结果精确到0.01)
典例分析
我们得到只含所有平方项的等式
例3.在13.4节中,A校抽取了66名高一年级学生, 测量他们的身高数据,如表13-2所示.现在假设由于某种原因这些原始样本数据不可查得,但已知按照分层随机抽样原则抽取了样本,其中男生34名,身高样本平均数为173.1cm,方差为25.9;女生32名,身高样本平均数为161.3cm,方差为23.3. 试用这些已知的数据求该66名高一年级学生身高的样本平均数和方差,并估计高一年级学生身高的总体方差.(结果精确到0.01)
典例分析
即
例3.在13.4节中,A校抽取了66名高一年级学生, 测量他们的身高数据,如表13-2所示.现在假设由于某种原因这些原始样本数据不可查得,但已知按照分层随机抽样原则抽取了样本,其中男生34名,身高样本平均数为173.1cm,方差为25.9;女生32名,身高样本平均数为161.3cm,方差为23.3. 试用这些已知的数据求该66名高一年级学生身高的样本平均数和方差,并估计高一年级学生身高的总体方差.(结果精确到0.01)
典例分析
我们还可以算出标准差 s≈7.71,并且样本数据在[167.4-7.71,167.4+7.71]中的有 43 个,样本数据在[167.4-27.71,167.4十27.71]中的有 65 个,在此区间外的只有1个.也就是说,区间[-2s,+2s]包含了大部分的数据.
标准差是样本数据到平均数的一种平均距离.由统计理论可知,[]包含大多数样本数据.
在现实生活中,我们也常常会遇到类似的问题,例如,针对某个问题,不同网站提供了各自调查的样本均值和方差,如何得到所有数据的样本平均数和方差?再如,针对某个问题,连续几天收集数据,得到了每天数据的样本平均数和方差,如何得到这几天所有数据的样本平均数和方差?
例4.某果园种植了120棵苹果树,为调查苹果产量,从中随机抽取了10棵苹果树,测得其产量(单位:kg)分别为24、25、28、32、20、26、33、26、27、30.试预估该果园的苹果产量.
典例分析
【解】容易算得这10棵苹果树的平均产量为27.1kg,由于这10棵苹果树是随机抽取的,我们可以预估该果园的苹果产量约为
120×27.1=3252(kg).
探究实践
3.信息技术:计算样本数据的数字特征
当样本量很大时,纸笔计算样本的数字特征非常麻烦,而计算机或计算器可以帮助我们方便地得到数据的数字特征.下面, 作为一个示例,我们介绍利用电子表格办公软件计算平均数的操作步骤.
(1)在空白表格中输入要处理的数据,单击某空白单元格.
(2)单击公式菜单中的“插入函数”,选择统计类别中的 “AVERAGE”;单元格中则会出现“=AVERAGE( )”;也可以直接在单元格中输入“=AVERAGE( )”.
(3)将光标放在括号内,然后选择这组数据,点击回车,平均数就计算出来了,如图13-5-4所示.
操作步骤
类似地,我们可以用电子表格办公软件或计算器计算一组数据的方差、标准差等其他数字特征.
题型探究
1.甲、乙、丙、丁四名运动员参加射击项目选拔赛,每人10次射击成绩的平均数(单位:环)和方差如下表所示:
根据表中数据,若从中选择一名成绩好且发挥稳定的运动员参加比赛,则应该选 ( )
A.甲 B.乙 C.丙 D.丁
【点睛】平均分越大越好,方差越小越好,结合图表即可得解.
方法技巧
【解】由平均数,丙丁的平均分相等且最大;由方差,丙的方差大于丁的方差,方差越小越稳定,故应该选择丁参加比赛.
题型1 平均数估计样本集中趋势
D
甲 乙 丙 丁
9 9 9.5 9.5
0.25 1 0.65 0.25
题型探究
2.高二年级有男生490人,女生510人,张华按男生、女生进行分层,通过分层随机抽样的方法,得到男生、女生的平均身高分别为170.2 cm和160.8 cm.如果张华在各层中按比例分配样本,总样本容量为100,请估计高二年级全体学生的平均身高为 cm.(结果保留一位小数)
【点睛】
先计算抽样比例,得到男生人数和女生人数,再估计总体平均身高得到答案.
方法技巧
【解】高二年级男生与女生人数比为490:510=49:51,
当样本容量为100时,抽取男生人数为49(人),
抽取女生人数为51(人),
高二年级全体学生的平均身高估计为
题型1 平均数估计样本集中趋势
165.4
题型探究
3.若样本数据1,3,a,5,6的平均数为,则该样本的方差为 .
题型2 方差、标准差估计样本离散程度
【解】因为样本数据的平均数为4,则,解得,
所以方差=.故答案为:.
【点睛】根据平均数公式求出,再由方差公式即可求得答案.
方法技巧
4.若样本数据的标准差为6,则数据,...的方差为
【解】由样本数据的标准差为6,即方差为36,
则数据,...的方差为4.故答案为:144
144
题型探究
5.校高一年级共有学生330名,为了解该校高一年级学生的身高情况,学校采用分层随机抽样的方法抽取66名学生,其中女生32名,男生34名,测量他们的身高.
(1)该校高一学生中男、女生各有多少名?
(2)在32名女生身高的数据中,其中一个数据记录有误,错将165cm记录为156cm,由错误数据求得这32个数据的平均数为161cm,方差为23.6875,求原始数据的平均数及方差(平均数结果保留精确值,方差结果精确到0.01).
题型3 用样本估计总体解决实际应用题
【解】(1)该校高一学生中,男生共有名,
女生共有名.
【点睛】(1)根据分层抽样的步骤,由题中条件,可直接得出结果;
方法技巧
题型探究
题型3 用样本估计总体解决实际应用题
【解】设原始的32个数据为,,...,,,其中=165,
由错误数据的平均数,
得原始数据的平均数(cm).
由[]=-,
得+=25184.1875,
故=[=-..
【点睛】(2)先设原始的32个数据为,根据错误数据的平均数与原始数据平均数之间关系,求出原始数据的平均数;根据错误数据的方差与原始数据的方差之间关系,可求出原始数据的方差.
方法技巧
课堂小结
样本
集中趋势
离散程度
平均数中位数众数
极差
方差
标准差
估计
总体
数字特征
1.(基础层)教材P158 练习13.5(2) 第1题
分层作业
2.(进阶层)教材P158 练习13.5(2) 第2题
3.(拓展层)教材P158 习题13.5 A组第3题
感谢聆听!
$