内容正文:
9.2 用样本估计总体
第九章 统计
9.2.4 总体离散程度的估计
复习引入
1.如何根据频率分布直方图估计样本数据的众数、中位数和平均数?
2.用样本的众数、中位数和平均数来估计总体的集中趋势,各有哪些优点和缺点?
3.利用众数、中位数和平均数可以描述样本数据的集中趋势, 但不能全面反映数据的某些特征.该如何决断?
4.样本数据的离散程度可通过各个数据与平均数的偏离度来描述,如用可描述样本数据, , , …, 到其平均数的平均距离.统计中,我们常用方差描述样本数据的离散程度,那么样本数据的方差如何计算,如何理解其统计意义?
1.如何根据频率分布直方图估计样本数据的众数、中位数和平均数?
众数: 最高矩形下底边中点的横坐标.
(2) 中位数: 直方图面积竖直平分线与横轴交点的横坐标.
(3) 平均数: 每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.
3
2.用样本的众数、中位数和平均数来估计总体的集中趋势,各有哪些优点和缺点?
优点 缺点
众数、中位数 容易计算, 不受少数几个极端值的影响 只能表达样本数据中的少量信息
平均数 代表了样本数据更多的信息 受极端数据的影响较大
3.利用众数、中位数和平均数可以描述样本数据的集中趋势, 但不能全面反映数据的某些特征.
【案例】甲、乙两名运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲: 7, 8, 7, 9, 5, 4, 9, 10, 7, 4;
乙: 9, 5, 7, 8, 7, 6, 8, 6, 7, 7.
甲、乙两人射击成绩的众数、中位数和平均数都是7,但两人的射击水平是有差异的,其差异体现在什么方面? 如果要从甲、乙两人中选择一人参加比赛,选谁参赛为宜?
甲的成绩波动幅度较大,乙的成绩较稳定. 如果甲、乙两人的平均成绩在所有参赛选手中排名靠前,宜选稳定性较好的乙参赛,否则可以选甲参赛.
4.样本数据的离散程度可通过各个数据与平均数的偏离度来描述,如用可描述样本数据, , , …, 到其平均数的平均距离.统计中,我们常用方差描述样本数据的离散程度,那么样本数据的方差如何计算,如何理解其统计意义?
请同学们阅读教材.
教材导学
阅读教材:
1.方差的计算公式及其统计意义分别是什么?
2.标准差的含义及其计算公式分别是什么?
3.总体方差的加权公式是什么?
1. 方差的计算公式及其统计意义分别是什么?
公式: 设样本数据, , , …, 到其平均数,
则方差s² = = - ².
意义: 方差越大离散程度越大,数据较分散;
方差越小离散程度越小,数据较集中在平均数附近.
2. 标准差的含义及其计算公式分别是什么?
含义: 方差的算术平方根称为标准差.
公式: s = .
3.总体方差的加权公式是什么?
如果总体的N个变量值中,不同的值共有k(k≤N)个,
不妨记为Y₁, Y₂, …, Yk,
其中Yi出现的频数为fi (i=1, 2, …, k),
则总体方差为s² = .
拓展探究
1.刻画数据的离散程度为什么要用“平均距离”,而不用“总距离”?
2.方差的取值范围是什么? 方差为0的样本数据有何特点?
3.对于样本数据x₁, x₂, …, xₙ,如果yᵢ = axᵢ + b (i=1, 2, …, n),则与有什么关系?
4.若某总体划分为两层,通过分层随机抽样,各层抽取的样本量、样本平均数和方差分别为m, , s₁²;n, ȳ, s₂²,则总样本的平均数和方差s²的计算公式分别是什么?
从同一个总体中抽取两组样本,当样本量相差较大时,其“总距离”会相差较大,但“平均距离”相差无几.
1. 刻画数据的离散程度为什么要用“平均距离”,而不用“总距离”?
2.方差的取值范围是什么? 方差为0的样本数据有何特点? (教材216页习题5)
s²∈[0, +∞),方差为0的样本数据都相等.
3.对于样本数据x₁, x₂, …, xₙ,如果yᵢ = axᵢ + b (i=1, 2, …, n),则与有什么关系? (教材216页习题4)
∵ȳ = a + b,则² =
=
=
=
= a² ²
∴ = |a| .
4.若某总体划分为两层,通过分层随机抽样,各层抽取的样本量、样本平均数和方差分别为m, , s₁²;n, , s₂²,则总样本的平均数和方差s²的计算公式分别是什么? (教材213页例6)
= ,
s² = .
例1 (教材第216页习题3)在去年的足球联赛中,甲队每场比赛平均失球数是1.5,全年比赛失球个数的标准差为1.1;乙队每场比赛平均失球数是2.1,全年比赛失球个数的标准差为0.4. 给出下列四个结论:
①平均来说甲队防守技术好; ②乙队比甲队技术水平更稳定; ③甲队有时表现很差,有时表现又非常好; ④乙队很少不失球. 其中正确结论的个数是 .
【解析】从平均数比较,甲队每场比赛平均失球数比乙队少,说明甲队防守技术较好,①正确;从标准差比较,乙队比赛失球个数的标准差比甲队小,说明乙队技术水平更稳定,②正确;从标准差分析,甲队比赛失球个数的标准差大,说明甲队在整个比赛中失球数较分散,有时失球多,有时失球少,③正确;从平均数和标准差分析,乙队每场比赛平均失球数达两个以上,且失球数比较集中,基本上每场比赛都失球,④正确.
巩固应用
4
【解析】选项A中,中位数为4,可能存在大于7的数;同理,在选项C中也有可能;选项B中的总体方差大于0,叙述不明确,如果数目太大,也有可能存在大于7的数;选项D中,如果有大于7的数存在,则s² ≥ (8−2)²/10 = 3.6,与已知不符.
例2 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是 ( ).
A.甲地: 总体均值为3,中位数为4
B.乙地: 总体均值为1,总体方差大于0
C.丙地: 中位数为2,众数为3
D.丁地: 总体均值为2,总体方差为3
D
例3 甲、乙二人参加某体育项目训练,近期五次测试成绩如图所示,试对甲、乙两人的训练水平作出评价.
【解析】甲的5次测试成绩为: 10, 13, 12, 14, 16.
乙的5次测试成绩为: 13, 14, 12, 12, 14.
= (10+13+12+14+16)/5 = 13,
= (13+14+12+12+14)/5 = 13.
² = (1/5)[(10−13)² + (13−13)² +
(12−13)² + (14−13)² + (16−13)²] = 4 .
² = (1/5)[(13−13)² + (14−13)² +
(12−13)² + (12−13)² + (14−13)²] = 0.8 .
两人的平均水平相当,甲的训练水平不稳定,但不断提高;乙的训练水平相对稳定,但无明显提高.
小结
1.平均数代表一组数据的平均水平,标准差描述一组数据围绕平均数波动的幅度.在实际应用中,我们常综合样本的多个统计数据,对总体进行估计,为解决问题作出决策.
2.对同一个总体抽样,必须保证样本数据有较好的代表性.如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大.
3.对于一个正态总体,数据落在区间(−s, +s)、(−2s, +2s)、(−3s, +3s)内的百分比分别为68.3%、95.5%、99.7%,这个原理在产品质量控制中有着广泛的应用.
19
作业
《课时作业》
9.2.4 总体离散程度的估计
$