内容正文:
3. 3离差平方和与方差
第2课时 组内(间)离差平方和
第三章
数据初步分析
01
教学目标
01
02
经历数据分类的活动,知道按照组内离差平方和最小的原则对数据进行分类的方法。
体会样本与总体的关系,能用样本方差估计总体方差,感悟通过样本特征估计总体特征的思想,形成数据观念,发展模型观念。
复习回顾
(1)什么是离差平方和?
样本中,各数据与平均数的差(又称离差)的平方和
(2)方差的计算公式是什么?
(3)一组数据的方差与这组数据的波动性有怎样的关系?
方差越大,说明数据的波动越大,越不稳定
03
新知讲解
合作学习
某校运动队有5名同学准备参加跳高比赛,他们的跳高最好成绩如下:
为了让队员能更有效地进行赛前训练,教练计划将5名同学按他们的跳高成绩的高低分成两组。怎样分组比较合理?
将5名队员的跳高成绩按从小到大排列:1.58,1.63,1.65,1.75,1.78。将这些数据表示在数轴上,如图3-4。显然,应把相对集中的数据分在一组,例如,分成{1.58,1.63,1.65},{1.75,1.78}两组。
03
新知讲解
合作学习
5名队员的跳高成绩分成2组,共有4种情况,设各组的离差平方和分别为
,,计算+。见表。
可以发现,将数据分成{1.58,1.63,1.65},{1.75,1.78}两组时,+最小。所以将队员分成{队员 1,队员 3,队员 4},{队员 2,队员 5}两组,组内同学的跳高水平最接近。
新知探究
小明所在学校的运动队有5名同学准备参加跳高比赛,他们的跳高最好成绩如下:
校运动队5名同学跳高最好成绩统计表
合作学习
为了让队员能更有效地进行赛前训练,教练计划将5名同学按他们的跳高成绩的高、低分成两组。
怎样分组比较合理呢?
6
新知探究
方法一:
合作学习
一起来试一试吧!
将5名队员的跳高成绩按从小到大排列:1.58,1.63,1.65,1.75,1.78。将这些数据表示在数轴上,如图。
可以把相对集中的数据分在一组,例如,分成{1.58,1.63,1.65},{1.75,1.78}两组。
方法二:
离差平方和可以用来表示一组数据与其
平均水平的偏离程度。可以通过计算离差平方和最小
进行分组,使得组内平均水平差不多。
7
新知探究
合作学习
5名队员的跳高成绩分成2组,共有4种情况,设各组内的离差平方和分别为,,计算
可以发现,将数据分成{1.58,1.63,1.65},{1.75,1.78}两组时,+最小。所以将队员分成{队员 1,队员 3,队员 4},{队员 2,队员 5}两组,组内同学的跳高水平最接近。
方法二:
8
获取新知
某校运动队有5名同学准备参加跳高比赛,他们的跳高最好成绩如下:
某校运动队5名同学跳高最好成绩统计表
队员编号 1 2 3 4 5
成绩/m 1.58 1.75 1.63 1.65 1.78
为了让队员能更有效地进行赛前训练,教练计划将5名同学按他们的跳高成绩的高低分成两组。怎样分组比较合理?
将5名队员的跳高成绩按从小到大排列:1.58,1.63,1.65,1.75,1.78。将 这些数据表示在数轴上,如图。显然,应把相对集中的数据分在一组,例 如,分成{1.58,1.63,1.65},{1.75,1.78}两组。
03
新知讲解
合作学习
组内离差平方和与组间离差平方和:
一般地,设有个数据,,, ,,它们的平均数为 ,离差平方和为。如果把这些数据分为两组,第1组有 个数据,平均数为,离差平方和为;第2组有个数据,平均数为 ,离差平方和为,其中。
通过计算可以得到以下等式
通常称 为组内离差平方和,它表达了两个组组内数据的离散程度;
称 为组间离差平方和,它表达了两个组之间的差异。#3.1.2
03
新知探究
归纳总结
数据分组原则:
合理的分组原则是使 最小,同时使最大。
由于总离差平方和 不变,所以只需考虑 最小,即组内离差平方和最小即可。
特别说明:在大数据分析中,数据分组是重要的方法之一。数据分组方法有许多种,其中使得“组内离差平方和最小”的方法最为常见。
归纳总结
通过计算可以得到:(+)[]
组内(间)离差平方和
一般地,设有个数据,,, ,,它们的平均数为 ,离差平方和为。如果把这些数据分为两组,第1组有 个数据,平均数为,离差平方和为;第2组有个数据,平均数为 ,离差平方和为,其中。
称为组内离差平方和
表达了两个组的组内数据的离散程度
称为组间离差平方和
表达了两个组之间的差异
13
归纳总结
组内(间)离差平方和
数据合理分组原则:
合理的分组原则是使 最小,同时使最大。
由于总离差平方和 不变,所以只需考虑 最小,即组内离差平方和最小即可。
注意: 在大数据分析中,数据分组是重要的方法之一。数据分组方法有许多种,其中使得“组内离差平方和最小”的方法最为常见。
14
一般地,设有n 个数据x₁,x₂,x₃, … ,xn, 它们的平均数为, 离差平方和为 D² 。 如果把这些数据分为两组,第1组有k1个数据,平均数为, 离差平方和为; 第 2 组有k2个数据,平均数为, 离差平方和为, 其 中k1+k2=n,通过计算可以得到以下等式:
D²=(+)+[k1+k]
组内离差平方和:
表达了两个组的组内数据的离散程度
组间离差平方和:表达了两个组之间的差异
那么,合理的分组的原则是什么?
一个合理的分组原则是使+ 最小,同时使
k1+k最大。由于总离差平方和D² 不变,所以只需考虑
达到最小即可。
03
新知讲解
例2
国家有关部门根据各地的人均耕地面积数据进行分类研究,制定切合各地实际的政策。带着这个问题,统计学兴趣小组的同学收集了我国10个地区的人均耕地面积数据,如表3-9。
如果将这 10个地区分成两组,尽可能使同组内各地区的人均耕地面积接近、不同组地区的人均耕地面积差异较大,应如何分组?
离差平方和的计算量比较大,我们可以借助计算机软件或者自己设计算法、编写程序来解决。
03
新知讲解
例2
解:将这 10 个地区的人均耕地面积从小到大排列,依次为 0.1,0.2,0.3,0.6,0.6,1.8,2.0,2.3,3.2,4.2。
将这些数据分成两组,有以下 9 种情况,
分别计算各种情况的组内离差平方和,
得到表3-10:
典例分析
例1 国家有关部门根据各地的人均耕地面积数据进行分类研究,制定切合各地实际的政策。带着这个问题,统计学兴趣小组的同学收集了我国10个地区的人均耕地面积数据,如右表。
如果将这10个地区分成两组,尽可能使同组内各地区的人均耕地面积接近、不同组地区的人均耕地面积差异较大,应如何分组?
解:将这 10 个地区的人均耕地面积从小到大排列,依次为 0.1,0.2,0.3,0.6,0.6,1.8,2.0,2.3,3.2,4.2。
组内(间)离差平方和
19
典例分析
将这些数据分成两组,有以下 9 种情况,分别计算各种情况的组内离差平方和,得到下表:
组内(间)离差平方和
这里的计算量比较大,可以借助计算机软件或者自己设计算法、编写程序来解决。
计算结果表明,将数据分成{0.1,0.2,0.3,0.6,0.6}和{1.8,2.0,2.3,3.2,4.2}两组时,组内离差平方和最小,即组内人均耕地面积数据波动最小,两组之间数据差异最大。
所以将上海、广东、福建、江苏、安徽分在一组,其余地区分在另一组比较合理。
20
例题精讲
例1 国家有关部门根据各地的人均耕地面积数据进行分类研究,制定切合各地实际的政策。带着这个问题,统计学兴趣小组的同学收集了我国10个地区的人均耕地面积数据,如表
如果将这10个地区分成两组,尽可能使同组内各地区的人均耕地面积接近、不同组地区的人均耕地面积差异较大,应如何分组?
地区 人均耕地面积/千平方米
黑龙江 4.2
新疆 2.3
江苏 0.6
安徽 0.6
福建 0.3
上海 0.1
内蒙古 3.2
吉林 1.8
广东 0.2
甘肃 2.0
我国10个地区的人均耕地面积统计表
解:将这10个地区的人均耕地面积从小到大排列,依次为0. 1,0.2, 0.3,0.6,0.6,1.8,2.0,2.3,3.2,4.2。将这些数据分成两组,有以下9种情况,
组序 分组情况 组内离差平方和
第1组 第2组
1 0.1 0.2,0.3,0.6,0.6,1.8,2.0,2.3,3.2,4.2 15.58889
2 0.1,0.2 0.3,0.6,0.6,18,2.0,2.3,3.2,4.2 13.1
3 0.1,0.2,0.3 0.6,0.6,1.8,2.0,2.3,3.2,4.2 10.28
4 0.1,0.2,0.3,0.6 0.6,1.8,2.0,2.3,3.2,4.2 7.775
5 0.1,0.2,0.3,0.6,0.6 1.8,2.0,2.3,3.2,4.2 4.172
6 0.1,0.2,0.3,0.6,0.6,1.8 2.0,2.3,3.2,4.2 4.8875
7 0.1,0.2,0.3,0.6,0.6,1.8,2.0 2.3,3.2,4.2 5.42667
8 0.1,0.2,0.3,0.6,0.6,1.8,2.0,2.3 3.2,4.2 6.08875
9 0.1,0.2,0.3,0.6,0.6,1.8,2.0,2.3,3.2 4.2 9.94
05
课堂小结
1.组内离差平方和与组间离差平方和:
一般地,设有个数据,,, ,,它们的平均数为 ,离差平方和为。如果把这些数据分为两组,第1组有 个数据,平均数为,离差平方和为;第2组有个数据,平均数为 ,离差平方和为,其中。
通过计算可以得到以下等式
通常称 为组内离差平方和,它表达了两个组组内数据的离散程度;
称 为组间离差平方和,它表达了两个组之间的差异。
2.数据分组原则:
合理的分组原则是使 最小,同时使最大。
由于总离差平方和 不变,所以只需考虑 最小,即组内离差平方和最小即可。#3.1.2
课堂小结
表达了两个组的组内数据的离散程度
表达了两个组之间的差异
组内离差平方和
组间离差平方和
分组原则:使组内离差平方和最小
感谢聆听!
$