内容正文:
20.5 数据分组
第 20 章 数据的初步分析
1.理解组内离差平方和与组间离差平方和的概念;
2.会利用使“组内离差平方和最小”的方法对数据进行分组.(重点、难点)
一、学习目标
情景导入
生活里的分类能帮我们高效做事,那杂乱的数据也可以通过“分组”变得清晰——这就是我们今天要学的《数据分组》.
通过合理分组,不仅能快速统计各类数据的数量,还能利用即将要学的“组内离差平方和”判断分组是否让数据更集中、更便于分析.
数据分组
问题1 我国 10 个省份某年人均地区生产总值(简称人均 GDP,单位:万元)的数据如下表所示:
如果把这 10 个省份依据人均 GDP 的多少分为两组,并保证人均 GDP 相差不多的省份在一个组,应该如何划分?
省份代号 1 2 3 4 5 6 7 8 9 10
人均GDP/万元
15.68
6.24
10.11
7.18
16.42
12.13
7.37
10.07
8.85
7.16
1
对于这个问题,为了保证人均 GDP 相差不多的省份在一个组,应该如何划分,试着讨论一下 ?
可以选择平均数接近一些的
可以用中位数分段来划分
可以从众数的角度来划分这些数据.
按照“组内离差平方和最小”的方法,就能保证人均 GDP 相差不多的省份在一个组.
自主学习
知识点:组内离差平方和与组间离差平方和
一般地,假设有n个数据x1,x2,…,xn,若将其分成两组,其中前m个数据为一组(称为第一组),后(n-m)个数据为一组(称为第二组).
记
其中,
称为组内离差平方和,表达了两个组内数据的离散程度.
称为组间离差平方和,表达了两组数据之间的差异.
探究一:数据分组
合作探究
问题提出:如图为10个苹果的直径,若想把这10个苹果分成两组,使每组苹果的“个头”差不多,你想怎么分?说说你分组的理由.
概念学习
1. 组内离差平方和与组间离差平方和
一般地,假设有n 个数据x1,x2,x3,…,xn,若将其分成两组,其中前m个数据为一组(称为第一组),后(n-m)个数据为一组(称为第二组).
这n 个数据的总体离差平方和S2 可以表示为:
S2=(x1-x)2+(x2-x)2+… +(xn-x)2,其中,x =(x1+x2+… +xn).
记x1 =(x1+x2+… +xm),x2 =(xm+1+xm+2+… +xn).
则S2=(x1-x1)2+(x2-x1)2+… +(xm-x1)2+(xm+1-x2)2+(xm+2-x2)2+… +(xn-x2)2+[m(x1 -x)2+(n-m)(x2 - x)2]=S12+S22.
其中,S12=(x1- x1)2+(x2- x1)2+… +(xm- x1)2+(xm+1- x2)2+(xm+2-x2)2+… +(xn-x2)2 称为组内离差平方和,表达了两个组内数据的离散程度;S22=m(x1 -x)2+(n-m)(x2 -x)2 称为组间离差平方和,表达了两组数据之间的差异.
一个合理的分组原则是使组内离差平方和达到最小,组间离差平方和达到最大.由于总体离差平方和 S2不变,只需考虑使组内离差平方和达到最小即可.
那怎样能做到组内离差平方和最小呢?
一般地,假设有 n 个数据 x1 , x2 , x3 , … , x1 , 若将其分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 )
这 n 个数据的总体离差平方和 S2 可以表示为:
合作探究
探究二:一般情况下,如果想把一组数据分成若干组,使每组组内的数据差距不大,且组与组之间的数据差别明显,那么你认为应遵循怎样的分组原则?
对数据分组的方法有很多,使“组内离差平方和最小”的方法是最常用的方法之一.
合作探究
问题解决:
解:按照“组内离差平方和达到最小”的方法,把图中的10个苹果按直径大小分成两组.
将10个数据由小到大排序:65, 69, 70, 75, 76, 76, 78, 80, 80, 81.把10个数据分成两组,共有9种情况:第一组1个数据{65},第二组9个数据{69, …, 81}; 第一组2个数据{65, 69}, 第二组8个数据{70, …,81}; ……; 第一组9个数据{65, …, 80}, 第二组1个数据{81}.
省份序号 1 2 3 4 5 6 7 8 9 10
人均GDP/万元 15.68 6.24 10.11 7.18 16.42 12.13 7.37 10.07 8.85 7.16
解:将表中10个数据按从小到大排列,得到6.24,7.16,7.18,7.37,8.85,10.07,10.11,12.13,15.68,16.42.
将它们分成两组共有9种情况,分别计算组内离差平方和,如下表.
分组 组内离差平方和
第一组1 个,第二组9 个
第一组2 个,第二组8 个
第一组3 个,第二组7 个
第一组4 个,第二组6 个
第一组5 个,第二组5 个
第一组6 个,第二组4 个
第一组7 个,第二组3 个
第一组8 个,第二组2 个
第一组9 个,第二组1 个
99.5456
87.0232
70.7065
50.8225
40.0501
36.2860
24.7129
28.3987
72.1953
观察组内离差平方和可以发现,当按第7个间隔(第一组7个,第二组3个)分组时,组内离差平方和最小.因此,按组内离差平方和最小的分法为{省份2,省份3,省份4,省份7,省份8,省份9,省份10}和{省份1,省份5,省份6}.
知识要点
称为组内离差平方和 , 表达了两个组内数据的离散程度;
称为组间离差平方和,表达了两组数据之间的差异.
数据的分组一般步骤:
1. 第一步是排序;
2. 第二步是确定组数和各组内数据的个数,我们只讨论分两组的情形,如果一共有 n 个数据,要把较小的 m 个数据分为一组,把剩下的 (n - m) 个数据分为另一组;
3. 我们通过“组内离差平方和最小” 的原则来确定 m 的大小.
合作探究
同理计算其他8种分组情况的组内离差平方和,结果如下:
分组情况 组内离差平方和
第一组1个,第二组9个 146.889
第一组2个,第二组8个 98
第一组3个,第二组7个 48
第一组4个,第二组6个 74.25
第一组5个,第二组5个 98
第一组6个,第二组4个 107.583
第一组7个,第二组3个 136.095
第一组8个,第二组2个 182.375
第一组9个第二组1个 218
计算结果表明,第3种情况的组内离差平方和最小。因此把10个苹果按直径大小分成的两组是{65, 69, 70}, {75, 76, 76, 78, 80, 80, 81}。
合作探究
对数据的分组有两步,第一步是排序,第二步是确定组数和各组内数据的个数,我们只讨论分两组的情形,如果一共有n个数据,要把较小的m个数据分为一组,把剩下的(n-m)个数据分为另一组.我们通过“组内离差平方和最小”的原则来确定m的大小.这样分组后,组内的差距可以达到最小,而组与组之间的差异可以达到最大.
归纳总结:
(1)将数据由小到大排列;
数据分组的步骤:
(2)从m=1开始,分类讨论所有可能的分组情况;
(3)分别计算全部数据和分组后数据的平均数;
(4)计算两组的组内离差平方和(或组间离差平方和);
(5)组内离差平方和最小(或组间离差平方和最大)的分组即为最合理的分组.
归纳小结
随堂演练
1.按照“组内离差平方和达到最小”的方法,小明将一组数据分成了两组{80,82}和{87,86,90,85},计算这两组数据的组内离差平方和为 .
16
2. 小红同学为了在明年中考体育考试中取得好的成绩,每天自己在家里练习做一分钟仰卧起坐,妈妈统计了她连续六天内仰卧起坐的个数:28,25,30,27,30,26.按照“组内离差平方和最小”的方法分成两组,则组内离差平方和的最小值是 ( )
A、 B、 C、 D、5
A
全品文教初中
因此,我们通过计算和比较组内离差平方和,就可以将这 10 个省份分成两组,并保证人均 GDP 相差不多的省份在一个组.
这样分组后,组内的差距可以达到最小,而组与组之间的差异可以达到最大.
用电子表格软件进行数据分组
(1) 在电子表格软件中输入省份代号和人均 GDP 的数据 , 并对数据按照人均 GDP 从小到大进行排序;
用电子表格软件计算
省份代号 1 2 3 4 5 6 7 8 9 10
人均GDP/万元
15.68
6.24
10.11
7.18
16.42
12.13
7.37
10.07
8.85
7.16
2
(2) 如图,将排序后的人均 GDP 的数据根据每组
个数进行分组,通过“公式”—“插入函数”—选择类别“统计”—“DEVSQ” 函数,分别计算每组的离差平方和;
课堂总结
组内离差平方和计算公式:
组间离差平方和计算公式:
课堂小结
数据分组
组内离差平方和:数值越小,组内差异越小
组间离差平方和:数值越大,不同组之间差异越明显
根据组内离差平方和最小的原则分组
总体离差平方和=组内+组间
全品文教初中
$