内容正文:
目录
LOGO
20.5 数据分组原则
第二十章 数据的初步分析
逐点
导讲练
课堂小结
作业提升
学习目标
课时讲解
1
课时流程
2
数据分组原则
知1-讲
感悟新知
知识点
数据分组原则
1
1. 组内离差平方和与组间离差平方和
一般地,假设有n 个数据x1,x2,x3,…,xn,若将其分成两组,其中前m个数据为一组(称为第一组),后(n-m)个数据为一组(称为第二组).
这n 个数据的总体离差平方和S2 可以表示为:S2=(x1-x)2+(x2-x)2+… +(xn-x)2,其中,x =(x1+x2+… +xn)
感悟新知
知1-讲
记x1 =(x1+x2+… +xm),x2 =(xm+1+xm+2+… +xn).
则S2=(x1-x1)2+(x2-x1)2+… +(xm-x1)2+(xm+1-x2)2+(xm+2-x2)2+… +(xn-x2)2+[m(x1 -x)2+(n-m)(x2 -x)2]=S12+S22.
其中,S12=(x1- x1)2+(x2- x1)2+… +(xm- x1)2+(xm+1- x2)2+(xm+2-x2)2+… +(xn-x2)2 称为组内离差平方和,表达了两个组内数据的离散程度;S22=m(x1 -x)2+(n-m)(x2 -x)2 称为组间离差平方和,表达了两组数据之间的差异.
感悟新知
知1-讲
2. 数据分组的原则 组内差距最小.
3. 数据分组的根据 组内离差平方和最小(或组间离差平方和最大).
感悟新知
知1-讲
4. 数据分组的步骤
(1)将数据由小到大排列;
(2)从m=1 开始,分类讨论所有可能的分组情况;
(3)分别计算全部数据和各组数据的平均数;
(4)计算两组数据的组内离差平方和或组间离差平方和;
(5) 组内离差平方和最小(或组间离差平方和最大)的分组即为最合理的分组.
知1-讲
感悟新知
特别解读
1. 由小到大进行数据排序才能保证分组方案有效.
2. 若有n 个数据,则有(n-1)种分组方法.
3. 其他的分组方法还有等距分组、等频分组等.
4. 建议用excel 等电子表格软件进行复杂计算.
知1-练
感悟新知
10个城市某月的每日最高温度的平均数(简称平均高温)如下表所示.
根据平均高温的组内离差平方和最小的原则,把这10个城市分为两组.
例1
城市 北京 石家庄 呼和浩特 哈尔滨 上海 广州 海口 成都 贵阳 昆明
平均高
温/℃ 3 3 -3 -11 10 21 22 12 9 17
知1-练
感悟新知
解题秘方:将数据由小到大排列分组后分别计算组内离差平方和进行比较.
解:将表中的数据按从小到大排列,可得
-11,-3,3,3,9,10,12,17,21,22
将它们分成两组共有9 种情况,分别计算组内离差平方和(结果保留小数点后一位),如下表所示.
感悟新知
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
第一组1 个,第二组9 个 0 584.2 584.2
第一组2 个,第二组8 个 32 380.9 412.9
第一组3 个,第二组7 个 98.7 285.7 384.4
第一组4 个,第二组6 个 132 158.8 290.8
第一组5 个,第二组5 个 228.8 113.2 342
第一组6 个,第二组4 个 308.8 62 370.8
第一组7 个,第二组3 个 397.4 14 411.4
第一组8 个,第二组2 个 562 0.5 562.5
第一组9 个,第二组1 个 789.6 0 789.6
知1-练
感悟新知
观察最后一列组内离差平方和可以发现,当按第4 种方法分组时,组内离差平方和最小. 因此,使组内离差平方和最小的分法为:
{ 北京,石家庄,呼和浩特,哈尔滨} 和
{ 上海,广州,海口,成都,贵阳,昆明}.
知1-练
感悟新知
特别解读
这样分组后, 组内的差距尽可能小,而组与组之间的差异明显. 在社会经济统计研究中, 数据分组的作用在于划分现象的类型、研究总体的结构与现象之间的依存关系.
数据分组
排序
计算
选择
分组的步骤
分组的原则
课堂小结
$