内容正文:
20.5 数 据 分 组
第二十章 数据的初步分析
沪科版 · 新教材 · 八年级下册
学 习 目 标
1
2
3
用数学眼光观察:能识别生活、社会经济场景中需要数据分组的实例,看懂人均 GDP、获奖项数、造林面积等统计数据,直观感知 “组内差异小、组间差异大” 的分组现实意义。
用数学思维思考:理解总体离差平方和、组内离差平方和、组间离差平方和三者的拆分关系;掌握 “排序 — 试分组数 — 计算对比平方和” 的分组逻辑,会借助计算工具对比数值大小找到最优两组划分。
用数学语言表达:规范书写三类离差平方和公式,能完整口述分组步骤、解释平方和的统计含义,准确表述最优分组结果与数据特征。
统计学上,常用箱线图直观地展示一组数据的统计特征值,分析不同类别数据各层次水平的差异(如离散程度、分布差异等).
知识回顾
1.箱线图展示的统计量是什么?
1.离差平方和
一组数据中所有数据与平均数离差的平方之和
公式:
。
2.方差
公式:
]
用来衡量一组数据的波动大小,即数据偏离平均数的程度,方差越大,波动越大。
整体反映数据的总偏离程度,平方和越大,数据整体波动越大。
知识回顾
2.表现数据波动性统计量是什么?
一组数据离差平方和的平均数
新知导入
我国10个省份某年人均地区生产总值(简称人均GDP,单位:万元)的数据如下表所示:
省份代号 1 2 3 4 5 6 7 8 9 10
人均GDP/万元 15.68 6.24 10.11 7.18 16.42 12.13 7.37 10.07 8.85 7.16
当我们面对的数据维度丰富,并且天然呈现出不同类别特征时,仅仅依靠单一的平均数和方差来概括整体,往往会掩盖掉数据内部的重要差异。
我们需要先将数据按照特征划分成不同的组再分析,这就是我们今天要学习的核心方法
——数据分组
观察这组数据,你有什么发现?这些省份的经济发展水平看起来一样吗?结合数值特征,你能不能尝试用科学的方法把它们分成几个不同的类别,以此反映区域发展的梯度差异?
2022年底我国数据存储量全球占比
14.4%
海量数据沉淀,蕴含着待挖掘的无限商业价值
帮助我们将杂乱无章的数据进行归类整理,化繁为简,从而看清数据的本质与规律。
探究新知
探究点1
认识数据分组的必要性
时代背景
10.5%
2022年我国数据产量全球占比
大数据时代在海量数据背景下,需要进行大数据分析
分组分析是关键工具之一
分组分析
探究新知
探究点1
认识数据分组的必要性
(1)什么是数据分组?
是根据研究目的和客观现象的内在特点,按照某种标准把数据划分为若干个不同的组,使组内的差异尽可能小,组间的差异尽可能大.
(2)什么是分组分析法?
分组分析法是在分组的基础上,将不同性质的现象分开,相同性质的现象归纳在一起,从而反映被研究对象的本质、差异和特征
数据从无序的混合状态,通过分组规则转化为特征鲜明、结构清晰的同质群组
议一议
它能将复杂数据集拆解为同质小组,让数据特征凸显,便于深入洞察与横向比较。
探究新知
探究点1
认识数据分组的必要性
议一议
在众多分组方法中,使“组内离差平方和最小”是最常用且最有效的方法之一,其核心逻辑是让组内数据尽可能聚合,以此提升分组的合理性与科学性。
优质分组要求组内数据差距尽可能小,组与组之间差距尽可能大,
(3)优质数据分组的原则:
✅ 合理分组:聚合度高
分组边界清晰,类别特征显著,是理想的分组结果。
❌ 不合理分组:离散度大
数据点分布杂乱,偏离平均值严重,分组逻辑混乱,无法有效体现数据的内在规律。
“组内离差平方和最小” 分组法
探究新知
探究点2
三个离差平方和的定义与拆分公式
我国10个省份某年人均地区生产总值(简称人均GDP,单位:万元)的数据如下表所示:
(1)要把这10个省份依据人均GDP的多少分为两组,并保证人均GDP相差不多的省份在一个组,应该如何划分?
议一议
将数据按序排列,以中位数为准分为两组,
只看数值大小、规模高低等表面特征,把相似的放在一组,缺乏统一客观的标准。
求出数据的平均数,在求出每个数据与平均数的差,根据差距大小分为两组
会出现负值干扰,不方便分组
可以将离差先平方在求和,不仅能消除负值影响,还能放大极端偏离点的影响
探究新知
探究点2
三个离差平方和的定义与拆分公式
议一议
1.总体离差平方和
含义:全部数据整体的总离散波动大小。
一般地,假设有 n 个数据 x1 , x2 , x3 , … , xn ,若将其分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
这 n 个数据的总体离差平方和 S 2 可以表示为:
全体数据平均值
探究新知
探究点2
三个离差平方和的定义与拆分公式
议一议
含义:两组内部各自数据波动加总,越小,说明每组内部数据越接近,分组效果越好,这是分组判定核心指标。
称为组内离差平方和,表达了两个组内数据的离散程度.
2.组内离差平方和
公式:
探究新知
探究点2
三个离差平方和的定义与拆分公式
议一议
含义:两组平均值和全体总均值的差距加权和,越大,两组整体差距越明显。
称为组间离差平方和,表达了两组数据之间的差异.
3.组间离差平方和
公式:
4.核心恒等式
总波动 = 组内波动 + 组间波动;
总波动固定不变时,组内波动最小等价于组间波动最大
探究新知
探究点2
组内离差平方和最小分组过程
议一议
按照“组内离差平方和最小”的方法,就能保证人均 GDP 相差不多的省份在一个组.
探究新知
探究点3
(1)要把这10个省份依据人均GDP的多少分为两组,并保证人均GDP相差不多的省份在一个组,应该如何划分?
(2)“组内离差平方和最小”的方法的步骤
第1步. 计算总体离差平方和
设一组有 n 个数据为: x1 , x2 , x3 , … , xn ,
全体数据平均值
这 n 个数据的总体离差平方和 S 2 可以表示为:
探究新知
探究点3
组内离差平方和最小分组过程
议一议
第2步:两组拆分设定并计算小组平均数
(2)“组内离差平方和最小”的方法的步骤
设一组有 n 个数据为: x1 , x2 , x3 , … , xn ,
将 n 个数据 x1 , x2 , x3 , … , xn排序年后分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
第一组均值:
第二组均值:
探究新知
探究点3
组内离差平方和最小分组过程
议一议
第3步:计算各小组内离差平方和
(2)“组内离差平方和最小”的方法的步骤
设一组有 n 个数据为: x1 , x2 , x3 , … , xn ,
将 n 个数据 x1 , x2 , x3 , … , xn排序年后分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
第一组离差平方和:第一小组内各数与第一小组平均数差的平方和
第二组离差平方和:第二小组内各数与第二小组平均数差的平方和
探究新知
探究点3
组内离差平方和最小分组过程
议一议
第4步:计算组内离差平方和
(2)“组内离差平方和最小”的方法的步骤
设一组有 n 个数据为: x1 , x2 , x3 , … , xn ,
将 n 个数据 x1 , x2 , x3 , … , xn排序年后分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
计算方法:
计算公式:
两组内部各自数据波动加总,越小,说明每组内部数据越接近,分组效果越好,反映两个组内数据的离散程度
探究新知
探究点3
组内离差平方和最小分组过程
议一议
第5步:计算组间离差平方和
(2)“组内离差平方和最小”的方法的步骤
设一组有 n 个数据为: x1 , x2 , x3 , … , xn ,
将 n 个数据 x1 , x2 , x3 , … , xn排序年后分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
两组平均值和全体总均值的差距加权和,越大,两组整体差距越明显。
探究新知
探究点3
组内离差平方和最小分组过程
议一议
(2)“组内离差平方和最小”的方法的步骤
设一组有 n 个数据为: x1 , x2 , x3 , … , xn ,
将 n 个数据 x1 , x2 , x3 , … , xn排序年后分成两组,其中前 m 个数据为一组 ( 称为第一组 ), 后 ( n-m ) 个数据为一组 ( 称为第二组 ).
∵总波动 = 组内波动 + 组间波动;
总体离差平方和等于组内离差平方和与组间离差平方和的和
即:
∴总波动固定不变时,组内波动最小等价于组间波动最大,
∴当组内波动最小最小时,这种分组最优化
第6步:判断分法的最优方案
探究新知
探究点3
组内离差平方和最小分组过程
归一归
一个合理的分组原则是使组内离差平方和达到最小,组间离差平方和达到最大.由于总体离差平方和 S2不变,只需考虑使组内离差平方和达到最小即可.
(1)排序:将原始数据从小到大升序排列(必须排序,保证只能前后分段,不打乱数值大小顺序)
(2)枚举分段:依次试,即第一组 1 个、2 个…… 直到个,对应第二组数量随之变化
(3)工具计算:借助计算器、Excel(DEVSQ 函数快速算单组离差平方和,SUM 汇总)算出每一种分段对应的
(4)择优分组:对比所有数值,最小值对应的就是最优分段数量,对应两组即为最终划分结果
1、分组原则
2、主要步骤
探究新知
探究点4
教材例题实操演示
议一议
问题 我国10个省份某年人均地区生产总值(简称人均GDP,单位:万元)的数据如下表所示:
第二步枚举分段:到 9,表格汇总各组组内平方和
分组形式 组内离差平方和
1 个 + 9 个 99.5456
2 个 + 8 个 87.0232
3 个 + 7 个 70.7065
4 个 + 6 个 50.8225
5 个 + 5 个 40.0501
6 个 + 4 个 36.2860
7 个 + 3 个 24.7129(最小值)
8 个 + 2 个 28.3987
9 个 + 1 个 72.1953
第一步排序:
6.24,7.16,7.18, 7.37, 8.85,
10.07,10.11,12.13,15.68, 16.42
第三步结论:
时最小,最优分组
第一组(7 个低值):
6.24,7.16,7.18,7.37,8.85,10.07,10.11
第二组(3 个高值):12.13,15.68,16.42
探究新知
探究点4
教材例题实操演示
议一议
用电子表格软件进行数据分组
(1)在电子表格软件中输入省份代号和人均 GDP 的数据,并对数据按照人均 GDP 从小到大进行排序;
探究新知
探究点4
教材例题实操演示
议一议
(2)如图,将排序后的人均 GDP 的数据根据每组个数进行分组,通过“公式”—“插入函数”—选择类别“统计”—“DEVSQ” 函数,分别计算每组的离差平方和;
探究新知
探究点4
教材例题实操演示
议一议
输入各组对应的函数后得到数据:
探究新知
探究点3
教材例题实操演示
议一议
(3)利用“SUM”函数得到组内离差平方和,如下图所示
探究新知
探究点3
教材例题实操演示
议一议
(4)按组内离差平方和最小来进行选择,
在社会经济统计研究中,数据分组的作用在于划分现象的类型、研究总体的结构与现象之间的依存关系.
{ 省份 2,省份 10,省份 4,省份 7,省份9,省份8,省份3}
分组为:第一组
第二组
{省份 6,省份1,省份5 }.
典例分析
例1、学校组织了“安全知识”小竞赛,某班的5位同学成绩(单位:分)如下:90,91,92,95,95.将这组数据按从小到大排列,则 与 的组内离差平方和为( )
A.0 B.1 C.2 D.5
解:首先计算第一组 的离差平方和 ,
第一组的平均数 ,
第一组离差平方和
+
,
再计算第二组 的离差平方和,
第二组的平均数 ,
第二组离差平方和 ,
总组内离差平方和为.
C
典例分析
例2.下表是4名学生的数学测试成绩:
学生编号 1 2 3 4
成绩 / 分 72 80 85 93
将这些成绩按从低到高排列后,共有多少种不同的分法?请计算每种分法的组内离差平方和,并找出最优分组.
解:
步骤1:将成绩按从低到高排列:72,80,85,93.
步骤 2:共有4-1=3 种不同的分法.
步骤 3:计算每种分法的组内离差平方和:
分法1(第1个间隔): 和 ;
第一组离差平方和0 ;
第二组平均数: ,
离差平方和:
;
组内离差平方和:0+86=86 .
分法2(第2个间隔): 和 ;
第一组平均数: ,
离差平方和:
;
第二组平均数: ,
离差平方和:
;
组内离差平方和:32+32=64 .
例2.下表是4名学生的数学测试成绩:
学生编号 1 2 3 4
成绩 / 分 72 80 85 93
将这些成绩按从低到高排列后,共有多少种不同的分法?请计算每种分法的组内离差平方和,并找出最优分组.
典例分析
例2.下表是4名学生的数学测试成绩:
学生编号 1 2 3 4
成绩 / 分 72 80 85 93
将这些成绩按从低到高排列后,共有多少种不同的分法?请计算每种分法的组内离差平方和,并找出最优分组.
分法3(第3个间隔): 和 ;
第一组平均数 ,
离差平方和:
;
第二组离差平方和0;
组内离差平方和86+0=86 .
步骤 4:比较组内离差平方和,64最小,
答:共有3种不同的分法;最优分组是 和 .
典例分析
新知巩固
教材P165页
1. 2005—2020年我国获得国家技术发明奖的项数分别为:
40,56,51,55,55,46,55,77,
71,70,66,66,66,67,65,61.
试着将它们按照“组内离差平方和最小”的原则分为两组.(提示:可借助计算器或电子表格软件)
解:
第 1 组 :40,46,51,55,55,55,56
第 2 组 :61,65,66,66,66,67,70,71,77
拓展提升
1.下表是 10 个城市月均最高气温不同分法的组内离差平方和统计:
分组位置 第一组离差平方和 第二组离差平方和 组内离差平方和
第 1 个间隔 0 584.2 584.2
第 2 个间隔 32 380.9 412.9
第 3 个间隔 98.7 285.7 384.4
第 4 个间隔 132 158.8 290.8
第 5 个间隔 228.8 113.2 342
第 6 个间隔 308.8 62 370.8
第 7 个间隔 397.4 14 411.4
第 8 个间隔 562 0.5 562.5
第 9 个间隔 789.6 0 789.6
根据上表,组内离差平方和最小的分组位置是( )
A.第3个间隔 B.第4个间隔 C.第5个间隔 D.第6个间隔
B
解:观察上表最后一列 “组内离差平方和”,可以发现第4个间隔对应的数值290.8是所有分法中最小的.
2.小明同学对数据进行统计分析,发现其中一个两位数的个位数字被墨水污染已无法看清,则下列统计量与被污染数字无关的是( )
A.平均数 B.离差平方和 C.中位数 D.方差
拓展提升
解:A、平均数是指在一组数据中所有数据之和再除以这组数据的个数,与被污染数有关,故不符合题意;
B、离差平方和是每个样本值与全体样本值的平均数之差的平方的和,与被污染数有关,故不符合题意;
C、中位数是按顺序排列的一组数据中居于中间位置的数为9,与被污染数无关,故符合题意;
D、方差是每个样本值与全体样本值的平均数之差的平方和的平均数,与被污染数有关,故不符合题意;
C
真题感知
1.(25-26八年级下·全国·课后作业)某班级5名学生的成绩为60,70,78,90,100.若将其分为两组,如何分组可使组内离差平方和最小?请计算最小值.
解:将数据60,70,78,90,100分成两组共有4种情况,
①,;
②,;
③,;
④,;
分组 第一组离差平方和 第二组离差平方和 组内离差平方和
① 0 523 523
② 50 242.67 292.67
③ 162.67 50 212.67
④ 483 0 483
由表可知,
当60,70,78一组,90,100一组时,
组内离差平方和最小,
最小值约为212.67.
分别计算组内离差平方和(精确到)如下表所示:
知 识 总 结
① 三个平方和:
总体、组内、组间,满足;
② 最优两组判定标准:
组内离差平方和最小;
③ 操作四步:
排序→试分数量→算平方和→选最小对应分组。
课堂小结
34
方 法 总 结
课堂小结
① 转化思想:
把 “分组好坏” 定性问题转化为平方和大小的定量计算问题;
② 枚举对比思想:
有限范围内全部试算,择优取值;
③ 统计建模思想:
用波动平方和量化数据相似度,贴合现实分类需求。
易 错 提 醒
课堂小结
① 分组前必须升序排序,不能随意挑数分组,分段只能前后切割;
② 计算组内平方和时,每组要用自身均值,不能误用全体总均值;
③ 区分符号:是组内(越小越好),是组间(越大越好),不要颠倒判定标准;
④ 手工计算量大,熟练使用计算器 / Excel 函数提升准确率。
教材P165
习题20.5
1.某校为提高学生保护自然的意识,准备开展一次“保护自然,从我做起”的文化活动,以下是小明搜集的2013—2022年我国造林总面积(单位:km2)数据:
求该组数据的总体离差平方和,按照“组内离差平方和最小”的原则分为两组,并计算此时的组内离差平方和与组间离差平方和.(提示:可借助计算器或电子表格软件)
61000,55500,76840,72040,76810,
72990,73900,69340,37540,42030.
课后练习
步骤1:整理并排序原始数据
37540,42030,55500,61000,69340,
72040,72990,73900,76810,76840,
数据总数
步骤3:计算总体离差平方和
步骤2:计算全体数据总平均值
步骤4:枚举分段,寻找最优分组(组内平方和最小)
当时,分组效果最优:
第一组(低值组,4个数据):37540,42030,55500,61000
第二组(高值组,6个数据):69340,72040,72990,73900,76810,76840
教材P165
习题20.5
1.某校为提高学生保护自然的意识,准备开展一次“保护自然,从我做起”的文化活动,以下是小明搜集的2013—2022年我国造林总面积(单位:km2)数据:
求该组数据的总体离差平方和,按照“组内离差平方和最小”的原则分为两组,并计算此时的组内离差平方和与组间离差平方和.(提示:可借助计算器或电子表格软件)
61000,55500,76840,72040,76810,
72990,73900,69340,37540,42030.
课后练习
步骤5:分组计算均值与组内离差平方和
第一组均值:
第一组组内平方和:
第二组均值:
第二组组内平方和:
总组内离差平方和:
步骤6:计算组间离差平方和
根据公式
代入数据计算得:
步骤7:验证恒等式
验证成立,分组结果有效。
课后练习
教材P165
习题20.5
1.某校为提高学生保护自然的意识,准备开展一次“保护自然,从我做起”的文化活动,以下是小明搜集的2013—2022年我国造林总面积(单位:km2)数据:
求该组数据的总体离差平方和,按照“组内离差平方和最小”的原则分为两组,并计算此时的组内离差平方和与组间离差平方和.(提示:可借助计算器或电子表格软件)
61000,55500,76840,72040,76810,
72990,73900,69340,37540,42030.
我国造林总面积/km² 按从小到大的顺序分组 第一组离差平方和 第二组离差平方和 组内离差平方和
37540 第一组1个数,第二组9个数 0 1098457400 1098457400
42030 第一组2个数,第二组8个数 10080050 412846950 422927000
55500 第一组3个数,第二组7个数 174720866.7 179062371.4 353783238.1
61000 第一组4个数,第二组6个数 366161275 41827933.33 407989208.3
69340 第一组5个数,第二组5个数 696564480 19502120 716066600
72040 第一组6个数,第二组4个数 996069283.3 11838900 1007908183
72990 第一组7个数,第二组3个数 1236503571 5704200 1242207771
73900 第一组8个数,第二组2个数 1440415350 450 1440415800
76810 第一组9个数,第二组1个数 1675643400 0 1675643400
参考数据
感谢聆听!
$