内容正文:
第二十四章 数据的分析 人教版(新教材) 八年级下册 24.4 数据的分组 情境引入 新知探究 典例精析 本课总结 当堂练习 一家公司向社会招聘一名员工,所有应聘者先统一参加笔试,然后根据笔试成绩确定一部分应聘者进入面试.将10名应聘者的笔试成绩(百分制)按从小到大的顺序排列如下: 58 64 68 75 76 83 85 89 90 92 你认为哪一部分应聘者应当进入面试? 情境引入 新知探究 典例精析 本课总结 当堂练习 自然,应当选择笔试成绩好的应聘者进人面试.那么笔试成绩怎样才算好呢?可以有不同的标准.例如,前三名或85分及以上等,不管哪种标准,目的都是把笔试成绩分成好和差两组. 58 64 68 75 76 83 85 89 90 92 在社会生活中,分类现象普遍存在.例如,超市里各种商品按用途不同分类摆放,宾馆根据硬件设施、服务水平等分成不同的星级,等等.在实际问题中,当面临的对象复杂多样时,分类往往可以为我们处理问题带来方便.对于一组取值多样的数据,对其进行合理分组,也会有助于我们解决问题. 情境引入 新知探究 典例精析 本课总结 当堂练习 对笔试成绩进行分组,上面提到的标准各有其合理性,在实际中也经常被采用.但这些标准都没有考虑数据自身的特点,这可能导致两个很接近的笔试成绩被分到不同的组.例如,83分与85分的差距很小,若以“85分及以上”为好成绩的标准,则85分属于好成绩,而83分属于差成绩.而从公司确定面试应聘者的角度看,把笔试成绩相对接近的分到同一组,是一种较合理的做法.因此,笔试成绩可以根据组内差异最小的原则进行分组. 情境引入 新知探究 典例精析 本课总结 当堂练习 将笔试成绩按从小到大的顺序排列,使相互最接近的笔试成绩都挨在了一起,因此,要使分组后的组内差异最小,只需在已排序数据的基础上寻找分组方法,可以发现,10个笔试成绩按顺序排列形成9个间隔,如图所示, 58 64 68 75 76 83 85 89 90 92 每个间隔都可以把笔试成绩分成好和差两组, 共有9种分法. 情境引入 新知探究 典例精析 本课总结 当堂练习 在前面的学习中,我们知道,离差平方和可以刻画一组数据的离散程度. 下面我们利用离差平方和刻画组内数据的离散程度,进而对数据进行分组. 怎么刻画组内笔试成绩差异的大小呢?哪种分法能使笔试成绩好和差两组的组内差异最小? 一般地,设有 n 个数据 x1,x2,…,xn,其平均数记为 ,则离差平方和为 d2=(x1 )2+(x2 )2+…+(xn )2. 58 64 68 75 76 83 85 89 90 92 情境引入 新知探究 典例精析 本课总结 当堂练习 如果把这组数据分为两组,前m(m<n)个数据为一组,后(n-m)个数据为一组,它们的平均数分别记为1和2,离差平方和分别为 d21=(x1-1)2+(x2-1)2+…+(xm-1)2, d22=(xm+1-2)2+(xm+2-2)2+…+(xn-2)2, 那么 d2=(x1-)2+(x2-)2+…+(xn-)2 =(x1-1+1-)2+(x2-1+1-)2+…+(xm-1+1-)2+ (xm+1-2+2-)2+(xm+2-2+2-)2+…+(xn-2+2-)2 =(x1-1)2+(x2-1)2+…+(xm-1)2+(xm+1-2)2+(xm+2-2)2+…+(xn-2)2+m(1-)2+(n-m)(2-)2 =d21+d22+m(1-)2+(n-m)(2-)2. 情境引入 新知探究 典例精析 本课总结 当堂练习 其中d²1+d²2称为组内离差平方和,表示两个组内数据的离散程度;记 d²12=m(1-)2+(n-m)(2-)2, d²12是m个第一组数据平均数、(n-m)个第二组数据平均数关于总体数据平均数的离差平方和,称为组间离差平方和,表示两个组间的差异.根据组内离差平方和最小的原则进行分组时,由于d²不变,既可以按d²1+d²2最小来分组,也可以按d²12最大来分组. d2=d21+d22+m(1-)2+(n-m)(2-)2. 情境引入 新知探究 典例精析 本课总结 当堂练习 这样,根据组内离差平方和最小的原则,能使笔试成绩相差较小的应聘者分在同一组.利用计算器或信息技术工具,可以计算出图中的9种分法的组内离差平方和(结果保留小数点后一位),如表所示. 分组 第1个间隔 第2个间隔 第3个间隔 第4个间隔 第5个间隔 第6个间隔 第7个间隔 第8个间隔 第9个间隔 第一组离差平方和 0 18 50.7 152.8 228.8 411.3 587.4 819.5 1026.2 第二组离差平方和 799.6 503.5 271.4 170.8 54.8 26 4.7 2 0 第三组离差平方和 799.6 521.5 322.1 323.6 283.6 437.3 592.1 821.5 1026.2 观察最后一列组内离差平方和可以发现,当按第5个间隔分组时,组内离差平方和最小. 因此,按组内离差平方和最小的分法为 {58,64,68,75,76}和 {83,85,89,99,92}. 数据分组的步骤 (1)将数据由小到大排列; (2)从m=1开始,分类讨论所有可能的分组情况; (3)分别计算全部数据和分组后数据的平均数; (4)计算两组的组内离差平方和(或组间离差平方和); (5)组内离差平方和最小(或组间离差平方和最大)的分组即为最合理的分组. 数据分组 1. 为减轻计算量,本节只讨论分为两组的情况. 2. 由小到大进行数据排序才能保证分组方案有效. 3. 若有n个数据,则有(n-1)种分组方法. 4. 其他的分组方法还有等距分组、等频分组等. 5. 建议用excel 等电脑软件进行复杂计算. 情境引入 新知探究 典例精析 本课总结 当堂练习 某小组4名同学的身高(单位:cm)为140,145,155,160. (1)计算这组数据的平均数. (2)计算分组 和 的组内离差平方和. 解:(1) . (2)数据140,145的平均数为 , 数据155,160的平均数为 , 故组内离差平方和为 . 情境引入 新知探究 典例精析 本课总结 当堂练习 城市 平均高温/℃ 北京 3 石家庄 3 呼和浩特 -3 哈尔滨 -11 上海 10 广州 21 海口 22 成都 12 贵阳 9 昆明 17 解:将表中的数据按从小到大排列:可得 -11 -3 3 3 9 10 12 17 21 22 10个城市某月的每日最高温度的平均数(简称平均高温)如表所示. 根据平均高温的组内离差平方和最小的原则:把这10个城市分为两组. 将它们分成两组共有9种情况,利用计算器或信息技术工具,分别计算组内离差平方和(结果保留小数点后一位),如表所示: 情境引入 新知探究 典例精析 本课总结 当堂练习 分组 第1个间隔 第2个间隔 第3个间隔 第4个间隔 第5个间隔 第6个间隔 第7个间隔 第8个间隔 第9个间隔 第一组离差平方和 0 32 98.7 132 228.8 308.8 397.4 562 789.6 第二组离差平方和 584.2 380.9 285.7 158.8 113.2 62 14 0.5 0 第三组离差平方和 584.2 412.9 384.4 290.8 342 370.8 411.4 562.5 789.6 观察最后一列组内离差平方和可以发现,当按第4个间隔分组时,组内离差平方和最小.因此,按组内离差平方和最小的分法为 {北京,石家庄,呼和浩特,哈尔滨}和{上海,广州,海口,成都,贵阳,昆明}. 情境引入 新知探究 典例精析 本课总结 当堂练习 某农场种植6块试验田,亩产量(单位:kg)如下:300,320,350,400,450,500.若将试验田分为两组,使组内离差平方和最小,如何分组?请说明分组意义. 解:将数据分成两组,共有5种情况,分别计算组内离差平方和(精确到0.01),如下表所示:由表可知,要使组内离差平方和最小,应为300,320,350一组,400,450,500一组. 意义:分组后组内产量波动小,便于分析不同种植方案的效果. 分组 第1个间隔 第2个间隔 第3个间隔 第4个间隔 第5个间隔 第一组离差平方和 0 200 1266.67 5675 14920 第二组离差平方和 21320 12500 5000 1250 0 第三组离差平方和 21320 12700 6266.67 6925 14920 情境引入 新知探究 典例精析 本课总结 当堂练习 某年6个家庭的年用水量如下表所示: (1)若分为两组,使组内离差平方和最小,如何分组?(2)说明分组的实际意义. (1)解:将表中的数据按从小到大排列为75,78,90,105,110,115.分成两组,共5种情况,分别计算组内离差平方和如表所示: 家庭 年用水量/t A 105 B 78 C 75 D 115 E 90 F 110 情境引入 新知探究 典例精析 本课总结 当堂练习 (1)由表可知,当分组为{75,78,90}和{105,110,115}时,组内离差平方和最小. (2)解:将年用水量较低的部分家庭和较高的部分家庭分开,组内数据波动变小, 便于分析不同家庭年用水量的稳定性. 分组 {75}和{78,90,105,110,115} {75,78}和{90,105,110,115} {75,78,90}和{105,110,115} {75,78,90,105}和{110,115} {75,78,90,105,110}和{115} 第一组离差平方和 0 4.5 126 558 981.2 第二组离差平方和 933.2 350 50 12.5 0 组内离差平方和 933.2 354.5 176 570.5 981.2 情境引入 新知探究 典例精析 本课总结 当堂练习 某公司5名员工的季度绩效分数为75,80,85,90,95.人力资源部门想将员工分为“普通组”和“优秀组”,要求组内绩效同质性高(组内离差平方和最小),如何分组?计算最小离差平方和. 分组 第一组离差平方和 0 12.5 50 125 第二组离差平方和 125 50 12.5 0 组内离差平方和 125 62.5 62.5 125 解:将数据75,80,85,90,95分成两组,共有4种情况, 由表可知,当75,80一组,85,90,95一组或75,80,85一组,90,95一组时,组内离差平方和最小,最小值为62.5. 情境引入 新知探究 典例精析 本课总结 当堂练习 解:将这5个数据从小到大排序:65,69,70,80,81. 计算组内离差平方和(保留一位小数): 5个苹果的直径(单位:mm)分别为65,69,81,80,70,按照“组内离差平方和最小”的原则,把这5个苹果按直径大小分成三组. 情境引入 新知探究 典例精析 本课总结 当堂练习 分组情况 第一组1个,第二组1个,第三组3个 第一组1个,第二组2个,第三组2个 第一组1个,第二组3个,第三组1个 第一组2个,第二组1个,第三组2个 第一组2个,第二组2个,第三组1个 第一组3个,第二组1个,第三组1个 组内离差平方和 74.0 1.0 74.0 8.5 58.0 14.0 第2种情况的组内离差平方和最小,因此把这5个苹果按直径大小分成三组是{65},{69,70}和{80,81}. 情境引入 新知探究 典例精析 本课总结 当堂练习 分组的原则 分组的步骤 计算 选择 数据的分组 排序 离差平方和 d2=d21+d22+m(1-)2+(n-m)(2-)2. 情境引入 新知探究 典例精析 本课总结 当堂练习 练习 详解 在分组时要求“组内离差平方和最小”,其目的是( ) A.使每组数据量相等 B.保证组间均值相等 C.减少计算复杂度 D.使每组组内数据差异尽可能小,组间数据差异尽可能大 解:∵离差平方和用于衡量数据间的差异程度, ∴组内离差平方和最小,代表每组组内数据的差异尽可能小, 又∵总离差平方和固定时,组内离差平方和越小,组间离差平方和越大,即组间数据差异尽可能大, ∴该要求的目的是使每组组内数据差异尽可能小,组间数据差异尽可能大. 故选:D. 情境引入 新知探究 典例精析 本课总结 当堂练习 练习 详解 关于“组内离差平方和最小”原则,下列说法正确的是( ) A.只需让某一组的离差平方和最小即可 B.是所有组的组内离差平方和之和最小 C.分组后每组数据必须完全相同 D.与数据的集中程度无关 解:A、组内离差平方和最小是指所有组的离差平方和之和最小,并非某一组的离差平方和最小,A 错误,不符合题意; B、组内离差平方和最小的定义就是所有组的组内离差平方和之和最小,B正确; C、分组无需每组数据完全相同,只需组内离差平方和之和最小即可,C错误; D、离差平方和反映数据的集中程度,该原则与数据集中程度有关,D错误,不符合题意. 故选:B. 情境引入 新知探究 典例精析 本课总结 当堂练习 练习 详解 学校种植园中有4盆相同品种的植物,需要按植物的株高分成两组进行培养,使得同组内植物株高尽量接近,将4盆植物的株高从小到大排序后分成两组,共有3种情况,计算它们的组内离差平方和结果如下表所示,则4盆植物的最优分组序号是___________. 序号 ① ② ③ 分组情况 第一组1个,第二组3个 第一组2个,第二组2个 第一组3个,第二组1个 组内离差平方和 44 28 16.67 解:由题意可知,要使同组内植物株高尽量接近,需选择组内离差平方和最小的分组.比较表格中三组的组内离差平方和,得 , 因此序号③的组内离差平方和最小,为最优分组. 情境引入 新知探究 典例精析 本课总结 当堂练习 练习 详解 某班级5名学生的成绩为60,70,78,90,100.若将其分为两组,如何分组可使组内离差平方和最小?请写出分法并计算最小值(结果保留小数点后两位). 解:将数据分成两组,为使组内离差平方和最小,只需考虑将数据按从小到大排序后,划分成连续两组的情况,共有4种,分别计算组内离差平方和如表所示: 分组 {60}和{70,78,90,100} {60,70}和{78,90,100} {60,70,78}和{90,100} {60,70,78,90}和{100} 第一组离差平方和 0 50 162.67 483 第二组离差平方和 523 242.67 50 0 组内离差平方和 523 292.67 212.67 483 由表可知,当按第3种分组时,组内离差平方和最小,最小值为212.67.分法为 {60,70,78}和{90,100}. 情境引入 新知探究 典例精析 本课总结 当堂练习 练习 详解 某工厂生产一批零件,随机抽取6个零件的直径(单位:mm)为10.2,10.3,10.5,10.8,11.0,11.2.质检部门想将零件分为“合格组”和“待复检组”,要求组内直径波动最小,如何分组?计算最小组内离差平方和(结果保留小数点后两位). 分组 第1个间隔 第2个间隔 第3个间隔 第4个间隔 第5个间隔 第一组离差平方和 0.00 0.01 0.05 0.21 0.45 第二组离差平方和 0.53 0.27 0.08 0.02 0.00 组内离差平方和 0.53 0.28 0.13 0.23 0.45 由表可知,当按第3个间隔分组时,组内离差平方和最小为0.13,即分组为 和 ,第一组为“合格组”,第二组为“待复检组”.