专题04 数据分析(期末复习讲义)八年级数学下学期新教材湘教版

2026-06-05
| 2份
| 52页
| 62人阅读
| 1人下载
精品

资源信息

学段 初中
学科 数学
教材版本 初中数学湘教版八年级下册
年级 八年级
章节 小结与评价
类型 教案-讲义
知识点 数据分析
使用场景 同步教学-期末
学年 2026-2027
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 1.36 MB
发布时间 2026-06-05
更新时间 2026-06-05
作者 HYZ10
品牌系列 上好课·考点大串讲
审核时间 2026-06-05
下载链接 https://m.zxxk.com/soft/58220219.html
价格 3.00储值(1储值=1元)
来源 学科网

内容正文:

专题04 数据分析(期末复习讲义) 内 容 导 航 明·期中考情 把握命题趋势,明确备考路径 记·必备知识 梳理核心脉络,扫除知识盲区 破·重难题型 题型分类突破,方法技巧精讲 题型01 统计量的综合计算与应用 题型02 利用统计量分析数据特征 题型03 频数分布与直方图 题型04 数据分组与离差平方和 题型05 四分位数与箱线图 过·分层验收 阶梯实战演练,验收复习成效 核心考点 复习目标 考情规律 平均数的定义与计算 掌握平均数的计算公式,能准确计算一组数据的平均数。 选择题、填空题基础题,偶尔结合加权平均数考查,难度低。 加权平均数的计算与应用 理解权重的意义,能根据权重计算加权平均数,解决实际问题。 解答题高频考点,常结合调查数据出题,难度中等。 中位数的定义与求解 掌握中位数的求解步骤(先排序),能对一组数据排序后确定中位数。 选择题、填空题必考,易因未排序直接求解而出错,难度低。 众数的定义与识别 能准确找出一组数据中的众数,理解众数的统计意义。 选择题、填空题高频考查,难度低。 方差的定义、计算与意义 掌握方差的计算公式,能计算方差并根据方差判断数据的稳定性。 解答题核心考点,计算步骤多易出错,是区分度较高的考点,难度中等。 频数与频率 理解频数与频率的概念,掌握频数分布表的制作,能利用频率估计概率。 常以频数分布直方图或统计表形式出现在解答题中,考查读图能力和计算能力,难度中等。 用统计量分析数据的集中趋势与离散程度 能根据实际问题选择合适的统计量(平均数、中位数、众数、方差)分析数据。 解答题综合题型,常结合实际调查情境考查,难度中等。 知识点01 平均数、中位数、众数 将一组数据的和除以这组数据的总个数,得到的数值叫作这组数据的算术平均数,简称平均数. 求一组数据的平均数时,可用不同的数据乘它们的权数再相加,这样求得的平均数称为加权平均数. 把一组数据按从小到大的顺序排列,那么位于中间位置的数(如果数据的个数是奇数),或者中间位置两个数的平均数(如果数据的个数是偶数),称为这组数据的中位数. 在一组数据中,出现次数最多的数叫作这组数据的众数. 示例: 某小组7名同学的体重(单位:kg)分别为:40,43,43,45,47,50,52。求这组数据的平均数、中位数与众数。 解析: 平均数 = 。 中位数:数据已排序,第4个数是45,故中位数为45。 众数:43出现了2次,其他数只出现1次,故众数是43。 易错点: 1.中位数未排序:求中位数前必须先将数据从小到大排序,否则结果一定错误。 2.众数的“多”与“无”:众数是出现次数最多的数,不是次数本身;如果所有数据出现次数相同,则这组数据没有众数。 3.加权平均数的权重:计算加权平均数时,分母应为所有权重之和(如人数、频数之和),而不仅仅是数据的个数。 知识点02 方差 设一组数据为,各个数据与平均数之差的平方的平均值,称为这组数据的方差,记作,即 一组数据的方差越小,表明这组数据的离散程度越小,这组数据也就越稳定. 示例: 题目:已知两组数据,甲组:1, 2, 3;乙组:0, 2, 4。比较两组数据的稳定性。 解析: 两组数据的平均数均为2。 甲组方差: 。 乙组方差: 。 结论: ,故甲组数据更稳定。 易错点: 1.公式记错:方差是“平方的平均数”,不要漏掉平方步骤,也不要忘记最后除以n。 2.平均数算错:方差计算依赖于平均数,平均数计算错误会导致整个方差结果错误。 3.概念混淆:方差越小代表数据越集中、稳定;方差越大代表数据波动越大。 知识点03 数据分类 一般地,设一组数据为,它的平均数是x,离差平方和为.如果把这组数据分为两组,前m个数据为第一组,后(n-m)个数据为第二组,第一组的平均数记作,第二组的平均数记作,则 ,其中为组内离差平方和反映了_两个组内数据的离散程度,S2为_组间离差平方和,反映了两组数据之间的差异程度. 离差平方和,即一组数据的离差平方和等于组内离差平方和加上组间离差平方和. 在大数据分析中,数据的_分组_是重要的方法之一,虽然可以有多种方法对数据进行分组,但是使得“组内离差平方和最小”的方法是最传统的,也是非常合理的. 示例: 题目:假设有一组数据分为两组,第一组数据为1, 2,第二组数据为4, 5。请简述如何计算组内离差平方和。 解析: •第一组平均数为1.5,组内离差平方和为 1−1.52+2−1.52=0.5。 •第二组平均数为4.5,组内离差平方和为 4−4.52+5−4.52=0.5。 •总组内离差平方和 S组内2=0.5+0.5=1。 易错点: 1.混淆概念:注意区分组内离差平方和(反映组内数据的离散程度)与组间离差平方和(反映两组数据之间的差异程度)。 2.公式套用错误:在推导或计算 S组间2 时,容易漏掉权重 m 或 n−m,即公式中的 mx1−x2 部分。 3.理解偏差:分组的原则是使得**“组内离差平方和最小”**,这意味着组内的数据尽可能相似。 知识点04 四分位数与箱线图 一般地,设一组数据的个数为n,把这组数据从小到大排列: (1)小于或等于中位数的数据个数与n的比值大于或等于50%,大于或等于中位数的数据个数与n的比值大于或等于50%,于是把中位数叫作第50百分位数,记作由于50%=,因此也叫作第二四分位数. (2)如果有一个数满足“小于或等于这个数的数据个数与n的比值大于或等于25%,大于或等于这个数的数据个数与n的比值大于或等于75%”,那么称这个数是第25百分位数,记作由于25%=,因此也叫作第一四分位数. (3)如果有一个数满足:小于或等于这个数的数据个数与n的比值大于或等于75%,大于或等于这个数的数据个数与n的比值大于或等于25%,那么称这个数是第75百分位数,记作.由于75%=,因此也叫作第三四分位数. 示例: 题目:数据集为 3, 6, 7, 8, 8, 10, 13, 15, 16, 20(共10个数)。求 Q1 和 Q3。 解析: •Q_2 (中位数):第5个和第6个数的平均值 = 8+10/2=9。 •Q_1:看前半部分数据 (3, 6, 7, 8, 8),中位数是 7。 •Q_3:看后半部分数据 (10, 13, 15, 16, 20),中位数是 15。 易错点: 1.包含中位数:计算 Q1 和 Q3 时,通常不包含中位数本身(尤其是数据个数为奇数时),要分清是取中位数左边还是右边的数据。 2.排序忽略:求任何分位数的前提都是数据必须从小到大排序。 3.位置计算:不同教材对四分位数位置的计算方法略有不同(如Excel算法与手算算法),考试通常采用“分段取中位数”的简便方法。 知识点05 数据的频数分布 一般地,如果重复进行n次试验,某个试验结果出现的次数m称为这个试验结果在这n次试验中出现的频数,而频数与试验总次数的比值称为这个试验结果在这n次试验中出现的频率. 示例: 题目:抛掷一枚硬币50次,其中“正面朝上”出现了28次。求“正面朝上”的频数和频率。 解析: 频数 = 28。 频率 = (或 56%)。 易错点: 概念混淆:频数是“次数”(整数),频率是“比值”(小数或百分数)。问频率时不要只写频数。 频率估计概率:频率是通过试验得出的,概率是理论值。只有在大量重复试验下,频率才会稳定在某个常数(概率)附近。 总次数算错:计算频率时,分母是所有频数的总和,如果题目给出多组数据,不要漏加总数。 题型一 统计量的综合计算与应用 解|题|技|巧 排序先行:求中位数前,务必先把数据从小到大排列。 审清题目:注意题目问的是“众数”(那个数)还是“众数的频数”(次数)。 方差步骤:计算方差时,建议分步进行:先算平均数 再算每个数据与平均数的差 平方 求和 除以个数。 【典例1】(2026·河北邯郸·二模)4月23日是世界读书日,某校为了解本校学生阅读情况,随机调查了一部分学生最近一周的阅读课外书的情况(次数),并进行了统计,根据调查结果制作了如下的统计图.设抽取的学生中,一周内读课外书3次的学生数有人,下列说法正确的是(    ) A.这组数据的平均数是3 B.这组数据的平均数与无关 C.当时,这组数据的众数为10 D.当时,这组数据的中位数为2 【变式1】(2026·黑龙江双鸭山·二模)一组数据的中位数与平均数相同,则的值为(   ). A. B. C.或 D.或 【变式2】(2026·山东烟台·一模)嘉嘉参加五次共青团知识测试的成绩如图所示.现再测试一次,则六次测试成绩的众数为7分,则六次测试成绩的中位数是(   ) A.7分 B.7.5分 C.8分 D.10分 【变式3】(2026·四川南充·二模)某校学生体育素质总评成绩由平时、期中、期末成绩按权重比组成,若小王平时得90分,期中得80分,他想期末总评不低于85分,则小王期末成绩不低于(    ) A.87分 B.86分 C.85分 D.84分 题型二 利用统计量分析数据特征 解|题|技|巧 看平均水平:比较平均数或中位数,判断谁的整体水平高。 看稳定性:比较方差,方差小的说明数据更集中、更稳定(发挥更出色)。 实际意义:在选拔选手时,通常既要水平高(平均数大),又要发挥稳(方差小)。 【典例1】(2026·浙江丽水·二模)已知一组数据23,34,34,46,5★,58,第五个两位数的个位数字被墨水涂污.关于这组数据,下列统计量的结果与被涂污的数字无关的是(     ) A.平均数 B.中位数 C.众数 D.方差 【变式1】(24-25八年级下·浙江杭州·阶段检测)一鞋店试销一款女鞋,老板想了解哪些尺码的鞋最畅销,则下列关于尺码的统计量中最有参考意义的是(   ) A.平均数 B.中位数 C.众数 D.极差(最大值与最小值的差) 【变式2】(2026·福建莆田·模拟预测)某校举办“青春励志”主题演讲比赛,规定每位选手演讲时长不超过5分钟.初赛结束后,随机抽取5名选手,统计编号为号选手的实际演讲时长(单位:分钟)如图所示.为了更全面评估选手水平,组委会决定再抽取2名选手的成绩纳入统计.若7名选手演讲时长的中位数与原来5名选手演讲时长的中位数相等,则新增的2名选手演讲时长可能是(    ) A.分钟,分钟 B.分钟,分钟 C.分钟,分钟 D.分钟,分钟 【变式3】(2025·山西晋中·一模)某校“创客作品展示活动”采用民主投票的方式进行评选,即该校每位同学从名候选人中选择名进行无记名投票,进而从中选出获胜者.根据投票结果判断最终获胜者所需要考虑的统计量是(   ) A.平均数 B.中位数 C.众数 D.方差 【变式4】(2025·广东广州·模拟预测)“凤凰单枞”以独特的山韵和花香深受广东人喜爱.在我国传统节日春节前后,某茶叶经销商对甲、乙、丙、丁四种包装的单枞售价、利润均相同在这段时间内的销售情况统计如表所示,最终决定增加乙种包装单枞的进货数量,影响经销商决策的统计量是( ) 包装 甲 乙 丙 丁 销售量(盒) 15 28 16 10 A.众数 B.平均数 C.中位数 D.方差 【变式5】(2026·江苏徐州·二模)跳绳是体育中考选考科目之一.某校七年级甲、乙、丙、丁四名同学参加1分钟跳绳测试,每人10次跳绳成绩的平均数(单位:个)及方差(单位:个2)如表所示: 甲 乙 丙 丁 平均数 206 217 208 217 方差 4.6 4.6 6.9 9.6 根据表中数据,要从中选择一名成绩好且发挥稳定的同学参加比赛,应选择(   ) A.甲 B.乙 C.丙 D.丁 题型三 频数分布与直方图 解|题|技|巧 利用总和:如果总数未知,可以通过已知组的频数和频率反推总数。 频率之和:记住所有组的频率加起来一定是 1(或 100%)。 读图仔细:看清楚直方图的横轴和纵轴分别代表什么(是频数还是频率)。 【典例1】(2026·安徽合肥·三模)安徽合肥“人造太阳”()实验装置的科研团队,为优化实验观测系统的操作便捷性,邀请75名不同领域的科研人员对系统操作界面进行“操作复杂度评分”(评分为整数,单位:分,分数越低表示操作越便捷),并将评分按以下六组整理,同时统计了各组对应的“操作耗时”(单位:分钟),部分信息如下: 组别 A B C D E F 分组 (复杂度评分) 人数 8 15 22 10 6 该组平均操作耗时 (分钟) 3 5 7 10 14 18 请根据以上信息,完成下列问题: (1)求的值; (2)若以“复杂度评分的中位数对应的组”来代表整体操作复杂度水平,判断该中位数落在哪个组; (3)科研团队规定:若“平均操作耗时”不超过9分钟,则认定界面“操作高效”.请结合各组人数与对应平均耗时,计算这75名科研人员的平均操作耗时,并判断该界面是否达到“操作高效”标准. 【变式1】(2026·吉林长春·模拟预测)为了解七年级男生排球垫球成绩和掷实心球成绩的情况,现从七年级全体男生中随机抽取了50名男生进行这两项运动的测试,对数据整理后给出了下面部分信息. 信息一:排球垫球成绩分为6组,做成如下不完整的统计图.其中:A组,B组,C组,D组,E组,F组,(x表示垫球数). 信息二:掷实心球成绩的人数(频数)分布表:(y表示掷实心球的距离,单位:米) 分组 人数 2 b 16 20 4 a 若排球垫球成绩F组的男生有m人,回答下列问题: (1)______; (2)下列结论不正确的是______(填序号); ①在排球垫球成绩中,这50名男生的垫球数的众数一定在C组内; ②在排球垫球成绩中,这50名男生的垫球平均数可以这样计算:; ③在排球垫球成绩中,这50名男生的垫球数的中位数是在C组内; (3)若掷实心球测试中有不少于m人的成绩大于或等于米,且,求a的值. 【变式2】(2026·河南周口·二模)为保障学生每天体育活动时间不低于1小时,学校计划增加大课间时长.数学活动小组为了研究学生每周锻炼时长(单位:小时)与体质健康测试成绩(满分分)的关系,随机抽取了部分学生,测量他们的每周锻炼时长和体质健康成绩,得到信息如下: 体质成绩频数表 表1 体质成绩(分) 频数(人) 频率 4 0.08 8 0.16 18 14 0.28 6 0.12 每周锻炼时长和体质成绩的统计量 表2 锻炼时长(小时) 体质成绩(分) 平均数 5.2 中位数 5.0 80 方差 6.8 152.6 (1)补全统计图1;表1中_____; (2)求学生体质健康成绩的平均数; (3)根据上述统计数据,请为学校是否应当延长大课间活动时间提供你的建议,并说明理由. 【变式3】(2026·山东临沂·二模)学校为了加强学生的安全意识,召开了一次法制报告会,张老师为了了解9(1)和9(2)两个班级对这次会议内容的知识掌握情况,出了5道题进行调查.两班级的人数相等.统计每人做对的题目,制作了频数分布表. 正确题目数(个) 1 2 3 4 5 9(1)班频数(人) 7 a 10 12 6 9(2)班频数(人) 2 b 21 13 4 (1)求出扇形统计图中圆心角的度数,并补全频数直方图. (2)根据频数分布表分别计算有关统计量: 统计量 中位数 众数 平均数 方差 9(1)班 3 2 9(2)班 m n 请填写表格中的   ,   ,并求出的值. (3)从中位数、众数、方差中任选两个统计量,对9(1)和9(2)两班学生的学习情况进行比较,并做出评价. 题型四 数据分组与离差平方和 解|题|技|巧 核心公式: 总离差平方和 = 组内离差平方和 + 组间离差平方和。 组内离差平方和:反映了组内数据的离散程度(即组内差异)。 组间离差平方和:反映了两组数据之间的差异程度。 思想:数据分组的原则通常是使得“组内离差平方和最小”,这意味着组内的数据尽可能相似。 【典例1】(25-26八年级下·全国·课后作业)数据7,9,11,13,15按组内离差平方和最小原则分两组(一组2个、一组3个),正确分组是(    ) A.{7,9}与{11,13,15} B.{7,11}与{9,13,15} C.{7,15}与{9,11,13} D.{11,15}与{7,9,13} 【变式1】(25-26八年级上·山东青岛·期末)学校举行秋季运动会,仪仗方队一组6名队员的身高(单位:)分别是:174,178,176,179,174,175,当一名身高为的队员下场休息,现在5名队员身高的平均数和离差平方和与原6名队员相比(    ) A.平均数变大,离差平方和变小 B.平均数不变,离差平方和不变 C.平均数不变,离差平方和变大 D.平均数变小,离差平方和变大 【变式2】(25-26八年级下·浙江温州·期中)如图,老师绘制了一次数学小测验中甲、乙、丙三个班级学生得分的箱线图,根据该图判断下列说法错误的是(  ) A.三个班级中,甲班分数的方差最小 B.三个班级中,乙班的最高分与最低分相差最大 C.丙班得分低于80分的人数多于得分高于80分的学生人数 D.若每班有42名学生,则这三个班级的第11名中,丙班的分数最高 【变式3】(2026八年级下·浙江·专题练习)有6个水蜜桃测出了他们的值(糖度值,值越大越甜)如下:16、17、18、18、18、19;以下是计算各种情况的组内离差平方和表(精确到): 组序 分组情况 组内离差平方和 第1组 第2组 1 16 17、18、18、18、19 2 16、17 18、18、18、19 3 16、17、18 18、18、19 4 16、17、18、18 18、19 5 16、17、18、18、18 19 (1)将表格补充完整 (2)如果要将这组水蜜桃分为“优品”和“精品”,应该如何分,为什么? 【变式4】(25-26八年级下·全国·课后作业)苹果作为一种广受欢迎的水果,不仅因其鲜甜多汁的口感而备受喜爱,更因其丰富的营养价值而备受推崇.按照组内离差平方和达到最小的方法,把图中的10个苹果按直径大小分成两组.(计算过程结果保留整数) 题型五 四分位数与箱线图 解|题|技|巧 排序:数据必须从小到大排列。 找中位数 ( ):先确定中间位置。 找 和 : 是“下半部分数据”的中位数。 是“上半部分数据”的中位数。 注意:计算 和 时,通常不包含中位数本身(特别是数据个数为奇数时),要分清是取中位数左边还是右边的数据。 【典例1】(25-26八年级下·北京西城·期中)某班甲、乙两组的某次演讲比赛成绩(百分制)如下. 甲组91,96,70,89,60,70,100,80,92,98; 乙组92,93,70,88,82,75,y,80,x,95.(,且x,y为正整数) 某同学计算了两组演讲比赛成绩的四分位数,如表所示. 分组 第一四分位数 第二四分位数 第三四分位数 甲 a m b 乙 80 90 93 (1)根据甲组数据,求a,m,b. (2)在图中根据四分位数绘制出甲组比赛成绩的箱线图,观察图中乙组比赛成绩的箱线图求x,y. (3)根据箱线图谈谈对甲、乙两组成绩的看法 【变式1】(25-26八年级下·全国·单元复习)下表给出了2020年各月杭州的平均相对湿度(): 2020年各月杭州的平均相对湿度 单位: 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 平均相 对湿度 81 73 72 60 72 85 85 64 74 70 73 69 (1)请将最小值、下四分位数、中位数、上四分位数和最大值标记在如图所示的箱线图中. (2)杭州2020年有几个月的平均相对湿度小于下四分位数?分别是哪几个月? (3)平均相对湿度介于60%和69.5%之间的月份是否比介于69.5%和72.5%之间的多? 【变式2】(25-26八年级下·全国·课后作业)拉萨地处青藏高原,日照时间很长.下表给出了2020年各月拉萨的日照时数(单位:): 2020年各月拉萨的日照时数,单位:; 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 日照时数 268.8 279.4 317.2 310.9 318.9 306.4 265.6 323.0 301.0 316.8 275.5 261.2 (1)请将最小值、下四分位数、中位数、上四分位数和最大值标记在如图所示的箱线图中. (2)拉萨2020年有几个月的日照时数大于上四分位数?分别是哪几个月? (3)图中箱体的下半部分比较大,上半部分比较小,这是否意味着日照时数介于和之间的月份要多于介于和之间的月份? 期中基础通关练(测试时间:10分钟) 1.(2026·四川成都·二模)某校新增了一门选修课程.为了解学生对这门课程的满意度,学校在选课学生中随机抽取了名学生,记录他们对所选课程的满意度评分(满分10分,分值为整数),并对数据进行了整理,如图为学生对课程满意度评分的折线统计图,则课程满意度评分的众数是(     ) A. B. C. D. 2.(2026·河南信阳·模拟预测)现有甲、乙、丙、丁四个队参加某种比赛,各队人数相同,平均身高也相同,他们身高的方差分别为,,,,则这四个队中,身高最整齐的是(     ) A.甲队 B.乙队 C.丙队 D.丁队 3.(25-26八年级下·浙江金华·阶段检测)学校种植园中有4盆相同品种的植物,需要按植物的株高分成两组进行培养,使得同组内植物株高尽量接近,将4盆植物的株高从小到大排序后分成两组,共有3种情况,计算它们的组内离差平方和结果如下表所示,则4盆植物的最优分组序号是___________. 序号 分组情况 组内离差平方和 ① 第一组1个,第二组3个 44 ② 第一组2个,第二组2个 28 ③ 第一组3个,第二组1个 16.67 4.(25-26八年级下·浙江金华·期中)甲、乙、丙、丁四支排球队队员身高情况箱线图如图所示,身高最集中的是___队. 5.为了调查钟楼区居民区的白天噪声污染情况,环保部门抽样调查了40个噪声测量点的噪声声强级,结果如下(每组包含起点值,不包含终点值): (1)在噪声最低的测量点,其噪声声强级在哪个范围? (2)噪声声强级高于的测量点有多少个? 期中重难突破练(测试时间:10分钟) 1.八年级某班组织了一场一分钟跳绳比赛,参赛学生被分成了甲、乙两组,如图是甲、乙两组学生一分钟跳绳次数的箱线图,下列说法错误的是(     ) A.甲组跳绳次数的波动比乙组大 B.乙组跳绳次数的中位数比甲组小 C.甲组跳绳次数的下四分位数大于180 D.乙组跳绳次数的最大值大于190 2.(2026·安徽淮北·模拟预测)某校九年级(1)班全体学生在2026年初中毕业模拟体育考试的成绩统计如下表: 成绩(分) 40 48 52 54 55 58 60 人数(人) 2 5 6 6 8 6 7 根据上表中的信息判断,下列结论中错误的是(     ) A.该班一共有40名同学 B.该班学生这次考试成绩的众数是55分 C.该班学生这次考试成绩的中位数是55分 D.该班学生这次考试成绩的平均数是55分 3.(2026·上海虹口·三模)某校在科技节主题讲座的筹备过程中,随机抽样了100位学生关于元宇宙、脑机接口和人形机器人三种主题的兴趣偏好,有10位同学表示都没有兴趣,在剩余作出选择的90位同学中,调查情况如图所示,那么全校1500名学生中,对于脑机接口有兴趣的人数约有__________人. 4.(2026·山西临汾·模拟预测)如图,是30名初三女学生1分钟内仰卧起坐次数的频数分布直方图(每组次数只含最小值而不含最大值),则仰卧起坐次数在次的频率是_____________. 5.某班45名学生的体重记录如下:(单位:kg) 48,48,42,50,61,44,43,51,46,46,51,46,50,45,52,54,51,57,55,48, 49,48,53,48,56,55,57,42,54,49,47,60,51,51,44,41,49,53,52,49, 61,58,52,54,50. 请用简单随机抽样方法,分别选取含有6名学生体重的两个样本、含有15名学生体重的两个样本以及含有30名学生体重的两个样本,分别计算这六个样本中学生体重的平均数和方差,最后把它们与全班学生体重的平均数和方差作比较,你认为随机抽样方法可靠吗?样本容量较大时,由样本得到的估计值是否往往与总体的实际值更接近? 1 / 4 学科网(北京)股份有限公司 学科网(北京)股份有限公司 $ 专题04 数据分析(期末复习讲义) 内 容 导 航 明·期中考情 把握命题趋势,明确备考路径 记·必备知识 梳理核心脉络,扫除知识盲区 破·重难题型 题型分类突破,方法技巧精讲 题型01 统计量的综合计算与应用 题型02 利用统计量分析数据特征 题型03 频数分布与直方图 题型04 数据分组与离差平方和 题型05 四分位数与箱线图 过·分层验收 阶梯实战演练,验收复习成效 核心考点 复习目标 考情规律 平均数的定义与计算 掌握平均数的计算公式,能准确计算一组数据的平均数。 选择题、填空题基础题,偶尔结合加权平均数考查,难度低。 加权平均数的计算与应用 理解权重的意义,能根据权重计算加权平均数,解决实际问题。 解答题高频考点,常结合调查数据出题,难度中等。 中位数的定义与求解 掌握中位数的求解步骤(先排序),能对一组数据排序后确定中位数。 选择题、填空题必考,易因未排序直接求解而出错,难度低。 众数的定义与识别 能准确找出一组数据中的众数,理解众数的统计意义。 选择题、填空题高频考查,难度低。 方差的定义、计算与意义 掌握方差的计算公式,能计算方差并根据方差判断数据的稳定性。 解答题核心考点,计算步骤多易出错,是区分度较高的考点,难度中等。 频数与频率 理解频数与频率的概念,掌握频数分布表的制作,能利用频率估计概率。 常以频数分布直方图或统计表形式出现在解答题中,考查读图能力和计算能力,难度中等。 用统计量分析数据的集中趋势与离散程度 能根据实际问题选择合适的统计量(平均数、中位数、众数、方差)分析数据。 解答题综合题型,常结合实际调查情境考查,难度中等。 知识点01 平均数、中位数、众数 将一组数据的和除以这组数据的总个数,得到的数值叫作这组数据的算术平均数,简称平均数. 求一组数据的平均数时,可用不同的数据乘它们的权数再相加,这样求得的平均数称为加权平均数. 把一组数据按从小到大的顺序排列,那么位于中间位置的数(如果数据的个数是奇数),或者中间位置两个数的平均数(如果数据的个数是偶数),称为这组数据的中位数. 在一组数据中,出现次数最多的数叫作这组数据的众数. 示例: 某小组7名同学的体重(单位:kg)分别为:40,43,43,45,47,50,52。求这组数据的平均数、中位数与众数。 解析: 平均数 = 。 中位数:数据已排序,第4个数是45,故中位数为45。 众数:43出现了2次,其他数只出现1次,故众数是43。 易错点: 1.中位数未排序:求中位数前必须先将数据从小到大排序,否则结果一定错误。 2.众数的“多”与“无”:众数是出现次数最多的数,不是次数本身;如果所有数据出现次数相同,则这组数据没有众数。 3.加权平均数的权重:计算加权平均数时,分母应为所有权重之和(如人数、频数之和),而不仅仅是数据的个数。 知识点02 方差 设一组数据为,各个数据与平均数之差的平方的平均值,称为这组数据的方差,记作,即 一组数据的方差越小,表明这组数据的离散程度越小,这组数据也就越稳定. 示例: 题目:已知两组数据,甲组:1, 2, 3;乙组:0, 2, 4。比较两组数据的稳定性。 解析: 两组数据的平均数均为2。 甲组方差: 。 乙组方差: 。 结论: ,故甲组数据更稳定。 易错点: 1.公式记错:方差是“平方的平均数”,不要漏掉平方步骤,也不要忘记最后除以n。 2.平均数算错:方差计算依赖于平均数,平均数计算错误会导致整个方差结果错误。 3.概念混淆:方差越小代表数据越集中、稳定;方差越大代表数据波动越大。 知识点03 数据分类 一般地,设一组数据为,它的平均数是x,离差平方和为.如果把这组数据分为两组,前m个数据为第一组,后(n-m)个数据为第二组,第一组的平均数记作,第二组的平均数记作,则 ,其中为组内离差平方和反映了_两个组内数据的离散程度,S2为_组间离差平方和,反映了两组数据之间的差异程度. 离差平方和,即一组数据的离差平方和等于组内离差平方和加上组间离差平方和. 在大数据分析中,数据的_分组_是重要的方法之一,虽然可以有多种方法对数据进行分组,但是使得“组内离差平方和最小”的方法是最传统的,也是非常合理的. 示例: 题目:假设有一组数据分为两组,第一组数据为1, 2,第二组数据为4, 5。请简述如何计算组内离差平方和。 解析: •第一组平均数为1.5,组内离差平方和为 1−1.52+2−1.52=0.5。 •第二组平均数为4.5,组内离差平方和为 4−4.52+5−4.52=0.5。 •总组内离差平方和 S组内2=0.5+0.5=1。 易错点: 1.混淆概念:注意区分组内离差平方和(反映组内数据的离散程度)与组间离差平方和(反映两组数据之间的差异程度)。 2.公式套用错误:在推导或计算 S组间2 时,容易漏掉权重 m 或 n−m,即公式中的 mx1−x2 部分。 3.理解偏差:分组的原则是使得**“组内离差平方和最小”**,这意味着组内的数据尽可能相似。 知识点04 四分位数与箱线图 一般地,设一组数据的个数为n,把这组数据从小到大排列: (1)小于或等于中位数的数据个数与n的比值大于或等于50%,大于或等于中位数的数据个数与n的比值大于或等于50%,于是把中位数叫作第50百分位数,记作由于50%=,因此也叫作第二四分位数. (2)如果有一个数满足“小于或等于这个数的数据个数与n的比值大于或等于25%,大于或等于这个数的数据个数与n的比值大于或等于75%”,那么称这个数是第25百分位数,记作由于25%=,因此也叫作第一四分位数. (3)如果有一个数满足:小于或等于这个数的数据个数与n的比值大于或等于75%,大于或等于这个数的数据个数与n的比值大于或等于25%,那么称这个数是第75百分位数,记作.由于75%=,因此也叫作第三四分位数. 示例: 题目:数据集为 3, 6, 7, 8, 8, 10, 13, 15, 16, 20(共10个数)。求 Q1 和 Q3。 解析: •Q_2 (中位数):第5个和第6个数的平均值 = 8+10/2=9。 •Q_1:看前半部分数据 (3, 6, 7, 8, 8),中位数是 7。 •Q_3:看后半部分数据 (10, 13, 15, 16, 20),中位数是 15。 易错点: 1.包含中位数:计算 Q1 和 Q3 时,通常不包含中位数本身(尤其是数据个数为奇数时),要分清是取中位数左边还是右边的数据。 2.排序忽略:求任何分位数的前提都是数据必须从小到大排序。 3.位置计算:不同教材对四分位数位置的计算方法略有不同(如Excel算法与手算算法),考试通常采用“分段取中位数”的简便方法。 知识点05 数据的频数分布 一般地,如果重复进行n次试验,某个试验结果出现的次数m称为这个试验结果在这n次试验中出现的频数,而频数与试验总次数的比值称为这个试验结果在这n次试验中出现的频率. 示例: 题目:抛掷一枚硬币50次,其中“正面朝上”出现了28次。求“正面朝上”的频数和频率。 解析: 频数 = 28。 频率 = (或 56%)。 易错点: 概念混淆:频数是“次数”(整数),频率是“比值”(小数或百分数)。问频率时不要只写频数。 频率估计概率:频率是通过试验得出的,概率是理论值。只有在大量重复试验下,频率才会稳定在某个常数(概率)附近。 总次数算错:计算频率时,分母是所有频数的总和,如果题目给出多组数据,不要漏加总数。 题型一 统计量的综合计算与应用 解|题|技|巧 排序先行:求中位数前,务必先把数据从小到大排列。 审清题目:注意题目问的是“众数”(那个数)还是“众数的频数”(次数)。 方差步骤:计算方差时,建议分步进行:先算平均数 再算每个数据与平均数的差 平方 求和 除以个数。 【典例1】(2026·河北邯郸·二模)4月23日是世界读书日,某校为了解本校学生阅读情况,随机调查了一部分学生最近一周的阅读课外书的情况(次数),并进行了统计,根据调查结果制作了如下的统计图.设抽取的学生中,一周内读课外书3次的学生数有人,下列说法正确的是(    ) A.这组数据的平均数是3 B.这组数据的平均数与无关 C.当时,这组数据的众数为10 D.当时,这组数据的中位数为2 【答案】D 【分析】根据条形统计图读出各阅读次数对应的人数,计算总人数和总阅读次数,结合平均数、众数、中位数的定义逐一判断选项即可. 【详解】解:由图可知,阅读0次、1次、2次、4次、5次的人数分别为4、6、8、10、2人,阅读3次的人数为人, 总人数为, 总阅读次数为. 对于A、B,平均数,显然平均数与有关且不恒为3,故A、B错误; 对于C,当时,阅读4次的人数最多(10人),故众数为4,故C错误; 对于D,当时,总人数,则中位数应在第14-18人之中,,,则这组数据的中位数为2,故D正确. 【变式1】(2026·黑龙江双鸭山·二模)一组数据的中位数与平均数相同,则的值为(   ). A. B. C.或 D.或 【答案】C 【分析】本题考查中位数和平均数的计算,利用分类讨论的思想,根据这组数据的中位数与平均数相同,列出关于的一元一次方程,求解即可. 【详解】解:分三种情况进行讨论, ①当时,平均数,中位数, 可得:,解得:, ②当时,平均数,中位数, 可得:,解得:, ③当时,平均数,中位数, 可得:,解得:,(不合题意,舍去), ∴可取. 【变式2】(2026·山东烟台·一模)嘉嘉参加五次共青团知识测试的成绩如图所示.现再测试一次,则六次测试成绩的众数为7分,则六次测试成绩的中位数是(   ) A.7分 B.7.5分 C.8分 D.10分 【答案】B 【分析】先根据条形统计图得出前5次的成绩,再根据众数的定义确定第6次的成绩,最后根据中位数的定义计算即可. 【详解】解:由图可知,前5次测试成绩分别为8,10,7,8,7, ∵六次测试成绩的众数为7, ∴第6次测试成绩必须为7, 六次测试成绩从小到大排列为:7,7,7,8,8,10, 中位数为. 【变式3】(2026·四川南充·二模)某校学生体育素质总评成绩由平时、期中、期末成绩按权重比组成,若小王平时得90分,期中得80分,他想期末总评不低于85分,则小王期末成绩不低于(    ) A.87分 B.86分 C.85分 D.84分 【答案】B 【分析】根据给定权重比计算加权总评成绩,结合总评不低于85分的要求列不等式求解即可. 【详解】解:设小王期末成绩为x分,根据题意得: 解得: 小王期末成绩不低于86分. 题型二 利用统计量分析数据特征 解|题|技|巧 看平均水平:比较平均数或中位数,判断谁的整体水平高。 看稳定性:比较方差,方差小的说明数据更集中、更稳定(发挥更出色)。 实际意义:在选拔选手时,通常既要水平高(平均数大),又要发挥稳(方差小)。 【典例1】(2026·浙江丽水·二模)已知一组数据23,34,34,46,5★,58,第五个两位数的个位数字被墨水涂污.关于这组数据,下列统计量的结果与被涂污的数字无关的是(     ) A.平均数 B.中位数 C.众数 D.方差 【答案】B 【分析】根据平均数、中位数、众数、方差的定义,判断哪个结果不受涂污的个位数字的影响即可. 【详解】解:∵将这组数据从小到大排序,第五个数5★是十位为5的两位数, ∴无论个位数字是0到9中的哪个数,这个数一定大于46, ∴排序后前四个数一定为 ,第三个数和第四个数分别是34和46. ∵这组数据共有6个数,中位数为排序后第3个数和第4个数的平均数, ∴中位数为 ,与被涂污的数字无关,故B符合题意. A选项.平均数计算需要用到所有数据的和,和与涂污数字有关,因此平均数与涂污数字有关,不符合要求. C选项.若被涂污的数字为8,则这组数据有两个众数34和58,若被涂污的数字不为8,众数仅为34,因此众数与涂污数字有关,不符合要求. D选项.方差计算依赖平均数,平均数与涂污数字有关,因此方差与涂污数字有关,不符合要求. 【变式1】(24-25八年级下·浙江杭州·阶段检测)一鞋店试销一款女鞋,老板想了解哪些尺码的鞋最畅销,则下列关于尺码的统计量中最有参考意义的是(   ) A.平均数 B.中位数 C.众数 D.极差(最大值与最小值的差) 【答案】C 【分析】本题考查了平均数、中位数、众数和极差的统计意义.解题的关键是理解各统计量的含义,根据实际问题的需求选择合适的统计量. 分析各统计量的意义:平均数反映数据的平均水平;中位数反映数据的中间位置水平;众数是一组数据中出现次数最多的数据,能反映最集中的情况;极差反映数据的波动范围.老板想了解最畅销的鞋码,即出现次数最多的尺码,故应选择众数. 【详解】解:平均数是所有数据的平均水平,不能直接反映最畅销的尺码,选项A错误; 中位数是数据按大小排序后中间的数值,也无法体现最受欢迎的尺码,选项B错误; 众数是一组数据中出现次数最多的数值,能准确反映哪种尺码的鞋最畅销,选项C正确; 极差是最大值与最小值的差,反映的是数据的波动范围,与畅销尺码无关,选项D错误. 故选:C. 【变式2】(2026·福建莆田·模拟预测)某校举办“青春励志”主题演讲比赛,规定每位选手演讲时长不超过5分钟.初赛结束后,随机抽取5名选手,统计编号为号选手的实际演讲时长(单位:分钟)如图所示.为了更全面评估选手水平,组委会决定再抽取2名选手的成绩纳入统计.若7名选手演讲时长的中位数与原来5名选手演讲时长的中位数相等,则新增的2名选手演讲时长可能是(    ) A.分钟,分钟 B.分钟,分钟 C.分钟,分钟 D.分钟,分钟 【答案】A 【分析】本题主要考查中位数的定义及性质,首先根据散点图确定原来5名选手演讲时长的中位数范围,然后根据中位数不变的条件,逐个分析各选项. 【详解】解:由图可知,编号为3、4的选手演讲时长均在3.5分钟以下,其中编号2的点位于分钟虚线上,编号为1、5的选手演讲时长在3.5分钟以上,则原来5名选手演讲时长从小到大排列,第3个数(中位数)等于3.5分钟, 若7名选手演讲时长的中位数与原来5名选手演讲时长的中位数相等,即新中位数仍为, 选项A、,,则新增一个小于m的数和一个大于的数,中位数保持为,符合题意; 选项B、、,新增两个数都大于,中位数变大,不符合题意; 选项C、、,新增两个数都大于,中位数变大,不符合题意; 选项D、、,新增两个数都大于,中位数变大,不符合题意; 故选:A. 【变式3】(2025·山西晋中·一模)某校“创客作品展示活动”采用民主投票的方式进行评选,即该校每位同学从名候选人中选择名进行无记名投票,进而从中选出获胜者.根据投票结果判断最终获胜者所需要考虑的统计量是(   ) A.平均数 B.中位数 C.众数 D.方差 【答案】C 【分析】本题考查了统计量的选择,解答本题的关键是熟练掌握平均数、中位数、众数、方差的意义. 根据平均数、中位数、众数、方差的意义解答即可. 【详解】解:由题意知,最终获胜者所需要考虑的统计量是众数, 故选:C. 【变式4】(2025·广东广州·模拟预测)“凤凰单枞”以独特的山韵和花香深受广东人喜爱.在我国传统节日春节前后,某茶叶经销商对甲、乙、丙、丁四种包装的单枞售价、利润均相同在这段时间内的销售情况统计如表所示,最终决定增加乙种包装单枞的进货数量,影响经销商决策的统计量是( ) 包装 甲 乙 丙 丁 销售量(盒) 15 28 16 10 A.众数 B.平均数 C.中位数 D.方差 【答案】A 【分析】此题主要考查统计的有关知识,主要包括平均数、中位数、众数、方差的意义. 平均数、中位数、众数是描述一组数据集中程度的统计量;方差、标准差是描述一组数据离散程度的统计量.销量大的茶叶就是这组数据的众数. 【详解】解:由于众数是数据中出现次数最多的数,故影响该经销商决策的统计量是众数. 故选:A. 【变式5】(2026·江苏徐州·二模)跳绳是体育中考选考科目之一.某校七年级甲、乙、丙、丁四名同学参加1分钟跳绳测试,每人10次跳绳成绩的平均数(单位:个)及方差(单位:个2)如表所示: 甲 乙 丙 丁 平均数 206 217 208 217 方差 4.6 4.6 6.9 9.6 根据表中数据,要从中选择一名成绩好且发挥稳定的同学参加比赛,应选择(   ) A.甲 B.乙 C.丙 D.丁 【答案】B 【分析】本题考查平均数和方差的意义,平均数越大代表平均成绩越好,方差越小代表数据波动越小,发挥越稳定,先比较平均数选出成绩好的对象,再比较方差确定发挥稳定的对象即可. 【详解】解:∵乙和丁的平均数为,大于甲的和丙的, ∴乙和丁的平均成绩更好, 又∵乙的方差为,小于丁的方差, ∴乙的发挥比丁更稳定, ∴应选择乙参加比赛. 题型三 频数分布与直方图 解|题|技|巧 利用总和:如果总数未知,可以通过已知组的频数和频率反推总数。 频率之和:记住所有组的频率加起来一定是 1(或 100%)。 读图仔细:看清楚直方图的横轴和纵轴分别代表什么(是频数还是频率)。 【典例1】(2026·安徽合肥·三模)安徽合肥“人造太阳”()实验装置的科研团队,为优化实验观测系统的操作便捷性,邀请75名不同领域的科研人员对系统操作界面进行“操作复杂度评分”(评分为整数,单位:分,分数越低表示操作越便捷),并将评分按以下六组整理,同时统计了各组对应的“操作耗时”(单位:分钟),部分信息如下: 组别 A B C D E F 分组 (复杂度评分) 人数 8 15 22 10 6 该组平均操作耗时 (分钟) 3 5 7 10 14 18 请根据以上信息,完成下列问题: (1)求的值; (2)若以“复杂度评分的中位数对应的组”来代表整体操作复杂度水平,判断该中位数落在哪个组; (3)科研团队规定:若“平均操作耗时”不超过9分钟,则认定界面“操作高效”.请结合各组人数与对应平均耗时,计算这75名科研人员的平均操作耗时,并判断该界面是否达到“操作高效”标准. 【答案】(1) (2)中位数落在组(即组) (3)平均操作耗时约为分钟,该界面达到“操作高效”标准 【分析】(1)利用总人数等于各组人数之和,计算的值; (2)根据中位数的定义,确定75个数据的中位数是从小到大排列的第38个数据,通过累计频数判断中位数所在分组即可; (3)计算75人的平均操作耗时,与9分钟比较,判断是否符合“操作高效”标准. 【详解】(1)解:已知总人数为75,因此; (2)解:75个数据从小到大排列,中位数为第个数据, 累计各组人数:A组有8个,累计到B组共个,累计到C组共个,累计到D组共个, , 第38个数据落在D组,即中位数落在D组; (3)解:计算总操作耗时: (分钟), 平均操作耗时为(分钟), , 该界面达到“操作高效”标准. 【变式1】(2026·吉林长春·模拟预测)为了解七年级男生排球垫球成绩和掷实心球成绩的情况,现从七年级全体男生中随机抽取了50名男生进行这两项运动的测试,对数据整理后给出了下面部分信息. 信息一:排球垫球成绩分为6组,做成如下不完整的统计图.其中:A组,B组,C组,D组,E组,F组,(x表示垫球数). 信息二:掷实心球成绩的人数(频数)分布表:(y表示掷实心球的距离,单位:米) 分组 人数 2 b 16 20 4 a 若排球垫球成绩F组的男生有m人,回答下列问题: (1)______; (2)下列结论不正确的是______(填序号); ①在排球垫球成绩中,这50名男生的垫球数的众数一定在C组内; ②在排球垫球成绩中,这50名男生的垫球平均数可以这样计算:; ③在排球垫球成绩中,这50名男生的垫球数的中位数是在C组内; (3)若掷实心球测试中有不少于m人的成绩大于或等于米,且,求a的值. 【答案】(1) (2)①② (3) 【分析】(1)用总人数50人减去其余几组人数即可解答; (2)根据众数,中位数及平均数可进行求解; (3)根据(1)可知:,然后可得,进而问题可求解. 【详解】(1)解:; (2)解:由题意得:①在排球垫球成绩中,这 50 名男生的垫球数的众数不一定在C组内,虽然C组人数最多,但不能保证众数一定是这里面的,故原说法错误; ②在排球垫球成绩中,这 50 名男生的垫球平均数无法计算,因为不知道具体垫球的个数,故原说法错误; ③在排球垫球成绩中,这 50 名男生的垫球数的中位数是在C组内,所以原说法正确; 故不正确的是①②; (3)解:根据(1)可知:, 则有:, 解得:, 又 ∵, ,且a是整数, ∴的值是4. 【变式2】(2026·河南周口·二模)为保障学生每天体育活动时间不低于1小时,学校计划增加大课间时长.数学活动小组为了研究学生每周锻炼时长(单位:小时)与体质健康测试成绩(满分分)的关系,随机抽取了部分学生,测量他们的每周锻炼时长和体质健康成绩,得到信息如下: 体质成绩频数表 表1 体质成绩(分) 频数(人) 频率 4 0.08 8 0.16 18 14 0.28 6 0.12 每周锻炼时长和体质成绩的统计量 表2 锻炼时长(小时) 体质成绩(分) 平均数 5.2 中位数 5.0 80 方差 6.8 152.6 (1)补全统计图1;表1中_____; (2)求学生体质健康成绩的平均数; (3)根据上述统计数据,请为学校是否应当延长大课间活动时间提供你的建议,并说明理由. 【答案】(1)见解析; (2)分 (3)应延长大课间活动时间,理由见解析 【分析】(1)先求出调查的总人数,再计算锻炼时长在小时的人数,即可补全统计图;用频数除以总人数即可得到频率; (2)根据平均数的定义求解即可; (3)根据每周锻炼时长的平均数,中位数,散点图等进行决策. 【详解】(1)解:调查的总人数为(人), 锻炼时长在小时的人数为(人), 补全统计图如图所示; ; (2)解:体质成绩各组的组中值分别为、、、、, 学生体质健康成绩的平均数为(分); (3)解:应延长大课间活动时间, 理由:目前学生每周锻炼时长的平均数为小时,中位数为小时,未达到“学生每天体育活动时间不低于小时”的要求;体质成绩的平均数为分,仍有较大提升空间;从散点图可以看出,锻炼时间越长,体质成绩也较高.(合理即可) 【变式3】(2026·山东临沂·二模)学校为了加强学生的安全意识,召开了一次法制报告会,张老师为了了解9(1)和9(2)两个班级对这次会议内容的知识掌握情况,出了5道题进行调查.两班级的人数相等.统计每人做对的题目,制作了频数分布表. 正确题目数(个) 1 2 3 4 5 9(1)班频数(人) 7 a 10 12 6 9(2)班频数(人) 2 b 21 13 4 (1)求出扇形统计图中圆心角的度数,并补全频数直方图. (2)根据频数分布表分别计算有关统计量: 统计量 中位数 众数 平均数 方差 9(1)班 3 2 9(2)班 m n 请填写表格中的   ,   ,并求出的值. (3)从中位数、众数、方差中任选两个统计量,对9(1)和9(2)两班学生的学习情况进行比较,并做出评价. 【答案】(1),图见解析 (2),,, (3)详见解析 【分析】(1)根据9(1)做对1个的人数和扇形统计图中百分比求出总人数,再利用总人数减去其余人数即可求出,求得圆心角的度数,的值,补全图形即可; (2)根据中位数和众数的定义,加权平均数公式即可得答案; (3)从中位数、众数、平均数、方差的意义进行分析即可得评价. 【详解】(1)解:根据题意9(1)班学生总人数为:(人), ∴(人), , , 频数直方图如图所示: ; (2)解:, 9(2)班学生的中位数为第25和第26个数,都是3个,则, 9(2)班中3个的人数最多,则众数为; (3)解:答案不唯一 从中位数看,9(1)和9(2)成绩相同; 从众数看,9(2)成绩比9(1)成绩好; 从平均数看,9(2)成绩比9(1)成绩好; 从方差看,9(2)成绩比9(1)成绩更稳定, 从以上分析可以看出9(2)班这次的学习效果更好. 题型四 数据分组与离差平方和 解|题|技|巧 核心公式: 总离差平方和 = 组内离差平方和 + 组间离差平方和。 组内离差平方和:反映了组内数据的离散程度(即组内差异)。 组间离差平方和:反映了两组数据之间的差异程度。 思想:数据分组的原则通常是使得“组内离差平方和最小”,这意味着组内的数据尽可能相似。 【典例1】(25-26八年级下·全国·课后作业)数据7,9,11,13,15按组内离差平方和最小原则分两组(一组2个、一组3个),正确分组是(    ) A.{7,9}与{11,13,15} B.{7,11}与{9,13,15} C.{7,15}与{9,11,13} D.{11,15}与{7,9,13} 【答案】A 【分析】根据离差平方和的定义,分别计算各选项中两组离差平方和的总和,总和最小的分组即为符合要求的分组 【详解】解:选项A、∵组{7,9}的平均数为, ∴其离差平方和为, ∵组{11,13,15}的平均数为, ∴其离差平方和为, ∴总离差平方和为; 选项B、∵ 组{7,11}的平均数为, ∴其离差平方和为, ∵组{9,13,15}的平均数为, ∴其离差平方和为, ∴总离差平方和为; 选项C、∵组{7,15}的平均数为, ∴其离差平方和为, ∵组{9,11,13}的平均数为11, ∴其离差平方和为, ∴总离差平方和为; 选项D、∵ 组{11,15}的平均数为, ∴其离差平方和为, ∵组{7,9,13}的平均数为, ∴其离差平方和为, ∴总离差平方和为, ∵, ∴选项A的总离差平方和最小,符合组内离差平方和最小原则 【变式1】(25-26八年级上·山东青岛·期末)学校举行秋季运动会,仪仗方队一组6名队员的身高(单位:)分别是:174,178,176,179,174,175,当一名身高为的队员下场休息,现在5名队员身高的平均数和离差平方和与原6名队员相比(    ) A.平均数变大,离差平方和变小 B.平均数不变,离差平方和不变 C.平均数不变,离差平方和变大 D.平均数变小,离差平方和变大 【答案】B 【分析】本题主要考查了平均数和离差平方和,解题的关键是掌握以上两个公式. 先分别计算原6名队员与现5名队员身高的平均数,再计算两者的离差平方和,通过比较结果得出结论,用到平均数和离差平方和的定义和公式. 【详解】解:∵原6名队员身高总和为, ∴原平均数为; ∵去掉的队员后,5名队员身高总和为, ∴现平均数为; ∴平均数不变; ∵原离差平方和为 ; 现离差平方和为 ; ∴离差平方和不变; 综上,平均数不变,离差平方和不变, 故选:B. 【变式2】(25-26八年级下·浙江温州·期中)如图,老师绘制了一次数学小测验中甲、乙、丙三个班级学生得分的箱线图,根据该图判断下列说法错误的是(  ) A.三个班级中,甲班分数的方差最小 B.三个班级中,乙班的最高分与最低分相差最大 C.丙班得分低于80分的人数多于得分高于80分的学生人数 D.若每班有42名学生,则这三个班级的第11名中,丙班的分数最高 【答案】C 【分析】根据箱线图的信息解答即可. 【详解】解:由题意可知: 三个班级中,甲班分数的方差最小,故选项A说法正确,不符合题意; 三个班级中,乙班的最高分与最低分相差最大,故选项B说法正确,不符合题意; 丙班的中位数比80分稍多,所以丙班得分低于80分的人数不可能多于得分高于80分的学生人数,故选项C说法错误,符合题意; 根据题意,得第11名刚好是对应各班的上四分位数,从箱线图看出丙班的上四分位数最大, ∴若每班有42名学生,则三个班级的第11名中,最高的是丙班,故选项D说法正确,不符合题意. 【变式3】(2026八年级下·浙江·专题练习)有6个水蜜桃测出了他们的值(糖度值,值越大越甜)如下:16、17、18、18、18、19;以下是计算各种情况的组内离差平方和表(精确到): 组序 分组情况 组内离差平方和 第1组 第2组 1 16 17、18、18、18、19 2 16、17 18、18、18、19 3 16、17、18 18、18、19 4 16、17、18、18 18、19 5 16、17、18、18、18 19 (1)将表格补充完整 (2)如果要将这组水蜜桃分为“优品”和“精品”,应该如何分,为什么? 【答案】(1)见解析 (2)优品:16、17;精品:18、18、18、19;理由见解析 【分析】(1)根据组内离差平方和的计算公式,计算即可; (2)小题核心是比较表格中5种分组方案的组内离差平方和的大小,要想将水蜜桃分为优品和精品两种,需要两个分组中值尽可能接近,使得分组合理,所以选出组内离差平方和最小即可. 【详解】(1)解:第1组数据为16、17,则平均数为, 第2组数据为:18、18、18、19,则平均数为, ∴组内离差平方和为:; 第1组数据为16、17、18,则平均数为, 第2组数据为:18、18、19,则平均数为, ∴组内离差平方和为:; 填报如下: 组序 分组情况 组内离差平方和 第1组 第2组 1 16 17、18、18、18、19 2 16、17 18、18、18、19 3 16、17、18 18、18、19 4 16、17、18、18 18、19 5 16、17、18、18、18 19 (2)解:因为前2个一组,后4个一组时的组内离差平方和为最小,所以分组如下: 优品:16、17 精品:18、18、18、19. 【变式4】(25-26八年级下·全国·课后作业)苹果作为一种广受欢迎的水果,不仅因其鲜甜多汁的口感而备受喜爱,更因其丰富的营养价值而备受推崇.按照组内离差平方和达到最小的方法,把图中的10个苹果按直径大小分成两组.(计算过程结果保留整数) 【答案】第一组:65,69,70 第二组:75,76,76,78,80,80,81 【分析】本题考查了组内离差平方和的计算与分组优化,掌握列出所有分组情况、分别计算每组离差平方和后比较总和是解题的关键. 先将数据排列,再分9种情况讨论求解即可. 【详解】解:将10个数据按照从小到大排序:65,69,70,75,76,76,78,80,80,81,把10个数据分成两组,共有9种情况. ①第一组:65,第二组:69,70,75,76,76,78,80,80,81, 第一组的平均数为65, 第二组的平均数为, 组内离差平方和 ; ②第一组:65,69,第二组:70,75,76,76,78,80,80,81,同理可得,组内离差平方和为98; ③第一组:65,69,70,第二组:75,76,76,78,80,80,81,同理可得,组内离差平方和为48; ④第一组:65,69,70,75,第二组:76,76,78,80,80,81,同理可得,组内离差平方和为76; ⑤第一组:65,69,70,75,76,第二组:76,78,80,80,81,同理可得,组内离差平方和为98; ⑥第一组:65,69,70,75,76,76,第二组:78,80,80,81,同理可得,组内离差平方和为108; ⑦第一组:65,69,70,75,76,76,78,第二组:80,80,81,同理可得,组内离差平方和为137; ⑧第一组:65,69,70,75,76,76,78,80,第二组:80,81,同理可得,组内离差平方和为184; ⑨第一组:65,69,70,75,76,76,78,80,80,第二组:81,同理可得,组内离差平方和为219, 第一组:65,69,70,第二组:75,76,76,78,80,80,81组内离差平方和达到最小. 题型五 四分位数与箱线图 解|题|技|巧 排序:数据必须从小到大排列。 找中位数 ( ):先确定中间位置。 找 和 : 是“下半部分数据”的中位数。 是“上半部分数据”的中位数。 注意:计算 和 时,通常不包含中位数本身(特别是数据个数为奇数时),要分清是取中位数左边还是右边的数据。 【典例1】(25-26八年级下·北京西城·期中)某班甲、乙两组的某次演讲比赛成绩(百分制)如下. 甲组91,96,70,89,60,70,100,80,92,98; 乙组92,93,70,88,82,75,y,80,x,95.(,且x,y为正整数) 某同学计算了两组演讲比赛成绩的四分位数,如表所示. 分组 第一四分位数 第二四分位数 第三四分位数 甲 a m b 乙 80 90 93 (1)根据甲组数据,求a,m,b. (2)在图中根据四分位数绘制出甲组比赛成绩的箱线图,观察图中乙组比赛成绩的箱线图求x,y. (3)根据箱线图谈谈对甲、乙两组成绩的看法 【答案】(1),, (2);或93, (3)甲、乙两组成绩中位数相同,甲组成绩的差距(波动)大于乙组 【分析】(1)利用四分位数的定义进行求解即可; (2)先根据甲组的最小值、第一四分位数、中位数、第三四分位数、最大值绘制甲组箱线图;再结合乙组给出的四分位数和箱线图的极值,先将乙组已知数据排序,根据第二四分位数为90确定x和y的位置关系,再结合第一四分位数、第三四分位数的取值和的条件,求出x和y的值; (3)从两组箱线图的中位数判断平均水平高低,从极值判断最高分、最低分情况,对比分析两组成绩差异即可. 【详解】(1)解:将甲组成绩从小到大排列为: 60,70,70,80,89,91,92,96,98,100 则第一四分位数:,向上取整为第3个数据,则, 第二四分位数: 第三四分位数:,向上取整为第8个数据,则; (2)解:乙组共10个数据,由箱线图可得:乙组成绩最小值为70,最大值为96, 由表格知,乙组第一四分位数为80,第三四分位数为93, 则将乙组成绩从小到大排列后,第3个数据为80,第8个成绩为93, 第二四分位数(中位数)为90,即排序后第5、6个数的平均数为90, 将乙组成绩(除外)从小到大排列为: 70,75,80,82,88,92,93,95,96 若在第4个位置,则中位数为,不符合题意; 若在第5个位置,则中位数为,即,由于,则不可能位于第5个位置上, 若在第6个位置,则中位数为,即, 若在第7个位置,则中位数为,此时可以为93, 当时: 乙组成绩从小到大排列为: 70,75,80,82,88,92,92,93,95,96, 此时乙组中位数为,符合题意, 当时: 乙组成绩从小到大排列为: 70,75,80,82,88,92,93,93,95,96, 此时乙组中位数为,符合题意, 因此,或93、; (3)解:由于甲、乙两组成绩的中位数相同,均为90,整体中等水平相当;但甲组成绩范围更大(最低60,最高100),成绩分布更分散,两极分化更明显;乙组第一四分位数高于甲组,且成绩更集中,说明乙组中等及偏下水平的成绩更好,整体成绩更稳定,乙组整体成绩优于甲组. 【变式1】(25-26八年级下·全国·单元复习)下表给出了2020年各月杭州的平均相对湿度(): 2020年各月杭州的平均相对湿度 单位: 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 平均相 对湿度 81 73 72 60 72 85 85 64 74 70 73 69 (1)请将最小值、下四分位数、中位数、上四分位数和最大值标记在如图所示的箱线图中. (2)杭州2020年有几个月的平均相对湿度小于下四分位数?分别是哪几个月? (3)平均相对湿度介于60%和69.5%之间的月份是否比介于69.5%和72.5%之间的多? 【答案】(1)见解析 (2)杭州2020年有 3 个月的平均相对湿度小于下四分位数,分别是 4月、8月、12月 (3)两者数量相同 【分析】(1)首先需将2020年杭州各月平均相对湿度数据按从小到大排序,然后得到最小值和最大值,再计算出下四分位数、中位数、上四分位数,将这些值标记在箱线图中; (2)统计小于下四分位数的月份即可; (3)最后比较介于和之间的月份数量与介于和之间的月份数量即可. 【详解】(1)2020年各月杭州的平均相对湿度数据从小到大排序:60, 64, 69, 70, 72, 72, 73, 73, 74, 81, 85, 85, ∴ 最小值:60 , 最大值:85, 中位数为, 下四分位数 , 上四分位数为 ,标注在箱线图中如下图: (2) 在原始数据中,平均相对湿度小于 的月份有:4月 ( ),8月 ( ),12月 ( ) 答: 杭州2020年有 3 个月的平均相对湿度小于下四分位数,分别是 4月、8月、12月. (3)解:平均相对湿度介于 和 之间的月份:数据点为 60, 64, 69,共 3 个, 平均相对湿度介于 和 之间的月份: 数据点为 70, 72, 72,共 3 个, 答: 平均相对湿度介于 和 之间的月份有 3 个,介于 和 之间的月份也有 3 个,两者数量相同,所以前者不比后者多. 【变式2】(25-26八年级下·全国·课后作业)拉萨地处青藏高原,日照时间很长.下表给出了2020年各月拉萨的日照时数(单位:): 2020年各月拉萨的日照时数,单位:; 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 日照时数 268.8 279.4 317.2 310.9 318.9 306.4 265.6 323.0 301.0 316.8 275.5 261.2 (1)请将最小值、下四分位数、中位数、上四分位数和最大值标记在如图所示的箱线图中. (2)拉萨2020年有几个月的日照时数大于上四分位数?分别是哪几个月? (3)图中箱体的下半部分比较大,上半部分比较小,这是否意味着日照时数介于和之间的月份要多于介于和之间的月份? 【答案】(1)图见详解 (2)拉萨2020年有3个月的日照时数大于上四分位数,分别是3月,5月,8月 (3)不是,理由见详解 【分析】(1)根据表格把数据按从小到大进行排列,然后根据中位数及四分位数的算法进行求解即可; (2)根据(1)可进行求解; (3)由箱线图的特征可进行求解. 【详解】(1)解:根据表格可把日照时数按从小到大的顺序排列为, ∴最小值为261.2,最大值为323.0,中位数为, ∴上四分位数为, 下四分位数为, 箱线图如图所示: (2)答:拉萨2020年有3个月的日照时数大于上四分位数,分别是3月,5月,8月 (3)解:不是,箱线图中箱体的下半部分比较大,上半部分比较小,意味着日照时数在和之间的数值分布范围比在和之间的数值分布范围大,并不代表月份的数量多,实际上这两个区间内的月份数量是相等的. 期中基础通关练(测试时间:10分钟) 1.(2026·四川成都·二模)某校新增了一门选修课程.为了解学生对这门课程的满意度,学校在选课学生中随机抽取了名学生,记录他们对所选课程的满意度评分(满分10分,分值为整数),并对数据进行了整理,如图为学生对课程满意度评分的折线统计图,则课程满意度评分的众数是(     ) A. B. C. D. 【答案】C 【分析】根据折线统计图读出个数据,利用众数的定义(一组数据中出现次数最多的数据)进行判断即可. 【详解】解:由折线统计图可得,名学生的评分分别为:. 其中分出现了次,分出现了次,分各出现了次. 出现的次数最多, 这组数据的众数是. 2.(2026·河南信阳·模拟预测)现有甲、乙、丙、丁四个队参加某种比赛,各队人数相同,平均身高也相同,他们身高的方差分别为,,,,则这四个队中,身高最整齐的是(     ) A.甲队 B.乙队 C.丙队 D.丁队 【答案】A 【分析】本题考查方差的意义,方差反映数据的波动程度,方差越小,数据波动越小,数据越整齐,本题中各队人数和平均身高都相同,只需比较方差大小即可得到结果. 【详解】方差越小,数据波动越小,身高越整齐, 本题中四个队平均身高相同,人数相同,且 , 甲队的方差最小,身高最整齐. 3.(25-26八年级下·浙江金华·阶段检测)学校种植园中有4盆相同品种的植物,需要按植物的株高分成两组进行培养,使得同组内植物株高尽量接近,将4盆植物的株高从小到大排序后分成两组,共有3种情况,计算它们的组内离差平方和结果如下表所示,则4盆植物的最优分组序号是___________. 序号 分组情况 组内离差平方和 ① 第一组1个,第二组3个 44 ② 第一组2个,第二组2个 28 ③ 第一组3个,第二组1个 16.67 【答案】③ 【分析】本题要求得到使同组株高尽量接近的最优分组,根据组内离差平方和的意义,最优分组对应组内离差平方和最小,只需比较表格中三组的组内离差平方和大小即可求解. 【详解】解:由题意可知,要使同组内植物株高尽量接近,需选择组内离差平方和最小的分组. 比较表格中三组的组内离差平方和,得, 因此序号③的组内离差平方和最小,为最优分组. 4.(25-26八年级下·浙江金华·期中)甲、乙、丙、丁四支排球队队员身高情况箱线图如图所示,身高最集中的是___队. 【答案】乙 【分析】根据箱线图分析即可得到答案. 【详解】解:乙队队员的身高差距最小,身高较为集中. 5.为了调查钟楼区居民区的白天噪声污染情况,环保部门抽样调查了40个噪声测量点的噪声声强级,结果如下(每组包含起点值,不包含终点值): (1)在噪声最低的测量点,其噪声声强级在哪个范围? (2)噪声声强级高于的测量点有多少个? 【答案】(1)(或) (2)26个 【分析】(1) 观察频数分布直方图,找出频数不为零的最低组即可确定噪声最低的测量点所在的范围. (2) 找出噪声声强级高于的各组,将其频数相加即可. 【详解】(1)(1) 解:∵频数分布直方图中最低组为, ∴噪声最低的测量点,其噪声声强级在范围内. (2)解:∵噪声声强级高于的组有、、, ∴测量点个数为个. 期中重难突破练(测试时间:10分钟) 1.八年级某班组织了一场一分钟跳绳比赛,参赛学生被分成了甲、乙两组,如图是甲、乙两组学生一分钟跳绳次数的箱线图,下列说法错误的是(     ) A.甲组跳绳次数的波动比乙组大 B.乙组跳绳次数的中位数比甲组小 C.甲组跳绳次数的下四分位数大于180 D.乙组跳绳次数的最大值大于190 【答案】C 【分析】根据箱线图的特征,分别观察甲、乙两组数据的极差(波动情况)、中位数位置、下四分位数位置及最大值位置,结合选项逐一判断即可. 【详解】解:由箱线图可知:甲组数据的极差约为,乙组数据的极差约为,且甲组箱体长度大于乙组, 则甲组跳绳次数的波动比乙组大, 故A选项说法正确; 甲组中位数(箱体内横线)约为180,乙组中位数约为170, , 乙组跳绳次数的中位数比甲组小, 故B选项说法正确; 甲组下四分位数(箱体下边缘)对应数值约为170, 甲组跳绳次数的下四分位数小于180, 故C选项说法错误; 乙组最大值(上须顶端)对应数值约为195, 乙组跳绳次数的最大值大于190, 故D选项说法正确. 2.(2026·安徽淮北·模拟预测)某校九年级(1)班全体学生在2026年初中毕业模拟体育考试的成绩统计如下表: 成绩(分) 40 48 52 54 55 58 60 人数(人) 2 5 6 6 8 6 7 根据上表中的信息判断,下列结论中错误的是(     ) A.该班一共有40名同学 B.该班学生这次考试成绩的众数是55分 C.该班学生这次考试成绩的中位数是55分 D.该班学生这次考试成绩的平均数是55分 【答案】D 【分析】根据表格信息,结合总人数、众数、中位数、平均数的概念逐项判断即可解答. 【详解】解:A.该班总人数为 ,故A选项结论正确,不符合题意; B.成绩为55分的人数最多,为8人,即该班成绩的众数是55分,故B选项结论正确,不符合题意; C.40个数据从小到大排列后,中位数是第20和第21个数据的平均数,前四个成绩的总人数为 ,可得第20和第21个数据都是55分,∴ 中位数为 分,故C选项结论正确,不符合题意; D.计算平均数得:,即平均数不是55分,故D选项结论错误,符合题意. 3.(2026·上海虹口·三模)某校在科技节主题讲座的筹备过程中,随机抽样了100位学生关于元宇宙、脑机接口和人形机器人三种主题的兴趣偏好,有10位同学表示都没有兴趣,在剩余作出选择的90位同学中,调查情况如图所示,那么全校1500名学生中,对于脑机接口有兴趣的人数约有__________人. 【答案】 【详解】解:由题意可得,对于脑机接口有兴趣的人数约有(人). 4.(2026·山西临汾·模拟预测)如图,是30名初三女学生1分钟内仰卧起坐次数的频数分布直方图(每组次数只含最小值而不含最大值),则仰卧起坐次数在次的频率是_____________. 【答案】 【详解】解:由频数分布直方图可知,仰卧起坐次数在次的频数为,数据总数为30,所以仰卧起坐次数在次的频率为. 5.某班45名学生的体重记录如下:(单位:kg) 48,48,42,50,61,44,43,51,46,46,51,46,50,45,52,54,51,57,55,48, 49,48,53,48,56,55,57,42,54,49,47,60,51,51,44,41,49,53,52,49, 61,58,52,54,50. 请用简单随机抽样方法,分别选取含有6名学生体重的两个样本、含有15名学生体重的两个样本以及含有30名学生体重的两个样本,分别计算这六个样本中学生体重的平均数和方差,最后把它们与全班学生体重的平均数和方差作比较,你认为随机抽样方法可靠吗?样本容量较大时,由样本得到的估计值是否往往与总体的实际值更接近? 【答案】简单随机抽样的样本选取不唯一,此处给出示例: 当容量为的两个样本: 样本:, 计算得平均数约为, 方差约为 样本:,同理计算得平均数约为,方差约为; 当容量为的两个样本: 样本:,同理计算得平均数约为,方差约为; 样本:, 同理计算得平均数约为,方差约为; 当容量为的两个样本: 样本5: 同理计算得平均数约为,方差约为; 样本6: 48,46,50,45,52,54,51,57,55,48,49,48,53,48,56,55,57,42,54,49,47,60,51,51,44,41,49,53,52,61, 同理计算得平均数约为,方差约为; 最后计算全班名学生体重的平均数和方差,同理计算得总体平均数约为,总体方差约为; 将样本统计量与总体统计量比较,可得随机抽样得到的样本统计量可以近似反映总体的特征,因此随机抽样方法可靠.对比不同容量的样本结果,可得样本容量越大,样本统计量越接近总体的统计量,即样本容量较大时,由样本得到的估计值往往与总体的实际值更接近. 【详解】略 1 / 4 学科网(北京)股份有限公司 学科网(北京)股份有限公司 $

资源预览图

专题04 数据分析(期末复习讲义)八年级数学下学期新教材湘教版
1
专题04 数据分析(期末复习讲义)八年级数学下学期新教材湘教版
2
专题04 数据分析(期末复习讲义)八年级数学下学期新教材湘教版
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。