内容正文:
专题06 统计
知识点1 简单随机抽样
1.简单随机抽样
(1)简单随机抽样
分为放回简单随机抽样和不放回简单随机抽样.除非特殊声明,本章简单随机抽样指不放回简单随机抽样.
(2)简单随机样本
通过简单随机抽样获得的样本称为简单随机样本.
(3)简单随机抽样的常用方法
实现简单随机抽样的方法很多,_______和随机数法是比较常用的两种方法.
2.简单随机抽样的方法
(1)抽签法:先把总体中的(为正整数)个个体_______,并把编号依次分别写在形状、大小相同的签上(签可以是纸条、卡片或小球等),再将这些号签放在同一个不透明的箱子里_______,每次随机地从中抽取________,然后将箱中余下的号签________,再进行下一次抽取.如此下去,直到抽到预先设定的样本容量.抽签法的具体步骤:①给总体中的每个个体________;②________.
(2)随机数法:先把总体中的个个体依次编码为、、、、,然后利用工具(转盘或摸球、________、科学计算器或计算机)产生、、、、中的随机数,产生的随机数是几(号码重复,则舍去),就选第几号个体,直至选到预先设定的样本容量.
3.
放回简单随机抽样
不放回简单随机抽样
一般地,设一个总体含有(为正整数)个个体,从中______________抽取个个体作为样本
如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都______________,把这样的抽样方法叫做放回简单随机抽样
如果抽取是不放回的,且每次抽取时总体内______________被抽到的概率都相等.把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(除非特殊说明,本章所称的简单随机抽样指不放回简单随机抽样).通过简单随机抽样获得的样本称为简单随机样本.
知识点2 分层随机抽样
(1)分层随机抽样的定义
按一个或多个变量把总体划分成若干个______________,每个个体_______一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这种抽样方法称为分层随机抽样,每一个子总体称为_________,分层随机抽样中,如果每层样本量都与层的大小成________,那么称这种样本量的分配方式为比例分配.
(2)总体平均数和样本平均数公式
总体平均数公式:,样本平均数公式:
知识点3 频率分布直方图
频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中____的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取____区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,例如第一小组的频率是,作出频率分布表,
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示_.
知识点4 用样本估计总体
(1)总体取值规律的估计
①画频率分布直方图的五个步骤:__________、__________、将数据分组、__________、画频率分布直方图.
②频率分布直方图的特点:各个小长方形的____表示相应各组的频率;各小长方形的面积的总和等于.
③频率分布直方中,最高的小长方形底边中点的横坐标即是众数;中位数左边和右边的小长方形的面积和是相等的;平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
知识点5 百分位数
1.百分位数的定义:一般地,一组数据的p%()分位数是这样一个值,它使得这组数据中至少有_____的数据不大于该值,且至少有_______的数据不小于该值.
2.可以通过下面的步骤计算一组个数据的第百分位数:
第1步,按_________排列原始数据.
第2步,计算 ______
第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的_______
3.四分位数:常用的分位数有第________百分位数、第________百分位数、第_______百分位数,这三个分位数把一组由小到大排列后的数据分成_____份,因此称为四分位数.其中第______百分位数也称为第一个四分位数或下四分位数,第_______百分位数也称为第三个四分位数或上四分位数.
知识点6 用样本的数字特征估计总体
(1)总体百分位数的估计
定义
意义
百分位数
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值
反映该组数中小于或等于该百分位数的分布特点
(2)常用样本的数字特征_______、_______、______来估计总体的集中趋势.
(3)总体离散程度的估计
假设一组数据是,用表示这组数据的平均数,那么这个数的:①标准差;②方差.
2.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中出现次数最多的数
众数通常用于描述变量的中心位置,但显然它对其他数据信息的忽视使得其无法客观地反映总体特征
中位数
把一组数据按大小顺序排列,处在_____________位置的一个数据(或两个数据的平均数)
中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有个数,,,…,,那么这个数的平均数____________
平均数与每一个样本数据有关,可以反映样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
知识点7 方差与极差
1.方差的定义:如果的平均数为,那么方差可用求和符号表示为_______=_______.
方差的性质:如果a,b为常数,那么的方差为_______.
2.方差是刻画的是数据偏离平均数的_____,方差计算公式:标准差:由于方差的单位是原始数据单位的平方,而刻画离散程度的一种理想度量应当具有与原始数据相同的单位.为此,计算方差的算术平方根,得,称之为标准差.
3.极差:是数据中最大值和最小值的_______,它计算简单,但没有充分利用其他数据.
4.分层抽样中的全部样本方差
如果将总体分为两层,第一、二层的样本量分别为,,样本均值分别为,,样本方差分别为,,则全部样本方差为______.
题型1 简单随机抽样
【例1】(24-25高二下·上海·阶段检测)某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39;现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,选出来的第3个零件编号是______.
0647 4373 8686 9647 3661 4698 6371 6233 2616 8045 6011 1410
9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179
【变式1-1】(25-26高一下·福建厦门·期中)总体由编号为01,02,⋯ ,39,40的40个个体组成,从中选取6个个体.利用科学计算器依次生成一组随机数如下:𝟔5 𝟎𝟔 𝟓𝟖 𝟔𝟏 𝟓𝟒 𝟑𝟓 𝟎𝟐 𝟒𝟐 𝟑𝟓 𝟒𝟖 𝟗𝟔 𝟑𝟐 𝟏5 𝟓𝟐 39 𝟓𝟐 𝟒0 ,则选出来的第6个个体的编号为 _______
【变式1-2】(25-26高一下·全国·课后作业)(多选)(多选题)下列抽样的方式属于简单随机抽样的是( )
A.从500个个体中一次性抽取50个作为样本
B.将500个个体编号,把号签放在一个不透明的容器内搅拌均匀,从中逐个抽取50个作为样本
C.箱子共有100个零件,从中选出10个进行检验,在抽样操作中,从中任意取出一个零件进行检验后,再把它放回箱子
D.福利彩票用摇奖机摇奖
题型2 分层抽样
【例2】(25-26高一下·湖南衡阳·期中)“一尺一拳一寸间,科学用眼护双眼”,为保护青少年视力,培养科学健康的用眼习惯,某市疾控中心联合教育局开展“青少年视力健康监测与科学用眼宣传”.计划从全市三所高中(A校2400人、B校1800人、C校1200人)的所有学生中,按人数比例采用分层随机抽样的方法抽取270人进行视力检测与用眼习惯问卷调查,则A校应抽取的人数为( )
A.60 B.90 C.120 D.150
【变式2-1】(25-26高一上·山西忻州·期末)某高中高一、高二、高三年级的学生人数分别为400,400,600,为了解各年级学生每天阅读的时间,用分层随机抽样的方法从中抽取样本,若样本中高一年级的学生有14人,则样本容量为( )
A.42 B.45 C.49 D.50
【变式2-2】(26-27高二上·云南·期末)某学校为了解学生参加跑步运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取70名学生,已知该校初中部和高中部分别有900名和1200名学生,则高中部应抽取的人数为( )
A.20 B.30 C.40 D.50
题型3 绘制频率分布直方图
【例3】(25-26高一下·全国·课堂例题)为了解一片经济林的生长情况,随机测量100株树木的底部周长,得到如下数据:(单位:cm)
135 98 102 110 99 121 110 96 100 103 125 97 117 113 110 92 102 109
104 112 109 124 87 131 97 102 123 104 104 128 105 123 111 103 105 92
114 108 104 102 129 126 97 100 115 111 106 117 104 109 111 89 110 121
80 120 121 104 108 118 129 99 90 99 121 123 107 111 91 100 99 101 116
97 102 108 111 95 107 101 102 108 117 99 118 106 119 97 126 108 123
119 98 121 101 113 102 103 104 108
(1)编制频率分布表;
(2)绘制频率分布直方图、折线图;
(3)估计该片经济林中底部周长小于100cm的树木约占多少,周长不小于120cm的树木约占多少?
【变式3-1】(24-25高二·上海·课堂例题)从高一学生中抽取50名参加调研考试,成绩的分组及各组的频数如下(单位:分):,2;,3;,10;,15;,12;,8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在分的学生所占总体的百分比.
题型4 补全频率分布直方图
【例4】(24-25高一下·吉林长春·阶段检测)为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄情况如下表所示:
分组(单位:岁)
频数
频率
5
0.05
①
0.20
35
②
30
0.30
10
0.10
总计
100
1.00
(1)频率分布表中的①②位置应填什么数据?
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在岁的人数;
(3)现用比例分配的分层随机抽样从、、的样本中共抽取n名志愿者,已知从中抽取了2人,求n的值.
【变式4-1】一家水果店的店长为了解本店苹果的日销售情况,记录了过去20天苹果的日销售量(单位:kg),结果如下:
83,107,91,94,80,80,100,75,102,89,
74,94,84,101,93,85,97,84,85,104
(1)请计算该水果店过去20天苹果日销售量的中位数和极差;
(2)请完成苹果日销售量的频率分布表,并画出频率分布直方图.
分组
频数
频率
合计
【变式4-2】某高校从参加今年自主招生考试的学生中随机抽取容量为的学生成绩样本,得频率分布表如下:
组号
分组
频率
频数
第一组
第二组
①
第三组
②
第四组
第五组
合计
(1)写出表中①、②位置的数据;
(2)估计成绩不低于分的学生约占多少;
(3)为了选拔出更优秀的学生,高校决定在第三、四、五组中用分层抽样法抽取名学生进行第二轮考核,分别求第三、四、五各组参加考核的人数.
题型5 树状图与折线图
【例5】(23-24高一上·全国·课后作业)(多选)(多选)某同学将全班同学期中考试的成绩绘制成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率折线图(如下图所示).
据此图,下列说法正确的是( )
A.由频率折线图可以看出,在[75,115)区间内,随着成绩的增加,各分数对应的人数一直增加
B.由频率折线图可以看出,在[115,145)区间内各分数段的人数逐渐减少
C.据频率折线图可以估计此次考试成绩的众数是115
D.据频率折线图可以看出有50%以上的同学的分数在[95,135)区间内
【变式5-1】(2024·河南平顶山·模拟预测)年月某市星级酒店经营数据统计分析如下图(“同比”指与去年同期相比):
下列说法错误的是( )
A.整体来看,年月该市星级酒店平均房价相对上一年有所提高
B.年月该市星级酒店平均房价的平均数超过元
C.年月这个月中,该市星级酒店在月份的平均房价创下个月来的最高纪录
D.年月该市星级酒店平均房价约为元
【变式5-2】(24-25高一下·江苏宿迁·期末)(多选)中共中央决定,2021年在全党开展党史学习教育,激励全党不忘初心、牢记使命.某单位随机抽取了100名职工组织了“党史”知识竞赛,满分为100分(80分及以上为优良),并将所得成绩分组得到了如图所示的频率分布折线图(组距为10).从频率分布折线图中得到的这100名职工成绩的以下信息正确的是( )
A.成绩是49分或100分的职工人数是0
B.成绩优良的人数是35人
C.众数是75
D.平均分约为75.5分
题型6 百分位数
【例6】(25-26高一下·湖南衡阳·期中)某班10名学生的数学测验成绩分别为85,88,90,92,95,96,98,100,105,105,则这组数据的第40百分位数是( )
A.95 B.93.5 C.92.5 D.92
【变式6-1】(25-26高二上·云南曲靖·期末)某教师得出10名小朋友阅读某课文的时间分别为8,12,11,6,9,17,16,14,12,19(单位:分钟),则这10个数据的第70百分位数是___________.
【变式6-2】(25-26高三上·浙江绍兴·期末)某射击运动员的10枪成绩分别为,则这10枪成绩的第一四分位数是( )
A.9.0 B.9.1 C.9.2 D.9.4
题型7 中位数众数平均数计算
【例7】(2025·安徽·模拟预测)(多选)电影《南京照相馆》在全国各地热映,某影院连续8天的观影人数(单位:百人)依次为90,120,80,160,180,160,170,160,则这组数据的( )
A.众数为160 B.中位数为170
C.平均数为140 D.第30百分位数为90
【变式7-1】(24-25高一下·贵州黔东南·期末)(多选)凯里市某七天每天的最高气温分别是37,35,34,36,39,36,34(单位℃),则( )
A.该组数据的平均数为36 B.该组数据的极差为5
C.该组数据的第60百分位数为37 D.该组数据的中位数为36
【变式7-2】(25-26高一上·辽宁沈阳·期末)(多选)为了了解某次数学测验学生的得分情况,数学老师从甲、乙两个班分别随机选取若干名学生成绩,整理后作出图表.甲班所选取同学成绩作出图(1),且图中;乙班所选取同学成绩作出图(2),且图中有一个数字污损不清.则下列说法正确的是( )
A.
B.若图(2)中现有数据的平均数和污损前相等,则图(2)污损前数据的众数为76
C.若直方图中每个数据都用该区间的中点值代替,则估计甲班同学成绩的平均数为76
D.估计乙班同学成绩的75%分位数为85
题型8 中位数众数平均数比较
【例8】(25-26高二上·广东江门·期末)如图所示,某单峰频率分布直方图在右边“拖尾”,若由频率分布直方图估计样本数据的平均数为,中位数为,众数为,则( )
A. B. C. D.
【变式8-1】(2024·黑龙江哈尔滨·三模)如图所示,下列频率分布直方图显示了三种不同的形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图作出以下判断,正确的是( )
A.图(1)的平均数=中位数>众数 B.图(2)的众数<中位数<平均数
C.图(2)的平均数<众数<中位数 D.图(3)的中位数<平均数<众数
【变式8-2】(2025·福建福州·模拟预测)(多选)近日,国家发展改革委等部门联合印发《完善碳排放统计核算体系工作方案》,指出要在2025年全面建立碳排放年报、快报制度,完善碳排放统计核算体系.专家在甲、乙、丙、丁四地2024年第4季度的周快报数据中随机抽取7周数据进行分析,整理出四地这7周各周内碳排放量超过的天数的数据特征:
地区
甲
乙
丙
丁
数据特征
中位数
3
中位数
1
均值
3
均值
2
众数
2
均值
<1
众数
4
方差
2
根据规定,若这7周中每周内碳排放量超过的天数都不多于5天,则可称该地区为低碳生态区.分析数据,四个地区中能判定为低碳生态区的是( )
A.甲地 B.乙地 C.丙地 D.丁地
题型9 求方差极差标准差
【例9】(25-26高三下·广西玉林·阶段检测)(多选)是指线上引流、线下消费的商业模式,近年来随着技术的渗透,特别是智能配送使得配送时效显著提升,为消费者提供了“沉浸式购物”新体验.已知2020年到2024年我国到家市场规模(单位:千亿元)依次为,则这个数据的( )
A.极差是 B.中位数是
C.60%分位数是 D.平均数是
【变式9-1】(2026·湖北黄石·模拟预测)(多选)已知数据,,…,的平均数为,标准差为,中位数为,极差为.由这组数据得到新数据,,…,,其中(),则下列命题中正确的是( )
A.新数据的平均数是 B.新数据的标准差是
C.新数据的中位数是 D.新数据的极差是
【变式9-2】(25-26高二下·重庆·期中)(多选)已知一组数据的平均数为5,方差为.现将该组数据进行以下两种处理:
操作1:加入一个新数据5,得到10个数据,方差为;
操作2:将每个数据都乘以2再加3,得到新数据,方差为,则下列说法正确的是( )
A. B. C. D.
题型10 平均数方差的性质
【例10】(25-26高二下·上海·阶段检测)已知数据,,,,的方差为1,则数据,,,,的方差为________.
【变式10-1】(25-26高一下·河北保定·阶段检测)已知样本数据,,,,的平均数为4,方差为2,则样本数据,,,,的平均数和方差分别为________和________.
【变式10-2】(24-25高一下·广西南宁·期末)已知一组数据,,,,的平均数是2,方差是3,那么另一组数据,,,,的平均数为_____;方差为_____.
方法1 频率分布直方图估计平均数,百分位数与方差
【例1】(2026高三·全国·专题练习)某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示,则这次测试数学成绩的众数为________,这次测试数学成绩的中位数为________(精确到0.1),这次测试数学成绩的平均数为________.
【变式1-1】(25-26高二上·云南昆明·期中)某中学为了调查某年级学生劳动实践活动情况,对名学生某周的劳动时间统计如下:
周劳动时间(小时)
人数
20
80
140
200
60
(1)根据提供的数据,直接在答题卡中补充完整周劳动时间的频率分布直方图(用阴影填涂,需要书写具体步骤);
(2)求周劳动时间的平均数(同一组数据用该组区间的中点值为代表);
(3)根据图表,估计周劳动时间的样本数据的第80百分位数.
【变式1-2】(25-26高二下·陕西商洛·阶段检测)人工智能的广泛应用,给人们的生活带来了便捷.截至2026年3月,AI软件已广泛覆盖办公、学习、创作、生活等多个场景.某网站组织经常使用豆包的人进行了AI知识竞赛.从参赛者中随机选出100人作为样本,并将这100人按成绩分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
(1)填空:______;
(2)求样本数据的中位数与第35百分位数;
(3)已知直方图中成绩在内的平均数为85;成绩在内的平均数为95.求成绩在内的平均数.
方法2 数据变化对平均数中位数方差极差的影响
【例2】(2026·海南省直辖县级单位·模拟预测)(多选)有一组互不相等的样本数据,现添加一个新的数据,得到新的一组数据,则新数据与原数据相比,下列情况可能发生的是( )
A.若平均数不变,但极差变大 B.若中位数不变,但平均数变小
C.若平均数不变,但方差变大 D.若中位数不变,但方差变小
【变式2-1】(25-26高三上·河北邯郸·期中)(多选)有一组样本数据互不相等,数据个数为奇数,从小到大排列为,,,,且这组数据的平均数与中位数相等,则正确的为( )
A.,,,的平均数等于,,,的平均数
B.,,,的中位数等于,,,的中位数
C.将样本数据的中位数去掉后得到的新数据的极差等于原样本数据的极差
D.将样本数据的中位数去掉后得到的新数据的方差等于原样本数据的方差
【变式2-2】(23-24高一下·广西·开学考试)(多选)某班语文老师对该班甲、乙、丙、丁4名同学连续7周每周阅读的天数(每周阅读天数可以是)进行统计,根据统计所得数据对这4名同学这7周每周的阅读天数分别做了如下描述:
甲:中位数为3,众数为5;
乙:中位数为4,极差为3;
丙:中位数为4,平均数为3;
丁:平均数为3,方差为3.
那么可以判断一周阅读天数一定没有出现7天的是( )
A.甲 B.乙 C.丙 D.丁
方法3 分层抽样的方差计算
【例3】(25-26高一上·山西忻州·期末)某中学举行了一次环保知识竞赛,为了了解本次竞赛的情况,从中抽取了100名学生的成绩作为样本进行统计,将其成绩(满分:100分)分成六组,得到如图所示频率分布直方图.
(1)求图中的值,并估计样本数据的平均数(同一组中的数据用该组区间的中点值作代表);
(2)若根据这次成绩,学校准备给成绩较高的前的学生颁发“环保小达人”荣誉证书,估计获得该荣誉证书的最低分数;
(3)若落在中的样本数据的平均数是54,方差是6,落在中的样本数据的平均数是66,方差是3,求这两组数据的总平均数和方差.
【变式3-1】(25-26高二上·江苏苏州·阶段检测)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)求样本成绩的众数、平均数;
(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩合并后的平均数和方差.
【变式3-2】(25-26高二上·广东汕尾·期中)某学校组织全校学生进行了一次“两会知识知多少”的问卷测试,已知所有学生的测试成绩均位于区间,从中随机取出了200名学生的测试成绩,绘制得到如图所示的频率分布直方图.
(1)求图中的值;
(2)根据此频率分布直方图依次求出众数、中位数、平均数、与分位数;
(3)若样本数据在的平均成绩,方差,在的平均成绩,方差,求在的平均成绩和方差;
学科网(北京)股份有限公3 / 3
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题06 统计
知识点1 简单随机抽样
1.简单随机抽样
(1)简单随机抽样
分为放回简单随机抽样和不放回简单随机抽样.除非特殊声明,本章简单随机抽样指不放回简单随机抽样.
(2)简单随机样本
通过简单随机抽样获得的样本称为简单随机样本.
(3)简单随机抽样的常用方法
实现简单随机抽样的方法很多,__抽签法_____和随机数法是比较常用的两种方法.
2.简单随机抽样的方法
(1)抽签法:先把总体中的(为正整数)个个体__编号______,并把编号依次分别写在形状、大小相同的签上(签可以是纸条、卡片或小球等),再将这些号签放在同一个不透明的箱子里_ 搅拌均匀_______,每次随机地从中抽取_一个_______,然后将箱中余下的号签__搅拌均匀______,再进行下一次抽取.如此下去,直到抽到预先设定的样本容量.抽签法的具体步骤:①给总体中的每个个体__编号______;②_抽签_______.
(2)随机数法:先把总体中的个个体依次编码为、、、、,然后利用工具(转盘或摸球、_随机数表_______、科学计算器或计算机)产生、、、、中的随机数,产生的随机数是几(号码重复,则舍去),就选第几号个体,直至选到预先设定的样本容量.
3.
放回简单随机抽样
不放回简单随机抽样
一般地,设一个总体含有(为正整数)个个体,从中___逐个___________抽取个个体作为样本
如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都_____相等_________,把这样的抽样方法叫做放回简单随机抽样
如果抽取是不放回的,且每次抽取时总体内___未进入样本的各个个体___________被抽到的概率都相等.把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(除非特殊说明,本章所称的简单随机抽样指不放回简单随机抽样).通过简单随机抽样获得的样本称为简单随机样本.
知识点2 分层随机抽样
(1)分层随机抽样的定义
按一个或多个变量把总体划分成若干个__子总体____________,每个个体___属于且仅属于_____一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这种抽样方法称为分层随机抽样,每一个子总体称为__层_______,分层随机抽样中,如果每层样本量都与层的大小成__比例______,那么称这种样本量的分配方式为比例分配.
(2)总体平均数和样本平均数公式
总体平均数公式:,样本平均数公式:
知识点3 频率分布直方图
频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中_最大值与最小值___的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取_左闭右开___区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,例如第一小组的频率是,作出频率分布表,
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示__.
知识点4 用样本估计总体
(1)总体取值规律的估计
①画频率分布直方图的五个步骤:___求极差________、____决定组距与组数_______、将数据分组、___列频率分布表________、画频率分布直方图.
②频率分布直方图的特点:各个小长方形的_面积____表示相应各组的频率;各小长方形的面积的总和等于.
③频率分布直方中,最高的小长方形底边中点的横坐标即是众数;中位数左边和右边的小长方形的面积和是相等的;平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
知识点5 百分位数
1.百分位数的定义:一般地,一组数据的p%()分位数是这样一个值,它使得这组数据中至少有________的数据不大于该值,且至少有________的数据不小于该值.
2.可以通过下面的步骤计算一组个数据的第百分位数:
第1步,按____从小到大______排列原始数据.
第2步,计算 _______
第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的_平均数______
3.四分位数:常用的分位数有第___25_____百分位数、第__50______百分位数、第___75_____百分位数,这三个分位数把一组由小到大排列后的数据分成__四等______份,因此称为四分位数.其中第__25______百分位数也称为第一个四分位数或下四分位数,第__75______百分位数也称为第三个四分位数或上四分位数.
知识点6 用样本的数字特征估计总体
(1)总体百分位数的估计
定义
意义
百分位数
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值
反映该组数中小于或等于该百分位数的分布特点
(2)常用样本的数字特征____中位数____、__众数______、__平均数______来估计总体的集中趋势.
(3)总体离散程度的估计
假设一组数据是,用表示这组数据的平均数,那么这个数的:①标准差;②方差.
2.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中出现次数最多的数
众数通常用于描述变量的中心位置,但显然它对其他数据信息的忽视使得其无法客观地反映总体特征
中位数
把一组数据按大小顺序排列,处在______中间_______位置的一个数据(或两个数据的平均数)
中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有个数,,,…,,那么这个数的平均数______________
平均数与每一个样本数据有关,可以反映样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
知识点7 方差与极差
1.方差的定义:如果的平均数为,那么方差可用求和符号表示为________=_______.
方差的性质:如果a,b为常数,那么的方差为________.
2.方差是刻画的是数据偏离平均数的_离散程度_______,方差计算公式:标准差:由于方差的单位是原始数据单位的平方,而刻画离散程度的一种理想度量应当具有与原始数据相同的单位.为此,计算方差的算术平方根,得,称之为标准差.
3.极差:是数据中最大值和最小值的___差_____,它计算简单,但没有充分利用其他数据.
4.分层抽样中的全部样本方差
如果将总体分为两层,第一、二层的样本量分别为,,样本均值分别为,,样本方差分别为,,则全部样本方差为________.
题型1 简单随机抽样
【例1】(24-25高二下·上海·阶段检测)某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39;现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,选出来的第3个零件编号是______.
0647 4373 8686 9647 3661 4698 6371 6233 2616 8045 6011 1410
9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179
【答案】26
【分析】按照随机数表抽样的规则,从指定位置开始逐次读取两位数字,筛选出到范围内不重复的编号,找到第三个有效编号即可。
【详解】首先明确有效编号范围为到。
读取规则为:从第一行第3列开始,从左到右依次读取两位数字,数值的编号舍去,重复出现的编号仅保留第一次读取的结果.
读取过程如下:
首次读取两位数字为47,大于39,舍去;
后续依次读取得到43、73、86、86、96、47,均大于39,全部舍去;
读取得到36,符合要求,为第1个有效编号;
后续依次读取得到61、46、98、63、71、62,均大于39,全部舍去;
读取得到33,符合要求,为第2个有效编号;
接下来读取得到26,符合要求,为第3个有效编号;
故所求第3个零件编号为26.
【变式1-1】(25-26高一下·福建厦门·期中)总体由编号为01,02,⋯ ,39,40的40个个体组成,从中选取6个个体.利用科学计算器依次生成一组随机数如下:𝟔5 𝟎𝟔 𝟓𝟖 𝟔𝟏 𝟓𝟒 𝟑𝟓 𝟎𝟐 𝟒𝟐 𝟑𝟓 𝟒𝟖 𝟗𝟔 𝟑𝟐 𝟏5 𝟓𝟐 39 𝟓𝟐 𝟒0 ,则选出来的第6个个体的编号为 _______
【答案】39
【分析】根据随机数表法抽样,先筛选出落在有效编号范围内的数,再剔除重复项后按顺序计数,即可得到第 6 个个体的编号.
【详解】因为生成的随机数中落在编号01,02,⋯ ,39,40内的数依次为:
06,35,02,35(重复),32,15,39,40,
剔除重复项后,按顺序选取的 6 个个体编号为:06,35,02,32,15,39,
故第6个个体的编号为39.
【变式1-2】(25-26高一下·全国·课后作业)(多选)(多选题)下列抽样的方式属于简单随机抽样的是( )
A.从500个个体中一次性抽取50个作为样本
B.将500个个体编号,把号签放在一个不透明的容器内搅拌均匀,从中逐个抽取50个作为样本
C.箱子共有100个零件,从中选出10个进行检验,在抽样操作中,从中任意取出一个零件进行检验后,再把它放回箱子
D.福利彩票用摇奖机摇奖
【答案】BD
【分析】根据简单随机抽样的概念依次判断即可.
【详解】根据简单随机抽样的概念:从有限总体中进行随机、不放回抽样,
可知 A不是逐个抽取,C不是不放回抽取,故不是简单随机抽样,BD是简单随机抽样.
故选:BD
题型2 分层抽样
【例2】(25-26高一下·湖南衡阳·期中)“一尺一拳一寸间,科学用眼护双眼”,为保护青少年视力,培养科学健康的用眼习惯,某市疾控中心联合教育局开展“青少年视力健康监测与科学用眼宣传”.计划从全市三所高中(A校2400人、B校1800人、C校1200人)的所有学生中,按人数比例采用分层随机抽样的方法抽取270人进行视力检测与用眼习惯问卷调查,则A校应抽取的人数为( )
A.60 B.90 C.120 D.150
【答案】C
【分析】根据分层随机抽样的比例分配原则求解即可.
【详解】因为A校2400人、B校1800人、C校1200人,
所以A校人数在三所高中人数中占比为,
所以按人数比例采用分层随机抽样的方法抽取270人时,A校应抽取的人数为.
【变式2-1】(25-26高一上·山西忻州·期末)某高中高一、高二、高三年级的学生人数分别为400,400,600,为了解各年级学生每天阅读的时间,用分层随机抽样的方法从中抽取样本,若样本中高一年级的学生有14人,则样本容量为( )
A.42 B.45 C.49 D.50
【答案】C
【分析】求出总人数得到抽样比,利用分层抽样中样本容量等于总人数乘以抽样比即可求解.
【详解】由题可得总人数为 人,抽样比
所以样本容量.
故选:C.
【变式2-2】(26-27高二上·云南·期末)某学校为了解学生参加跑步运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取70名学生,已知该校初中部和高中部分别有900名和1200名学生,则高中部应抽取的人数为( )
A.20 B.30 C.40 D.50
【答案】C
【分析】利用总体中各层的比等于样本中各层的比计算.
【详解】根据分层抽样的定义知,高中部共抽取人,
故选:C.
题型3 绘制频率分布直方图
【例3】(25-26高一下·全国·课堂例题)为了解一片经济林的生长情况,随机测量100株树木的底部周长,得到如下数据:(单位:cm)
135 98 102 110 99 121 110 96 100 103 125 97 117 113 110 92 102 109
104 112 109 124 87 131 97 102 123 104 104 128 105 123 111 103 105 92
114 108 104 102 129 126 97 100 115 111 106 117 104 109 111 89 110 121
80 120 121 104 108 118 129 99 90 99 121 123 107 111 91 100 99 101 116
97 102 108 111 95 107 101 102 108 117 99 118 106 119 97 126 108 123
119 98 121 101 113 102 103 104 108
(1)编制频率分布表;
(2)绘制频率分布直方图、折线图;
(3)估计该片经济林中底部周长小于100cm的树木约占多少,周长不小于120cm的树木约占多少?
【答案】(1)分布表见解析
(2)答案见解析
(3),19%
【分析】(1)根据数据计算极差,再分为11组,列表(包含:分组、频数、频率、频率/组距)即可;
(2)依据频率分布表画出频率分布直方图,并取矩形中点依次连线即可;
(3)分别计算周长小于100cm、周长不小于120cm的频率即可.
【详解】(1)从数据中可以看出,这组数据的最大值为135cm,最小值为80cm,故极差为55cm,可将其分为11组,组距为5.
从第一组开始,将各组的频数和频率/组距填入表中:
分组
频数
频率
频率/组距
1
0.01
0.002
2
0.02
0.004
4
0.04
0.008
14
0.14
0.028
24
0.24
0.048
15
0.15
0.030
12
0.12
0.024
9
0.09
0.018
11
0.11
0.022
6
0.06
0.012
2
0.02
0.004
合计
100
1
0.2
(2)这组数据的频率分布直方图、折线图如下图所示.
(3)从频率分布表可以看出,该样本中小于100cm的频率为,不小于120cm的频率为,
故可估计该片经济林中底部周长小于100cm的树林约占21%,周长不小于120cm的约占19%.
【变式3-1】(24-25高二·上海·课堂例题)从高一学生中抽取50名参加调研考试,成绩的分组及各组的频数如下(单位:分):,2;,3;,10;,15;,12;,8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在分的学生所占总体的百分比.
【答案】(1)答案见解析
(2)答案见解析
(3)
【分析】(1)根据题中所给数据 即可得出频率分布表;
(2)根据频率分布表画出频率分布直方图即可;
(3)根据频率分布直方图即可得解.
【详解】(1)频率分布表如下:
成绩分组
频数
频率
2
0.04
3
0.06
10
0.20
15
0.30
12
0.24
8
0.16
合计
50
1.00
(2)由题意知组距为10,取小矩形的高根据表格画出如下的频率分布直方图:
(3)由频率分布直方图,可估计成绩在分的学生所占总体的百分比是.
题型4 补全频率分布直方图
【例4】(24-25高一下·吉林长春·阶段检测)为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄情况如下表所示:
分组(单位:岁)
频数
频率
5
0.05
①
0.20
35
②
30
0.30
10
0.10
总计
100
1.00
(1)频率分布表中的①②位置应填什么数据?
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在岁的人数;
(3)现用比例分配的分层随机抽样从、、的样本中共抽取n名志愿者,已知从中抽取了2人,求n的值.
【答案】(1)①应填,②应填;
(2)直方图见解析,人数为175;
(3)15
【分析】(1)结合抽取的总人数,结合表格中数据,计算出结果;
(2)计算出区间的频率/组距,绘制直方图,并利用年龄在岁的频率得到答案;
(3)计算出三个区间的比例,从而计算出从、中分别抽取的人数,得到答案.
【详解】(1)①应填,②应填;
(2)区间的频率为0.20,故频率/组距为,
故补全频率分布直方图,如下:
这500名志愿者中年龄在岁的人数为;
(3)、、的人数比例为,
从中抽取了2人,故从、中分别抽取了7人和6人,
故.
【变式4-1】一家水果店的店长为了解本店苹果的日销售情况,记录了过去20天苹果的日销售量(单位:kg),结果如下:
83,107,91,94,80,80,100,75,102,89,
74,94,84,101,93,85,97,84,85,104
(1)请计算该水果店过去20天苹果日销售量的中位数和极差;
(2)请完成苹果日销售量的频率分布表,并画出频率分布直方图.
分组
频数
频率
合计
【答案】(1)中位数为90;极差为33.
(2)答案见解析
【分析】(1)由中位数和极差的计算方法计算即可;
(2)由绘制频率分布表和频率分布直方图的步骤进行绘制即可.
【详解】(1)将样本数据由小到大排序,结果如下:
74,75,80,80,83,84,84,85,85,89,91,93,94,94,97,100,101,102,104,107.
由样本容量为20可知,数据由小到大排序的中间项应为第10个、第11个数据,分别为89,91,故水果店过去30天苹果日销售量的中位数为.
由上可知,样本数据的最小值为74,最大值为107,故极差为.
(2)由(1)中对数据排序可得频率分布表如下:
分组
频数
频率
2
0.1
13
0.65
5
0.25
合计
20
1
由分组可知组距为20,将各组的频率除以组距可得数据如下:
分组
故频率分布直方图如图所示:
【变式4-2】某高校从参加今年自主招生考试的学生中随机抽取容量为的学生成绩样本,得频率分布表如下:
组号
分组
频率
频数
第一组
第二组
①
第三组
②
第四组
第五组
合计
(1)写出表中①、②位置的数据;
(2)估计成绩不低于分的学生约占多少;
(3)为了选拔出更优秀的学生,高校决定在第三、四、五组中用分层抽样法抽取名学生进行第二轮考核,分别求第三、四、五各组参加考核的人数.
【答案】(1),;(2);(3)、、.
【分析】(1)利用频数之和为得出①中的数据,利用频率之和得出②中的数据;
(2)将第三组、第四组、第五组频率相加得出答案;
(3)分别计算出第三、四、五组在样本中所占的比例,再分别乘以可得出第三、四、五各组参加考核的人数.
【详解】(1)由频数之和为,可知①中的数据为,
由频率之和为,可知②中的数据为;
(2)由题意可知,成绩不低于分的学生所占比为前三组频率之和,
因此,成绩不低于分的学生所占比为;
(3)由分层抽样的特点可知,第三组参加考核的人数为,
第四组参加考核的人数为,
第五组参加考核的人数为,
因此,第三、四、五各组参加考核的人数分别为、、.
【点睛】本题考查频率分布表中频数和频率的计算,考查分层抽样,要熟悉频率、频率和总容量之间的关系,另外要熟悉分层抽样的基本特点,考查计算能力,属于基础题.
题型5 树状图与折线图
【例5】(23-24高一上·全国·课后作业)(多选)(多选)某同学将全班同学期中考试的成绩绘制成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率折线图(如下图所示).
据此图,下列说法正确的是( )
A.由频率折线图可以看出,在[75,115)区间内,随着成绩的增加,各分数对应的人数一直增加
B.由频率折线图可以看出,在[115,145)区间内各分数段的人数逐渐减少
C.据频率折线图可以估计此次考试成绩的众数是115
D.据频率折线图可以看出有50%以上的同学的分数在[95,135)区间内
【答案】BCD
【分析】根据折线图分别判断各个选项即可.
【详解】由题图可知分数在[95,105)内的人数没有增加,故A错误;
由折线变化趋势可知B正确;
115对应的纵坐标最大,所以相应的频率最大,频数也最大,据此估计此次考试成绩的众数为115,故C正确;
由折线图的绘制过程及频率分布直方图中小矩形的面积意义可知D正确.
故选:BCD.
【变式5-1】(2024·河南平顶山·模拟预测)年月某市星级酒店经营数据统计分析如下图(“同比”指与去年同期相比):
下列说法错误的是( )
A.整体来看,年月该市星级酒店平均房价相对上一年有所提高
B.年月该市星级酒店平均房价的平均数超过元
C.年月这个月中,该市星级酒店在月份的平均房价创下个月来的最高纪录
D.年月该市星级酒店平均房价约为元
【答案】D
【分析】根据折线统计图和条形统计图逐项判断可得出合适的选项.
【详解】对于A选项,由图可知,仅有月同比增速为,其余个月同比增速均为正数,故A正确;
对于B选项,由图可知个数据的平均数为
,故B正确;
对于C选项,由图可知这个月的数据中,第个月的最大,故C正确;
对于D选项,由,得年月该市星级酒店平均房价大于元,故D错误.
故选:D.
【变式5-2】(24-25高一下·江苏宿迁·期末)(多选)中共中央决定,2021年在全党开展党史学习教育,激励全党不忘初心、牢记使命.某单位随机抽取了100名职工组织了“党史”知识竞赛,满分为100分(80分及以上为优良),并将所得成绩分组得到了如图所示的频率分布折线图(组距为10).从频率分布折线图中得到的这100名职工成绩的以下信息正确的是( )
A.成绩是49分或100分的职工人数是0
B.成绩优良的人数是35人
C.众数是75
D.平均分约为75.5分
【答案】ABD
【分析】根据频率分布折线图,利用频率、频数与样本容量的关系,分析各个选项.
【详解】成绩49分不属于,内,
成绩是49分的职工人数是0,故A选项正确,
由题意可得,,
成绩优良的人数为,故B选项正确,
由于频率分布折线图表示的是某一个范围的频率,不能判断众数是75,故C选项错误,
由图可知平均分,故D选项正确.
故选:ABD.
题型6 百分位数
【例6】(25-26高一下·湖南衡阳·期中)某班10名学生的数学测验成绩分别为85,88,90,92,95,96,98,100,105,105,则这组数据的第40百分位数是( )
A.95 B.93.5 C.92.5 D.92
【答案】B
【详解】因为,所以10个数据的第40百分位数是第4个和第5个数的平均数,
即.
【变式6-1】(25-26高二上·云南曲靖·期末)某教师得出10名小朋友阅读某课文的时间分别为8,12,11,6,9,17,16,14,12,19(单位:分钟),则这10个数据的第70百分位数是___________.
【答案】15
【详解】将这10个数据从小到大排列得6,8,9,11,12,12,14,16,17,19,
又,故第70百分位数是
【变式6-2】(25-26高三上·浙江绍兴·期末)某射击运动员的10枪成绩分别为,则这10枪成绩的第一四分位数是( )
A.9.0 B.9.1 C.9.2 D.9.4
【答案】B
【分析】根据百分位数的定义进行求解.
【详解】将该运动员的成绩按照从小到大的顺序进行排序可得:
又,所以这10枪成绩的第一四分位数是9.1,
故选:B
题型7 中位数众数平均数计算
【例7】(2025·安徽·模拟预测)(多选)电影《南京照相馆》在全国各地热映,某影院连续8天的观影人数(单位:百人)依次为90,120,80,160,180,160,170,160,则这组数据的( )
A.众数为160 B.中位数为170
C.平均数为140 D.第30百分位数为90
【答案】AC
【分析】将数据从小到大排列,再按照各数字特征的要求判断求值.
【详解】影院观影人数按由小到大排列依次为80,90,120,160,160,160,170,180,
选项A:这组数据的众数为160,所以选项A正确;
选项B:中位数为第四个数和第五个数的平均值,为所以选项B错误;
选项C:这组数据的平均数为,所以选项C正确;
选项D:因为,所以第30百分位数为第三个数,为120,所以D错误.
故选:AC.
【变式7-1】(24-25高一下·贵州黔东南·期末)(多选)凯里市某七天每天的最高气温分别是37,35,34,36,39,36,34(单位℃),则( )
A.该组数据的平均数为36 B.该组数据的极差为5
C.该组数据的第60百分位数为37 D.该组数据的中位数为36
【答案】BD
【分析】根据平均数、极差、百分位数和中位数定义和公式逐一求解即可得解.
【详解】该7个数据从小到大排列为:34,34,35,36,36,37,39,
所以改组数据的平均数为,极差为,中位数为第4个数据36,
因为,所以该组数据的第60百分位数为36.
故AC错误,BD正确.
故选:BD
【变式7-2】(25-26高一上·辽宁沈阳·期末)(多选)为了了解某次数学测验学生的得分情况,数学老师从甲、乙两个班分别随机选取若干名学生成绩,整理后作出图表.甲班所选取同学成绩作出图(1),且图中;乙班所选取同学成绩作出图(2),且图中有一个数字污损不清.则下列说法正确的是( )
A.
B.若图(2)中现有数据的平均数和污损前相等,则图(2)污损前数据的众数为76
C.若直方图中每个数据都用该区间的中点值代替,则估计甲班同学成绩的平均数为76
D.估计乙班同学成绩的75%分位数为85
【答案】BCD
【分析】根据频率分布直方图的性质,可判断A的正误;根据平均数的求法及众数的概念,可判断B的正误;根据频率分布直方图中平均数的求法,代数计算,可判断C的正误;根据百分位数的求法,可判断D的正误.
【详解】选项A:因为,所以设,则,
由题意得, 所以,解得,
所以,故A错误;
选项B:图(2)中现有数据为58,64,66,73,76,83,85,88,91,
平均数为,
因为现有数据的平均数和污损前相等,所以被污损数字为6,成绩为76,
则图(2)污损前数据的众数为76,故B正确;
选项C:甲班同学成绩的平均数 ,故C正确;
选项D:设被污损成绩为a,则,
所以乙班同学的成绩为58,64,66,73,76,a,83,85,88,91,
则,所以乙班同学成绩的75%分位数为85,故D正确.
故选:BCD
题型8 中位数众数平均数比较
【例8】(25-26高二上·广东江门·期末)如图所示,某单峰频率分布直方图在右边“拖尾”,若由频率分布直方图估计样本数据的平均数为,中位数为,众数为,则( )
A. B. C. D.
【答案】D
【分析】根据平均数,中位数,众数的概念结合图形分析判断.
【详解】由频率分布直方图可知,单峰不对称且右“拖尾”,最高峰偏左,众数最小.
平均数受极端值影响,与中位数相比,平均数总在“拖尾”那边,故平均数大于中位数,
故得.
故选:D.
【点睛】
【变式8-1】(2024·黑龙江哈尔滨·三模)如图所示,下列频率分布直方图显示了三种不同的形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图作出以下判断,正确的是( )
A.图(1)的平均数=中位数>众数 B.图(2)的众数<中位数<平均数
C.图(2)的平均数<众数<中位数 D.图(3)的中位数<平均数<众数
【答案】B
【分析】根据平均数,中位数,众数的概念结合图形分析判断.
【详解】图(1)的分布直方图是对称的,所以平均数=中位数=众数,故A错误;
图(2)频率直方图可得,单峰不对称且“右拖尾”,最高峰偏左,众数最小,
平均数易受极端值的影响,与中位数相比,平均数总是在“拖尾”那边,平均数大于中位数,故B正确,C错误;
同理图(3)“左拖尾”,众数最大,平均数小于中位数,故D错误.
故选:B.
【变式8-2】(2025·福建福州·模拟预测)(多选)近日,国家发展改革委等部门联合印发《完善碳排放统计核算体系工作方案》,指出要在2025年全面建立碳排放年报、快报制度,完善碳排放统计核算体系.专家在甲、乙、丙、丁四地2024年第4季度的周快报数据中随机抽取7周数据进行分析,整理出四地这7周各周内碳排放量超过的天数的数据特征:
地区
甲
乙
丙
丁
数据特征
中位数
3
中位数
1
均值
3
均值
2
众数
2
均值
<1
众数
4
方差
2
根据规定,若这7周中每周内碳排放量超过的天数都不多于5天,则可称该地区为低碳生态区.分析数据,四个地区中能判定为低碳生态区的是( )
A.甲地 B.乙地 C.丙地 D.丁地
【答案】BD
【分析】根据表中数据分别作出四个地方的数据分布,即可结合低碳生活区的定义求解.
【详解】将四地这7周各周内碳排放量超过的天数由小到大依次记为,,,,,,,分别对应第周.
对于甲地,由题可知(中位数),则可做表:
周
第周
第周
第周
第周
第周
第周
第周
天数
3
众数为二,可使,,显然可以是6或7,
此时第周内碳排放量超过的天数都多于5天,故无法判定甲地为低碳生态区;
对于乙地,由题可知(中位数),则可做表:
周
第周
第周
第周
第周
第周
第周
第周
天数
1
我们可以使,,,,尽可能小,
通过判断是否有可能来判断乙地是否能被判定为低碳生态区.
则,,可计算均值,化简得,
满足7周中每周内碳排放量超过的天数都不多于5天,因此可以判定乙地为低碳生态区;
对于丙丁,根据题意,我们无法直接判断对应的值,
但类似的,我们可以使,,,,,的和尽可能小,
通过判断是否有可能来判断丙地是否能被判定为低碳生态区.
则可以使,,,,,可做表:
周
第周
第周
第周
第周
第周
第周
第周
天数
0
1
2
3
4
4
均值,解得,
即此时第周内碳排放量超过的天数都多于5天,故无法判定丙地为低碳生态区;
对于乙地,假设,则方差,不合题意,
故,即满足7周中每周内碳排放量超过的天数都不多于5天,
因此可以判定丁地为低碳生态区;
综上所述,四地中能判定为低碳生态区的是乙地和丁地.
故选:BD
题型9 求方差极差标准差
【例9】(25-26高三下·广西玉林·阶段检测)(多选)是指线上引流、线下消费的商业模式,近年来随着技术的渗透,特别是智能配送使得配送时效显著提升,为消费者提供了“沉浸式购物”新体验.已知2020年到2024年我国到家市场规模(单位:千亿元)依次为,则这个数据的( )
A.极差是 B.中位数是
C.60%分位数是 D.平均数是
【答案】ABD
【详解】极差为,故A正确;
中位数是,故B正确;
,所以分位数是与的平均数,故C错误;
,故D正确.
【变式9-1】(2026·湖北黄石·模拟预测)(多选)已知数据,,…,的平均数为,标准差为,中位数为,极差为.由这组数据得到新数据,,…,,其中(),则下列命题中正确的是( )
A.新数据的平均数是 B.新数据的标准差是
C.新数据的中位数是 D.新数据的极差是
【答案】ACD
【分析】对于AB,由平均数,标准差的计算公式直接验算即可;对于 CD, 直接由中位数,极差的定义验证即可.
【详解】A,因为,所以 ,故A正确;
B,因为,所以 ,故B错误;
C、D,不妨设,所以,
而,所以,故C正确;
因为,所以 ,故D正确.
【变式9-2】(25-26高二下·重庆·期中)(多选)已知一组数据的平均数为5,方差为.现将该组数据进行以下两种处理:
操作1:加入一个新数据5,得到10个数据,方差为;
操作2:将每个数据都乘以2再加3,得到新数据,方差为,则下列说法正确的是( )
A. B. C. D.
【答案】AC
【详解】因为数据的平均数为5,所以,
因为加入一个新数据5,得到10个数据,
所以,
由新数据的方差为,所以,
所以,
所以,
所以,故A正确,B错误;
由题意,,,
所以
,故C正确,D错误.
题型10 平均数方差的性质
【例10】(25-26高二下·上海·阶段检测)已知数据,,,,的方差为1,则数据,,,,的方差为________.
【答案】9
【分析】根据方差的性质计算即可.
【详解】因为数据,,,,的方差为1,
所以数据,,,,的方差为.
【变式10-1】(25-26高一下·河北保定·阶段检测)已知样本数据,,,,的平均数为4,方差为2,则样本数据,,,,的平均数和方差分别为________和________.
【答案】 10 18
【分析】根据平均数及方差的计算公式计算即可得解.
【详解】由题意知,
.
所以
.
.
【变式10-2】(24-25高一下·广西南宁·期末)已知一组数据,,,,的平均数是2,方差是3,那么另一组数据,,,,的平均数为_____;方差为_____.
【答案】 1 12
【分析】根据平均数和方差的性质进行求解.
【详解】原数据平均数为2,新数据平均数为,
原数据方差,新数据方差为
故答案为:1,12
方法1 频率分布直方图估计平均数,百分位数与方差
【例1】(2026高三·全国·专题练习)某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示,则这次测试数学成绩的众数为________,这次测试数学成绩的中位数为________(精确到0.1),这次测试数学成绩的平均数为________.
【答案】
【分析】根据众数,中位数,平均值的概念依次计算得到答案.
【详解】根据频率分布直方图:
众数约为;
前三个矩形概率和为,设中位数为,则,解得.
平均数为:
.
故答案为:
【变式1-1】(25-26高二上·云南昆明·期中)某中学为了调查某年级学生劳动实践活动情况,对名学生某周的劳动时间统计如下:
周劳动时间(小时)
人数
20
80
140
200
60
(1)根据提供的数据,直接在答题卡中补充完整周劳动时间的频率分布直方图(用阴影填涂,需要书写具体步骤);
(2)求周劳动时间的平均数(同一组数据用该组区间的中点值为代表);
(3)根据图表,估计周劳动时间的样本数据的第80百分位数.
【答案】(1)答案见解析
(2)
(3)
【分析】(1)由统计表格中的数据,求得劳动时间在和的矩形的高度,进而得到频率分布直方图;
(2)根据频率分布直方图的平均数的计算公式,即可求解;
(3)设样本数据的第分位数为,求得前三个矩形和前四个矩形的面积,结合百分位数的计算方法,即可求解.
【详解】(1)解:由统计表格中的数据,可得劳动时间在和的人数分别为人和人,
因为频率分布直方图的组距为,
所以劳动时间在和的矩形的高度分别为:和,
可得其频率分布直方图为:
(2)解:由频率分布直方图的数据,可得其平均数为:
.
(3)解:根据题意,设样本数据的第分位数为,
前三个矩形的面积为,
前四个矩形的面积为,
所以位于之间,可得,
即样本数据的第分位数为.
【变式1-2】(25-26高二下·陕西商洛·阶段检测)人工智能的广泛应用,给人们的生活带来了便捷.截至2026年3月,AI软件已广泛覆盖办公、学习、创作、生活等多个场景.某网站组织经常使用豆包的人进行了AI知识竞赛.从参赛者中随机选出100人作为样本,并将这100人按成绩分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
(1)填空:______;
(2)求样本数据的中位数与第35百分位数;
(3)已知直方图中成绩在内的平均数为85;成绩在内的平均数为95.求成绩在内的平均数.
【答案】(1)0.005
(2)中位数为80;75
(3)89.
【详解】(1),故.
(2)前三组频率之和为,所以样本数据的中位数为80;
前两组频率之和为,则样本数据的第35百分位数落在第三组.
设第35百分位数为,则,解得,
(3)由题意,成绩在,内的人数分别为30,20,
所以成绩在内的平均数为:,
所以,成绩在内的平均数为89.
方法2 数据变化对平均数中位数方差极差的影响
【例2】(2026·海南省直辖县级单位·模拟预测)(多选)有一组互不相等的样本数据,现添加一个新的数据,得到新的一组数据,则新数据与原数据相比,下列情况可能发生的是( )
A.若平均数不变,但极差变大 B.若中位数不变,但平均数变小
C.若平均数不变,但方差变大 D.若中位数不变,但方差变小
【答案】BD
【分析】根据题意,设原来数据中,平均数为,方差为,结合中位数,平均数和方差的计算公式,逐项分析判断,即可求解.
【详解】不妨设原来数据中,平均数为,方差为,
对于A,若平均数不变,则,因为,
所以添加后极差仍然是,故A错误;
对于B,若中位数不变,则,只要,
新数据的平均数就比原来小,故B正确;
对于C,原来的方差,若平均数不变,则,
新的方差,
即平均数不变时,方差一定变小,故C错误;
对于D,例如,取原始数据为,可得原始数据的中位数为,方差为,
添加一个新数据,可得新数据的中位数仍为,此时新数据的方差为,
因为,方差变小,所以D正确.
【变式2-1】(25-26高三上·河北邯郸·期中)(多选)有一组样本数据互不相等,数据个数为奇数,从小到大排列为,,,,且这组数据的平均数与中位数相等,则正确的为( )
A.,,,的平均数等于,,,的平均数
B.,,,的中位数等于,,,的中位数
C.将样本数据的中位数去掉后得到的新数据的极差等于原样本数据的极差
D.将样本数据的中位数去掉后得到的新数据的方差等于原样本数据的方差
【答案】BC
【分析】设样本数据的个数为奇数,从小到大排列后的中位数为,由题意知平均数也为,故,,,的总和为.选项A,求出,,,的平均数为,若,则需,但是题目中未给出这个条件,选项A错误;选项B,去掉,后,剩余数据为,,,,共个数,中位数为,原来的数据,,,的中位数为, 中位数相等,选项B正确; 选项C,原来数据极差为,去掉中位数(非最大值或最小值)后,最大值与最小值仍存在,极差不变,选项C正确; 选项D,设,,,的平均数为,方差为,再求新数据的方差,比较大小,即可判断选项D错误.
【详解】设样本数据的个数为奇数,从小到大排列后的中位数为,
由题意知平均数也为,故,,,的总和为.
选项A,,,,的总和为,,,的总和减去和,
即,其中,,,的平均数为,
若,则需,但是题目中未给出这个条件,
反例如数据1,2,4,5,8,则,,此时2,4,5的平均数为,
故选项A错误;
选项B,去掉,后,,剩余数据为,,,,共个数,
中位数为,原来的数据,,,的中位数为, 中位数相等,故选项B正确;
选项C,原来数据极差为,去掉中位数(非最大值或最小值)后,最大值与最小值仍存在,极差不变,故选项C正确;
选项D,设,,,的平均数为,方差为,
,
设,,,,,,,的方差为,
,
又,
所以,
,
即:方差反映数据离散程度,去掉中间数后,数据离散程度增大,故选项D错误.
故选:BC.
【变式2-2】(23-24高一下·广西·开学考试)(多选)某班语文老师对该班甲、乙、丙、丁4名同学连续7周每周阅读的天数(每周阅读天数可以是)进行统计,根据统计所得数据对这4名同学这7周每周的阅读天数分别做了如下描述:
甲:中位数为3,众数为5;
乙:中位数为4,极差为3;
丙:中位数为4,平均数为3;
丁:平均数为3,方差为3.
那么可以判断一周阅读天数一定没有出现7天的是( )
A.甲 B.乙 C.丙 D.丁
【答案】ACD
【分析】利用中位数,众数,平均数,极差的意义结合举反例判断ABC,计算方差并且讨论求解.
【详解】对于A,因为中位数为3,众数为5,所以这7个数从小到大排列后,第4个数是3,所
以中一定有一个数出现2次,5出现3次,所以这7个数中一定没有出现7,则正确.
对于B,因为中位数为4,极差为3,所以这7个数可以是,则B错误.
对于C,若出现1个7,则这7个数从小到大排列后,后4个数之和最小为19,前3个数之和最小为3,
从而这7个数的平均数最小为,即这7个数的平均数不可能为3,故C正确.
对于,设这7个数分别为,则,
.
若7,则
,
从而这6个数可能是或或
或或或或或
或或,这与矛盾,
即这7个数中一定没有出现7,故D正确.
故选:ACD
【点睛】关键点睛,本题考查数据的数字特征,关键是对D选项列举所有可能值推出矛盾.
方法3 分层抽样的方差计算
【例3】(25-26高一上·山西忻州·期末)某中学举行了一次环保知识竞赛,为了了解本次竞赛的情况,从中抽取了100名学生的成绩作为样本进行统计,将其成绩(满分:100分)分成六组,得到如图所示频率分布直方图.
(1)求图中的值,并估计样本数据的平均数(同一组中的数据用该组区间的中点值作代表);
(2)若根据这次成绩,学校准备给成绩较高的前的学生颁发“环保小达人”荣誉证书,估计获得该荣誉证书的最低分数;
(3)若落在中的样本数据的平均数是54,方差是6,落在中的样本数据的平均数是66,方差是3,求这两组数据的总平均数和方差.
【答案】(1);;
(2);
(3);.
【分析】(1)由概率之和为1即可求解a,由频率分布直方图的平均数计算方法直接计算即可求解;
(2)由成绩在的频率和成绩在的频率即可列等量关系求解;
(3)由分层随机抽样的平均数和方差公式直接计算即可得解.
【详解】(1)由题可得,
所以样本数据的平均数约为;
(2)成绩较高的前的学生对应的频率为,
成绩在的频率为,
成绩在的频率为,
设获得该荣誉证书的最低分数为x,则;
(3)由题可得成绩在和的频数分别为,
所以这两组数据的总平均数和方差.
【变式3-1】(25-26高二上·江苏苏州·阶段检测)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)求样本成绩的众数、平均数;
(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩合并后的平均数和方差.
【答案】(1)
(2)众数为75,平均数为74;
(3)平均数为62,方差为37.
【分析】(1)根据频率和为1求得;
(2)根据直方图,及众数、平均数求法求值;
(3)根据已知求样本总均值,再由总方差公式求样本总方差.
【详解】(1)由每组小矩形的面积之和为1,
得,解得;
(2)由,得样本成绩的众数为75,
由,
得样本成绩的平均数为74.
(3)由频率分布直方图知,成绩在的市民人数为,
成绩在的市民人数为,
所以,
总方差为.
【变式3-2】(25-26高二上·广东汕尾·期中)某学校组织全校学生进行了一次“两会知识知多少”的问卷测试,已知所有学生的测试成绩均位于区间,从中随机取出了200名学生的测试成绩,绘制得到如图所示的频率分布直方图.
(1)求图中的值;
(2)根据此频率分布直方图依次求出众数、中位数、平均数、与分位数;
(3)若样本数据在的平均成绩,方差,在的平均成绩,方差,求在的平均成绩和方差;
【答案】(1)
(2)众数:75、中位数:75、平均数:74.5、80%分位数:86
(3),
【分析】(1)利用频率分布直方图的性质,即可求解;
(2)利用频率分布直方图,结合众数、中位数、平均数、及分位数的定义,即可求解;
(3)根据条件,利用分层抽样平均数和方差的计算方法,即可求解.
【详解】(1)根据题意可得,解得,
所以的值为.
(2)由频率分布直方图知,样本数据在,,,,的频率分别为:,
所以众数落在区间内,故众数为,
设中位数为,则,解得,所以中位数为,
由频率分布直方图知平均数为,
设分位数为,则,解得,
所以第分位数为86.
(3)因为的人数为,
的人数为,
所以在平均成绩为,
在的成绩的方差为.
学科网(北京)股份有限公3 / 3
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$