内容正文:
专题06 统计(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 抽签法的应用 题型02 随机数法的应用
题型03 分层抽样中各层样本容量的计算 题型04 频率分布直方图的绘制与应用
题型05 频率分布直方图中的相关计算问题 题型06 百分位数在具体数据或图中的应用
题型07 在频率分布直方图中求平均数、中位数、众数 题型08 由统计信息解决实际问题
过·分层验收 阶梯实战演练,验收复习成效
核心考点(期末常考)
复习目标(行为动词+标准)
考情总结(命题趋势+易错点)
1. 三种抽样方法辨析:简单随机抽样、系统抽样、分层抽样的定义、适用场景、抽样特征及等概率性质
熟记三类抽样方法的核心特征与适用条件,能精准辨析不同抽样类型,可规范完成分层抽样的比例计算与样本抽取求解。
命题趋势:期末选择填空基础高频考点,侧重场景辨析与简单计算,难度偏低。易错点:混淆三类抽样的适用总体特征;误认为系统抽样、分层抽样不是等概率抽样;分层抽样比例计算失误、样本数量求解出错。
2. 频率分布直方图分析:直方图结构认知、频率/组距、频率计算、整体数据分布分析
理解频率分布直方图的绘图规则与核心公式,能准确读取图表数据,可独立计算频率、频数,精准分析数据整体分布特征。
命题趋势:期末必考图表题型,选择、填空、解答题均可能考查,侧重数据处理能力。易错点:混淆纵坐标(频率/组距)与频率,直接用纵坐标当作频率计算;忽略组距乘积步骤;无法通过直方图判断数据集中、离散趋势。
3. 数据集中趋势数字特征:平均数、中位数、众数的求解与实际意义
掌握三类集中趋势数字特征的计算方法,能根据数据或图表求解对应数值,可结合实际场景分析各数字特征的统计意义。
命题趋势:基础计算高频考点,常结合直方图、样本数据综合考查。易错点:直方图中中位数区间判断错误、计算偏差;混淆众数、中位数、平均数的适用场景;极端值对平均数的影响判断失误。
4. 数据离散程度与数据变换:方差、标准差求解,线性变换下均值与方差的规律应用
熟记方差、标准差计算公式与统计意义,掌握数据线性变换的数值变化规律,可规范完成数据计算与参数求解。
命题趋势:本章中档核心考点,期末高频考查数据变换规律,区分基础分数。易错点:方差计算公式记忆错误;线性变换中方差遗漏系数平方;混淆均值与方差的变换规则,概念记忆混乱。
知识01 简单随机抽样
定义:逐个抽取、总体个体有限、不放回、等概率抽样,常用方法为抽签法、随机数表法。
示例:从 50 名同学中抽取 10 人调查身高,采用抽签方式依次抽取,属于简单随机抽样。
易错点:1. 放回抽样不属于简单随机抽样;2. 易误解 “抽样顺序会影响抽样概率”,实际抽样顺序不影响等概率性。
知识02 系统抽样
步骤:编号→分段→确定起始编号→按固定间隔抽取。分段间隔公式:k = 总体容量 N / 样本容量 n。
示例:总体有 100 个个体,需抽取 20 个样本,分段间隔 k=100/20=5,确定起始编号后,按编号依次抽取(如起始编号为 3,抽取 3、8、13……)。
易错点:当总体总数 N 不能被样本容量 n 整除时,未先剔除多余个体就直接计算间隔,导致抽样出错。
知识03 分层抽样
核心:按比例从不同层(差异明显的群体)中抽取样本,每层抽样比例与总体抽样比一致。抽样比公式:抽样比 = 样本容量 / 总体容量。
示例:高一有 200 人、高二有 300 人,总体容量 500 人,需抽取 50 人样本,抽样比为 50/500=1/10,因此从高一抽取 200×1/10=20 人,从高二抽取 300×1/10=30 人,符合 2:3 的分层比例。
易错点:1. 各层抽样比例不统一(未按总体抽样比计算);2. 分层标准混淆(如按性别分层却误按年级抽样),导致抽样偏差。
知识04 用样本估计总体
知识点 1 频率分布表、频率分布直方图
核心关系:1. 频率 = 频数 / 样本容量;2. 频率分布直方图中,每个矩形的面积 = 频率(矩形面积 = 组距 × 矩形高度)。
示例:某组数据组距为 2,频率分布直方图中对应矩形的高度为 0.15,则该组的频率 = 2×0.15=0.3。
易错点:1. 误将直方图的纵坐标(高度)当作频率;2. 计算频率时忘记用 “组距 × 高度”,直接用高度代替频率。
知识05 频率分布折线图、茎叶图
特点:1. 频率分布折线图是连接直方图矩形上边中点得到的,反映数据分布趋势;2. 茎叶图保留原始数据,便于对比两组数据的分布特征(如集中趋势、离散程度)。
示例:统计甲、乙两组学生的数学成绩,用茎叶图可直观看出甲组高分段人数更多,乙组成绩更集中在中等区间。
易错点:1. 读取茎叶图时看错数位(如将 “茎为 1、叶为 5” 看成 15,而非 10+5=15);2. 统计茎叶图中数据个数时遗漏或重复计数。
知识06 众数、中位数、平均数
定义:1. 众数:一组数据中出现次数最多的数(可多个);2. 中位数:将数据从小到大排序后,位于中间位置的数(若数据个数为偶数,取中间两个数的平均值);3. 平均数:所有数据的总和除以数据个数(算术平均数)。
示例:数据 1,2,2,3 中,众数为 2(出现 2 次),中位数为(2+2)/2=2,平均数为(1+2+2+3)/4=2。
易错点:1. 偶数个数据求中位数时,忘记取中间两个数的平均值(直接取中间一个数);2. 在频率分布直方图中找中位数时,不会通过 “累计频率达到 0.5” 确定中位数所在区间,误将矩形中点当作中位数。
知识07 方差与标准差
定义:1. 方差:反映数据与平均数的偏离程度,公式为 s² = (1/n)×Σ(xi - x̄)²(其中 xi 为单个数据,x̄为平均数,n 为数据个数);2. 标准差:方差的算术平方根(s=√s²),单位与原始数据一致,更易解释。
示例:数据 2,4 的平均数 x̄=3,方差 s² = [(2-3)² + (4-3)²]/2 = (1+1)/2=1,标准差 s=√1=1。
易错点:1. 计算方差时忘记除以数据个数 n(直接计算 Σ(xi - x̄)²);2. 混淆方差与标准差的概念(如用方差描述数据波动时,忽略单位差异)。
题型一 抽签法的应用
解|题|技|巧
(抽签法的应用条件及注意点)
(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
(2)应用抽签法时应注意以下几点:
①分段时,如果已有分段可不必重新分段;②签要求大小、形状完全相同;③号签要均匀搅拌;
④要逐一不放回的抽取.
【典例1】(多选)下列说法中正确的有( )
A.抽签法是简单随机抽样
B.随机数表法是简单随机抽样
C.简单随机抽样要求被抽取样本的总体的个数有限
D.简单随机抽样可以从总体中一次性抽出样本
【答案】ABC
【分析】由简单随机抽样的定义逐项判断即可.
【详解】抽签法是简单随机抽样,所以A正确;
随机数表法是简单随机抽样,所以B正确;
简单随机抽样要求被抽取样本的总体的个数有限,所以C正确;
简单随机抽样要求从总体中逐个抽出样本,所以D错误.
故选:ABC.
【变式1】先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个______________的盒子里,充分搅拌.最后从盒中不放回地抽取号签,使与号签上的编号对应的个体进入样本.直到抽足样本所需要的个体数
【答案】不透明
【变式2】在对101个人进行一次抽样时,先采用抽签法从中剔除1个人,再在剩余的100个人中随机抽取10个人,那么下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人在整个抽样过程中被抽到的机会均等
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
【答案】B
【分析】根据随机抽样的特征,即可判断出结果.
【详解】由于第一次剔除时采用抽签法,对每个人来说可能性相等,
然后随机抽取10人对每个人的机会也是均等的,
所以总的来说每个人的机会都是均等的,被抽到的可能性都是相等的.
故选:B.
题型二 随机数法的应用
答|题|技|巧
(随机数法解题步骤)
第一步,编号.第二步,生成随机数.第三步,记录样本编号.第四步,抽取样本..
【典例1】某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39;现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,选出来的第3个零件编号是______.
0647 4373 8686 9647 3661 4698 6371 6233 2616 8045 6011 1410
9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179
【答案】26
【分析】按照随机数表抽样的规则,从指定位置开始逐次读取两位数字,筛选出到范围内不重复的编号,找到第三个有效编号即可。
【详解】首先明确有效编号范围为到。
读取规则为:从第一行第3列开始,从左到右依次读取两位数字,数值的编号舍去,重复出现的编号仅保留第一次读取的结果.
读取过程如下:
首次读取两位数字为47,大于39,舍去;
后续依次读取得到43、73、86、86、96、47,均大于39,全部舍去;
读取得到36,符合要求,为第1个有效编号;
后续依次读取得到61、46、98、63、71、62,均大于39,全部舍去;
读取得到33,符合要求,为第2个有效编号;
接下来读取得到26,符合要求,为第3个有效编号;
故所求第3个零件编号为26.
【变式1】某校对高一新生进行了数学摸底测试,现利用随机数表从中抽取60名学生进行成绩分析,先将全体900名学生编号为001,002,003,…,900,从中抽取60个样本,并提供了随机数表的第1行到第2行,如下所示.若从该随机数表中第1行第4列开始向右读取数据,则得到的第5个样本的编号为( )
95226000 49840128 66175168 39682927 43772366 27096623
92580956 43890890 06482834 59741458 29778149 64608925
A.175 B.866 C.751 D.615
【答案】A
【详解】从随机数表中第1行第4列开始向右读取数据,前5个数据依次是260,004,012,866,175,所以得到的第5个样本的编号为175.
【变式2】某校从450名同学中用随机数法抽取30人参加这一项调查.将这450名同学编号为,假设从第1行第7列的数字开始,则第6个被抽到的同学的编号为__________.
64844217 55721754 55068331
04744767 21763350 25839212
06766301 63785916 95556719
【答案】176
【详解】第1行第7列的数字开始,依次抽取175,068,331,047,447,176,
故第6个被抽到的同学的编号为176
题型三 分层抽样中各层样本容量的计算
答|题|技|巧
(分层抽样中每层抽取的个体数的确定方法)
(1)已知总体容量、样本容量及各层的个体数时,首先确定抽样比,其中为总体容量,为样本容量;然后确定每层抽取的个体的个数,其中为第层的个体数,为第层应抽取的个体数.
(2)已知各层个体数之比为,样本容量为时,每层抽取的个体数为.
【典例1】某调查小组为了解本月本市居民的用水情况,利用分层随机抽样的方法从X,Y两个社区抽取60名居民,已知X社区有4000人,Y社区有2 000人.经计算在抽取的60名居民中,X社区居民用水量的平均数和方差分别为15和80,Y社区居民用水量的平均数和方差分别为18和100,则两个社区的居民用水量的方差的估计值为( )
A.86.7 B.88.7 C.90 D.100
【答案】B
【分析】先根据分层抽样比例算出、社区各自抽取的样本量,再计算60名样本居民用水量的总平均数,最后套用分层随机抽样的总体方差公式计算得到方差估计值.
【详解】总人数为(人),抽取人,则抽样比为.
而社区的权重为,社区的权重为.
这两个社区的居民用水量的平均数的估计值为,
所以这两个社区的居民用水量的方差的估计值如下,
为.
【变式1】某学校高一年级共有1 500名学生,从中随机抽取300名学生以了解学生对四大名著的阅读情况,其中只阅读两本名著的有135人,至少阅读三本名著的有96人,请估计该校高一全体1 500名学生中,至多阅读一本名著的人数约为( )
A.350 B.345 C.450 D.485
【答案】B
【分析】先计算抽取的300名样本中至多阅读一本名著的人数,算出样本中该情况的频率,进而即得.
【详解】在这300人中,至多阅读一本名著的人数为(人),
则高一全体名学生中,至多阅读一本名著的人数约为.
【变式2】甲校有2000名学生,乙校有2400名学生,丙校有2600名学生,为统计三校学生某方面的情况,采用分层随机抽样法抽取一个容量为70的样本,应在这三校分别抽取学生( )
A.20人,24人,26人 B.26人,24人,20人
C.20人,26人,24人 D.24人,26人,20人
【答案】A
【详解】因为抽样比为,
所以甲校抽取人,乙校抽取人,丙校抽取人.
题型四 频率分布直方图的绘制与应用
答|题|技|巧
(绘制频率分布直方图的注意事项)
1、在列频率分布表时,极差、组距、组数有如下关系:
(1)若为整数,则=组数;
(2)若不为整数,则的整数部分+1=组数.
2、组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
【典例1】(多选)文明城市是反映城市整体文明水平的综合性荣誉称号,某市为了提高市民对文明城市创建的认识,举办了“创建文明城市知识竞赛”,从所有答卷中随机抽取100份作为样本,将样本的成绩(成绩均不低于50分)分为5组:,,,,,并绘制出频率分布直方图,如图所示,则下列结论正确的是( )
A.
B.样本答卷成绩的中位数为70
C.样本答卷成绩的平均分为80(同一组数据用该组区间的中点值为代表)
D.在样本答卷成绩为、的两组市民中,用分层抽样的方法抽取6人,则样本答卷成绩在中的市民应抽4人
【答案】ABD
【分析】根据频率之和为1即可求,根据频率分布直方图里中位数、平均数的求法即可判断B、C,根据分层抽样相关概念即可判断D.
【详解】选项A:由频率之和为1,即:,可得,故A正确;
选项B:由于前两组频率之和恰好是0.5,所以中位数是70,故B正确;
选项C:,故C错误;
选项D:由于成绩在、两组的人数分别为10人、5人,则在中应该抽取:人,故D正确;
故选:ABD.
【变式1】宜春明月山是国家森林公园、省级风景名胜区.为更好地提升旅游品质,随机选择100名游客对景区进行满意度评分(满分100分),根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值;
(2)若采用按比例分层随机抽样的方法从评分在,的两组中共抽取3人,再从这3人中随机抽取2人进行交流,求选取的2人评分分别在和内的概率.
【答案】(1)
(2)
【分析】(1)由频率分布直方图的性质可求解;
(2)先确定每个区间抽取的人数,再利用列举法求概率.
【详解】(1)由频率分布直方图中各小矩形面积和为1,可得,
解得;
(2)因为评分在,的频率分别为0.05,0.1,所以在中抽取(人),设为a,
在中抽取(人),设为B,C.
记事件A表示从这3人中随机抽取2人进行交流,选取的2人评分分别在和内.
从这3人中随机抽取2人,则有,,,共3个样本点,
选取的2人评分分别在和内的有,,共2个样本点,
所以,
即选取的2人评分分别在和内的概率为.
【变式2】文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.长春市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均不低于40分)分成六段:,,……,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)试估计样本成绩的平均数和上四分位数:
(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩合并后的平均数和方差.
【答案】(1)
(2)平均数为74,上四分位数为84;
(3)平均数,方差.
【分析】(1)由频率之和为1得到关于的方程,解出即可.
(2)由中间数为代表求出平均数,由频率分布直方图求上四分位数(即第25百分位数)的计算公式即可求解;
(3)利用分层抽样的平均数和方差的计算公式即可求解.
【详解】(1)由所有小矩形面积之和为1得,,解得
(2)平均数为
成绩落在内的频率为,
落在内的频率为,
落在内的频率为,
落在内的频率为,
设上四分位数为m,由,得,故上四分位数为84.
(3)由题,成绩在有人,
成绩在有人
则这两组成绩的总平均数为,
由样本方差计算总体方差公式可得总方差为:
.
题型五 频率分布直方图中的相关计算问题
答|题|技|巧
1、因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
2、在频率分布直方图中,各小长方形的面积之和等于1.
3、=样本量.
4、在频率分布直方图中,各长方形的面积之比等于频率之比,各长方形的高度之比也等于频率之比.
【典例1】某校高一年级和高二年级分别有学生3 000名和2 000名,该校为了了解本校高一和高二两个年级的学生在五一假期期间的课外阅读情况,利用简单随机抽样的方法在两个年级分别抽取100名学生,记录每人假期期间每天的平均阅读时间(单位:分钟),得到如图所示的频率分布直方图:
(1)求高一和高二两个年级的100名学生在五一假期期间阅读时间的第80百分位数(保留整数).
(2)两个年级的100名学生在五一假期期间平均每天阅读时间超过一个小时的百分比各是多少?
(3)从众数和平均数两个角度来分析两个年级的阅读情况(每组的值用该组的中点值作代表).
【答案】(1)82,77
(2),
(3)答案见解析
【分析】(1)先根据频率分布直方图所有矩形面积和为1求出高一的未知参数,再分别计算高一、高二的累积频率,确定第80百分位数所在分组,最后代入百分位数计算公式求出对应结果;
(2)1小时等于60分钟,分别统计高一、高二平均阅读时间超过60分钟的累计频率,即可得到两个年级对应情况的百分比;
(3)先根据频率分布直方图得到两个年级阅读时间的众数,再以每组中点为代表计算两个年级的平均阅读时间,最后对比两个年级的众数和平均数结果,分析两个年级的阅读情况.
【详解】(1)由题可知,,
所以.
设高一年级100名学生在五一假期期间阅读时间的第80百分位数为m,则,解得.
设高二年级100名学生在五一假期期间阅读时间的第80百分位数为n,
则,解得.
(2)高一年级100名学生在五一假期期间,阅读时间超过一个小时的百分比为,
高二年级100名学生在五一假期期间,阅读时间超过一个小时的百分比为.
(3)由频率分布直方图可知,高一年级100名学生在五一假期期间阅读时间的众数为75,
平均数为.
高二年级100名学生在五一假期期间阅读时间的众数为65,
平均数为.
由此可以看出,无论从阅读时间的众数来讲,还是从阅读的平均时间来看,高一年级都明显高于高二年级,所以高一学生的阅读情况要好于高二学生的阅读情况,这可能与高二的学业加重有关.
【变式1】为了解高二学生阅读时间的分配情况,随机抽取了500名高二学生进行在线调查,得到了日平均阅读时间(单位:小时),并将样本数据分成九组,绘制成频率分布直方图.
(1)求频率分布直方图中的值;
(2)为进一步了解这500名学生的时间分配情况,从三组的学生中,采用分层抽样的方法抽取了10人.现从这10人中随机抽取3人,求在内的学生人数恰有2人的概率;
(3)从这500名学生中随机抽取1人,记所抽取学生的日平均阅读时间在内为事件,所抽取学生的日平均阅读时间在内为事件,判断事件和是否互相独立,并说明理由.
【答案】(1)
(2)
(3)与互相独立
【详解】(1)频率分布直方图中,每个小矩形的面积=组距×频率密度=该组的频率,
所有小矩形面积之和等于1.
各组组距均为2,则:,
化简得:,解得:.
(2)由题可知,样本总数为500人,组距为2,
则可计算得组频率为,人数为;
组频率为,人数为;
组频率为,人数为.
三组总人数为,
从中抽取10人,所以抽样比例为.
计算可得组抽人;
组抽人;组抽人.
从这10人中随机抽取3人,总基本事件数为:,
组有4人,从中选2人:,
其余1人从另外两组共人中选:.
则从10人中随机抽取3人,其中内的学生人数恰有2人的概率为:
.
(3)已知频率密度,计算可得出各组频率为:
组频率为,组频率为,
组频率为,组频率为,
组频率为,组频率为,
组频率为,组频率为,
组频率为.
事件:阅读时间在内,包括和两组,.
事件:阅读时间在内,包括、、、四组,
.
事件:阅读时间同时满足和,即区间,.
若与独立,则.
计算可得,
因为,所以,
因此与互相独立.
【变式2】某校根据学生情况将物理考试成绩进行赋分,目的是为了更好地对新高考改革中不同选科学生的考试成绩进行横向对比,经过对全校300名学生的成绩统计,可得到如图所示的频率分布直方图,则这些同学物理成绩大于等于80分的人数为( )
A.60 B.90 C.120 D.150
【答案】B
【详解】由频率分布直方图的性质可得,,
解得.
这些同学物理成绩大于等于80分的人数为.
题型六 百分位数在具体数据或图中的应用
答|题|技|巧
(计算一组n个数据的第p百分位数的步骤)
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
(频率直方图计算百分位数的规律)
求总体百分位数的估计,首先要从小到大排列数据,频率直方图看作数据均匀分布在直方图上,然后计算出,当i不是整数要取整,频率直方图要计算出比例值.
【典例1】一组数据的第60百分位数为( )
A.29 B.30 C.31 D.32
【答案】C
【详解】由题意得,则第60百分位数为.
【变式1】(多选)已知一组从小到大排列的样本数据,其中,则下列说法中正确的是( )
A.若第一项与最后一项的数据忽略不计,则样本数据的极差减小
B.这组样本数据的上四分位数为
C.这组样本数据的平均数为
D.若为这组样本数据增加两个数据,则众数可能不变
【答案】CD
【分析】根据极差、百分位数的计算方法、算术平均数的求法,以及众数的概念,即可对四个选项作出判断.
【详解】解:由题意知,这组样本数据从小到大排列,原数据极差为,去掉第一项和最后一项之后,
极差为,而,,所以,极差可能不变或减小,故A错误;
因为,且,因为计算结果不是整数,所以上四分位数取第5位,故上四分位数为,故B错误;
由题得这组样本数据的平均数,故C正确;
根据题意,这组样本数据从小到大排列,若增加的两个数据与原来的样本数据均不同,则众数不变,故正确.
【变式2】为纪念中国人民抗日战争暨世界反法西斯战争胜利80周年,某地面向全体中学生开展了以“铭记历史、缅怀先烈、珍爱和平、开创未来”为主题的知识竞赛活动.现从中随机抽取了100名学生的成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则估计这组数据的第85百分位数为( )
A.85 B.86 C.86.5 D.87
【答案】B
【分析】运用频率分布直方图的性质求出,结合百分位数的定义求解即可.
【详解】由,解得.
所以前4组频率和为,前5组频率和为,
设这组数据的第85百分位数为,则,解得.
题型七 在频率分布直方图中求平均数、中位数、众数
答|题|技|巧
(知频率分布直方图中求平均数、中位数、众数)
(1)众数:频率分布直方图中,最高矩形的底边中点的横坐标.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数在频率分布直方图中等于每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.
【典例1】学校正在研究基于DeepSeek的人工智能答疑系统,更方便地帮助学生解决学习中碰到的问题.学校为了测试答疑系统是否准确,于是利用DeepSeek解答了50份不同的模拟试卷,收集其准确率,整理得到如下频率分布直方图.
(1)求图中的值及这组数据的中位数;
(2)若平均准确率不低于90%,则可以认为这个系统是准确的,并投入使用.请问,现在这个系统能否投入使用,并说明理由.
【答案】(1),
(2)这个系统能投入使用,理由见解析
【分析】(1)借助频率和为1计算即可得的值,利用中位数定义计算即可得结果;
(2)计算出准确率的平均数即可得结果.
【详解】(1)由频率分布直方图可得,解得;
设中位数为,前两个矩形的面积之和为,
前三个矩形的面积之和为,
所以,则,解得,
所以估计准确率的中位数为.
(2)估计准确率的平均数为,
,所以认为这个系统是准确的,并投入使用.
【变式1】某校在“普及环保知识节”后,为了进一步增强环保意识,从本校学生中随机抽取了一批学生参加环保基础知识测试.经统计,这批学生测试的分数全部介于75至100之间.将数据分成以下5组:第1组,第2组,第3组,第4组,第5组,得到如图所示的频率分布直方图.
(1)求的值;
(2)现采用分层抽样的方法,从第2,3,4组中随机抽取17名学生座谈,求每组抽取的学生人数;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计随机抽取学生所得测试分数的平均值.
【答案】(1);
(2)从第,,组应依次抽取人,人,人;
(3).
【分析】(1)利用频率分布直方图各小长方形面积和为1列式求解.
(2)由分层抽样的抽样比求解.
(3)由频率分布直方图计算出随机抽取学生所得测试分数的平均值.
【详解】(1)由频率分布直方图中各小矩形面积和为1,得,
所以.
(2)由频率分布直方图知,第2,3,4组的学生人数之比为,
所以每组抽取的人数分别为:第2组抽人;第3组抽人;第4组抽人.
(3)抽取学生测试分数的平均值为.
【变式2】(多选)某环保监测站对某流域的个监测点的水质指数进行抽样检测,数据按、、、分组,得到频率分布直方图如图所示.已知数值越高水质越优,且水质指数不低于的被称为“I类优质水”,则下列说法正确的是( )
A.
B.若每组数据均以中点值为代表,则估计样本水质指数的平均数为
C.估计该流域水质指数不低于的监测点有个
D.估计该流域水质为“I类优质水”的监测点的占比为
【答案】ABD
【分析】在频率分布直方图中,所有矩形面积之和为,可得出关于的等式,可判断A选项;利用频率分布直方图可求出样本水质指数的平均数,可判断B选项;求出水质指数不低于的频率,再利用频数、频率和总容量的关系可判断C选项;求出水质指数不低于的频率,可判断D选项.
【详解】对于A,在频率分布直方图中,所有矩形面积之和为,
所以,解得,故A正确;
对于B,样本水质指数的平均数为
,故B正确;
对于C,由频率分布直方图可知,水质指数不低于的频率为,
则估计该流域水质指数不低于的监测点有个,故C错误;
对于D,第5组的频率为,
故水质指数不低于的频率为,
则估计该流域水质为“I类优质水”的监测点的占比为,故D正确.
题型八 由统计信息解决实际问题
答|题|技|巧
(用样本的标准差、方差估计总体的方法)
(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.
(2)标准差、方差的取值范围是.
(3)因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.
【典例1】小张记录了2025年1月至11月期间每月跑步的里程(单位:十公里)数据,整理并绘制了如图所示的折线图.根据该折线图,下列说法错误的是( )
A.月跑步里程出现波动性
B.月跑步里程最大值出现在10月
C.月跑步里程的中位数为5月份对应的里程数
D.1月至5月的月跑步里程相对于6月至11月波动性更大
【答案】D
【详解】对于A,由折线图知,月跑步里程互不相同,出现波动,A正确;
对于B,月跑步里程最大值出现在10月,B正确;
对于C,月跑步里程数从小到大排列分别是2月,8月,3月,4月,1月,5月,7月,6月,11月,9月,10月,
因此5月份对应的里程数为中位数,C正确;
对于D,1月到5月的月跑步里程相对于6月至11月更均匀,波动性更小,D错误.
【变式1】(多选)地方一般公共预算收入是地方经济的重要指标之一,如图是某地区2025年2月至10月地方一般公共预算收入累计的图表,其中条形图是地方一般公共预算收入的月累计值(月累计值指当年1月到当月的数据总和),折线图是与上年同月累计值相比的同比增长率.根据图表,下列说法正确的是( )
A.该地区2025年每月的地方一般公共预算收入一直递增
B.2025年9月该地区的地方一般公共预算收入超过30亿元
C.2025年9月该地区的地方一般公共预算收入比2024年9月高
D.2024年前10个月,该地区地方一般公共预算收入平均数低于22亿
【答案】BCD
【分析】根据图表中信息,以及地方一般公共预算收入的月累计值和同比增长的概念,逐一判断各选项的正误,判断结果.
【详解】由图表可知,3月的地方一般公共预算收入为(亿元),4月的地方一般公共预算收入为(亿元),可知选项A错误;
9月该地区的地方一般公共预算收入为(亿元),所以选项B正确;
2025年9月该地区的地方一般公共预算收入累计同比增长,所以2024年9月该地区的地方一般公共预算收入累计为(亿元),
2025年8月该地区的地方一般公共预算收入累计同比增长,所以2024年8月该地区的地方一般公共预算收入累计为(亿元),
所以2024年9月该地区的地方一般公共预算收入为(亿元),所以C正确;
2025年10月该地区的地方一般公共预算收入累计同比增长,所以2024年10月该地区的地方一般公共预算收入累计为(亿元),所以2024年前10个月,该地区地方一般公共预算收入平均数为,所以D正确;
故选:BCD.
【变式2】(多选)某学校组织“综合体能测试”,现从所有参加体能测试的学生中,随机抽取100名学生的“综合体能测试”成绩,并统计如下,则( )
成绩
频数
6
12
18
30
24
10
A.这100名学生的“综合体能测试”成绩高于80的学生超八成
B.这100名学生的“综合体能测试”成绩的中位数大于85
C.这100名学生的“综合体能测试”成绩的众数为85
D.这100名学生的“综合体能测试”成绩的平均数在90至95之间
【答案】AB
【分析】根据频数分布分析数据即可.
【详解】选项A:这100名学生的“综合体能测试”成绩高于80的学生人数为,所以A选项正确;
选项B:成绩不超过85的学生人数为,所以B选项正确;
选项C:成绩分布在的人数为30,但不一定成绩的众数为85,所以C选项不正确;
选项D:由于,所以D选项不正确.
故选:AB
期末基础通关练(测试时间:10分钟)
1.(24-25高一下·江苏淮安·期末)已知数据的平均数为7,方差为12,那么数据的平均数和方差分别为( )
A.2,3 B.2,6 C.4,3 D.4,6
【答案】A
【分析】设的平均数为,方差为,利用平均数和方差的性质得到方程,求出答案.
【详解】设的平均数为,方差为,
则数据的平均数为,方差为,
所以,,解得,.
故选:A
2.(24-25高一下·江苏淮安·期末)某校高一年级共有学生1000人,选科组合只有“物化生”、“物化地”和“历政地”三种组合,其中选择“物化生”、“物化地”的学生人数分别为600,250.现采用分层抽样的方法选出40人进行职业生涯规划调查,则从“历政地”组合中选出的学生人数为( )
A.3 B.5 C.6 D.10
【答案】C
【分析】根据分层抽样的特征结合题意求解即可.
【详解】由题意得,选择“物化生”、“物化地”和“历政地”的学生人数比为,
所以采用分层抽样的方法选出40人进行职业生涯规划调查,从“历政地”组合中选出的学生人数为.
故选:C.
3.(24-25高一下·江苏南京·期末)某校高一年级学生期中考试共有450名学生参加.数学考试成绩的频率分布直方图如图所示.
(1)求a的值;
(2)估计这次数学考试成绩的众数、中位数和平均数(结果保留两位小数);
(3)估计该校高一学生这次期中考试数学成绩的第70百分位数(结果保留两位小数).
【答案】(1);
(2)众数为65,中位数为67.69,平均成绩为67.60;
(3)第70的分位数为75.83.
【分析】(1)利用频率分布直方图各小矩形面积和为1,求出.
(2)利用频率分布直方图估计众数、中位数、平均数的方法求解.
(3)利用频率分布直方图,结合百分位数的定义求解.
【详解】(1)由频率分布直方图,得,
所以.
(2)由频率分布直方图知:数据落在内最多,因此众数为65;
由,,得中位数,
则,解得,所以中位数为67.69;
平均数为.
(3)成绩小于70分的频率为,
成绩小于80分的频率为,则第70百分位数在内,
所以第70百分位数为.
4.(24-25高一下·江苏扬州·期末)已知一组数据的方差为,则数据、、……、的方差为______.
【答案】
【分析】根据方差的性质即可求得结果.
【详解】设原数据、、、的方差为,根据方差的性质新数据的方差为:.
故答案为:.
5.(24-25高一下·江苏泰州·期末)从参加环保知识竞赛的学生中抽出60名学生,将其成绩(均为整数)整理后画出的频率直方图如图所示.观察图形,回答以下问题:
(1)这一组的频率和频数分别为多少?
(2)估计该次环保知识竞赛的及格率(60分以上为及格);
(3)估计这组数据的80百分位数.
【答案】(1)频率为,频数为;
(2)
(3)83.5.
【分析】(1)根据频率分布直方图中的数据即可求解,
(2)根据图中数据即可求解频率得解,
(3)根据百分位数的计算即可求解.
【详解】(1)频率为,频数为;
(2)及格率为;
(3)因为数据落在的频率为0.7,
数据落在的频率为0.25.
设这组数据的80百分位数为,
所以,
所以,故,
即这组数据的80百分位数为83.5.
期末重难突破练(测试时间:10分钟)
1.(24-25高一下·江苏泰州·期末)某工厂6月份生产三种产品的数量比为,现用分层抽样的方法抽取一个容量为的样本,若样本中产品的数量为600,则的值为( )
A.1200 B.1440 C.1800 D.2400
【答案】B
【分析】利用各层数量比可得答案.
【详解】,解得.
故选:B.
2.(24-25高一下·江苏徐州·期末)近日,江苏省城市足球联赛(简称“苏超”)登上热搜,为了解各年龄层对“苏超”的关注程度,随机选取了200名年龄在内的市民进行了调查,并将结果绘制成如图所示的频率分布直方图.
(1)求选取的市民年龄在内的人数;
(2)利用频率分布直方图的组中值对这200名市民的年龄的平均数进行估计;
(3)根据频率分布直方图,估计这200名市民的年龄数据的70%分位数.
【答案】(1)140人
(2)岁
(3)
【分析】(1)根据频率分布直方图求出市民年龄在内的频率,进而可求出频数.
(2)根据频率分布直方图求平均数.
(3)根据百分位数的定义和公式进行求解计算.
【详解】(1)由频率分布直方图可得市民年龄在内的频率为,
由题得,随机选取了200名市民,所以市民年龄在内的人数为.
所以选取的市民年龄在内的人数为140人.
(2)由频率分布直方图,可估计200名市民的年龄的平均数为
.
所以这200名市民的年龄的平均数为37岁.
(3)由频率分布直方图,可知市民年龄在内的频率之和为,
市民年龄在内的频率之和为,
所以70百分位数应在中,设为,
可得,解得.
所以这200名市民的年龄数据的70%分位数为42.5.
3.(24-25高一下·江苏徐州·期末)(多选)有两组样本数据:和,则这两组样本数据的( )
A.样本平均数不相同 B.样本中位数相同
C.样本标准差不相同 D.样本极差相同
【答案】AD
【分析】利用平均数、中位数、标准差、极差的意义逐项分析判断即可.
【详解】对于A,两组数据的平均数分别为,,故A正确;
对于B,数据的中位数是2,数据的中位数是4,故B错误;
对于C,两组数据的标准差都为,故C错误;
对于D,两组数据的极差分别为,故D正确.
故选:AD
4.(24-25高一下·江苏徐州·期末)用分层抽样的方法从某校学生中抽取1个容量为45的样本,其中高一年级抽20人,高三年级抽10人.已知该校高二年级共有学生600人,则该校学生总数为( )
A.1400人 B.1600人 C.1800人 D.2000人
【答案】C
【分析】根据分层抽样的性质先求出抽样比,进而求解即可
【详解】因为用分层抽样的方法从某校学生中抽取一个容量为45的样本,其中高一年级抽20人,
高三年级抽10人,所以高二年级要抽取人,
因为该校高二年级共有学生600人,所以每个个体被抽到的概率是,
所以该校学生总数是,
即该校学生总数为1800人.
故选:C.
5.(24-25高一下·新疆乌鲁木齐·期末)某次期中考试10位同学的数学成绩数据如下:.则这组数据的第75百分位数为__________.
【答案】89
【分析】根据百分位数的概念和公式求解即可.
【详解】因为,所以第75百分位数是第8个数,
由数据可以看出第8个数字是89,所以第75百分位数是89.
故答案为:89.
期末综合拓展练(测试时间:15分钟)
1.(24-25高一下·江苏镇江·期末)已知数据1,2,3,4,5,6,7,8,则该组数据的上四分位数是( )
A.6.5 B.6 C.2.5 D.2
【答案】A
【分析】求该组数据的上四分位数,即求第百分位数即可.
【详解】因为,所以找第六个和第七个数的平均数,即.
故选:A
2.(24-25高一下·江苏宿迁·期末)(多选)如图为2022年全国居民消费价格月度涨跌幅情况,则( )
A.环比涨跌幅的极差小于同比涨跌幅的极差 B.环比涨跌幅的平均数为
C.环比涨跌幅的方差小于同比涨跌幅的方差 D.同比涨跌幅的75百分位数为
【答案】AC
【分析】根据极差,平均数和百分位数的定义进行计算,判断ABD;根据图表中数据波动情况判断C选项,
【详解】A选项,环比涨跌幅的极差为,
同比涨跌幅的极差为,
环比涨跌幅的极差小于同比涨跌幅的极差,A正确;
B选项,,
,
故环比涨跌幅的平均数为,B错误;
C选项,根据统计图可以看出,环比涨跌幅的波动情况小于同比涨跌幅的波动情况,且从A可知环比涨跌幅的极差小于同比涨跌幅的极差,故环比涨跌幅的方差小于同比涨跌幅的方差,C正确;
D选项,同比涨跌幅从小到大排序为,
,
故从小到大,选取第9个和第10个的平均数作为75百分位数,
即,D错误.
故选:AC
3.(24-25高一下·江苏宿迁·期末)已知数据的中位数为2,方差为3,那么数据的中位数和方差分别为( )
A.2,3 B.7,6 C.7,12 D.4,12
【答案】C
【分析】利用中位数和方差的求法分别列式,求出平均数和方差.
【详解】因为数据的中位数为2,方差为3,
所以数据的中位数为,
方差为.
故选:C.
4.(24-25高一下·江苏常州·期末)某校义工社团共有80人,其中男生50人.若按男女比例采取分层抽样的方式,抽取16人参加周末的马拉松比赛志愿者工作,则女生应抽取的人数是( )
A.3 B.5 C.6 D.10
【答案】C
【分析】由分层抽样的定义即可得解.
【详解】女生应抽取的人数是.
故选:C.
5.(24-25高一下·江苏南京·期末)一家水果店的店长为了解本店苹果的日销售情况,记录了过去100天的日销售量(单位:,将全部数据按区间分成5组,得到下图所示的频率分布直方图.
(1)求图中的值;并估计该水果店过去100天苹果日销售量的平均数(同一组中的数据用该组区间的中点值为代表);
(2)若一次进货太多,水果会变得不新鲜;进货太少,又不能满足顾客的需求.店长希望每天的苹果尽量新鲜,又能地满足顾客的需要(在100天中,大约有88天可以满足顾客的需求).请问,每天应该进多少苹果?
【答案】(1),83.5
(2)96kg
【分析】(1)利用在频率分布直方图中,所有矩形的面积和为1,列式求出,计算出平均值;
(2)确定分位数在第五组,再利用公式计算即可.
【详解】(1)由题:,解得:,
平均数为
.
(2)因为
所以满足顾客的需要的进货数在第五组,
.
所以每天应该进96苹果.
1 / 4
学科网(北京)股份有限公司
$
专题06 统计(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 抽签法的应用 题型02 随机数法的应用
题型03 分层抽样中各层样本容量的计算 题型04 频率分布直方图的绘制与应用
题型05 频率分布直方图中的相关计算问题 题型06 百分位数在具体数据或图中的应用
题型07 在频率分布直方图中求平均数、中位数、众数 题型08 由统计信息解决实际问题
过·分层验收 阶梯实战演练,验收复习成效
核心考点(期末常考)
复习目标(行为动词+标准)
考情总结(命题趋势+易错点)
1. 三种抽样方法辨析:简单随机抽样、系统抽样、分层抽样的定义、适用场景、抽样特征及等概率性质
熟记三类抽样方法的核心特征与适用条件,能精准辨析不同抽样类型,可规范完成分层抽样的比例计算与样本抽取求解。
命题趋势:期末选择填空基础高频考点,侧重场景辨析与简单计算,难度偏低。易错点:混淆三类抽样的适用总体特征;误认为系统抽样、分层抽样不是等概率抽样;分层抽样比例计算失误、样本数量求解出错。
2. 频率分布直方图分析:直方图结构认知、频率/组距、频率计算、整体数据分布分析
理解频率分布直方图的绘图规则与核心公式,能准确读取图表数据,可独立计算频率、频数,精准分析数据整体分布特征。
命题趋势:期末必考图表题型,选择、填空、解答题均可能考查,侧重数据处理能力。易错点:混淆纵坐标(频率/组距)与频率,直接用纵坐标当作频率计算;忽略组距乘积步骤;无法通过直方图判断数据集中、离散趋势。
3. 数据集中趋势数字特征:平均数、中位数、众数的求解与实际意义
掌握三类集中趋势数字特征的计算方法,能根据数据或图表求解对应数值,可结合实际场景分析各数字特征的统计意义。
命题趋势:基础计算高频考点,常结合直方图、样本数据综合考查。易错点:直方图中中位数区间判断错误、计算偏差;混淆众数、中位数、平均数的适用场景;极端值对平均数的影响判断失误。
4. 数据离散程度与数据变换:方差、标准差求解,线性变换下均值与方差的规律应用
熟记方差、标准差计算公式与统计意义,掌握数据线性变换的数值变化规律,可规范完成数据计算与参数求解。
命题趋势:本章中档核心考点,期末高频考查数据变换规律,区分基础分数。易错点:方差计算公式记忆错误;线性变换中方差遗漏系数平方;混淆均值与方差的变换规则,概念记忆混乱。
知识01 简单随机抽样
定义:逐个抽取、总体个体有限、不放回、等概率抽样,常用方法为抽签法、随机数表法。
示例:从 50 名同学中抽取 10 人调查身高,采用抽签方式依次抽取,属于简单随机抽样。
易错点:1. 放回抽样不属于简单随机抽样;2. 易误解 “抽样顺序会影响抽样概率”,实际抽样顺序不影响等概率性。
知识02 系统抽样
步骤:编号→分段→确定起始编号→按固定间隔抽取。分段间隔公式:k = 总体容量 N / 样本容量 n。
示例:总体有 100 个个体,需抽取 20 个样本,分段间隔 k=100/20=5,确定起始编号后,按编号依次抽取(如起始编号为 3,抽取 3、8、13……)。
易错点:当总体总数 N 不能被样本容量 n 整除时,未先剔除多余个体就直接计算间隔,导致抽样出错。
知识03 分层抽样
核心:按比例从不同层(差异明显的群体)中抽取样本,每层抽样比例与总体抽样比一致。抽样比公式:抽样比 = 样本容量 / 总体容量。
示例:高一有 200 人、高二有 300 人,总体容量 500 人,需抽取 50 人样本,抽样比为 50/500=1/10,因此从高一抽取 200×1/10=20 人,从高二抽取 300×1/10=30 人,符合 2:3 的分层比例。
易错点:1. 各层抽样比例不统一(未按总体抽样比计算);2. 分层标准混淆(如按性别分层却误按年级抽样),导致抽样偏差。
知识04 用样本估计总体
知识点 1 频率分布表、频率分布直方图
核心关系:1. 频率 = 频数 / 样本容量;2. 频率分布直方图中,每个矩形的面积 = 频率(矩形面积 = 组距 × 矩形高度)。
示例:某组数据组距为 2,频率分布直方图中对应矩形的高度为 0.15,则该组的频率 = 2×0.15=0.3。
易错点:1. 误将直方图的纵坐标(高度)当作频率;2. 计算频率时忘记用 “组距 × 高度”,直接用高度代替频率。
知识05 频率分布折线图、茎叶图
特点:1. 频率分布折线图是连接直方图矩形上边中点得到的,反映数据分布趋势;2. 茎叶图保留原始数据,便于对比两组数据的分布特征(如集中趋势、离散程度)。
示例:统计甲、乙两组学生的数学成绩,用茎叶图可直观看出甲组高分段人数更多,乙组成绩更集中在中等区间。
易错点:1. 读取茎叶图时看错数位(如将 “茎为 1、叶为 5” 看成 15,而非 10+5=15);2. 统计茎叶图中数据个数时遗漏或重复计数。
知识06 众数、中位数、平均数
定义:1. 众数:一组数据中出现次数最多的数(可多个);2. 中位数:将数据从小到大排序后,位于中间位置的数(若数据个数为偶数,取中间两个数的平均值);3. 平均数:所有数据的总和除以数据个数(算术平均数)。
示例:数据 1,2,2,3 中,众数为 2(出现 2 次),中位数为(2+2)/2=2,平均数为(1+2+2+3)/4=2。
易错点:1. 偶数个数据求中位数时,忘记取中间两个数的平均值(直接取中间一个数);2. 在频率分布直方图中找中位数时,不会通过 “累计频率达到 0.5” 确定中位数所在区间,误将矩形中点当作中位数。
知识07 方差与标准差
定义:1. 方差:反映数据与平均数的偏离程度,公式为 s² = (1/n)×Σ(xi - x̄)²(其中 xi 为单个数据,x̄为平均数,n 为数据个数);2. 标准差:方差的算术平方根(s=√s²),单位与原始数据一致,更易解释。
示例:数据 2,4 的平均数 x̄=3,方差 s² = [(2-3)² + (4-3)²]/2 = (1+1)/2=1,标准差 s=√1=1。
易错点:1. 计算方差时忘记除以数据个数 n(直接计算 Σ(xi - x̄)²);2. 混淆方差与标准差的概念(如用方差描述数据波动时,忽略单位差异)。
题型一 抽签法的应用
解|题|技|巧
(抽签法的应用条件及注意点)
(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
(2)应用抽签法时应注意以下几点:
①分段时,如果已有分段可不必重新分段;②签要求大小、形状完全相同;③号签要均匀搅拌;
④要逐一不放回的抽取.
【典例1】(多选)下列说法中正确的有( )
A.抽签法是简单随机抽样
B.随机数表法是简单随机抽样
C.简单随机抽样要求被抽取样本的总体的个数有限
D.简单随机抽样可以从总体中一次性抽出样本
【变式1】先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个______________的盒子里,充分搅拌.最后从盒中不放回地抽取号签,使与号签上的编号对应的个体进入样本.直到抽足样本所需要的个体数
【变式2】在对101个人进行一次抽样时,先采用抽签法从中剔除1个人,再在剩余的100个人中随机抽取10个人,那么下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人在整个抽样过程中被抽到的机会均等
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
题型二 随机数法的应用
答|题|技|巧
(随机数法解题步骤)
第一步,编号.第二步,生成随机数.第三步,记录样本编号.第四步,抽取样本..
【典例1】某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39;现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,选出来的第3个零件编号是______.
0647 4373 8686 9647 3661 4698 6371 6233 2616 8045 6011 1410
9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179
【变式1】某校对高一新生进行了数学摸底测试,现利用随机数表从中抽取60名学生进行成绩分析,先将全体900名学生编号为001,002,003,…,900,从中抽取60个样本,并提供了随机数表的第1行到第2行,如下所示.若从该随机数表中第1行第4列开始向右读取数据,则得到的第5个样本的编号为( )
95226000 49840128 66175168 39682927 43772366 27096623
92580956 43890890 06482834 59741458 29778149 64608925
A.175 B.866 C.751 D.615
【变式2】某校从450名同学中用随机数法抽取30人参加这一项调查.将这450名同学编号为,假设从第1行第7列的数字开始,则第6个被抽到的同学的编号为__________.
64844217 55721754 55068331
04744767 21763350 25839212
06766301 63785916 95556719
题型三 分层抽样中各层样本容量的计算
答|题|技|巧
(分层抽样中每层抽取的个体数的确定方法)
(1)已知总体容量、样本容量及各层的个体数时,首先确定抽样比,其中为总体容量,为样本容量;然后确定每层抽取的个体的个数,其中为第层的个体数,为第层应抽取的个体数.
(2)已知各层个体数之比为,样本容量为时,每层抽取的个体数为.
【典例1】某调查小组为了解本月本市居民的用水情况,利用分层随机抽样的方法从X,Y两个社区抽取60名居民,已知X社区有4000人,Y社区有2 000人.经计算在抽取的60名居民中,X社区居民用水量的平均数和方差分别为15和80,Y社区居民用水量的平均数和方差分别为18和100,则两个社区的居民用水量的方差的估计值为( )
A.86.7 B.88.7 C.90 D.100
【变式1】某学校高一年级共有1 500名学生,从中随机抽取300名学生以了解学生对四大名著的阅读情况,其中只阅读两本名著的有135人,至少阅读三本名著的有96人,请估计该校高一全体1 500名学生中,至多阅读一本名著的人数约为( )
A.350 B.345 C.450 D.485
【变式2】甲校有2000名学生,乙校有2400名学生,丙校有2600名学生,为统计三校学生某方面的情况,采用分层随机抽样法抽取一个容量为70的样本,应在这三校分别抽取学生( )
A.20人,24人,26人 B.26人,24人,20人
C.20人,26人,24人 D.24人,26人,20人
题型四 频率分布直方图的绘制与应用
答|题|技|巧
(绘制频率分布直方图的注意事项)
1、在列频率分布表时,极差、组距、组数有如下关系:
(1)若为整数,则=组数;
(2)若不为整数,则的整数部分+1=组数.
2、组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
【典例1】(多选)文明城市是反映城市整体文明水平的综合性荣誉称号,某市为了提高市民对文明城市创建的认识,举办了“创建文明城市知识竞赛”,从所有答卷中随机抽取100份作为样本,将样本的成绩(成绩均不低于50分)分为5组:,,,,,并绘制出频率分布直方图,如图所示,则下列结论正确的是( )
A.
B.样本答卷成绩的中位数为70
C.样本答卷成绩的平均分为80(同一组数据用该组区间的中点值为代表)
D.在样本答卷成绩为、的两组市民中,用分层抽样的方法抽取6人,则样本答卷成绩在中的市民应抽4人
【变式1】宜春明月山是国家森林公园、省级风景名胜区.为更好地提升旅游品质,随机选择100名游客对景区进行满意度评分(满分100分),根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值;
(2)若采用按比例分层随机抽样的方法从评分在,的两组中共抽取3人,再从这3人中随机抽取2人进行交流,求选取的2人评分分别在和内的概率.
【变式2】文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.长春市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均不低于40分)分成六段:,,……,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)试估计样本成绩的平均数和上四分位数:
(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩合并后的平均数和方差.
题型五 频率分布直方图中的相关计算问题
答|题|技|巧
1、因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
2、在频率分布直方图中,各小长方形的面积之和等于1.
3、=样本量.
4、在频率分布直方图中,各长方形的面积之比等于频率之比,各长方形的高度之比也等于频率之比.
【典例1】某校高一年级和高二年级分别有学生3 000名和2 000名,该校为了了解本校高一和高二两个年级的学生在五一假期期间的课外阅读情况,利用简单随机抽样的方法在两个年级分别抽取100名学生,记录每人假期期间每天的平均阅读时间(单位:分钟),得到如图所示的频率分布直方图:
(1)求高一和高二两个年级的100名学生在五一假期期间阅读时间的第80百分位数(保留整数).
(2)两个年级的100名学生在五一假期期间平均每天阅读时间超过一个小时的百分比各是多少?
(3)从众数和平均数两个角度来分析两个年级的阅读情况(每组的值用该组的中点值作代表).
【变式1】为了解高二学生阅读时间的分配情况,随机抽取了500名高二学生进行在线调查,得到了日平均阅读时间(单位:小时),并将样本数据分成九组,绘制成频率分布直方图.
(1)求频率分布直方图中的值;
(2)为进一步了解这500名学生的时间分配情况,从三组的学生中,采用分层抽样的方法抽取了10人.现从这10人中随机抽取3人,求在内的学生人数恰有2人的概率;
(3)从这500名学生中随机抽取1人,记所抽取学生的日平均阅读时间在内为事件,所抽取学生的日平均阅读时间在内为事件,判断事件和是否互相独立,并说明理由.
【变式2】某校根据学生情况将物理考试成绩进行赋分,目的是为了更好地对新高考改革中不同选科学生的考试成绩进行横向对比,经过对全校300名学生的成绩统计,可得到如图所示的频率分布直方图,则这些同学物理成绩大于等于80分的人数为( )
A.60 B.90 C.120 D.150
题型六 百分位数在具体数据或图中的应用
答|题|技|巧
(计算一组n个数据的第p百分位数的步骤)
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
(频率直方图计算百分位数的规律)
求总体百分位数的估计,首先要从小到大排列数据,频率直方图看作数据均匀分布在直方图上,然后计算出,当i不是整数要取整,频率直方图要计算出比例值.
【典例1】一组数据的第60百分位数为( )
A.29 B.30 C.31 D.32
【变式1】(多选)已知一组从小到大排列的样本数据,其中,则下列说法中正确的是( )
A.若第一项与最后一项的数据忽略不计,则样本数据的极差减小
B.这组样本数据的上四分位数为
C.这组样本数据的平均数为
D.若为这组样本数据增加两个数据,则众数可能不变
【变式2】为纪念中国人民抗日战争暨世界反法西斯战争胜利80周年,某地面向全体中学生开展了以“铭记历史、缅怀先烈、珍爱和平、开创未来”为主题的知识竞赛活动.现从中随机抽取了100名学生的成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则估计这组数据的第85百分位数为( )
A.85 B.86 C.86.5 D.87
题型七 在频率分布直方图中求平均数、中位数、众数
答|题|技|巧
(知频率分布直方图中求平均数、中位数、众数)
(1)众数:频率分布直方图中,最高矩形的底边中点的横坐标.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数在频率分布直方图中等于每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.
【典例1】学校正在研究基于DeepSeek的人工智能答疑系统,更方便地帮助学生解决学习中碰到的问题.学校为了测试答疑系统是否准确,于是利用DeepSeek解答了50份不同的模拟试卷,收集其准确率,整理得到如下频率分布直方图.
(1)求图中的值及这组数据的中位数;
(2)若平均准确率不低于90%,则可以认为这个系统是准确的,并投入使用.请问,现在这个系统能否投入使用,并说明理由.
【变式1】某校在“普及环保知识节”后,为了进一步增强环保意识,从本校学生中随机抽取了一批学生参加环保基础知识测试.经统计,这批学生测试的分数全部介于75至100之间.将数据分成以下5组:第1组,第2组,第3组,第4组,第5组,得到如图所示的频率分布直方图.
(1)求的值;
(2)现采用分层抽样的方法,从第2,3,4组中随机抽取17名学生座谈,求每组抽取的学生人数;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计随机抽取学生所得测试分数的平均值.
【变式2】(多选)某环保监测站对某流域的个监测点的水质指数进行抽样检测,数据按、、、分组,得到频率分布直方图如图所示.已知数值越高水质越优,且水质指数不低于的被称为“I类优质水”,则下列说法正确的是( )
A.
B.若每组数据均以中点值为代表,则估计样本水质指数的平均数为
C.估计该流域水质指数不低于的监测点有个
D.估计该流域水质为“I类优质水”的监测点的占比为
题型八 由统计信息解决实际问题
答|题|技|巧
(用样本的标准差、方差估计总体的方法)
(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.
(2)标准差、方差的取值范围是.
(3)因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.
【典例1】小张记录了2025年1月至11月期间每月跑步的里程(单位:十公里)数据,整理并绘制了如图所示的折线图.根据该折线图,下列说法错误的是( )
A.月跑步里程出现波动性
B.月跑步里程最大值出现在10月
C.月跑步里程的中位数为5月份对应的里程数
D.1月至5月的月跑步里程相对于6月至11月波动性更大
【变式1】(多选)地方一般公共预算收入是地方经济的重要指标之一,如图是某地区2025年2月至10月地方一般公共预算收入累计的图表,其中条形图是地方一般公共预算收入的月累计值(月累计值指当年1月到当月的数据总和),折线图是与上年同月累计值相比的同比增长率.根据图表,下列说法正确的是( )
A.该地区2025年每月的地方一般公共预算收入一直递增
B.2025年9月该地区的地方一般公共预算收入超过30亿元
C.2025年9月该地区的地方一般公共预算收入比2024年9月高
D.2024年前10个月,该地区地方一般公共预算收入平均数低于22亿
【变式2】(多选)某学校组织“综合体能测试”,现从所有参加体能测试的学生中,随机抽取100名学生的“综合体能测试”成绩,并统计如下,则( )
成绩
频数
6
12
18
30
24
10
A.这100名学生的“综合体能测试”成绩高于80的学生超八成
B.这100名学生的“综合体能测试”成绩的中位数大于85
C.这100名学生的“综合体能测试”成绩的众数为85
D.这100名学生的“综合体能测试”成绩的平均数在90至95之间
期末基础通关练(测试时间:10分钟)
1.(24-25高一下·江苏淮安·期末)已知数据的平均数为7,方差为12,那么数据的平均数和方差分别为( )
A.2,3 B.2,6 C.4,3 D.4,6
2.(24-25高一下·江苏淮安·期末)某校高一年级共有学生1000人,选科组合只有“物化生”、“物化地”和“历政地”三种组合,其中选择“物化生”、“物化地”的学生人数分别为600,250.现采用分层抽样的方法选出40人进行职业生涯规划调查,则从“历政地”组合中选出的学生人数为( )
A.3 B.5 C.6 D.10
3.(24-25高一下·江苏南京·期末)某校高一年级学生期中考试共有450名学生参加.数学考试成绩的频率分布直方图如图所示.
(1)求a的值;
(2)估计这次数学考试成绩的众数、中位数和平均数(结果保留两位小数);
(3)估计该校高一学生这次期中考试数学成绩的第70百分位数(结果保留两位小数).
4.(24-25高一下·江苏扬州·期末)已知一组数据的方差为,则数据、、……、的方差为______.
5.(24-25高一下·江苏泰州·期末)从参加环保知识竞赛的学生中抽出60名学生,将其成绩(均为整数)整理后画出的频率直方图如图所示.观察图形,回答以下问题:
(1)这一组的频率和频数分别为多少?
(2)估计该次环保知识竞赛的及格率(60分以上为及格);
(3)估计这组数据的80百分位数.
期末重难突破练(测试时间:10分钟)
1.(24-25高一下·江苏泰州·期末)某工厂6月份生产三种产品的数量比为,现用分层抽样的方法抽取一个容量为的样本,若样本中产品的数量为600,则的值为( )
A.1200 B.1440 C.1800 D.2400
2.(24-25高一下·江苏徐州·期末)近日,江苏省城市足球联赛(简称“苏超”)登上热搜,为了解各年龄层对“苏超”的关注程度,随机选取了200名年龄在内的市民进行了调查,并将结果绘制成如图所示的频率分布直方图.
(1)求选取的市民年龄在内的人数;
(2)利用频率分布直方图的组中值对这200名市民的年龄的平均数进行估计;
(3)根据频率分布直方图,估计这200名市民的年龄数据的70%分位数.
3.(24-25高一下·江苏徐州·期末)(多选)有两组样本数据:和,则这两组样本数据的( )
A.样本平均数不相同 B.样本中位数相同
C.样本标准差不相同 D.样本极差相同
4.(24-25高一下·江苏徐州·期末)用分层抽样的方法从某校学生中抽取1个容量为45的样本,其中高一年级抽20人,高三年级抽10人.已知该校高二年级共有学生600人,则该校学生总数为( )
A.1400人 B.1600人 C.1800人 D.2000人
5.(24-25高一下·新疆乌鲁木齐·期末)某次期中考试10位同学的数学成绩数据如下:.则这组数据的第75百分位数为__________.
期末综合拓展练(测试时间:15分钟)
1.(24-25高一下·江苏镇江·期末)已知数据1,2,3,4,5,6,7,8,则该组数据的上四分位数是( )
A.6.5 B.6 C.2.5 D.2
2.(24-25高一下·江苏宿迁·期末)(多选)如图为2022年全国居民消费价格月度涨跌幅情况,则( )
A.环比涨跌幅的极差小于同比涨跌幅的极差 B.环比涨跌幅的平均数为
C.环比涨跌幅的方差小于同比涨跌幅的方差 D.同比涨跌幅的75百分位数为
3.(24-25高一下·江苏宿迁·期末)已知数据的中位数为2,方差为3,那么数据的中位数和方差分别为( )
A.2,3 B.7,6 C.7,12 D.4,12
4.(24-25高一下·江苏常州·期末)某校义工社团共有80人,其中男生50人.若按男女比例采取分层抽样的方式,抽取16人参加周末的马拉松比赛志愿者工作,则女生应抽取的人数是( )
A.3 B.5 C.6 D.10
5.(24-25高一下·江苏南京·期末)一家水果店的店长为了解本店苹果的日销售情况,记录了过去100天的日销售量(单位:,将全部数据按区间分成5组,得到下图所示的频率分布直方图.
(1)求图中的值;并估计该水果店过去100天苹果日销售量的平均数(同一组中的数据用该组区间的中点值为代表);
(2)若一次进货太多,水果会变得不新鲜;进货太少,又不能满足顾客的需求.店长希望每天的苹果尽量新鲜,又能地满足顾客的需要(在100天中,大约有88天可以满足顾客的需求).请问,每天应该进多少苹果?
1 / 4
学科网(北京)股份有限公司
$