内容正文:
专题06 统计(暑假复习讲义)
【人教A版】
【知识清单1 简单随机抽样】
1.抽样调查的必要性
(1)相关概念
名称
定义
全面调查(普查)
对每一个调查对象都进行调查的方法.
抽样调查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
总体
调查对象的全体.
个体
从总体中抽取的那部分个体.
样本
从总体中抽取的那部分个体.
样本量
样本中包含的个体数.
(2)抽样的必要性
普查往往需要花费大量的财力、物力,而抽样调查具有花费少、效率高的特点.另外,在有些调查中,抽样调查则具有不可替代的作用,比如:
①一些个体具有破坏性.如不可能对所有的炮弹都进行试射检验其是否合格.
②一些检测具有毁损性.如不可能把地里所有的种子都挖出来检验其是否发芽.
2.简单随机抽样
(1)简单随机抽样的概念
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
(2)(不放回)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取样本的总体中所含个体的个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单随机抽样中各个个体被抽到的可能性(机会)都相等(与第几次抽取无关),从而保证了抽样的公平性.
3.两种常见的简单随机抽样方法
(1)抽签法
一般地,抽签法就是把总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些号签放在一个不透明的盒,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的数量.
(2)随机数法
先把总体中的N个个体编号,用随机数工具产生1~N范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的数量.如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
(3)两种抽样方法的优缺点
抽样方法
优点
缺点
适用范围
抽签法
简单易行.
总体量较大时,操作起来比较麻烦.
适用于总体中个体数不多的情形.
随机数法
简单易行,它很好地解决了总体量较大时用抽签法制签困难的问题.
总体量很大,样本量也很大时,利用随机数法抽取样本仍不方便.
总体量较大,样本量较小的情形.
4.总体平均数与样本平均数
(1)概念
名称
定义
总体均值(总体平均数)
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式.
样本均值(样本平均数)
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称为样本均值,又称样本平均数.
说明:(1)在简单随机抽样中,我们常用样本平均数去估计总体平均数;
(2)总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);
(3)一般情况下,样本量越大,估计越准确.
(2)求和符号∑的性质
①;
②,其中k为常数.
【知识清单2 分层随机抽样】
1.分层随机抽样
(1)分层随机抽样的必要性
简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本,从而使得估计出现较大的误差,这时候我们可以考虑采取一种新的抽样方法——分层随机抽样.
(2)分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(3)比例分配
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.即:
①;
②.
(4)分层随机抽样的步骤
①分层:根据已经掌握的信息,将总体分成互不重叠的层.
②求比:根据总体中的个体数N和样本容量n计算抽样比.
③定数:确定第i层应该抽取的个体数为ni=Ni·k(Ni为总体中第i层所包含的个体数),使得各ni之和为n.
④抽样:按“定数”步骤中确定的个体数在各层中随机地抽取个体,合在一起便得到容量为n的样本.
(5)分层随机抽样的特点
①适用于由差异明显的几部分(即层)组成的总体;
②分成的各层互不重叠;
③各层抽取的比例都等于样本容量在总体中的比例,即,其中n为样本容量,N为总体容量;
④分层随机抽样使样本具有较强的代表性,而且在各层抽样时,又可灵活地选用不同的随机抽样方法.
2.分层随机抽样的平均数计算
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层、第2层的总体平均数分别为,第1层、第2层的样本平均数分别为,总体平均数为,样本平均数为,则.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用估计总体平均数.
又,所以.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
【知识清单3 获取数据的途径】
1.获取数据的途径
(1)通过调查获取数据
我们一般通过抽样调查或普查的方法获取数据.
(2)通过试验获取数据
没有现存的数据可以查询时,就需要通过对比试验的方法去获取样本观测数据.
(3)通过观察获取数据
自然现象只能通过长久的持续观察获取数据.
(4)通过查询获得数据
通过收集前人的劳动成果并加以利用,从而减少收集数据的成本.
【知识清单4 总体取值规律的估计】
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图
折线图
扇形图
特
点
一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的.
用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化.
用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景
能清楚地表示每个项目的具体数量,便于相互比较大小.
能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中.
可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
【知识清单5 总体百分位数的估计】
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【知识清单6 总体集中趋势的估计】
1.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
名称
概念
平均数
如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中位数
将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众数
一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
2.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【注意】1.若x1,x2,…,xn的平均数为,那么的平均数为.
【知识清单7 总体离散程度的估计】
1.总体离散程度的估计
(1)方差和标准差
假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为.
总体标准差:.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则标准差为0.反之,标准差为0的样本,其中的数据都相等.
【注意】
1.数据x1,x2,…,xn与数据的方差相等,即数据经过平移后方差不变.
2.若x1,x2,…,xn的方差为s2,那么的方差为a2s2.
【知识清单8 统计案例】
1.课中探究
为了解某公司员工的身体肥胖情况,我们该如何根据数据表写一份该公司员工身体肥胖情况的统计分析报告?该如何分析公司员工胖瘦程度的整体情况并提出控制体重的建议?
(1)教学目标
①通过一个完整案例,经历统计学解决问题的过程,在此过程中,进一步学习数据收集和处理的方法、数据直观图表的表示方法和数据统计特征的刻画方法.
②通过实际操作、计算机模拟等活动,积累数据分析的经验,培养数据分析的素养.
(2)教学内容
教学重点:①了解统计报告的组成部分,培养学生数据分析的素养;②体会统计方法的必要性与合理性,正确了解样本和总体的关系.
教学难点:体会统计方法的必要性与合理性,正确了解样本和总体的关系.
2.背景与数据
近年来,我国肥胖人群的规模急速增长,肥胖人群有很大的心血管安全隐患.目前,国际上常用身体质量指数(Body Mass Index,缩写BMI)来衡量人体胖瘦程度以及是否健康,其计算公式是
中国成人的BMI数值标准为:BMI<18.5为偏瘦;18.5≤BMI<23.9为正常;24≤BMI<27.9为偏胖;BMI≥28为肥胖.
3.任务与要求
根据上面的数据,写一份该公司员工肥胖情况的统计分析报告.要求:
(1)选择合适的图表展示数据;
(2)比较男、女员工在肥胖状况上的差异;
(3)分析公司员工胖瘦程度的整体情况;
(4)提出控制体重的建议.
4.统计报告的主要组成部分
(1)标题
(2)前言
简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.
(3)主题
展示数据分析的全过程:首先要明确所关心的问题是什么,说明数据蕴含的信息;根据数据分析的需要,说明如何选择合适的图标描述和表达数据;从样本数据中提取能刻画其特征的量,如均值、方差等,用于比较男、女员工在肥胖状况上的差异;通过样本估计总体的统计规律,分析公司员工胖瘦程度的整体.
(4)结尾
对主题部分的内容进行概括,结合控制体重的一般方法,提出控制公司员工体重的建议.
【题型1 简单随机抽样】
【例1】(24-25高一下·全国·课后作业)下列抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每100万枚为一个开奖组,号码的后四位是2709的为三等奖
B.某车间包装一种产品,在自动包装传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.从8台电脑中逐个不放回地随机抽取2台,进行质量检验,假设8台电脑已编好号,对编号随机抽取
D.仓库中有1万支奥运火炬,从中一次性就近抽取100支火炬进行质量检查
【答案】C
【解题思路】利用简单随机抽样的定义,逐一分析各选项即可得解.
【解答过程】选项A:在明信片销售活动中规定特定号码为三等奖,不属于简单随机抽样,故A错误;
选项B:在自动包装传送带上每隔30分钟抽一包产品,
抽样间隔固定,属于系统抽样,不是简单随机抽样,故B错误;
选项C:从8台已编号的电脑中逐个不放回地随机抽取2台,
符合简单随机抽样中总体个数有限、逐个抽取、不放回抽样、等可能抽样的特点,
属于简单随机抽样,故C正确;
选项D:一次性就近抽取100支火炬,不具有等可能性,不属于简单随机抽样,故D错误;
故选:C.
【变式1-1】(24-25高一上·江西宜春·期末)某班级有名学生,班主任用不放回的简单随机抽样的方法从这名学生中抽取人进行家访,则同学被抽到的可能性为( )
A. B. C. D.
【答案】D
【解题思路】根据条件,利用简单随机抽样的定义,即可求解.
【解答过程】总体有个个体,每个个体被抽到的概率相同,均为,
故选:D.
【变式1-2】(24-25高一上·全国·课后作业)下列4个抽样中,简单随机抽样的个数是( )
①从无数个个体中抽取50个个体作为样本;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③某连队从200名党员官兵中,挑选出50名最优秀的党员官兵赶赴某市参加抗震救灾工作;
④一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
A.0 B.1
C.2 D.3
【答案】B
【解题思路】根据简单随机抽样的特点逐个判断.
【解答过程】①不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.
②不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.
③不是简单随机抽样.因为50名党员官兵是从中挑出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.
④是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,等可能的抽样.
故选:B.
【变式1-3】(24-25高一下·陕西宝鸡·阶段检测)某校在一次期中作业检查中,对高一(6)班61位同学的作业进行抽样调查,先采用抽签法从中剔除一个人,再从余下的60人中随机抽取6人,下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人被抽到的机会不相等
C.每个人在整个抽样过程中被抽到的机会相等,因为每个人被剔除的可能性相等,那么,不被剔除的机会也是相等的
D.由于采用了两步进行的抽样,所以无法判断每个人被抽的可能性是多少
【答案】C
【解题思路】根据随机抽样的特征,即可判断出结果.
【解答过程】由于第一次剔除时采用抽签法,对每个人来说可能性相等,然后随机抽取6人对每个人的机会也是均等的,
所以总的来说每个人的机会都是均等的,被抽到的可能性都是相等的.
故选:C.
【题型2 随机数表法】
【例2】(25-26高一上·河南·阶段检测)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…,500,假设从第1行第4列的数字开始,则第4个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.455 D.447
【答案】A
【解题思路】由随机数法概念即可求解.
【解答过程】由题意,依次读取的三个数字编号分别是442,175,572,175,455,608,331,047,
剔除一个重复数据175和超过500的数据572,608,
所以符合条件的前5个编号是442,175,455,331,047,
所以第4个是331.
故选:A.
【变式2-1】(24-25高一下·福建福州·期末)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…500,假设从第1行第4列的数字开始,则第5个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.447 D.672
【答案】B
【解题思路】根据随机数表的读取规则,逐一选取即可.
【解答过程】由题知,选取的同学编号分别是442,175,572,175,455,608,331,047,
剔除重复数据,超过500的数据,符合条件的是442,175,455,331,047,第五个是047.
故选:B.
【变式2-2】(24-25高一下·贵州黔南·期末)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,,50,从中抽取6个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第1行第6列开始向右依次读取数据,则得到的第6个样本编号是( )
A.57 B.50 C.40 D.10
【答案】B
【解题思路】结合随机数表法定义,按照题意依次读出前个数即可.
【解答过程】从随机数表第1行的第6列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,
符合条件的编号有03,46,40,11,10,50,所以选出来的第6个个体的编号为50.
故选:B.
【变式2-3】(24-25高一下·湖南邵阳·阶段检测)从编号为01,02,…,49,50的50个个体中利用下面的随机数表选取5个个体,选取方法从随机数表第1行第5列的数开始由左到右依次抽取,则选出来的第4个个体的编号为( )
7816
6572
0812
1463
0782
4369
9728
0198
3204
9234
4935
8200
3623
4869
6938
7481
A.14 B.07 C.32 D.43
【答案】B
【解题思路】根据随机数表法一一列出即可.
【解答过程】依题意选出的个体编号依次为:,,,,……,
所以选出来的第4个个体的编号为.
故选:B.
【题型3 抽样方法的选取】
【例3】(24-25高二上·上海长宁·期末)①植物根据植株的高度及分枝部位等可以分为乔木、灌木和草木三大类,某植物园需要对其园中的不同植物的干重(烘干后测定的质量)进行测量;②检测员拟对一批新生产的1000箱牛奶抽取10箱进行质量检测;上述两项调查应采用的抽样方法是( )
A.①用简单随机抽样,②用分层随机抽样 B.①用简单随机抽样,②用简单随机抽样
C.①用分层随机抽样,②用简单随机抽样 D.①用分层随机抽样,②用分层随机抽样
【答案】C
【解题思路】根据简单随机抽样和分层随机抽样的特点进行判断即可.
【解答过程】①乔木、灌木、草木,分类明显,可以采用分层随机抽样;
②并未有明显分层特点,且样本容量较小,可以采用简单随机抽样;
故选:C.
【变式3-1】(24-25高一下·山东枣庄·期末)某中学有青年教师95人,中年教师65人,老年教师20人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,则合适的抽样方法是( )
A.抽签法 B.随机数法
C.分层随机抽样 D.简单随机抽样
【答案】C
【解题思路】根据样本的年龄特性确定抽样方法.
【解答过程】由于样本中年龄分为三个层次:老年,中年,青年,因此采取分层抽样方法.
故选:C.
【变式3-2】(24-25高一下·云南丽江·阶段检测)下列两项调查适宜采用的抽样方法依次是( )
①一项对“中兴事件”(2018年4月16日,美国对中兴通讯施行惩罚措施,引起国内关于国产芯片的讨论)影响的调查中有10000人认为这是美国贸易保护主义,对世界经济会产生比较负面的影响:有9000人认为这只是一个孤立事件,对世界经济大格局不会产生太大影响:有1000人没有发表自己的看法.现要从这20000人中随机抽取200人做进一步调查.
②从某中学高二年级的15名艺术特长生中选出3名调查学习负担情况.
A.①简单随机抽样,②分层抽样
B.①分层抽样,②简单随机抽样
C.①②都用简单随机抽样
D.①②都用分层抽样
【答案】B
【解题思路】由随机抽样的定义进行判断.
【解答过程】解:对于①,总体中明显存在差异,则用分层随机抽样;
对于②,总体个数较少,则用简单随机抽样,
故选:B.
【变式3-3】(24-25高一下·陕西西安·期末)现要完成下列3项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查;②科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈;③某中学有高中生3500人,初中生1500人,为了解学生的学习情况,拟抽取一个容量为200的样本.较为合理的抽样方法分别是( )
A.①简单随机抽样,②分层抽样,③系统抽样
B.①简单随机抽样,②系统抽样,③分层抽样
C.①系统抽样,②简单随机抽样,③分层抽样
D.①分层抽样,②系统抽样,③简单随机抽样
【答案】B
【解题思路】根据简单随机抽样、系统抽样、分层抽样的定义和特点,以及适用范围,判断即可.
【解答过程】对于①,总体中的个体数较少,宜用简单随机抽样;
对于②,总体中的个体数较多,而且容易分成均衡的若干部分,
要选32名听众而刚好有32排,每排选一人,宜用系统抽样;
对于③,总体中的个体数较多,又是由差异明显的两部分组成,宜用分层抽样.
故选:B.
【题型4 分层抽样的计算】
【例4】(24-25高一下·河北唐山·期末)某公司生产,,三种不同型号的电子产品,产量分别为100,400,300件,为检验不同产品的质量,现用分层抽样的方法从以上产品中抽取40件进行检验,则应从种型号的产品中抽取的件数为( )
A.5 B.10 C.15 D.20
【答案】C
【解题思路】求出分层抽样的抽样比,再求出目标数值.
【解答过程】依题意,分层抽样的抽样比为,
所以从种型号的产品中抽取的件数为.
故选:C.
【变式4-1】(24-25高一下·新疆哈密·期末)某校高一、高二、高三年级的学生人数之比为,现用分层随机抽样的方法从该校三个年级的学生中抽取容量为300的样本,则从高二年级抽取的学生人数为( )
A.60 B.90 C.120 D.150
【答案】B
【解题思路】先求出高二学生的占样本的抽样比,再乘以即可.
【解答过程】由题意:从高二年级抽取的学生人数为:.
故选:B.
【变式4-2】(24-25高一下·安徽合肥·期末)某校为了解同学们对“天宫课堂”这种授课模式的兴趣,决定利用分层抽样的方法从高一、高二、高三学生中选取90人进行调查,已知该校高一年级学生有400人,高二年级学生有500人,高三年级学生有600人,则抽取的学生中,高一年级有( )
A.40人 B.36人 C.30人 D.24人
【答案】D
【解题思路】确定高一、高二、高三的人数比,由分层抽样特征即可求解;
【解答过程】由题意可知该校高一年级学生有400人,高二年级学生有500人,高三年级学生有600人,
则高一年级,高二年级与高三年级的学生人数比为,
根据分层抽样的特征可知,抽取的学生中,高一年级有人,
故选:D.
【变式4-3】(24-25高一下·四川凉山·期末)某校高一有1000名学生,为了培养学生良好的阅读习惯,语文教研组要求高一学生从四大名著中选一本阅读,其中有400人选《三国演义》,250人选《水浒传》,250人选《西游记》,100人选《红楼梦》,若采用分层抽样的方法随机抽取100名学生分享他们的读后感,则选《西游记》或《红楼梦》的学生抽取的人数为( )
A.25 B.30 C.35 D.50
【答案】C
【解题思路】由分层抽样的相关知识求解即可.
【解答过程】选《西游记》或《红楼梦》的学生抽取的人数为.
故选:C.
【题型5 频率分布直方图的相关问题】
【例5】(2025高二下·湖南·学业考试)某中学举行了一次“网络信息安全”知识竞赛,将参赛的500名学生成绩分为6组,绘制了如图所示的频率分布直方图,则成绩在区间内的学生有( )
A.80名 B.100名 C.120名 D.140名
【答案】B
【解题思路】先根据频率分布直方图的性质,求得的值,再根据样本中成绩在区间内的频率参赛的人数即可.
【解答过程】由频率分布直方图可知,解得,
所以成绩在区间内的学生有名.
故选:B.
【变式5-1】(24-25高一下·广西河池·期末)某校举办了一次环境保护知识竞赛,为了解学生的环境保护知识掌握程度,学校采用简单随机抽样从全校名学生中抽取了一个容量为的样本,已知样本的成绩全部分布在区间内,根据调查结果绘制学生成绩的频率分布直方图如图所示,则频率分布直方图中( )
A. B. C. D.
【答案】B
【解题思路】根据所有直方图面积之和为可求得实数的值.
【解答过程】在频率分布直方图可知,所有直方图面积之和为,
所以,解得.
故选:B.
【变式5-2】(24-25高一下·甘肃·阶段检测)“累积净化量(CCM)”是空气净化器质量的一个重要衡量指标,它是指空气净化器从开始使用到净化效率为时对颗粒物的累积净化量,以克表示.根据GB/T18801-2015《空气净化器》国家标准,对空气净化器的累计净化量(CCM)有如下等级划分:
累积净化量(克)
以上
等级
为了了解一批空气净化器(共台)的质量,随机抽取台机器作为样本进行估计,已知这台机器的累积净化量都分布在区间中.按照,,,,均匀分组,其中累积净化量在的所有数据有:,,,,和,并绘制了如图所示频率分布直方图:
(1)求的值及频率分布直方图中的值;
(2)以样本估计总体,试估计这批空气净化器(共台)中等级为的空气净化器有多少台?
【答案】(1),
(2)台
【解题思路】(1)根据频率分布直方图中频率与频数的关系可得,再结合频率和为,即可得;
(2)根据频率分布直方图计算频数,即可得解.
【解答过程】(1)因为之间的数据一共有个,
再由频率分布直方图可知:落在之间的频率为,
因此,,
又,
;
(2)由频率分布直方图可知:落在之间共:(台)
又因为在之间共台,
落在之间共台,
所以(台).
故这批空气净化器等级为的空气净化器共有台.
【变式5-3】(24-25高一下·全国·单元测试)为了让学生了解环保知识,增强环保意识,某中学举办了一次环保知识竞赛,共有900名学生参加了这次竞赛.为了了解本次竞赛的成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成并有局部污损的频数分布表和频数分布直方图,解答下列问题:
分组
频数
频率
50.5~60.5
4
0.08
60.5~70.5
0.16
70.5~80.5
10
80.5~90.5
16
0.32
90.5~100.5
合计
50
(1)填充频数分布表的空格(将答案直接填在表格内);
(2)补全频数分布直方图;
(3)若成绩在75.5~85.5的学生为二等奖,问获得二等奖的学生约为多少人?
【答案】(1)表格见解析
(2)直方图见解析
(3)人
【解题思路】(1)根据频数和频率的关系计算完善表格即可.
(2)求出第二组的频数后补全频数分布直方图即可.
(3)求出成绩在75.5~85.5的学生频率即可求解.
【解答过程】(1)易知样本容量为50,
故第二组的频数为,第三组的频率为,
第四组的频数为,频率为,
故频数分布表为
分组
频数
频率
50.5~60.5
4
0.08
60.5~70.5
8
0.16
70.5~80.5
10
0.20
80.5~90.5
16
0.32
90.5~100.5
12
0.24
合计
50
1.00
(2)由(1)知,60.5~70.5这一组的频数为8,补全频数分布直方图,如图:
(3)成绩在75.5~80.5的学生占70.5~80.5的学生的,
因为成绩在70.5~80.5的学生频率为0.20,所以成绩在75.5~80.5的学生频率为0.10.
成绩在80.5~85.5的学生占80.5~90.5的学生的,
因为成绩在80.5~90.5的学生频率为0.32,所以成绩在80.5~85.5的学生频率为0.16,
所以成绩在75.5~85.5的学生频率为.
由于有900名学生参加了这次竞赛,
所以该校获得二等奖的学生约为(人).
【题型6 根据统计图解决实际问题】
【例6】(24-25高二下·广东东莞·期中)为弘扬中华优秀传统文化,济南市公开招募“泉润非遗”志愿者.现从所有报名的志愿者中,随机选取300人进行调查,其中青年人、中年人、老年人三个年龄段的比例饼状图如图1所示,各年龄段志愿者的性别百分比等高堆积条形图如图2所示,则下列关于样本数据的分析正确的是( )
A.老年男性志愿者人数为90
B.老年女性志愿者人数大于中年女性志愿者人数
C.青年女性志愿者人数为72
D.中年男性志愿者人数大于青年男性志愿者人数
【答案】C
【解题思路】根据各个年龄层的人数,结合等高堆积条形图即可结合选项逐一求解.
【解答过程】由图1可知300名主播中,青年人有人,
中年人有人,老年人有人,
对于A,由图2可知样本老年男性志愿者人数为人,故A错误;
对于B,由图2可知老年女性志愿者人数为人;
中年女性志愿者有人;故B错误,
青年女性志愿者有人,故C正确,
中年男性志愿者人数为,青年男性志愿者人数,故D错误,
故选:C.
【变式6-1】(24-25高一下·贵州六盘水·期末)为了研究我市甲、乙两个旅游景点的游客情况,文旅局统计了今年4月到9月甲、乙两个旅游景点的游客人数(单位:万人),得到如图所示的折线图.根据两个景点的游客人数的折线图,下列说法错误的是( )
A.7,8,9月份的总游客人数甲景点比乙景点少
B.乙景点4月到9月的游客人数总体呈上升趋势
C.甲景点4月到9月游客人数的平均值在内
D.甲、乙两景点4月到9月中游客量的最高峰期都在8月
【答案】D
【解题思路】根据折线图分别判断信息及计算平均数进而判断各个选项即可.
【解答过程】对于A,由游客人数折线图可知,甲景点7,8,9月份的总游客人数为,乙景点的7,8,9月份的总游客人数为,,A正确;
对于B,根据乙景点的游客人数折线图可知,乙景点每月的游客人数逐月增多,所以总体呈上升趋势,故B正确;
对于C,甲景点游客人数的平均值为,,C正确;
对于D,由游客人数折线图可知,甲景点4月到9月中游客量的最高峰期在8月,乙景点4月到9月中游客量的最高峰期在9月,D错误.
故选:D.
【变式6-2】(24-25高一下·四川内江·期末)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄的分布饼状图、90后从事互联网行业者的岗位分布条形图,则下列结论中不一定正确的是( )
A.互联网行业从事技术岗位的人数中,90后比80后多
B.90后互联网行业者中从事技术岗位的人数超过整个从事互联网行业者总人数的
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业从业人员中90后占一半以上
【答案】A
【解题思路】利用整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图即可判断各选项的真假.
【解答过程】选项A;设整个互联网行业总人数为a,
互联网行业中从事技术岗位的90后人数为,小于80后的人数,
但80后中从事技术岗位的人数比例未知,故A错误.
选项B:设整个互联网行业总人数为a,90后从事技术岗位人数为56%×39.6%a,
而90后总人数的20%为,故B正确;
选项C:设整个互联网行业总人数为a,
互联网行业中从事运营岗位的90后人数为,
超过80前的人数6%a,且80前中从事运营岗位的人数比例未知,故C正确;
选项D: 由整个互联网行业从业者年龄分布饼状图得到互联网行业从业人员中90后占,故D正确.
故选:A.
【变式6-3】(24-25高一下·广东佛山·期末)某保险公司为客户定制了5个险种:甲,一年期短期;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得到如图所示的统计图表.则下列说法中一定错误的是( )
A.丁险种参保人数超过五成 B.41岁以上参保人数超过总参保人数的五成
C.18-29周岁人群参保的总费用最少 D.人均参保费用不超过5000元
【答案】B
【解题思路】利用统计图表一一分析选项即可.
【解答过程】对于A,由条形图可知丁险种参保比例为,
超过五成,故A正确;
对于B,由扇形图可知,41岁以上参保人数占比:,故B错误;
对于C,由扇形图与折线图可知18-29周岁人群参保人数占比,
人均参保费用在,而54岁及以上人群参保比例虽,
但人均参保费用在6000,所以18-29周岁人群参保的总费用最少,故C正确;
对于D,由扇形图与折线图可知,人均参保费用约
,
不超过5000元,故D正确.
故选:B.
【题型7 百分位数的求解】
【例7】(24-25高一下·新疆阿克苏·期末)某班级的老师随机抽查了该班8名同学周末在家学习的时长(单位:h),所得数据如下:3,4,4,5,6,6,7,8,则这组数据的75%分位数为( )
A.6.5 B.6 C.5.5 D.5
【答案】A
【解题思路】根据百分位数的计算公式即可求解。
【解答过程】,故这组数据的75%分位数为,
故选:A.
【变式7-1】(24-25高一下·甘肃定西·期末)样本数据,,,,,,,的第70百分位数为( )
A.5 B.4 C. D.3
【答案】B
【解题思路】根据第百分位数的概念,求出一列数字的第70百分位数即可.
【解答过程】样本数据由小到大排列为,,,,,,,,共8个数字,
因为,所以第70百分位数为第6个数字,即.
故选:B.
【变式7-2】(24-25高一下·河南商丘·期末)某校为了加强食堂用餐质量,该校随机调查了名学生,得到这名学生对食堂用餐质量给出的评分数据(评分均在[50,100]内),将所得数据分成五组:,,,,,得到如图所示的频率分布直方图,估计学生对食堂用餐质量的评分的第百分位数为( )
A.82.5 B.81.5 C.87.5 D.85
【答案】D
【解题思路】先判断第百分位数所在组,然后根据频率直方图面积之和等于确定取值.
【解答过程】因为,,
所以第60百分位数位于,设为,
则,
解得,即估计学生对食堂用餐质量的评分的第百分位数为.
故选:D.
【变式7-3】(24-25高一下·四川眉山·期末)为落实“双碳”目标,某环保组织调研10个国家2024年度的人均碳排放强度(单位:吨/人·年)后,得到数据如下:2,4,5,7,8,9,11,12,13,15.则该组数据的分位数是( )
A.5 B.6 C.7 D.12
【答案】B
【解题思路】根据百分位数的定义计算求解.
【解答过程】数据从小到大为:2,4,5,7,8,9,11,12,13,15,且,
则该组数据的分位数是.
故选:B.
【题型8 众数、中位数、平均数的求解】
【例8】(24-25高一下·河南濮阳·期末)2025年5月14日,长征二号丁运载火箭一次性将12颗太空计算卫星成功送入预定轨道.若各卫星从星箭分离至入轨所需时间(单位:秒)按升序排列为82,85,87,89,91,93,95,97,99,101,103,105,则这组数据的中位数为( )
A.94 B.93 C.92 D.91
【答案】A
【解题思路】利用求解中位数知识即可求解.
【解答过程】由题意可得这12个数据的中位数为第6位和第7位数的平均数,故A正确;
故选:A.
【变式8-1】(24-25高一下·陕西汉中·期末)某校举办“迎七一”红歌比赛,五位评委给某参赛班级的评分分别为87,87,89,m,90,若这组数据的平均数为88,则这组数据的中位数为( )
A.88 B.87 C.89 D.90
【答案】B
【解题思路】根据给定的平均数求出m,再利用中位数的定义计算作答.
【解答过程】依题意,,解得,
参赛班级所得分从小到大依次为:87,87,87,89,90,
所以这组数据的中位数为87.
故选:B.
【变式8-2】(2025·山东聊城·三模)已知数据,9,7,9的中位数和平均数相等,那么的值为( )
A.5 B.7 C.5或9 D.7或11
【答案】D
【解题思路】根据平均数的计算及中位数的定义,分类讨论,列出方程即可求解.
【解答过程】平均数为,
将这组数据排序,若,7,9,9,则中位数为,
所以,符合题意;
将这组数据排序,若7,,9,9,则中位数为,
所以,符合题意;
若7,9,9,,则中位数为,
所以,符合题意;
综上所述,的值为7或11,
故选:D.
【变式8-3】(24-25高一下·河北邯郸·期末)已知高一三班的某次数学测试中,某学习小组的成绩如下:70,75,94,85,85,90,86,90,85,100,则该小组成绩的平均数、众数、中位数的大小关系是( )
A.众数=中位数<平均数 B.众数<中位数<平均数
C.众数<平均数<中位数 D.众数=平均数<中位数
【答案】B
【解题思路】根据众数、中位数、平均数的概念,求出相应的这三个数,比较大小,即得答案.
【解答过程】学习小组的成绩从小到大排列如下:70,75,85,85,85,86,90,90,94,100,
众数为85;中位数为,
平均数为,
故众数<中位数<平均数,
故选:B.
【题型9 方差、标准差的求解及应用】
【例9】(24-25高一下·北京通州·期末)已知一组样本数据16,,14,15,13的平均数为15,则该组样本数据的方差为( )
A.2.0 B.2.1 C.2.2 D.2.4
【答案】A
【解题思路】根据样本数据的平均数和方差公式计算即可.
【解答过程】因为该组样本数据的平均数为15,所以,解得,
则该组样本数据的方差为,
故选:A.
【变式9-1】(24-25高一下·山东滨州·期末)设一组样本数据的平均数为3,方差为4,则数据,,,,的平均数和方差分别为( )
A.4,14 B.4,16 C.5,14 D.5,16
【答案】C
【解题思路】由平均数公式可得,由方差公式可得,再利用平均数和方差公式可求得结果.
【解答过程】由样本数据的平均数为,方差为,得,,
则,,
因此数据,的平均数为
,
方差为
.
故选:C.
【变式9-2】(24-25高一下·河南信阳·期末)数据的平均数为,方差,现在增加两个数据和,则这组新数据的标准差为( )
A. B. C. D.
【答案】B
【解题思路】根据平均数的计算公式求出新数据的平均数,再根据方差的计算公式求出新数据的方差,最后根据标准差与方差的关系求出新数据的标准差.
【解答过程】数据的平均数为,方差,
即,,
则数据,,的平均数为,
方差,
标准差为.
故选B.
【变式9-3】(24-25高一下·贵州铜仁·期末)甲、乙、丙、丁四名同学各掷骰子5次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断一定没有出现点数6的是( )
A.甲:平均数为3,中位数为2 B.乙:极差为3,众数为3
C.丙:平均数为2,方差为2.4 D.丁:众数为2,方差为2.4
【答案】C
【解题思路】根据平均数、中位数、方差的定义,通过举例排除ABD,由假设推理判断C.
【解答过程】对于A,甲的5个点数分别是,平均数为3,中位数为2,A可出现;
对于B,乙的5个点数分别是,极差为3,众数为3,B可出现;
对于D,丁的5个点数分别是,众数为2,平均数为3,
其方差为,D可出现;
对于C,丙的平均数为2,又有点数6,则方差,不可能满足C,丙不会出现点数6.
故选:C.
【题型10 统计图中集中趋势参数的计算】
【例10】(24-25高一下·浙江宁波·期末)学校为了解全校1800名学生的身体肥胖情况,随机抽取了100名学生的体检数据,将其BMI值分成以下五组:,,,,,得到相应的频率分布直方图,如图所示.则下列说法错误的是( )
A.
B.估计样本的中位数为23
C.估计样本的众数为22
D.估计全校学生BMI值落在区间的人数为36人
【答案】D
【解题思路】对A,根据频率和为1求解即可;对B,根据成绩低于中位数的频率为0.5计算即可;对C,根据频率分布直方图的众数判断即可;对D,计算区间的频率,进而可得人数.
【解答过程】对A,由题意,,解得,故A正确;
对B,区间的频率分别为,
因为,,故中位数位于内.
设中位数为,则,解得,故B正确;
对C,由直方图可得估计这组数据的众数为,故C正确;
对D,由直方图可得的频率为,
故估计全校学生BMI值落在区间的人数为,故D错误.
故选:D.
【变式10-1】(24-25高一下·福建南平·期末)如图,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态.根据所给图示作出判断,则下列结论正确的是( )
A.图(1)中平均数中位数众数 B.图(2)中平均数众数中位数
C.图(2)中众数平均数中位数 D.图(3)中平均数中位数众数
【答案】D
【解题思路】由频率分步直方图概念,结合中位数,平均数,众数定义结合图形可得答案.
【解答过程】对于图1,平均数中位数众数,故A错误;
对于图2,众数中位数平均数,故BC错误;
对于图3,平均数中位数众数,故D正确.
故选:D.
【变式10-2】(24-25高一下·甘肃嘉峪关·期中)某校抽取100名高二学生期中考试的语文成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为:,,…,,.
(1)求频率分布直方图中a的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的中位数和平均数.(保留小数点后1位)
【答案】(1)
(2)中位数为:;平均数为:
【解题思路】(1)根据给定的频率分布直方图,利用各小矩形面积和为1求出值.
(2)利用频率分布直方图估计中位数和平均数.
【解答过程】(1)由频率分布直方图,得,
所以.
(2)由频率分布直方图,样本数据在的频率为,在的频率为,
因此语文成绩的中位数,则,则,
这100名学生语文成绩的平均数为:
.
【变式10-3】(24-25高一下·黑龙江哈尔滨·期末)某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间中,其频率分布直方图如图所示.
(1)估计此批棉花纤维长度的众数;
(2)估计此批棉花纤维长度的下四分位数和中位数;(保留整数)
(3)估计此批棉花纤维长度的平均数.(保留整数)
【答案】(1)
(2)下四分位数约为,中位数约为
(3)
【解题思路】(1)由众数的定义即可求解;
(2)由百分位数、中位数的定义即可求解;
(3)由平均数的定义即可求解.
【解答过程】(1)由图可知,区间对应的矩形最高,所以估计此批棉花纤维长度的众数为;
(2)因为前两组的频率之和为,前三组的频率之和,
所以估计此批棉花纤维长度的下四分位数在区间,且为,
因为前三组的频率之和,前四组的频率之和,
所以估计此批棉花纤维长度的中位数在区间,且为;
(3)估计此批棉花纤维长度的平均数为
.
【题型11 统计图中方差的计算】
【例11】(24-25高一下·全国·单元测试)某校为了解高一学生一周课外阅读情况,随机抽取甲,乙两个班的学生,收集并整理他们一周阅读时间(单位:h),绘制了下面频率分布直方图.根据直方图,得到甲,乙两校学生一周阅读时间的平均数分别为,,标准差分别为,,则( )
甲班频率分布直方图 乙班频率分布直方图
A., B.,
C., D.,
【答案】D
【解题思路】根据平均数和方差的计算公式求解后比较大小即可.
【解答过程】根据频率分布直方图可知,
,
,
.
所以,.
故选:D.
【变式11-1】(2025·贵州·模拟预测)某校为了解高一学生一周课外阅读情况,随机抽取甲,乙两个班的学生,收集并整理他们一周阅读时间(单位:),绘制了下面频率分布直方图.根据直方图,得到甲,乙两校学生一周阅读时间的平均数分别为,标准差分别为,则于( )
A., B.,
C., D.,
【答案】D
【解题思路】根据频率分布直方图求出平均数与方差,即可判断.
【解答过程】根据频率分布直方图可知,
,
,
所以,.
故选:D.
【变式11-2】(24-25高一下·河南信阳·期末)人工智能的广泛应用,给人们的生活带来了便捷.随着DeepSeek的开源,促进了AI技术的共享和进步.某网站组织经常使用DeepSeek的人进行了AI知识竞赛.从参赛者中随机选出100人作为样本,并将这100人按成绩分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
(1)求;
(2)求样本数据的中位数与第35百分位数;
(3)已知直方图中成绩在内的平均数为85,方差为10,内的平均数为95,方差为15,求成绩在内的平均数与方差.
【答案】(1)
(2)中位数为80,第35百分位数为75
(3)平均数为89,方差为36
【解题思路】(1)由所有矩形面积之和为1可得答案;
(2)由(1)中结果可估计中位数与百分位数;
(3)由题可得成绩在,内的人数分别为30,20,然后由样本方差估计总体方差计算方法得答案.
【解答过程】(1)由,得
(2)前三组频率之和为,
所以样本数据的中位数为80;
前两组频率之和为
则样本数据的第35百分位数落在第三组,设第35百分位数为x,
则;
(3)由题意,成绩在,内的人数分别为30,20.
设内数据的平均数为,方差为,
内数据的平均数为,方差为,总平均数为,方差为,
依题意,,,,则,
.
所以,成绩在内的平均数为89,方差为36.
【变式11-3】(24-25高一下·湖北武汉·期末)某高校体检随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165],[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率分布直方图如图所示.
(1)求和频率分布直方图中身高在175cm及以下的学生人数;
(2)估计该校100名学生身高的下四分位数(结果保留到个位数).
(3)已知落在区间[170,175)的样本平均数是173,方差是8,落在区间[175,180)的样本平均数是178,方差是6,求两组样本成绩合并后的平均数和方差.
参考公式:若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:记总的样本平均数为,样本方差为,则.
【答案】(1);人
(2)
(3);
【解题思路】(1)利用频率分布直方图中长方形面积之和为1,易求出,进而利用频率分布直方图可求身高在175cm及以下的学生人数;
(2)根据下四分位数概念结合频率分布直方图计算即可;
(3)根据平均数公式计算可得,根据题中给的参考公式代入数据计算可得.
【解答过程】(1)由频率分布直方图可知,解得,
身高在175cm及以下的学生人数(人).
(2)的人数占比为,的人数占比为,
所以该校100名学生身高的下四分位数即分位数落在,
设该校100名学生身高的分位数为,
则,解得,
故该校100名生学身高的下四分位数约为168.
(3)由频率分布直方图知,
这100名学生的身高在的有,
身高在的有人,
所以,
,
所以两组样本成绩合并后的平均数为,方差为.
【题型12 统计综合】
【例12】(24-25高一下·山东青岛·期末)气象意义上进入春季的标志为“一年中第一次出现连续5天的日平均气温均不低于10摄氏度”.现有甲、乙、丙、丁四地连续5天的日平均温度的记录数据(记录数据都是正整数):
甲地:5个数据的中位数为12,极差为3; 乙地:5个数据的平均数为11,众数为12;
丙地:5个数据的平均数为12,中位数为12; 丁地:5个数据的平均数为11,方差小于1.
则根据上面数据,肯定符合气象意义上进入春季的地区是( )
A.甲地 B.乙地 C.丙地 D.丁地
【答案】D
【解题思路】根据平均数、众数、中位数、极差、方差理解,结合题意逐地分析即可.
【解答过程】设甲地5天的日平均气温从低到高为:,
因为极差为3,所以,
取
此时存在日平均气温均低于10摄氏度情况,
故甲地不一定符合进入春季的标志;
设乙地5天的日平均气温从低到高为:,
其中互不相等,由5个数据的平均数为11,
所以,
取,
此时存在日平均气温均低于10摄氏度情况,
故乙地不一定符合进入春季的标志;
设丙地5天的日平均气温从低到高为:,
由5个数据的平均数为12,
则,
取,
此时存在日平均气温均低于10摄氏度情况,
故丙地不一定符合进入春季的标志;
设丁地5天的日平均气温为:,
由5个数据的平均数为11,
所以,
所以若方差小于1则:
,
则,
由为正整数,
且,
所以,
设时,任何一个都不可能为,
所以当时,
不满足,
所以,
故丁地符合气象意义上进入春季,
故选:D.
【变式12-1】(24-25高一下·广东深圳·期末)四名同学A,B,C,D各掷骰子5次,分别记录自己每次骰子出现的点数.根据四名同学的如下统计结果,则可以判断出一定没有出现点数6的是( )
A.平均数为2,中位数为1 B.中位数为3,众数为2
C.中位数为3,极差为4 D.平均数为2,方差为2.4
【答案】D
【解题思路】利用平均数、中位数、众数、极差、方差的定义逐一分析选项即可.
【解答过程】对于A,平均数为2,中位数为1,说明5次点数总和为,且将5次点数从小到大排序,第三位为1,
则从小到大排序前三位是1,1,1,后两位点数之和为,不确定是否出现点数6,故A错误;
对于B,中位数为3,众数为2,说明将5次点数从小到大排序,第三位为3,且2至少出现过两次,
则从小到大排序前三位是2,2,3,后两位不确定是否出现点数6,故B错误;
对于C,中位数为3,极差为4,说明将5次点数从小到大排序,第三位为3,
极差可能是,也可能是,不确定是否出现点数6,故C错误;
对于D,平均数为2,方差为2.4,说明5次点数总和为,
若出现点数6,则其他四次点数之和为,只能是1,1,1,1,
则方差,
所以一定没有出现点数6,故D正确.
故选:D.
【变式12-2】(24-25高一下·重庆·期末)某校高一年级半期考试测试后,为了解本次测试的情况,在整个年级中随机抽取了200名学生的数学成绩,将成绩分为,共6组,得到如图所示的频率分布直方图.
(1)在样本中,采取等比例分层抽样的方法从成绩在[90,150]内的学生中抽取13名,则成绩在[130,150]的同学有几个?
(2)根据图中的样本数据,假设同组中每个数据用该组区间的中点值代替,试估计本次考试的平均分和众数;
(3)若年级计划对本次测试优异的同学进行表彰,且表彰人数不超过,根据样本数据,试估计获得表彰的同学的最低分数.
【答案】(1)2
(2)众数为:100,平均数为98
(3)134分
【解题思路】(1)根据频率分布直方图的性质,求出参数,根据分层抽样的规则,计算抽取人数;
(2)根据频率分布直方图估计平均分和众数的方法,计算总体的平均数和众数;
(3)根据频率分布直方图估计总体第百分位数的方法,计算最低分数.
【解答过程】(1)由性质知:,故,
采取分层抽样:[130,150]的同学个数为:.
(2)由频率分布直方图知:众数为:100;
平均数为:;
(3)由于成绩在[130,150]的频率为0.1,
故最低分数预计为:;
即估计获得表彰的同学的最低分数为134分.
【变式12-3】(24-25高一下·内蒙古呼伦贝尔·期末)某零食超市某天接待了1250名顾客,老年375人,中青年625人,少年250人,景点为了提升服务质量,采用分层抽样从当天游客中抽取100人,以评分方式进行满意度回访.将统计结果按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成频率分布直方图如图:
(1)求抽取的样本中老年、中青年、少年的人数;
(2)求的值并估计当天游客满意度分值的平均数.(同一组中的数据以这组数据所在区间中点的值作代表);
(3)求样本数据的第85百分位数.
【答案】(1)中老年、中青年、少年的人数分别为30人、50人、20人.
(2),平均数为
(3)
【解题思路】(1)根据分层抽样的基本量的计算公式计算;
(2)根据频率和为1求得,然后根据平均数公式计算即可;
(3)找到第85百分位数所在区间然后按照公式计算即可.
【解答过程】(1)由题可知:老年抽取:人,中青年抽取:人,少年抽取人.
(2)由图可知:,
平均数为:
(3)的频率为:;的频率为;的频率为;的频率为;所以可知第85百分位数落在,
所以第85百分位数为.
一、单选题
1.(25-26高一上·河南·阶段检测)下列调查中最适合采用全面调查(普查)的是( )
A.了解某市小麦的根部生长情况
B.了解某品牌手机的防摔功能
C.了解某省高一学生坚持晨读的情况
D.对我国最新研发的“玄龙08战斗机”的各零部件质量情况的调查
【答案】D
【解题思路】根据抽样调查与普查的特点,逐一分析各个选项,即可得答案.
【解答过程】选项A:了解某市小麦的根部生长情况,普查工作量巨大且有破坏性,适合抽样调查,故A错误;
选项B:了解某品牌手机的防摔功能,普查工作量巨大且有破坏性,适合抽样调查,故B错误;
选项C:了解某省高一学生坚持晨读的情况,普查工作量巨大,适合抽样调查,故C错误;
选项D:“玄龙08战斗机”的各零部件数量有限,且是精确度要求较高的调查,
适合全面调查(普查),故D正确.
故选:D.
2.(25-26高二上·贵州遵义·阶段检测)数据的分位数为( )
A.2 B.2.4 C.2.5 D.3
【答案】A
【解题思路】根据题意,利用百分位数的计算方法,即可求解.
【解答过程】将数据从小到大排序,可得,共有6个数据,则,
因为不是整数,则该组数据的分位数为第3个上,即数据的分位数为.
故选:A.
3.(25-26高一上·山西忻州·期末)某高中高一、高二、高三年级的学生人数分别为400,400,600,为了解各年级学生每天阅读的时间,用分层随机抽样的方法从中抽取样本,若样本中高一年级的学生有14人,则样本容量为( )
A.42 B.45 C.49 D.50
【答案】C
【解题思路】求出总人数得到抽样比,利用分层抽样中样本容量等于总人数乘以抽样比即可求解.
【解答过程】由题可得总人数为 人,抽样比
所以样本容量.
故选:C.
4.(24-25高二下·云南昆明·阶段检测)为调查社区居民对社区工作的满意度,在社区内抽取200名居民进行问卷调查,将收集到的数据分成五组,绘制出以下频率分布直方图,若的频率为0.48,,的值为( )
A.0.017,0.048 B.0.017,0.48 C.0.17,0.048 D.0.17,0.48
【答案】A
【解题思路】根据已知条件,由频率分布直方图中矩形高度的概念可求出,由频率分布直方图中各组矩形面积之和为1,即可求出.
【解答过程】由频率分布直方图可知组距为10,则,
又因为,解得.
故选:A.
5.(25-26高一上·陕西渭南·期末)某社区为了调查小区居民对社区的满意度,利用随机数表对300户居民进行抽样,先将300户居民依次编号为000,001,,299,从中抽取30个样本,下面是随机数表的第2行到第3行,若从随机数表的第2行第7列开始横向自左向右依次读取数据,则得到的第3个样本编号是( )
2145 7016 3388 2954 0761 1084 3711 6928 5074 3602 9578
4183 1572 6049 0839 2456 8109 8043 1967 5203 9845 9625
A.084 B.611 C.371 D.295
【答案】A
【解题思路】直接由随机数表依次读取数据,注意舍去超出范围的编号与重复的编号即可.
【解答过程】从随机数表中的第2行第7列开始向右读取数据,
依次为163,388(超出299,舍去),295,407(超出299,舍去),611(超出299,舍去),084,
即得到的第3个样本编号是.
故选:A.
6.(24-25高一下·贵州遵义·阶段检测)数据的平均数为5,则的平均数为( )
A.15 B.13 C.11 D.9
【答案】D
【解题思路】利用平均数的定义,先求得的和,即可求解.
【解答过程】因为数据的平均数为5,
所以的和为,
所以的平均数为,
故选:D.
7.(24-25高一下·江苏泰州·阶段检测)下面是校篮球队某队员若干场比赛的得分数据.
每场比赛得分
3
6
7
10
11
13
30
频数
2
1
2
2
1
1
1
则下列说法不正确的是( )
A.该队员得分的平均数是10 B.该队员得分的极差是27
C.该队员得分的第四十百分位数是7 D.该队员得分的方差是48.4
【答案】D
【解题思路】分别根据平均数,极差,百分位数,方差的定义即可判断.
【解答过程】该队员得分的平均数是,故A正确;
极差是,故B正确;
,所以第百分位数是,故C正确;
方差是,故D错误.
故选:D.
8.(25-26高二上·黑龙江大庆·开学考试)某公司为了调查员工的体重(单位:千克),因为女员工远多于男员工,所以按性别分层,用按比例分层随机抽样的方法抽取样本,已知抽取的所有员工的体重的方差为120,其中女员工的平均体重为50,方差为50,男员工的平均体重为70,方差为30.若样本中有21名男员工,则样本中女员工的人数为( )
A.68 B.63 C.35 D.48
【答案】B
【解题思路】由题意,知样本中男、女员工的平均体重和方差分别为,,,,所占权重分别为和,根据分层抽样的均值和方差公式列方程求出的值,即可求得女员工的人数.
【解答过程】由题意,记样本中女员工的平均体重和方差分别为,,所占权重为,
男员工的平均体重和方差分别为,,则所占权重为,
则样本中全部员工的平均体重为,
依题意,方差为
.
化简得,解得 或(舍).
所以女员工的人数为: .
故选:B.
二、多选题
9.(25-26高一上·全国·单元测试)某高中学校从有120名学生的“航天”社团中随机抽取30名参加一个交流会,若按社团中高一、高二、高三年级的成员人数比例分层随机抽样,则高一年级抽取10人;若按性别比例分层随机抽样,则男生抽取18人.则下列结论正确的有
( )
A.样本量为30 B.120名社团成员中男生有72人
C.高二与高三年级的社团成员共有85人 D.高一年级的社团成员中女生最多有48人
【答案】AB
【解题思路】根据分层抽样的相关概念及等比例性质依次判断各项的正误.
【解答过程】A:从中随机抽取30名,则样本量为30,对;
B:设120名社团成员中男生有人,因为按性别比例分层随机抽样时男生抽取18人,
所以,解得,所以120名社团成员中男生有72人,对;
C:设高二与高三年级的社团成员共有人,
因为按社团中高一、高二、高三年级的成员人数比例分层随机抽样时高一年级抽取10人,
所以,解得,所以高二与高三年级的社团成员共有80人,错;
D:根据C知,高一年级的社团成员有(人),故高一年级的社团成员中女生最多有40人,错.
故选:AB.
10.(25-26高一上·河南·阶段检测)某学校对高一学生选科情况进行了统计,发现学生选科仅有政史地、物化生、物化地、物化政、生史地五种组合,其中选考物化地和物化政组合的人数相等,并绘制得到如下的扇形图和条形图,则下列说法正确的是( )
A.该校高一学生总数为600
B.该校高一学生中选考物化政组合的人数为80
C.该校高一学生中选考物理的人数比选考历史的人数多
D.用分层随机抽样的方法从该校高一学生抽取20人,则生史地组合抽取4人
【答案】BCD
【解题思路】A:由扇形图和条形图中选政史地的人数和占比即可求出高一学生总数;B:结合扇形图和条形图即可计算;C:直接计算比较即可;D:利用分层抽样的原理即可求解.
【解答过程】A:由扇形图和条形图可知,选政史地的人数为200,占比25%,
∴该校高一学生总数为人,故A错误;
B:由扇形图知,选择物化生的人数为,
∴选择物化地和物化政的人数为,
又∵选考物化地和物化政组合的人数相等,
∴选考物化地和物化政组合的人数均为,故B正确;
C:该校高一学生中选考物理的有人,选考历史的有人,选考物理的人数比选考历史的人数多,故C正确;
D:∵选考生史地的学生人数占比为,∴用分层随机抽样的方法从该校高一学生抽取20人,则生史地组合抽取人,故D正确.
故选:BCD.
11.(24-25高一下·吉林长春·期末)小胡同学参加射击比赛,打了8发子弹,报靶数据如下:9,8,6,10,9,7,6,9(单位:环),则下列说法正确的是( )
A.这组数据的众数为9 B.这组数据的分位数是7.5
C.这组数据的极差是4 D.这组数据的标准差是
【答案】ACD
【解题思路】分别计算这组数据的众数、百分位数、极差、标准差逐项判断即可.
【解答过程】对于A,由题意知这组数据的众数为9,故A正确;
对于B,这组数据从小到大为6,6,7,8,9,9,9,10,
由知分位数为8,故B错误;
对于C,这组数据的极差是,故C正确;
对于D,这组数据的平均数是,
方差是,
所以这组数据的标准差是,故D正确.
故选:ACD.
三、填空题
12.(25-26高一上·河南南阳·阶段检测)学校书法类、公益类、音乐类兴趣小组的报名人数分别为,,.根据兴趣小组的报名人数,采用按比例分层随机抽样的方法,从这些报名的学生中抽取人作为兴趣小组策划人员,则应从书法类兴趣小组抽取__________人.
【答案】
【解题思路】根据分层抽样的定义直接计算.
【解答过程】由分层抽样可得应从书法类兴趣小组抽取人,
故答案为:.
13.(2025高一上·辽宁沈阳·专题练习)已知甲、乙两组按顺序排列的数据:甲组:27,28,37,,40,50;乙组:24,,34,43,48,52;若这两组数据的第30百分位数、第50百分位数分别对应相等,则等于__________.
【答案】
【解题思路】根据百分位数的定义计算,建立关于的方程组,解之即可求解.
【解答过程】对于甲组数据,,
所以甲组数据的第30百分位数为28,第50百分位数为
对于乙组数据,,
所以乙组数据的第30百分位数为,第50百分位数为.
由题意得,,解得,
所以.
故答案为:.
14.(24-25高一下·湖南衡阳·期末)衡阳市一中高一某班45名学生成立了A、B两个数学兴趣小组,A组25人,B组20人,经过一个月的强化培训后进行了一次测试,在该次测试中,A组的平均成绩为82分,方差为8,B组的平均成绩为86.5分,方差为2,则在这次测试中全班学生成绩的方差为__________.
【答案】
【解题思路】利用分层抽样的方差公式计算即可.
【解答过程】设,,,,,,
则全班学生成绩的平均数为,
全班学生成绩的方差为 ,
故答案为:.
四、解答题
15.(24-25高一下·安徽·阶段检测)某学校高中部最近组织了一次野外郊游活动,活动分为登山看日出组和海边看日落组,且每位学生至多参加其中一组.在参加活动的学生中,高一学生占20%,高二学生占30%,登山组的学生占参加活动的总人数的,且该组高一学生占50%,高二学生占30%.为了了解各组不同年级的学生对本次活动的满意程度,现用分层随机抽样的方法从参加活动的全体学生中抽取一个容量为80的样本.
(1)求在海边看日落组中,高一学生、高二学生、高三学生分别所占的比例;
(2)求在海边看日落组中,高三年级应抽取的人数.
【答案】(1)
(2)
【解题思路】(1)设高一学生、高二学生、高三学生所占的比例分别为,根据题意,列出方程求得,求得的值;
(2)由(1)可得高三学生所占的比例分别为,进而求得高三年级应抽取的人数.
【解答过程】(1)解:设登山看日出组的人数为x,在海边看日落组中,
设高一学生、高二学生、高三学生所占的比例分别为,
则,解得,
所以.
故在海边看日落组中,高一学生、高二学生、高三学生所占的比例分别为.
(2)解:由(1)可得高三学生所占的比例分别为,
所以在海边看日落组中,高三年级应抽取的人数为人.
16.(24-25高一下·四川成都·期末)为了提高市民的环保意识,某市举行了环保知识竞赛,为了解全市参赛者的成绩情况,从所有参赛者中随机抽取了100人的成绩(均为整数)作为样本,将其整理后分为6组,并作出了如图所示的频率分布直方图(最低40分,最高100分).
(1)求a的值;
(2)从频率分布直方图中,估计本次竞赛成绩的众数和平均数;
(3)认定成绩位于前百分之六十的考生为良好,请你估计良好认定的分数线是多少.(保留整数)
【答案】(1)
(2)众数为65分,平均数为71.8分
(3)68分
【解题思路】(1)在频率分布直方图中,所有直方图面积之和为1,可求出的值;
(2)根据众数和平均数的定义求解即可;
(3)根据频率分布直方图计算出第40百分位数,即可得出结果.
【解答过程】(1)在频率分布直方图中,所有直方图面积之和为1,
可得,解得,
(2)估计本次竞赛成绩的众数为分,
估计本次竞赛成绩的平均数为
分.
(3)由题意,成绩位于前百分之六十的考生为良好,则良好认定的分数线是第40百分位数,
前两个矩形面积之和为,
前三个矩形面积之和为,
设第40百分位数为,则,
则,解得,
因此,估计良好认定的分数线为68分.
17.(24-25高一下·河北秦皇岛·期末)某高校举行了一次环保知识竞赛,共有900名学生参加,为了解本次竞赛成绩的情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表和频率分布直方图,解答下列问题:
分组
频数
频率
[50,60)
4
0.08
[60,70)
0.16
[70,80)
10
[80,90)
16
0.32
[90,100]
合计
50
(1)填充频率分布表的空格(将答案直接填在表格内);
(2)补全频率分布直方图;
(3)若成绩在[80,100]内的学生获得环保纪念勋章,请估计该校获得环保纪念勋章的学生有多少人.
【答案】(1)表格见解析
(2)作图见解析
(3)504
【解题思路】(1)利用频率、频数和样本容量的关系即可完成此表格;
(2)利用表中数据计算出这个分数段对应的矩形高度即可完成频率分布直方图.
(3)先找出成绩分及以上对应的分数段的频率,再用该频率乘以总人数即可得到.
【解答过程】(1)由频率分布表,可知样本容量为50,
故成绩在[60,70)的频数为,
成绩在[70,80)的频率为,
成绩在[90,100]的频数为,
频率为,
故频率分布表为:
分组
频数
频率
[50,60)
4
0.08
[60,70)
8
0.16
[70,80)
10
0.20
[80,90)
16
0.32
[90,100]
12
0.24
合计
50
1
(2)频率分布直方图如图所示:
(3)样本中成绩在[80,100]的频率为0.32 + 0.24 = 0.56,
所以估计该校获得环保纪念勋章的学生人数为900×0.56 = 504.
18.(24-25高二上·四川成都·期末)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,分别从两厂随机选取了 10个轮胎,将每个轮胎的宽度(单位:mm) 记录下来并绘制出折线图:
(1)分别计算甲、 乙两厂提供10个轮胎宽度的平均值;
(2)轮胎的宽度在[193,195]内,则称这个轮胎是标准轮胎,试比较甲、 乙两厂分别提供的 10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个厂的轮胎相对更好.
【答案】(1)甲、 乙两厂提供10个轮胎宽度的平均值分别为195,194.
(2)从平均数上来看:乙厂提供的 10个轮胎中所有标准轮胎宽度高于甲厂提供的 10个轮胎中所有标准轮胎宽度,但乙厂提供的 10个轮胎中所有标准轮胎宽度方差较大,不够稳定.
【解题思路】(1)由折线图提供的数据,利用平均数公式代入计算即可;
(2)分别找出甲乙两厂的所有标准轮胎宽度的数据,再分别求出平均值与方差,即可判断.
【解答过程】(1)由题:甲厂轮胎宽度的平均值为:
;
乙厂轮胎宽度的平均值为:
;
所以甲、 乙两厂提供10个轮胎宽度的平均值分别为195,194.
(2)由题,甲厂提供的 10个轮胎中所有标准轮胎宽度为:
,其平均数为:,
其方差为:;
乙厂提供的 10个轮胎中所有标准轮胎宽度为:
,其平均数为:,
其方差为:;
从平均数上来看:乙厂提供的 10个轮胎中所有标准轮胎宽度高于甲厂提供的 10个轮胎中所有标准轮胎宽度,但乙厂提供的 10个轮胎中所有标准轮胎宽度方差较大,不够稳定.
19.(24-25高一下·山东济宁·期末)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)求样本成绩的上四分位数;
(3)已知落在的平均成绩是57,方差是7,落在的平均成绩为69,方差是4,求两组成绩的总平均数和总方差.
【答案】(1);
(2)84;
(3)总平均数为65;总方差为37.
【解题思路】(1)由频率直方图小矩形的面积和为1列方程求参数;
(2)由百分位数的定义及直方图求上四分位数;
(3)应用分层抽样的均值和方差公式求总平均数和总方差.
【解答过程】(1)因为每组小矩形的面积之和为1,
所以,则;
(2)成绩落在内的频率为,
落在内的频率为,
设上四分位数为m,由,得,
故上四分位数为84;
(3)成绩在的市民人数为,
成绩在的市民人数为,
故这两组成绩的总平均数为,
由样本方差计算总体方差公式可得总方差为
.
第 1 页 共 4 页
学科网(北京)股份有限公司
$
专题06 统计(暑假复习讲义)
【人教A版】
【知识清单1 简单随机抽样】
1.抽样调查的必要性
(1)相关概念
名称
定义
全面调查(普查)
对每一个调查对象都进行调查的方法.
抽样调查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
总体
调查对象的全体.
个体
从总体中抽取的那部分个体.
样本
从总体中抽取的那部分个体.
样本量
样本中包含的个体数.
(2)抽样的必要性
普查往往需要花费大量的财力、物力,而抽样调查具有花费少、效率高的特点.另外,在有些调查中,抽样调查则具有不可替代的作用,比如:
①一些个体具有破坏性.如不可能对所有的炮弹都进行试射检验其是否合格.
②一些检测具有毁损性.如不可能把地里所有的种子都挖出来检验其是否发芽.
2.简单随机抽样
(1)简单随机抽样的概念
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
(2)(不放回)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取样本的总体中所含个体的个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单随机抽样中各个个体被抽到的可能性(机会)都相等(与第几次抽取无关),从而保证了抽样的公平性.
3.两种常见的简单随机抽样方法
(1)抽签法
一般地,抽签法就是把总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些号签放在一个不透明的盒,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的数量.
(2)随机数法
先把总体中的N个个体编号,用随机数工具产生1~N范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的数量.如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
(3)两种抽样方法的优缺点
抽样方法
优点
缺点
适用范围
抽签法
简单易行.
总体量较大时,操作起来比较麻烦.
适用于总体中个体数不多的情形.
随机数法
简单易行,它很好地解决了总体量较大时用抽签法制签困难的问题.
总体量很大,样本量也很大时,利用随机数法抽取样本仍不方便.
总体量较大,样本量较小的情形.
4.总体平均数与样本平均数
(1)概念
名称
定义
总体均值(总体平均数)
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式.
样本均值(样本平均数)
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称为样本均值,又称样本平均数.
说明:(1)在简单随机抽样中,我们常用样本平均数去估计总体平均数;
(2)总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);
(3)一般情况下,样本量越大,估计越准确.
(2)求和符号∑的性质
①;
②,其中k为常数.
【知识清单2 分层随机抽样】
1.分层随机抽样
(1)分层随机抽样的必要性
简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本,从而使得估计出现较大的误差,这时候我们可以考虑采取一种新的抽样方法——分层随机抽样.
(2)分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(3)比例分配
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.即:
①;
②.
(4)分层随机抽样的步骤
①分层:根据已经掌握的信息,将总体分成互不重叠的层.
②求比:根据总体中的个体数N和样本容量n计算抽样比.
③定数:确定第i层应该抽取的个体数为ni=Ni·k(Ni为总体中第i层所包含的个体数),使得各ni之和为n.
④抽样:按“定数”步骤中确定的个体数在各层中随机地抽取个体,合在一起便得到容量为n的样本.
(5)分层随机抽样的特点
①适用于由差异明显的几部分(即层)组成的总体;
②分成的各层互不重叠;
③各层抽取的比例都等于样本容量在总体中的比例,即,其中n为样本容量,N为总体容量;
④分层随机抽样使样本具有较强的代表性,而且在各层抽样时,又可灵活地选用不同的随机抽样方法.
2.分层随机抽样的平均数计算
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层、第2层的总体平均数分别为,第1层、第2层的样本平均数分别为,总体平均数为,样本平均数为,则.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用估计总体平均数.
又,所以.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
【知识清单3 获取数据的途径】
1.获取数据的途径
(1)通过调查获取数据
我们一般通过抽样调查或普查的方法获取数据.
(2)通过试验获取数据
没有现存的数据可以查询时,就需要通过对比试验的方法去获取样本观测数据.
(3)通过观察获取数据
自然现象只能通过长久的持续观察获取数据.
(4)通过查询获得数据
通过收集前人的劳动成果并加以利用,从而减少收集数据的成本.
【知识清单4 总体取值规律的估计】
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图
折线图
扇形图
特
点
一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的.
用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化.
用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景
能清楚地表示每个项目的具体数量,便于相互比较大小.
能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中.
可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
【知识清单5 总体百分位数的估计】
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【知识清单6 总体集中趋势的估计】
1.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
名称
概念
平均数
如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中位数
将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众数
一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
2.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【注意】1.若x1,x2,…,xn的平均数为,那么的平均数为.
【知识清单7 总体离散程度的估计】
1.总体离散程度的估计
(1)方差和标准差
假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为.
总体标准差:.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则标准差为0.反之,标准差为0的样本,其中的数据都相等.
【注意】
1.数据x1,x2,…,xn与数据的方差相等,即数据经过平移后方差不变.
2.若x1,x2,…,xn的方差为s2,那么的方差为a2s2.
【知识清单8 统计案例】
1.课中探究
为了解某公司员工的身体肥胖情况,我们该如何根据数据表写一份该公司员工身体肥胖情况的统计分析报告?该如何分析公司员工胖瘦程度的整体情况并提出控制体重的建议?
(1)教学目标
①通过一个完整案例,经历统计学解决问题的过程,在此过程中,进一步学习数据收集和处理的方法、数据直观图表的表示方法和数据统计特征的刻画方法.
②通过实际操作、计算机模拟等活动,积累数据分析的经验,培养数据分析的素养.
(2)教学内容
教学重点:①了解统计报告的组成部分,培养学生数据分析的素养;②体会统计方法的必要性与合理性,正确了解样本和总体的关系.
教学难点:体会统计方法的必要性与合理性,正确了解样本和总体的关系.
2.背景与数据
近年来,我国肥胖人群的规模急速增长,肥胖人群有很大的心血管安全隐患.目前,国际上常用身体质量指数(Body Mass Index,缩写BMI)来衡量人体胖瘦程度以及是否健康,其计算公式是
中国成人的BMI数值标准为:BMI<18.5为偏瘦;18.5≤BMI<23.9为正常;24≤BMI<27.9为偏胖;BMI≥28为肥胖.
3.任务与要求
根据上面的数据,写一份该公司员工肥胖情况的统计分析报告.要求:
(1)选择合适的图表展示数据;
(2)比较男、女员工在肥胖状况上的差异;
(3)分析公司员工胖瘦程度的整体情况;
(4)提出控制体重的建议.
4.统计报告的主要组成部分
(1)标题
(2)前言
简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.
(3)主题
展示数据分析的全过程:首先要明确所关心的问题是什么,说明数据蕴含的信息;根据数据分析的需要,说明如何选择合适的图标描述和表达数据;从样本数据中提取能刻画其特征的量,如均值、方差等,用于比较男、女员工在肥胖状况上的差异;通过样本估计总体的统计规律,分析公司员工胖瘦程度的整体.
(4)结尾
对主题部分的内容进行概括,结合控制体重的一般方法,提出控制公司员工体重的建议.
【题型1 简单随机抽样】
【例1】(24-25高一下·全国·课后作业)下列抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每100万枚为一个开奖组,号码的后四位是2709的为三等奖
B.某车间包装一种产品,在自动包装传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.从8台电脑中逐个不放回地随机抽取2台,进行质量检验,假设8台电脑已编好号,对编号随机抽取
D.仓库中有1万支奥运火炬,从中一次性就近抽取100支火炬进行质量检查
【变式1-1】(24-25高一上·江西宜春·期末)某班级有名学生,班主任用不放回的简单随机抽样的方法从这名学生中抽取人进行家访,则同学被抽到的可能性为( )
A. B. C. D.
【变式1-2】(24-25高一上·全国·课后作业)下列4个抽样中,简单随机抽样的个数是( )
①从无数个个体中抽取50个个体作为样本;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③某连队从200名党员官兵中,挑选出50名最优秀的党员官兵赶赴某市参加抗震救灾工作;
④一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
A.0 B.1
C.2 D.3
【变式1-3】(24-25高一下·陕西宝鸡·阶段检测)某校在一次期中作业检查中,对高一(6)班61位同学的作业进行抽样调查,先采用抽签法从中剔除一个人,再从余下的60人中随机抽取6人,下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人被抽到的机会不相等
C.每个人在整个抽样过程中被抽到的机会相等,因为每个人被剔除的可能性相等,那么,不被剔除的机会也是相等的
D.由于采用了两步进行的抽样,所以无法判断每个人被抽的可能性是多少
【题型2 随机数表法】
【例2】(25-26高一上·河南·阶段检测)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…,500,假设从第1行第4列的数字开始,则第4个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.455 D.447
【变式2-1】(24-25高一下·福建福州·期末)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…500,假设从第1行第4列的数字开始,则第5个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.447 D.672
【变式2-2】(24-25高一下·贵州黔南·期末)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,,50,从中抽取6个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第1行第6列开始向右依次读取数据,则得到的第6个样本编号是( )
A.57 B.50 C.40 D.10
【变式2-3】(24-25高一下·湖南邵阳·阶段检测)从编号为01,02,…,49,50的50个个体中利用下面的随机数表选取5个个体,选取方法从随机数表第1行第5列的数开始由左到右依次抽取,则选出来的第4个个体的编号为( )
7816
6572
0812
1463
0782
4369
9728
0198
3204
9234
4935
8200
3623
4869
6938
7481
A.14 B.07 C.32 D.43
【题型3 抽样方法的选取】
【例3】(24-25高二上·上海长宁·期末)①植物根据植株的高度及分枝部位等可以分为乔木、灌木和草木三大类,某植物园需要对其园中的不同植物的干重(烘干后测定的质量)进行测量;②检测员拟对一批新生产的1000箱牛奶抽取10箱进行质量检测;上述两项调查应采用的抽样方法是( )
A.①用简单随机抽样,②用分层随机抽样 B.①用简单随机抽样,②用简单随机抽样
C.①用分层随机抽样,②用简单随机抽样 D.①用分层随机抽样,②用分层随机抽样
【变式3-1】(24-25高一下·山东枣庄·期末)某中学有青年教师95人,中年教师65人,老年教师20人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,则合适的抽样方法是( )
A.抽签法 B.随机数法
C.分层随机抽样 D.简单随机抽样
【变式3-2】(24-25高一下·云南丽江·阶段检测)下列两项调查适宜采用的抽样方法依次是( )
①一项对“中兴事件”(2018年4月16日,美国对中兴通讯施行惩罚措施,引起国内关于国产芯片的讨论)影响的调查中有10000人认为这是美国贸易保护主义,对世界经济会产生比较负面的影响:有9000人认为这只是一个孤立事件,对世界经济大格局不会产生太大影响:有1000人没有发表自己的看法.现要从这20000人中随机抽取200人做进一步调查.
②从某中学高二年级的15名艺术特长生中选出3名调查学习负担情况.
A.①简单随机抽样,②分层抽样
B.①分层抽样,②简单随机抽样
C.①②都用简单随机抽样
D.①②都用分层抽样
【变式3-3】(24-25高一下·陕西西安·期末)现要完成下列3项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查;②科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈;③某中学有高中生3500人,初中生1500人,为了解学生的学习情况,拟抽取一个容量为200的样本.较为合理的抽样方法分别是( )
A.①简单随机抽样,②分层抽样,③系统抽样
B.①简单随机抽样,②系统抽样,③分层抽样
C.①系统抽样,②简单随机抽样,③分层抽样
D.①分层抽样,②系统抽样,③简单随机抽样
【题型4 分层抽样的计算】
【例4】(24-25高一下·河北唐山·期末)某公司生产,,三种不同型号的电子产品,产量分别为100,400,300件,为检验不同产品的质量,现用分层抽样的方法从以上产品中抽取40件进行检验,则应从种型号的产品中抽取的件数为( )
A.5 B.10 C.15 D.20
【变式4-1】(24-25高一下·新疆哈密·期末)某校高一、高二、高三年级的学生人数之比为,现用分层随机抽样的方法从该校三个年级的学生中抽取容量为300的样本,则从高二年级抽取的学生人数为( )
A.60 B.90 C.120 D.150
【变式4-2】(24-25高一下·安徽合肥·期末)某校为了解同学们对“天宫课堂”这种授课模式的兴趣,决定利用分层抽样的方法从高一、高二、高三学生中选取90人进行调查,已知该校高一年级学生有400人,高二年级学生有500人,高三年级学生有600人,则抽取的学生中,高一年级有( )
A.40人 B.36人 C.30人 D.24人
【变式4-3】(24-25高一下·四川凉山·期末)某校高一有1000名学生,为了培养学生良好的阅读习惯,语文教研组要求高一学生从四大名著中选一本阅读,其中有400人选《三国演义》,250人选《水浒传》,250人选《西游记》,100人选《红楼梦》,若采用分层抽样的方法随机抽取100名学生分享他们的读后感,则选《西游记》或《红楼梦》的学生抽取的人数为( )
A.25 B.30 C.35 D.50
【题型5 频率分布直方图的相关问题】
【例5】(2025高二下·湖南·学业考试)某中学举行了一次“网络信息安全”知识竞赛,将参赛的500名学生成绩分为6组,绘制了如图所示的频率分布直方图,则成绩在区间内的学生有( )
A.80名 B.100名 C.120名 D.140名
【变式5-1】(24-25高一下·广西河池·期末)某校举办了一次环境保护知识竞赛,为了解学生的环境保护知识掌握程度,学校采用简单随机抽样从全校名学生中抽取了一个容量为的样本,已知样本的成绩全部分布在区间内,根据调查结果绘制学生成绩的频率分布直方图如图所示,则频率分布直方图中( )
A. B. C. D.
【变式5-2】(24-25高一下·甘肃·阶段检测)“累积净化量(CCM)”是空气净化器质量的一个重要衡量指标,它是指空气净化器从开始使用到净化效率为时对颗粒物的累积净化量,以克表示.根据GB/T18801-2015《空气净化器》国家标准,对空气净化器的累计净化量(CCM)有如下等级划分:
累积净化量(克)
以上
等级
为了了解一批空气净化器(共台)的质量,随机抽取台机器作为样本进行估计,已知这台机器的累积净化量都分布在区间中.按照,,,,均匀分组,其中累积净化量在的所有数据有:,,,,和,并绘制了如图所示频率分布直方图:
(1)求的值及频率分布直方图中的值;
(2)以样本估计总体,试估计这批空气净化器(共台)中等级为的空气净化器有多少台?
【变式5-3】(24-25高一下·全国·单元测试)为了让学生了解环保知识,增强环保意识,某中学举办了一次环保知识竞赛,共有900名学生参加了这次竞赛.为了了解本次竞赛的成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成并有局部污损的频数分布表和频数分布直方图,解答下列问题:
分组
频数
频率
50.5~60.5
4
0.08
60.5~70.5
0.16
70.5~80.5
10
80.5~90.5
16
0.32
90.5~100.5
合计
50
(1)填充频数分布表的空格(将答案直接填在表格内);
(2)补全频数分布直方图;
(3)若成绩在75.5~85.5的学生为二等奖,问获得二等奖的学生约为多少人?
【题型6 根据统计图解决实际问题】
【例6】(24-25高二下·广东东莞·期中)为弘扬中华优秀传统文化,济南市公开招募“泉润非遗”志愿者.现从所有报名的志愿者中,随机选取300人进行调查,其中青年人、中年人、老年人三个年龄段的比例饼状图如图1所示,各年龄段志愿者的性别百分比等高堆积条形图如图2所示,则下列关于样本数据的分析正确的是( )
A.老年男性志愿者人数为90
B.老年女性志愿者人数大于中年女性志愿者人数
C.青年女性志愿者人数为72
D.中年男性志愿者人数大于青年男性志愿者人数
【变式6-1】(24-25高一下·贵州六盘水·期末)为了研究我市甲、乙两个旅游景点的游客情况,文旅局统计了今年4月到9月甲、乙两个旅游景点的游客人数(单位:万人),得到如图所示的折线图.根据两个景点的游客人数的折线图,下列说法错误的是( )
A.7,8,9月份的总游客人数甲景点比乙景点少
B.乙景点4月到9月的游客人数总体呈上升趋势
C.甲景点4月到9月游客人数的平均值在内
D.甲、乙两景点4月到9月中游客量的最高峰期都在8月
【变式6-2】(24-25高一下·四川内江·期末)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄的分布饼状图、90后从事互联网行业者的岗位分布条形图,则下列结论中不一定正确的是( )
A.互联网行业从事技术岗位的人数中,90后比80后多
B.90后互联网行业者中从事技术岗位的人数超过整个从事互联网行业者总人数的
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业从业人员中90后占一半以上
【变式6-3】(24-25高一下·广东佛山·期末)某保险公司为客户定制了5个险种:甲,一年期短期;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得到如图所示的统计图表.则下列说法中一定错误的是( )
A.丁险种参保人数超过五成 B.41岁以上参保人数超过总参保人数的五成
C.18-29周岁人群参保的总费用最少 D.人均参保费用不超过5000元
【题型7 百分位数的求解】
【例7】(24-25高一下·新疆阿克苏·期末)某班级的老师随机抽查了该班8名同学周末在家学习的时长(单位:h),所得数据如下:3,4,4,5,6,6,7,8,则这组数据的75%分位数为( )
A.6.5 B.6 C.5.5 D.5
【变式7-1】(24-25高一下·甘肃定西·期末)样本数据,,,,,,,的第70百分位数为( )
A.5 B.4 C. D.3
【变式7-2】(24-25高一下·河南商丘·期末)某校为了加强食堂用餐质量,该校随机调查了名学生,得到这名学生对食堂用餐质量给出的评分数据(评分均在[50,100]内),将所得数据分成五组:,,,,,得到如图所示的频率分布直方图,估计学生对食堂用餐质量的评分的第百分位数为( )
A.82.5 B.81.5 C.87.5 D.85
【变式7-3】(24-25高一下·四川眉山·期末)为落实“双碳”目标,某环保组织调研10个国家2024年度的人均碳排放强度(单位:吨/人·年)后,得到数据如下:2,4,5,7,8,9,11,12,13,15.则该组数据的分位数是( )
A.5 B.6 C.7 D.12
【题型8 众数、中位数、平均数的求解】
【例8】(24-25高一下·河南濮阳·期末)2025年5月14日,长征二号丁运载火箭一次性将12颗太空计算卫星成功送入预定轨道.若各卫星从星箭分离至入轨所需时间(单位:秒)按升序排列为82,85,87,89,91,93,95,97,99,101,103,105,则这组数据的中位数为( )
A.94 B.93 C.92 D.91
【变式8-1】(24-25高一下·陕西汉中·期末)某校举办“迎七一”红歌比赛,五位评委给某参赛班级的评分分别为87,87,89,m,90,若这组数据的平均数为88,则这组数据的中位数为( )
A.88 B.87 C.89 D.90
【变式8-2】(2025·山东聊城·三模)已知数据,9,7,9的中位数和平均数相等,那么的值为( )
A.5 B.7 C.5或9 D.7或11
【变式8-3】(24-25高一下·河北邯郸·期末)已知高一三班的某次数学测试中,某学习小组的成绩如下:70,75,94,85,85,90,86,90,85,100,则该小组成绩的平均数、众数、中位数的大小关系是( )
A.众数=中位数<平均数 B.众数<中位数<平均数
C.众数<平均数<中位数 D.众数=平均数<中位数
【题型9 方差、标准差的求解及应用】
【例9】(24-25高一下·北京通州·期末)已知一组样本数据16,,14,15,13的平均数为15,则该组样本数据的方差为( )
A.2.0 B.2.1 C.2.2 D.2.4
【变式9-1】(24-25高一下·山东滨州·期末)设一组样本数据的平均数为3,方差为4,则数据,,,,的平均数和方差分别为( )
A.4,14 B.4,16 C.5,14 D.5,16
【变式9-2】(24-25高一下·河南信阳·期末)数据的平均数为,方差,现在增加两个数据和,则这组新数据的标准差为( )
A. B. C. D.
【变式9-3】(24-25高一下·贵州铜仁·期末)甲、乙、丙、丁四名同学各掷骰子5次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断一定没有出现点数6的是( )
A.甲:平均数为3,中位数为2 B.乙:极差为3,众数为3
C.丙:平均数为2,方差为2.4 D.丁:众数为2,方差为2.4
【题型10 统计图中集中趋势参数的计算】
【例10】(24-25高一下·浙江宁波·期末)学校为了解全校1800名学生的身体肥胖情况,随机抽取了100名学生的体检数据,将其BMI值分成以下五组:,,,,,得到相应的频率分布直方图,如图所示.则下列说法错误的是( )
A.
B.估计样本的中位数为23
C.估计样本的众数为22
D.估计全校学生BMI值落在区间的人数为36人
【变式10-1】(24-25高一下·福建南平·期末)如图,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态.根据所给图示作出判断,则下列结论正确的是( )
A.图(1)中平均数中位数众数 B.图(2)中平均数众数中位数
C.图(2)中众数平均数中位数 D.图(3)中平均数中位数众数
【变式10-2】(24-25高一下·甘肃嘉峪关·期中)某校抽取100名高二学生期中考试的语文成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为:,,…,,.
(1)求频率分布直方图中a的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的中位数和平均数.(保留小数点后1位)
【变式10-3】(24-25高一下·黑龙江哈尔滨·期末)某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间中,其频率分布直方图如图所示.
(1)估计此批棉花纤维长度的众数;
(2)估计此批棉花纤维长度的下四分位数和中位数;(保留整数)
(3)估计此批棉花纤维长度的平均数.(保留整数)
【题型11 统计图中方差的计算】
【例11】(24-25高一下·全国·单元测试)某校为了解高一学生一周课外阅读情况,随机抽取甲,乙两个班的学生,收集并整理他们一周阅读时间(单位:h),绘制了下面频率分布直方图.根据直方图,得到甲,乙两校学生一周阅读时间的平均数分别为,,标准差分别为,,则( )
甲班频率分布直方图 乙班频率分布直方图
A., B.,
C., D.,
【变式11-1】(2025·贵州·模拟预测)某校为了解高一学生一周课外阅读情况,随机抽取甲,乙两个班的学生,收集并整理他们一周阅读时间(单位:),绘制了下面频率分布直方图.根据直方图,得到甲,乙两校学生一周阅读时间的平均数分别为,标准差分别为,则于( )
A., B.,
C., D.,
【变式11-2】(24-25高一下·河南信阳·期末)人工智能的广泛应用,给人们的生活带来了便捷.随着DeepSeek的开源,促进了AI技术的共享和进步.某网站组织经常使用DeepSeek的人进行了AI知识竞赛.从参赛者中随机选出100人作为样本,并将这100人按成绩分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
(1)求;
(2)求样本数据的中位数与第35百分位数;
(3)已知直方图中成绩在内的平均数为85,方差为10,内的平均数为95,方差为15,求成绩在内的平均数与方差.
【变式11-3】(24-25高一下·湖北武汉·期末)某高校体检随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165],[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率分布直方图如图所示.
(1)求和频率分布直方图中身高在175cm及以下的学生人数;
(2)估计该校100名学生身高的下四分位数(结果保留到个位数).
(3)已知落在区间[170,175)的样本平均数是173,方差是8,落在区间[175,180)的样本平均数是178,方差是6,求两组样本成绩合并后的平均数和方差.
参考公式:若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:记总的样本平均数为,样本方差为,则.
【题型12 统计综合】
【例12】(24-25高一下·山东青岛·期末)气象意义上进入春季的标志为“一年中第一次出现连续5天的日平均气温均不低于10摄氏度”.现有甲、乙、丙、丁四地连续5天的日平均温度的记录数据(记录数据都是正整数):
甲地:5个数据的中位数为12,极差为3; 乙地:5个数据的平均数为11,众数为12;
丙地:5个数据的平均数为12,中位数为12; 丁地:5个数据的平均数为11,方差小于1.
则根据上面数据,肯定符合气象意义上进入春季的地区是( )
A.甲地 B.乙地 C.丙地 D.丁地
【变式12-1】(24-25高一下·广东深圳·期末)四名同学A,B,C,D各掷骰子5次,分别记录自己每次骰子出现的点数.根据四名同学的如下统计结果,则可以判断出一定没有出现点数6的是( )
A.平均数为2,中位数为1 B.中位数为3,众数为2
C.中位数为3,极差为4 D.平均数为2,方差为2.4
【变式12-2】(24-25高一下·重庆·期末)某校高一年级半期考试测试后,为了解本次测试的情况,在整个年级中随机抽取了200名学生的数学成绩,将成绩分为,共6组,得到如图所示的频率分布直方图.
(1)在样本中,采取等比例分层抽样的方法从成绩在[90,150]内的学生中抽取13名,则成绩在[130,150]的同学有几个?
(2)根据图中的样本数据,假设同组中每个数据用该组区间的中点值代替,试估计本次考试的平均分和众数;
(3)若年级计划对本次测试优异的同学进行表彰,且表彰人数不超过,根据样本数据,试估计获得表彰的同学的最低分数.
【变式12-3】(24-25高一下·内蒙古呼伦贝尔·期末)某零食超市某天接待了1250名顾客,老年375人,中青年625人,少年250人,景点为了提升服务质量,采用分层抽样从当天游客中抽取100人,以评分方式进行满意度回访.将统计结果按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成频率分布直方图如图:
(1)求抽取的样本中老年、中青年、少年的人数;
(2)求的值并估计当天游客满意度分值的平均数.(同一组中的数据以这组数据所在区间中点的值作代表);
(3)求样本数据的第85百分位数.
一、单选题
1.(25-26高一上·河南·阶段检测)下列调查中最适合采用全面调查(普查)的是( )
A.了解某市小麦的根部生长情况
B.了解某品牌手机的防摔功能
C.了解某省高一学生坚持晨读的情况
D.对我国最新研发的“玄龙08战斗机”的各零部件质量情况的调查
2.(25-26高二上·贵州遵义·阶段检测)数据的分位数为( )
A.2 B.2.4 C.2.5 D.3
3.(25-26高一上·山西忻州·期末)某高中高一、高二、高三年级的学生人数分别为400,400,600,为了解各年级学生每天阅读的时间,用分层随机抽样的方法从中抽取样本,若样本中高一年级的学生有14人,则样本容量为( )
A.42 B.45 C.49 D.50
4.(24-25高二下·云南昆明·阶段检测)为调查社区居民对社区工作的满意度,在社区内抽取200名居民进行问卷调查,将收集到的数据分成五组,绘制出以下频率分布直方图,若的频率为0.48,,的值为( )
A.0.017,0.048 B.0.017,0.48 C.0.17,0.048 D.0.17,0.48
5.(25-26高一上·陕西渭南·期末)某社区为了调查小区居民对社区的满意度,利用随机数表对300户居民进行抽样,先将300户居民依次编号为000,001,,299,从中抽取30个样本,下面是随机数表的第2行到第3行,若从随机数表的第2行第7列开始横向自左向右依次读取数据,则得到的第3个样本编号是( )
2145 7016 3388 2954 0761 1084 3711 6928 5074 3602 9578
4183 1572 6049 0839 2456 8109 8043 1967 5203 9845 9625
A.084 B.611 C.371 D.295
6.(24-25高一下·贵州遵义·阶段检测)数据的平均数为5,则的平均数为( )
A.15 B.13 C.11 D.9
7.(24-25高一下·江苏泰州·阶段检测)下面是校篮球队某队员若干场比赛的得分数据.
每场比赛得分
3
6
7
10
11
13
30
频数
2
1
2
2
1
1
1
则下列说法不正确的是( )
A.该队员得分的平均数是10 B.该队员得分的极差是27
C.该队员得分的第四十百分位数是7 D.该队员得分的方差是48.4
8.(25-26高二上·黑龙江大庆·开学考试)某公司为了调查员工的体重(单位:千克),因为女员工远多于男员工,所以按性别分层,用按比例分层随机抽样的方法抽取样本,已知抽取的所有员工的体重的方差为120,其中女员工的平均体重为50,方差为50,男员工的平均体重为70,方差为30.若样本中有21名男员工,则样本中女员工的人数为( )
A.68 B.63 C.35 D.48
二、多选题
9.(25-26高一上·全国·单元测试)某高中学校从有120名学生的“航天”社团中随机抽取30名参加一个交流会,若按社团中高一、高二、高三年级的成员人数比例分层随机抽样,则高一年级抽取10人;若按性别比例分层随机抽样,则男生抽取18人.则下列结论正确的有
( )
A.样本量为30 B.120名社团成员中男生有72人
C.高二与高三年级的社团成员共有85人 D.高一年级的社团成员中女生最多有48人
10.(25-26高一上·河南·阶段检测)某学校对高一学生选科情况进行了统计,发现学生选科仅有政史地、物化生、物化地、物化政、生史地五种组合,其中选考物化地和物化政组合的人数相等,并绘制得到如下的扇形图和条形图,则下列说法正确的是( )
A.该校高一学生总数为600
B.该校高一学生中选考物化政组合的人数为80
C.该校高一学生中选考物理的人数比选考历史的人数多
D.用分层随机抽样的方法从该校高一学生抽取20人,则生史地组合抽取4人
11.(24-25高一下·吉林长春·期末)小胡同学参加射击比赛,打了8发子弹,报靶数据如下:9,8,6,10,9,7,6,9(单位:环),则下列说法正确的是( )
A.这组数据的众数为9 B.这组数据的分位数是7.5
C.这组数据的极差是4 D.这组数据的标准差是
三、填空题
12.(25-26高一上·河南南阳·阶段检测)学校书法类、公益类、音乐类兴趣小组的报名人数分别为,,.根据兴趣小组的报名人数,采用按比例分层随机抽样的方法,从这些报名的学生中抽取人作为兴趣小组策划人员,则应从书法类兴趣小组抽取__________人.
13.(2025高一上·辽宁沈阳·专题练习)已知甲、乙两组按顺序排列的数据:甲组:27,28,37,,40,50;乙组:24,,34,43,48,52;若这两组数据的第30百分位数、第50百分位数分别对应相等,则等于__________.
14.(24-25高一下·湖南衡阳·期末)衡阳市一中高一某班45名学生成立了A、B两个数学兴趣小组,A组25人,B组20人,经过一个月的强化培训后进行了一次测试,在该次测试中,A组的平均成绩为82分,方差为8,B组的平均成绩为86.5分,方差为2,则在这次测试中全班学生成绩的方差为__________.
四、解答题
15.(24-25高一下·安徽·阶段检测)某学校高中部最近组织了一次野外郊游活动,活动分为登山看日出组和海边看日落组,且每位学生至多参加其中一组.在参加活动的学生中,高一学生占20%,高二学生占30%,登山组的学生占参加活动的总人数的,且该组高一学生占50%,高二学生占30%.为了了解各组不同年级的学生对本次活动的满意程度,现用分层随机抽样的方法从参加活动的全体学生中抽取一个容量为80的样本.
(1)求在海边看日落组中,高一学生、高二学生、高三学生分别所占的比例;
(2)求在海边看日落组中,高三年级应抽取的人数.
16.(24-25高一下·四川成都·期末)为了提高市民的环保意识,某市举行了环保知识竞赛,为了解全市参赛者的成绩情况,从所有参赛者中随机抽取了100人的成绩(均为整数)作为样本,将其整理后分为6组,并作出了如图所示的频率分布直方图(最低40分,最高100分).
(1)求a的值;
(2)从频率分布直方图中,估计本次竞赛成绩的众数和平均数;
(3)认定成绩位于前百分之六十的考生为良好,请你估计良好认定的分数线是多少.(保留整数)
17.(24-25高一下·河北秦皇岛·期末)某高校举行了一次环保知识竞赛,共有900名学生参加,为了解本次竞赛成绩的情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表和频率分布直方图,解答下列问题:
分组
频数
频率
[50,60)
4
0.08
[60,70)
0.16
[70,80)
10
[80,90)
16
0.32
[90,100]
合计
50
(1)填充频率分布表的空格(将答案直接填在表格内);
(2)补全频率分布直方图;
(3)若成绩在[80,100]内的学生获得环保纪念勋章,请估计该校获得环保纪念勋章的学生有多少人.
18.(24-25高二上·四川成都·期末)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,分别从两厂随机选取了 10个轮胎,将每个轮胎的宽度(单位:mm) 记录下来并绘制出折线图:
(1)分别计算甲、 乙两厂提供10个轮胎宽度的平均值;
(2)轮胎的宽度在[193,195]内,则称这个轮胎是标准轮胎,试比较甲、 乙两厂分别提供的 10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个厂的轮胎相对更好.
19.(24-25高一下·山东济宁·期末)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)求样本成绩的上四分位数;
(3)已知落在的平均成绩是57,方差是7,落在的平均成绩为69,方差是4,求两组成绩的总平均数和总方差.
第 1 页 共 4 页
学科网(北京)股份有限公司
$