内容正文:
以笔为剑,横扫数学题海;以智为盾,勇闯高考难关,高考必胜!
核心考点培优08:统计6大必考题型
(高一复习全国通用)
题型一 简单随机抽样 4
题型二 分层随机抽样 5
题型三 总体平均数、众数和中位数的估计值 6
题型四 百分位数的计算 9
题型五 众数,平均数,中位数和方差的计算 10
题型六 分层随机抽样的方差变化 11
思维导图
1.简单随机抽样
定义
设一个总体含有个个体,从中逐个不放回抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样
方法
抽签法
把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本
随机数法
利用随机数表、随机数骰子或计算机产生的随机数进行抽样
抽签法与随机数法
相同点
①都属于简单随机抽样,并且要求被抽取样本的总体的个体数有限;
②都是从总体中逐个不放回地进行抽取
不同点
①抽签法比随机数法操作简单;
②随机数法更适用于总体中个体数较多的时候,而抽签法适用于总体中个体数较少的情况
利用随机数法抽取个体时的注意事项:
①定起点:事先应确定以表中的哪个数(哪行哪列)作为起点.
②定方向:读数的方向(向左、向右、向上或向下都可以).
③读数规则:读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.
2.分层抽样
①定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
②应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
注意:分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘以抽样比.
2.用样本的数字特征估计总体的数字特征:
①众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
②极差、方差和标准差
极差:即一组数据中最大值与最小值的差.
方差:.
标准差:.
注:方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
性质
(1)若的平均数为,那么的平均数为.
(2)数据与数据的方差相等,即数据经过平移后方差不变.
(3)若的方差为s2,那么的方差为.
③百分位数
1.定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2.计算一组几个数据第p百分位数的步骤
第1步,按从小到大排列原始数据;
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
2、 分层随机抽样的方差
1、总体平均数和样本平均数的计算
在分层随机抽样中,如果层数为2层,第1层和第2层包含的个体数分别为和,抽样的样本容量分别为和,第1层、第2层的总体平均数分别为和,第1层、第2层的样本平均数分别为和,总体平均数为,样本平均数为,则
(1)
(2)
2、用样本平均数估计总体平均数
由于第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用估计总体平均数.
在比例分配的分层随机抽样中,,
所以
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数为.
3、平均数相关结论:
①如果两组数和的平均数分别是和,则一组数的平均数是;
②如果一组数的平均数为,则一组数的平均数为。
③如果一组数的平均数为,则一组数的平均数为
三、总体离散程度的估计
1、用样本的标准差估计总体的标准差
(1)数据的离散程度可以用极差、方差或标准差来描述;
(2)极差(又叫全距)是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
(3)样本方差描述了一组数据围绕平均数波动的大小;
一般地,设样本的数据为,样本的平均数为,
定义样本方差为;
简化公式:=
(方差等于原数据平方的平均数减去平均数的平方)
(4)样本的标准差是方差的算术平方根.
样本标准差.
标准差越大数据离散程度越大,数据家分散;标准差越小,数据集中在平均数周围.
(5)方差相关结论:
①如果一组数的方差为,则一组数的方差为;
②如果一组数的方差为,则一组数的方差为。
题型一 简单随机抽样
方法点拨:
1.抽签法与随机数表法
利用随机数表进行抽样的具体步骤:
①给总体中的每个个体编号;
②在随机数表中随机抽取某行某列作为抽样的起点,并规定读取方法;
③依次从随机数表中抽取样本号码,凡是抽到编号范围内的号码,就是样本的号码,并剔除相同的号码,直到抽满为止.
刷经典·悟方法
【例1】(24-25高一下·江苏无锡·期末)某工厂生产A,B,C三种不同型号的产品,产量之比为2:3:5.现用分层抽样的方法抽取一个容量为n的样本,若样本中A型号的产品有8件,则样本容量( )
A.16 B.40 C.80 D.100
【变式1-1】(23-24高一下·山东青岛·期末)某校高一、高二、高三的人数之比为,从中随机抽取400名学生组成志愿者,若学校中每人被抽中的概率都是,则该校高二年级的人数为( )
A.1000 B.900 C.800 D.700
【变式1-2】(23-24高一下·云南玉溪·月考)某工厂用简单随机抽样中的随机数法对生产的700个零件进行抽样,先将700个零件进行编号,.从中抽取70个样本,下图是利用软件生成的随机数,只需随机选定一个初始位置和方向开始读数,每次读取一个3位数,只要读取的号码落在编号范围内,该号码就是所抽到的样本编号,这样即可获得70个样本的编号,注意样本号码不能重复.若从表中第2行第6列的数2开始向右读取数据,取到的第一个样本编号是253,则得到的第6个样本编号是( )
A.007 B.328 C.253 D.623
【变式1-3】(多选题)(24-25高一上·辽宁葫芦岛·期末)为了关注学生的健康成长,某学校开展了一次高一年级学生身高的抽样调查,随机抽取了100名学生,将他们的身高划分成了A,B,C,D,E五个层次,根据抽样结果得到如下统计图,则从图中能得出的信息是( )
A.样本中A层次身高的女生少于男生
B.样本中B层次身高的学生人数最多
C.样本中D层次身高的学生人数占总人数的17%
D.样本中E层次身高的男生有6人
题型二 分层随机抽样
方法点拨:
分层抽样
分层随机抽样中有关计算的方法:
(1)抽样比=;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
刷经典·悟方法
【例2】(22-23高一下·天津南开·期末)为帮助乡村学校的学生增加阅读、开阔视野、营造更浓厚的校园读书氛围,南开中学发起了“把书种下,让梦发芽”主题捐书活动,现拟采用按年级比例分层抽样的方式随机招募12名志愿者,已知我校高中部共2040名学生,其中高一年级680名,高二年级850名,高三年级510名,那么应在高三年级招募的志愿者数目为( )
A.3 B.4 C.5 D.6
【变式2-1】(22-23高一下·天津静海·月考)下列说法错误的是( )
A.设一组样本数据的方差为2,则数据的方差为8
B.90,92,92,93,93,94,95,97,99,100的中位数为93.5
C.甲、乙、丙三种个体按3∶1∶2的比例分层抽样调查,若抽取的甲种个体数为9,则样本容量为18
D.数据的标准差比较小时,数据比较集中
【变式2-2】(22-23高一下·天津滨海新区·期末)从一个容量为100的总体中抽取容量为10的样本,选取简单随机抽样和分层随机抽样两种不同方法抽取样本.在简单随机抽样中,总体中每个个体被抽中的概率为,某个体被抽中的概率为;在分层随机抽样中,总体中每个个体被抽中的概率为,则( )
A. B.
C. D.之间没有关系
【变式2-3】(22-23高三上·重庆沙坪坝·月考)某中学的高一、二、三这三个年级学生的平均身高分别为,若按年级采用分层抽样的方法抽取了一个600人的样本,抽到高一、高二、高三的学生人数分别为100、200、300,则估计该高中学生的平均身高为( )
A. B. C. D.
题型三 总体平均数、众数和中位数的估计值
方法点拨:
频率分布直方图
(1)由于频率分布直方图中的纵坐标为,因此涉及纵坐标中含参数的问题,应根据频率之和为1列式求解;
(2)根据频率分布直方图(表)求样本数据在某一区间内的频率就是样本数据在该区间内的各组频率的和,而求解相应的频数还要根据频率乘以样本容量;
(3)若所求区间包含频率分布直方图中非分组的端点,可以利用“比例法”求解.
频率分布直方图与平均数、众数、中位数
用频率分布直方图估计总体数字特征的方法:
(1)最高矩形所在区间中点的横坐标即为众数
(2)累计频率为0.5(即累积面积S=0.5)时的横坐标即为中位数
(3)各矩形中点的横坐标和对应区间的频率的积之和即为平均数(也称期望)
(4)各矩形中点横坐标与均值之差的平方乘以对应区间的频率的积之和即为方差
刷经典·悟方法
【例3】(24-25高二上·云南曲靖·阶段检测)某地教育局为了解“双减”政策的落实情况,在辖区内初一年级在校学生中抽取了100名学生,调查了他们课下做作业的时间,得到如图所示的频率分布直方图,则下列结论不正确的是( )
A.该地初一年级学生做作业的时间超过3小时的概率估计为35%
B.估计该地初一年级有一半以上的学生做作业的时间超过2小时
C.估计该地初一年级学生做作业的时间的众数为2.25小时
D.估计该地初一年级有一半以上的学生做作业的时间在2小时至3小时之间
【变式3-1】(23-24高一下·贵州毕节·期末)某研究小组为了解某市高中生自主阅读情况,随机调查了2000名学生的每周自主阅读时间,按照时长(单位:小时)分成五组:,得到如图所示的频率分布直方图,其中每周自主阅读时间不低于8小时的频率为0.3.则以下说法中错误的是( )
A.
B.估计样本数据的第60百分位数值是7.5小时
C.样本的极差介于6小时至10小时之间
D.估计这2000名学生每周自主阅读时间的平均值是6.5小时
【变式3-2】(23-24高二下·陕西西安·期中)学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为且支出在元的样本,其频率分布直方图如图所示,则下列说法正确的是( )
A.估计众数为
B.估计中位数是
C.估计平均数为
D.支出在的频率为
【变式3-3】(24-25高一下·吉林松原·期末)某地举办了“防电信诈骗”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值及样本成绩的第80百分位数;求样本平均数;
(2)已知落在区间的样本平均成绩是57,标准差是7,落在区间的样本平均成绩为66,标准差是4,求两组样本成绩合并后的平均数和方差.
题型四 百分位数的计算
方法点拨:
(1)定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组几个数据第p百分位数的步骤
第1步,按从小到大排列原始数据;第2步,计算.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
(3)四分位数
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
刷经典·悟方法
【例4】(24-25高一下·天津·期末)某校高一数学备课组老师的年龄(单位:岁)分别为:37,31,42,32,41,46,45,48,35,53,则下列说法错误的是( )
A.该组数据极差为22
B.如再增加一位41岁的老师,则该组数据的方差变大
C.该组数据平均数为41
D.该组数据的第60百分位数为43.5
【变式4-1】(25-26高一上·河南南阳·月考)某年度河南省技术发明奖共个项目获奖,这个项目主要完成人的人数为,则这个项目主要完成人的人数的分位数是( )
A. B. C. D.
【变式4-2】(多选题)(25-26高一上·江西赣州·月考)下列说法正确的是( )
A.用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则总体中个体被抽到的概率为0.03
B.已知一组数据1,2,,6,7的平均数为4,则这组数据的方差是5
C.数据27,12,14,30,15,17,19,23的第70百分位数是23
D.若样本数据的标准差为8,则数据的标准差为16
【变式4-3】(2025·山东·三模)已知一组样本数据:3,7,,,13,16,其中,,该组样本的中位数为10.5.若要使该组样本的方差最小,则的值为______.
题型五 众数,平均数,中位数和方差的计算
方法点拨:
极差、方差和标准差
极差:即一组数据中最大值与最小值的差.
方差:.
标准差:.
注:方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
性质应用:
①若的平均数为,那么的平均数为.
②数据与数据的方差相等,即数据经过平移后方差不变.
③若的方差为s2,那么的方差为.
刷经典·悟方法
【例5】(25-26高一上·全国·期末)已知一组数据,,的平均数为,方差为,则数据,,,的平均数和方差分别为( )
A. B. C. D.
【变式5-1】(25-26高二上·湖北孝感·期中)已知数据的平均数为5,方差为16,那么数据,的平均数和方差分别为( )
A.6,8 B.5,8 C.6,4 D.8,6
【变式5-2】(多选题)(25-26高一上·辽宁沈阳·阶段检测)下列说法正确的是( )
A.已知一组数据1,2,m,6,7的平均数为4,则这组数据的方差是5
B.数据27,12,14,30,15,17,19,23的第70百分位数是23
C.若样本,,…,的平均值为8,则,,…,的平均值为15
D.某校高一年级有学生400人,高二年级有学生360人,现采用分层抽样的方法从全校学生中抽出58人,其中从高一年级学生中抽出20人,则从高三年级学生中抽取的人数为20人
【变式5-3】(2025·江苏南京·一模)某项比赛共有10个评委评分,若去掉一个最高分与一个最低分,则与原始数据相比,一定不变的是( )
A.极差 B.45百分位数 C.平均数 D.众数
题型六 分层随机抽样的方差变化
方法点拨:
总体平均数和样本平均数的计算
在分层随机抽样中,如果层数为2层,第1层和第2层包含的个体数分别为和,抽样的样本容量分别为和,第1层、第2层的总体平均数分别为和,第1层、第2层的样本平均数分别为和,总体平均数为,样本平均数为,则
(1)(2)
刷经典·悟方法
【例6】(25-26高二上·黑龙江大庆·开学考试)某公司为了调查员工的体重(单位:千克),因为女员工远多于男员工,所以按性别分层,用按比例分层随机抽样的方法抽取样本,已知抽取的所有员工的体重的方差为120,其中女员工的平均体重为50,方差为50,男员工的平均体重为70,方差为30.若样本中有21名男员工,则样本中女员工的人数为( )
A.68 B.63 C.35 D.48
【变式6-1】(2024·江西鹰潭·一模)某单位为了解职工体重情况,采用分层随机抽样的方法从800名职工中抽取了一个容量为80的样本.其中,男性平均体重为64千克,方差为151;女性平均体重为56千克,方差为159,男女人数之比为,则单位职工体重的方差为( )
A.166 B.167 C.168 D.169
【变式6-2】(23-24高三下·湖南长沙·月考)某学校高一年级学生有人,其中男生500人,女姓400人,为了获得该校高一全体学生的身高信息,现采用样本量按比例分配的分层抽样方法抽取了容量为90的样本,经计算得男生样本的均值为170,方差为19,女生样本的均值为161,方差为28,则下列说法中错误的是( )
A.男生样本容量为50 B.抽样时某女生甲被抽到的概率为
C.抽取的样本的均值为166 D.抽取的样本的方差为43
【变式6-3】7.(24-25高一下·黑龙江·期末)为了了解某工厂生产的产品情况,从该工厂生产的产品中随机抽取了一个容量为400的样本,测量它们的尺寸(单位:mm),并将数据分为七组,其频率分布直方图如图所示.
(1)求值;
(2)根据频率分布直方图,求400件样本中尺寸在内的样本数;
(3)已知利用分层随机抽样从第一、二组共抽出十二个数据,从第一组,第二组抽出的数据的标准差分别为1和,平均值分别为93和94.5,求抽出数据的均值和方差.
参考公式:若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:;记总的样本平均数为,样本方差为,则.
1.(23-24高一下·河北·期末)为实现乡村生态振兴,走乡村绿色发展之路,乡政府采用按比例分层抽样的方式从甲村和乙村抽取部分村民参与环保调研,已知甲村和乙村的人数之比是,被抽到的参与环保调研的村民中,甲村的人数比乙村多8人,则参加调研的总人数是( )
A.28 B.42 C.56 D.70
2.(24-25高一下·天津·月考)某区县共有在校中小学生15000人,为了解学生对人工智能AI技术认知情况,用分层抽样的方法从小学、初中、高中三个学段中抽取容量为200的样本,其中小学段抽取80人,高中段抽取40人,则初中段的学生人数为( )
A.3000 B.4000 C.4500 D.6000
3.(24-25高二上·内蒙古赤峰·月考)某大学生暑假到工厂参加劳动,生产了100件产品,质检人员测量其长度(单位:厘米),将所得数据分成6组:,得到如图所示的频率分布直方图,则对这100件产品,下列说法中不正确的是( )
A.
B.长度的平均数是93
C.长度的中位数一定落在区间内
D.长度落在区间内的个数为35
4.(23-24高三上·天津宁河·期末)2023年7月28日,第31届世界大学生夏季运动会(简称大运会)在四川成都开幕,这是继2001北京大运会,2011深圳大运会之后,中国第三次举办夏季大运会;在成都大运会中,中国代表团取得了骄人的成绩.为向大学生普及大运会的相关知识,某高校进行“大运会知识竞赛”,并随机从中抽取了200名学生的成绩(满分100分)进行统计,成绩均在内,将其分成5组:,,,,,并整理得到如下的频率分布直方图,则在被抽取的学生中,成绩落在区间内的人数为( )
A.20 B.40 C.60 D.80
5.(25-26高三上·山西太原·阶段检测)已知的平均数为,方差为2,则的方差为( )
A. B. C. D.
6.(24-25高一下·山东滨州·期末)设一组样本数据的平均数为3,方差为4,则数据,,,,的平均数和方差分别为( )
A.4,14 B.4,16 C.5,14 D.5,16
7.(22-23高一下·新疆喀什·期末)下列说法错误的是( )
A.用分层抽样法从1000名学生(男、女分别占60%、40%)中抽取100人,则每位男生被抽中的概率为
B.将一组数据中的每个数据都乘以3后,平均数也变为原来的3倍
C.将一组数据中的每个数据都乘以3后,方差也变为原来的3倍
D.一组100个数据的平均数是5,方差为1,现将其中一个值为5的数据剔除后,余下99个数据的方差是.
8.(多选题)(21-22高一下·全国·期末)根据国家新冠疫情防控政策要求,某高中3000名学生均已接种新冠疫苗,现按照高一、高二、高二学生人数的比例用分层随机抽样方法,抽取一个容量为150的样本,并调查他们接种疫苗的情况,所得数据如表:
高一
高二
高三
只接种第一、二剂疫苗人数
50
44
45
接种第一、二、三剂疫苗人数
0
1
10
则下列判断正确的是( )
A.该校高一、高二、高三的学生人数比为
B.该校高三学生的人数比高一人数多50
C.估计该校高三接种第三剂疫苗的人数为200
D.估计该校学生中第三剂疫苗的接种率不足8%
9.(多选题)(24-25高一下·陕西西安·期末)已知互不相等的数据,,,,,的平均数为,方差为,则下列选项中正确的是( )
A.数据,,…,的平均数为
B.数据,,…,的标准差为
C.给原数据增加一个数据,且,若这七个数据的方差为,则
D.给原数据增加一个数据,且,若这七个数据的方差为,则
10.(多选题)(22-23高一下·湖南长沙·期末)下列说法中正确的是( )
A.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
B.若为互斥事件,则的对立事件与的对立事件一定互斥.
C.设样本数据的平均数和方差分别为2和8,若,则的平均数和方差分别为5和32
D.高一和高二两个年级的同学参加了数学竞赛,高一年级有450人,高二年级有350人,通过分层随机抽样的方法抽取了容量为160的样本,得到两年级的竞赛成绩的平均分分别为80分和90分,则高一和高二数学竞赛的平均分约为84.375分
11.(24-25高二下·上海奉贤·期中)某校从450名同学中用随机数法抽取30人参加这一项调查.将这450名同学编号为,假设从第1行第7列的数字开始,则第5个被抽到的同学的编号为__________.
64844217 55721754 55068331
04744767 21763350 25839212
06766301 63785916 95556719
12.(24-25高一下·河南平顶山·期末)已知总体划分为两层,通过分层随机抽样,各层抽取的样本量、样本平均数、样本方差分别为m,,;n,,.记总的样本平均数为,样本方差为,则,该公式可以用来解决样本数据的最值问题.已知7个样本数据的均值为2,方差为,则这7个样本数据的中位数的最大值为__________.
13.(24-25高三上·江西宜春·期末)2024年5月22日至5月28日是第二届全国城市生活垃圾分类宣传周,本次宣传周的主题为“践行新时尚分类志愿行”某中学高一年级举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,分为五组,其中第二组的频数是第一组频数的2倍,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求的值,并估计这次竞赛成绩的中位数(同一组中的数据用该组区间的中点值作代表);
(2)某老师在此次竞赛成绩中抽取了10名学生的分数:,已知这10个分数的平均数,标准差,若剔除其中的75和85两个分数,求剩余8个分数的平均数与方差.
14.(25-26高一上·辽宁锦州·阶段检测)某校举办了校园诗词大赛,学生的比赛成绩均在内(单位:分),随机抽取了100名学生的成绩,整理后按照分成五组,并绘制成如图所示的频率分布直方图.
(1)若规定成绩较高的前的学生获奖,请求出的值并估计获奖学生的最低分数线;
(2)现从样本成绩在与两个分数段内,按分层随机抽样的方法选取5人,再从这5人中随机选取2人,求这2人中恰有1人的成绩落在内的概率;
(3)已知样本数据落在的平均数是77,方差是6,落在的平均数是82,方差是3,求这两组数据合并后的平均数和总方差.
15.(25-26高一上·全国·期末)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值与样本成绩的平均数;
(2)在样本答卷成绩为,,的三组市民中,用分层抽样的方法抽取13人,则样本的答卷成绩在中的市民应抽取多少人?
(3)若落在的平均成绩是57,方差是2,落在的平均成绩为69,方差是5,求这两组成绩的总平均数和总方差.
16.(23-24高二下·上海·月考)本市某区对全区高中生的身高(单位:厘米)进行统计,得到如下的频率分布直方图.
(1)若数据分布均匀, 用频率估计概率,则在全市随机取一名高中生,求其身高不低于180厘米的概率;
(2)现从身高在区间的高中生中分层抽样抽取一个80人的样本,若身高在区间中样本的均值为176厘米,方差为10;身高在区间[180, 190)中样本的均值为184 厘米,方差为16,试求这80人的方差.
2
学科网(北京)股份有限公司
$以笔为剑,横扫数学题海;以智为盾,勇闯高考难关,高考必胜!
核心考点培优08:统计6大必考题型
(高一复习全国通用)
题型一 简单随机抽样 4
题型二 分层随机抽样 6
题型三 总体平均数、众数和中位数的估计值 9
题型四 百分位数的计算 13
题型五 众数,平均数,中位数和方差的计算 16
题型六 分层随机抽样的方差变化 19
思维导图
1.简单随机抽样
定义
设一个总体含有个个体,从中逐个不放回抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样
方法
抽签法
把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本
随机数法
利用随机数表、随机数骰子或计算机产生的随机数进行抽样
抽签法与随机数法
相同点
①都属于简单随机抽样,并且要求被抽取样本的总体的个体数有限;
②都是从总体中逐个不放回地进行抽取
不同点
①抽签法比随机数法操作简单;
②随机数法更适用于总体中个体数较多的时候,而抽签法适用于总体中个体数较少的情况
利用随机数法抽取个体时的注意事项:
①定起点:事先应确定以表中的哪个数(哪行哪列)作为起点.
②定方向:读数的方向(向左、向右、向上或向下都可以).
③读数规则:读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.
2.分层抽样
①定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
②应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
注意:分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘以抽样比.
2.用样本的数字特征估计总体的数字特征:
①众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
②极差、方差和标准差
极差:即一组数据中最大值与最小值的差.
方差:.
标准差:.
注:方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
性质
(1)若的平均数为,那么的平均数为.
(2)数据与数据的方差相等,即数据经过平移后方差不变.
(3)若的方差为s2,那么的方差为.
③百分位数
1.定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2.计算一组几个数据第p百分位数的步骤
第1步,按从小到大排列原始数据;
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
2、 分层随机抽样的方差
1、总体平均数和样本平均数的计算
在分层随机抽样中,如果层数为2层,第1层和第2层包含的个体数分别为和,抽样的样本容量分别为和,第1层、第2层的总体平均数分别为和,第1层、第2层的样本平均数分别为和,总体平均数为,样本平均数为,则
(1)
(2)
2、用样本平均数估计总体平均数
由于第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用估计总体平均数.
在比例分配的分层随机抽样中,,
所以
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数为.
3、平均数相关结论:
①如果两组数和的平均数分别是和,则一组数的平均数是;
②如果一组数的平均数为,则一组数的平均数为。
③如果一组数的平均数为,则一组数的平均数为
三、总体离散程度的估计
1、用样本的标准差估计总体的标准差
(1)数据的离散程度可以用极差、方差或标准差来描述;
(2)极差(又叫全距)是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
(3)样本方差描述了一组数据围绕平均数波动的大小;
一般地,设样本的数据为,样本的平均数为,
定义样本方差为;
简化公式:=
(方差等于原数据平方的平均数减去平均数的平方)
(4)样本的标准差是方差的算术平方根.
样本标准差.
标准差越大数据离散程度越大,数据家分散;标准差越小,数据集中在平均数周围.
(5)方差相关结论:
①如果一组数的方差为,则一组数的方差为;
②如果一组数的方差为,则一组数的方差为。
题型一 简单随机抽样
方法点拨:
1.抽签法与随机数表法
利用随机数表进行抽样的具体步骤:
①给总体中的每个个体编号;
②在随机数表中随机抽取某行某列作为抽样的起点,并规定读取方法;
③依次从随机数表中抽取样本号码,凡是抽到编号范围内的号码,就是样本的号码,并剔除相同的号码,直到抽满为止.
刷经典·悟方法
【例1】(24-25高一下·江苏无锡·期末)某工厂生产A,B,C三种不同型号的产品,产量之比为2:3:5.现用分层抽样的方法抽取一个容量为n的样本,若样本中A型号的产品有8件,则样本容量( )
A.16 B.40 C.80 D.100
【答案】B
【分析】根据题意,利用分层抽样的定义和计算方法,列出方程,即可求解.
【详解】根据分层抽样的定义与计算方法,可得,可得.
故选:B.
【变式1-1】(23-24高一下·山东青岛·期末)某校高一、高二、高三的人数之比为,从中随机抽取400名学生组成志愿者,若学校中每人被抽中的概率都是,则该校高二年级的人数为( )
A.1000 B.900 C.800 D.700
【答案】D
【分析】先根据学校中每人被抽中的概率都是,求出全校的总人数,然后利用各年级人数所占的比例可求出该校高二年级的人数.
【详解】因为从全校学生中随机抽取400名学生组成志愿者,且每人被抽中的概率都是,
所以全校的总人数为人,
因为高一、高二、高三的人数之比为,
所以该校高二年级的人数为人.
故选:D
【变式1-2】(23-24高一下·云南玉溪·月考)某工厂用简单随机抽样中的随机数法对生产的700个零件进行抽样,先将700个零件进行编号,.从中抽取70个样本,下图是利用软件生成的随机数,只需随机选定一个初始位置和方向开始读数,每次读取一个3位数,只要读取的号码落在编号范围内,该号码就是所抽到的样本编号,这样即可获得70个样本的编号,注意样本号码不能重复.若从表中第2行第6列的数2开始向右读取数据,取到的第一个样本编号是253,则得到的第6个样本编号是( )
A.007 B.328 C.253 D.623
【答案】D
【分析】根据系统抽样规则列举出前几个,即可得解.
【详解】依题意可得抽取的样本编号依次为:,,,,,,,
所以第个样本编号是.
故选:D
【变式1-3】(多选题)(24-25高一上·辽宁葫芦岛·期末)为了关注学生的健康成长,某学校开展了一次高一年级学生身高的抽样调查,随机抽取了100名学生,将他们的身高划分成了A,B,C,D,E五个层次,根据抽样结果得到如下统计图,则从图中能得出的信息是( )
A.样本中A层次身高的女生少于男生
B.样本中B层次身高的学生人数最多
C.样本中D层次身高的学生人数占总人数的17%
D.样本中E层次身高的男生有6人
【答案】ABC
【分析】由题中统计图可判断各选项正误.
【详解】对于A,样本中女生人数为,则样本中男生有(人),样本中A层次身高的男生人数为,女生人数为4,所以样本中A层次身高的女生少于男生.故A正确;
对于B,因为男生中B层次身高的人数比例最大,女生中B层次身高的人数比例也最大,所以样本中B层次身高的学生人数最多.故B正确;
对于C,样本中D层次身高的女生有8人,D层次身高的男生有(人),所以样本中D层次身高的学生人数占总人数的比例为.故C正确;
对于D,样本中E层次身高的男生有(人).故D错误.
故选:ABC
题型二 分层随机抽样
方法点拨:
分层抽样
分层随机抽样中有关计算的方法:
(1)抽样比=;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
刷经典·悟方法
【例2】(22-23高一下·天津南开·期末)为帮助乡村学校的学生增加阅读、开阔视野、营造更浓厚的校园读书氛围,南开中学发起了“把书种下,让梦发芽”主题捐书活动,现拟采用按年级比例分层抽样的方式随机招募12名志愿者,已知我校高中部共2040名学生,其中高一年级680名,高二年级850名,高三年级510名,那么应在高三年级招募的志愿者数目为( )
A.3 B.4 C.5 D.6
【答案】A
【分析】求出高三年级学生所占比例,由此可求得答案.
【详解】由题意知高三年级学生所占比例为,
故应在高三年级招募的志愿者数目为.
故选:A
【变式2-1】(22-23高一下·天津静海·月考)下列说法错误的是( )
A.设一组样本数据的方差为2,则数据的方差为8
B.90,92,92,93,93,94,95,97,99,100的中位数为93.5
C.甲、乙、丙三种个体按3∶1∶2的比例分层抽样调查,若抽取的甲种个体数为9,则样本容量为18
D.数据的标准差比较小时,数据比较集中
【答案】A
【分析】对于A:根据方差的性质运算求解;对于B:根据中位数的定义运算求解;对于C:根据分层抽样运算求解;对于D:根据标准差的意义理解判断.
【详解】对于选项A:由方差的性质可得数据的方差为,故A错误;
对于选项B:本组数据有10个,则中位数是第5、6位数据的平均数,故B正确;
对于选项C:设样本容量为,则,
所以,故C正确;
对于选项D:根据标准差的意义可知:数据的标准差比较小时,数据比较集中,故D正确;
故选:A.
【变式2-2】(22-23高一下·天津滨海新区·期末)从一个容量为100的总体中抽取容量为10的样本,选取简单随机抽样和分层随机抽样两种不同方法抽取样本.在简单随机抽样中,总体中每个个体被抽中的概率为,某个体被抽中的概率为;在分层随机抽样中,总体中每个个体被抽中的概率为,则( )
A. B.
C. D.之间没有关系
【答案】B
【分析】根据简单随机抽样、分层抽样的定义即可得到结论.
【详解】根据抽样调查的原理可得简单随机抽样,分层抽样都必须满足每个个体被抽到的概率相等,即.
故选:B
【点睛】本题考查简单随机抽样、分层抽样的原理的理解,两种抽样都是等可能抽取,是一道容易题.
【变式2-3】(22-23高三上·重庆沙坪坝·月考)某中学的高一、二、三这三个年级学生的平均身高分别为,若按年级采用分层抽样的方法抽取了一个600人的样本,抽到高一、高二、高三的学生人数分别为100、200、300,则估计该高中学生的平均身高为( )
A. B. C. D.
【答案】A
【分析】由分层抽样的定义结合平均数的计算公式即可得出答案.
【详解】设该中学的总人数为,
由题意知,高一、高二、高三的学生总人数分别为:,
所以估计该高中学生的平均身高为:.
故选:A.
题型三 总体平均数、众数和中位数的估计值
方法点拨:
频率分布直方图
(1)由于频率分布直方图中的纵坐标为,因此涉及纵坐标中含参数的问题,应根据频率之和为1列式求解;
(2)根据频率分布直方图(表)求样本数据在某一区间内的频率就是样本数据在该区间内的各组频率的和,而求解相应的频数还要根据频率乘以样本容量;
(3)若所求区间包含频率分布直方图中非分组的端点,可以利用“比例法”求解.
频率分布直方图与平均数、众数、中位数
用频率分布直方图估计总体数字特征的方法:
(1)最高矩形所在区间中点的横坐标即为众数
(2)累计频率为0.5(即累积面积S=0.5)时的横坐标即为中位数
(3)各矩形中点的横坐标和对应区间的频率的积之和即为平均数(也称期望)
(4)各矩形中点横坐标与均值之差的平方乘以对应区间的频率的积之和即为方差
刷经典·悟方法
【例3】(24-25高二上·云南曲靖·阶段检测)某地教育局为了解“双减”政策的落实情况,在辖区内初一年级在校学生中抽取了100名学生,调查了他们课下做作业的时间,得到如图所示的频率分布直方图,则下列结论不正确的是( )
A.该地初一年级学生做作业的时间超过3小时的概率估计为35%
B.估计该地初一年级有一半以上的学生做作业的时间超过2小时
C.估计该地初一年级学生做作业的时间的众数为2.25小时
D.估计该地初一年级有一半以上的学生做作业的时间在2小时至3小时之间
【答案】D
【分析】计算超过3小时的频率可判断A;利用直方图求出超过2小时的概率可判断B;求出众数可判断C;计算做作业的时间在2小时至3小时之间的频率,可判断D.
【详解】对于A,超过3小时的概率估计为:,A正确;
对于B,超过2小时的概率估计为:,所以估计该地初一年级有一半以上的学生做作业的时间超过2小时,B正确;
对于C,由图知众数约为(小时),C正确;
对于D,时间在2小时至3小时之间的概率估计为:,所以没有一半以上的学生做作业的时间在2小时至3小时之间,D错误.
故选:D.
【变式3-1】(23-24高一下·贵州毕节·期末)某研究小组为了解某市高中生自主阅读情况,随机调查了2000名学生的每周自主阅读时间,按照时长(单位:小时)分成五组:,得到如图所示的频率分布直方图,其中每周自主阅读时间不低于8小时的频率为0.3.则以下说法中错误的是( )
A.
B.估计样本数据的第60百分位数值是7.5小时
C.样本的极差介于6小时至10小时之间
D.估计这2000名学生每周自主阅读时间的平均值是6.5小时
【答案】D
【分析】A项,由已知频率可得关系;B项,由各组频率之和为与A项所得频率关系求解,由,估计第60百分位数值所在区间,再利用矩形面积计算估值即可;C项,由最大值与最小值的取值区间,再由不等式的性质可得极差范围;D项,样本平均数由每个小矩形底边中点的横坐标与小矩形的面积(频率)的乘积之和近似代替,计算可得.
【详解】选项A,由每周自主阅读时间不低于8小时的频率为0.3,
则,解得,故A正确;
选项B,由各组频率之和为得,,
联立解得,
故五组的频率分别为,
因为前两组的频率之和为,前三组的频率之和为,
且,
设样本数据的第60百分位数值为,则,
由,解得,
故估计样本数据的第60百分位数值是7.5小时,故B正确;
选项C,设样本数据中的最小值为,最大值为,
由频率分布直方图可知,最小值,最大值,
所以,则由不等式的性质可得极差,
即样本的极差介于6小时至10小时之间,故C正确;
选项D,由频率分布直方图样本平均数的近似值为,
估计这2000名学生每周自主阅读时间的平均值是小时,故D错误.
故选:D.
【变式3-2】(23-24高二下·陕西西安·期中)学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为且支出在元的样本,其频率分布直方图如图所示,则下列说法正确的是( )
A.估计众数为
B.估计中位数是
C.估计平均数为
D.支出在的频率为
【答案】B
【分析】根据频率分布直方图的性质特征逐个选项求解判断即可.
【详解】由频率分布直方图可知,
支出在对应矩形最高,所以估计众数为,A错;
支出在的频率为,D错;
前两个矩形面积之和是,
故将第三个矩形分成即可,
所以中位数是,B正确;
平均数为,C错.
故选:B
【变式3-3】(24-25高一下·吉林松原·期末)某地举办了“防电信诈骗”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值及样本成绩的第80百分位数;求样本平均数;
(2)已知落在区间的样本平均成绩是57,标准差是7,落在区间的样本平均成绩为66,标准差是4,求两组样本成绩合并后的平均数和方差.
【答案】(1),第80百分位数为,样本平均数为74;
(2),.
【分析】(1)由频率之和为1即可求a,先依次求出前4组和前5组频率之和得到样本成绩的第80百分位数所在区间即可计算求解,由频率分布直方图的平均数计算公式直接计算即可求平均数;
(2)先依次求出两区间的样本个数、样本平均成绩、方差,再由总体平均数公式和总体方差公式即可计算两组样本成绩合并后的平均数和方差.
【详解】(1)由题意,
所以前4组频率之和,
前5组频率之和,
所以样本成绩的第80百分位数在区间内,且为,
样本平均数为;
(2)由题可得落在区间的样本个数为,样本平均成绩是,方差是,
落在区间的样本个数为,样本平均成绩是,方差是,
所以两组样本成绩合并后的平均数为,
两组样本成绩合并后的方差为.
题型四 百分位数的计算
方法点拨:
(1)定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组几个数据第p百分位数的步骤
第1步,按从小到大排列原始数据;第2步,计算.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
(3)四分位数
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
刷经典·悟方法
【例4】(24-25高一下·天津·期末)某校高一数学备课组老师的年龄(单位:岁)分别为:37,31,42,32,41,46,45,48,35,53,则下列说法错误的是( )
A.该组数据极差为22
B.如再增加一位41岁的老师,则该组数据的方差变大
C.该组数据平均数为41
D.该组数据的第60百分位数为43.5
【答案】B
【分析】将给定数据组由小到大排列,求出极差、平均数判断AC;利用方差计算公式说明判断B;求出第60百分位数判断D.
【详解】原数据组由小到大排列为: 31,32,35,37,41,42,45,46,48,53,
对于A,该组数据极差为,A正确;
对于C,年龄平均数为,C正确;
对于B,增加一位41岁的老师,新数据组的平均数不变,由方差计算公式知,
分子不变,而分母增大,因此新数据组的方差变小,B错误;
对于D,由,该组数据的第60百分位数为,D正确.
故选:B
【变式4-1】(25-26高一上·河南南阳·月考)某年度河南省技术发明奖共个项目获奖,这个项目主要完成人的人数为,则这个项目主要完成人的人数的分位数是( )
A. B. C. D.
【答案】B
【分析】将数据由小到大进行排列,结合百分位数的定义求解即可.
【详解】将数据由小到大排列为:,
因为,因此,这个项目主要完成人的人数的分位数是.
故选:B.
【变式4-2】(多选题)(25-26高一上·江西赣州·月考)下列说法正确的是( )
A.用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则总体中个体被抽到的概率为0.03
B.已知一组数据1,2,,6,7的平均数为4,则这组数据的方差是5
C.数据27,12,14,30,15,17,19,23的第70百分位数是23
D.若样本数据的标准差为8,则数据的标准差为16
【答案】CD
【分析】利用简单随机抽样的意义判断A,利用平均数和方差的计算公式判断B,利用百分位数的定义判断C,利用方差的性质判断D.
【详解】对于A,一个总体含有50个个体,从该总体中抽取一个容量为5的样本,
则指定的某个个体被抽到的概率为,故A错误;
对于B,因为数据1,2,,6,7的平均数是,所以,解得,
这组数据的方差是,故B错误;
对于C,该组数据从小到大排列为12,14,15,17,19,23,27,30,又,
故这组数据的第70百分位数为第6个数,即23,故C正确;
对于D,依题意,,则数据的方差为,
故数据的标准差为,故D正确.
故选:CD
【变式4-3】(2025·山东·三模)已知一组样本数据:3,7,,,13,16,其中,,该组样本的中位数为10.5.若要使该组样本的方差最小,则的值为______.
【答案】31.5
【分析】根据中位数、平均数、方差的定义求解即可.
【详解】由于样本共有6个数据,且最中间的两个数为,,
由题意可得,,即,
则样本平均数为,
则样本的方差为,
要使该组样本的方差最小,只需最小即可,
而,
则时,最小,此时,
则.
故答案为:31.5.
题型五 众数,平均数,中位数和方差的计算
方法点拨:
极差、方差和标准差
极差:即一组数据中最大值与最小值的差.
方差:.
标准差:.
注:方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
性质应用:
①若的平均数为,那么的平均数为.
②数据与数据的方差相等,即数据经过平移后方差不变.
③若的方差为s2,那么的方差为.
刷经典·悟方法
【例5】(25-26高一上·全国·期末)已知一组数据,,的平均数为,方差为,则数据,,,的平均数和方差分别为( )
A. B. C. D.
【答案】D
【分析】根据均值与方差的性质,可得答案.
【详解】因为一组数据,,的平均数为,方差为,
则数据,,,的平均数为,方差为.
故选:D.
【变式5-1】(25-26高二上·湖北孝感·期中)已知数据的平均数为5,方差为16,那么数据,的平均数和方差分别为( )
A.6,8 B.5,8 C.6,4 D.8,6
【答案】C
【分析】根据平均数和方差的公式进行求解即可.
【详解】因为数据的平均数为5,
所以,解得,
所以数据的平均数为;
因为数据的方差为16,
所以,
化简得,
可以看出数据的方差为4.
故选:C.
【变式5-2】(多选题)(25-26高一上·辽宁沈阳·阶段检测)下列说法正确的是( )
A.已知一组数据1,2,m,6,7的平均数为4,则这组数据的方差是5
B.数据27,12,14,30,15,17,19,23的第70百分位数是23
C.若样本,,…,的平均值为8,则,,…,的平均值为15
D.某校高一年级有学生400人,高二年级有学生360人,现采用分层抽样的方法从全校学生中抽出58人,其中从高一年级学生中抽出20人,则从高三年级学生中抽取的人数为20人
【答案】BCD
【分析】A项,根据平均数公式求的值并计算方差;B项,按步骤求解第70百分位数即可;C项,利用平均数的性质求新数据的平均数;D项,根据抽样比求解可得.
【详解】A选项,由平均数公式得,,解得,
根据方差公式得,
,故A项错误;
B选项,将数据从小到大排序可得,
由不是整数,
所以第70百分位数是排序后第6个数,即,故B项正确;
C选项,已知样本的平均值为,
即,
则的平均数为:
,
故,所以C项正确;
D选项,由题意知,抽样比为,
则从高二年级抽取人数为,
设高三年级学生中抽取的人数为,
则由,解得,故D项正确;
故选:BCD.
【变式5-3】(2025·江苏南京·一模)某项比赛共有10个评委评分,若去掉一个最高分与一个最低分,则与原始数据相比,一定不变的是( )
A.极差 B.45百分位数 C.平均数 D.众数
【答案】B
【分析】根据题意将10个数据去掉最高分和最低分后45百分位数不变.
【详解】对A,若每个数据都不相同,则极差一定变化,故A错误;
对B,由,所以将10个数据从小到大排列,45百分位数为第5个数据,
从10个原始评分中去掉1个最高分、1个最低分,得到8个有效评分,,
所以45百分位数为8个数据从小到大排列后第4个数据,即为原来的第5个数据.
对C,去掉一个最高分一个最低分,平均数可能变化,故C错误;
对D,去掉一个最高分一个最低分,众数可能变化,故D错误.
故选:B.
题型六 分层随机抽样的方差变化
方法点拨:
总体平均数和样本平均数的计算
在分层随机抽样中,如果层数为2层,第1层和第2层包含的个体数分别为和,抽样的样本容量分别为和,第1层、第2层的总体平均数分别为和,第1层、第2层的样本平均数分别为和,总体平均数为,样本平均数为,则
(1)(2)
刷经典·悟方法
【例6】(25-26高二上·黑龙江大庆·开学考试)某公司为了调查员工的体重(单位:千克),因为女员工远多于男员工,所以按性别分层,用按比例分层随机抽样的方法抽取样本,已知抽取的所有员工的体重的方差为120,其中女员工的平均体重为50,方差为50,男员工的平均体重为70,方差为30.若样本中有21名男员工,则样本中女员工的人数为( )
A.68 B.63 C.35 D.48
【答案】B
【分析】由题意,知样本中男、女员工的平均体重和方差分别为,,,,所占权重分别为和,根据分层抽样的均值和方差公式列方程求出的值,即可求得女员工的人数.
【详解】由题意,记样本中女员工的平均体重和方差分别为,,所占权重为,
男员工的平均体重和方差分别为,,则所占权重为,
则样本中全部员工的平均体重为,
依题意,方差为
.
化简得,解得 或(舍).
所以女员工的人数为: .
故选:B
【变式6-1】(2024·江西鹰潭·一模)某单位为了解职工体重情况,采用分层随机抽样的方法从800名职工中抽取了一个容量为80的样本.其中,男性平均体重为64千克,方差为151;女性平均体重为56千克,方差为159,男女人数之比为,则单位职工体重的方差为( )
A.166 B.167 C.168 D.169
【答案】D
【分析】利用分层抽样的平均数和方差公式即可得解.
【详解】依题意,单位职工平均体重为,
则单位职工体重的方差为.
故选:D.
【变式6-2】(23-24高三下·湖南长沙·月考)某学校高一年级学生有人,其中男生500人,女姓400人,为了获得该校高一全体学生的身高信息,现采用样本量按比例分配的分层抽样方法抽取了容量为90的样本,经计算得男生样本的均值为170,方差为19,女生样本的均值为161,方差为28,则下列说法中错误的是( )
A.男生样本容量为50 B.抽样时某女生甲被抽到的概率为
C.抽取的样本的均值为166 D.抽取的样本的方差为43
【答案】B
【分析】根据分层抽样计算规则气促男生、女生样本容量,再根据平均数、方差公式计算可得.
【详解】男生样本容量为,则女生样本容量为,故A正确;
每个女生抽到的概率为,故B错误;
抽取的样本的均值为,故C正确;
抽取的样本的方差为,故D正确.
故选:B.
【变式6-3】7.(24-25高一下·黑龙江·期末)为了了解某工厂生产的产品情况,从该工厂生产的产品中随机抽取了一个容量为400的样本,测量它们的尺寸(单位:mm),并将数据分为七组,其频率分布直方图如图所示.
(1)求值;
(2)根据频率分布直方图,求400件样本中尺寸在内的样本数;
(3)已知利用分层随机抽样从第一、二组共抽出十二个数据,从第一组,第二组抽出的数据的标准差分别为1和,平均值分别为93和94.5,求抽出数据的均值和方差.
参考公式:若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:;记总的样本平均数为,样本方差为,则.
【答案】(1);
(2)72件;
(3)均值、方差分别为94、.
【分析】(1)利用频率和为1列方程求参数值;
(2)根据直方图估计400件样本中尺寸在内的样本数即可;
(3)利用分层抽样中各层样本与总体均值、方差间的关系求总体的均值和方差.
【详解】(1)由图知,可得;
(2)由图知400件样本中尺寸在内的样本数为件;
(3)由分层抽样的等比例性质,第一、二组抽取数据分别为4、8个,
所以抽出数据的均值为,
抽出数据的方差为.
1.(23-24高一下·河北·期末)为实现乡村生态振兴,走乡村绿色发展之路,乡政府采用按比例分层抽样的方式从甲村和乙村抽取部分村民参与环保调研,已知甲村和乙村的人数之比是,被抽到的参与环保调研的村民中,甲村的人数比乙村多8人,则参加调研的总人数是( )
A.28 B.42 C.56 D.70
【答案】A
【分析】根据分层抽样的要求计算即可.
【详解】设被抽取参与调研的乙村村民有x人,则根据分层抽样按两村人口比例,甲村被抽取参与调研的有人,乙村为,
所以,即,所以参加调研的总人数
故选:A.
2.(24-25高一下·天津·月考)某区县共有在校中小学生15000人,为了解学生对人工智能AI技术认知情况,用分层抽样的方法从小学、初中、高中三个学段中抽取容量为200的样本,其中小学段抽取80人,高中段抽取40人,则初中段的学生人数为( )
A.3000 B.4000 C.4500 D.6000
【答案】D
【分析】利用分层抽样比即可求解.
【详解】由题,抽取容量为200的样本中,初中段的学生人数为80,
所以在校初中段的学生人数为.
故选:D.
3.(24-25高二上·内蒙古赤峰·月考)某大学生暑假到工厂参加劳动,生产了100件产品,质检人员测量其长度(单位:厘米),将所得数据分成6组:,得到如图所示的频率分布直方图,则对这100件产品,下列说法中不正确的是( )
A.
B.长度的平均数是93
C.长度的中位数一定落在区间内
D.长度落在区间内的个数为35
【答案】A
【分析】按照频率分布直方图的含义,结合相关公式即可得解.
【详解】对于A,由频率和为1,得,解得,故A错误;
对于B,根据频率分布直方图长度的平均数为
,故B正确;
对于D,长度落在区间内的个数为,故D正确;
对于C,有个数,内有个数,
所以长度的中位数一定落在区间内,故C正确.
故选:A
4.(23-24高三上·天津宁河·期末)2023年7月28日,第31届世界大学生夏季运动会(简称大运会)在四川成都开幕,这是继2001北京大运会,2011深圳大运会之后,中国第三次举办夏季大运会;在成都大运会中,中国代表团取得了骄人的成绩.为向大学生普及大运会的相关知识,某高校进行“大运会知识竞赛”,并随机从中抽取了200名学生的成绩(满分100分)进行统计,成绩均在内,将其分成5组:,,,,,并整理得到如下的频率分布直方图,则在被抽取的学生中,成绩落在区间内的人数为( )
A.20 B.40 C.60 D.80
【答案】C
【分析】先根据频率和为求出,进而可得人数.
【详解】由频率分布直方图可得
,解得,
所以成绩落在区间内的人数为.
故选:C.
5.(25-26高三上·山西太原·阶段检测)已知的平均数为,方差为2,则的方差为( )
A. B. C. D.
【答案】B
【分析】根据平均数和方差的计算公式计算.
【详解】由已知,,
所以,,
故选:B.
6.(24-25高一下·山东滨州·期末)设一组样本数据的平均数为3,方差为4,则数据,,,,的平均数和方差分别为( )
A.4,14 B.4,16 C.5,14 D.5,16
【答案】C
【分析】由平均数公式可得,由方差公式可得,再利用平均数和方差公式可求得结果.
【详解】由样本数据的平均数为,方差为,得,,
则,,
因此数据,的平均数为
,
方差为
.
故选:C
7.(22-23高一下·新疆喀什·期末)下列说法错误的是( )
A.用分层抽样法从1000名学生(男、女分别占60%、40%)中抽取100人,则每位男生被抽中的概率为
B.将一组数据中的每个数据都乘以3后,平均数也变为原来的3倍
C.将一组数据中的每个数据都乘以3后,方差也变为原来的3倍
D.一组100个数据的平均数是5,方差为1,现将其中一个值为5的数据剔除后,余下99个数据的方差是.
【答案】C
【分析】根据分层抽样的计算规则分析A选项,根据平均数和方差的计算公式分析B,C,D选项.
【详解】对于A:因为1000名学生中男、女分别占60%和40%,根据分层抽样的计算规则,抽取的100人中男生占人,所以每位男生被抽中的概率,故A正确;
对于B:设这组数据为,
平均数,将这组数据中每个数据都乘以3后,故B正确;
对于C:设这组数据为,
方差,每个数据都乘以3后平均数变为原来的3倍,
方差,故C错误;
对于D:设这组数据为,
因为的平均数是5,所以,
新平均数,又因为的方差是1,
所以,
剔除一个值为5的数据后,余下99个数的方差,故D正确.
故选:C
8.(多选题)(21-22高一下·全国·期末)根据国家新冠疫情防控政策要求,某高中3000名学生均已接种新冠疫苗,现按照高一、高二、高二学生人数的比例用分层随机抽样方法,抽取一个容量为150的样本,并调查他们接种疫苗的情况,所得数据如表:
高一
高二
高三
只接种第一、二剂疫苗人数
50
44
45
接种第一、二、三剂疫苗人数
0
1
10
则下列判断正确的是( )
A.该校高一、高二、高三的学生人数比为
B.该校高三学生的人数比高一人数多50
C.估计该校高三接种第三剂疫苗的人数为200
D.估计该校学生中第三剂疫苗的接种率不足8%
【答案】ACD
【分析】根据样本估计总体直接计算可知.
【详解】由表可知,该校高一、高二、高三的学生人数比为,即,A正确;
高三学生人数为人,高一学生人数为人,故高三学生的人数比高一人数多人,故B错误;
高三接种第三剂疫苗的人数约为人,C正确;
该校学生中第三剂疫苗的接种率约为,故D正确.
故选:ACD
9.(多选题)(24-25高一下·陕西西安·期末)已知互不相等的数据,,,,,的平均数为,方差为,则下列选项中正确的是( )
A.数据,,…,的平均数为
B.数据,,…,的标准差为
C.给原数据增加一个数据,且,若这七个数据的方差为,则
D.给原数据增加一个数据,且,若这七个数据的方差为,则
【答案】AC
【分析】根据平均值的性质求得平均数,然后利用方差的概念求解即可判断各项.
【详解】由题知,,,
所以,的平均数为,
的方差为,
所以数据,,…,的标准差为2s,A正确,B错误;
给原数据增加一个数据,且,
这七个数据的方差为,
故C正确,D错误.
故选:AC
10.(多选题)(22-23高一下·湖南长沙·期末)下列说法中正确的是( )
A.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
B.若为互斥事件,则的对立事件与的对立事件一定互斥.
C.设样本数据的平均数和方差分别为2和8,若,则的平均数和方差分别为5和32
D.高一和高二两个年级的同学参加了数学竞赛,高一年级有450人,高二年级有350人,通过分层随机抽样的方法抽取了容量为160的样本,得到两年级的竞赛成绩的平均分分别为80分和90分,则高一和高二数学竞赛的平均分约为84.375分
【答案】ACD
【分析】利用频率分布直方图以及互斥事件和对立事件的概念即可判断AB,设样本数据的均值为,方差为,由已知得新样本的均值为,方差为即可判断C,先计算抽取的比例,再在高一高二两层内按比例抽取,求出高一高二的人数后再计算平均分即可判断D.
【详解】对于A,在频率分布直方图中,根据中位数的概念,可得中位数左边和右边的直方图的面积相等是正确的;
对于B,若A、B为互斥事件,根据互斥事件和对立事件的概念,可得则A的对立事件与B的对立事件不一定互斥,所以不正确;
对于C,设样本数据的均值为,则,方差为,则,
所以新样本的均值为,方差为,故C正确;
对于D,由题意,可得高一年级抽取的样本量为×450=90,
高二年级抽取的样本量为×350=70.
高一和高二数学竞赛的平均分约为×80+×90=84.375(分),故D正确.
故选:ACD.
11.(24-25高二下·上海奉贤·期中)某校从450名同学中用随机数法抽取30人参加这一项调查.将这450名同学编号为,假设从第1行第7列的数字开始,则第5个被抽到的同学的编号为__________.
64844217 55721754 55068331
04744767 21763350 25839212
06766301 63785916 95556719
【答案】447
【分析】根据给定数表,按要求列出不重复的前5个编号即可.
【详解】依题意,被抽到的前5个不重复的编号依次为:175,068,331,047,447,
所以第5个被抽到的同学的编号为447.
故答案为:447
12.(24-25高一下·河南平顶山·期末)已知总体划分为两层,通过分层随机抽样,各层抽取的样本量、样本平均数、样本方差分别为m,,;n,,.记总的样本平均数为,样本方差为,则,该公式可以用来解决样本数据的最值问题.已知7个样本数据的均值为2,方差为,则这7个样本数据的中位数的最大值为__________.
【答案】3
【分析】设这7个样本数据为,且,的均值为,方差为;的均值为,方差为,将代入题设总体方差公式求出即可得解.
【详解】设这7个样本数据为,且,
的均值为,方差为;的均值为,方差为,
则,,当且仅当时取等号;
所以,
所以当,时中位数可以达最大,
故答案为:3
13.(24-25高三上·江西宜春·期末)2024年5月22日至5月28日是第二届全国城市生活垃圾分类宣传周,本次宣传周的主题为“践行新时尚分类志愿行”某中学高一年级举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,分为五组,其中第二组的频数是第一组频数的2倍,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求的值,并估计这次竞赛成绩的中位数(同一组中的数据用该组区间的中点值作代表);
(2)某老师在此次竞赛成绩中抽取了10名学生的分数:,已知这10个分数的平均数,标准差,若剔除其中的75和85两个分数,求剩余8个分数的平均数与方差.
【答案】(1),,
(2)80;37.5
【分析】(1)由题意结合各组频率之和为1,即可求得的值,利用中位数的计算方法即可求得中位数;
(2)利用平均值以及方差公式,即可求得答案.
【详解】(1)由第二组的频数是第一组频数的2倍,可知第二组的频率是第一组频率的2倍,
即,则;
又,解得;
由于成绩在内的频率为,在内的频率为,
故中位数位于,设为m,则,解得;
(2)由,可得,
则剔除其中的75和85两个分数,剩余8个数平均数为;
又标准差,
故,
则,
则剩余的8个数的方差为.
14.(25-26高一上·辽宁锦州·阶段检测)某校举办了校园诗词大赛,学生的比赛成绩均在内(单位:分),随机抽取了100名学生的成绩,整理后按照分成五组,并绘制成如图所示的频率分布直方图.
(1)若规定成绩较高的前的学生获奖,请求出的值并估计获奖学生的最低分数线;
(2)现从样本成绩在与两个分数段内,按分层随机抽样的方法选取5人,再从这5人中随机选取2人,求这2人中恰有1人的成绩落在内的概率;
(3)已知样本数据落在的平均数是77,方差是6,落在的平均数是82,方差是3,求这两组数据合并后的平均数和总方差.
【答案】(1),84分
(2)
(3)78,9.4
【分析】(1)根据频率分布直方图中各小组频率之和等于1,求出的值,根据题意,由百分位数确定获奖学生的最低分数线即可;
(2)依题意,根据抽样比确定在和这两组内所抽取的人数,分别记为和,列出试验和所求事件包含的样本点,利用古典概型概率公式计算即得;
(3)根据混合样本后的平均数与方差公式计算即可.
【详解】(1)由频率分布直方图易知,,解得,
由图知,的频率为.的频率为,
所以获奖学生最低分数线落在内,不妨设为,
则,解得,
所以估计获奖学生的最低分数线为84分.
(2)由图可知,与的频率之比是,
根据分层随机抽样的方法可知,在内抽取4人,记为,在内抽取1人,记为,
从这5人中选取2人,则该试验的样本空间为:
则,
记事件“这2人中恰有1人的成绩落在内”,
则,则,
由古典概型概率公式,可得.
(3)样本数据在内的人数为,在内的人数为,
所以,
.
15.(25-26高一上·全国·期末)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值与样本成绩的平均数;
(2)在样本答卷成绩为,,的三组市民中,用分层抽样的方法抽取13人,则样本的答卷成绩在中的市民应抽取多少人?
(3)若落在的平均成绩是57,方差是2,落在的平均成绩为69,方差是5,求这两组成绩的总平均数和总方差.
【答案】(1),平均数约为74
(2)6人
(3),36
【分析】(1)利用频率之和为结合频率分布直方图列式求出,根据平均数的计算公式计算平均数即可;
(2)利用频率分布直方图求出成绩为,,的市民人数,再根据分层抽样的概念求解即可;
(3)先利用频率分布直方图求出和的市民人数,再根据平均数和方差公式计算求解即可.
【详解】(1)由频率之和为结合频率分布直方图可得,
解得,
样本成绩的平均数约为.
(2)由频率分布直方图知,样本答卷成绩在,,的三组市民有(人),
其中样本答卷成绩在的市民人数为,
用分层抽样的方法应从答卷成绩在的市民中抽取(人).
(3)由频率分布直方图知,成绩在的市民人数为,
成绩在的市民人数为,
所以总平均数,
总方差.
16.(23-24高二下·上海·月考)本市某区对全区高中生的身高(单位:厘米)进行统计,得到如下的频率分布直方图.
(1)若数据分布均匀, 用频率估计概率,则在全市随机取一名高中生,求其身高不低于180厘米的概率;
(2)现从身高在区间的高中生中分层抽样抽取一个80人的样本,若身高在区间中样本的均值为176厘米,方差为10;身高在区间[180, 190)中样本的均值为184 厘米,方差为16,试求这80人的方差.
【答案】(1);
(2)
【分析】(1)先由频率分布直方图中每组的频率之和等于1求出的值,再对身高不低于180厘米的各个小组的频率进行累加即得;
(2)由分层抽样确定两个组别分别抽取的人数,设出两组的样本,计算出所抽取的80人的身高总样本的均值,化简总样本方差公式,将数据代入计算即得.
【详解】(1)由频率分布直方图可得:解得
则在全市随机取一名高中生,求其身高不低于180厘米的概率为.
(2)由于身高在区间,的人数之比为,所以分层抽样抽取80人,区间,内抽取的人数分别为50人与30人.
设在区间中抽取的50个样本为,其均值为176,方差为,即.
设区间中抽取的30个样本为.其均值为,方差为,即;
所以这80人身高的均值为.
从而这80人身高的方差为
因此,这80人身高的方差为
2
学科网(北京)股份有限公司
$