内容正文:
热点09 统计综合
考点一、抽样
1.统计的相关概念
名称
定义
总体
调查对象的全体称为整体
个体
组成整体的每一个调查对象称为个体
样本
从总体中抽取的那部分个体称为样本
样本容量
样本中包含的个体数称为样本容量
样本与样本量的区别:样本是从总体中抽取的个体组成的集合,是对象;样本量是样本中个体的数目,是一个数.
二、简单随机抽样
定义
设一个总体含有个个体,从中逐个不放回抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样
方法
抽签法
把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本
随机数法
利用随机数表、随机数骰子或计算机产生的随机数进行抽样
抽签法与随机数法
相同点
①都属于简单随机抽样,并且要求被抽取样本的总体的个体数有限;
②都是从总体中逐个不放回地进行抽取
不同点
①抽签法比随机数法操作简单;
②随机数法更适用于总体中个体数较多的时候,而抽签法适用于总体中个体数较少的情况
利用随机数法抽取个体时的注意事项:
①定起点:事先应确定以表中的哪个数(哪行哪列)作为起点.
②定方向:读数的方向(向左、向右、向上或向下都可以).
③读数规则:读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.
三、分层抽样
①定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
②应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
注意:分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘以抽样比.
考点二、频率分布直方图
1.画频率分布直方图的步骤
第1步:求极差(即一组数据中最大值与最小值的差);
第2步:决定组距与组数;
第3步:将数据分组;
第4步:列频率分布表;
第5步:画频率分布直方图(以横轴表示样本分组,纵轴表示频率与组距的比值).
2.频率分布直方图的性质
落在各小组内的频率用各小长方形的面积表示,且各小长方形的面积的和等于1.
考点三、数字特征
1.众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
2.极差、方差和标准差
极差:即一组数据中最大值与最小值的差.
方差:.
标准差:.
注:方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
3.性质
(1)若的平均数为,那么的平均数为.
(2)数据与数据的方差相等,即数据经过平移后方差不变.
(3)若的方差为s2,那么的方差为.
考点四、百分位数
1.定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2.计算一组几个数据第p百分位数的步骤
第1步,按从小到大排列原始数据;
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
热点一 简单随机抽样、分层随机抽样的判断
【例1】①在一次满分为100分的测试中,有12人的成绩在90分以上,30人的成绩在60~80分,12人的成绩低于60分,现从中抽取9人了解有关考试题目难度的情况;②一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.针对这两件事,恰当的抽样方法分别为( )
A.分层抽样,简单随机抽样 B.简单随机抽样,简单随机抽样
C.简单随机抽样,分层抽样 D.分层抽样,分层抽样
【答案】A
【详解】对于①:考试成绩在不同分数段之间的同学有明显的差异,用分层随机抽样比较恰当;
对于②:总体包含的个体较少,用简单随机抽样比较恰当.
故选:A.
【例2】在对101个人进行一次抽样时,先采用抽签法从中剔除1个人,再在剩余的100个人中随机抽取10个人,那么下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人在整个抽样过程中被抽到的机会均等
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
【答案】B
【详解】由于第一次剔除时采用抽签法,对每个人来说可能性相等,
然后随机抽取10人对每个人的机会也是均等的,
所以总的来说每个人的机会都是均等的,被抽到的可能性都是相等的.
故选:B.
【变式1-1】为了了解某县中小学生课外阅读时间情况,拟从该县的中小学生中抽取部分学生进行调查,事先已经了解到该县小学、初中、高中三个学段学生的课外阅读时间存在较大差异,而男、女生的阅读时间差异不大,则最合理的抽样方法是( )
A.按性别分层随机抽样 B.按学段分层随机抽样
C.抽签法 D.随机数表法
【答案】B
【详解】因为男、女生的阅读时间差异不大,而小学、初中、高中三个学段学生的课外阅读时间存在较大差异,故应按照学段分层随机抽样.
故选:B.
【变式1-2】下面的抽样中适合用简单随机抽样的有哪些?
(1)某电影院有32排座位,每排有40个座位,座位号是1~40,有一次报告会坐满了听众,报告会结束后为听取意见,要留下32名听众进行座谈;
(2)从10台冰箱中抽出3台进行质量检查;
(3)某学校有在编人员160人,其中行政人员16人,教师112人,后勤人员32人,教育部门为了解在编人员对学校机构改革的意见,要从中抽取一个容量为20的样本;
(4)某乡农田有:山地800公顷,丘陵1200公顷,平地2400公顷,洼地400公顷,现抽取农田48公顷估计全乡农田平均每公顷产量.
【答案】(1)不适合
(2)适合
(3)不适合
(4)不适合
【详解】(1)总体容量较大,用简单随机抽样法比较麻烦;
(2)总体容量较少,用简单随机抽样法比较方便;
(3)由于学校各类人员对这一问题的看法可能差异很大,不宜采用简单随机抽样法;
(4)总体容量大,且各类田地的差别很大,不宜采用简单随机抽样法.
【变式1-3】某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适( )
A.系统抽样法 B.简单随机抽样法
C.分层随机抽样法 D.随机数法
【答案】C
【详解】由题意可知,总体由差异明显的三部分构成,所以选用分层随机抽样法.
故选:C
热点二 简单随机抽样的概率
【例3】从2011名学生中选取40名同学组成参观团,若采用下面的方法选取:先简单随机抽样从2011人中剔除11人,再将剩下的2000人按系统抽样的方法进行选取,则每个人入选的概率为 .
【答案】
【详解】根据随机抽样可知:每个个体入选的概率均等,与抽样方法和过程无关,
所以每个人入选的概率为.
故答案为:.
【例4】某校高一共有个班,编号为,现用抽签法从中抽取个班进行调查,设高一()班被抽到的可能性为,高一()班被抽到的可能性为,则( )
A., B.,
C., D.,
【答案】C
【详解】由抽签法特征知:每个班被抽到的可能性均相等,则.
故选:C.
【变式2-1】利用简单随机抽样的方法,从n个个体中抽取13个个体,若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为 .
【答案】
【详解】第二次抽取时,余下的每个个体被抽到的概率为,则,即,则.
所以在整个抽样过程中,每个个体被抽到的概率为.
故答案为:.
【变式2-2】用简单随机抽样的方法从含n个个体的总体中,逐个抽取一个样本量为3的样本,若其中个体a在第一次就被抽取的可能性为,那么n= .
【答案】8
【详解】因为用简单随机抽样的方法从含n个个体的总体中逐个抽取,个体a在第一次就被抽取的可能性为,
因此,所以.
故答案为:8
【变式2-3】学校要从10名品学兼优的学生中,随机选出2人参加某活动,用简单随机抽样的方法选取,每个学生被选到的可能性为 ,如果老师在第一次抽取后无意透露了结果,结果是第一位同学已被抽取,那么对其他同学是 的(填“公平”或“不公平”).
【答案】 /0.2 不公平
【详解】用简单随机抽样从10个同学中抽2个同学,每个同学被抽到的可能性均为,与抽取的次数无关,
但当第一次抽取结果透露后,相当于从9个同学中抽1个同学,每个同学被抽到的可能性均为,这样对其他同学是不公平的.
热点三 抽签法与随机数表法
【例5】某工厂利用随机数表对生产的 50 个零件进行抽样测试, 先将 50 个零件进行编号, 编号分别为 01, 02, ......, 50. 从中抽取 5 个样本,下面提供随机数表的第 1 行到第 2 行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第 1 行第 7 列开始向右依次读取数据, 则得到的第5个样本编号是 ( ).
A.09 B.05 C.65 D.71
【答案】A
【详解】第一行第7列为3,依次往右读,37,14,05,11,09.
09为第5个样本编号,
故选:A
【例6】某单位拟从40名员工中选5人赠送电影票,可采用下面两种选法:
选法一:将这40名员工按1至40进行编号,并相应地制作号码为1至40的40个号签,把这40个号签放在一个暗箱中搅匀,最后随机地从中抽取5个号签,与这个号签编号一致的员工是幸运人选;
选法二:将35个白球与5个红球(除颜色外,其他完全相同)混合放在一个暗箱中搅匀,让40名员工逐一从中不放回地摸取1个球,则摸到红球的员工是幸运人选,试问:
(1)这两种选法是否都是抽签法,为什么?
(2)这两种选法中每名员工被选中的可能是否相等?
【答案】(1)答案见解析
(2)答案见解析
【详解】(1)选法一满足抽签法的特征,是抽签法,选法二不是抽签法,因为抽签法要求所有的号签编号互不相同,而选法二中的35个白球,5个红球均无法相互区分.
(2)由于选法一中抽取每个号签和选法二中摸到每个球都是等可能的,因此这两种选法中每名员工被选中的可能性相等.
【变式3-1】某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,…,899进行编号,从中抽取90个样本,若选定从第4行第4列的数开始向右读数,(下面摘取了随机数表中的第3行至第5行),根据下图,读出的第5个数的编号是 .
1676622766 5650267107 3290797853 1355385859 8897541410
1256859926 9682731099 1696729315 5712101421 8826498176
5559563564 3854824622 3162430990 0618443253 2383013030
【答案】729
【详解】从685开始向右数,即685,992,696,827,310,991,696,729,跳过992,991,696重复,跳过,
所以第5个数字为729.
故答案为:729.
【变式3-2】选择合适的抽样方法进行抽样,并写出抽样过程.
(1)从甲厂生产的30个篮球(其中一箱20个,另一箱10个)中抽取3个;
(2)从乙厂生产的300个篮球中,抽取10个.
(注:下表为随机数表的第10行到第13行)
48306
32560
19098
13843
70490
19383
21278
90912
40402
60831
15596
95509
23567
78961
46509
33267
82724
32555
52400
15020
12760
47439
67841
10546
【答案】(1)抽签法,过程见解析
(2)随机数法,过程见解析
【详解】(1)总体较小,用抽签法.
第一步,将30个篮球随机编号,编号分别为01,02,⋯,30.
第二步,将以上30个编号分别写在大小和形状完全相同的小纸条上,揉成小球,制成号签.
第三步,把号签放到一个不透明的盒子中,充分搅拌.
第四步,从盒子中不放回地逐个抽取3个号签,并记录上面的号码.
第五步,找出与号码对应的篮球,即可得到样本.
(2)总体较大,样本量较小,宜用随机数法.
第一步,将300个篮球随机编号,编号分别为000,001,⋯,299.
第二步,用所给的随机数表,先随机确定一个数作为起始数字,如选第十行第十一列的数1为起始数字.
第三步,从选定的数开始向右读,每次读3位,凡是不在000~299(包括000和299)中的数都跳过去不读,遇到已经读过的数也跳过去不读,
便可依次得到190,193,127,026,083,115,092,093,240,015这10个号码,这就是所要抽取的10个样本个体的号码.
【变式3-3】某卫生单位为了支援抗震救灾,要在50名志愿者中选取10人组成医疗小组去参加救治工作,请分别用抽签法和随机数法设计抽样方案.
【答案】答案见解析
【详解】抽签法:
第一步,将50名志愿者编号,号码为01,02,03,⋯,50;
第二步,将号码分别写在相同的纸条上,揉成团,制成号签;
第三步,将得到的号签放到一个不透明的盒子中,充分搅匀;
第四步,从盒子中依次不放回地取出10个号签,并记录上面的编号;
第五步,与所得号码对应的志愿者就是医疗小组成员.
随机数法:
(1)将50名志愿者编号,号码为01,02,03,⋯,50;
(2)准备10个大小,质地均匀的小球,小球上分别写上数字0,1,2,⋯,9;
(3)把小球放入一个不透明的容器中,搅拌均匀,从容器中有放回地抽取2次,并把第一次、第二次抽到的小球上的数字分别作为十位、个数数字,这样就生成了一个随机数,如果这个随机数在1~50范围内,就代表了对应编号的志愿者被抽中,否则舍弃编号;(也可选用随机数表,读取编号)
(4)重复抽取随机数,直到抽中10名志愿者为止.
热点四 分层随机抽样的计算
【例7】某地为促进消费,向当地市民随机发放了面值10元、20元、50元的线下消费满减电子券,每位市民可以领取一张,且每笔消费仅能使用一张.某支持使用该消费券的大型商场统计到某日使用了10元、20元、50元消费券的消费账单的数量之比为5∶3∶2,若对这些账单用等比例分层随机抽样的方法进行抽样调查,抽取一个容量为50的样本,则样本中使用了50元消费券的消费账单的份数为( )
A.5 B.10 C.20 D.30
【答案】B
【详解】样本中使用了50元消费券的消费账单的份数为.
故选:B.
【例8】某市在2025高考模拟测试评卷中,实行双评加抽样三评的评卷方法.已知收到有效的数学答卷为5万份,有效的物理答卷为3万份,有效的化学答卷为2.5万份.若双评后利用分层抽样的方法抽取210份样卷进行三评,则应抽取数学样卷的份数为 .
【答案】100
【详解】由题意,应抽取数学样卷的份数为.
故答案为:100
【变式4-1】某中学有高中生1000人,初中生3000人.为了解学生的身心发展情况,按比例采用分层随机抽样的方法从该校学生中抽取一个容量为80的样本,则抽中的高中生人数为( )
A.5 B.10 C.20 D.30
【答案】C
【详解】分层抽样的抽取比例为,
所以从高中生中抽取的人数为.
故选:C.
【变式4-2】已知某地区有小学生12000人,初中生11000人,高中生9000人,现在要了解该地区学生的近视情况,准备抽取320人进行调查,则应该抽取小学生、初中生、高中生的人数分别是 .
【答案】120,110,90
【详解】小学生,初中生,高中生人数的比例为,
故抽取的小学生,初中生,高中生的人数分别为.
故答案为:120,110,90.
【变式4-3】某校高三年级共有2000人,其中男生1200人,女生800人,某次考试结束后,学校采用按性别分层随机抽样的方法抽取容量为的样本,已知样本中男生比女生人数多8人,则( )
A.20 B.30 C.40 D.48
【答案】C
【详解】根据分层抽样的性质可知,样本中男生人数为:,
样本中女生人数为:,
由题意,所以,
所以.
故选:C
热点五 频率分布直方图计算频率、频数、样本容量、总体容量
【例9】某地区教研机构对该地区模拟考试成绩进行分析,随机抽取了200分到450分之间的1000名学生的成绩,并根据这些学生的成绩画出样本的频率分布直方图,如图所示,则成绩在内的学生人数为( )
A.300 B.400 C.600 D.1200
【答案】B
【详解】由频率分布直方图可得,,
解得,
所以成绩在内的学生人数为.
故选:B.
【例10】为调查某校学生的校志愿者活动情况,现抽取一个容量为100的样本,统计了这些学生一周内的校志愿者活动时长,并绘制了如下图所示的频率分布直方图,记数据分布在的频率分别为.已知.
(1)求的值;
(2)求样本中在内的频数;
(3)若全校共2000名学生,请根据样本数据估计:全校学生一周内的校志愿者活动时长不少于250分钟的人数.
【答案】(1),
(2)65
(3)600人
【详解】(1)由图知:,
,
,
,
由于,则.
(2)样本中在内的频率为,
相应的频数为.
(3)样本中在内的频率为,
全校学生一周内的校志愿者活动时长不少于250分钟的人数估计值为:人.
【变式5-1】从某中学随机抽取100名学生,将他们的身高数据(单位:cm)绘制成频率分布直方图,若要从身高在,,三组内的学生中,用分层抽样的方法选取32人参加一次活动.则从身高在内的学生中选取的人数应为( )
A.7 B.8 C.9 D.10
【答案】B
【详解】由频率分布直方图的性质得:,解得,
所以身高在,,三组内的学生比例为,
用分层抽样的方法选取32人参加一次活动,则从身高在内的学生中选取的人数为人.
故选:B.
【变式5-2】从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图所示,则用电量低于150度的户数为( )
A.30 B.18 C.36 D.24
【答案】A
【详解】由频率分布直方图得:用电量低于150度的频率为,
所以用电量低于150度的户数为.
故选:.
【变式5-3】为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄情况如下表所示:
分组(单位:岁)
频数
频率
5
0.05
①
0.20
35
②
30
0.30
10
0.10
总计
100
1.00
(1)频率分布表中的①②位置应填什么数据?
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在岁的人数;
(3)现用比例分配的分层随机抽样从、、的样本中共抽取n名志愿者,已知从中抽取了2人,求n的值.
【答案】(1)①应填,②应填;
(2)直方图见解析,人数为175;
(3)15
【详解】(1)①应填,②应填;
(2)区间的频率为0.20,故频率/组距为,
故补全频率分布直方图,如下:
这500名志愿者中年龄在岁的人数为;
(3)、、的人数比例为,
从中抽取了2人,故从、中分别抽取了7人和6人,
故.
热点六 总体百分位数的计算
【例11】一组数据由小到大排列为,已知该组数据的分位数是9.5,则的值是( )
A.6 B.7 C.8 D.9
【答案】C
【详解】因为,
所以该组数据的分位数是第4、第5位数的平均数,
所以,解得,
故选:C.
【例12】2023年是共建“一带一路”倡议提出十周年.而今“一带一路”已成为当今世界最受欢迎的国际公共产品和最大规模的国际合作平台.树人中学历史学科组近期开展了“回望丝路”系列主题活动,组织“一带一路”知识竞赛,并对学生成绩进行了汇总整理,形成以下直方图.该校学生“一带一路”知识竞赛成绩的第60百分位数大约为( )
A.72 B.76 C.78 D.85
【答案】B
【详解】由题中频率分布直方图知区间的频率为:
则在区间的频率为:,
所以第60百分位数在区间,且设为,则,
解得.
故选:B
【变式6-1】某中学随机抽取了60名学生,统计了他们某天学习数学的时间,数据如下表,则该组数据的第75百分位数是( )
学习时间/分钟
60
70
80
90
100
110
120
人数
9
10
14
12
8
5
2
A.75分钟 B.90分钟 C.95分钟 D.100分钟
【答案】C
【详解】因为,所以第75百分位数是所有数据从小到大排列的第45项和第46项的平均数,
由表中数据可知,第45项为90,第46项为100,所以第75百分位数是分钟.
故选:C.
【变式6-2】为迎接2022年北京冬奥会,某校组织全体学生参加了主题为“筑梦冬奥会,同心向未来”的知识竞赛,随机抽取了200名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组的取值区间均为左闭右开区间),画出频率分布直方图.
(1)求出频率直方图中的x值;
(2)估计全校学生成绩的样本数据的80%分位数.
【答案】(1)0.03
(2)95
【详解】(1),解得;
(2)低于90分的频率为,则80%分位数位于区间内,设样本数据的80%分位数约为n分,
则,解得,即80%分位数为95.
【变式6-3】如图是某市随机抽取的100户居民的月均用水量频率分布直方图,如果要让60%的居民用水不超出标准(单位:t),根据直方图估计,下列最接近的数为( )
A.8.5 B.9 C.9.5 D.10
【答案】A
【详解】因为,,
所以应在,
所以,解得.
故最接近的数为.
故选:A.
热点七 平均数、中位数、众数计算
【例13】某同学测得连续天的最低气温(均为整数)分别为,,,,,,(单位:),若这组数据的平均数与中位数相等,则( )
A. B. C. D.
【答案】B
【详解】这组数据的平均数为,
除外,将剩余的个数据由小到大排列依次为,,,,,,
若,则这组数据的中位数为,
若,同理可知,这组数据的中位数也为,
因为这组数据的中位数和平均数相等,故,解得.
故选:B.
【例14】(多选)我国新能源发展势头强劲,产业前景广阔,特别是新能源汽车产销已经连续8年位居世界第一,如图,这是某国产新能源汽车公司的100家销售商在2023年4月份的销售数据频率分布直方图,则( )
A.a的值为0.004
B.估计这100家销售商新能源汽车销量(每组的销量按中点值计算)的平均数为135
C.估计这100家销售商新能源汽车销售量的中位数为158.3
D.若用分层随机抽样法从这100家销售商中抽取20家,则应从销量在[200,300]内的销售商中抽取5家
【答案】AD
【详解】由,得,故A正确;
平均数约为,
,故B错误;
设中位数为x,易知,则,得,故C错误;
应从销量在的销售商中抽家,故D正确.
故选:AD.
【变式7-1】已知甲、乙两组数据如茎叶图所示,其中.若这两组数据的中位数相等,平均数也相等,则 .
【答案】24
【详解】根据茎叶图知,乙的中位数是,所以,
所以甲的平均数是,
所以,解得.
.
故答案为:24.
【变式7-2】(多选)春节期间,电影《哪吒2》在全国各地的影院热映,已知某影院连续10天的观影人数(单位:百人)依次为90,120,80,160,160,180,200,160,120,130,则这组数据的( )
A.众数为120 B.平均数为140 C.中位数为145 D.第85百分位数为170
【答案】BC
【详解】观影人数从小到大排列为:80,90,120,120,130,160,160,160,180,200,
则众数为160,故A不正确;
平均数为,故B正确;
中位数为,故C正确;
又,故第85百分位数为180,故不正确.
故选:BC.
【变式7-3】(多选)工厂为了了解某车间的生产效率,对该车间名工人上月生产的产品数量(单位:件)进行抽样调查,整理得到如图的频率分布直方图,则下列估计正确的是( )
A.该车间工人上月产量的极差恰好为件
B.该车间约有名工人上月产量低于件
C.该车间工人上月产量的平均数低于件
D.该车间工人上月产量的中位数低于件
【答案】BD
【详解】因为频率分布直方图丢失了原始数据,所以无法求得极差,故A不正确;
因为产量低于件的频率为,,
所以该车间约有名工人上月产量低于件,故B正确;
因为,
所以平均数为件,故C不正确;
设该车间工人上月产量的中位数为件,则,解得,故D正确.
故选:BD.
热点八 方差、标准差的计算
【例15】随着Deepseek的流行,各种AI大模型层出不穷,现有甲、乙两个AI大模型,在对甲、乙两个大模型进行深度体验后,6位评委分别对甲、乙进行打分(满分10分),得到如图所示的统计表格,则下列结论不正确的是( )
评委编号模型名称
1
2
3
4
5
6
甲
7.0
9.3
8.3
9.2
8.9
8.9
乙
8.1
9.1
8.5
8.6
8.7
8.6
A.甲得分的平均数大于乙得分的平均数 B.甲得分的众数大于乙得分的众数
C.甲得分的中位数大于乙得分的中位数 D.甲得分的方差大于乙得分的方差
【答案】A
【详解】甲、乙的得分从小到大排列如下:
甲:,乙:,
甲得分的中位数为,乙得分的中位数为,甲得分的中位数大于乙得分的中位数,故C正确;
甲得分的众数,乙得分的众数为,甲得分的众数大于乙得分的众数,故B正确;
甲得分的平均数,
乙得分的平均数,所以甲得分的平均数等于乙得分的平均数,故A错误;
甲的方差,
乙的方差为
故甲得分的方差大于乙得分的方差,故D正确.
故选:A.
【例16】某同学掷一枚正方体骰子5次,记录每次骰子出现的点数,统计出结果的平均数为2,方差为0.4,可判断这组数据的众数为( )
A.1 B.2 C.3 D.4
【答案】B
【详解】不妨设五个点数为,由题意平均数为2,方差为0.4,
知.
可知五次的点数中最大点数不可能为4,5,6.
五个点也不可能都是2,则五个点数情况可能是3,3,2,1,1,其方差为
,不合题意.
若五个点数情况为3,2,2,2,1,其方差为
,符合题意,其众数为2.
故选:B.
【变式8-1】A,B两组各有7位病人.他们服用某种药物后的康复时间(单位:天)记录如下:
A组:;
B组:.
当为何值时,两组病人康复时间的方差相等?(结论不要求证明)
【答案】或.
【详解】方法一:A组的平均数为,
故A组的方差为,
故B组的平均数为,
故B组的方差为,
解得或11,
方法二:由于两组数据的方差相同,A组的数据依次增大1,
而B组数据除之外,其余数据也依次增大1,
故要想两组数据的方差相同,B组数据也应该依次增大1,
将B组数据重新排列,
A组:,
B组:,
或
A组:;
B组:.
所以,或.
【变式8-2】(多选)有一组样本数据,其中,由这组数据得到的新样本数据为,,,,则( )
A.两组数据的极差一定相等 B.两组数据的平均数一定相等
C.两组数据的中位数可能相等 D.两组数据的方差不可能相等
【答案】BC
【详解】A.假设原样本数据为,则新样本数据为,两组数据的极差不相等,错误;
B.因为,所以两组数据的平均数一定相等,正确;
C.由A中的数据可知两组数据的中位数可能相等,正确;
D.假设原样本数据为,则新样本数据为,这两组数据一样,故方差可能相等,错误.
故选:BC.
【变式8-3】(多选)有一组样本数据、、、,其平均数、中位数、方差、极差分别记为、、、,由这组数据得到新样本数据、、、,其中,其平均数、中位数、方差、极差分别记为、、、,则( )
A. B.
C. D.
【答案】ABC
【详解】对于A选项,由平均数的性质可得,A对;
对于B选项,不妨设,
若为奇数,设,则数据、、、的中位数为,
若,新样本数据由小到大依次为、、、,
这组数据的中位数为;
当,新样本数据由小到大依次为、、、,
这组数据的中位数为;
若为偶数,同理可知,,B对;
对于C选项,由方差的性质可得,C对;
对于D选项,若、是、、、中最大值、最小值,
当时,则为、、、中的最大值,
为、、、中的最小值,
此时,;
当时,则为、、、中的最小值,
为、、、中的最大值,
此时,,D错.
故选:ABC.
热点九 多层方差计算总体方差
【例17】(多选)某高中有学生500人,其中男生300人,女生200人,为获得该校学生的身高(单位:cm)信息,按比例分配的分层随机抽样的方法抽取一个样本量为50的样本.经计算得到样本中男生身高的平均数为170,方差为17;女生身高的平均数力160,方差30.下列说法中正确的是( )
A.样本中男生的人数为30
B.每个女生入样的概率均为
C.样本的平均数为166
D.样本的方差为22.2
【答案】AC
【详解】对于A:抽样比为,
所以样本中男生有人,故选项A正确;
对于B:每个女生入样的概率等于抽样比,故选项B不正确;
对于C:由分层抽样知,样本中男生有人,男生有人,
所有的样本均值为:,故选项C正确;
对于D:设男生分别为,,,,平均数,,
女生分别为,,,,平均数,,
样本的平均数为,方差为,
因为
,
而,
所以,
同理可得,
所以,
故选项D不正确;
故选:AC
【例18】某学校为提高学生对《红楼梦》的了解,举办了"我知红楼"知识竞赛,现从所有答卷卷面成绩中随机抽取100份作为样本,将样本数据(满分100分,成绩均为不低于40分的整数)分成六段:,并作出如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)求样本数据的第62百分位数所在区间的组中值;
(3)若落在中的样本数据平均数是52,方差是6;落在中的样本数据平均数是64,方差是3,求这两组数据的总平均数和方差.
【答案】(1)0.030
(2)79分
(3),
【详解】(1)由,
解得;
(2)因为,
,
所以样本数据的第62百分位数在内,
可得,
所以样本数据的第62百分位数为分;
(3)样本数据落在的个数为,
落在的个数为,
,
总方差.
【变式9-1】某学校有男生400人,女生600人.为了调查该校全体学生每天体育锻炼时间,采用分层抽样的方法抽取样本,计算得男生每天体育锻炼时间均值为2.5小时,方差为1,女生每天体育锻炼时间为1小时,方差为0.5.若男、女样本量按比例分配,则可估计总体方差为 .
【答案】
【详解】由题意,总体的均值为,
根据分层抽样的性质,则总体的方差为.
故答案为:.
【变式9-2】某学校统计了所有在职教师(只有一级教师和高级教师)的工资情况,其中一级教师80人,平均工资为4.5千元,方差为0.04,高级教师20人,平均工资为6.5千元,方差为0.44,则该校所有在职教师工资的方差为 .
【答案】0.76/
【详解】设一级教师的平均工资和方差为、,高级教师的平均工资和方差为、,因一级教师的占比,高级教师的占比,
则全校教师的平均工资为(千元),
则教师工资的方差为
.
故答案为:0.76
【变式9-3】“世界图书与版权日”又称“世界读书日”,2024年4月23日是第29个“世界读书日”.自“世界读书日”确定以来,某高校每年都会举办读书知识竞赛活动来鼓励该校学生阅读,现从参加竞赛的学生中抽取100人,将他们的竞赛成绩分成六组:第1组,第2组,第3组,第4组,第5组,第6组,得到如图所示的频率分布直方图.
(1)求这100名学生成绩的众数和平均数(取各组区间中间值计算);
(2)已知成绩落在的学生平均成绩为62,方差为9,落在的学生平均成绩为77,方差为4,求这两组成绩的总体平均数和总体方差.
【答案】(1)众数为75,
(2),
【详解】(1)众数:75,
第1至第6组的频率分别为,
平均数:;
(2)根据题意可知,成绩落在的学生人数为20人,成绩落在的学生人数为30人,
总体平均数:,
总体方差:.
热点十 频率分布直方图的综合
【例19】某地举办了“防电信诈骗”知识竞赛,从所有答卷中随机抽取10份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值及样本成绩的第80百分位数;
(2)以频率作为概率,每组数据区间中点作代表,估计该地此次竞赛成绩的众数和平均分;
(3)已知落在区间的样本平均成绩是57,方差是7,落在区间的样本平均成绩为66,方差是4,求两组样本成绩合并后的平均数和方差.
参考公式:若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,,记总的样本平均数为,样本方差为,则.
【答案】(1);86;
(2)众数为75,平均分为74;
(3)63;23
【详解】(1)由题意知,,解得;
成绩在的频率为0.65,成绩在的频率为0.9,
故第80百分位数在之间,则,
解得,故第80百分位数为86;
(2)众数为,
,
所以该地此次竞赛成绩的众数为75,平均分为74;
(3)由频率分布直方图知,这100份答卷分数在的份数为100×0.1=10,
分数在的份数为100×0.2=20,
所以,
总方差.
【例20】某工厂选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:分钟)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的第75百分数;
(2)为了解该工厂职工的基本信息,从工厂中抽取了100个职工的体重数据,发现全部介于45公斤到75公斤之间,现将100个体重数据分为6组:第一组,第二组,…,第六组,得到如图2所示的频率分布直方图.其中第一组有2人,第二组有13人.求与的值.
【答案】(1)
(2)
【详解】(1)40名工人完成生产任务所需时间按从小到大排列为: ,因为,
所以第75百分数为;
(2)依题意,则,
又因为,所以,
因为,所以,
所以,
所以.
【变式10-1】教育局组织学生参加“防溺水”网络知识问答,该地区有小学生4500人,初中生4300人,高中生2200人,按学段比例分层抽样,从中抽取220名学生,对其成绩进行统计频率分析,得到如下图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)用样本估计总体,估计该地区成绩的中位数(保留小数点后两位),并估计该地区学生成绩大于等于90分的人数;
(3)教育局的工作人员在此次竞赛成绩中抽取了10名同学的分数:,已知这10个分数的平均数,方差,若剔除其中的最高分98和最低分86,求剩余8个分数的平均数与方差.
(参考数据:,,)
【答案】(1)
(2),550人
(3)
【详解】(1)由,
解得.
(2)因为,,
所以中位数为满足,
由,解得,
即估计该地区成绩的中位数为分;
估计该地区学生成绩大于等于90分的人数为(人).
(3)由题意,剩余8个成绩的平均值为 ,
因为10个分数的方差,
所以,
所以剩余8个分数的方差
,
即剩余8个分数的平均数与方差分别为.
【变式10-2】某公司为了解用户对其产品的满意程度,从地区随机抽取了名用户,从地区随机抽取了名用户,请用户根据满意程度对该公司产品评分,该公司将收集到的数据按照、、、分组,绘制成评分频率分布直方图如图.
(1)从地区满意程度评分的第百分位数;
(2)根据频率分布直方图,假设同组中的每个数据用该区间的中点值代替,估计地区抽取的名用户对该公司产品的评分的平均值为,地区抽取的名用户对该公司产品的评分的平均值为,以及两地区抽取的名用户对该公司产品的评分的平均值为,试比较和的大小.
【答案】(1)75
(2)
【详解】(1)因为前2组的频率和为,
前3组的频率和为,
所以第百分位数在第3组,设第百分位数为,
则,解得,
所以地区满意程度评分的第百分位数为75;
(2)由频率分布直方图可得
,
,
所以,
因为地区和地区所抽取的用户人数之比为,
所以地区抽取用户人数占总数的,地区抽取用户人数占总数的,
所以两地区抽取的名用户对该公司产品的评分的平均值,
所以.
【变式10-3】A校和B校是孝感市两所著名的高中,为了相互学习和交流,现随机抽取2000名A校学生和2000名B校学生参加一场知识问答竞赛,得到的竞赛成绩全部位于区间中,现分别对两校学生的成绩作统计分析:对A校学生的成绩经分析后发现,可将其分成组距为10,组数为6,作频率分布直方图,且频率分布直方图中的满足函数关系(n为组数序号,);关于B校学生成绩的频率分布直方图如下图所示(纵轴为),假定每组组内数据都是均匀分布的.
(1)求的值;
(2)若B校准备给前100名的学生奖励,应该奖励多少分以上的学生?
(3)现在设置一个标准来判定某一学生是属于A校还是B校,将成绩小于的学生判为B校,大于的学生判为A校,将A校学生误判为B校学生的概率称为误判率A,将B校学生误判为A校学生的概率称为误判率B,误判率A与误判率B之和称作总误判率,记为.若,求总误判率的最小值,以及此时的值.
【答案】(1);
(2)72分以上
(3)最小为, .
【详解】(1)由频率之和为1,故之和为,
解得:.
(2)根据B校学生成绩的频率分布直方图,设所求的分数为,
则,解得,所以应该奖励72分以上的学生.
(3),则时,
,
时,
,
由的单调性知,当最小,此时,所以总误判率最小为,此时.
一、单选题
1.(2024·25高二上·湖北孝感·期中)一支田径队有男运动员28人,女运动员20人,按照性别进行分层,用分层随机抽样的方法从该田径队中抽取了男运动员7人,则女运动员被抽取的人数为( )
A.4 B.5 C.6 D.7
【答案】B
【详解】由题意得,女运动员被抽取的人数为.
故选:B.
2.(2025·四川绵阳·三模)某家电公司生产了两种不同型号的空调,公司统计了某地区2024年的前6个月这两种型号空调的销售情况,得到销售量的折线统计图如图所示,分析这6个月的销售数据,下列说法不正确的是( )
A.型号空调月销售量的极差比型号空调月销售量的极差大
B.型号空调月平均销售量比型号空调月平均销售量大
C.型号空调月销售量的上四分位数比型号空调销售量的上四分位数大
D.型号空调月销售量的方差比型号空调月销售量的方差小
【答案】D
【详解】由图可知,型号空调月销售量的极差为,
型号空调月销售量的极差为,故A正确;
型号空调月平均销售量为,
型号空调月平均销售量为,故B正确;
将型号空调月销售量数据从小到大排列为:25,27,28,38,42,50,
由,则型号空调月销售量的上四分位数为42,
将型号空调月销售量数据从小到大排列为:22,25,30,37,40,45,
由,则型号空调月销售量的上四分位数为40,故C正确;
型号空调月销售量的方差为
,
型号空调月销售量的方差为
,
故D错误.
故选:D.
3.(2024·25高三下·山东菏泽·阶段练习)样本数据6,8,11,23,27,29,43,52,69,81的第40百分位数为( )
A.23 B.25 C.27 D.29
【答案】B
【详解】样本数据从小到大排序,共10个数,因为所以第40百分位数为第4个数据和第个数据的平均数,即第40百分位数为.
故选:B
4.(2024·四川·一模)一家水果店为了解本店苹果的日销售情况,记录了过去天的日销售量(单位:kg),将全部数据按区间,,…,分成5组,得到如图所示的频率分布直方图:
根据图中信息判断,下列说法中不恰当的一项是( )
A.图中的值为
B.这天中有天的日销售量不低于kg
C.这天销售量的中位数的估计值为kg
D.店长希望每天的苹果尽量新鲜,又能地满足顾客的需要(在天中,大约有天可以满足顾客的需求),则每天的苹果进货量应为kg
【答案】D
【详解】对于选项A,由图知,解得,所以选项A正确,
对于选项B,由图知日销售量不低于kg的频率为,由,所以选项B正确,
对于选项C,设中位数为,由,解得,所选项C正确,
对于选项D,设第分位数为,则有,得到,所以选项D错误,
故选:D.
5.(2023·24高一下·北京东城·期末)某校组织全体学生参加了主题为“建党百年,薪火相传”的知识竞赛,随机抽取了200名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,下列说法正确的是( )
A.直方图中x的值为0.004
B.在被抽取的学生中,成绩在区间[60,70)的学生数为10
C.估计全校学生的平均成绩不低于80分
D.估计全校学生成绩的样本数据的80%分位数约为93分
【答案】C
【详解】由得,A错;
成绩在区间[60,70)的频率为,人数为,B错;
平均成绩为,C正确;
低于90分的频率为,设样本数据的80%分位数约为分,
则,解得,D错.
故选:C.
6.(2025·贵州·二模)已知一组数据1,4,5,,3,4,5,1,,7,4的平均数为4,其中,均为正整数,则当取得最小值时,这组数据的方差为( )
A. B. C. D.
【答案】D
【详解】依题意,,解得,
则,
当且仅当,即时取等号,因此当时,取得最小值,
所以这组数据的方差为.
故选:D
7.(2024·25高二上·重庆·阶段练习)为了解某班学生数学成绩,采用分层随机抽样抽取了一个人的样本,统计如下:则可估计该班学生数学的平均分和方差分别为( )
学生数
平均分
方差
男生
女生
A. B. C. D.
【答案】D
【详解】由题知该班学生数学的平均分为,
该班学生数学的方差为,
故选:D.
8.(2024·25高二上·浙江·期中)已知数据,,,满足:,若去掉,后组成一组新数据,则新数据与原数据相比,下列说法错误的是( )
A.中位数不变 B.平均数不变
C.若,则数据,,的第80百分位数为15 D.方差变小
【答案】C
【详解】由,可得是以为首项,2为公差的等差数列的前10项,
原来的中位数与现在的中位数均为,故中位数不变,故A正确;
原来的平均数为,
去掉后的平均数为,所以平均数不变,故B正确;
当时,数据按从小到大顺序排列:.
因为,所以该组数据的第80百分位数是,故C错误;
原来的方差为,
去掉后的方差为,方差变小,故D正确.
故选:C.
二、多选题
9.(2024·25高三上·浙江·阶段练习)如图,国家统计局发布了自1990年至2023年的国家城镇化率与人口总数的关系,其中横坐标为年份,纵坐标为人口总数,每一年的数据点对应一个圆,圆的半径与城镇化率成正比.根据图像估计,下列说法正确的是( )
A.自1990年至2023年,我国人口总数大致呈增长趋势
B.自1990年至2023年,我国城镇化率大致呈增长趋势
C.自1990年至2023年,我国人口增长速率呈增长趋势
D.自1990年至2023年,我国城镇化率与人口总数正相关
【答案】ABD
【详解】由图可知:这些圆的圆心所在的高度呈现上升趋势,故自1990年至2023年,我国人口总数大致呈增长趋势,A正确,
由于这些圆的大小呈现变大的趋势,故半径呈现变大的趋势,因此城镇化率也呈现增长趋势,B正确,
由于我国人口总数大致呈增长趋势,且城镇化率也呈现增长趋势,因此自1990年至2023年,我国城镇化率与人口总数正相关,D正确,
根据图,无法得知人口增长率的变化情况,故C错误,
故选:ABD
10.(2025·河北·模拟预测)某商场统计了180天的日收入(单位:万元),并分组如下:,,,⋯,,得到如图所示的频率分布直方图,则下列说法正确的是( )
A.这180天中日收入不低于8万元的有54天
B.用比例分配的分层随机抽样法从日收入低于8万元的天数中抽取14天,则这14天中有6天的日收入低于4万元
C.这组数据的平均数是6万元(每组数据以区间中点值为代表)
D.这组数据的第75百分位数为8.5万元
【答案】AD
【详解】对于A,由频率分布直方图得这180天中日收入不低于8万元的有天,故A正确;
对于B,日收入低于8万元的各组的频率比为,
所以从日收入低于8万元的天数中抽取14天各组抽取的天数依次为2天、3天、4天、5天,
则这14天中有天的日收入低于4万元,故B错误;
对于C,这组数据的平均数是
万元,故C错误;
对于D,因为前4组的频率为,
前5组的频率为,
所以这组数据的第75百分位数在第5组为万元,故D正确.
故选:AD
11.(2024·25高一上·广西钦州·期末)已知一组数据,的极差为m,平均数为a,方差为b,另外一组数据的极差为9,平均数为11,方差为13,则( )
A. B.
C. D.
【答案】BD
【详解】假设最小,最大,则,
若,则另外一组数据最小,最大,
此时极差为,A错误.
易得所以,B,D正确,C错误.
故选:BD.
三、填空题
12.(2024·25高二上·上海·期末)若样本数据的方差为16,则数据,,的标准差为 .
【答案】
【详解】设样本数据的方差为,则,可知数据,,的方差为,所以标准差为.
故答案为:
13.(2024·25高一上·江西抚州·阶段练习)某中职学校为了解全校学生国庆小长假期间阅读古典名著的时间的情况,抽查了1000名学生,将他们的阅读时间进行分组抽样结果绘成的频率分布直方图如图所示,则实数 .
【答案】
【详解】由图可得各分组频率之和为:
因各分组频率之和为1,则
故答案为:0.14.
14.(2024·江西·模拟预测)样本数据16,24,14,10,20,30,14,a的第30百分位数等于a,则a的取值集合是 .
【答案】
【详解】将数据16,24,14,10,20,30,14,按升序排列可得10,14,14,16,20,24,30,
因为,可知第30百分位数为第3位数,
若,则第30百分位数为14,即,符合题意;
若,则第30百分位数为14,即,不符合题意;
综上所述:a的取值集合是.
故答案为:.
四、解答题
15.(2024·25高一下·甘肃·阶段练习)为了迎接某项活动,某市积极开展网上竞赛,先采取甲、乙两套方案进行培训,并对分别采取两套方案培训的单位的7次线上测试成绩进行统计如图所示:
(1)求甲和乙的测试成绩的平均数和方差;
(2)从下列两个不同的角度对这次方案选择的结果进行分析:
①从平均数和方差相结合看(分析哪种方案的成绩更好);
②从折线图上两种方案的走势看(分析哪种方案更有潜力).
【答案】(1)甲平均数为115,方差为16,乙平均数为115;方差为;
(2)①乙方案更好,更稳定,理由见解析;②甲方案更有潜力,理由见解析
【详解】(1)由表格中的数据可得
甲的平均数为,
乙的平均数为,
甲的方差为,
乙的方差为,
(2)①甲,乙两种方案的平均数相等,且,乙方案更稳定,更好;
②从折线图的走势上看甲更有潜力,使用甲方案成绩稳步提高,
而使用乙方案成绩不稳定,忽上忽下.
16.(2024·25高二下·上海青浦·期中)某同学为了解我国文化教育普及程度,收集了我国部分省级行政区15岁及以上男性和女性的文盲人口比重(%)情况,经统计得到如下的茎叶图.
(1)根据茎叶图判断男性样本数据和女性样本数据的离散程度,并求离散程度较小的样本数据的第80百分位数;
(2)若女性样本数据的极差为12.7,求该样本数据的平均数与方差;(结果精确到0.1)
(3)为了调查今年某地区15岁及以上男性和女性文盲人口情况,研究小组准备采用分层随机抽样方法抽取5000人进行调查.已知该地区15岁及以上的男性约有4.2百万人,女性约有3.8百万人.分别求出抽取的男性人数和女性人数.
【答案】(1)
(2)平均数为,方差为
(3)男性人数为,女性人数为,
【详解】(1)由茎叶图可得女性样本数据较分散,男性样本数据较集中,故男生离散程度较小.
又因为茎叶图中数据从小到大排列,可知,男性共有30个数据,则第80百分位数为,
所以第80百分位数即为从小到大排列数中第24位与第25位的平均值,即,
(2)由茎叶图可得,
又因为女性的极差为,所以,
所以,
,
(3)因为男性与女性人数之比为,
根据分层抽样,从5000人中抽取男性人数为人,女性人数为人.
17.(2024·25高一上·安徽蚌埠·期末)某小区物业公司为进一步提升服务质量,随机抽取了200名住户进行业主满意度问卷调查.把收集到的评分数据按,,依次分为第一至第六组(所有评分x满足).统计各组频数并计算相应频率,绘制出如图所示的频率分布直方图.
(1)求图中的a值;
(2)求业主评分平均数的估计值(同一组中的数据用该组区间的中点值作代表);
(3)从评分低于70分的业主中用分层随机抽样的方法抽取14人进行电话回访,则第一组,第二组和第三组被抽到的业主人数分别是多少?
【答案】(1)
(2)74
(3)2,4,8.
【详解】(1)由题意可得,解得.
(2)由题意可知:,
所以业主评分平均数的估计值为74.
(3)评分低于70分的三组频率之比为,
故第一组抽到的人数为,第二组抽到的人数为,第三组抽到的人数为,
即第一组,第二组和第三组被抽到的业主人数分别是2,4,8.
18.(2024·25高二上·四川·期末)2024年以来,四川省文化和旅游厅制定出台推动文旅市场恢复振兴的系列措施,为进一步发展四川文旅,提升四川经济,在5月份对来川旅游的部分游客发起满意度调查,从饮食、住宿、交通、服务等方面调查旅客满意度,满意度采用百分制,统计的综合满意度绘制成如下频率分布直方图,图中.
(1)求图中a的值并估计满意度得分的平均值(同一组中的数据用该组区间的中点值作代表);
(2)若有超过的人满意度在75分及以上,则认为该月文旅成绩合格.四川省5月份文旅成绩合格了吗?
(3)四川文旅6月份继续对来川旅游的游客发起满意度调查,采用样本量比例分配的分层随机抽样,现知6月1日-6月15日调查的4万份数据中其满意度的平均值为80,方差为75;6月16日-6月30日调查的6万份数据中满意度的平均值为90,方差为70.由这些数据计算6月份的总样本的平均数与方差.
【答案】(1),79.5
(2)合格
(3)总样本平均值为86,总样本方差为96
【详解】(1)由题意知,解得.
估计满意度得分的平均值为.
(2)超过的人满意度在75分及以上,即为分位数大于等于75,
因为满意度在的频率为,满意度在的频率为,
可知分位数位于.
则,可以估计40%分位数为,
所以有超过60%的人满意度在75分及以上,河北省5月份文旅成绩合格了.
(3)把6月1日-6月15日的样本记为,其平均数记为,方差记为,
把6月16日-6月30日的样本记为,其平均数记为,方差记为,
则总样本平均数,
则总样本方差
,
所以总样本平均值为86,总样本方差为96.
19.(2023·24高一下·西藏拉萨·期末)2024年5月22日至5月28日是第二届全国城市生活垃圾分类宣传周,本次宣传周的主题为“践行新时尚分类志愿行”.拉萨市某中学高一年级举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩x(单位:分,得分取正整数,满分为100分)作为样本进行统计将成绩进行整理后,分为五组(,,,,),其中第二组的频数是第一组频数的2倍,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求a,b的值;
(2)估计这次竞赛成绩的众数,中位数和平均数(同一组中的数据用该组区间的中点值作代表);
(3)某老师在此次竞赛成绩中抽取了10名学生的分数:,,,……,,已知这10个分数的平均数,标准差,若剔除其中的75和85这两个分数,求剩余8个分数的平均数与方差.
【答案】(1),
(2)众数75,中位数70.5,平均数70.2
(3)80;37.5
【详解】(1)由第二组的频数是第一组的2倍,可得第二组的频率为第一组的2倍,所以,解得,
又,解得,
所以,;
(2)由题知,估计众数为=75;
成绩落在内的频率为:,
落在内的频率为:,
因此中位数落在区间内,
设中位数为m,则,解得.
由题知各组频率分别为0.16,0.32,0.4,0.08,0.04,
各组区间中点值分别为55,65,75,85,95,
所以平均数的近似值为,
故估计这次竞赛成绩的众数约为,中位数约为,平均数约为;
(3)由,得:.
又,
所以:,
剔除其中的75和85两个分数,设剩余8个数为,
平均数与标准差分别为,,
则剩余8个分数的平均数:;
所以
即:
方差:.
故剩余8个分数的平均数为,方差为.
2
学科网(北京)股份有限公司
$$
热点09 统计综合
考点一、抽样
1.统计的相关概念
名称
定义
总体
调查对象的全体称为整体
个体
组成整体的每一个调查对象称为个体
样本
从总体中抽取的那部分个体称为样本
样本容量
样本中包含的个体数称为样本容量
样本与样本量的区别:样本是从总体中抽取的个体组成的集合,是对象;样本量是样本中个体的数目,是一个数.
二、简单随机抽样
定义
设一个总体含有个个体,从中逐个不放回抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样
方法
抽签法
把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本
随机数法
利用随机数表、随机数骰子或计算机产生的随机数进行抽样
抽签法与随机数法
相同点
①都属于简单随机抽样,并且要求被抽取样本的总体的个体数有限;
②都是从总体中逐个不放回地进行抽取
不同点
①抽签法比随机数法操作简单;
②随机数法更适用于总体中个体数较多的时候,而抽签法适用于总体中个体数较少的情况
利用随机数法抽取个体时的注意事项:
①定起点:事先应确定以表中的哪个数(哪行哪列)作为起点.
②定方向:读数的方向(向左、向右、向上或向下都可以).
③读数规则:读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.
三、分层抽样
①定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
②应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
注意:分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘以抽样比.
考点二、频率分布直方图
1.画频率分布直方图的步骤
第1步:求极差(即一组数据中最大值与最小值的差);
第2步:决定组距与组数;
第3步:将数据分组;
第4步:列频率分布表;
第5步:画频率分布直方图(以横轴表示样本分组,纵轴表示频率与组距的比值).
2.频率分布直方图的性质
落在各小组内的频率用各小长方形的面积表示,且各小长方形的面积的和等于1.
考点三、数字特征
1.众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
2.极差、方差和标准差
极差:即一组数据中最大值与最小值的差.
方差:.
标准差:.
注:方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
3.性质
(1)若的平均数为,那么的平均数为.
(2)数据与数据的方差相等,即数据经过平移后方差不变.
(3)若的方差为s2,那么的方差为.
考点四、百分位数
1.定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2.计算一组几个数据第p百分位数的步骤
第1步,按从小到大排列原始数据;
第2步,计算.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
热点一 简单随机抽样、分层随机抽样的判断
【例1】①在一次满分为100分的测试中,有12人的成绩在90分以上,30人的成绩在60~80分,12人的成绩低于60分,现从中抽取9人了解有关考试题目难度的情况;②一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.针对这两件事,恰当的抽样方法分别为( )
A.分层抽样,简单随机抽样 B.简单随机抽样,简单随机抽样
C.简单随机抽样,分层抽样 D.分层抽样,分层抽样
【例2】在对101个人进行一次抽样时,先采用抽签法从中剔除1个人,再在剩余的100个人中随机抽取10个人,那么下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人在整个抽样过程中被抽到的机会均等
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
【变式1-1】为了了解某县中小学生课外阅读时间情况,拟从该县的中小学生中抽取部分学生进行调查,事先已经了解到该县小学、初中、高中三个学段学生的课外阅读时间存在较大差异,而男、女生的阅读时间差异不大,则最合理的抽样方法是( )
A.按性别分层随机抽样 B.按学段分层随机抽样
C.抽签法 D.随机数表法
【变式1-2】下面的抽样中适合用简单随机抽样的有哪些?
(1)某电影院有32排座位,每排有40个座位,座位号是1~40,有一次报告会坐满了听众,报告会结束后为听取意见,要留下32名听众进行座谈;
(2)从10台冰箱中抽出3台进行质量检查;
(3)某学校有在编人员160人,其中行政人员16人,教师112人,后勤人员32人,教育部门为了解在编人员对学校机构改革的意见,要从中抽取一个容量为20的样本;
(4)某乡农田有:山地800公顷,丘陵1200公顷,平地2400公顷,洼地400公顷,现抽取农田48公顷估计全乡农田平均每公顷产量.
【变式1-3】某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适( )
A.系统抽样法 B.简单随机抽样法
C.分层随机抽样法 D.随机数法
热点二 简单随机抽样的概率
【例3】从2011名学生中选取40名同学组成参观团,若采用下面的方法选取:先简单随机抽样从2011人中剔除11人,再将剩下的2000人按系统抽样的方法进行选取,则每个人入选的概率为 .
【例4】某校高一共有个班,编号为,现用抽签法从中抽取个班进行调查,设高一()班被抽到的可能性为,高一()班被抽到的可能性为,则( )
A., B.,
C., D.,
【变式2-1】利用简单随机抽样的方法,从n个个体中抽取13个个体,若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为 .
【变式2-2】用简单随机抽样的方法从含n个个体的总体中,逐个抽取一个样本量为3的样本,若其中个体a在第一次就被抽取的可能性为,那么n= .
【变式2-3】学校要从10名品学兼优的学生中,随机选出2人参加某活动,用简单随机抽样的方法选取,每个学生被选到的可能性为 ,如果老师在第一次抽取后无意透露了结果,结果是第一位同学已被抽取,那么对其他同学是 的(填“公平”或“不公平”).
热点三 抽签法与随机数表法
【例5】某工厂利用随机数表对生产的 50 个零件进行抽样测试, 先将 50 个零件进行编号, 编号分别为 01, 02, ......, 50. 从中抽取 5 个样本,下面提供随机数表的第 1 行到第 2 行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第 1 行第 7 列开始向右依次读取数据, 则得到的第5个样本编号是 ( ).
A.09 B.05 C.65 D.71
【例6】某单位拟从40名员工中选5人赠送电影票,可采用下面两种选法:
选法一:将这40名员工按1至40进行编号,并相应地制作号码为1至40的40个号签,把这40个号签放在一个暗箱中搅匀,最后随机地从中抽取5个号签,与这个号签编号一致的员工是幸运人选;
选法二:将35个白球与5个红球(除颜色外,其他完全相同)混合放在一个暗箱中搅匀,让40名员工逐一从中不放回地摸取1个球,则摸到红球的员工是幸运人选,试问:
(1)这两种选法是否都是抽签法,为什么?
(2)这两种选法中每名员工被选中的可能是否相等?
【变式3-1】某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,…,899进行编号,从中抽取90个样本,若选定从第4行第4列的数开始向右读数,(下面摘取了随机数表中的第3行至第5行),根据下图,读出的第5个数的编号是 .
1676622766 5650267107 3290797853 1355385859 8897541410
1256859926 9682731099 1696729315 5712101421 8826498176
5559563564 3854824622 3162430990 0618443253 2383013030
【变式3-2】选择合适的抽样方法进行抽样,并写出抽样过程.
(1)从甲厂生产的30个篮球(其中一箱20个,另一箱10个)中抽取3个;
(2)从乙厂生产的300个篮球中,抽取10个.
(注:下表为随机数表的第10行到第13行)
48306
32560
19098
13843
70490
19383
21278
90912
40402
60831
15596
95509
23567
78961
46509
33267
82724
32555
52400
15020
12760
47439
67841
10546
【变式3-3】某卫生单位为了支援抗震救灾,要在50名志愿者中选取10人组成医疗小组去参加救治工作,请分别用抽签法和随机数法设计抽样方案.
热点四 分层随机抽样的计算
【例7】某地为促进消费,向当地市民随机发放了面值10元、20元、50元的线下消费满减电子券,每位市民可以领取一张,且每笔消费仅能使用一张.某支持使用该消费券的大型商场统计到某日使用了10元、20元、50元消费券的消费账单的数量之比为5∶3∶2,若对这些账单用等比例分层随机抽样的方法进行抽样调查,抽取一个容量为50的样本,则样本中使用了50元消费券的消费账单的份数为( )
A.5 B.10 C.20 D.30
【例8】某市在2025高考模拟测试评卷中,实行双评加抽样三评的评卷方法.已知收到有效的数学答卷为5万份,有效的物理答卷为3万份,有效的化学答卷为2.5万份.若双评后利用分层抽样的方法抽取210份样卷进行三评,则应抽取数学样卷的份数为 .
【变式4-1】某中学有高中生1000人,初中生3000人.为了解学生的身心发展情况,按比例采用分层随机抽样的方法从该校学生中抽取一个容量为80的样本,则抽中的高中生人数为( )
A.5 B.10 C.20 D.30
【变式4-2】已知某地区有小学生12000人,初中生11000人,高中生9000人,现在要了解该地区学生的近视情况,准备抽取320人进行调查,则应该抽取小学生、初中生、高中生的人数分别是 .
【变式4-3】某校高三年级共有2000人,其中男生1200人,女生800人,某次考试结束后,学校采用按性别分层随机抽样的方法抽取容量为的样本,已知样本中男生比女生人数多8人,则( )
A.20 B.30 C.40 D.48
热点五 频率分布直方图计算频率、频数、样本容量、总体容量
【例9】某地区教研机构对该地区模拟考试成绩进行分析,随机抽取了200分到450分之间的1000名学生的成绩,并根据这些学生的成绩画出样本的频率分布直方图,如图所示,则成绩在内的学生人数为( )
A.300 B.400 C.600 D.1200
【例10】为调查某校学生的校志愿者活动情况,现抽取一个容量为100的样本,统计了这些学生一周内的校志愿者活动时长,并绘制了如下图所示的频率分布直方图,记数据分布在的频率分别为.已知.
(1)求的值;
(2)求样本中在内的频数;
(3)若全校共2000名学生,请根据样本数据估计:全校学生一周内的校志愿者活动时长不少于250分钟的人数.
【变式5-1】从某中学随机抽取100名学生,将他们的身高数据(单位:cm)绘制成频率分布直方图,若要从身高在,,三组内的学生中,用分层抽样的方法选取32人参加一次活动.则从身高在内的学生中选取的人数应为( )
A.7 B.8 C.9 D.10
【变式5-2】从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图所示,则用电量低于150度的户数为( )
A.30 B.18 C.36 D.24
【变式5-3】为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄情况如下表所示:
分组(单位:岁)
频数
频率
5
0.05
①
0.20
35
②
30
0.30
10
0.10
总计
100
1.00
(1)频率分布表中的①②位置应填什么数据?
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在岁的人数;
(3)现用比例分配的分层随机抽样从、、的样本中共抽取n名志愿者,已知从中抽取了2人,求n的值.
热点六 总体百分位数的计算
【例11】一组数据由小到大排列为,已知该组数据的分位数是9.5,则的值是( )
A.6 B.7 C.8 D.9
【例12】2023年是共建“一带一路”倡议提出十周年.而今“一带一路”已成为当今世界最受欢迎的国际公共产品和最大规模的国际合作平台.树人中学历史学科组近期开展了“回望丝路”系列主题活动,组织“一带一路”知识竞赛,并对学生成绩进行了汇总整理,形成以下直方图.该校学生“一带一路”知识竞赛成绩的第60百分位数大约为( )
A.72 B.76 C.78 D.85
【变式6-1】某中学随机抽取了60名学生,统计了他们某天学习数学的时间,数据如下表,则该组数据的第75百分位数是( )
学习时间/分钟
60
70
80
90
100
110
120
人数
9
10
14
12
8
5
2
A.75分钟 B.90分钟 C.95分钟 D.100分钟
【变式6-2】为迎接2022年北京冬奥会,某校组织全体学生参加了主题为“筑梦冬奥会,同心向未来”的知识竞赛,随机抽取了200名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组的取值区间均为左闭右开区间),画出频率分布直方图.
(1)求出频率直方图中的x值;
(2)估计全校学生成绩的样本数据的80%分位数.
【变式6-3】如图是某市随机抽取的100户居民的月均用水量频率分布直方图,如果要让60%的居民用水不超出标准(单位:t),根据直方图估计,下列最接近的数为( )
A.8.5 B.9 C.9.5 D.10
热点七 平均数、中位数、众数计算
【例13】某同学测得连续天的最低气温(均为整数)分别为,,,,,,(单位:),若这组数据的平均数与中位数相等,则( )
A. B. C. D.
【例14】(多选)我国新能源发展势头强劲,产业前景广阔,特别是新能源汽车产销已经连续8年位居世界第一,如图,这是某国产新能源汽车公司的100家销售商在2023年4月份的销售数据频率分布直方图,则( )
A.a的值为0.004
B.估计这100家销售商新能源汽车销量(每组的销量按中点值计算)的平均数为135
C.估计这100家销售商新能源汽车销售量的中位数为158.3
D.若用分层随机抽样法从这100家销售商中抽取20家,则应从销量在[200,300]内的销售商中抽取5家
【变式7-1】已知甲、乙两组数据如茎叶图所示,其中.若这两组数据的中位数相等,平均数也相等,则 .
【变式7-2】(多选)春节期间,电影《哪吒2》在全国各地的影院热映,已知某影院连续10天的观影人数(单位:百人)依次为90,120,80,160,160,180,200,160,120,130,则这组数据的( )
A.众数为120 B.平均数为140 C.中位数为145 D.第85百分位数为170
【变式7-3】(多选)工厂为了了解某车间的生产效率,对该车间名工人上月生产的产品数量(单位:件)进行抽样调查,整理得到如图的频率分布直方图,则下列估计正确的是( )
A.该车间工人上月产量的极差恰好为件
B.该车间约有名工人上月产量低于件
C.该车间工人上月产量的平均数低于件
D.该车间工人上月产量的中位数低于件
热点八 方差、标准差的计算
【例15】随着Deepseek的流行,各种AI大模型层出不穷,现有甲、乙两个AI大模型,在对甲、乙两个大模型进行深度体验后,6位评委分别对甲、乙进行打分(满分10分),得到如图所示的统计表格,则下列结论不正确的是( )
评委编号模型名称
1
2
3
4
5
6
甲
7.0
9.3
8.3
9.2
8.9
8.9
乙
8.1
9.1
8.5
8.6
8.7
8.6
A.甲得分的平均数大于乙得分的平均数 B.甲得分的众数大于乙得分的众数
C.甲得分的中位数大于乙得分的中位数 D.甲得分的方差大于乙得分的方差
【例16】某同学掷一枚正方体骰子5次,记录每次骰子出现的点数,统计出结果的平均数为2,方差为0.4,可判断这组数据的众数为( )
A.1 B.2 C.3 D.4
【变式8-1】A,B两组各有7位病人.他们服用某种药物后的康复时间(单位:天)记录如下:
A组:;
B组:.
当为何值时,两组病人康复时间的方差相等?
【变式8-2】(多选)有一组样本数据,其中,由这组数据得到的新样本数据为,,,,则( )
A.两组数据的极差一定相等 B.两组数据的平均数一定相等
C.两组数据的中位数可能相等 D.两组数据的方差不可能相等
【变式8-3】(多选)有一组样本数据、、、,其平均数、中位数、方差、极差分别记为、、、,由这组数据得到新样本数据、、、,其中,其平均数、中位数、方差、极差分别记为、、、,则( )
A. B.
C. D.
热点九 多层方差计算总体方差
【例17】(多选)某高中有学生500人,其中男生300人,女生200人,为获得该校学生的身高(单位:cm)信息,按比例分配的分层随机抽样的方法抽取一个样本量为50的样本.经计算得到样本中男生身高的平均数为170,方差为17;女生身高的平均数力160,方差30.下列说法中正确的是( )
A.样本中男生的人数为30
B.每个女生入样的概率均为
C.样本的平均数为166
D.样本的方差为22.2
【例18】某学校为提高学生对《红楼梦》的了解,举办了"我知红楼"知识竞赛,现从所有答卷卷面成绩中随机抽取100份作为样本,将样本数据(满分100分,成绩均为不低于40分的整数)分成六段:,并作出如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)求样本数据的第62百分位数所在区间的组中值;
(3)若落在中的样本数据平均数是52,方差是6;落在中的样本数据平均数是64,方差是3,求这两组数据的总平均数和方差.
【变式9-1】某学校有男生400人,女生600人.为了调查该校全体学生每天体育锻炼时间,采用分层抽样的方法抽取样本,计算得男生每天体育锻炼时间均值为2.5小时,方差为1,女生每天体育锻炼时间为1小时,方差为0.5.若男、女样本量按比例分配,则可估计总体方差为 .
【变式9-2】某学校统计了所有在职教师(只有一级教师和高级教师)的工资情况,其中一级教师80人,平均工资为4.5千元,方差为0.04,高级教师20人,平均工资为6.5千元,方差为0.44,则该校所有在职教师工资的方差为 .
【变式9-3】“世界图书与版权日”又称“世界读书日”,2024年4月23日是第29个“世界读书日”.自“世界读书日”确定以来,某高校每年都会举办读书知识竞赛活动来鼓励该校学生阅读,现从参加竞赛的学生中抽取100人,将他们的竞赛成绩分成六组:第1组,第2组,第3组,第4组,第5组,第6组,得到如图所示的频率分布直方图.
(1)求这100名学生成绩的众数和平均数(取各组区间中间值计算);
(2)已知成绩落在的学生平均成绩为62,方差为9,落在的学生平均成绩为77,方差为4,求这两组成绩的总体平均数和总体方差.
热点十 频率分布直方图的综合
【例19】某地举办了“防电信诈骗”知识竞赛,从所有答卷中随机抽取10份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值及样本成绩的第80百分位数;
(2)以频率作为概率,每组数据区间中点作代表,估计该地此次竞赛成绩的众数和平均分;
(3)已知落在区间的样本平均成绩是57,方差是7,落在区间的样本平均成绩为66,方差是4,求两组样本成绩合并后的平均数和方差.
参考公式:若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,,记总的样本平均数为,样本方差为,则.
【例20】某工厂选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:分钟)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的第75百分数;
(2)为了解该工厂职工的基本信息,从工厂中抽取了100个职工的体重数据,发现全部介于45公斤到75公斤之间,现将100个体重数据分为6组:第一组,第二组,…,第六组,得到如图2所示的频率分布直方图.其中第一组有2人,第二组有13人.求与的值.
【变式10-1】教育局组织学生参加“防溺水”网络知识问答,该地区有小学生4500人,初中生4300人,高中生2200人,按学段比例分层抽样,从中抽取220名学生,对其成绩进行统计频率分析,得到如下图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)用样本估计总体,估计该地区成绩的中位数(保留小数点后两位),并估计该地区学生成绩大于等于90分的人数;
(3)教育局的工作人员在此次竞赛成绩中抽取了10名同学的分数:,已知这10个分数的平均数,方差,若剔除其中的最高分98和最低分86,求剩余8个分数的平均数与方差.
(参考数据:,,)
【变式10-2】某公司为了解用户对其产品的满意程度,从地区随机抽取了名用户,从地区随机抽取了名用户,请用户根据满意程度对该公司产品评分,该公司将收集到的数据按照、、、分组,绘制成评分频率分布直方图如图.
(1)从地区满意程度评分的第百分位数;
(2)根据频率分布直方图,假设同组中的每个数据用该区间的中点值代替,估计地区抽取的名用户对该公司产品的评分的平均值为,地区抽取的名用户对该公司产品的评分的平均值为,以及两地区抽取的名用户对该公司产品的评分的平均值为,试比较和的大小.
【变式10-3】A校和B校是孝感市两所著名的高中,为了相互学习和交流,现随机抽取2000名A校学生和2000名B校学生参加一场知识问答竞赛,得到的竞赛成绩全部位于区间中,现分别对两校学生的成绩作统计分析:对A校学生的成绩经分析后发现,可将其分成组距为10,组数为6,作频率分布直方图,且频率分布直方图中的满足函数关系(n为组数序号,);关于B校学生成绩的频率分布直方图如下图所示(纵轴为),假定每组组内数据都是均匀分布的.
(1)求的值;
(2)若B校准备给前100名的学生奖励,应该奖励多少分以上的学生?
(3)现在设置一个标准来判定某一学生是属于A校还是B校,将成绩小于的学生判为B校,大于的学生判为A校,将A校学生误判为B校学生的概率称为误判率A,将B校学生误判为A校学生的概率称为误判率B,误判率A与误判率B之和称作总误判率,记为.若,求总误判率的最小值,以及此时的值.
一、单选题
1.(2024·25高二上·湖北孝感·期中)一支田径队有男运动员28人,女运动员20人,按照性别进行分层,用分层随机抽样的方法从该田径队中抽取了男运动员7人,则女运动员被抽取的人数为( )
A.4 B.5 C.6 D.7
2.(2025·四川绵阳·三模)某家电公司生产了两种不同型号的空调,公司统计了某地区2024年的前6个月这两种型号空调的销售情况,得到销售量的折线统计图如图所示,分析这6个月的销售数据,下列说法不正确的是( )
A.型号空调月销售量的极差比型号空调月销售量的极差大
B.型号空调月平均销售量比型号空调月平均销售量大
C.型号空调月销售量的上四分位数比型号空调销售量的上四分位数大
D.型号空调月销售量的方差比型号空调月销售量的方差小
3.(2024·25高三下·山东菏泽·阶段练习)样本数据6,8,11,23,27,29,43,52,69,81的第40百分位数为( )
A.23 B.25 C.27 D.29
4.(2024·四川·一模)一家水果店为了解本店苹果的日销售情况,记录了过去天的日销售量(单位:kg),将全部数据按区间,,…,分成5组,得到如图所示的频率分布直方图:
根据图中信息判断,下列说法中不恰当的一项是( )
A.图中的值为
B.这天中有天的日销售量不低于kg
C.这天销售量的中位数的估计值为kg
D.店长希望每天的苹果尽量新鲜,又能地满足顾客的需要(在天中,大约有天可以满足顾客的需求),则每天的苹果进货量应为kg
5.(2023·24高一下·北京东城·期末)某校组织全体学生参加了主题为“建党百年,薪火相传”的知识竞赛,随机抽取了200名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,下列说法正确的是( )
A.直方图中x的值为0.004
B.在被抽取的学生中,成绩在区间[60,70)的学生数为10
C.估计全校学生的平均成绩不低于80分
D.估计全校学生成绩的样本数据的80%分位数约为93分
6.(2025·贵州·二模)已知一组数据1,4,5,,3,4,5,1,,7,4的平均数为4,其中,均为正整数,则当取得最小值时,这组数据的方差为( )
A. B. C. D.
7.(2024·25高二上·重庆·阶段练习)为了解某班学生数学成绩,采用分层随机抽样抽取了一个人的样本,统计如下:则可估计该班学生数学的平均分和方差分别为( )
学生数
平均分
方差
男生
女生
A. B. C. D.
8.(2024·25高二上·浙江·期中)已知数据,,,满足:,若去掉,后组成一组新数据,则新数据与原数据相比,下列说法错误的是( )
A.中位数不变 B.平均数不变
C.若,则数据,,的第80百分位数为15 D.方差变小
二、多选题
9.(2024·25高三上·浙江·阶段练习)如图,国家统计局发布了自1990年至2023年的国家城镇化率与人口总数的关系,其中横坐标为年份,纵坐标为人口总数,每一年的数据点对应一个圆,圆的半径与城镇化率成正比.根据图像估计,下列说法正确的是( )
A.自1990年至2023年,我国人口总数大致呈增长趋势
B.自1990年至2023年,我国城镇化率大致呈增长趋势
C.自1990年至2023年,我国人口增长速率呈增长趋势
D.自1990年至2023年,我国城镇化率与人口总数正相关
10.(2025·河北·模拟预测)某商场统计了180天的日收入(单位:万元),并分组如下:,,,⋯,,得到如图所示的频率分布直方图,则下列说法正确的是( )
A.这180天中日收入不低于8万元的有54天
B.用比例分配的分层随机抽样法从日收入低于8万元的天数中抽取14天,则这14天中有6天的日收入低于4万元
C.这组数据的平均数是6万元(每组数据以区间中点值为代表)
D.这组数据的第75百分位数为8.5万元
11.(2024·25高一上·广西钦州·期末)已知一组数据,的极差为m,平均数为a,方差为b,另外一组数据的极差为9,平均数为11,方差为13,则( )
A. B.
C. D.
三、填空题
12.(2024·25高二上·上海·期末)若样本数据的方差为16,则数据,,的标准差为 .
13.(2024·25高一上·江西抚州·阶段练习)某中职学校为了解全校学生国庆小长假期间阅读古典名著的时间的情况,抽查了1000名学生,将他们的阅读时间进行分组抽样结果绘成的频率分布直方图如图所示,则实数 .
14.(2024·江西·模拟预测)样本数据16,24,14,10,20,30,14,a的第30百分位数等于a,则a的取值集合是 .
四、解答题
15.(2024·25高一下·甘肃·阶段练习)为了迎接某项活动,某市积极开展网上竞赛,先采取甲、乙两套方案进行培训,并对分别采取两套方案培训的单位的7次线上测试成绩进行统计如图所示:
(1)求甲和乙的测试成绩的平均数和方差;
(2)从下列两个不同的角度对这次方案选择的结果进行分析:
①从平均数和方差相结合看(分析哪种方案的成绩更好);
②从折线图上两种方案的走势看(分析哪种方案更有潜力).
16.(2024·25高二下·上海青浦·期中)某同学为了解我国文化教育普及程度,收集了我国部分省级行政区15岁及以上男性和女性的文盲人口比重(%)情况,经统计得到如下的茎叶图.
(1)根据茎叶图判断男性样本数据和女性样本数据的离散程度,并求离散程度较小的样本数据的第80百分位数;
(2)若女性样本数据的极差为12.7,求该样本数据的平均数与方差;(结果精确到0.1)
(3)为了调查今年某地区15岁及以上男性和女性文盲人口情况,研究小组准备采用分层随机抽样方法抽取5000人进行调查.已知该地区15岁及以上的男性约有4.2百万人,女性约有3.8百万人.分别求出抽取的男性人数和女性人数.
17.(2024·25高一上·安徽蚌埠·期末)某小区物业公司为进一步提升服务质量,随机抽取了200名住户进行业主满意度问卷调查.把收集到的评分数据按,,依次分为第一至第六组(所有评分x满足).统计各组频数并计算相应频率,绘制出如图所示的频率分布直方图.
(1)求图中的a值;
(2)求业主评分平均数的估计值(同一组中的数据用该组区间的中点值作代表);
(3)从评分低于70分的业主中用分层随机抽样的方法抽取14人进行电话回访,则第一组,第二组和第三组被抽到的业主人数分别是多少?
18.(2024·25高二上·四川·期末)2024年以来,四川省文化和旅游厅制定出台推动文旅市场恢复振兴的系列措施,为进一步发展四川文旅,提升四川经济,在5月份对来川旅游的部分游客发起满意度调查,从饮食、住宿、交通、服务等方面调查旅客满意度,满意度采用百分制,统计的综合满意度绘制成如下频率分布直方图,图中.
(1)求图中a的值并估计满意度得分的平均值(同一组中的数据用该组区间的中点值作代表);
(2)若有超过的人满意度在75分及以上,则认为该月文旅成绩合格.四川省5月份文旅成绩合格了吗?
(3)四川文旅6月份继续对来川旅游的游客发起满意度调查,采用样本量比例分配的分层随机抽样,现知6月1日-6月15日调查的4万份数据中其满意度的平均值为80,方差为75;6月16日-6月30日调查的6万份数据中满意度的平均值为90,方差为70.由这些数据计算6月份的总样本的平均数与方差.
19.(2023·24高一下·西藏拉萨·期末)2024年5月22日至5月28日是第二届全国城市生活垃圾分类宣传周,本次宣传周的主题为“践行新时尚分类志愿行”.拉萨市某中学高一年级举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩x(单位:分,得分取正整数,满分为100分)作为样本进行统计将成绩进行整理后,分为五组(,,,,),其中第二组的频数是第一组频数的2倍,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求a,b的值;
(2)估计这次竞赛成绩的众数,中位数和平均数(同一组中的数据用该组区间的中点值作代表);
(3)某老师在此次竞赛成绩中抽取了10名学生的分数:,,,……,,已知这10个分数的平均数,标准差,若剔除其中的75和85这两个分数,求剩余8个分数的平均数与方差.
2
学科网(北京)股份有限公司
$$