内容正文:
第13讲 用样本估计总体
【人教A版2019】
模块一
总体取值规律的估计
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初
中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图
折线图
扇形图
特
点
一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的.
用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化.
用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景
能清楚地表示每个项目的具体数量,便于相互比较大小.
能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中.
可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
【题型1 绘制、补全频率分布直方图】
【例1.1】(2024高一下·全国·专题练习)如表所示给出了在某校500名12岁男孩中,用随机抽样得出的120人的身高(单位:cm).
区间界限
人数
5
8
10
22
33
20
11
6
5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134 cm的人数占总人数的百分比.
【解题思路】(1)借助所给表格计算即可得;
(2)借助频率分布直方图的定义及所给表格即可得;
(3)计算出相应频率之和即可得.
【解答过程】(1)样本频率分布表如下:
分组
频数
频率
[122,126)
5
0.04
[126,130)
8
0.07
[130,134)
10
0.08
[134,138)
22
0.18
[138,142)
33
0.28
[142,146)
20
0.17
[146,150)
11
0.09
[150,154)
6
0.05
[154,158]
5
0.04
合计
120
1.00
(2)其频率分布直方图如下:
(3),故可估计身高小于134 cm的人数占总人数的.
【例1.2】(2024高一下·全国·专题练习)随机观测生产某种零件的某工厂25名工人的日加工零件数,获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36,根据上述数据得到样本的频率分布表如下:
分组
频数
3
5
8
频率
0.12
0.20
0.32
(1)确定样本频率分布表中,,和的值;
(2)根据上述频率分布表,画出样本频率分布直方图与折线图.
【解题思路】(1)利用给定的数据组求出,,和的值.
(2)由(1)及已知画出样本频率分布直方图与折线图.
【解答过程】(1)依题意,,,所以,.
(2)样本频率分布直方图与折线图如图,
【变式1.1】(23-24高一下·陕西西安·阶段练习)某地有2000名学生参加数学学业水平考试,现将成绩汇总,得到如图所示的频率分布表.
成绩分组
频数频率
成绩分组
100
800
200
(1)请完成题目中的频率分布表,并补全题目中的频率分布直方图;
(2)将成绩按分层抽样的方法抽取150名同学进行问卷调查,甲同学在本次测试中数学成绩为95分,求他被抽中的概率.
【解题思路】(1)根据频率分布直方图,利用频率、频数与样本容量的关系,填写频率分布表,计算,补全频率分布直方图即可;
(2)用分层抽样方法,该同学被抽中的概率是与每一个同学的几率相等,为.
【解答过程】(1)完成题目中的频率分布表,如下;
成绩分组
频数
频率
100
0.05
600
0.30
800
0.40
300
0.15
200
0.10
补全题目中的频率分布直方图,如下;
(2)将成绩按分层抽样的方法抽取150名同学进行问卷调查,
甲同学在本次测试中数学成绩为95分,
他被抽中的概率为.
【变式1.2】(24-25高一下·陕西西安·阶段练习)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:
组号
分组
频数
频率
第1组
0.100
第2组
①______
第3组
20
②______
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
(1)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).
(2)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,则第3,4,5组每组各抽取多少名选手进入第二轮面试?
【解题思路】(1)先补全频率分布表,然后完成频率分布直方图.
(2)根据分层抽样的知识求得正确答案.
【解答过程】(1)第组的频数为,所以①填,对应频率;
②填,由此补全频率分布表如下:
组号
分组
频数
频率
第1组
0.100
第2组
第3组
20
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
由此补全频率分布直方图如下:
(2)第3,4,5组的频率之比为,
所以第组分别抽取人,人,人.
【题型2 频率分布直方图的相关计算】
【例2.1】(23-24高三上·天津南开·期末)某研究机构为了解某地年轻人的阅读情况,通过随机抽样调查了100位年轻人,对这些人每天的阅读时间(单位:分钟)进行统计,得到样本的频率分布直方图如图所示,则的值为( )
A.0.02 B.0.2 C.0.04 D.0.4
【解题思路】根据题意结合频率和为1列式求解.
【解答过程】由频率分布直方图可知:每组频率依次为,
则,解得.
故选:A.
【例2.2】(23-24高一下·北京朝阳·期末)李华统计了他爸爸2024年5月的手机通话明细清单,发现他爸爸该月共通话60次,他按每次通话时间长短进行分组(每组为左闭右开的区间),画出了如图所示的频率分布直方图.则每次通话时长不低于5分钟且小于15分钟的次数为( )
A.18 B.21 C.24 D.27
【解题思路】根据给定的频率分布直方图,求出每次通话时长不低于5分钟且小于15分钟的频率即可得解.
【解答过程】观察频率分布直方图,得每次通话时长不低于5分钟且小于15分钟的频率为:
,则,
所以每次通话时长不低于5分钟且小于15分钟的次数为21.
故选:B.
【变式2.1】(23-24高一下·江苏连云港·期末)根据《中华人民共和国道路交通安全法》规定:血液酒精浓度在80mg/100ml(含80)以上时,属醉酒驾车,处十五日以下拘留和三个月以上六个月以下暂扣驾驶证,并处500元以上2000元以下罚款.2024年3月以来,某地区交警查处酒后驾车和醉酒驾车共20人.如图,这是对这20人酒后驾车血液中酒精含量进行检测所得结果的频率直方图,则属于醉酒驾车的人数约为( )
A.1 B.2 C.3 D.4
【解题思路】根据频率分布直方图求出频率,即可估计人数.
【解答过程】由频率分布直方图可知酒精浓度在80mg/100ml(含80)以上的频率为,
所以样本中属于醉酒驾车的人数约为人.
故选:C.
【变式2.2】(2024高一下·全国·专题练习)如图是60名学生参加数学竞赛的成绩(均为整数,满分100分)的频率分布直方图,估计这次数学竞赛的及格率(60分及以上为及格)是( )
A.75% B.25%
C.15% D.40%
【解题思路】根据频率直方图,求出样本中60分及以上的频率,即可估计出概率.
【解答过程】大于或等于60分的共四组,它们是,
故样本中60分及以上的频率为,
由此可估计这次数学竞赛的及格率为75%,
故选:A.
【题型3 统计图的综合应用问题】
【例3.1】(23-24高一下·贵州黔东南·期末)小波一星期的总开支(单位:元)分布如图1所示,一星期的食品开支(单位:元)分布如图2所示,则小波一星期的肉类开支占总开支的百分比为( )
A. B. C. D.
【解题思路】首先根据频数分布直方图可知食品开支为300元,其中肉类开支为元,运用百分比公式计算出肉类占食品开支的百分比; 然后根据扇形统计图得出食品在所有开支中所占的百分比,两者相乘,即可求得一星期的肉类开支占总开支的百分比.
【解答过程】由图2知,小波一星期的食品开支为300元,其中肉类开支为元,占食品开支的,
而食品开支占总开支的,所以小波一星期的肉类开支占总开支的百分比为,
故选:C.
【例3.2】(2024·甘肃·一模)小李一周的总开支分布如图(1)所示,其中一周的食品开支如图(2)所示,则以下判断错误的是( )
A.小李这一周用于肉蛋奶的支出高于用于娱乐的支出
B.小李这一周用于食品中其他类的支出在总支出中是最少的
C.小李这一周用于主食的支出比用于通信的支出高
D.小李这一周用于主食和蔬菜的总支出比日常支出高
【解题思路】条形图各支出占食品支出的比例乘以即是条形图各支出占总支出的比例,由此关系即可逐一判断每一个选项.
【解答过程】对于A,肉蛋奶的支出占食品开支的,
从而小李这一周用于肉蛋奶的支出占比(总开支是单位1)与用于娱乐的支出占比(总开支是单位1)大小关系为,故A描述正确,不符合题意;
对于B,小李这一周用于食品中其他类的支出在总支出中占比为,
对比其他类型的支出占比可知,B描述正确,不符合题意;
对于C,小李这一周用于主食的支出占比(总开支是单位1)与通信的支出占比(总开支是单位1)的大小关系为,
,故C描述正确,不符合题意;
对于D,小李这一周用于主食和蔬菜的总支出占比(总开支是单位1)与日常支出占比(总开支是单位1)的大小关系为,
,故D描述错误,符合题意.
故选:D.
【变式3.1】(23-24高三下·内蒙古锡林郭勒盟·开学考试)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是( )
A.2023年“种植收入”和2022年“种植收入”一样多
B.2023 年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多
C.2023年“外出务工收入”是2022年“外出务工收入”的
D.2023年“其他收入”比2022年“其他收入”的2倍还多
【解题思路】设2022年总收入为m,则2023年总收入为,A选项,分别计算出2022年和2023年种植收入,得到A正确;B选项,计算出,B正确;C选项,分别计算出2022年和2023年外出务工收入,得到C错误;D选项,分别计算出2022年和2023年其他收入,得到D正确.
【解答过程】设2022年总收入为m,则2023年总收入为,
对于A,2022年种植收入为,2023年种植收入为,A正确;
对于B,2023年养殖收入和第三产业收入之和为,B正确;
对于C,2022年外出务工收入为,2023年外出务工收入为,
是2022年外出务工收入的,C不正确;
对于D,2022年其他收入为,2023年其他收入为,
由于,故2023年其他收入比2022年其他收入的2倍还多,D正确.
故选:C.
【变式3.2】(23-24高一下·湖南·阶段练习)如图为近一年我国商品零售总额和餐饮收入总额同比增速情况折线图,根据该图,下列结论正确的是( )
(注:同比,指当前的数据与上一年同期进行比对;环比,指当前数据与上个月的数据进行比对.)
A.2024年月份,商品零售总额同比增长
B.2023年月份,餐饮收入总额同比都降低
C.2023年月份,商品零售总额同比都增加
D.2023年12月,餐饮收入总额环比增速为
【解题思路】根据折线统计图一一分析即可.
【解答过程】对于A,2024年月份,商品零售总额同比增长,故A错误;
对于B,2023年8月份,餐饮收入总额同比增加,故B错误;
对于C,2023年月份,商品零售总额同比都增加,故C正确;
对于D,2023年12月,餐饮收入总额环比增速并未告知,故D错误.
故选:C.
模块二
总体百分位数的估计
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个
值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第(i+1)项数据的平均数.
【题型4 百分位数的求解】
【例4.1】(23-24高一下·河北沧州·阶段练习)已知一组数据:55,64,92,76,88,67,76,90,则这组数据的第百分位数是( )
A.90 B.88 C.82 D.76
【解题思路】根据百分位数计算规则计算可得.
【解答过程】将数据从小到大排列为:55,64,67,76,76,88,90,92,
又,
所以这组数据的第百分位数是.
故选:A.
【例4.2】(23-24高三下·河南·阶段练习)高二年级进行消防知识竞赛,统计所有参赛同学的成绩,成绩都在内,估计所有参赛同学成绩的第75百分位数为( )
A. B. C. D.
【解题思路】先由长方形的面积和为1求出,再由第75百分位数的定义求解;
【解答过程】因为,所以.
参赛成绩位于内的频率为,
第75百分位数在内,
设为,则,
解得5,即第75百分位数为85,
故选:C.
【变式4.1】(23-24高一下·江苏无锡·阶段练习)从小到大排列的数据1,2,3,5,6,7,8,9,10,14,15,18的下四分位数为( )
A.3 B.4 C.10 D.12
【解题思路】利用分位数的定义进行求解.
【解答过程】数据共12个,,
故从小到大,选择第3和第4个数的平均数作为下四分位数,即.
故选:B.
【变式4.2】(23-24高一下·江苏苏州·期末)某科研单位对ChatGPT的使用情况进行满意度调查,在一批用户的有效问卷(用户打分在50分到100分之间的问卷)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,估计这批用户问卷的得分的第百分位数为( )
A.78.5 B.82.5 C.85 D.87.5
【解题思路】根据百分位数计算规则计算可得.
【解答过程】因为,
,
所以第百分位数位于,设为,
则,解得.
故选:B.
模块三
总体集中趋势与离散程度的估计
1.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度
刻画了一组数据的集中趋势.具体概念回顾如下:
名称
概念
平
均
数
如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中
位
数
将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众
数
一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
2.总体离散程度的估计
(1)方差和标准差
假设一组数据是,,,,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差
.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中出
现的频数为,则总体方差为.
总体标准差:S=.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则
标准差为0.反之,标准差为0的样本,其中的数据都相等.
3.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【题型5 众数、中位数、平均数的求解及应用】
【例5.1】(24-25高一上·四川南充·开学考试)“杂交水稻之父”袁隆平培育的超级杂交稻在全世界推广种植.某种植户为了考察所种植的杂交水稻苗的长势,从稻田中随机抽取7株水稻苗,测得苗高(单位:)分别是23,24,23,25,26,23,25.则这组数据的众数和中位数分别是( )
A.24,25 B.23,23
C.23,24 D.24,24
【解题思路】把给定数据由小到大排列,再求出众数、中位数即得.
【解答过程】苗高由小到大排列为:,
所以这组数据的众数和中位数分别是23,24.
故选:C.
【例5.2】(23-24高一下·新疆·期末)已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是( )
A.86,84 B.84.5,85 C.85,84 D.86.5,84
【解题思路】根据平均数和众数的概念求解.
【解答过程】将样本数据按升序排列为79,84,84,84,86,87,93,95,可得平均数,
因为84出现了三次,且次数最多,所以众数为84.
故选:D.
【变式5.1】(23-24高一下·陕西安康·期末)某科技攻关青年团队共有18人,他们的年龄分布如下表所示:
年龄
45
40
36
32
30
28
26
人数
3
2
3
4
2
3
1
下列说法正确的是( )
A.29是这18人年龄的一个25%分位数 B.40是这18人年龄的一个80%分位数
C.34是这18人年龄的一个中位数 D.这18人年龄的众数是4
【解题思路】分别计算25%,80%分位数得到A错误,B正确,再计算中位数和众数得到CD错误,得到答案
【解答过程】对选项A:,第25%分位数为30,故A错误;
对选项B:,第80%分位数为40,故B正确;
对选项C:这18人年龄的中位数是,故C错误;
对选项D:这18人年龄的众数是32,故D错误.
故选:B.
【变式5.2】(2024·浙江绍兴·三模)已知实数,若,且这四个数的中位数是3,则这四个数的平均数是( )
A. B.3 C. D.4
【解题思路】借助中位数与平均数定义结合题目所给条件计算即可得.
【解答过程】由题意可得,即,
则.
故选:D.
【题型6 方差、标准差的求解及应用】
【例6.1】(23-24高一下·湖北武汉·期末)已知一组样本数据,,…,()的方差为1.2,则,,⋯,的方差为( )
A.5 B.6 C.25 D.30
【解题思路】利用方差的性质求解.
【解答过程】数据的方差为1.2,
,,……的方差为:.
故选:D.
【例6.2】(23-24高一下·海南省直辖县级单位·期末)从两个班级各随机抽取5名学生测量身高(单位:),甲班的数据为169,162,150,160,159,乙班的数据为180,160,150,150,165.据此估计甲、乙两班学生的平均身高,及方差,的关系为( )
A., B.,
C., D.,
【解题思路】由题意,根据平均数和方差的计算公式分别计算出、、、,即可下结论.
【解答过程】,,
,
,
所以,.
故选:D.
【变式6.1】(23-24高一下·广东深圳·阶段练习)已知数据的平均数为10,方差为10,则的平均数和方差分别为( )
A.30,91 B.31,91 C.30,90 D.31,90
【解题思路】根据平均数、方差的性质计算可得.
【解答过程】因为,,,,的平均数是10,方差是10,
所以的平均数是,方差是.
故选:D.
【变式6.2】(23-24高一下·湖南长沙·期末)已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为,方差为,则( )
A. B.
C. D.
【解题思路】根据平均数、方差公式计算可得.
【解答过程】由题意,可得,
设收集的个准确数据分别记为,
则
,
,所以.
故选:A.
【题型7 频率分布直方图中集中趋势参数的计算】
【例7.1】(23-24高一下·河北张家口·期末)某时间段公路上车速的频率分布直方图如图所示,则( )
A. B.车速的众数估计值是70
C.车速的平均数估计值大于其中位数的估计值 D.车速的中位数估计值是62.5
【解题思路】利用频率分布直方图求出、众数、平均数、中位数判断即得.
【解答过程】对于A,由,得,A错误;
对于B,车速在内的频率最大,车速的众数估计值是65,B错误;
对于C,车速的平均数为,
车速的中位数,则,解得,C错误;
对于D,车速的中位数估计值是62.5.
故选:D.
【例7.2】(23-24高一下·四川达州·期末)在某次考试成绩中随机抽取50个,成绩均在之间,将这些成绩共分成五组:,,,,,得到如图所示的频率分布直方图,由图中数据估计总体的众数和中位数(中位数精确到个位)分别是( ).
A.65,70 B.65,71 C.65,72 D.65,73
【解题思路】本题根据众数和中位数的概念以及在频率分布直方图的表达方法即可计算求解.
【解答过程】众数是频率分布直方图中最高的矩形的中点的坐标,即众数为,
设把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标为,
先求图中的a值,由得,,
则,所以.
故选:D.
【变式7.1】(24-25高二上·湖南株洲·阶段练习)某公司为了了解本公司职员的早餐费用情况,抽样调查了100位职员的早餐日平均费用(单位:元),得到如下图所示的频率分布直方图,图中标注的数字模糊不清.
(1)试根据频率分布直方图求的值,并估计该公司职员早餐日平均费用的众数和平均数;
(2)已知该公司有1000名职员,试估计该公司有多少职员早餐日平均费用不少于8元?
【解题思路】(1)由频率和为1得到的值,频率最高组的中间数即是众数,用每组数据的中间数乘以频率所得结果即为平均数;
(2)找到满足题意的频率乘以总数即得频数.
【解答过程】(1)∵
∴
众数为5,
平均数
(2)由频率分布直方图可知,平均费用不少于8元的频率为:
∴
∴试估计该公司有200名职员早餐日平均费用不少于8元.
【变式7.2】(23-24高一下·江苏南京·期末)从全校学生的期末考试成绩(均为整数)中随机抽取一个样本,将样本分成5组,绘成频率分布直方图,如图中从左到右各小组的小矩形的高之比为,最左边的一组频数是6.
(1)求样本容量;
(2)求这一组的频数及频率;
(3)估计这组样本数据的众数和中位数.
【解题思路】(1)根据矩形面积比与频率比的关系即可得到样本容量;
(2)根据面积比即可求出频率,再根据样本容量即可求出频数;
(3)根据众数和中位数计算公式即可.
【解答过程】(1)小矩形的高之比为频率之比,
所以从左到右的频率之比为.
最左边的一级所占的频率为,
所以样本容量;
(2)这一组的频率为,所以频数为;
(3)由频率分布直方图得:
众数为:.
成绩在内的频率为,
成绩在内的频率为,
成绩在内的频率为,
则,,
设中位数为,
,解得,
即中位数为113.
【题型8 其他统计图表中反映的集中趋势与离散程度】
【例8.1】(23-24高一下·吉林长春·期末)近年来,“直播带货”受到越来越多人的喜爱.目前已经成为推动消费的一种流行的营销形式.对某直播平台的直播商家进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图①所示.
(1)该直播平台为了更好地服务买卖双方,打算随机抽取80个直播商家进行问询交流.如果按照比例分配分层抽样的方式抽取,则应抽取小吃类、玩具类商家各多少家?
(2)在问询了解直播商家的利润状况时,工作人员对抽取的80个商家的平均日利润进行了统计(单位:元),所得频率分布直方图如图②所示.请根据频率分布直方图,求出图中a的值,并估计该直播平台商家日利润的平均数(求平均数时同一组中的数据用该组区间的中点值作代表).
【解题思路】(1)根据题意,直接计算,即可得到结果;
(2)根据题意,先由频率之和求得,再根据平均数的计算公式即可得到结果.
【解答过程】(1)由题意可得,,,
所以应抽取小吃类家,玩具类家.
(2)由题意可得,,解得,
平均数为 ,所以该直播平台商家日利润的平均数为.
【例8.2】(23-24高一下·江苏徐州·期末)近年来,“直播带货”受到越来越多人的喜爱,目前已经成为推动消费的一种流行营销形式.某直播平台有800个直播商家,对其进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图①所示.为了更好地服务买卖双方,该直播平台打算用分层抽样的方式抽取60个直播商家进行问询交流.
(1)应抽取小吃类、生鲜类商家各多少家?
(2)在问询了解直播商家的利润状况时,工作人员对抽取的60个商家的平均日利润进行了统计(单位:元),所得频率直方图如图②所示.
(i)估计该直播平台商家平均日利润的中位数与平均数(求平均数时同一组中的数据用该组区间中点的数值为代表);
(ii)若将平均日利润超过470元的商家称为“优质商家”,估计该直播平台“优质商家”的个数.
【解题思路】(1)根据分层抽样的定义计算即可;
(2)(i)根据中位数和平均数的定义计算即可;
(ii)根据样本中“优秀商家”的个数来估计总体中“优秀商家”的个数即可.
【解答过程】(1)根据分层抽样知:
应抽取小吃类家,生鲜类家,
所以应抽取小吃类21家,生鲜类9家.
(2)(i)根据题意可得,解得,
设中位数为x,因为,,
所以,解得,
所以该直播平台商家平均日利润的中位数为元.
平均数为,
所以该直播平台商家平均日利润的平均数为440元.
(ii),
所以估计该直播平台“优秀商家”的个数为256.
【变式8.1】(23-24高一下·河南·阶段练习)已知第10~19届亚运会中国队获得的金牌数如下图所示.
(1)求第届亚运会中国队获得的金牌数的极差;
(2)剔除第届亚运会中国队获得的金牌数数据,求剩余9届亚运会中国队获得的金牌数的平均数;
(3)设第届亚运会中国队获得的金牌数的方差为,第届亚运会中国队获得的金牌数的方差为,不通过计算,试比较与的大小,并说明理由.
【解题思路】(1)将数据从小到大排列,找出最大值及最小值,解出极差即可;
(2)剔除第届亚运会中国队获得的金牌数数据,计算出平均数即可;
(3)通过折线图观察比较出第届亚运会中国队获得的金牌数与第届亚运会中国队获得的金牌数的波动情况即可判断.
【解答过程】(1)由题意知:第届亚运会中国队获得的金牌数的极差为.
(2)剩余9届亚运会中国队获得的金牌数的平均数为:.
(3)可判断出,理由如下:
因为第届亚运会中国队获得的金牌数的波动性,明显比第13~15届亚运会中国队获得的金牌数的波动性大,所以.
【变式8.2】(23-24高一下·河南信阳·期中)树人中学男女学生比例约为,某数学兴趣社团为了解该校学生课外体育锻炼情况(锻炼时间长短(单位:小时)),采用样本量比例分配的分层抽样,抽取男生人,女生人进行调查.记男生样本为,样本平均数、方差分别为;女生样本为,样本平均数、方差分别为;总样本平均数、方差分别为.
(1)该兴趣社团通过分析给出以上两个统计图,假设两个统计图中每个组内的数据均匀分布,根据两图信息分别估计男生样本、女生样本的平均数;
(2)已知男生样本方差,女生样本方差,请结合(2)问的结果计算总样本方差的估计值.
【解题思路】(1)利用各组区间中点值代表该组的各个值,由频率分布直方图、扇形统计图估计平均数的方法可求得结果;
(2)根据分层抽样计算平均数和方差的方法直接求解即可.
【解答过程】(1)每个组内的数据均匀分布,以各组的区间中点值代表该组的各个值;
由频率分布直方图估计男生样本课外体育锻炼时间的平均数 ;
由扇形图估计女生样本课外体育锻炼时间的平均数 .
(2)采用按比例分配的分层随机抽样,;
估计树人中学学生课外运动时间的平均数,
.
一、单选题
1.(24-25高一下·甘肃兰州·阶段练习)已知一组数据3,4,5,6,7,8,9,10,则这组数据的第20百分位数是( )
A. B.4 C. D.5
【解题思路】根据百分位数的定义求解即可.
【解答过程】这组数据从小到大的顺序为3,4,5,6,7,8,9,10,
因为,所以第20百分位数是这组数据的第二个数,
所以这组数据的第20百分位数为.
故选:.
2.(24-25高一下·贵州遵义·阶段练习)已知一组数,,,的平均数是3,方差为4,则数据,,,的平均数和方差分别是( )
A.7,8 B.7,16 C.6,8 D.6,16
【解题思路】根据平均数与方差的基本公式以及性质求解即可.
【解答过程】由题意,,.
所以,,,的平均数
,
方差.
故选:B.
3.(23-24高一下·山西大同·期末)某部门为了了解一批树苗的生长情况,在4000棵树苗中随机抽取400棵,统计这400棵树苗的高度(单位:),将所得数据分成7组:,,,,,,,并绘制了如图所示的频率分布直方图,那么根据该图可推测,在这4000棵树苗中高度小于的树苗棵数约是( )
A.1680 B.1760 C.1840 D.1920
【解题思路】求出树苗中高度小于的频率,然后根据频数=样本容量×频率可求出结果.
【解答过程】由频率分布直方图可得,小于的树苗的频率,
所以可推测,4000棵树苗中高度小于的树苗棵数约为.
故选:B.
4.(23-24高一下·四川内江·期末)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄的分布饼状图、90后从事互联网行业者的岗位分布条形图,则下列结论中不一定正确的是( )
A.互联网行业从事技术岗位的人数中,90后比80后多
B.90后互联网行业者中从事技术岗位的人数超过整个从事互联网行业者总人数的
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业从业人员中90后占一半以上
【解题思路】利用整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图即可判断各选项的真假.
【解答过程】选项A;设整个互联网行业总人数为a,
互联网行业中从事技术岗位的90后人数为,小于80后的人数,
但80后中从事技术岗位的人数比例未知,故A错误.
选项B:设整个互联网行业总人数为a,90后从事技术岗位人数为56%×39.6%a,
而90后总人数的20%为,故B正确;
选项C:设整个互联网行业总人数为a,
互联网行业中从事运营岗位的90后人数为,
超过80前的人数6%a,且80前中从事运营岗位的人数比例未知,故C正确;
选项D: 由整个互联网行业从业者年龄分布饼状图得到互联网行业从业人员中90后占,故D正确.
故选:A.
5.(24-25高一上·四川成都·开学考试)如表是某公司员工月收入的资料.
月收入/元
45000
18000
10000
5500
5000
3400
3300
1000
人数
1
1
1
3
6
1
11
1
能够反映该公司全体员工月收入水平的统计量是( )
A.平均数和众数 B.平均数和中位数
C.中位数和众数 D.平均数和方差
【解题思路】求出数据的众数和中位数,再与25名员工的收入进行比较即可.
【解答过程】公司共有员工1+1+1+3+6+1+11+1=25人,
该公司员工月收入的众数为3300元,在25名员工中有13人这此数据之上,
因此众数能够反映该公司全体员工月收入水平;
月收入由小到大排列,3400为第13个数,因此该公司员工月收入的中位数为3400元;
在25名员工中在此数据及以上的有13人,则中位数也能够反映该公司全体员工月收入水平,
而25名员工月收入的平均数元
受极端数据45000、18000等影响,平均数偏离多数人的收入水平,而方差是表征数据波动大小的量,
所以能够反映该公司全体员工月收入水平的统计量是中位数和众数.
故选:C.
6.(24-25高三上·广西南宁·开学考试)某校组织50名学生参加庆祝中华人民共和国成立75周年知识竞赛,经统计这50名学生的成绩都在区间内,按分数分成5组:,,,,,得到如图所示的频率分布直方图(不完整),根据图中数据,下列结论错误的是( )
A.成绩在上的人数最多
B.成绩不低于70分的学生所占比例为
C.50名学生成绩的平均分小于中位数
D.50名学生成绩的极差为50
【解题思路】根据频率分布直方图求出的频率,A项可由各矩形高度可得;B项由频率计算可得;C项分别求出平均数、中位数比较可知;D项由极差定义可得.
【解答过程】设组的频率为,则由各组频率之和为1可得
,解得;
,,,,各组频率依次为:,
A项, 组频率最大,即成绩在上的人数最多,故A正确;
B项,成绩低于70分的学生频率为,即不低于70分的学生频率为,
所以成绩不低于70分的学生所占比例为,故B正确;
C项,根据频率分布直方图,可得50名学生成绩的平均数是
,
由,故50名学生成绩的中位数为80,
所以50名学生成绩的平均分小于中位数,故选项C正确;
D项,极差为数据中最大值与最小值的差,
已知50名学生的成绩都在区间内,
但成绩的最大值不一定是100,最小值也不一定是,
故极差小于等于,但不一定等于50,故D错误.
故选:D.
7.(23-24高一下·江苏无锡·期末)已知一组数据满足 ,则下列说法正确的是( )
A.这组数据的40%分位数是
B.的平均数小于的平均数
C.的方差大于的方差
D.的极差小于的极差
【解题思路】根据百分位数、极差、平均数、方差的概念及含义计算分析可得.
【解答过程】对于A,,所以这组数据的40%分位数是,故A错误;
对于B,不妨取这组数据为1,2,3,4,5,
此时的平均数为3,的平均数均为3,故B错误;
对于C,由可知,数据比数据更分散,
所以的方差小于的方差,故C错误;
对于D,因为,所以,故D正确;
故选:D.
8.(23-24高二下·湖南·期末)某学校开展“国学知识竞赛”,共有“诗经组”,“论语组”,“春秋组”,“礼记组”4个小组参赛,每组10位选手,若该组每位选手的失分不超过6分,该组获得“优秀”称号,则根据每组选手的失分情况,下列小组一定获得“优秀”称号的是( )
A.诗经组中位数为3,众数为2
B.论语组平均数为3,方差为1
C.春秋组平均数为3,众数为2
D.礼记组中位数为3,极差为4
【解题思路】举出相应反例计算可得A、C、D错误,借助反证法及方差计算公式可得B.
【解答过程】对于A,数据为:时,满足中位数为3,众数为2,
但不满足每位选手的失分不超过6分,故A错误;
对于B,假设有一位同学失7分,则方差,与方差为1矛盾,
假设不成立,故B正确;
对于C,数据为:1,2,2,2,2,时,满足平均数为3,众数为2,
但是不满足每位选手失分不超过6分,故C错误;
对于D,数据为:,满足中位数为3,极差为4,
但最大值超过6分,故D错误.
故选:B.
二、多选题
9.(23-24高一下·四川乐山·期末)小刘一周的总开支分布如图①所示,该周的食品开支如图②所示,则以下说法正确的是( )
A.娱乐开支比通信开支多5元
B.日常开支比食品中的肉类开支多100元
C.娱乐开支金额为100元
D.肉类开支占储蓄开支的
【解题思路】先由图2计算出食品的开支,再由图1计算出总开支,从而对选项逐一分析即可得解.
【解答过程】对于C,由图2可知食品的开支为元,
由图1可知食品开支为,所以总开支为元,
则娱乐开支为元,故C正确;
对于A,通信开支为元,娱乐开支比通信开支多元,故A错误;
对于B,日常开支为元,肉类为元,
日常开支比肉类开支多元,故B正确;
对于D,储蓄开支为元,肉类开支占储蓄开支的,故D正确.
故选:BCD.
10.(23-24高一下·山东临沂·期末)若数据的平均数为2,方差为3,则( )
A.数据,,,的平均数为20 B.
C.数据,,,的标准差为 D.
【解题思路】根据给定条件,利用平均数,方差公式逐项计算即可求解.
【解答过程】对于A,由平均数公式,得数据,,…,的平均数为,A错误;
对于B,,B正确;
对于C,由方差公式,得数据,,…,的方差为,标准差为,C正确;
对于D,由,
得,即,
所以,D正确.
故选:BCD.
11.(23-24高一下·内蒙古通辽·阶段练习)酒后驾驶是严重危害交通安全的行为,某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续8天,每天查获的酒驾人数不超过10”,则认为“该地区酒驾治理达标”,根据连续8天检查所得数据的数字特征推断,酒驾治理不一定达标的地区是( )
A.甲地:均值为4,中位数为5
B.乙地:众数为3,中位数为2
C.丙地:均值为7,方差为2
D.丁地:极差为3,分位数为8
【解题思路】不妨设8天中,每天查获的酒驾人数从小到大分别为,且,其中,通过均值、中位数和方差的公式、众数、极差和百分位数定义运算判断各个选项;
【解答过程】不妨设8天中,每天查获的酒驾人数从小到大分别为,且,其中
对于A,若不达标,则,因为中位数为5,所以,又因为均值为4,
故,从而,且,
则满足题意,从而甲地有可能不达标;
对于B,由众数和中位数的定义易知,当时,乙地不达标;
对于C,若不达标,则,由均值为7可知,其余七个数中至少有一个数不等于7,
由方差定义可知,,这与方差为2矛盾,从而丙地一定达标;
对于D,由极差和百分位数的定义可知,当时,丁地不达标.
故选:ABD.
三、填空题
12.(24-25高一上·全国·课后作业)为了了解某校学生的体重情况,采用随机抽样的方法调查.将样本体重数据整理后,得到的频率分布直方图如图所示.已知图中从左到右前三个矩形面积之比为1∶2∶3,第二小组频数为12,则全校共抽取人数为 48 .
【解题思路】根据图以及前三组的频率之比可得第二组的频率,即可求解.
【解答过程】由图可知:第四,五小组的频率之和为,
所以前三组的频率和为,
故第二组的频率为,
故总人数为
故答案为:48.
13.(23-24高一下·四川成都·期末)将个数据按照从小到大的顺序排列如下:,若该组数据的分位数为22,则 .
【解题思路】根据百分位的计算求解即可.
【解答过程】因为,
所以分位数是第4、5个数据的平均数,
所以,解得.
故答案为:.
14.(2024高三·全国·专题练习)某学校高一年级在校人数为600人,其中男生320人,女生280人,为了解学生身高发展情况,按分层随机抽样的方法抽取50名男生身高为一个样本,其样本平均数为,抽取50名女生身高为一个样本,其样本平均数为,则该校高一学生的平均身高的估计值为 .
【解题思路】由题意可知,,且根据样本平均数,求解即可.
【解答过程】由题意可知,,且
所以样本平均数,
故该校高一学生的平均身高的估计值为.
故答案为:.
四、解答题
15.(23-24高一下·甘肃白银·期末)某选手在参加某次比赛中,各评委打出的分数为10,9,8,9,9,8,10,7,8,6.
(1)求该选手所有得分的平均数;
(2)若该选手所有得分的分位数为9,求整数m的取值集合.
【解题思路】(1)根据平均数的定义进行求解,得出答案;
(2)先从小到大排序,再根据百分位数定义,分,,,,,和等情况进行求解即可.
【解答过程】(1)该选手平均分为:;
(2)将所得分数从小到大排列为:6,7,8,8,8,9,9,9,10,10,共10个数,
9在第6,7,8三个位置上,
当时,,选择第6个数作为分位数,满足要求,
若,则,选择第6个和第7个数的平均数作为分位数,满足要求,
当时,,选择第7个数作为分位数,满足要求,
若,则,选择第7个和第8个数的平均数作为分位数,满足要求,
当时,,选择第8个数作为分位数,满足要求,
当或时,经检验,不合要求,
综上,整数m的取值集合为.
16.(23-24高一下·广西崇左·期末)从某小区抽取100户居民用户进行月用电量调查,发现他们的用电量都在之间.进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1)求直方图中的值;
(2)求在被调查的用户中,用电量落在内的户数.
【解题思路】(1)由各组的频率和为1列方程可求出的值;
(2)用100乘以的频率即可
【解答过程】(1)因为,
所以.
(2)由频率分布直方图,可得用电量落在内的户数为
.
17.(23-24高一下·全国·课后作业)在神舟十五号载人飞行任务取得了圆满成功的背景下.某学校高一年级利用高考放假期间组织1200名学生参加线上航天知识竞赛活动,现从中抽取200名学生,记录他们的首轮竞赛成绩并作出如图所示的频率分布直方图,根据图形,请回答下列问题:
(1)若从成绩不高于60分的同学中按分层抽样方法抽取10人,求10人中成绩不高于50分的人数;
(2)求的值,并以样本估计总体,估计该校学生首轮竞赛成绩的平均数以及中位数.
【解题思路】(1)先分别求出的频率,进而由10乘以抽样比可求答案;
(2)根据频率的性质,利用各小长方形的面积和等于1可求;利用各组中值与频率可估计平均数;先确定中位数所在的小长方形,再设中位数为,进而利用面积等于0.5即可求解.
【解答过程】(1)从图中可知组距为,则的频率分别为,
从成绩不高于60分的同学中按分层抽样方法抽取10人时,
成绩不高于50分的人数为(人).
(2)由图可知,解得.
使用组中值与频率可估计平均数为
.
因为且,
所以中位数在内,
设估计的中位数为,则,得.
18.(23-24高一下·北京通州·期中)甲、乙、丙三人进行5轮的投篮比赛,每轮各投10次,其成绩(命中次数)如下:
甲投中次数
6
6
8
7
8
乙投中次数
6
5
4
6
丙投中次数
(1)若乙比甲平均少投中2次,求的值,甲和乙投中次数的方差分别为和,试比较和大小(结论不要求证明);
(2)若投中一球计三分,丙平均得分为21分,方差为27,且每轮得分互不相同,求丙在比赛中的最高得分,并说明理由.
【解题思路】(1)利用平均数求得值,再利用方差的定义计算即得.
(2)根据给定条件,转化为投中次数的平均数和方差,列式换元,构造函数并利用二次函数的性质推理计算得解.
【解答过程】(1)由乙比甲平均少投中2次,得,所以,
甲投中次数的平均数为7,乙投中次数的平均数为5,
则,,
所以.
(2)因投中一球计三分,丙的平均得分为21,方差为27,
等价于丙平均投中7次,方差为3,不妨设,
则,,
设分别为,
于是,设
,
由恒成立,得判别式,即,
解得,且,因此的最大值为3,
则最大为3+7=10,所以丙在一轮比赛中的最高得分为30.
19.(23-24高一下·吉林长春·期末)近年来,“直播带货”受到越来越多人的喜爱,目前已经成为推动消费的一种流行营销形式,某直播平台有1000个直播商家,对其进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图①所示,为了更好地服务买卖双方,该直播平台打算用分层抽样的方式抽取80个直播商家进行问询交流.
(1)应抽取小吃类商家多少家?
(2)在问询了解直播商家的利润状况时,工作人员对抽取的80个商家的平均日利润进行了统计(单位:元),所得频率直方图如图②所示.
①估计该直播平台商家平均日利润的第75百分位数;
②若将平均日利润超过480元的商家称为“优质商家”,估计该直播平台“优质商家”的个数.
【解题思路】(1)根据分层抽样的定义结合图①求解即可;
(2)①先根据频率和为1求出,然后列方程求解第75百分位数,②根据频率分布直方图求出平均均日利润超过480元的频率,然后乘以1000可得答案.
【解答过程】(1)根据分层抽样知:应抽取小吃类家;
(2)①根据题意可得,解得,
设75百分位数为x,
因为,,
所以,解得,
所以该直播平台商家平均日利润的75百分位数为487.5元.
②,
所以估计该直播平台“优秀商家”的个数为280.
第 1 页 共 28 页
学科网(北京)股份有限公司
$$
第13讲 用样本估计总体
【人教A版2019】
模块一
总体取值规律的估计
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初
中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图
折线图
扇形图
特
点
一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的.
用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化.
用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景
能清楚地表示每个项目的具体数量,便于相互比较大小.
能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中.
可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
【题型1 绘制、补全频率分布直方图】
【例1.1】(2024高一下·全国·专题练习)如表所示给出了在某校500名12岁男孩中,用随机抽样得出的120人的身高(单位:cm).
区间界限
人数
5
8
10
22
33
20
11
6
5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134 cm的人数占总人数的百分比.
【例1.2】(2024高一下·全国·专题练习)随机观测生产某种零件的某工厂25名工人的日加工零件数,获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36,根据上述数据得到样本的频率分布表如下:
分组
频数
3
5
8
频率
0.12
0.20
0.32
(1)确定样本频率分布表中,,和的值;
(2)根据上述频率分布表,画出样本频率分布直方图与折线图.
【变式1.1】(23-24高一下·陕西西安·阶段练习)某地有2000名学生参加数学学业水平考试,现将成绩汇总,得到如图所示的频率分布表.
成绩分组
频数频率
成绩分组
100
800
200
(1)请完成题目中的频率分布表,并补全题目中的频率分布直方图;
(2)将成绩按分层抽样的方法抽取150名同学进行问卷调查,甲同学在本次测试中数学成绩为95分,求他被抽中的概率.
【变式1.2】(24-25高一下·陕西西安·阶段练习)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:
组号
分组
频数
频率
第1组
0.100
第2组
①______
第3组
20
②______
第4组
20
0.200
第5组
10
0.100
合计
100
1.00
(1)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).
(2)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,则第3,4,5组每组各抽取多少名选手进入第二轮面试?
【题型2 频率分布直方图的相关计算】
【例2.1】(23-24高三上·天津南开·期末)某研究机构为了解某地年轻人的阅读情况,通过随机抽样调查了100位年轻人,对这些人每天的阅读时间(单位:分钟)进行统计,得到样本的频率分布直方图如图所示,则的值为( )
A.0.02 B.0.2 C.0.04 D.0.4
【例2.2】(23-24高一下·北京朝阳·期末)李华统计了他爸爸2024年5月的手机通话明细清单,发现他爸爸该月共通话60次,他按每次通话时间长短进行分组(每组为左闭右开的区间),画出了如图所示的频率分布直方图.则每次通话时长不低于5分钟且小于15分钟的次数为( )
A.18 B.21 C.24 D.27
【变式2.1】(23-24高一下·江苏连云港·期末)根据《中华人民共和国道路交通安全法》规定:血液酒精浓度在80mg/100ml(含80)以上时,属醉酒驾车,处十五日以下拘留和三个月以上六个月以下暂扣驾驶证,并处500元以上2000元以下罚款.2024年3月以来,某地区交警查处酒后驾车和醉酒驾车共20人.如图,这是对这20人酒后驾车血液中酒精含量进行检测所得结果的频率直方图,则属于醉酒驾车的人数约为( )
A.1 B.2 C.3 D.4
【变式2.2】(2024高一下·全国·专题练习)如图是60名学生参加数学竞赛的成绩(均为整数,满分100分)的频率分布直方图,估计这次数学竞赛的及格率(60分及以上为及格)是( )
A.75% B.25%
C.15% D.40%
【题型3 统计图的综合应用问题】
【例3.1】(23-24高一下·贵州黔东南·期末)小波一星期的总开支(单位:元)分布如图1所示,一星期的食品开支(单位:元)分布如图2所示,则小波一星期的肉类开支占总开支的百分比为( )
A. B. C. D.
【例3.2】(2024·甘肃·一模)小李一周的总开支分布如图(1)所示,其中一周的食品开支如图(2)所示,则以下判断错误的是( )
A.小李这一周用于肉蛋奶的支出高于用于娱乐的支出
B.小李这一周用于食品中其他类的支出在总支出中是最少的
C.小李这一周用于主食的支出比用于通信的支出高
D.小李这一周用于主食和蔬菜的总支出比日常支出高
【变式3.1】(23-24高三下·内蒙古锡林郭勒盟·开学考试)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是( )
A.2023年“种植收入”和2022年“种植收入”一样多
B.2023 年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多
C.2023年“外出务工收入”是2022年“外出务工收入”的
D.2023年“其他收入”比2022年“其他收入”的2倍还多
【变式3.2】(23-24高一下·湖南·阶段练习)如图为近一年我国商品零售总额和餐饮收入总额同比增速情况折线图,根据该图,下列结论正确的是( )
(注:同比,指当前的数据与上一年同期进行比对;环比,指当前数据与上个月的数据进行比对.)
A.2024年月份,商品零售总额同比增长
B.2023年月份,餐饮收入总额同比都降低
C.2023年月份,商品零售总额同比都增加
D.2023年12月,餐饮收入总额环比增速为
模块二
总体百分位数的估计
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个
值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第(i+1)项数据的平均数.
【题型4 百分位数的求解】
【例4.1】(23-24高一下·河北沧州·阶段练习)已知一组数据:55,64,92,76,88,67,76,90,则这组数据的第百分位数是( )
A.90 B.88 C.82 D.76
【例4.2】(23-24高三下·河南·阶段练习)高二年级进行消防知识竞赛,统计所有参赛同学的成绩,成绩都在内,估计所有参赛同学成绩的第75百分位数为( )
A. B. C. D.
【变式4.1】(23-24高一下·江苏无锡·阶段练习)从小到大排列的数据1,2,3,5,6,7,8,9,10,14,15,18的下四分位数为( )
A.3 B.4 C.10 D.12
【变式4.2】(23-24高一下·江苏苏州·期末)某科研单位对ChatGPT的使用情况进行满意度调查,在一批用户的有效问卷(用户打分在50分到100分之间的问卷)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,估计这批用户问卷的得分的第百分位数为( )
A.78.5 B.82.5 C.85 D.87.5
模块三
总体集中趋势与离散程度的估计
1.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度
刻画了一组数据的集中趋势.具体概念回顾如下:
名称
概念
平
均
数
如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中
位
数
将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众
数
一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
2.总体离散程度的估计
(1)方差和标准差
假设一组数据是,,,,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差
.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中出
现的频数为,则总体方差为.
总体标准差:S=.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则
标准差为0.反之,标准差为0的样本,其中的数据都相等.
3.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【题型5 众数、中位数、平均数的求解及应用】
【例5.1】(24-25高一上·四川南充·开学考试)“杂交水稻之父”袁隆平培育的超级杂交稻在全世界推广种植.某种植户为了考察所种植的杂交水稻苗的长势,从稻田中随机抽取7株水稻苗,测得苗高(单位:)分别是23,24,23,25,26,23,25.则这组数据的众数和中位数分别是( )
A.24,25 B.23,23
C.23,24 D.24,24
【例5.2】(23-24高一下·新疆·期末)已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是( )
A.86,84 B.84.5,85 C.85,84 D.86.5,84
【变式5.1】(23-24高一下·陕西安康·期末)某科技攻关青年团队共有18人,他们的年龄分布如下表所示:
年龄
45
40
36
32
30
28
26
人数
3
2
3
4
2
3
1
下列说法正确的是( )
A.29是这18人年龄的一个25%分位数 B.40是这18人年龄的一个80%分位数
C.34是这18人年龄的一个中位数 D.这18人年龄的众数是4
【变式5.2】(2024·浙江绍兴·三模)已知实数,若,且这四个数的中位数是3,则这四个数的平均数是( )
A. B.3 C. D.4
【题型6 方差、标准差的求解及应用】
【例6.1】(23-24高一下·湖北武汉·期末)已知一组样本数据,,…,()的方差为1.2,则,,⋯,的方差为( )
A.5 B.6 C.25 D.30
【例6.2】(23-24高一下·海南省直辖县级单位·期末)从两个班级各随机抽取5名学生测量身高(单位:),甲班的数据为169,162,150,160,159,乙班的数据为180,160,150,150,165.据此估计甲、乙两班学生的平均身高,及方差,的关系为( )
A., B.,
C., D.,
【变式6.1】(23-24高一下·广东深圳·阶段练习)已知数据的平均数为10,方差为10,则的平均数和方差分别为( )
A.30,91 B.31,91 C.30,90 D.31,90
【变式6.2】(23-24高一下·湖南长沙·期末)已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为,方差为,则( )
A. B.
C. D.
【题型7 频率分布直方图中集中趋势参数的计算】
【例7.1】(23-24高一下·河北张家口·期末)某时间段公路上车速的频率分布直方图如图所示,则( )
A. B.车速的众数估计值是70
C.车速的平均数估计值大于其中位数的估计值 D.车速的中位数估计值是62.5
【例7.2】(23-24高一下·四川达州·期末)在某次考试成绩中随机抽取50个,成绩均在之间,将这些成绩共分成五组:,,,,,得到如图所示的频率分布直方图,由图中数据估计总体的众数和中位数(中位数精确到个位)分别是( ).
A.65,70 B.65,71 C.65,72 D.65,73
【变式7.1】(24-25高二上·湖南株洲·阶段练习)某公司为了了解本公司职员的早餐费用情况,抽样调查了100位职员的早餐日平均费用(单位:元),得到如下图所示的频率分布直方图,图中标注的数字模糊不清.
(1)试根据频率分布直方图求的值,并估计该公司职员早餐日平均费用的众数和平均数;
(2)已知该公司有1000名职员,试估计该公司有多少职员早餐日平均费用不少于8元?
【变式7.2】(23-24高一下·江苏南京·期末)从全校学生的期末考试成绩(均为整数)中随机抽取一个样本,将样本分成5组,绘成频率分布直方图,如图中从左到右各小组的小矩形的高之比为,最左边的一组频数是6.
(1)求样本容量;
(2)求这一组的频数及频率;
(3)估计这组样本数据的众数和中位数.
【题型8 其他统计图表中反映的集中趋势与离散程度】
【例8.1】(23-24高一下·吉林长春·期末)近年来,“直播带货”受到越来越多人的喜爱.目前已经成为推动消费的一种流行的营销形式.对某直播平台的直播商家进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图①所示.
(1)该直播平台为了更好地服务买卖双方,打算随机抽取80个直播商家进行问询交流.如果按照比例分配分层抽样的方式抽取,则应抽取小吃类、玩具类商家各多少家?
(2)在问询了解直播商家的利润状况时,工作人员对抽取的80个商家的平均日利润进行了统计(单位:元),所得频率分布直方图如图②所示.请根据频率分布直方图,求出图中a的值,并估计该直播平台商家日利润的平均数(求平均数时同一组中的数据用该组区间的中点值作代表).
【例8.2】(23-24高一下·江苏徐州·期末)近年来,“直播带货”受到越来越多人的喜爱,目前已经成为推动消费的一种流行营销形式.某直播平台有800个直播商家,对其进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图①所示.为了更好地服务买卖双方,该直播平台打算用分层抽样的方式抽取60个直播商家进行问询交流.
(1)应抽取小吃类、生鲜类商家各多少家?
(2)在问询了解直播商家的利润状况时,工作人员对抽取的60个商家的平均日利润进行了统计(单位:元),所得频率直方图如图②所示.
(i)估计该直播平台商家平均日利润的中位数与平均数(求平均数时同一组中的数据用该组区间中点的数值为代表);
(ii)若将平均日利润超过470元的商家称为“优质商家”,估计该直播平台“优质商家”的个数.
【变式8.1】(23-24高一下·河南·阶段练习)已知第10~19届亚运会中国队获得的金牌数如下图所示.
(1)求第届亚运会中国队获得的金牌数的极差;
(2)剔除第届亚运会中国队获得的金牌数数据,求剩余9届亚运会中国队获得的金牌数的平均数;
(3)设第届亚运会中国队获得的金牌数的方差为,第届亚运会中国队获得的金牌数的方差为,不通过计算,试比较与的大小,并说明理由.
【变式8.2】(23-24高一下·河南信阳·期中)树人中学男女学生比例约为,某数学兴趣社团为了解该校学生课外体育锻炼情况(锻炼时间长短(单位:小时)),采用样本量比例分配的分层抽样,抽取男生人,女生人进行调查.记男生样本为,样本平均数、方差分别为;女生样本为,样本平均数、方差分别为;总样本平均数、方差分别为.
(1)该兴趣社团通过分析给出以上两个统计图,假设两个统计图中每个组内的数据均匀分布,根据两图信息分别估计男生样本、女生样本的平均数;
(2)已知男生样本方差,女生样本方差,请结合(2)问的结果计算总样本方差的估计值.
一、单选题
1.(24-25高一下·甘肃兰州·阶段练习)已知一组数据3,4,5,6,7,8,9,10,则这组数据的第20百分位数是( )
A. B.4 C. D.5
2.(24-25高一下·贵州遵义·阶段练习)已知一组数,,,的平均数是3,方差为4,则数据,,,的平均数和方差分别是( )
A.7,8 B.7,16 C.6,8 D.6,16
3.(23-24高一下·山西大同·期末)某部门为了了解一批树苗的生长情况,在4000棵树苗中随机抽取400棵,统计这400棵树苗的高度(单位:),将所得数据分成7组:,,,,,,,并绘制了如图所示的频率分布直方图,那么根据该图可推测,在这4000棵树苗中高度小于的树苗棵数约是( )
A.1680 B.1760 C.1840 D.1920
4.(23-24高一下·四川内江·期末)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄的分布饼状图、90后从事互联网行业者的岗位分布条形图,则下列结论中不一定正确的是( )
A.互联网行业从事技术岗位的人数中,90后比80后多
B.90后互联网行业者中从事技术岗位的人数超过整个从事互联网行业者总人数的
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业从业人员中90后占一半以上
5.(24-25高一上·四川成都·开学考试)如表是某公司员工月收入的资料.
月收入/元
45000
18000
10000
5500
5000
3400
3300
1000
人数
1
1
1
3
6
1
11
1
能够反映该公司全体员工月收入水平的统计量是( )
A.平均数和众数 B.平均数和中位数
C.中位数和众数 D.平均数和方差
6.(24-25高三上·广西南宁·开学考试)某校组织50名学生参加庆祝中华人民共和国成立75周年知识竞赛,经统计这50名学生的成绩都在区间内,按分数分成5组:,,,,,得到如图所示的频率分布直方图(不完整),根据图中数据,下列结论错误的是( )
A.成绩在上的人数最多
B.成绩不低于70分的学生所占比例为
C.50名学生成绩的平均分小于中位数
D.50名学生成绩的极差为50
7.(23-24高一下·江苏无锡·期末)已知一组数据满足 ,则下列说法正确的是( )
A.这组数据的40%分位数是
B.的平均数小于的平均数
C.的方差大于的方差
D.的极差小于的极差
8.(23-24高二下·湖南·期末)某学校开展“国学知识竞赛”,共有“诗经组”,“论语组”,“春秋组”,“礼记组”4个小组参赛,每组10位选手,若该组每位选手的失分不超过6分,该组获得“优秀”称号,则根据每组选手的失分情况,下列小组一定获得“优秀”称号的是( )
A.诗经组中位数为3,众数为2
B.论语组平均数为3,方差为1
C.春秋组平均数为3,众数为2
D.礼记组中位数为3,极差为4
二、多选题
9.(23-24高一下·四川乐山·期末)小刘一周的总开支分布如图①所示,该周的食品开支如图②所示,则以下说法正确的是( )
A.娱乐开支比通信开支多5元
B.日常开支比食品中的肉类开支多100元
C.娱乐开支金额为100元
D.肉类开支占储蓄开支的
10.(23-24高一下·山东临沂·期末)若数据的平均数为2,方差为3,则( )
A.数据,,,的平均数为20 B.
C.数据,,,的标准差为 D.
11.(23-24高一下·内蒙古通辽·阶段练习)酒后驾驶是严重危害交通安全的行为,某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续8天,每天查获的酒驾人数不超过10”,则认为“该地区酒驾治理达标”,根据连续8天检查所得数据的数字特征推断,酒驾治理不一定达标的地区是( )
A.甲地:均值为4,中位数为5
B.乙地:众数为3,中位数为2
C.丙地:均值为7,方差为2
D.丁地:极差为3,分位数为8
三、填空题
12.(24-25高一上·全国·课后作业)为了了解某校学生的体重情况,采用随机抽样的方法调查.将样本体重数据整理后,得到的频率分布直方图如图所示.已知图中从左到右前三个矩形面积之比为1∶2∶3,第二小组频数为12,则全校共抽取人数为 .
13.(23-24高一下·四川成都·期末)将个数据按照从小到大的顺序排列如下:,若该组数据的分位数为22,则 .
14.(2024高三·全国·专题练习)某学校高一年级在校人数为600人,其中男生320人,女生280人,为了解学生身高发展情况,按分层随机抽样的方法抽取50名男生身高为一个样本,其样本平均数为,抽取50名女生身高为一个样本,其样本平均数为,则该校高一学生的平均身高的估计值为 .
四、解答题
15.(23-24高一下·甘肃白银·期末)某选手在参加某次比赛中,各评委打出的分数为10,9,8,9,9,8,10,7,8,6.
(1)求该选手所有得分的平均数;
(2)若该选手所有得分的分位数为9,求整数m的取值集合.
16.(23-24高一下·广西崇左·期末)从某小区抽取100户居民用户进行月用电量调查,发现他们的用电量都在之间.进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1)求直方图中的值;
(2)求在被调查的用户中,用电量落在内的户数.
17.(23-24高一下·全国·课后作业)在神舟十五号载人飞行任务取得了圆满成功的背景下.某学校高一年级利用高考放假期间组织1200名学生参加线上航天知识竞赛活动,现从中抽取200名学生,记录他们的首轮竞赛成绩并作出如图所示的频率分布直方图,根据图形,请回答下列问题:
(1)若从成绩不高于60分的同学中按分层抽样方法抽取10人,求10人中成绩不高于50分的人数;
(2)求的值,并以样本估计总体,估计该校学生首轮竞赛成绩的平均数以及中位数.
18.(23-24高一下·北京通州·期中)甲、乙、丙三人进行5轮的投篮比赛,每轮各投10次,其成绩(命中次数)如下:
甲投中次数
6
6
8
7
8
乙投中次数
6
5
4
6
丙投中次数
(1)若乙比甲平均少投中2次,求的值,甲和乙投中次数的方差分别为和,试比较和大小(结论不要求证明);
(2)若投中一球计三分,丙平均得分为21分,方差为27,且每轮得分互不相同,求丙在比赛中的最高得分,并说明理由.
19.(23-24高一下·吉林长春·期末)近年来,“直播带货”受到越来越多人的喜爱,目前已经成为推动消费的一种流行营销形式,某直播平台有1000个直播商家,对其进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图①所示,为了更好地服务买卖双方,该直播平台打算用分层抽样的方式抽取80个直播商家进行问询交流.
(1)应抽取小吃类商家多少家?
(2)在问询了解直播商家的利润状况时,工作人员对抽取的80个商家的平均日利润进行了统计(单位:元),所得频率直方图如图②所示.
①估计该直播平台商家平均日利润的第75百分位数;
②若将平均日利润超过480元的商家称为“优质商家”,估计该直播平台“优质商家”的个数.
第 1 页 共 28 页
学科网(北京)股份有限公司
$$