内容正文:
专题14.4 用样本估计总体
教学目标
1.结合实例,能用样本估计总体的集中趋势参数(平均数、众数、中位数),理解集中趋势参数的统计含义;能用样本估计总体的取值规律;能用样本估计百分位数,理解百分位数的统计含义;能根据频率分布表和频率直方图观测数据的分布规律.
2.正确理解样本数据的极差、方差和标准差的意义和作用,学会计算数据的极差、方差和标准差;了解几个特殊的百分位数。
3.在运用平均数、众数和中位数、极差、方差和标准差进行运算,对数据进行分析以及解决频率直方图相关问题的过程中,在学习和运用百分位数的过程中,把实际问题转化为数学问题,对数据进行处理和计算,发展数学运算和数据分析素养;在频率直方图的绘制与应用中,发展直观想象素养。
教学重难点
1.重点
利用样本数据计算平均数、众数和中位数;用样本的方差和标准差估计总体的方差和标准差;根据频率分布表和频率直方图观测数据的分布规律;计算样本的百分位数.
2.难点
根据实际情况合理选择数据“代表值;能运用相关知识解决简单的实际问题;用样本的频率直方图对总体分布进行估计;用百分位数估计个体在总体中的水平。
知识点01 用样本估计总体的集中趋势参数
1.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
名称
概念
平均数
如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中位数
一般地,将一组数据按照从小到大的顺序排成一列,如果数据的个数为奇数,那么排在正中间的数据就是这组数据的中位数;如果数据的个数为偶数,那么,排在正中间的两个数据的平均数即为这组数据的中位数.
众数
一般地,我们将一组数据中出现次数最多的那个数据叫作该组数据的众数.众数是一种刻画数据集中趋势的度量值.
【即学即练】
1.数据的平均数为5,则的平均数为( )
A.15 B.13 C.11 D.9
【答案】D
【分析】利用平均数的定义,先求得的和,即可求解.
【解析】因为数据的平均数为5,
所以的和为,
所以的平均数为,
故选:D.
2.某校举行校园歌手大赛,6位评委对某选手的评分分别为9.2,9.5,8.8,9.9,8.9,9.5,设该选手得分的平均数为x,中位数为y,众数为z,则( )
A. B. C. D.
【答案】A
【分析】根据平均数,中位数,众数的概念,分别求出,即可求出结果.
【解析】由题意可得,,,,
则.
故选:A.
知识点02 用样本估计总体的离散程度参数
1.总体离散程度的估计
(1)极差
我们把一组数据的最大值与最小值的差称为极差.
(2)方差和标准差
假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(3)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差
.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中Yi出
现的频数为fi(i=1,2,…,k),则总体方差为.
总体标准差:.
(4)标准差与方差的统计意义:
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则标准差为0.反之,标准差为0的样本,其中的数据都相等.
【注意】
1.数据x1,x2,…,xn与数据的方差相等,即数据经过平移后方差不变.
2.若x1,x2,…,xn的方差为s2,那么的方差为a2s2.
【即学即练】
1.某班成立了A、B两个数学兴趣小组,A组10人,B组30人,经过一周的补习后进行了一次测试,在该测试中,A组平均成绩为130分,方差为115,B组平均成绩为110分,方差为215,则在这次测试中,全班学生的平均成绩和方差为( )
A.120分, 105 B.120分, 265 C.115分, 105 D.115分, 265
【答案】D
【分析】先利用加权平均数公式求出全班学生的平均成绩,再利用混合模型的方差公式计算即得.
【解析】依题意,A组10人,B组30人,A组平均成绩为130分,方差为115,B组平均成绩为110分,方差为215.
则全班学生的平均成绩为:,
其方差为:.
故选:D.
2.现有甲、乙两组数据,每组数据均由六个数组成,其中甲组数据的平均数为,方差为,乙组数据的平均数为,方差为.若将这两组数据混合成一组,则新的一组数据的方差为__________
【答案】5
【分析】利用平均数和方差公式可求得新数据的方差.
【解析】设甲组数据分别为、、、,乙组数据分别为、、、,
甲组数据的平均数为,可得,方差为,可得,
乙组数据的平均数为,可得,方差为,可得,
混合后,新数据的平均数为,
方差为
.
故答案为:5.
知识点03 用频率直方图估计总体分布
1.频率分布直方图的数字特征
(1)众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,最高小长方形的底边中点的横坐标;
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;
(3)平均数:平均数在频率分布表中等于组中值与对应频率之积的和.
2.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一
般用中点近似代替.
(2) 频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【即学即练】
1.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布如图所示:
令,分别表示甲、乙射中环数的均值;,分别表示甲、乙射中环数的方差,则( )
A., B.,
C., D.,
【答案】D
【分析】根据频率分布图分别计算,,比较大小可得.
【解析】由图可知,
,
,
所以,.
故选:D.
2.某校抽取100名高二学生期中考试的语文成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为:,,…,,.
(1)求频率分布直方图中a的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的中位数和平均数.(保留小数点后1位)
【答案】(1)
(2)中位数为:;平均数为:
【分析】(1)根据给定的频率分布直方图,利用各小矩形面积和为1求出值.
(2)利用频率分布直方图估计中位数和平均数.
【解析】(1)由频率分布直方图,得,
所以.
(2)由频率分布直方图,样本数据在的频率为,在的频率为,
因此语文成绩的中位数,则,则,
这100名学生语文成绩的平均数为:
.
知识点04 总体百分位数的估计
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2) 求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【即学即练】
1.某班级的老师随机抽查了该班8名同学周末在家学习的时长(单位:h),所得数据如下:3,4,4,5,6,6,7,8,则这组数据的75%分位数为( )
A.6.5 B.6 C.5.5 D.5
【答案】A
【分析】根据百分位数的计算公式即可求解。
【解析】,故这组数据的75%分位数为,
故选:A.
2.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率直方图如图所示,你能估计一下60株树木的50百分位数和75百分位数吗?
【答案】50百分位数和75百分位数分别为,
【分析】先由频率分布直方图求出各组的频数,从而可判断出第50百分位数一定落在区间上,第75百分位数一定落在区间上,进而可求得结果
【解析】解:由题意可得分别落在各个区间上的频数为
在上有;在上有;
在上有;在上有;
在上有,
从以上数据可知第50百分位数一定落在区间上,
由,
第75百分位数一定落在区间上,
则,
综上可知50百分位数和75百分位数分别为,
题型01 众数、中位数、平均数的计算及其应用
【典例1】数据86,82,78,93,86,84,81,90,85,79,86,85,88,81,87的众数和中位数分别为( )
A.85,86 B.85,85 C.86,85 D.86,86
【答案】C
【分析】将数据按从小到大排序,根据众数和中位数的定义即可求解.
【解析】数据86,82,78,93,86,84,81,90,85,79,86,85,88,81,87从小到大排序可得:78,79,81,81,82,84,85,85,86,86,86,87,88,90,93,
所以该组数据的众数为86,中位数为.
故选:C.
1.众数、中位数、平均数的计算方法
(1)众数是出现次数最多的数;
(2)计算中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据相关数据的总数是奇数还是偶数而定;
(3)平均数一般是根据公式来计算.
2.众数、中位数、平均数的意义
(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大或较小时,可用中位数描述其集中趋势.
【变式1】已知高一三班的某次数学测试中,某学习小组的成绩如下:70,75,94,85,85,90,86,90,85,100,则该小组成绩的平均数、众数、中位数的大小关系是( )
A.众数=中位数<平均数 B.众数<中位数<平均数
C.众数<平均数<中位数 D.众数=平均数<中位数
【答案】B
【分析】根据众数、中位数、平均数的概念,求出相应的这三个数,比较大小,即得答案.
【解析】学习小组的成绩从小到大排列如下:70,75,85,85,85,86,90,90,94,100,
众数为85;中位数为,
平均数为,
故众数<中位数<平均数,
故选:B.
【变式2】在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为1,众数为0
C.丙地:中位数为2,众数为3 D.丁地:总体均值为1,中位数为1
【答案】D
【分析】利用平均数、中位数、众数的定义及计算公式,对四个选项逐一分析判断即可.
【解析】解:对A:∵平均数和中位数不能限制某一天的病例超过7人,如0,0,0,0,4,4,4,4,6,8,
∴A不正确;
对B:∵平均数和众数不能限制某一天的病例超过7人,如0,0,0,0,0,0,0,0,0,10,
∴B不正确;
对C:∵中位数和众数不能限制某一天的病例超过7人,如0,0,0,0,2,2,3,3,3,8,
∴C不正确;
对D:假设过去10天新增疑似病例数据存在一个数据x,x≥8,而总体平均数为1,则过去10天新增疑似病例数据中至少有7个0,故中位数不可能为1,
所以假设不成立,故符合没有发生大规模群体感染的标志,
∴D正确;
故选:D.
【变式3】已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是( )
A.86,84 B.84.5,85 C.85,84 D.86.5,84
【答案】D
【分析】根据平均数和众数的概念求解.
【解析】将样本数据按升序排列为79,84,84,84,86,87,93,95,可得平均数,
因为84出现了三次,且次数最多,所以众数为84.
故选:D
【变式4】已知是这九个数据的中位数,且这五个数据的平均数为3,则的取值范围为__________
【答案】
【分析】由题知,,进而根据函数的单调性求值域即可.
【解析】解:因为是这九个数据的中位数,所以,
因为这五个数据的平均数为3,
所以,即,
所以,,,
因为函数在上均为减函数,
所以,,为单调递减函数,
因为
所以的取值范围为.
故答案为:
【变式5】据报道,某公司的33名职工的月工资(以元为单位)如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5 500
5 000
3 500
3 000
2 500
2 000
1 500
(1)求该公司职工月工资的平均数、中位数、众数;
(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是什么?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
【答案】(1)2091,1500,1500 (2)3288,1500,1500(3)中位数或众数均能反映该公司员工的工资水平
【解析】试题分析:(1)将33个人的工资相加除以33,即可得公司职工月工资的平均数,将这些数从小到大排列,位于中间的数即为中位数,出现次数最多的数即为众数;(2)同(1)的算法;(3)显然平均数不能反映这个公司员工的工资水平,用中位数或众数均能反应该公司员工的工资水平
试题解析:(1)平均数是
(元)
中位数是1 500元,众数是1500元.
(2)平均数是
(元)
中位数是1 500元,众数是1500元.
(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平.因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.
题型02 方差、标准差的求解及其应用
【典例1】已知一组样本数据16,,14,15,13的平均数为15,则该组样本数据的方差为__________
【答案】2
【分析】根据样本数据的平均数和方差公式计算即可.
【解析】因为该组样本数据的平均数为15,所以,解得,
则该组样本数据的方差为,
故答案为:2
1.求样本的标准差与方差的步骤:
(1)求出样本数据的平均数;
(2)求出每个样本数据与样本平均数的差xi-(i=1,2,…,n);
(3)求出xi-(i=1,2,…,n)的平方值;
(4)求出上一步中n个平方值的平均数,即为样本方差;
(5)求出上一步中平均数的算术平方根,即为样本标准差.
2.分层随机抽样的方差:
(1).设样本中不同层的平均数分别为1,2,…,n,方差分别为s,s,…,s,
相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[s+(i-)2](为样本的平均数).
(2).特别地,在比例分配的分层随机抽样中,可以直接用总样本方差估计总体方差.
(3).在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度.
(4).在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差,方差越小,离散程度越小,数据越集中,越稳定.
【变式1】若样本数据、、、的方差为,则数据、、、的方差为( )
A. B. C. D.
【答案】D
【分析】设数据、、、的平均数为,计算出数据、、、的平均数,利用方差公式可求得结果;或直接利用方差性质即可得出结论.
【解析】解法一:设,由题意可得,
数据、、、的平均数为,
因此,数据、、、的方差为.
解法二:由,根据方差的性质得.
故选:D.
【变式2】把某班五名学生在一周内阅读数学竞赛书籍的时间1,2,3,4,5(单位:小时)作为一组样本数据,现增加统计两位学生,他们一周内阅读数学竞赛书籍的时间分别为正整数m、n(单位:小时),与原有样本数据一起构成一组新样本数据,与原组样本数据比较,下列说法正确的是( )
A.若,则方差不变 B.若极差不变,则
C.若,则中位数变大 D.若平均数不变,则
【答案】D
【分析】举例说明,ABC错误,求出原数据与新数据的平均数,可判断D是否正确.
【解析】原数据的平均数为:,
原数据的方差为: .
对A:若,则满足,
此时所得新数据的平均数为:,
方差为: ,方差变小,故A错误;
对B:若极差不变,由可能是,,……,不一定要,故B错误;
对C:若,如,则新数据的中位数是3,
因为原数据的中位数也是3,没变,故C错误;
对D:新数据的平均数为:,
由 ,故D正确.
故选:D.
【变式3】将每个数均加上9,得到,则两组数数字特征不同的是( )
A.平均数 B.方差
C.极差 D.众数的个数
【答案】A
【分析】利用平均数、方差、极差、众数的意义判断即得.
【解析】依题意,,的平均数,
因此两组数的平均数不同,A是;
,的方差,
因此两组数的方差相同,B不是;
由于数据中的最大与最小,同加9后,在数据中对应的数仍是最大与最小,
因此两组数的极差相同,C不是;
显然数据中出现次数最多的数,同加9后,在数据中对应的数出现次数最多,
因此两组数的众数的个数不变,D不是.
故选:A
【变式4】湖州地区甲、乙、丙三所学科基地学校的数学强基小组人数之比为,三所学校共有数学强基学生48人,在一次统一考试中,所有学生的成绩平均分为117,方差为21.5.已知甲、乙两所学校的数学强基小组学生的平均分分别为118和114,方差分别为15和21,则丙学校的学生成绩的方差是 .
【答案】12
【分析】计算各校人数,标记平均值和方差,确定,,计算得到答案.
【解析】甲、乙、丙三所学科基地学校的数学强基小组人数之比为,
三所学校共有数学强基学生48人,
甲校的数学强基小组人数24;
乙校的数学强基小组人数为16;
丙校的数学强基小组人数8,
把甲校的数学强基小组学生的平均分记为,方差记为;
把乙校的数学强基小组学生的平均分记为,方差记为;
把丙校的数学强基小组学生的平均分记为,方差记为;
把所有学生的平均分记为,方差记为.
根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,
可得,即,解得,
,
即
,
解得.
故答案为:12.
题型03 利用频率分布直方图计算众数、中位数、平均数
【典例1】(多选)学校为了解全校1800名学生的身体肥胖情况,随机抽取了100名学生的体检数据,将其BMI值分成以下五组:,,,,,得到相应的频率分布直方图,如图所示.则下列说法正确的是( )
A.
B.估计样本的中位数为23
C.估计样本的众数为22
D.估计全校学生BMI值落在区间的人数为36人
【答案】ABC
【分析】对A,根据频率和为1求解即可;对B,根据成绩低于中位数的频率为0.5计算即可;对C,根据频率分布直方图的众数判断即可;对D,计算区间的频率,进而可得人数.
【解析】对A,由题意,,解得,故A正确;
对B,区间的频率分别为,
因为,,故中位数位于内.
设中位数为,则,解得,故B正确;
对C,由直方图可得估计这组数据的众数为,故C正确;
对D,由直方图可得的频率为,
故估计全校学生BMI值落在区间的人数为,故D错误.
故选:D.
用频率分布直方图估计样本众数、中位数、平均数:
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
【变式1】众数、平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据的分布形态有关.根据某小区1000户居民的月均用水量数据(单位:),得到如图所示的频率分布直方图,记该组数据的众数为,中位数为,平均数为,则( )
A. B.
C. D.
【答案】D
【分析】由频率分布直方图结合中位数以及众数的计算即可比较大小.
【解析】观察频率分布直方图,发现是属于右边“拖尾”,所以平均数大于中位数为,
由于第一个小矩形面积为,
前2个小矩形面积之和为,
所以中位数位于之间,故可得,解得,
由频率分布直方图可知众数,
故,
故选:D.
【变式2】在某次高中学科竞赛中,4000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是( )
A.成绩在分的考生人数最多 B.不及格的考生人数为1000
C.考生竞赛成绩的平均分约70.5分 D.考生竞赛成绩的中位数为75分
【答案】D
【分析】用频率分布直方图的相关知识和公式逐一计算验证选项.
【解析】由频率分布直方图可得,成绩在的频率最高,因此考生人数最多,故A正确;
由频率分布直方图可得,成绩在的频率为,因此,不及格的人数为,故B正确;
由频率分布直方图可得:平均分等于,故C正确;
因为成绩在的频率为,由的频率为,所以中位数为,故D错误.
故选D.
【变式3】统计局就某地居民的月收入(单位:元)情况调查了10000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点不包括右端点,如第一组表示月收入在内.
(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10000人中用分层随机抽样的方法抽出100人进行下一步分析,则月收入在内的应抽取多少人?
(2)估计该地居民的月收入的中位数;
(3)假设同组中的数据用该组区间的中点值代替,估计该地居民月收入的平均数.
【答案】(1)25; (2)3900; (3)3900
【分析】(1)根据频率之和为1求解,即可根据抽样比求解,
(2)根据中位数的计算公式即可求解.
(3)根据平均数的计算公式即可求解.
【解析】(1)因为,
所以,
月收入在的频率为0.25,
所以分层抽样抽出100人中月收入在的人数为;
(2)收入在的频率是,
收入在的频率是,
所以样本数据的中位数在,
且为(元).
(3)(元),
所以平均数为3900元.
题型04 频率分布直方图中的方差、标准差的求解
【典例1】某校为了解高一学生一周课外阅读情况,随机抽取甲,乙两个班的学生,收集并整理他们一周阅读时间(单位:h),绘制了下面频率分布直方图.根据直方图,得到甲,乙两校学生一周阅读时间的平均数分别为,,标准差分别为,,则( )
甲班频率分布直方图 乙班频率分布直方图
A., B.,
C., D.,
【答案】D
【分析】根据平均数和方差的计算公式求解后比较大小即可.
【解析】根据频率分布直方图可知,
,
,
.
所以,.
故选:D.
【变式1】某机构对100名菜农去年种植销售的蔬菜重量(单位:吨)进行了统计调查,将得到的数据按,,,分为4组,画出的频率分布直方图如图所示.
(1)求m;
(2)估计这100名菜农去年种植销售的蔬菜重量的中位数;
(3)估计这100名菜农去年种植销售的蔬菜重量的平均数与方差(同一组中的数据用该组区间的中点值作为代表).
【答案】(1); (2)37.5吨; (3)平均数为37吨,方差为81.
【解析】(1)由图可得,得.
(2)设这100名菜农去年种植销售的蔬菜重量的中位数的估计值为,
因为第一组和第二组数据的频率之和为(0.01+0.03)×10=0.4<0.5,
第一组、第二组和第三组数据的频率之和为(0.01+0.03+0.04)×10=0.8>0.5.
所以,由,得.
故这100名菜农去年种植销售的蔬菜重量的中位数约为37.5吨.
(3)估计这100名菜农去年种植销售的蔬菜重量的平均数吨,
方差
【变式2】某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值与样本成绩的平均数、中位数;
(2)若落在的平均成绩是57,方差是2,落在的平均成绩为69,方差是5,求这两组成绩的总平均数和总方差.
参考公式:其中为总样本平均数.
【答案】(1),平均数74,中位数为75; (2)总平均数,总方差
【分析】(1)利用频率之和为结合频率分布直方图列式求出,根据平均数、中位数的计算公式计算即可;
(2)先利用频率分布直方图求出和的市民人数,再根据平均数和方差公式计算求解即可.
【解析】(1)由频率之和为结合频率分布直方图可得,解得,
样本成绩的平均数约为.
由于区间,,的频率分别为.
因为,
的频率为,故中位数位于内,
设中位数为x,则,解得x=75.
(2)由频率分布直方图知,成绩在的市民人数为,
成绩在的市民人数为,
所以总平均数,
总方差.
题型05 百分位数的求解及其应用
【典例1】年,国家统计局海南调查总队为制定自贸港民生政策,从海南省某城乡区随机抽取户居民的单户收入作为样本数据,将这户居民的单户收入(,单位:万元)分成六段:、、、,并作出如图所示的频率分布直方图,其中.
(1)求、的值;
(2)若要对单户收入高于第百分位数的居民进行个税统计,则应对单户收入多少以上的居民进行统计?
(3)已知落在上的样本数据的平均数是,方差是,上的样本数据的平均数是,方差是.求这两组数据的总平均数和总方差.
参考公式:分层随机抽样抽取的两层的样本量为、,若这两层的平均数和方差分别为、与、,记总的样本平均数为,样本方差为,则①;②.
【答案】(1),; (2)万元; (3),
【分析】(1)根据所有直方图面积之和为,结合可得出、的值;
(2)根据频率直方图结合百分位数的定义可求得百分位数,即可得解;
(3)利用分层抽样的平均数和方差公式可求得、的值.
【解析】(1)由题意知,,
所以,又,则,.
(2)由直方图知,第组的频率为,第组的频率为,
故前组的频率之和为,前组的频率之和为,
故第百分位数在第组内,
则第百分位数为,
故应对单户收入万元以上的居民进行个税统计.
(3)样本数据在区间的样本数为,在区间上的样本数为,
所以,
.
1.百分位数的计算应注意的问题
计算一组数据的第p百分位数时,一般按第p百分位数计算的三个步骤进行,但一定要注意首先将该组数据按从小到大的顺序排列
2.频率分布直方图中第p百分位数的计算
(1)确定百分位数所在的区间[a,b).
(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+(b-a)×.
【变式1】数据的第15百分位数为( )
A.69 B.70 C.75 D.96
【答案】B
【分析】根据百分位数的定义得到答案.
【解析】因为,根据百分位数的定义可知,该数学成绩的分位数为第2个数据70.
故选:B.
【变式2】容量为20的样本数据,分组后的频数如下表所示
分组
频数
2
3
4
5
4
2
则样本数据的第80百分位数所在区间为( )
A. B. C. D.
【答案】C
【分析】由百分位数的定义进行求解.
【解析】因为,所以样本数据的第80百分位数为样本数据由小到大排列的第16个数据和第17个数据的平均数,落在区间内.
故选:C.
【变式3】(多选)现有两组数据,第一组数据为,其平均数为a,标准差为b,极差为m,第80百分位数为n;第二组数据为.则下列说法正确的是( )
A.第一组数据去掉,其剩余数据的标准差比b小
B.第二组数据的平均数为
C.第二组数据的第80百分位数为
D.第二组数据的极差为
【答案】BC
【分析】本题可根据平均数、标准差、极差、百分位数的性质,逐一分析选项.
【解析】第一组数据去掉,剩余数据的离散程度可能变小,
也可能不变,所以不能确定其标准差一定比小,故A错误;
第一组数据平均数为,第二组数据是( ),
则第二组数据平均数为,故B正确;
第一组数据第百分位数为,第二组数据是,
则第二组数据第百分位数为,故C正确;
第一组数据极差为,第二组数据是,
则第二组数据极差为,故D错误.
故选:BC
【变式3】为了解学生的周末学习时间(单位:小时),高一年级某班班主任对本班40名学生某周末的学习时间进行了调查,将所得数据整理绘制出如图所示的频率分布直方图,根据直方图所提供的信息:
(1)求该班学生周末的学习时间不少于20小时的人数;
(2)①估计这40名同学周末学习时间的25%分位数;
②将该班学生周末学习时间从低到高排列,那么估计第10名同学的学习时长;
(3)如果用该班学生周末的学习时间作为样本去推断该校高一年级全体学生周末的学习时间,这样推断是否合理?说明理由.
【答案】(1)9人; (2)①8.75;②8.75小时; (3)不合理,理由见解析
【分析】(1)算出对应频率,乘以40即可得解;
(2)由百分位数的定义即可求解;
(3)判断选取的样本是否具有随机性即可判断.
【解析】(1)由图可知,该班学生周末的学习时间不少于20小时的频率为,
则40名学生中周末的学习时间不少于20小时的人数为.
(2)①学习时间在5小时以下的频率为,
学习时间在10小时以下的频率为,
所以25%分位数在区间内,则,
所以这40名同学周末学习时间的25%分位数为8.75.
②第10名是40名同学的25%,因而问题相当于求25%分位数,也就是估计第10名同学的学习时长为8.75小时.
(3)不合理,样本的选取只选在高一某班,不具有代表性.
【变式4】某学校为提高学生对《红楼梦》的了解,举办了"我知红楼"知识竞赛,现从所有答卷卷面成绩中随机抽取100份作为样本,将样本数据(满分100分,成绩均为不低于40分的整数)分成六段:,并作出如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)求样本数据的第62百分位数;
(3)若落在中的样本数据平均数是52,方差是6;落在中的样本数据平均数是64,方差是3,求这两组数据的总平均数和方差.
【答案】(1)0.030; (2)79分; (3),.
【分析】(1)根据每组小矩形的面积之和为1列式即可求解;
(2)由频率分布直方图求第62百分位数的计算公式即可求解;
(3)利用分层抽样的平均数和方差的计算公式即可求解.
【解析】(1)由,解得;
(2)因为,,
所以样本数据的第62百分位数在内,可得,
所以样本数据的第62百分位数为分;
(3)样本数据落在的个数为,落在的个数为,
,总方差
题型06 其他统计图表中用样本估计总体
【典例1】如图为2014—2022年中国游戏用户规模(单位:百万人)及同比增长率、2010—2022年中国国产游戏获批版号数量(单位:个)的统计图,则下列结论正确的是( )
A.2014—2022年中国游戏用户规模逐年增长
B.2014—2022年中国游戏用户规模的同比增长率的中位数为
C.2010—2022年中国国产游戏获批版号数量的极差为223个
D.2010—2022年中国国产游戏获批版号数量的平均数超过1600个
【答案】D
【分析】根据条形统计图、折线统计图逐项分析样本的数字特征即可判断.
【解析】A选项:2022年中国游戏用户规模比2021年少,A错误;
B选项:2014—2022年中国游戏用户规模的同比增长率从小到大依次为,,
,,,,,,,中位数为,B错误;
C选项:2010—2022年中国国产游戏获批版号数量的极差为(个),C错误;
D选项:
,D正确.
故选:D.
【变式1】2017~2022年某地生鲜乳、乳制品及婴幼儿奶粉抽检合格率的数据如下折线图所示(其中2020~2022年该地生鲜乳与乳制品抽检合格率相同).
则下列结论错误的是( )
A.2017年~2022年这6年该地婴幼儿奶粉抽检合格率的极差为
B.2017年~2022年这6年该地生鲜乳抽检合格率的中位数为
C.2017年~2022年这6年该地乳制品抽检合格率的平均数低于
D.2020年~2022年这3年该地乳制品抽检合格率均不低于
【答案】C
【分析】由数据折线图分别计算每个选项中涉及到合格率、中位数以及平均数,即可判断出答案.
【解析】由折线图可知2017年~2022年这6年该地婴幼儿奶粉抽检合格率的极差为,A正确;
将2017年~2022年这6年该地生鲜乳抽检合格率按从小到大顺序排列为:
,故中位数为,B正确;
计算2017年~2022年这6年该地乳制品抽检合格率的平均数为:
,C错误;
2020~2022年该地生鲜乳与乳制品抽检合格率相同,为,
均不低于,D正确,
故选:C
【变式2】2022年7月至2023年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则( )
备注:同比增长率=,
环比增长率=.
A.2023年1月全国居民消费价格比2022年1月全国居民消费价格有所下降
B.2023年5月全国居民消费价格比2023年4月全国居民消费价格有所上升
C.2022年7月至2023年7月全国居民消费价格同比增长率的分位数为
D.2022年10月至2023年7月全国居民消费价格环比增长率的平均数为
【答案】D
【分析】由折线图中的数据信息以及变化趋势,对四个选项进行逐一分析判断,即可得答案.
【解析】对A,从图中可以看出2023年1月全国居民消费价格的同比增长率为,
所以2023年1月全国居民消费价格有所上升,故A错误;
对B,由图2023年5月全国居民消费价格环比增长率为,
所以2023年5月全国居民消费价格有所下降,故B错误;
对C,将C选项中的数据由小到大排列得,,
因为,则同比增长率的分位数为第6个数,故C错误;
对D,环比增长率的平均数为,故D正确.
故选:D.
【变式3】某游泳馆统计了10天内某小区居民每日到该游泳馆锻炼的人数,整理数据,得到如下所示的折线图.则根据此折线图,下面结论正确的是( )
A.这10天内,每日游泳人数的极差大于106
B.这10天内,每日游泳人数的平均值小于135
C.这10天内,每日游泳人数的中位数小于145
D.前5天每日游泳人数的方差小于后5天每日游泳人数的方差
【答案】C
【分析】根据折线图中提供的数据,结合极差,平均数,中位数,方差的定义分别计算即可.
【解析】这10天内,每日游泳人数的极差为,A错误;
这10天内,每日游泳人数的平均值为
,B错误;
由图可得每日游泳人数分别为152,165,113,76,181,133,154,125,108,152,
由小到大排列为76,108,113,125,133,152,152,154,165,181,
这10天内,每日游泳人数的中位数为,C正确;
前5天每日游泳人数的平均值为,
后5天每日游泳人数的平均值为,
前5天每日游泳人数的平均值附近摆动的幅度比后5天每日游泳人数的平均值附近
摆动的幅度大,
所以前5天每日游泳人数的方差大于后5天每日游泳人数的方差,D错误.
故选:C.
【变式4】某学校举办了一场党史竞赛活动,共有500名学生参加了此次竞赛活动.为了解本次竞赛活动的得分情况,从中抽取了50名学生的得分(得分均为整数,满分为100分)进行统计,所有学生的得分都不低于60分,将这50名学生的得分进行分组,第一组[60,70),第二组[70,80),第三组[80,90),第四组[90,100],得到如下的频率分布直方图.
(1)求图中m的值,并估计此次竞赛活动学生得分的中位数;
(2)根据频率分布直方图,估计此次竞赛活动学生得分的平均值.若对得分不低于平均值的同学进行奖励,请估计在参赛的500名学生中有多少名学生获奖.
【答案】(1)
(2)82;260
【分析】(1)根据频率分布直方图中所有小矩形的面积之和为1,结合中位数的性质进行求解即可;
(2)根据平均数的定义,结合频率分布直方图进行求解即可.
(1)
由频率分布直方图知(0.01+m+0.04+0.02)×10=1.解得m=0.03.
设此次竞赛活动学生得分的中位数为分,因数据落在[60,80)内的频率为0.4,落在[60,90)内的频率为0.8.
从而可得,所以,解得.
故m=0.03,估计此次竞赛活动学生得分的中位数为82.5分;
(2)
由频率分布直方图及(1)知数据落在[60,70),[70,80),[80,90),[90,100]的频率分别为0.1,0.3.0.4.0.2,
所以(分).
此次竞赛活动学生得分不低于82分的频率为,,
所以估计此次竞赛活动学生得分的平均值为82分,在参赛的500名学生中估计有260名学生获奖.
【变式5】树人中学男女学生比例约为,某数学兴趣社团为了解该校学生课外体育锻炼情况(锻炼时间长短(单位:小时)),采用样本量比例分配的分层抽样,抽取男生人,女生人进行调查.记男生样本为,样本平均数、方差分别为;女生样本为,样本平均数、方差分别为;总样本平均数、方差分别为.
(1)该兴趣社团通过分析给出以上两个统计图,假设两个统计图中每个组内的数据均匀分布,根据两图信息分别估计男生样本、女生样本的平均数;
(2)已知男生样本方差,女生样本方差,请结合(2)问的结果计算总样本方差的估计值.
【答案】(1);; (2)
【分析】(1)利用各组区间中点值代表该组的各个值,由频率分布直方图、扇形统计图估计平均数的方法可求得结果;
(2)根据分层抽样计算平均数和方差的方法直接求解即可.
【解析】(1)每个组内的数据均匀分布,以各组的区间中点值代表该组的各个值;
由频率分布直方图估计男生样本课外体育锻炼时间的平均数 ;
由扇形图估计女生样本课外体育锻炼时间的平均数 .
(2)采用按比例分配的分层随机抽样,;
估计树人中学学生课外运动时间的平均数,
.
1.某校举办“迎七一”红歌比赛,五位评委给某参赛班级的评分分别为87,87,89,m,90,若这组数据的平均数为88,则这组数据的中位数为( )
A.88 B.87 C.89 D.90
【答案】B
【分析】根据给定的平均数求出m,再利用中位数的定义计算作答.
【解析】依题意,,解得,
参赛班级所得分从小到大依次为:87,87,87,89,90,
所以这组数据的中位数为87.
故选:B.
2.某课外活动小组为研究日平均气温的变化情况,将每连续5天的日平均气温(单位: )的记录数据作为一组样本,他们得到了满足下列条件的四个样本:①平均数为3,极差为2;②中位数为7,众数为9;③众数为5,极差为6;④平均数为4,方差为2;则这四个样本中,连续5天的日平均气温记录数据均低于的样本个数至少有( )
A.1个 B.2个 C.3个 D.4个
【答案】C
【分析】将天数据从小到大排序为:,对于①,由平均数为3得,又极差为2,则,可推导,与平均值矛盾;对于②,根据中位数,纵数推导即可;对于③,根据题意可推导第天超过10即可判断;对于④,根据均值方差推导即可判断.
【解析】设“连续5天的日平均温度均低于”,将天数据从小到大排序为:,
①选项,,,若,则,
与平均数为矛盾,所以①选项正确;
②选项,中位数是,众数是,所以将数据从小到大排序后,第3个数是,
第个数为,所以个数据都小于,所以②选项正确;
③选项,众数是,极差为,如,第天超过,不符合,所以③选项错误;
④选项,,
,,
若,则,矛盾,所以④选项正确;
故选:C.
3.已知甲、乙两支篮球队各6名队员某场比赛的得分数据(单位:分)从小到大排列为如下:甲队:7,12,12,20,,31;乙队:8,9,19,,25,28.这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.2和3 B.0和2 C.0和3 D.2和4
【答案】C
【分析】根据甲乙中位数相同求得y的值,再根据平均数相同即可求得x,即得答案.
【解析】由题意得甲的平均数为,
乙的平均数为,
而甲的中位数为,故乙的中位数为,即,
故,
故选:C
4.样本中共有5个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本的标准差为( )
A. B. C.2 D.
【答案】D
【分析】根据平均数、方差的运算公式求解.
【解析】因为样本a,0,1,2,3的平均数为1,则,解得a=-1,
则样本的方差,
故标准差为.
故选:D.
5.如图所示是小王与小张二人参加某射击比赛的预赛的五次测试成绩的折线图,设小王与小张成绩的样本平均数分别为和,方差分别为和,则( )
A., B.,
C., D.,
【答案】C
【分析】根据图中实线与虚线的走势,即可直接求解.
【解析】由题图可知,实线中的数据都大于或等于虚线中的数据,所以小王成绩的平均数大于小张成绩的平均数,,显然实线中的数据波动较大,所以小王成绩的方差大于小张成绩的方程,即.
故选:C.
6.体育强则中国强,国运兴则体育兴.为备战2025年成都世运会,10名运动员进行特训,特训的成绩分别为9,12,8,16,16,18,20,16,12,13,则这组数据的( )
A.众数为12
B.平均数为14
C.中位数为15
D.第85百分位数为16
【答案】B
【分析】由众数,中位数,平均数,第百分位数的定义求出即可.
【解析】成绩从小到大排列为:,
对于A,出现次数最多的数为,故A错误;
对于B,平均数,故B正确;
对于C,中位数为,故C错误;
对于D,第85百分位数为第,
即第位,为,故D错误.
故选:B.
7.(多选)一组样本数据为7,12,13,17,18,20,32,则( )
A.该组数据的极差为25
B.该组数据的分位数为19
C.该组数据的平均数为17
D.若该组数据去掉一个数得到一组新数据,则这两组数据的平均数可能相等
【答案】ACD
【分析】根据数据的极差、第百分位数和平均数的公式计算判断各个选项;
【解析】对于A项,极差等于,故A正确;
对于B项,,故分位数为20,B错误;
对于C项,平均数等于;故C正确;
对于D项,去掉17后,这两组数据的平均数相等,故D项正确,
故选:ACD.
8.(多选)某校组织50名学生参加庆祝中华人民共和国成立75周年知识竞赛,经统计这50名学生的成绩都在区间内,按分数分成5组:,,,,,得到如图所示的频率分布直方图(不完整),根据图中数据,下列结论正确的是( )
A.成绩在上的人数最多 B.成绩不低于70分的学生所占比例为70%
C.50名学生成绩的平均分小于中位数 D.50名学生成绩的极差为50
【答案】ABC
【分析】根据频率分布直方图求出的频率,A项可由各矩形高度可判断 ;B项由频率计算可判断;C项分别求出平均数、中位数比较可判断;D项由极差定义可判断.
【解析】设组的频率为,则由各组频率之和为1可得
,解得;
,,,,各组频率依次为:,,,,:
对于A,组频率最大,即成绩在上的人数最多,故A正确;
对于B,成绩低于70分的学生频率为,即不低于70分的学生频率为,
所以成绩不低于70分的学生所占比例为,故B正确;
对于C,根据频率分布直方图,可得50名学生成绩的平均数是,
由,故50名学生成绩的中位数为80,
所以50名学生成绩的平均分小于中位数,故选项C正确;
对于D,极差为数据中最大值与最小值的差, 已知50名学生的成绩都在区间内, 但成绩的最大值不一定是100,最小值也不一定是50,故极差小于等于50,
但不一定等于50,故D错误.
故选:ABC.
9.(多选)防溺水安全教育不仅是为了防止学生在游泳时发生意外,更是为了提高学生的安全意识和自我保护能力,为此某校组织了“防溺水安全知识”答题比赛,并对参赛的200名学生的成绩进行了统计,得到如图所示的频率分布直方图,其中分组区间分别为,则(同一组中的数据用该组区间的中点值作代表)( )
A.这200名参赛学生的成绩的上四分位数为82.5分
B.这200名参赛学生的成绩的平均值为76.5分
C.这200名参赛学生的成绩不低于80分的频率为0.03
D.若用分层抽样的方法从参赛学生中抽取一个容量为40的样本,则成绩在之间的应抽取20人
【答案】ABD
【分析】对于A,根据上四分位数的概念,结合频率分布直方图的性质,可得其正误;对于B,根据频率分布直方图的数据,利用平均数估计值的计算,可得其正误;对于C,根据频率分布直方图的性质,可得其正误;对于D,根据分层抽样的概念,结合频率分布直方图的数据可得每组的比例,可得其正误.
【解析】因为.,
所以这200名参赛学生的成绩的上四分位数即第75百分位数位于内,
则这200名参赛学生的成绩的上四分位数为,故A正确;
这200名参赛学生的成绩的平均值为
分,故B正确;
这200名参赛学生的成绩不低于80分的频率为,故C错误;
成绩在之间的应抽取人,故D正确.
故选:ABD.
10.若某校高一年级10个班参加合唱比赛的得分分别为89,91,90,92,87,93,96,94,96,95,则这组数据的众数是________;中位数是________.
【答案】 96, 92.5
【分析】把数据从小到大排列,再根据相关定义求众数和中位数.
【解析】这组数据从小到大排列为87,89,90,91,92,93,94,95,96,96,
96出现的次数最多,则这组数据的众数是96;
中位数是.
故答案为:96;92.5.
11.以下数据为参加某次数学竞赛的15人的成绩(单位:分),分数从低到高依次是:56、70、72、78、79、80、81、83、84、85、88、90、91、94、98,则这15人成绩的第60百分位数是__________
【答案】84.5
【分析】根据百分位数的计算即可求解.
【解析】因为,故这15人成绩的第60百分位数为,
故答案为:84.5.
16.样本数据20,19,17,16,22,24,26的下四分位数是 .
【答案】17
【分析】下四分位数就是第百分位数,求几个数据的下四分位数即可
【解析】从小到大排序得:,共7个数,由,所以下四分位数是第二个数,即17.
故答案为:17.
12.某零食超市某天接待了1250名顾客,老年375人,中青年625人,少年250人,景点为了提升服务质量,采用分层抽样从当天游客中抽取100人,以评分方式进行满意度回访.将统计结果按照分成5组,制成如下频率分布直方图:
(1)求抽取的样本中老年、中青年、少年的人数;
(2)求频率分布直方图中的值;
(3)估计当天游客满意度分值的分位数.
【答案】(1)人, 人, 20人; (2); (3)
【分析】(1)首先先确定分层抽样的比例,进而可求得样本中老年、中青年、少年的人数.
(2)根据频率分布直方图中各组频率之和为1即可求得的值.
(3)根据百分位数的概念进行求解即可.
【解析】(1)老年、中青年、少年的人数比例为
抽取100人,样本中老年人数为人,中青年人数为人,少年人数为20人.
(2)由题意可得,.
解得:.
(3)设当天游客满意度分值的分位数为,因为,
.
所以位于区间内,则
解得:,所以估计当天游客满意度分值的分位数为.
13.某地红心猕猴桃因富含维生素C及K,等多种矿物质和18种氨基酸,被誉为“维C之王”,某收购商为了了解某种植基地的红心猕猴桃品质,从该基地随机摘下100个猕猴桃进行测重,其重量分布在区间内(单位:克),根据样本数据作出频率分布直方图如图所示.
(1)根据频率分布直方图,分别求出样本数据的平均数和分位数;
(2)已知该基地大约还有8000个猕猴桃,该收购商准备收购这批猕猴桃,提出了以下两种收购方案:方案一:所有猕猴桃均以20元每千克收购;方案二:小于90克的猕猴桃以10元每千克收购,不小于90克的猕猴桃以30元每千克收购;请你就这两种方案,通过计算为该猕猴桃基地选择最佳的出售方案.(同一组中的数据用该组区间的中点值代表,视频率为概率)
【答案】(1)平均数为,分位数为; (2)方案二
【分析】(1)根据频率分布直方图中平均数计算规则计算平均数,再由百分位数计算规则计算百分位数;
(2)分别求出两种方案的收入,即可判断.
【解析】(1)依题意可得样本数据的平均数为
;
因为,,
所以分位数位于,设为,则,
解得,
所以平均数为,分位数为;
(2)选择方案一获得收入为(元),
选择方案二获得收入为
(元),
因为,所以选择方案二.
14.随着高校强基计划招生的持续开展,我市高中生抓起了参与数学兴趣小组的热潮.为调查我市高中生对数学学习的喜好程度,从甲、乙两所高中各随机抽取了40场学生,记录他们在一周内平均每天学习数学的时间, 并将其分成了6个区间: (0,10]、(10,20]、(20,30]、(30,40]、(40,50]、(50,60],整理得到如图频率分布直方图:
(1)求图1中a的值,并估计甲高中学生一周内平均每天学习数学时间的众数;
(2)估计乙高中学生一周内平均每天学习数学时间的均值及方差(同一组中的数据用该组区间的中点值作代表);
(3)若从甲、乙两所高中分别抽取样本量为m、n的两个样本,经计算得它们的平均数和方差分别为、与、,记总的样本平均数为,样本方差为,证明:
①;
②.
【答案】(1),众数是; (2),; (3)①证明见解析 ;②证明见解析.
【分析】(1)利用频率分布直方图中所有矩形面积之和为可求得的值,根据频率分布直方图可计算得出甲高中学生一周内平均每天学习数学时间的众数.
(2)将图2中每个矩形底边的中点值乘以对应矩形的面积,可求得,再利用方差公式可求得.
(3)①利用平均数公式可证得结论成立;②推导出,再利用方差公式可证得结论成立.
【解析】(1)由频率分布直方图,得,解得,
甲高中学生一周内平均每天学习数学时间的众数是.
(2),
.
(3)①依题意,,所以原等式成立.
② ,
又,则,
同理,
,
所以.
2 / 7
学科网(北京)股份有限公司
$
专题14.4 用样本估计总体
教学目标
1.结合实例,能用样本估计总体的集中趋势参数(平均数、众数、中位数),理解集中趋势参数的统计含义;能用样本估计总体的取值规律;能用样本估计百分位数,理解百分位数的统计含义;能根据频率分布表和频率直方图观测数据的分布规律.
2.正确理解样本数据的极差、方差和标准差的意义和作用,学会计算数据的极差、方差和标准差;了解几个特殊的百分位数。
3.在运用平均数、众数和中位数、极差、方差和标准差进行运算,对数据进行分析以及解决频率直方图相关问题的过程中,在学习和运用百分位数的过程中,把实际问题转化为数学问题,对数据进行处理和计算,发展数学运算和数据分析素养;在频率直方图的绘制与应用中,发展直观想象素养。
教学重难点
1.重点
利用样本数据计算平均数、众数和中位数;用样本的方差和标准差估计总体的方差和标准差;根据频率分布表和频率直方图观测数据的分布规律;计算样本的百分位数.
2.难点
根据实际情况合理选择数据“代表值;能运用相关知识解决简单的实际问题;用样本的频率直方图对总体分布进行估计;用百分位数估计个体在总体中的水平。
知识点01 用样本估计总体的集中趋势参数
1.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
名称
概念
平均数
如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中位数
一般地,将一组数据按照从小到大的顺序排成一列,如果数据的个数为奇数,那么排在正中间的数据就是这组数据的中位数;如果数据的个数为偶数,那么,排在正中间的两个数据的平均数即为这组数据的中位数.
众数
一般地,我们将一组数据中出现次数最多的那个数据叫作该组数据的众数.众数是一种刻画数据集中趋势的度量值.
【即学即练】
1.数据的平均数为5,则的平均数为( )
A.15 B.13 C.11 D.9
2.某校举行校园歌手大赛,6位评委对某选手的评分分别为9.2,9.5,8.8,9.9,8.9,9.5,设该选手得分的平均数为x,中位数为y,众数为z,则( )
A. B. C. D.
知识点02 用样本估计总体的离散程度参数
1.总体离散程度的估计
(1)极差
我们把一组数据的最大值与最小值的差称为极差.
(2)方差和标准差
假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(3)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差
.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中Yi出
现的频数为fi(i=1,2,…,k),则总体方差为.
总体标准差:.
(4)标准差与方差的统计意义:
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则标准差为0.反之,标准差为0的样本,其中的数据都相等.
【注意】
1.数据x1,x2,…,xn与数据的方差相等,即数据经过平移后方差不变.
2.若x1,x2,…,xn的方差为s2,那么的方差为a2s2.
【即学即练】
1.某班成立了A、B两个数学兴趣小组,A组10人,B组30人,经过一周的补习后进行了一次测试,在该测试中,A组平均成绩为130分,方差为115,B组平均成绩为110分,方差为215,则在这次测试中,全班学生的平均成绩和方差为( )
A.120分, 105 B.120分, 265 C.115分, 105 D.115分, 265
2.现有甲、乙两组数据,每组数据均由六个数组成,其中甲组数据的平均数为,方差为,乙组数据的平均数为,方差为.若将这两组数据混合成一组,则新的一组数据的方差为__________
知识点03 用频率直方图估计总体分布
1.频率分布直方图的数字特征
(1)众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,最高小长方形的底边中点的横坐标;
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;
(3)平均数:平均数在频率分布表中等于组中值与对应频率之积的和.
2.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一
般用中点近似代替.
(2) 频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【即学即练】
1.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布如图所示:
令,分别表示甲、乙射中环数的均值;,分别表示甲、乙射中环数的方差,则( )
A., B.,
C., D.,
2.某校抽取100名高二学生期中考试的语文成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为:,,…,,.
(1)求频率分布直方图中a的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的中位数和平均数.(保留小数点后1位)
知识点04 总体百分位数的估计
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2) 求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【即学即练】
1.某班级的老师随机抽查了该班8名同学周末在家学习的时长(单位:h),所得数据如下:3,4,4,5,6,6,7,8,则这组数据的75%分位数为( )
A.6.5 B.6 C.5.5 D.5
2.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率直方图如图所示,你能估计一下60株树木的50百分位数和75百分位数吗?
题型01 众数、中位数、平均数的计算及其应用
【典例1】数据86,82,78,93,86,84,81,90,85,79,86,85,88,81,87的众数和中位数分别为( )
A.85,86 B.85,85 C.86,85 D.86,86
1.众数、中位数、平均数的计算方法
(1)众数是出现次数最多的数;
(2)计算中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据相关数据的总数是奇数还是偶数而定;
(3)平均数一般是根据公式来计算.
2.众数、中位数、平均数的意义
(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大或较小时,可用中位数描述其集中趋势.
【变式1】已知高一三班的某次数学测试中,某学习小组的成绩如下:70,75,94,85,85,90,86,90,85,100,则该小组成绩的平均数、众数、中位数的大小关系是( )
A.众数=中位数<平均数 B.众数<中位数<平均数
C.众数<平均数<中位数 D.众数=平均数<中位数
【变式2】在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为1,众数为0
C.丙地:中位数为2,众数为3 D.丁地:总体均值为1,中位数为1
【变式3】已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是( )
A.86,84 B.84.5,85 C.85,84 D.86.5,84
【变式4】已知是这九个数据的中位数,且这五个数据的平均数为3,则的取值范围为__________
【变式5】据报道,某公司的33名职工的月工资(以元为单位)如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5 500
5 000
3 500
3 000
2 500
2 000
1 500
(1)求该公司职工月工资的平均数、中位数、众数;
(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是什么?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
题型02 方差、标准差的求解及其应用
【典例1】已知一组样本数据16,,14,15,13的平均数为15,则该组样本数据的方差为__________
1.求样本的标准差与方差的步骤:
(1)求出样本数据的平均数;
(2)求出每个样本数据与样本平均数的差xi-(i=1,2,…,n);
(3)求出xi-(i=1,2,…,n)的平方值;
(4)求出上一步中n个平方值的平均数,即为样本方差;
(5)求出上一步中平均数的算术平方根,即为样本标准差.
2.分层随机抽样的方差:
(1).设样本中不同层的平均数分别为1,2,…,n,方差分别为s,s,…,s,
相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[s+(i-)2](为样本的平均数).
(2).特别地,在比例分配的分层随机抽样中,可以直接用总样本方差估计总体方差.
(3).在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度.
(4).在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差,方差越小,离散程度越小,数据越集中,越稳定.
【变式1】若样本数据、、、的方差为,则数据、、、的方差为( )
A. B. C. D.
【变式2】把某班五名学生在一周内阅读数学竞赛书籍的时间1,2,3,4,5(单位:小时)作为一组样本数据,现增加统计两位学生,他们一周内阅读数学竞赛书籍的时间分别为正整数m、n(单位:小时),与原有样本数据一起构成一组新样本数据,与原组样本数据比较,下列说法正确的是( )
A.若,则方差不变 B.若极差不变,则
C.若,则中位数变大 D.若平均数不变,则
【变式3】将每个数均加上9,得到,则两组数数字特征不同的是( )
A.平均数 B.方差
C.极差 D.众数的个数
【变式4】湖州地区甲、乙、丙三所学科基地学校的数学强基小组人数之比为,三所学校共有数学强基学生48人,在一次统一考试中,所有学生的成绩平均分为117,方差为21.5.已知甲、乙两所学校的数学强基小组学生的平均分分别为118和114,方差分别为15和21,则丙学校的学生成绩的方差是 .
题型03 利用频率分布直方图计算众数、中位数、平均数
【典例1】(多选)学校为了解全校1800名学生的身体肥胖情况,随机抽取了100名学生的体检数据,将其BMI值分成以下五组:,,,,,得到相应的频率分布直方图,如图所示.则下列说法正确的是( )
A.
B.估计样本的中位数为23
C.估计样本的众数为22
D.估计全校学生BMI值落在区间的人数为36人
用频率分布直方图估计样本众数、中位数、平均数:
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
【变式1】众数、平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据的分布形态有关.根据某小区1000户居民的月均用水量数据(单位:),得到如图所示的频率分布直方图,记该组数据的众数为,中位数为,平均数为,则( )
A. B.
C. D.
【变式2】在某次高中学科竞赛中,4000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是( )
A.成绩在分的考生人数最多 B.不及格的考生人数为1000
C.考生竞赛成绩的平均分约70.5分 D.考生竞赛成绩的中位数为75分
【变式3】统计局就某地居民的月收入(单位:元)情况调查了10000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点不包括右端点,如第一组表示月收入在内.
(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10000人中用分层随机抽样的方法抽出100人进行下一步分析,则月收入在内的应抽取多少人?
(2)估计该地居民的月收入的中位数;
(3)假设同组中的数据用该组区间的中点值代替,估计该地居民月收入的平均数.
题型04 频率分布直方图中的方差、标准差的求解
【典例1】某校为了解高一学生一周课外阅读情况,随机抽取甲,乙两个班的学生,收集并整理他们一周阅读时间(单位:h),绘制了下面频率分布直方图.根据直方图,得到甲,乙两校学生一周阅读时间的平均数分别为,,标准差分别为,,则( )
甲班频率分布直方图 乙班频率分布直方图
A., B.,
C., D.,
【变式1】某机构对100名菜农去年种植销售的蔬菜重量(单位:吨)进行了统计调查,将得到的数据按,,,分为4组,画出的频率分布直方图如图所示.
(1)求m;
(2)估计这100名菜农去年种植销售的蔬菜重量的中位数;
(3)估计这100名菜农去年种植销售的蔬菜重量的平均数与方差(同一组中的数据用该组区间的中点值作为代表).
【变式2】某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六组:,,,,,,得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值与样本成绩的平均数、中位数;
(2)若落在的平均成绩是57,方差是2,落在的平均成绩为69,方差是5,求这两组成绩的总平均数和总方差.
参考公式:其中为总样本平均数.
题型05 百分位数的求解及其应用
【典例1】年,国家统计局海南调查总队为制定自贸港民生政策,从海南省某城乡区随机抽取户居民的单户收入作为样本数据,将这户居民的单户收入(,单位:万元)分成六段:、、、,并作出如图所示的频率分布直方图,其中.
(1)求、的值;
(2)若要对单户收入高于第百分位数的居民进行个税统计,则应对单户收入多少以上的居民进行统计?
(3)已知落在上的样本数据的平均数是,方差是,上的样本数据的平均数是,方差是.求这两组数据的总平均数和总方差.
参考公式:分层随机抽样抽取的两层的样本量为、,若这两层的平均数和方差分别为、与、,记总的样本平均数为,样本方差为,则①;②.
1.百分位数的计算应注意的问题
计算一组数据的第p百分位数时,一般按第p百分位数计算的三个步骤进行,但一定要注意首先将该组数据按从小到大的顺序排列
2.频率分布直方图中第p百分位数的计算
(1)确定百分位数所在的区间[a,b).
(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+(b-a)×.
【变式1】数据的第15百分位数为( )
A.69 B.70 C.75 D.96
【变式2】容量为20的样本数据,分组后的频数如下表所示
分组
频数
2
3
4
5
4
2
则样本数据的第80百分位数所在区间为( )
A. B. C. D.
【变式3】(多选)现有两组数据,第一组数据为,其平均数为a,标准差为b,极差为m,第80百分位数为n;第二组数据为.则下列说法正确的是( )
A.第一组数据去掉,其剩余数据的标准差比b小
B.第二组数据的平均数为
C.第二组数据的第80百分位数为
D.第二组数据的极差为
【变式3】为了解学生的周末学习时间(单位:小时),高一年级某班班主任对本班40名学生某周末的学习时间进行了调查,将所得数据整理绘制出如图所示的频率分布直方图,根据直方图所提供的信息:
(1)求该班学生周末的学习时间不少于20小时的人数;
(2)①估计这40名同学周末学习时间的25%分位数;
②将该班学生周末学习时间从低到高排列,那么估计第10名同学的学习时长;
(3)如果用该班学生周末的学习时间作为样本去推断该校高一年级全体学生周末的学习时间,这样推断是否合理?说明理由.
【变式4】某学校为提高学生对《红楼梦》的了解,举办了"我知红楼"知识竞赛,现从所有答卷卷面成绩中随机抽取100份作为样本,将样本数据(满分100分,成绩均为不低于40分的整数)分成六段:,并作出如图所示的频率分布直方图.
(1)求频率分布直方图中的值;
(2)求样本数据的第62百分位数;
(3)若落在中的样本数据平均数是52,方差是6;落在中的样本数据平均数是64,方差是3,求这两组数据的总平均数和方差.
题型06 其他统计图表中用样本估计总体
【典例1】如图为2014—2022年中国游戏用户规模(单位:百万人)及同比增长率、2010—2022年中国国产游戏获批版号数量(单位:个)的统计图,则下列结论正确的是( )
A.2014—2022年中国游戏用户规模逐年增长
B.2014—2022年中国游戏用户规模的同比增长率的中位数为
C.2010—2022年中国国产游戏获批版号数量的极差为223个
D.2010—2022年中国国产游戏获批版号数量的平均数超过1600个
【变式1】2017~2022年某地生鲜乳、乳制品及婴幼儿奶粉抽检合格率的数据如下折线图所示(其中2020~2022年该地生鲜乳与乳制品抽检合格率相同).
则下列结论错误的是( )
A.2017年~2022年这6年该地婴幼儿奶粉抽检合格率的极差为
B.2017年~2022年这6年该地生鲜乳抽检合格率的中位数为
C.2017年~2022年这6年该地乳制品抽检合格率的平均数低于
D.2020年~2022年这3年该地乳制品抽检合格率均不低于
【变式2】2022年7月至2023年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则( )
备注:同比增长率=,
环比增长率=.
A.2023年1月全国居民消费价格比2022年1月全国居民消费价格有所下降
B.2023年5月全国居民消费价格比2023年4月全国居民消费价格有所上升
C.2022年7月至2023年7月全国居民消费价格同比增长率的分位数为
D.2022年10月至2023年7月全国居民消费价格环比增长率的平均数为
【变式3】某游泳馆统计了10天内某小区居民每日到该游泳馆锻炼的人数,整理数据,得到如下所示的折线图.则根据此折线图,下面结论正确的是( )
A.这10天内,每日游泳人数的极差大于106
B.这10天内,每日游泳人数的平均值小于135
C.这10天内,每日游泳人数的中位数小于145
D.前5天每日游泳人数的方差小于后5天每日游泳人数的方差
【变式4】某学校举办了一场党史竞赛活动,共有500名学生参加了此次竞赛活动.为了解本次竞赛活动的得分情况,从中抽取了50名学生的得分(得分均为整数,满分为100分)进行统计,所有学生的得分都不低于60分,将这50名学生的得分进行分组,第一组[60,70),第二组[70,80),第三组[80,90),第四组[90,100],得到如下的频率分布直方图.
(1)求图中m的值,并估计此次竞赛活动学生得分的中位数;
(2)根据频率分布直方图,估计此次竞赛活动学生得分的平均值.若对得分不低于平均值的同学进行奖励,请估计在参赛的500名学生中有多少名学生获奖.
【变式5】树人中学男女学生比例约为,某数学兴趣社团为了解该校学生课外体育锻炼情况(锻炼时间长短(单位:小时)),采用样本量比例分配的分层抽样,抽取男生人,女生人进行调查.记男生样本为,样本平均数、方差分别为;女生样本为,样本平均数、方差分别为;总样本平均数、方差分别为.
(1)该兴趣社团通过分析给出以上两个统计图,假设两个统计图中每个组内的数据均匀分布,根据两图信息分别估计男生样本、女生样本的平均数;
(2)已知男生样本方差,女生样本方差,请结合(2)问的结果计算总样本方差的估计值.
1.某校举办“迎七一”红歌比赛,五位评委给某参赛班级的评分分别为87,87,89,m,90,若这组数据的平均数为88,则这组数据的中位数为( )
A.88 B.87 C.89 D.90
2.某课外活动小组为研究日平均气温的变化情况,将每连续5天的日平均气温(单位: )的记录数据作为一组样本,他们得到了满足下列条件的四个样本:①平均数为3,极差为2;②中位数为7,众数为9;③众数为5,极差为6;④平均数为4,方差为2;则这四个样本中,连续5天的日平均气温记录数据均低于的样本个数至少有( )
A.1个 B.2个 C.3个 D.4个
3.已知甲、乙两支篮球队各6名队员某场比赛的得分数据(单位:分)从小到大排列为如下:甲队:7,12,12,20,,31;乙队:8,9,19,,25,28.这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.2和3 B.0和2 C.0和3 D.2和4
4.样本中共有5个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本的标准差为( )
A. B. C.2 D.
5.如图所示是小王与小张二人参加某射击比赛的预赛的五次测试成绩的折线图,设小王与小张成绩的样本平均数分别为和,方差分别为和,则( )
A., B.,
C., D.,
6.体育强则中国强,国运兴则体育兴.为备战2025年成都世运会,10名运动员进行特训,特训的成绩分别为9,12,8,16,16,18,20,16,12,13,则这组数据的( )
A.众数为12 B.平均数为14
C.中位数为15 D.第85百分位数为16
7.(多选)一组样本数据为7,12,13,17,18,20,32,则( )
A.该组数据的极差为25
B.该组数据的分位数为19
C.该组数据的平均数为17
D.若该组数据去掉一个数得到一组新数据,则这两组数据的平均数可能相等
8.(多选)某校组织50名学生参加庆祝中华人民共和国成立75周年知识竞赛,经统计这50名学生的成绩都在区间内,按分数分成5组:,,,,,得到如图所示的频率分布直方图(不完整),根据图中数据,下列结论正确的是( )
A.成绩在上的人数最多 B.成绩不低于70分的学生所占比例为70%
C.50名学生成绩的平均分小于中位数 D.50名学生成绩的极差为50
9.(多选)防溺水安全教育不仅是为了防止学生在游泳时发生意外,更是为了提高学生的安全意识和自我保护能力,为此某校组织了“防溺水安全知识”答题比赛,并对参赛的200名学生的成绩进行了统计,得到如图所示的频率分布直方图,其中分组区间分别为,则(同一组中的数据用该组区间的中点值作代表)( )
A.这200名参赛学生的成绩的上四分位数为82.5分
B.这200名参赛学生的成绩的平均值为76.5分
C.这200名参赛学生的成绩不低于80分的频率为0.03
D.若用分层抽样的方法从参赛学生中抽取一个容量为40的样本,则成绩在之间的应抽取20人
10.若某校高一年级10个班参加合唱比赛的得分分别为89,91,90,92,87,93,96,94,96,95,则这组数据的众数是________;中位数是________.
11.以下数据为参加某次数学竞赛的15人的成绩(单位:分),分数从低到高依次是:56、70、72、78、79、80、81、83、84、85、88、90、91、94、98,则这15人成绩的第60百分位数是__________
12.某零食超市某天接待了1250名顾客,老年375人,中青年625人,少年250人,景点为了提升服务质量,采用分层抽样从当天游客中抽取100人,以评分方式进行满意度回访.将统计结果按照分成5组,制成如下频率分布直方图:
(1)求抽取的样本中老年、中青年、少年的人数;
(2)求频率分布直方图中的值;
(3)估计当天游客满意度分值的分位数.
13.某地红心猕猴桃因富含维生素C及K,等多种矿物质和18种氨基酸,被誉为“维C之王”,某收购商为了了解某种植基地的红心猕猴桃品质,从该基地随机摘下100个猕猴桃进行测重,其重量分布在区间内(单位:克),根据样本数据作出频率分布直方图如图所示.
(1)根据频率分布直方图,分别求出样本数据的平均数和分位数;
(2)已知该基地大约还有8000个猕猴桃,该收购商准备收购这批猕猴桃,提出了以下两种收购方案:方案一:所有猕猴桃均以20元每千克收购;方案二:小于90克的猕猴桃以10元每千克收购,不小于90克的猕猴桃以30元每千克收购;请你就这两种方案,通过计算为该猕猴桃基地选择最佳的出售方案.(同一组中的数据用该组区间的中点值代表,视频率为概率)
14.随着高校强基计划招生的持续开展,我市高中生抓起了参与数学兴趣小组的热潮.为调查我市高中生对数学学习的喜好程度,从甲、乙两所高中各随机抽取了40场学生,记录他们在一周内平均每天学习数学的时间, 并将其分成了6个区间: (0,10]、(10,20]、(20,30]、(30,40]、(40,50]、(50,60],整理得到如图频率分布直方图:
(1)求图1中a的值,并估计甲高中学生一周内平均每天学习数学时间的众数;
(2)估计乙高中学生一周内平均每天学习数学时间的均值及方差(同一组中的数据用该组区间的中点值作代表);
(3)若从甲、乙两所高中分别抽取样本量为m、n的两个样本,经计算得它们的平均数和方差分别为、与、,记总的样本平均数为,样本方差为,证明:
①;
②.
2 / 7
学科网(北京)股份有限公司
$