内容正文:
第九章 统计
9.2.2总体百分位数的估计
9.2.3总体集中趋势的估计
知识点一 百分位数的估计
1.百分位数定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.常用的百分位数
(1)四分位数:第25百分位数,第50百分位数,第75百分位数.
(2)其他常用的百分位数:第1百分位数,第5百分位数,第95百分位数,第99百分位数.
(3)计算第p百分位数的步骤
第1步,按从小到大排列原始数据;
第2步,计算i=n×p%;
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
知识点二 众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数.
(2)中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.
(3)平均数:如果n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.
思考:平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?
答案:平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,
但是平均数受数据中极端值的影响较大.
知识点三 总体集中趋势的估计
(1)平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
(2)一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用
众数.
知识点四 频率分布直方图中平均数、中位数、众数的求法
(1)样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.
(2)在频率分布直方图中,中位数左边和右边的直方图的面积应相等.
(3)将最高小矩形所在的区间中点的横坐标作为众数的估计值.
即学即练
1.某校园文创店统计了开学第一周(7天)的动漫周边产品销量(单位:件),数据如下:,则该组数据的第40百分位数为( )
A.27 B.28.5
C.30 D.33
2.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为的样本,其频率分布直方图如图,其中支出在元的学生有45人,则下列说法正确的是( )
A.样本中支出在元的频率为
B.的值为150
C.采用分层抽样从这45人中抽出10人,则在中共需抽出5人
D.该校学生一周生活方面支出的第75百分位数大约是52元(精确到个位数)
3.数据,,,的平均数是4,则数据,,,的平均数是( )
A.9 B.10
C.11 D.12
题型01 具体数据的百分位数
/
计算步骤:先把数据从小到大排序;计算指数(n为数据个数,p为百分位);若i是整数,取第i项和第i+1项平均值;若i不是整数,向上取整,对应位置数据即为百分位数。
易错点:①未先排序直接计算;②混淆整数、非整数i的取值规则;③向下取整代替向上取整;④样本个数n代入错误,百分率换算出错。
典|例|精|析
例1.某市某月天的空气质量指数如下:则这组数据的第百分位数是( )
A. B.
C. D.
变|式|巩|固
1.某市连续8天的AQI(空气质量指数)分别为,则这组数据的上四分位数为( )
A.32 B.33
C.48 D.49
2.(多选)电影南京照相馆在全国各地热映,某影院连续天的观影人数单位:百人依次为,,,,,,,,则这组数据的( )
A.众数为 B.中位数为
C.平均数为 D.第百分位数为
题型02 根据具体数据的百分位数求参
/
解题步骤:先将已知数据从小到大排序,设未知参数,根据百分位数公式算出位置 i;结合题目给出的百分位数数值,分 i 为整数、非整数两种情况列等式;再分类讨论参数取值范围,验证数据排序合理性,求出参数。
易错点:忽略含参数时数据排序变化;混淆 i 整数与非整数取值规则;未检验解集是否符合排列逻辑;漏写参数取值范围、多解漏解。
典|例|精|析
例2.已知一组数据8,12,15,,11,18()中的最小数据为8,且第75百分位数是15,则的不同取值可能有( )
A.8个 B.7个
C.6个 D.1个
变|式|巩|固
1.已知一组数据从小到大排列为4,6,7,8,,m,,,,,若该组数据的分位数是,则( )
A. B.
C. D.
2.某小组在试验中得到了一组样本数据:8,6,10,8,5,9,11,12,若这组数据的第百分位数恰为这组数据的众数,则的取值范围是( )
A. B.
C. D.
题型03 频率分布直方图的百分位数
/
做题方法:先算每组频率 = 组距 ×(频率 / 组距),从左向右累计频率;找到累计频率首次≥百分位的组,确定该组左右边界,代入公式:百分位数 = 左边界 + 组距 ×(需补频率 ÷ 本组频率)。
易错点:不会逐组累加频率;错用纵坐标代替频率;公式分子分母搞反;误取区间端点直接当百分位数;忽略组距、看错横轴刻度。
典|例|精|析
例3.(多选)某科研单位对Deepseek的使用情况进行满意度问卷调查,在1000名用户的问卷(用户打分都在50分到100分之间)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,则(同一组数据用该组区间的中点值为代表)( )
A.
B.由样本数据可估计1000名用户中打分在70分以下的有350人
C.估计这1000名用户问卷的得分的分位数为85
D.估计这1000名用户问卷的得分的平均数为75
变|式|巩|固
1.某工厂抽检了100个零件,并统计了这些零件的直径(单位:)数据,得到如下表格:
直径/mm
46
47
48
49
50
51
52
53
54
频数
5
8
12
15
20
18
12
6
4
由表可知这100个零件的直径的第60百分位数为( )
A. B.
C. D.
2.(多选)从某小区抽取户居民用户进行月用电量调查,发现他们的用电量都在之间,进行适当分组后(每组为左闭右开的区间),画出如图所示的频率分布直方图.根据此频率分布直方图,则( )
A.
B.估计该小区居民用户月用电量的下四分位数约为
C.估计该小区有一半左右的居民用户,其月用电量介于至之间
D.当该小区的月用电标准定在时,该小区大约的居民用户用电量不受影响
题型04 具体数据的平均数,中位数,众数
/
做题方法:平均数为所有数据求和除以个数;中位数先将数据从小到大排序,奇数个取中间数,偶数个取中间两数平均值;众数是出现次数最多的数据,可多个。
易错点:求中位数忘记排序;偶数个数据直接取中间一个数;平均数求和漏数、算错个数;误认为众数唯一;重复数据漏统计频次,导致众数判断错误。
典|例|精|析
例4.(多选)已知年中国体育产业规模(单位:万亿元)数据如表所示:
年份
体育产业规模(单位:万亿元)
则这个数据的( )
A.极差为 B.中位数为
C.分位数为 D.平均数大于
变|式|巩|固
1.(多选)给出一组数据:2,4,4,6,6,7,13,下列说法正确的是( )
A.这组数据的极差为11 B.这组数据没有众数
C.这组数据的平均数为6 D.这组数据的80%分位数为6
2.(多选)进入12月份后,受冷暖空气的共同影响,我市气温起伏较大.现记录了12月上旬(1日-10日)我市的日最高气温如下(单位:℃):13,8,9,11,12,12,18,16,13,15,则下列说法正确的是( )
A.12月上旬我市日最高气温的极差为10℃
B.12月上旬我市日最高气温的平均数为12.7℃
C.2日-10日我市日最高气温持续上升
D.12月上旬我市日最高气温的分位数为13℃
题型05 具体数据的平均数、中位数、众数的大小关系
/
做题方法:先排序求出三者数值;看数据分布,左偏:平均数 < 中位数 < 众数;右偏:众数 < 中位数 < 平均数;对称分布三者相等。可通过举例赋值法快速判断大小。
易错点:死记公式不结合实际数据;混淆左偏右偏大小顺序;误以为三者必有固定大小关系;凭主观直觉判断,不计算直接下结论;特殊离散数据乱用偏态规律。
典|例|精|析
例5.已知一组数据:,1,2,3,4,5,17,若该组数据的第80百分位数为5,平均数不小于5,则实数的取值范围是( )
A. B.
C. D.
变|式|巩|固
1.已知五个数的平均数为50,则这五个数的中位数为( )
A.45 B.47.5
C.50 D.52.5
2.一组从小到大排列的数据:.若它们的第60百分位数比平均数大2,则的值为( )
A.10 B.11
C.12 D.13
题型06 频率分布直方图的平均数、中位数、众数的大小关系
/
做题方法:众数取最高矩形底边中点;中位数平分直方图左右面积;平均数为每组中点乘频率求和。左偏分布:平均数 < 中位数 < 众数;右偏分布:众数 < 中位数 < 平均数;对称分布三者相等。
易错点:混淆左右偏态大小顺序;误把区间端点当中点;不会用面积判断中位数;生搬偏态规律,忽略近似取值特点。
典|例|精|析
例6.如图,下列频率分布直方图显示了三种不同的分布形态.图(1)称对称形态,图(2)称不规则形态,图(3)称“右拖尾”形态,根据图形作出以下判断,正确的是( )
A.图(1):平均数>中位数=众数 B.图(2):众数>平均数
C.图(3):众数<中位数<平均数 D.图(3):众数<平均数<中位数
变|式|巩|固
1.某公司50名员工的月工资统计表如下:
工资/元
3600
4000
4400
5000
6000
7000
人数/名
5
10
20
7
5
3
记这50名员工月工资的平均数为元,中位数为元,众数为元,则( )
A. B.
C. D.
2.如图所示,某单峰频率分布直方图在右边“拖尾”,若由频率分布直方图估计样本数据的平均数为,中位数为,众数为,则( )
A. B. C. D.
题型07 根据数据判断情况
/
做题方法:熟记偏态规律,右偏:众数 < 中位数 < 平均数;左偏:平均数 < 中位数 < 众数;对称三者相近。对照所给数值顺序匹配偏态,可构造简单数据实例验证能否成立。
易错点:乱记偏态大小顺序;认为任意数值组合都能存在;不会举特例反证;忽略多众数、特殊离散数据打破常规顺序;仅凭数值大小不结合实际数据分布判断。
典|例|精|析
例7.根据气象学上的标准,连续天的日平均气温低于即为入冬.现有甲、乙、丙、丁四地连续天的日平均温度的记录数据(记录数据都是正整数):
①甲地:个数据的中位数为,众数为;
②乙地:个数据的平均数为,极差为;
③丙地:个数据的平均数为,中位数为;
④丁地:个数据的平均数为,方差小于.
则肯定进入冬季的地区是( )
A.甲地 B.乙地 C.丙地 D.丁地
变|式|巩|固
1.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为1,众数为0
C.丙地:中位数为2,众数为3 D.丁地:总体均值为1,中位数为1
2.气象学上判定春季进入夏季的标准为:当某地连续5天的日平均气温达到或超过时,便将这5天中的第一天定为夏季的开始.已知甲、乙、丙3个地区某连续5天日均气温的数据特征如下:
甲地:中位数是27,平均数是26.
乙地:最高气温31,平均数是26,方差是10.4.
丙地:中位数是24,众数是22.
则由此判断一定进入夏季的地区是( )
A.乙地 B.丙地 C.甲地,乙地 D.乙地,丙地
题型08 总体集中趋势的估计解答题
/
做题方法:从频率分布表或直方图入手,众数取最高矩形中点;中位数找累计频率 0.5 所在区间,代入公式计算;平均数用每组组中值乘频率再求和。最后用三者估计总体集中趋势,结合分布特征分析数据整体水平。
易错点:混淆组中值与区间端点;中位数不会用累计频率定位;计算平均数漏乘频率;混淆三者统计意义,分析结论表述不准;忽视直方图只是近似估计总体。
典|例|精|析
例8.天津在“五一”期间组织了假日文旅活动,涵盖精品演出、主题活动、文化旅游区活动等,吸引了数以万计的游客.为了解游客的旅游体验满意度,某研究性学习小组采用问卷调查的方式随机调查游客,并将收集到的满意度得分数据(满分100分,得分均在内)按分成5组,整理得到如下频率分布直方图.
(1)求x的值和第78百分位数;
(2)从得分在和两组中,采取分层随机抽样的方法抽取50人,则这两组分别抽取多少人;
(3)若此样本数据特征能反应总体特征,试估计游客满意度的平均成绩.(同一组中的数据用该组区间的中点值代替)
变|式|巩|固
1.为了提高市民的环保意识,某市举行了环保知识竞赛,为了解全市参赛者的成绩情况,从所有参赛者中随机抽取了100人的成绩(均为整数)作为样本,将其整理后分为6组,并作出了如图所示的频率分布直方图(最低40分,最高100分).
(1)求a的值;
(2)从频率分布直方图中,估计本次竞赛成绩的众数和平均数;
(3)认定成绩位于前百分之六十的考生为良好,请你估计良好认定的分数线是多少.(保留整数)
2.某市通过简单随机抽样,获得了1000户居民用户的月均用电量数据,发现他们的用电量都在之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1)求直方图中x的值;
(2)求在被调查的用户中,用电量落在区间内的用户数;
(3)该市政府计划对居民生活用电费用实施阶梯式电价制度,即确定一个居民月均用电量标准a,用电量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望的居民生活用电费用支出不受影响,将a定为是否合理?请说明理由.
3.某公司员工年收入的频率分布直方图如下:
(1)估计该公司员工年收入的众数、中位数、平均数(同一组中的数据用该组区间的中点值为代表);
(2)假设你到人才市场找工作,该公司招聘人员告诉你,“我们公司员工的年平均收入超过13万元”,你认为招聘人员对该公司员工年收入的描述是否能客观反映该公司员工的年收入实际情况?请根据(1)中的计算结果说明.
11 / 11
学科网(北京)股份有限公司
$
第九章 统计
9.2.2总体百分位数的估计
9.2.3总体集中趋势的估计
知识点一 百分位数的估计
1.百分位数定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.常用的百分位数
(1)四分位数:第25百分位数,第50百分位数,第75百分位数.
(2)其他常用的百分位数:第1百分位数,第5百分位数,第95百分位数,第99百分位数.
(3)计算第p百分位数的步骤
第1步,按从小到大排列原始数据;
第2步,计算i=n×p%;
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
知识点二 众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数.
(2)中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.
(3)平均数:如果n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.
思考:平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?
答案:平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,
但是平均数受数据中极端值的影响较大.
知识点三 总体集中趋势的估计
(1)平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
(2)一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用
众数.
知识点四 频率分布直方图中平均数、中位数、众数的求法
(1)样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.
(2)在频率分布直方图中,中位数左边和右边的直方图的面积应相等.
(3)将最高小矩形所在的区间中点的横坐标作为众数的估计值.
即学即练
1.某校园文创店统计了开学第一周(7天)的动漫周边产品销量(单位:件),数据如下:,则该组数据的第40百分位数为( )
A.27 B.28.5
C.30 D.33
【答案】C
【分析】根据百分位数的定义计算
【详解】把一周的数据从小到大排列:24,27,30,33,35,38,42
由于,所以该组数据的第40百分位数是第3个数据,即30
2.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为的样本,其频率分布直方图如图,其中支出在元的学生有45人,则下列说法正确的是( )
A.样本中支出在元的频率为
B.的值为150
C.采用分层抽样从这45人中抽出10人,则在中共需抽出5人
D.该校学生一周生活方面支出的第75百分位数大约是52元(精确到个位数)
【答案】BD
【分析】对于A,利用频率分布直方图中所有矩形的面积之和为1,可判断;对于B,利用频率、频数以及样本总容量的关系可判断;对C,计算出样本中支出在的频率,结合分层抽样可判断;对D,根据百分位数的定义计算.
【详解】对于A,样本中支出在元的频率为,故A错误;
对于B,由A知,故B正确;
对于C,样本支出在的频率为,则在中共需抽出人,故C错误;
对于D因为样本中支出在的频率为,所以第75百分位数位于区间内,记为,
则,解得,所以第75百分位数大约是52元,故D正确.
故选:BD.
3.数据,,,的平均数是4,则数据,,,的平均数是( )
A.9 B.10
C.11 D.12
【答案】C
【分析】若,,,的平均数为,则,,,的平均数是.利用此公式求解.
【详解】设,,,的平均数为,
,,,的平均数是,
,,,的平均数是.
故选:C.
题型01 具体数据的百分位数
/
计算步骤:先把数据从小到大排序;计算指数(n为数据个数,p为百分位);若i是整数,取第i项和第i+1项平均值;若i不是整数,向上取整,对应位置数据即为百分位数。
易错点:①未先排序直接计算;②混淆整数、非整数i的取值规则;③向下取整代替向上取整;④样本个数n代入错误,百分率换算出错。
典|例|精|析
例1.某市某月天的空气质量指数如下:则这组数据的第百分位数是( )
A. B.
C. D.
【答案】B
【详解】已知数据升序排列为:,样本量为,
第百分位数的位置为:,
为整数时,第百分位数取第和第项数据的平均值,
第百分位数为:.
变|式|巩|固
1.某市连续8天的AQI(空气质量指数)分别为,则这组数据的上四分位数为( )
A.32 B.33
C.48 D.49
【答案】D
【分析】上四分位数即第75百分位数,将已知数据按从小到大的顺序排列后,根据百分位数的计算步骤先计算,再计算上四分位数即可.
【详解】将按从小到大的顺序排列为,
因为,6为整数,所以上四分位数即从小到大排列中的第6与第7个数据的平均数,即.
2.(多选)电影南京照相馆在全国各地热映,某影院连续天的观影人数单位:百人依次为,,,,,,,,则这组数据的( )
A.众数为 B.中位数为
C.平均数为 D.第百分位数为
【答案】AC
【分析】由样本数据的数字特征依次判断选项即可.
【详解】对于A,160出现的次数最多,故众数是160,故A正确;
对于B,将数据从小到大排列为80,90,120,160,160,160,170,180,
共八个数据,则中位数是第4位与第5位的平均数,即中位数是,故B错误;
对于C,平均数为,故C正确;
对于D,,故第百分位数为从小到大的第3位数,即120,故D错误.
题型02 根据具体数据的百分位数求参
/
解题步骤:先将已知数据从小到大排序,设未知参数,根据百分位数公式算出位置 i;结合题目给出的百分位数数值,分 i 为整数、非整数两种情况列等式;再分类讨论参数取值范围,验证数据排序合理性,求出参数。
易错点:忽略含参数时数据排序变化;混淆 i 整数与非整数取值规则;未检验解集是否符合排列逻辑;漏写参数取值范围、多解漏解。
典|例|精|析
例2.已知一组数据8,12,15,,11,18()中的最小数据为8,且第75百分位数是15,则的不同取值可能有( )
A.8个 B.7个
C.6个 D.1个
【答案】A
【分析】根据百分位数的求解方法,结合已知条件得到的取值范围,即可得到答案.
【详解】由题意知,,.
已知数据有6个,将数据从小到大排序,,
则该组数据的第75百分位数即为第5个数据,所以.
综上,,.
所以的可能取值有8,9,10,11,12,13,14,15,共8个.
变|式|巩|固
1.已知一组数据从小到大排列为4,6,7,8,,m,,,,,若该组数据的分位数是,则( )
A. B.
C. D.
【答案】B
【分析】根据百分位数的定义计算可得.
【详解】因为这组数据共个,所以,因此分位数为第6个数据和第7个数据的平均数,
因为该组数据的分位数为,所以,解得.
2.某小组在试验中得到了一组样本数据:8,6,10,8,5,9,11,12,若这组数据的第百分位数恰为这组数据的众数,则的取值范围是( )
A. B.
C. D.
【答案】A
【分析】先求出众数,再根据是否为整数分类讨论后可求的取值范围.
【详解】将数据从小到大排列为5,6,8,8,9,10,11,12,众数为8,
则这组数据的第百分位数为8,
又,
若为整数,则,解得;
若不为整数,则或,
解得或,综上,.
题型03 频率分布直方图的百分位数
/
做题方法:先算每组频率 = 组距 ×(频率 / 组距),从左向右累计频率;找到累计频率首次≥百分位的组,确定该组左右边界,代入公式:百分位数 = 左边界 + 组距 ×(需补频率 ÷ 本组频率)。
易错点:不会逐组累加频率;错用纵坐标代替频率;公式分子分母搞反;误取区间端点直接当百分位数;忽略组距、看错横轴刻度。
典|例|精|析
例3.(多选)某科研单位对Deepseek的使用情况进行满意度问卷调查,在1000名用户的问卷(用户打分都在50分到100分之间)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,则(同一组数据用该组区间的中点值为代表)( )
A.
B.由样本数据可估计1000名用户中打分在70分以下的有350人
C.估计这1000名用户问卷的得分的分位数为85
D.估计这1000名用户问卷的得分的平均数为75
【答案】ABC
【分析】对于A,由各矩形面积为1可判断选项正误;对于B,由A分析结合题意可判断选项正误;对于CD,由频率分布直方图计算百分位数,平均数方法可得答案.
【详解】对于A,由题可得,
故A正确;
对于B,由A分析,打分在分以下对应频率为:,则对应人数为:,故B正确;
对于C,前3个矩形面积之和为:,
前4个矩形面积之和为:,
则分位数在到90之间,设为,则,
故C正确;
对于D,平均数为:
,故D错误.
故选:ABC
变|式|巩|固
1.某工厂抽检了100个零件,并统计了这些零件的直径(单位:)数据,得到如下表格:
直径/mm
46
47
48
49
50
51
52
53
54
频数
5
8
12
15
20
18
12
6
4
由表可知这100个零件的直径的第60百分位数为( )
A. B.
C. D.
【答案】C
【分析】先确定共有个数小于等于,再结合百分位数定义求结论.
【详解】因为被抽检的零件中,直径小于或等于的零件共有个,
且,
所以这个零件的直径的第百分位数为.
2.(多选)从某小区抽取户居民用户进行月用电量调查,发现他们的用电量都在之间,进行适当分组后(每组为左闭右开的区间),画出如图所示的频率分布直方图.根据此频率分布直方图,则( )
A.
B.估计该小区居民用户月用电量的下四分位数约为
C.估计该小区有一半左右的居民用户,其月用电量介于至之间
D.当该小区的月用电标准定在时,该小区大约的居民用户用电量不受影响
【答案】BCD
【详解】对于A,由,解得,故A错误.
对于B,下四分位数即为分位数.
第一组的频率为,
第二组的频率为,
前两组的频率和为,
所以分位数为,故B正确.
对于C,用电量在的频率为,
即大约的用户用电量在此区间,一半左右,故C正确.
对于D,计算分位数.
用电量在的频率为,
用电量在的频率为,
所以分位数为,即用电标准定在时,
该小区大约的居民用户用电量不受影响,故D正确.
题型04 具体数据的平均数,中位数,众数
/
做题方法:平均数为所有数据求和除以个数;中位数先将数据从小到大排序,奇数个取中间数,偶数个取中间两数平均值;众数是出现次数最多的数据,可多个。
易错点:求中位数忘记排序;偶数个数据直接取中间一个数;平均数求和漏数、算错个数;误认为众数唯一;重复数据漏统计频次,导致众数判断错误。
典|例|精|析
例4.(多选)已知年中国体育产业规模(单位:万亿元)数据如表所示:
年份
体育产业规模(单位:万亿元)
则这个数据的( )
A.极差为 B.中位数为
C.分位数为 D.平均数大于
【答案】ACD
【分析】根据极差为最大值与最小值的差,求出极差即可判断选项;求百分位数和中位数,需对数据按从小到大重新排序,再按照定义即可判断选项和选项;选项,只需求出平均数与比较即可判断.
【详解】对于A,根据表格数据可以看出,最大值为万亿元,最小值为万亿元,
所以极差为,故A正确;
对于B,表格中8个数据从小到大排序为,,,,,,,,
所以中位数为,故B错误;
对于C,,所以分位数是第个数字,即,故C正确;
对于D,
平均数为,
故D正确.
变|式|巩|固
1.(多选)给出一组数据:2,4,4,6,6,7,13,下列说法正确的是( )
A.这组数据的极差为11 B.这组数据没有众数
C.这组数据的平均数为6 D.这组数据的80%分位数为6
【答案】AC
【分析】由极差、众数,平均数和百分位数的定义求解即可.
【详解】对于A,这组数据的极差为:,故A正确;
对于B,这组数据的众数为,故B错误;
对于C,这组数据的平均数为,故C正确;
对于D,,所以这组数据的80%分位数为第6个数,即,故D错误.
故选:AC
2.(多选)进入12月份后,受冷暖空气的共同影响,我市气温起伏较大.现记录了12月上旬(1日-10日)我市的日最高气温如下(单位:℃):13,8,9,11,12,12,18,16,13,15,则下列说法正确的是( )
A.12月上旬我市日最高气温的极差为10℃
B.12月上旬我市日最高气温的平均数为12.7℃
C.2日-10日我市日最高气温持续上升
D.12月上旬我市日最高气温的分位数为13℃
【答案】ABD
【分析】根据极差的概念计算判断A;计算日最高气温的平均数判断B;根据日最高气温变化规律判断C;根据百分位数的计算方法求解判断D.
【详解】对于A,12月上旬我市日最高气温的极差为18-8=10℃,故A正确;
对于B,12月上旬我市日最高气温的平均数为℃,故B正确;
对于C,7日到8日气温是下降的,所以2日-10日我市日最高气温不是持续上升,故C错误;
对于D,气温由低到高排列为8,9,11,12,12,13,13,15,16,18
因为,所以12月上旬我市日最高气温的分位数为℃,故D正确.
故选:ABD.
题型05 具体数据的平均数、中位数、众数的大小关系
/
做题方法:先排序求出三者数值;看数据分布,左偏:平均数 < 中位数 < 众数;右偏:众数 < 中位数 < 平均数;对称分布三者相等。可通过举例赋值法快速判断大小。
易错点:死记公式不结合实际数据;混淆左偏右偏大小顺序;误以为三者必有固定大小关系;凭主观直觉判断,不计算直接下结论;特殊离散数据乱用偏态规律。
典|例|精|析
例5.已知一组数据:,1,2,3,4,5,17,若该组数据的第80百分位数为5,平均数不小于5,则实数的取值范围是( )
A. B.
C. D.
【答案】A
【分析】由百分位数计算公式确定,再结合平均数计算公式即可求解.
【详解】这组数据共个,因为,
则第个数据为第80百分位数,
由题意第80百分位数为,说明从小到大排序后,第个数是,
若,则第80百分位数为或17,不符合题意,因此,
又平均数不小于,则,即,
综上可得,.
变|式|巩|固
1.已知五个数的平均数为50,则这五个数的中位数为( )
A.45 B.47.5
C.50 D.52.5
【答案】C
【详解】由题意知,得,
若,则这五个数为45,50,50,50,55,中位数为50.
若,不妨设,则,又,所以这五个数的中位数仍是50.
2.一组从小到大排列的数据:.若它们的第60百分位数比平均数大2,则的值为( )
A.10 B.11
C.12 D.13
【答案】A
【分析】借助百分位数定义与平均数定义计算即可得.
【详解】,这5个数据的第60百分位数是第三个数据和第四个数据的平均数,
即,即有,解得.
题型06 频率分布直方图的平均数、中位数、众数的大小关系
/
做题方法:众数取最高矩形底边中点;中位数平分直方图左右面积;平均数为每组中点乘频率求和。左偏分布:平均数 < 中位数 < 众数;右偏分布:众数 < 中位数 < 平均数;对称分布三者相等。
易错点:混淆左右偏态大小顺序;误把区间端点当中点;不会用面积判断中位数;生搬偏态规律,忽略近似取值特点。
典|例|精|析
例6.如图,下列频率分布直方图显示了三种不同的分布形态.图(1)称对称形态,图(2)称不规则形态,图(3)称“右拖尾”形态,根据图形作出以下判断,正确的是( )
A.图(1):平均数>中位数=众数 B.图(2):众数>平均数
C.图(3):众数<中位数<平均数 D.图(3):众数<平均数<中位数
【答案】C
【分析】在频率分布直方图中,我们根据图形的形态特点来分析这三个统计量的大小关系。对于对称形态,平均数、中位数和众数大致相等;对于不规则形态,需根据图形具体分析;对于“右拖尾”形态,由于右侧有较大的极端值,会拉高平均数,从而使得众数、中位数和平均数有特定的大小关系。
【详解】A中应有平均数=中位数=众数;
B中众数<平均数;
C,D中,平均数易受极端值的影响,与中位数相比,平均数更接近“拖尾”的一边,所以平均数>中位数,而最高峰偏左,因此众数最小.
故选:C.
变|式|巩|固
1.某公司50名员工的月工资统计表如下:
工资/元
3600
4000
4400
5000
6000
7000
人数/名
5
10
20
7
5
3
记这50名员工月工资的平均数为元,中位数为元,众数为元,则( )
A. B.
C. D.
【答案】B
【分析】利用平均数,中位数,众数的意义分别求得平均数,中位数,众数即可.
【详解】这50名员工月工资的平均数为元;
从小到大排列后第25和第26个数均为4400,所以中位数为元;
显然4400出现次数最多为20次,所以众数为元
故.
故选:B.
2.如图所示,某单峰频率分布直方图在右边“拖尾”,若由频率分布直方图估计样本数据的平均数为,中位数为,众数为,则( )
A. B. C. D.
【答案】D
【分析】根据平均数,中位数,众数的概念结合图形分析判断.
【详解】由频率分布直方图可知,单峰不对称且右“拖尾”,最高峰偏左,众数最小.
平均数受极端值影响,与中位数相比,平均数总在“拖尾”那边,故平均数大于中位数,
故得.
故选:D.
题型07 根据数据判断情况
/
做题方法:熟记偏态规律,右偏:众数 < 中位数 < 平均数;左偏:平均数 < 中位数 < 众数;对称三者相近。对照所给数值顺序匹配偏态,可构造简单数据实例验证能否成立。
易错点:乱记偏态大小顺序;认为任意数值组合都能存在;不会举特例反证;忽略多众数、特殊离散数据打破常规顺序;仅凭数值大小不结合实际数据分布判断。
典|例|精|析
例7.根据气象学上的标准,连续天的日平均气温低于即为入冬.现有甲、乙、丙、丁四地连续天的日平均温度的记录数据(记录数据都是正整数):
①甲地:个数据的中位数为,众数为;
②乙地:个数据的平均数为,极差为;
③丙地:个数据的平均数为,中位数为;
④丁地:个数据的平均数为,方差小于.
则肯定进入冬季的地区是( )
A.甲地 B.乙地 C.丙地 D.丁地
【答案】D
【解析】根据各地连续天的日平均温度的记录数据,通过特殊值法,可排除ABC选项;根据方差的计算公式,结合丁地的气温数据,可判断D正确.
【详解】①甲地:个数据的中位数为,众数为;则这个数据可能为,,,,;即连续天的日平均气温不是都低于,所以甲地不一定入冬,故A错;
②乙地:个数据的平均数为,极差为;则这个数据可能为,,,,;即连续天的日平均气温不是都低于,所以乙地不一定入冬,故B错;
③丙地:个数据的平均数为,中位数为;则这个数据可能为,,,,;即连续天的日平均气温不是都低于,所以丙地不一定入冬,故C错;
④丁地:个数据的平均数为,方差小于.如有数据大于等于,则方差必大于等于,不满足题意,因此丁地这续天的日平均气温都低于,所以丁地一定入冬,故D正确;
故选:D.
变|式|巩|固
1.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为1,众数为0
C.丙地:中位数为2,众数为3 D.丁地:总体均值为1,中位数为1
【答案】D
【分析】利用平均数、中位数、众数的定义及计算公式,对四个选项逐一分析判断即可.
【详解】解:对A:∵平均数和中位数不能限制某一天的病例超过7人,如0,0,0,0,4,4,4,4,6,8,
∴A不正确;
对B:∵平均数和众数不能限制某一天的病例超过7人,如0,0,0,0,0,0,0,0,0,10,
∴B不正确;
对C:∵中位数和众数不能限制某一天的病例超过7人,如0,0,0,0,2,2,3,3,3,8,
∴C不正确;
对D:假设过去10天新增疑似病例数据存在一个数据x,x≥8,而总体平均数为1,则过去10天新增疑似病例数据中至少有7个0,故中位数不可能为1,
所以假设不成立,故符合没有发生大规模群体感染的标志,
∴D正确;
故选:D.
2.气象学上判定春季进入夏季的标准为:当某地连续5天的日平均气温达到或超过时,便将这5天中的第一天定为夏季的开始.已知甲、乙、丙3个地区某连续5天日均气温的数据特征如下:
甲地:中位数是27,平均数是26.
乙地:最高气温31,平均数是26,方差是10.4.
丙地:中位数是24,众数是22.
则由此判断一定进入夏季的地区是( )
A.乙地 B.丙地 C.甲地,乙地 D.乙地,丙地
【答案】B
【详解】设5天气温从小到大排列为.
甲地:中位数,平均数.
因中位数大于平均数,所以必有,可构造,不一定入夏,如21,26,27,28,28.
乙地:5天平均气温为26,总和为,方差,故气温与均值差的平方和为.
假设存在一天气温为21(低于22),与均值差为,平方为25,最高气温31,
剩余天平方和只需,又因为.
所以完全可以构造出五个数满足总和130,方差10.4,最大为31的数值,
因此乙地不能保证每天气温,不一定进入夏季,如21,25,26,27,31.
丙地:中位数,众数,,故;
众数为,则,5天均,一定入夏.
题型08 总体集中趋势的估计解答题
/
做题方法:从频率分布表或直方图入手,众数取最高矩形中点;中位数找累计频率 0.5 所在区间,代入公式计算;平均数用每组组中值乘频率再求和。最后用三者估计总体集中趋势,结合分布特征分析数据整体水平。
易错点:混淆组中值与区间端点;中位数不会用累计频率定位;计算平均数漏乘频率;混淆三者统计意义,分析结论表述不准;忽视直方图只是近似估计总体。
典|例|精|析
例8.天津在“五一”期间组织了假日文旅活动,涵盖精品演出、主题活动、文化旅游区活动等,吸引了数以万计的游客.为了解游客的旅游体验满意度,某研究性学习小组采用问卷调查的方式随机调查游客,并将收集到的满意度得分数据(满分100分,得分均在内)按分成5组,整理得到如下频率分布直方图.
(1)求x的值和第78百分位数;
(2)从得分在和两组中,采取分层随机抽样的方法抽取50人,则这两组分别抽取多少人;
(3)若此样本数据特征能反应总体特征,试估计游客满意度的平均成绩.(同一组中的数据用该组区间的中点值代替)
【答案】(1),第78百分位数为85分.
(2)30人,20人.
(3)74.6
【分析】(1)根据频率分布直方图中各组数据频率之和为1求,根据百分位数的定义和公式求解第78百分位数.
(2)先根据频率比确定抽样比,然后求出分层抽样的人数.
(3)根据频率分布直方图和平均数的公式求出平均成绩.
【详解】(1)由频率分布直方图得.
解得
得分低于80分的频率为0.68,得分低于90分的频率为0.88,
设第78百分位数为t,则t在中,
,解得,即第78百分位数为85分.
(2)得分在的频率为
得分在的频率为
设在和按照分层随机抽样分别抽取x人,y人
按照分层随机抽样
又因为
得
在和按照分层随机抽样分别抽取30人,20人.
(3)平均成绩为:
.
变|式|巩|固
1.为了提高市民的环保意识,某市举行了环保知识竞赛,为了解全市参赛者的成绩情况,从所有参赛者中随机抽取了100人的成绩(均为整数)作为样本,将其整理后分为6组,并作出了如图所示的频率分布直方图(最低40分,最高100分).
(1)求a的值;
(2)从频率分布直方图中,估计本次竞赛成绩的众数和平均数;
(3)认定成绩位于前百分之六十的考生为良好,请你估计良好认定的分数线是多少.(保留整数)
【答案】(1)
(2)众数为65分,平均数为71.8分
(3)68分
【分析】(1)在频率分布直方图中,所有直方图面积之和为1,可求出的值;
(2)根据众数和平均数的定义求解即可;
(3)根据频率分布直方图计算出第40百分位数,即可得出结果.
【详解】(1)在频率分布直方图中,所有直方图面积之和为1,
可得,解得,
(2)估计本次竞赛成绩的众数为分,
估计本次竞赛成绩的平均数为
分.
(3)由题意,成绩位于前百分之六十的考生为良好,则良好认定的分数线是第40百分位数,
前两个矩形面积之和为,
前三个矩形面积之和为,
设第40百分位数为,则,
则,解得,
因此,估计良好认定的分数线为68分.
2.某市通过简单随机抽样,获得了1000户居民用户的月均用电量数据,发现他们的用电量都在之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1)求直方图中x的值;
(2)求在被调查的用户中,用电量落在区间内的用户数;
(3)该市政府计划对居民生活用电费用实施阶梯式电价制度,即确定一个居民月均用电量标准a,用电量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望的居民生活用电费用支出不受影响,将a定为是否合理?请说明理由.
【答案】(1)
(2)600
(3)合理,理由见解析
【分析】(1)根据频率和为1,列式计算求出参数;
(2)先计算频率再计算用户数;
(3)应用频率分布直方图列式计算频率结合已知说明理由.
【详解】(1)根据频率和为1,可知
,计算得:;
(2);
(3),
合理,样本的第80百分位数接近于250,由于样本的取值规律与总体的取值规律之间会存在偏差,
在实际决策中,只要临界值近似为第80百分位数即可,为了实际中操作方便,
可以建议市政府把月均用电量标准定为.
3.某公司员工年收入的频率分布直方图如下:
(1)估计该公司员工年收入的众数、中位数、平均数(同一组中的数据用该组区间的中点值为代表);
(2)假设你到人才市场找工作,该公司招聘人员告诉你,“我们公司员工的年平均收入超过13万元”,你认为招聘人员对该公司员工年收入的描述是否能客观反映该公司员工的年收入实际情况?请根据(1)中的计算结果说明.
【答案】(1)众数为10万元,中位数约为10.5万元,平均数约为13.15万元;(2)不能.
【分析】(1)利用频率分布直方图计算众数、中位数、平均数的方法计算即可作答;
(2)比较平均数与众数、中位数的大小,利用比较相近的数据更能客观反映该公司员工年收入的实际情况而作答.
【详解】(1)由频率分布直方图可知该公司员工年收入的众数为10万元
由于,所以员工年收入的中位数在[7.5,12.5)内,设中位数为a,由,解得a=10.5,
所以估计该公司员工年收入的中位数约为10.5万元.
由题意知,员工年收入的平均数为:
=13.15,
所以估计该公司员工年收入的平均数约为13.15万元,
(2)招聘人员的描述不能客观反映该公司员工年收入的实际情况,
由(1)知,有一半员工年收入不超过10.5万元,多数员工年收入是10万元,少数员工年收入很高,在这种情况下,年收入的平均数就比中位数大的多,
所以用中位数或众数更能客观反映该公司员工年收入的实际情况.
19 / 20
学科网(北京)股份有限公司
$