内容正文:
期末复习讲义04 统计
【考点一】简单随机抽样
【考点五】总体百分位数的估计
【考点二】分层随机抽样
【考点六】总体集中趋势的估计
【考点三】获取数据的途径
【考点七】总体离散程度的估计
【考点四】总体取值规律的估计
一、随机抽样
1. 简单随机抽样(基础题型)
定义:从含有个个体的总体中,逐个不放回地抽取个个体作为样本(),且每次抽取时,总体内每个个体被抽到的概率都相等,这样的抽样方法叫做简单随机抽样。
核心概率公式:每个个体被抽到的概率为
(为样本容量,为总体容量)。
常用方法:
抽签法:适用于总体容量较小(如)、个体差异不大的场景,步骤:编号→制签→搅拌→抽签→确定样本。
随机数法:适用于总体容量较大的场景,步骤:编号→选随机数起点→读随机数→筛选有效编号→确定样本(注意跳过重复编号)。
适用条件:总体容量较小、个体之间无明显差异;易错点:简单随机抽样必须是“不放回”抽样,且每个个体被抽到的概率相等。
2. 分层随机抽样(高频必考,计算类)
定义:当总体由差异明显的几个部分(称为层)组成时,先将总体按层分成若干个子总体,然后在每个子总体中按简单随机抽样或系统抽样的方法抽取样本,这样的抽样方法叫做分层随机抽样。
核心公式:
抽样比:(所有层的抽样比相同);
第层抽取的个体数:(为第层的总体个数,为第层的样本个数);
验证:所有层抽取的样本个数之和等于总样本容量,即(为层数)。
适用条件:总体内部差异明显(如按性别、成绩、年龄分层);易错点:分层抽样是“按比例抽样”,不是按个数均分,若计算出为小数,需向上取整(保证样本容量达标)。
3. 抽样方法的选择(高频判断题)
总体容量小、个体均匀 → 简单随机抽样;
总体容量大、个体分层明显 → 分层随机抽样;
补充:系统抽样(选考):适用于总体容量较大、个体均匀的场景,步骤:编号→分段→确定起始编号→按规则抽取(抽样间隔)。
二、用样本估计总体
1. 频率分布表与频率分布直方图(大题核心)
核心步骤:求极差→确定组距与组数→分组→统计频数→计算频率→绘制图表。
核心公式:
极差:;
组数与组距:(组数取正整数,组距可根据实际情况调整);
频率与频数:,;
频率分布直方图:纵轴为,横轴为数据区间;小矩形面积 = 组距 × = 频率;所有小矩形面积之和 = 1(核心性质,用于验证计算)。
易错点:① 频率分布直方图的纵轴是“频率/组距”,不是频率;② 分组时需遵循“左闭右开”原则(如[10,20)、[20,30)),避免重复或遗漏;③ 计算频率时,频数需准确统计,不可混淆样本容量与总体容量。
2. 样本数字特征(微软公式规范呈现,必考计算)
平均数(均值):反映样本数据的平均水平,公式:
(为样本数据,为样本容量)。
中位数:反映样本数据的中间水平,步骤:将样本数据从小到大排序→若为奇数,中位数为第个数据;若为偶数,中位数为第个与第个数据的平均数。
众数:反映样本数据中出现次数最多的数值,可多个(若多个数据出现次数相同,均为众数)。
方差:反映样本数据的离散程度(波动大小),方差越大,数据波动越大,公式:
(样本方差,分母为;若为总体方差,分母为,期末重点考查样本方差)。
标准差:方差的算术平方根,反映样本数据的离散程度,公式:
(单位与样本数据一致,更易理解)。
频率分布直方图中近似计算(高频大题):
众数:最高小矩形底边中点的横坐标;
中位数:找一条垂直于横轴的直线,使直线左侧所有小矩形面积之和为0.5,该直线对应的横坐标即为中位数;
平均数:(组中值 = (组距左端点 + 组距右端点)/ 2)。
3. 百分位数(高频难点,选填+大题)
定义:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于它,且至少有的数据大于或等于它(期末重点考查25%、50%、75%百分位数)。
核心步骤:
排序:将样本数据从小到大排列;
计算:(为样本容量,为百分位数);
确定:① 若是整数,则第百分位数 = (为第个数据);② 若不是整数,将向上取整,得到的整数即为对应数据的位置,该位置的数据就是第百分位数。
易错点:① 计算前必须先排序,否则结果错误;② 非整数时,是“向上取整”,不是四舍五入;③ 50%百分位数就是中位数,可相互验证。
三、统计图表
条形图:直观反映各组数据的频数或频率,横轴为类别,纵轴为频数/频率,特点:易于比较各组数据的差异。
折线图:直观反映数据的变化趋势,横轴为时间/类别,纵轴为数据值,特点:能清晰看出数据的增减变化。
扇形图:直观反映各组数据在总体中所占的比例(百分比),所有扇形的圆心角之和为,特点:易于看出各组数据的占比关系。
频率分布直方图:直观反映数据的分布规律(集中趋势、离散程度),特点:能清晰看出数据的分布区间和集中范围(期末重点考查)。
易错点:扇形图中,比例之和必须为1(100%);折线图不可随意连接,需遵循数据的先后顺序或类别逻辑。
【考点一】简单随机抽样
1.(25-26高一上·河南·期末)采用简单随机抽样的方法,从含有25个个体的总体中抽取1个容量为10的样本,则某个个体被抽到的概率为( )
A. B. C. D.
2.(25-26高一上·江西南昌·期末)某工厂利用随机数表对生产的个零件进行抽样测试,先将个零件进行编号,编号分别为,从中抽取个样本,下面提供随机数表的第行到第行:
,,,,,,,
,,,,,,,
,,,,,,,
若从表中第行第列开始向右依次读取数据,则得到的第个样本编号是( )
A. B. C. D.4
3.(25-26高一上·辽宁沈阳·期末)某高校对中文系新生进行体测,利用随机数表对名学生进行抽样,先将名学生进行编号,,,……,,.从中抽取个样本,如图提供随机数表的第5行到第6行,若从表中第5行第6列开始向右依次选取三个数字读取数据,则得到的第3个样本编号是( )
A. B. C. D.
4.(24-25高一下·福建福州·期末)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…500,假设从第1行第4列的数字开始,则第5个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.447 D.672
5.(24-25高一下·贵州黔南·期末)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,,50,从中抽取6个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第1行第6列开始向右依次读取数据,则得到的第6个样本编号是( )
A.57 B.50 C.40 D.10
6.(24-25高一上·河南焦作·期末)某次九省联考考试结束后,相关部门为了分析考生的数学成绩,采用随机抽样的方式从某地区抽取了3000名高三学生的数学成绩,则此次抽样的样本为_______.
7.(24-25高一上·陕西·期末)要考察某公司生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取50袋进行检验,将它们编号为000,001,002,…,499,利用随机数表抽取样本,从第8行第5列的数开始,按3位数依次向右读取,到行末后接着从下一行第一个数继续.则抽取的第5袋牛奶的标号是______.
(下面摘取了某随机数表的第7行至第9行)
84421 75531 57245 50688 77047 44767 21763
35025 83921 20676 63016 47859 16955 56719
98301 07185 12867 35807 44395 23879 33211
8.(24-25高一下·湖北黄石·期末)用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则个体m被抽到的概率为______.
9.(23-24高一下·江苏常州·期末)为估计某草场内兔子的数量,使用以下方法:先随机从草场中捕捉兔子100只,在每只兔子的尾巴上作上记号后放回草场.再随机从草场中捕捉60只,若尾巴上有记号的兔子共有10只,估计此草场内约有兔子__________只.
【考点二】分层随机抽样
10.(25-26高一上·广西梧州·期末)某班有48名学生,其中男生28人,女生20人.按性别进行分层,用分层随机抽样的方法,从该班学生中抽取12人参加跳绳比赛,如果样本按比例分配,则应抽取的男生人数为( )
A.5 B.6 C.7 D.8
11.(24-25高一下·湖南永州·期末)某学校高一年级有1100名学生,高二年级有1000名学生,高三年级有900名学生,为了解不同年级学生运动的情况,通过分层随机抽样的方法,从全体学生中抽取一个容量为300的样本,那么从高一年级抽取的学生人数为( )
A.110 B.100 C.90 D.80
12.(25-26高一上·贵州遵义·期末)一支田径队有运动员84人,其中女运动员有48人,按性别进行分层,用分层随机抽样的方法从全体运动员中抽出一个容量为14的样本.如果样本按比例分配,那么应抽取的男运动员人数是( )
A.4 B.6 C.8 D.10
13.(24-25高一下·河北唐山·期末)某公司生产,,三种不同型号的电子产品,产量分别为100,400,300件,为检验不同产品的质量,现用分层抽样的方法从以上产品中抽取40件进行检验,则应从种型号的产品中抽取的件数为( )
A.5 B.10 C.15 D.20
14.(24-25高一下·内蒙古·期末)某班有男生30人,女生20人,现需要安排5人参加男女混合跑步接力比赛,若按照性别进行分层随机抽样,则应抽取的女生人数为( )
A.4 B.3 C.2 D.1
15.(25-26高一上·甘肃庆阳·期末)某社区有男性居民1600名,女性居民1400名,该社区卫生室为了解该社区居民身体健康状况,对该社区所有居民按性别采用分层抽样的方法进行抽样调查,抽取了一个容量为150的样本,则样本中男性居民的人数为______.
16.(24-25高一下·四川眉山·期末)某汽车4店欲通过分层随机抽样了解、、三个小区居民对新能源汽车的购买意愿.已知这三个小区的人口分别为1200人、800人、500人,若总样本量为100人,则应从小区抽取_________人.
17.(23-24高一下·北京·期末)某地区采用分层抽样的方法,抽取一定数量的高中学生参加禁毒知识竞赛.若得到的样本中高二的学生数量比高一多40人、比高三少20人,且该地区高一、高三学生数之比为,则样本容量为_____________.
18.(24-25高一下·河北衡水·期末)某林区有针叶林、阔叶林、混交林三类树种区域,面积占比为,每个区域树种种植密度均相同.现采用分层随机抽样调查各类树种生长情况,若从针叶林区域抽取了120株样树,则在该林区总共抽取的树种数量为_______.
【考点三】获取数据的途径
19.(23-24高一下·西藏日喀则·期末)高考结束后,为了分析该校高三年级1000名学生的高考成绩,从中随机抽取了100名学生的成绩,就这个问题来说,下列说法中正确的是( )
A.100名学生是个体
B.样本容量是100
C.每名学生的成绩是所抽取的一个样本
D.1000名学生是样本
20.(23-24高一下·青海海南·期末)下列调查中,调查方式选择合理的是( )
A.了解某一品牌空调的使用寿命,选择普查
B.了解神舟飞船的设备零件的质量情况,选择抽样调查
C.了解一批袋装食品是否含有防腐剂,选择普查
D.了解某公园全年的游客流量,选择抽样调查
21.某中学高一生物课外兴趣小组要对本班同学的睡眠时间进行研究,得到了以下个数据(单位:小时):,,,,,,,,,,去掉数据_______能很好地提高样本数据的代表性.
22.我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米3285石,验得米内有夹谷,抽样取米一把,数得261粒米内有夹谷29粒,则这批米内夹谷约为______石.
23.研究下列问题:①合肥市今年“八一”前后的气温;②某种新型电路元件使用寿命的测定;③“安徽新闻联播”的收视率;④近年来我国大学生入学人数的相关数据.其中,通过试验获取数据的是__________.(填写问题对应的序号)
24.期中考试后,班主任老师想了解全班学生的成绩情况.已知班级共有55名学生,期中考试考了语文、数学、英语、物理、化学、历史、政治、生物、地理共9门学科.在这个调查中,总体的容量是__________.
【考点四】总体取值规律的估计
25.(24-25高一下·安徽阜阳·期末)年度全省地区生产总值为本年度第一、二、三产业增加值之和.观察下列两个图表,则下列说法错误的是( )
A.2020至2024年第一产业增加值逐年下降
B.2020至2024年第二产业增加值逐年升高
C.2020至2024年第三产业增加值占地区生产总值比重逐年升高
D.2020至2024年全省地区生产总值逐年增长
26.(23-24高一下·山东青岛·期末)如果一组数据的频率分布直方图在右边“拖尾”,则下列说法一定错误的是( )
A.数据中可能存在极端大的值 B.这组数据是不对称的
C.数据中众数一定不等于中位数 D.数据的平均数大于中位数
27.(多选)(24-25高一下·河南许昌·期末)为传承和弘扬数学文化,激发学生学习数学的兴趣,某校高一年级组织开展数学文化知识竞赛.从参赛的2000名考生成绩中随机抽取100个成绩进行统计,得到如图所示的频率分布直方图,其中90分以上视为优秀,则频率/组距( )
A.a的值为0.030
B.抽取的考生成绩的极差介于40分至60分之间
C.2000名考生中约有10名成绩优秀
D.估计有一半以上的考生的成绩介于70分至90分之间
28.(多选)(23-24高一下·海南省直辖县级单位·期末)某学校对高一学生选科情况进行了统计,发现学生选科仅有物化生、政史地、物化地、物化政、生史地五种组合,其中选考物化地和物化政组合的人数相等,并绘制得到如下的扇形图和条形图,则( )
A.该校高一学生总人数为700
B.该校高一学生中选考物化政组合的人数为80
C.该校高一学生中选考物理的人数比选考历史的人数多
D.用比例分配的分层随机抽样方法从该校高一学生抽取20人,则生史地组合抽取6人
29.(24-25高一上·江西·期末)某校60名同学数学竞赛的成绩(满分:100分)均在之间,进行适当分组后(每组为左闭右开区间),画出频率分布直方图如图所示,若从这60名参赛者中随机选取1人,试估计其成绩在的概率为_____.
30.(23-24高一上·辽宁沈阳·期末)在某市高一年级举行的一次数学调研考试中,为了了解考生的成绩状况,现抽取了样本容量为n的部分学生成绩,作出如图所示的频率分布直方图(所有考生成绩均在,按照,,,,分组),若在样本中,成绩在的人数为50,则成绩在的人数为______.
31.(23-24高一下·广东潮州·期末)某校为了解全校高中学生五一小长假参加实践活动的情况,抽查了100名学生,统计他们假期参加实践活动的时间,绘成的频率分布直方图如图所示.这100名学生中参加实践活动时间在4~10小时内的人数为______.
32.(24-25高一下·河北秦皇岛·期末)某高校举行了一次环保知识竞赛,共有900名学生参加,为了解本次竞赛成绩的情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表和频率分布直方图,解答下列问题:
分组
频数
频率
[50,60)
4
0.08
[60,70)
0.16
[70,80)
10
[80,90)
16
0.32
[90,100]
合计
50
(1)填充频率分布表的空格(将答案直接填在表格内);
(2)补全频率分布直方图;
(3)若成绩在[80,100]内的学生获得环保纪念勋章,请估计该校获得环保纪念勋章的学生有多少人.
33.(24-25高一下·河南郑州·期末)为了提高学生的消防安全意识,某地计划从当地4万名中学生中随机选取1000人参加消防安全知识测试,将他们的得分(满分:100分)分组为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并按上述分组方法得到如图所示的频率分布直方图.
(1)求m的值;
(2)在参加了消防安全知识测试,且得分在[40,50)和[80,90)内的中学生中,按比例采用分层随机抽样的方法抽取50人,求抽取的得分在[40,50)内的学生人数;
(3)若规定得分不低于70分的学生的评级为优秀,以参加了消防安全知识测试的中学生为代表,估计当地中学生评级为优秀的人数.
【考点五】总体百分位数的估计
34.(24-25高一上·安徽淮北·期末)样本数据的分位数为( )
A. B. C. D.
35.(25-26高一上·河南焦作·期末)样本数据210,224,201,244的分位数为( )
A.224 B.210 C.217 D.238
36.(25-26高一上·山东潍坊·期末)某同学收集并整理了某市2026年1月11日至18日每日最高气温(单位:℃)的数据(均为整数),并绘制了如图所示的折线图,则1月11日至18日最高气温的75%分位数是( )
A.8 B.9 C.10 D.11
37.(25-26高一上·陕西渭南·期末)某次考试成绩第75百分位数为85分,表示至少有________%的学生成绩不低于85分.
38.(25-26高一上·广西北海·期末)某次期中考试随机抽取了名同学的数学成绩作为样本,分别是、、、、、.则这组数据的第百分位数为________.
39.(24-25高一下·福建福州·期末)已知一组数据,则这组数据的分位数是_________.
40.(25-26高一上·安徽蚌埠·期末)自进入12月以来,我市气温较历史同期明显偏高,气温波动起伏较大,据气象台的记录,我市12月1日至12月14日的日最高气温(单位:)为14,13,8,9,12,16,18,14,17,16,15,9,6,9,则我市12月1日至12月14日的日最高气温的分位数为__________.
41.(24-25高一下·河南平顶山·期末)某校组织了“人工智能知识”测试,现随机抽取了200名学生的测试成绩(单位:分),这200名学生的成绩分布在区间内,并分成6组:第1组为,频数10;第2组为,频数20;第3组为,频数30;第4组为,频数50;第6组为,频数30,绘制成如图所示的部分频率分布直方图.
(1)请将频率分布直方图补充完整;
(2)估计这200名学生成绩的70%分位数.
42.(24-25高一下·浙江金华·期末)2025年是“全民体重管理年”,健康体重成为社会关注的新焦点.为了提升人们体重管理意识和技能,预防控制超重肥胖,某市开展“体重管理知识”宣传活动.举办了“体重管理”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(成绩均为不低于40分的整数)进行适当分组后(每组为左闭右开的区间),得到如图所示的频率分布直方图.
(1)求图中a的值与该样本数据的第60百分位数;
(2)根据该频率分布直方图,估计1000个参赛选手中有多少人能得60分及以上.
【考点六】总体集中趋势的估计
43.(25-26高一上·山东日照·期末)一组从小到大排列的数据:1,2,3,4,5,7,,14,22,23.若分位数是中位数的两倍,则的值为( )
A.10 B.11 C.12 D.14
44.(25-26高一上·江西吉安·期末)数据,,,的平均数是4,则数据,,,的平均数是( )
A.9 B.10 C.11 D.12
45.(25-26高一上·辽宁锦州·期末)某校组织了一次航空知识竞赛,甲、乙两个班级各派8名同学代表参赛.两个班级的数学课代表合作,将甲、乙两班所有参赛同学的得分绘制成如图所示的茎叶图,则下列结论正确的是( )
A.甲班参赛同学得分的极差比乙班参赛同学得分的极差大
B.甲班参赛同学得分的中位数比乙班参赛同学得分的中位数高
C.甲班参赛同学得分的平均数为84
D.乙班参赛同学得分的75%分位数为89
46.(多选)(25-26高一上·辽宁沈阳·期末)为了了解某次数学测验学生的得分情况,数学老师从甲、乙两个班分别随机选取若干名学生成绩,整理后作出图表.甲班所选取同学成绩作出图(1),且图中;乙班所选取同学成绩作出图(2),且图中有一个数字污损不清.则下列说法正确的是( )
A.
B.若图(2)中现有数据的平均数和污损前相等,则图(2)污损前数据的众数为76
C.若直方图中每个数据都用该区间的中点值代替,则估计甲班同学成绩的平均数为76
D.估计乙班同学成绩的75%分位数为85
47.(多选)(25-26高一上·安徽蚌埠·期末)2025年,教育部将“中小学生心理健康促进行动”列为年度重点工作,强调合理安排学习时长是保障学生心理健康的关键.某市随机抽取120名高一学生,调查其日均课后学习时间(含作业、复习等),所得数据绘制成频率分布直方图如下(时间单位:小时,组距0.5小时),则正确的选项是( )
A.该市高一年级学生日均课后学习时间超过3小时的概率估计为0.35
B.该样本的日均课后学习时间的中位数估计为2.625小时
C.估计该市高一年级学生日均课后学习时间在2小时至2.5小时之间的人数最多
D.估计该市高一年级有一半以上的学生日均课后学习时间在2小时至3小时之间
48.(25-26高一上·广西桂林·期末)已知一组数据2,3,5,11,x,7,8的平均数是6,则该组数据的中位数为________.
49.(24-25高一下·四川巴中·期末)某大品牌家电公司从销售员工中随机抽出50名调查销售情况,销售额都在区间(单位:百万元)内,将其分成5组:,,,,,并整理得到如右的频率分布直方图,据此估计销售员工销售额的平均值为__________(百万元),(同一组中的数据用该组区间的中点值为代表).
50.(25-26高一上·陕西渭南·期末)某中学初一男生共有400人,为了解初一男生的体重情况,该中学统计了所有初一男生的体重(单位:千克),并将数据按照,,,,分成5组,画成如图所示的频率分布直方图.
(1)估计这400名男生的平均体重(同组数据用该组区间中点值作代表);
(2)根据体重区间,按比例分层抽样,从体重不足48千克的男生中抽取38人了解营养状况,试计算分别应当抽取体重在区间,,上的人数依次为多少?
51.(25-26高一上·江西景德镇·期末)江西乐平是江南菜乡,古戏台之乡.为帮助学生更充分地了解家乡,现随机选择100名学生,对乐平相关地理文化知识进行趣味答题测验(满分120分),根据得分,制成如图所示的频率分布直方图.
(1)求的值;
(2)求这100人的得分的平均数(以各组的区间中点为代表);
(3)测试分数位列前的学生将得到奖品,估计获得奖品的分数至少为多少分.
【考点七】总体离散程度的估计
52.(24-25高一下·湖南衡阳·期末)从A队30人、B队20人中,按照分层随机抽样的方法从两队共抽取5人.进行一轮答题竞赛.相关统计情况如下:A队答对题目数的平均数为2,方差为1.5;B队答对题目数的平均数为1.方差为0.4,则这5人答对题目数的方差为( )
A.1.3 B.1.06 C.0.95 D.0.8
53.(24-25高一下·陕西宝鸡·期末)数据6,4,3,6,3,8,8,3,1,8,则关于这组数据下列说法错误的是( )
A.中位数为5 B.方差为1.6
C.平均数为5 D.85%分位数为8
54.(25-26高一上·河南·期末)从小到大排列的一组数据:90,92,x,96,98,99,若这组数据的第40百分位数与平均数相同,则这组数据的方差为( )
A.8 B.9 C.10 D.11
55.(多选)(24-25高一下·新疆乌鲁木齐·期末)一组单调递减数据的平均数、极差、中位数、方差依次为,构造一组新的数据,其中,新数据的平均数、极差、中位数、方差依次为,则下列结论中正确的是( )
A.若,则
B.
C.若,则
56.(多选)(24-25高一下·河南商丘·期末)已知一组数据,由()生成的一组新数据,则( )
A.新数据的极差可能与原数据的极差相等
B.新数据的平均数可能与原数据的平均数相等
C.新数据的中位数一定比原数据的中位数大
D.新数据的标准差一定比原数据的标准差大
57.(24-25高一下·湖南衡阳·期末)衡阳市一中高一某班45名学生成立了A、B两个数学兴趣小组,A组25人,B组20人,经过一个月的强化培训后进行了一次测试,在该次测试中,A组的平均成绩为82分,方差为8,B组的平均成绩为86.5分,方差为2,则在这次测试中全班学生成绩的方差为________.
58.(24-25高一下·湖北武汉·期末)湖州地区甲、乙、丙三所学科基地学校的数学强基小组人数之比为,三所学校共有数学强基学生48人,在一次统一考试中,所有学生的成绩平均分为117,方差为22.5,已知甲、乙两所学校的数学强基小组学生的学均分分别为118和114,方差分别为15和21,则丙学校的学生成绩的方差是__________.
59.(25-26高一上·陕西渭南·期末)澄城县统计局对两所高中高一学生的月考数学成绩进行抽样分析,得到如下数据:
甲校:85,88,90,92,95
乙校:80,85,90,95,100
(1)分别计算两校样本的平均数、极差和方差;
(2)若以“成绩稳定且优秀”为标准,哪所学校表现更好?说明理由.
60.(24-25高一下·湖南·期末)在第七届全国文明城市评审中,某市一机关为了了解干部对家乡文明城市创建的认知程度,举办了一场知识竞赛,满分100分(95分及以上为认知程度高),结果认知程度高的有m人,按年龄分成5组,其中第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计这m人年龄的众数、第95百分位数;
(2)现从以上各组中用分层随机抽样的方法抽取20人,担任该机关创建文明城市的宣传使者.
①从年龄组第四组:和第五组:应各抽取多少人?
②第四组:平均年龄37岁,方差为2.5,第五组:平均年龄43岁,方差为4,求第四组和第五组的总方差.
1
学科网(北京)股份有限公司
$
期末复习讲义04 统计
【考点一】简单随机抽样
【考点五】总体百分位数的估计
【考点二】分层随机抽样
【考点六】总体集中趋势的估计
【考点三】获取数据的途径
【考点七】总体离散程度的估计
【考点四】总体取值规律的估计
一、随机抽样
1. 简单随机抽样(基础题型)
定义:从含有个个体的总体中,逐个不放回地抽取个个体作为样本(),且每次抽取时,总体内每个个体被抽到的概率都相等,这样的抽样方法叫做简单随机抽样。
核心概率公式:每个个体被抽到的概率为
(为样本容量,为总体容量)。
常用方法:
抽签法:适用于总体容量较小(如)、个体差异不大的场景,步骤:编号→制签→搅拌→抽签→确定样本。
随机数法:适用于总体容量较大的场景,步骤:编号→选随机数起点→读随机数→筛选有效编号→确定样本(注意跳过重复编号)。
适用条件:总体容量较小、个体之间无明显差异;易错点:简单随机抽样必须是“不放回”抽样,且每个个体被抽到的概率相等。
2. 分层随机抽样(高频必考,计算类)
定义:当总体由差异明显的几个部分(称为层)组成时,先将总体按层分成若干个子总体,然后在每个子总体中按简单随机抽样或系统抽样的方法抽取样本,这样的抽样方法叫做分层随机抽样。
核心公式:
抽样比:(所有层的抽样比相同);
第层抽取的个体数:(为第层的总体个数,为第层的样本个数);
验证:所有层抽取的样本个数之和等于总样本容量,即(为层数)。
适用条件:总体内部差异明显(如按性别、成绩、年龄分层);易错点:分层抽样是“按比例抽样”,不是按个数均分,若计算出为小数,需向上取整(保证样本容量达标)。
3. 抽样方法的选择(高频判断题)
总体容量小、个体均匀 → 简单随机抽样;
总体容量大、个体分层明显 → 分层随机抽样;
补充:系统抽样(选考):适用于总体容量较大、个体均匀的场景,步骤:编号→分段→确定起始编号→按规则抽取(抽样间隔)。
二、用样本估计总体
1. 频率分布表与频率分布直方图(大题核心)
核心步骤:求极差→确定组距与组数→分组→统计频数→计算频率→绘制图表。
核心公式:
极差:;
组数与组距:(组数取正整数,组距可根据实际情况调整);
频率与频数:,;
频率分布直方图:纵轴为,横轴为数据区间;小矩形面积 = 组距 × = 频率;所有小矩形面积之和 = 1(核心性质,用于验证计算)。
易错点:① 频率分布直方图的纵轴是“频率/组距”,不是频率;② 分组时需遵循“左闭右开”原则(如[10,20)、[20,30)),避免重复或遗漏;③ 计算频率时,频数需准确统计,不可混淆样本容量与总体容量。
2. 样本数字特征(微软公式规范呈现,必考计算)
平均数(均值):反映样本数据的平均水平,公式:
(为样本数据,为样本容量)。
中位数:反映样本数据的中间水平,步骤:将样本数据从小到大排序→若为奇数,中位数为第个数据;若为偶数,中位数为第个与第个数据的平均数。
众数:反映样本数据中出现次数最多的数值,可多个(若多个数据出现次数相同,均为众数)。
方差:反映样本数据的离散程度(波动大小),方差越大,数据波动越大,公式:
(样本方差,分母为;若为总体方差,分母为,期末重点考查样本方差)。
标准差:方差的算术平方根,反映样本数据的离散程度,公式:
(单位与样本数据一致,更易理解)。
频率分布直方图中近似计算(高频大题):
众数:最高小矩形底边中点的横坐标;
中位数:找一条垂直于横轴的直线,使直线左侧所有小矩形面积之和为0.5,该直线对应的横坐标即为中位数;
平均数:(组中值 = (组距左端点 + 组距右端点)/ 2)。
3. 百分位数(高频难点,选填+大题)
定义:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于它,且至少有的数据大于或等于它(期末重点考查25%、50%、75%百分位数)。
核心步骤:
排序:将样本数据从小到大排列;
计算:(为样本容量,为百分位数);
确定:① 若是整数,则第百分位数 = (为第个数据);② 若不是整数,将向上取整,得到的整数即为对应数据的位置,该位置的数据就是第百分位数。
易错点:① 计算前必须先排序,否则结果错误;② 非整数时,是“向上取整”,不是四舍五入;③ 50%百分位数就是中位数,可相互验证。
三、统计图表
条形图:直观反映各组数据的频数或频率,横轴为类别,纵轴为频数/频率,特点:易于比较各组数据的差异。
折线图:直观反映数据的变化趋势,横轴为时间/类别,纵轴为数据值,特点:能清晰看出数据的增减变化。
扇形图:直观反映各组数据在总体中所占的比例(百分比),所有扇形的圆心角之和为,特点:易于看出各组数据的占比关系。
频率分布直方图:直观反映数据的分布规律(集中趋势、离散程度),特点:能清晰看出数据的分布区间和集中范围(期末重点考查)。
易错点:扇形图中,比例之和必须为1(100%);折线图不可随意连接,需遵循数据的先后顺序或类别逻辑。
【考点一】简单随机抽样
1.(25-26高一上·河南·期末)采用简单随机抽样的方法,从含有25个个体的总体中抽取1个容量为10的样本,则某个个体被抽到的概率为( )
A. B. C. D.
【答案】B
【分析】根据每个个体被抽到的概率相等,所以每个个体被抽到的概率是样本容量和总体数量的比值.
【详解】由于每个个体被抽到的概率相等,
所以每个个体被抽到的概率是.
故选:B
2.(25-26高一上·江西南昌·期末)某工厂利用随机数表对生产的个零件进行抽样测试,先将个零件进行编号,编号分别为,从中抽取个样本,下面提供随机数表的第行到第行:
,,,,,,,
,,,,,,,
,,,,,,,
若从表中第行第列开始向右依次读取数据,则得到的第个样本编号是( )
A. B. C. D.4
【答案】C
【分析】利用随机数表法依次写出前5个样本的编号,即可得.
【详解】由随机数表法,第2行第7列是第2行从左到右数到第7个数字,对应数字为6,
前5个样本的编号依次为,
所以第个样本编号是.
故选:C
3.(25-26高一上·辽宁沈阳·期末)某高校对中文系新生进行体测,利用随机数表对名学生进行抽样,先将名学生进行编号,,,……,,.从中抽取个样本,如图提供随机数表的第5行到第6行,若从表中第5行第6列开始向右依次选取三个数字读取数据,则得到的第3个样本编号是( )
A. B. C. D.
【答案】C
【分析】直接根据随机数表取样本编号,对超出样本编号范围、重复则剔除,进而可得所求样本编号.
【详解】因为从表中第5行第6列开始向右依次选取三个数字读取数据,
所以依次得样本编号为,,(舍去,不在样本编号范围内),
(舍去,不在样本编号范围内),(舍去,不在样本编号范围内),(重复,舍去),,,
所以得到的第3个样本编号为.
故选:C.
4.(24-25高一下·福建福州·期末)某校从500名同学中用随机数法抽取30人参加这一项调查.将这500名同学编号为001,002,…500,假设从第1行第4列的数字开始,则第5个被抽到的同学的编号为( )
3484 4217 5572 1754 5560 8331
0474 4767 2176 3350 2583 9212
0676 6301 6378 5916 9555 6719
A.331 B.047 C.447 D.672
【答案】B
【分析】根据随机数表的读取规则,逐一选取即可.
【详解】由题知,选取的同学编号分别是442,175,572,175,455,608,331,047,
剔除重复数据,超过500的数据,符合条件的是442,175,455,331,047,第五个是047.
故选:B.
5.(24-25高一下·贵州黔南·期末)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,,50,从中抽取6个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65 09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75 73 88 05 90 52 23 59 43 10
若从表中第1行第6列开始向右依次读取数据,则得到的第6个样本编号是( )
A.57 B.50 C.40 D.10
【答案】B
【分析】结合随机数表法定义,按照题意依次读出前个数即可.
【详解】从随机数表第1行的第6列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,
符合条件的编号有03,46,40,11,10,50,所以选出来的第6个个体的编号为50.
故选:B.
6.(24-25高一上·河南焦作·期末)某次九省联考考试结束后,相关部门为了分析考生的数学成绩,采用随机抽样的方式从某地区抽取了3000名高三学生的数学成绩,则此次抽样的样本为_______.
【答案】某地区3000名高三学生的数学成绩
【分析】根据随机抽样样本的定义判断.
【详解】总体为所有参加此次考试考生的数学成绩;样本为某地区3000名高三学生的数学成绩.
故答案为:某地区3000名高三学生的数学成绩.
7.(24-25高一上·陕西·期末)要考察某公司生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取50袋进行检验,将它们编号为000,001,002,…,499,利用随机数表抽取样本,从第8行第5列的数开始,按3位数依次向右读取,到行末后接着从下一行第一个数继续.则抽取的第5袋牛奶的标号是______.
(下面摘取了某随机数表的第7行至第9行)
84421 75531 57245 50688 77047 44767 21763
35025 83921 20676 63016 47859 16955 56719
98301 07185 12867 35807 44395 23879 33211
【答案】286
【分析】根据给定的随机数表,按指定方法依次读取符合要求的标号.
【详解】依题意,抽取的前5袋牛奶的标号依次为:206,301,169,071,286,
所以抽取的第5袋牛奶的标号是286.
故答案为:286.
8.(24-25高一下·湖北黄石·期末)用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则个体m被抽到的概率为______.
【答案】0.1
【分析】由简单随机抽样中每个个体被抽到的概率相同可得.
【详解】由题意可得用简单随机抽样的方法从含有50个个体的总体中抽取一个容量为5的样本,则个体m被抽到的概率为.
故答案为:0.1.
9.(23-24高一下·江苏常州·期末)为估计某草场内兔子的数量,使用以下方法:先随机从草场中捕捉兔子100只,在每只兔子的尾巴上作上记号后放回草场.再随机从草场中捕捉60只,若尾巴上有记号的兔子共有10只,估计此草场内约有兔子__________只.
【答案】
【分析】利用简单随机抽样,结合样本估计总体可解.
【详解】假设草场约有n只兔子,则,则.
故答案为:600.
【考点二】分层随机抽样
10.(25-26高一上·广西梧州·期末)某班有48名学生,其中男生28人,女生20人.按性别进行分层,用分层随机抽样的方法,从该班学生中抽取12人参加跳绳比赛,如果样本按比例分配,则应抽取的男生人数为( )
A.5 B.6 C.7 D.8
【答案】C
【分析】根据题意结合分层抽样的性质运算求解即可.
【详解】样本按比例分配,男女比例为.
所以应抽取的男生人数为.
故选:C.
11.(24-25高一下·湖南永州·期末)某学校高一年级有1100名学生,高二年级有1000名学生,高三年级有900名学生,为了解不同年级学生运动的情况,通过分层随机抽样的方法,从全体学生中抽取一个容量为300的样本,那么从高一年级抽取的学生人数为( )
A.110 B.100 C.90 D.80
【答案】A
【分析】由题意及分层抽样知识可得答案.
【详解】样本中高一年级的学生人数为.
故选:A
12.(25-26高一上·贵州遵义·期末)一支田径队有运动员84人,其中女运动员有48人,按性别进行分层,用分层随机抽样的方法从全体运动员中抽出一个容量为14的样本.如果样本按比例分配,那么应抽取的男运动员人数是( )
A.4 B.6 C.8 D.10
【答案】B
【分析】利用分层抽样的定义求解.
【详解】由题意可知
抽取男运动员的人数为.
故选:B.
13.(24-25高一下·河北唐山·期末)某公司生产,,三种不同型号的电子产品,产量分别为100,400,300件,为检验不同产品的质量,现用分层抽样的方法从以上产品中抽取40件进行检验,则应从种型号的产品中抽取的件数为( )
A.5 B.10 C.15 D.20
【答案】C
【分析】求出分层抽样的抽样比,再求出目标数值.
【详解】依题意,分层抽样的抽样比为,
所以从种型号的产品中抽取的件数为.
故选:C
14.(24-25高一下·内蒙古·期末)某班有男生30人,女生20人,现需要安排5人参加男女混合跑步接力比赛,若按照性别进行分层随机抽样,则应抽取的女生人数为( )
A.4 B.3 C.2 D.1
【答案】C
【分析】先求出女生所占比例,再求出女生人数即可.
【详解】由题意得该班女生所占比例为,
应抽取的女生人数为,故C正确.
故选:C
15.(25-26高一上·甘肃庆阳·期末)某社区有男性居民1600名,女性居民1400名,该社区卫生室为了解该社区居民身体健康状况,对该社区所有居民按性别采用分层抽样的方法进行抽样调查,抽取了一个容量为150的样本,则样本中男性居民的人数为______.
【答案】80
【分析】根据分层抽样的定义求解即可.
【详解】由题意知,抽样比为,所以样本中男性居民的人数为.
故答案为:80
16.(24-25高一下·四川眉山·期末)某汽车4店欲通过分层随机抽样了解、、三个小区居民对新能源汽车的购买意愿.已知这三个小区的人口分别为1200人、800人、500人,若总样本量为100人,则应从小区抽取_________人.
【答案】20
【分析】根据分层抽样计算求解.
【详解】4店欲通过分层随机抽样了解、、三个小区居民对新能源汽车的购买意愿.
这三个小区的人口分别为1200人、800人、500人,
若总样本量为100人,则应从小区抽取人.
故答案为:.
17.(23-24高一下·北京·期末)某地区采用分层抽样的方法,抽取一定数量的高中学生参加禁毒知识竞赛.若得到的样本中高二的学生数量比高一多40人、比高三少20人,且该地区高一、高三学生数之比为,则样本容量为_____________.
【答案】460
【分析】设样本中高一学生数为,则高三学生数为,根据题意构建方程即可求解.
【详解】设样本中高一学生数为,则高三学生数为,
因为得到的样本中高二的学生数量比高一多40人、比高三少20人,
所以,解得
即高一学生数为,高二学生数为,高三学生数为,
样本容量为:.
故答案为:460.
18.(24-25高一下·河北衡水·期末)某林区有针叶林、阔叶林、混交林三类树种区域,面积占比为,每个区域树种种植密度均相同.现采用分层随机抽样调查各类树种生长情况,若从针叶林区域抽取了120株样树,则在该林区总共抽取的树种数量为_______.
【答案】
【分析】设该林区总共抽取的树种数量为,根据分层随机抽样求出针叶林占比即可.
【详解】由题意,设该林区总共抽取的树种数量为,
因为针叶林、阔叶林、混交林三类树种区域的面积占比为,
所以针叶林区域占比为,
又因为从针叶林区域抽取了株样树,
所以,解得,
故该林区总共抽取的树种数量为.
故答案为:.
【考点三】获取数据的途径
19.(23-24高一下·西藏日喀则·期末)高考结束后,为了分析该校高三年级1000名学生的高考成绩,从中随机抽取了100名学生的成绩,就这个问题来说,下列说法中正确的是( )
A.100名学生是个体
B.样本容量是100
C.每名学生的成绩是所抽取的一个样本
D.1000名学生是样本
【答案】B
【分析】根据有关的概念可得总体、个体、样本这三个概念考查的对象都是学生成绩,而不是学生,再结合题中选项即可得到答案.
【详解】根据有关的概念并且结合题意可得总体、个体、样本这三个概念考查的对象都是学生成绩,而不是学生,
根据选项可得选项A、D表达的对象都是学生,而不是成绩,所以A、D都错误.
C每名学生的成绩是所抽取的一个样本也是错的,应是每名学生的成绩是一个个体.
B:样本的容量是100正确.
故选:B.
20.(23-24高一下·青海海南·期末)下列调查中,调查方式选择合理的是( )
A.了解某一品牌空调的使用寿命,选择普查
B.了解神舟飞船的设备零件的质量情况,选择抽样调查
C.了解一批袋装食品是否含有防腐剂,选择普查
D.了解某公园全年的游客流量,选择抽样调查
【答案】D
【分析】根据抽样调查和普查的定义,逐个选项判断调查方式是否合理即可.
【详解】对于A,了解某一品牌空调的使用寿命,选择抽样调查更符合经济效益,故A错误;
对于B,了解神舟飞船的设备零件的质量情况,
安全是最重要的,应该采取普查,故B错误;
对于C,了解一批袋装食品是否含有防腐剂,选择抽样调查更符合经济效益,故C错误;
对于D,了解某公园全年的游客流量,选择抽样调查比较符合经济效益,故D正确.
故选:D.
21.某中学高一生物课外兴趣小组要对本班同学的睡眠时间进行研究,得到了以下个数据(单位:小时):,,,,,,,,,,去掉数据_______能很好地提高样本数据的代表性.
【答案】
【分析】将极端值去掉即可提高样本数据的代表性.
【详解】因为数据明显低于其它几个数据,是极端值,
所以去掉这个数据,能够更好地提高样本数据的代表性.
故答案为:
22.我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米3285石,验得米内有夹谷,抽样取米一把,数得261粒米内有夹谷29粒,则这批米内夹谷约为______石.
【答案】365
【分析】用样本频率估计总体频率,按比例计算.
【详解】设这批米内夹谷约为粒,则,解得,
则这批米内夹谷约为.
故答案为:.
23.研究下列问题:①合肥市今年“八一”前后的气温;②某种新型电路元件使用寿命的测定;③“安徽新闻联播”的收视率;④近年来我国大学生入学人数的相关数据.其中,通过试验获取数据的是__________.(填写问题对应的序号)
【答案】②
【分析】根据获取数据的途径:调查获取数据、通过观察获取数据、通过试验获取数据和通过查询获得数据,对①②③④作出判断即可.
【详解】①通过观察获取数据,③通过调查获取数据,④通过查询获得数据,只有②通过试验获取数据.
故答案为:②.
24.期中考试后,班主任老师想了解全班学生的成绩情况.已知班级共有55名学生,期中考试考了语文、数学、英语、物理、化学、历史、政治、生物、地理共9门学科.在这个调查中,总体的容量是__________.
【答案】
【分析】依题意可知班主任老师想了解全班学生每个科目的成绩,即可得到总体的容量;
【详解】解:依题意班主任老师想了解全班学生的成绩情况,即了解全班学生每个科目的成绩,
所以总体的容量是.
故答案为:
【考点四】总体取值规律的估计
25.(24-25高一下·安徽阜阳·期末)年度全省地区生产总值为本年度第一、二、三产业增加值之和.观察下列两个图表,则下列说法错误的是( )
A.2020至2024年第一产业增加值逐年下降
B.2020至2024年第二产业增加值逐年升高
C.2020至2024年第三产业增加值占地区生产总值比重逐年升高
D.2020至2024年全省地区生产总值逐年增长
【答案】A
【分析】根据图1和图2,逐项分析判断即可.
【详解】结合图1和图2,计算可得2020至2024年第一产业增加值依次为
3167.578,3362.034,3505.425,3520.571,3543.75,成递增趋势,故A错误;
结合图1和图2,计算可得2020至2024年第二产业增加值依次为
15297.084,16939.479,17709.225,18712.076,19591.875,成递增趋势,故B正确;
由图2可知,2020至2024年第三产业增加值占地区生产总值比重逐年升高,故C正确;
由图1可知,2020至2024年全省地区生产总值逐年增长,故D正确.
故选:A.
26.(23-24高一下·山东青岛·期末)如果一组数据的频率分布直方图在右边“拖尾”,则下列说法一定错误的是( )
A.数据中可能存在极端大的值 B.这组数据是不对称的
C.数据中众数一定不等于中位数 D.数据的平均数大于中位数
【答案】C
【分析】根据频率分布直方图的性质结合样本的数字特征即可判断.
【详解】数据的频率分布直方图在右边“拖尾”,则其图单峰不对称,故B正确;其大致图如下:
由图可知数据中可能存在极端大的值,故A正确;
由于“右拖尾”时最高峰偏左,中位数靠近高峰处,可能与众数相等,故C错误;
平均数靠近中点处,平均数容易受极端值的影响,与中位数相比,平均数总是在“拖尾”那边,故D正确;
故选:C
27.(多选)(24-25高一下·河南许昌·期末)为传承和弘扬数学文化,激发学生学习数学的兴趣,某校高一年级组织开展数学文化知识竞赛.从参赛的2000名考生成绩中随机抽取100个成绩进行统计,得到如图所示的频率分布直方图,其中90分以上视为优秀,则频率/组距( )
A.a的值为0.030
B.抽取的考生成绩的极差介于40分至60分之间
C.2000名考生中约有10名成绩优秀
D.估计有一半以上的考生的成绩介于70分至90分之间
【答案】ABD
【分析】根据频率之和为、极差、优秀率、频率等知识对选项进行分析,从而确定正确答案.
【详解】依题意,,
解得,A选项正确.
根据频率分布直方图,,
所以极差介于40分至60分之间,B选项正确.
90分以上频率为,对应有人,C选项错误.
成绩介于70分至90分之间的频率为,
所以估计有一半以上的考生的成绩介于70分至90分之间,D选项正确.
故选:ABD
28.(多选)(23-24高一下·海南省直辖县级单位·期末)某学校对高一学生选科情况进行了统计,发现学生选科仅有物化生、政史地、物化地、物化政、生史地五种组合,其中选考物化地和物化政组合的人数相等,并绘制得到如下的扇形图和条形图,则( )
A.该校高一学生总人数为700
B.该校高一学生中选考物化政组合的人数为80
C.该校高一学生中选考物理的人数比选考历史的人数多
D.用比例分配的分层随机抽样方法从该校高一学生抽取20人,则生史地组合抽取6人
【答案】BC
【分析】根据政史地人数和占比可确定A正确;计算出物化生的人数后即可确定B错误;分别计算选考历史和物理的人数,则知C正确;确定生史地组合人数占比后,根据分层抽样原则可知D错误.
【详解】对于A,选科为政史地的人数为人200,占比为,
该校高一学生共有人,A错误;
对于B,选科为物化生的人数为人,
选科为物化政的人数为,B正确;
对于C,选考历史的人数有人,选考物理的人数有人,
选考物理的人数比选考历史的人数多,C正确;
对于D,选科为生史地的学生人数占比为,
采用分层抽样抽取20人,生史地组合应抽取人,D错误.
故选:BC.
29.(24-25高一上·江西·期末)某校60名同学数学竞赛的成绩(满分:100分)均在之间,进行适当分组后(每组为左闭右开区间),画出频率分布直方图如图所示,若从这60名参赛者中随机选取1人,试估计其成绩在的概率为_____.
【答案】0.05
【分析】由频率分布直方图的性质面积和为1,即可求解;
【详解】由图可知,,解得,
成绩在的频率为,以频率为概率估计概率为0.05.
故答案为:0.05
30.(23-24高一上·辽宁沈阳·期末)在某市高一年级举行的一次数学调研考试中,为了了解考生的成绩状况,现抽取了样本容量为n的部分学生成绩,作出如图所示的频率分布直方图(所有考生成绩均在,按照,,,,分组),若在样本中,成绩在的人数为50,则成绩在的人数为______.
【答案】30
【分析】根据给定的频率分布直方图求出,进而求出成绩在的人数.
【详解】依题意,,得,
所以成绩在的人数为.
故答案为:30
31.(23-24高一下·广东潮州·期末)某校为了解全校高中学生五一小长假参加实践活动的情况,抽查了100名学生,统计他们假期参加实践活动的时间,绘成的频率分布直方图如图所示.这100名学生中参加实践活动时间在4~10小时内的人数为______.
【答案】82
【分析】由频率分布直方图求出时间在4~10小时内的频率,再求人数.
【详解】依题意,100名学生中参加实践活动的时间在4~10小时内的人数为:
,
即这100名学生中参加实践活动时间在4~10小时内的人数为82.
故答案为:82.
32.(24-25高一下·河北秦皇岛·期末)某高校举行了一次环保知识竞赛,共有900名学生参加,为了解本次竞赛成绩的情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表和频率分布直方图,解答下列问题:
分组
频数
频率
[50,60)
4
0.08
[60,70)
0.16
[70,80)
10
[80,90)
16
0.32
[90,100]
合计
50
(1)填充频率分布表的空格(将答案直接填在表格内);
(2)补全频率分布直方图;
(3)若成绩在[80,100]内的学生获得环保纪念勋章,请估计该校获得环保纪念勋章的学生有多少人.
【答案】(1)表格见解析
(2)作图见解析
(3)504
【分析】(1)利用频率、频数和样本容量的关系即可完成此表格;
(2)利用表中数据计算出这个分数段对应的矩形高度即可完成频率分布直方图.
(3)先找出成绩分及以上对应的分数段的频率,再用该频率乘以总人数即可得到.
【详解】(1)由频率分布表,可知样本容量为50,
故成绩在[60,70)的频数为,
成绩在[70,80)的频率为,
成绩在[90,100]的频数为,
频率为,
故频率分布表为:
分组
频数
频率
[50,60)
4
0.08
[60,70)
8
0.16
[70,80)
10
0.20
[80,90)
16
0.32
[90,100]
12
0.24
合计
50
1
(2)频率分布直方图如图所示:
(3)样本中成绩在[80,100]的频率为0.32 + 0.24 = 0.56,
所以估计该校获得环保纪念勋章的学生人数为900×0.56 = 504.
33.(24-25高一下·河南郑州·期末)为了提高学生的消防安全意识,某地计划从当地4万名中学生中随机选取1000人参加消防安全知识测试,将他们的得分(满分:100分)分组为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并按上述分组方法得到如图所示的频率分布直方图.
(1)求m的值;
(2)在参加了消防安全知识测试,且得分在[40,50)和[80,90)内的中学生中,按比例采用分层随机抽样的方法抽取50人,求抽取的得分在[40,50)内的学生人数;
(3)若规定得分不低于70分的学生的评级为优秀,以参加了消防安全知识测试的中学生为代表,估计当地中学生评级为优秀的人数.
【答案】(1)0.015;
(2)20人;
(3)16000人.
【分析】(1)根据频率和为1列方程求参数值;
(2)(3)根据直方图估计对应区间频率,进而估计人数即可;
【详解】(1)由图得,解得.
(2)参加了消防安全知识测试的中学生中,得分在[40,50)内的频率为,
则学生人数为,
得分在[80,90)内的频率为10m=0.15,则学生人数为1000×0.15=150,
故抽取的得分在[40,50)内的学生人数为人.
(3)参加了消防安全知识测试的中学生中,得分不低于70分的频率为,
以参加了消防安全知识测试的中学生为代表,估计当地中学生评级为优秀的人数为人.
【考点五】总体百分位数的估计
34.(24-25高一上·安徽淮北·期末)样本数据的分位数为( )
A. B. C. D.
【答案】A
【分析】直接根据百分位数的定义可得结果.
【详解】将给定样本从小到大排列,得到: ,样本容量 .
计算分位数位置: ,
根据高中百分位数的计算规则,若不是整数,将向上取整,对应位置的数据即为所求分位数。
此处向上取整为,对应排序后第3个数据,为.
所以样本数据的分位数为.
【点睛】
35.(25-26高一上·河南焦作·期末)样本数据210,224,201,244的分位数为( )
A.224 B.210 C.217 D.238
【答案】A
【分析】首先将数据从小到大排列,再根据百分位数计算规则计算可得.
【详解】数据从小到大排列为201,210,224,244.
由题意可知不为整数,易得样本数据的60%分位数为224.
故选:A.
36.(25-26高一上·山东潍坊·期末)某同学收集并整理了某市2026年1月11日至18日每日最高气温(单位:℃)的数据(均为整数),并绘制了如图所示的折线图,则1月11日至18日最高气温的75%分位数是( )
A.8 B.9 C.10 D.11
【答案】D
【分析】根据百分位数的计算公式即可求解.
【详解】由题意,将数据按从小到大的顺序排列后,第6个数为10,第7个数为12,
故这组数据的75%分位数为.
故选:D
37.(25-26高一上·陕西渭南·期末)某次考试成绩第75百分位数为85分,表示至少有________%的学生成绩不低于85分.
【答案】25
【分析】根据百分位数的概念求解即可.
【详解】根据百分位数的定义,第百分位数是这样一个值,它使得至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
因此,第75百分位数为85分,意味着至少有 的学生成绩不低于85分.
故答案为:25
38.(25-26高一上·广西北海·期末)某次期中考试随机抽取了名同学的数学成绩作为样本,分别是、、、、、.则这组数据的第百分位数为________.
【答案】
【分析】利用百分位数的定义可求得结果.
【详解】因为,故这组数据的第百分位数为.
故答案为:.
39.(24-25高一下·福建福州·期末)已知一组数据,则这组数据的分位数是_________.
【答案】13
【分析】利用百分位数位置公式确定百分位数的位置,再求解百分位数即可.
【详解】由题意得数据共个数,
由百分位数位置公式得,而不是整数,向上取整为,
而的第个数是13,则这组数据的分位数是13.
故答案为:13
40.(25-26高一上·安徽蚌埠·期末)自进入12月以来,我市气温较历史同期明显偏高,气温波动起伏较大,据气象台的记录,我市12月1日至12月14日的日最高气温(单位:)为14,13,8,9,12,16,18,14,17,16,15,9,6,9,则我市12月1日至12月14日的日最高气温的分位数为__________.
【答案】15
【分析】根据百分位数的定义进行求解即可.
【详解】最高气温由小到大排列为:
6,8,9,9,9,12,13,14,14,15,16,16,17,18,
因为,
所以我市12月1日至12月14日的日最高气温的分位数为15.
故答案为:15
41.(24-25高一下·河南平顶山·期末)某校组织了“人工智能知识”测试,现随机抽取了200名学生的测试成绩(单位:分),这200名学生的成绩分布在区间内,并分成6组:第1组为,频数10;第2组为,频数20;第3组为,频数30;第4组为,频数50;第6组为,频数30,绘制成如图所示的部分频率分布直方图.
(1)请将频率分布直方图补充完整;
(2)估计这200名学生成绩的70%分位数.
【答案】(1)频率分布直方图见解析;
(2)85
【分析】(1)求出第五组的频率和即可作图得解;
(2)先求出这200名学生成绩的70%分位数所在区间范围,再列出方程即可求解.
【详解】(1)由题可得第五组为,频数为,
所以第五组的频率为,,
所以频率分布直方图如图所示:
(2)设这200名学生成绩的70%分位数为,
因为前4组频率之和为,
前5组频率之和为,
所以这200名学生成绩的70%分位数落在第5组内,
所以,所以这200名学生成绩的70%分位数为85.
42.(24-25高一下·浙江金华·期末)2025年是“全民体重管理年”,健康体重成为社会关注的新焦点.为了提升人们体重管理意识和技能,预防控制超重肥胖,某市开展“体重管理知识”宣传活动.举办了“体重管理”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(成绩均为不低于40分的整数)进行适当分组后(每组为左闭右开的区间),得到如图所示的频率分布直方图.
(1)求图中a的值与该样本数据的第60百分位数;
(2)根据该频率分布直方图,估计1000个参赛选手中有多少人能得60分及以上.
【答案】(1);;
(2)
【分析】(1)根据频率分布直方图的性质,求得,设样本数据的第60百分位数为,根据百分位数的计算方法,列出方程,即可求解;
(2)根据题意,求得得分在60分以上的参赛选手所占的比例,进而求得1000个参赛选手中得60分及以上的人数,得到答案.
【详解】(1)由频率分布直方图,可得,
解得,
可得数据在的频率为0.05,数据在的频率为0.15,数据在的频率为0.35,数据在的频率为0.65,所以第60百分位数在,
设样本数据的第60百分位数为,可得,解得,
所以第60百分位数为;
(2)样本数据中,得分在60分及以上的参赛选手所占的比例为,
所以可估计1000个参赛选手中得60分及以上的人数为.
【考点六】总体集中趋势的估计
43.(25-26高一上·山东日照·期末)一组从小到大排列的数据:1,2,3,4,5,7,,14,22,23.若分位数是中位数的两倍,则的值为( )
A.10 B.11 C.12 D.14
【答案】A
【分析】利用百分位数和中位数的公式求解.
【详解】1,2,3,4,5,7,,14,22,23共个数,
,第分位数为第个数和第个数的平均数,即,
这个数的中位数为,
分位数是中位数的两倍,
,.
故选:A.
44.(25-26高一上·江西吉安·期末)数据,,,的平均数是4,则数据,,,的平均数是( )
A.9 B.10 C.11 D.12
【答案】C
【分析】若,,,的平均数为,则,,,的平均数是.利用此公式求解.
【详解】设,,,的平均数为,
,,,的平均数是,
,,,的平均数是.
故选:C.
45.(25-26高一上·辽宁锦州·期末)某校组织了一次航空知识竞赛,甲、乙两个班级各派8名同学代表参赛.两个班级的数学课代表合作,将甲、乙两班所有参赛同学的得分绘制成如图所示的茎叶图,则下列结论正确的是( )
A.甲班参赛同学得分的极差比乙班参赛同学得分的极差大
B.甲班参赛同学得分的中位数比乙班参赛同学得分的中位数高
C.甲班参赛同学得分的平均数为84
D.乙班参赛同学得分的75%分位数为89
【答案】C
【分析】A. 利用极差的定义求解判断; B.利用中位数的定义求解判断; C.利用平均数的定义求解判断; D.利用百分位数的定义求解判断.
【详解】对A,甲班参赛同学得分的极差为,
乙班参赛同学得分的极差为,故A错误;
对B,甲班参赛同学得分的中位数是,
乙班参赛同学得分的中位数是,故错误;
对C,甲班参赛同学得分的平均数为,故正确;
对D,乙班参赛同学得分为71,80,81,82,85,89,90,94,,
取第6个与第7个数的平均数为第75百分位数,即为,故错误.
故选:C.
46.(多选)(25-26高一上·辽宁沈阳·期末)为了了解某次数学测验学生的得分情况,数学老师从甲、乙两个班分别随机选取若干名学生成绩,整理后作出图表.甲班所选取同学成绩作出图(1),且图中;乙班所选取同学成绩作出图(2),且图中有一个数字污损不清.则下列说法正确的是( )
A.
B.若图(2)中现有数据的平均数和污损前相等,则图(2)污损前数据的众数为76
C.若直方图中每个数据都用该区间的中点值代替,则估计甲班同学成绩的平均数为76
D.估计乙班同学成绩的75%分位数为85
【答案】BCD
【分析】根据频率分布直方图的性质,可判断A的正误;根据平均数的求法及众数的概念,可判断B的正误;根据频率分布直方图中平均数的求法,代数计算,可判断C的正误;根据百分位数的求法,可判断D的正误.
【详解】选项A:因为,所以设,则,
由题意得, 所以,解得,
所以,故A错误;
选项B:图(2)中现有数据为58,64,66,73,76,83,85,88,91,
平均数为,
因为现有数据的平均数和污损前相等,所以被污损数字为6,成绩为76,
则图(2)污损前数据的众数为76,故B正确;
选项C:甲班同学成绩的平均数,故C正确;
选项D:设被污损成绩为a,则,
所以乙班同学的成绩为58,64,66,73,76,a,83,85,88,91,
则,所以乙班同学成绩的75%分位数为85,故D正确.
故选:BCD
47.(多选)(25-26高一上·安徽蚌埠·期末)2025年,教育部将“中小学生心理健康促进行动”列为年度重点工作,强调合理安排学习时长是保障学生心理健康的关键.某市随机抽取120名高一学生,调查其日均课后学习时间(含作业、复习等),所得数据绘制成频率分布直方图如下(时间单位:小时,组距0.5小时),则正确的选项是( )
A.该市高一年级学生日均课后学习时间超过3小时的概率估计为0.35
B.该样本的日均课后学习时间的中位数估计为2.625小时
C.估计该市高一年级学生日均课后学习时间在2小时至2.5小时之间的人数最多
D.估计该市高一年级有一半以上的学生日均课后学习时间在2小时至3小时之间
【答案】ABC
【分析】根据用频数估计概率、中位数的定义,结合频率直方图逐一判断即可.
【详解】A:该市高一年级学生日均课后学习时间超过3小时的频率为
,用频率估计概率,所以本选项说法正确;
B:因为,
所以样本的日均课后学习时间的中位数在这一组中,设为,
所以,因此本选项说法正确;
C:由频率直方图可知高一年级学生日均课后学习时间在2小时至2.5小时之间的人数最多,所以本选项说法正确;
D:因为,
所以估计该市高一年级没有一半以上的学生日均课后学习时间在2小时至3小时之间,
因此本选项说法不正确.
故选:ABC
48.(25-26高一上·广西桂林·期末)已知一组数据2,3,5,11,x,7,8的平均数是6,则该组数据的中位数为________.
【答案】6
【分析】先根据平均数的计算公式求出的值,再将这组数据从小到大排序,根据中位数的定义求出中位数.
【详解】由已知可得,解得.
将数据从小到大排序为2,3,5,6,7,8,11,
则该组数据的中位数为6.
故答案为:6.
49.(24-25高一下·四川巴中·期末)某大品牌家电公司从销售员工中随机抽出50名调查销售情况,销售额都在区间(单位:百万元)内,将其分成5组:,,,,,并整理得到如右的频率分布直方图,据此估计销售员工销售额的平均值为__________(百万元),(同一组中的数据用该组区间的中点值为代表).
【答案】14.52
【分析】根据频率和为1求得,再由频率直方图求平均值即可.
【详解】由题设,可得,
所以平均值为.
故答案为:
50.(25-26高一上·陕西渭南·期末)某中学初一男生共有400人,为了解初一男生的体重情况,该中学统计了所有初一男生的体重(单位:千克),并将数据按照,,,,分成5组,画成如图所示的频率分布直方图.
(1)估计这400名男生的平均体重(同组数据用该组区间中点值作代表);
(2)根据体重区间,按比例分层抽样,从体重不足48千克的男生中抽取38人了解营养状况,试计算分别应当抽取体重在区间,,上的人数依次为多少?
【答案】(1)45.04千克
(2)6,14,18
【分析】(1)利用频率分布直方图计算平均数即可求解;
(2)根据频率分布直方图先计算各组的频数,再利用分层抽样即可求解.
【详解】(1),
故可估计这400名男生的平均体重为45.04千克;
(2)由题意得:
应当抽取体重在区间上的男生人数为:人;
应当抽取体重在区间上的男生人数为:人;
应当抽取体重在区间上的男生人数为:人.
故分别应当抽取体重在区间,,上的人数依次为6,14,18.
51.(25-26高一上·江西景德镇·期末)江西乐平是江南菜乡,古戏台之乡.为帮助学生更充分地了解家乡,现随机选择100名学生,对乐平相关地理文化知识进行趣味答题测验(满分120分),根据得分,制成如图所示的频率分布直方图.
(1)求的值;
(2)求这100人的得分的平均数(以各组的区间中点为代表);
(3)测试分数位列前的学生将得到奖品,估计获得奖品的分数至少为多少分.
【答案】(1)
(2)
(3)
【分析】(1)根据所有矩形的面积和为1即可求出的值;
(2)根据频率分布直方图的平均数公式计算即可;
(3)利用频率分布直方图百分位数的计算方法求得第百分位数即可.
【详解】(1)由,
解得:
(2)这100人的得分的平均数
(3)测试分数位列前的学生将得到奖品,估计获得奖品的分数等价于获得奖品分数的第百分位数,
因为,
,
所以第80百分位数在,设第80百分位数为,
则,
解得:分
则测试分数位列前的学生将得到奖品,估计获得奖品的分数至少为分
【考点七】总体离散程度的估计
52.(24-25高一下·湖南衡阳·期末)从A队30人、B队20人中,按照分层随机抽样的方法从两队共抽取5人.进行一轮答题竞赛.相关统计情况如下:A队答对题目数的平均数为2,方差为1.5;B队答对题目数的平均数为1.方差为0.4,则这5人答对题目数的方差为( )
A.1.3 B.1.06 C.0.95 D.0.8
【答案】A
【分析】先求得整体平均数,然后根据总方差的计算公式求得正确答案.
【详解】显然抽取A队3人,B队2人,整体平均数,
故总方差.
故选:A
53.(24-25高一下·陕西宝鸡·期末)数据6,4,3,6,3,8,8,3,1,8,则关于这组数据下列说法错误的是( )
A.中位数为5 B.方差为1.6
C.平均数为5 D.85%分位数为8
【答案】B
【分析】将数据重写排列,然后分别按照中位数,方差,平均数,百分位数概念计算判断即可.
【详解】将数据从小到大排列为1,3,3,3,4,6,6,8,8,8,
中位数为,平均数为,
由,所以85%分位数为第9个数为8,
方差为,
所以ACD正确,B错误.
故选:B
54.(25-26高一上·河南·期末)从小到大排列的一组数据:90,92,x,96,98,99,若这组数据的第40百分位数与平均数相同,则这组数据的方差为( )
A.8 B.9 C.10 D.11
【答案】C
【分析】根据百分位数和平均数的定义计算,最后再利用方差公式计算.
【详解】共个数,因为,所以第40百分位数为,
平均数为,
则,得,
则这组数据的方差为.
故选:C
55.(多选)(24-25高一下·新疆乌鲁木齐·期末)一组单调递减数据的平均数、极差、中位数、方差依次为,构造一组新的数据,其中,新数据的平均数、极差、中位数、方差依次为,则下列结论中正确的是( )
A.若,则
B.
C.若,则
D.若,则
【答案】ABD
【分析】根据平均数、极差、中位数、方差的线性规律可得.
【详解】,,故A正确;
,故B正确;
,又,解得,故C错误;
,即,又,解得,故D正确;
故选:ABD.
56.(多选)(24-25高一下·河南商丘·期末)已知一组数据,由()生成的一组新数据,则( )
A.新数据的极差可能与原数据的极差相等
B.新数据的平均数可能与原数据的平均数相等
C.新数据的中位数一定比原数据的中位数大
D.新数据的标准差一定比原数据的标准差大
【答案】BD
【分析】根据极差、平均数、中位数、标准差的定义,分别算出新数据的数值与原数据比较可得.
【详解】对于,数据的极差为,
新数据的极差为,故A错误;
对于,设数据的平均数为,则,
所以新数据的平均数为,
则当时,,故B正确;
对于,数据的中位数为,
新数据的中位数为,当时,,故C错误;
对于,设数据的标准差为,
则,
新数据的方差为[],
新数据的标准差为4s,故新数据的标准差一定比原数据的标准差大,故D正确.
故选:BD.
57.(24-25高一下·湖南衡阳·期末)衡阳市一中高一某班45名学生成立了A、B两个数学兴趣小组,A组25人,B组20人,经过一个月的强化培训后进行了一次测试,在该次测试中,A组的平均成绩为82分,方差为8,B组的平均成绩为86.5分,方差为2,则在这次测试中全班学生成绩的方差为________.
【答案】/
【分析】利用分层抽样的方差公式计算即可.
【详解】设,,,,,,
则全班学生成绩的平均数为,
全班学生成绩的方差为,
故答案为:
58.(24-25高一下·湖北武汉·期末)湖州地区甲、乙、丙三所学科基地学校的数学强基小组人数之比为,三所学校共有数学强基学生48人,在一次统一考试中,所有学生的成绩平均分为117,方差为22.5,已知甲、乙两所学校的数学强基小组学生的学均分分别为118和114,方差分别为15和21,则丙学校的学生成绩的方差是__________.
【答案】18
【分析】计算各校人数,标记平均值和方差,确定,,计算得到答案.
【详解】甲、乙、丙三所学科基地学校的数学强基小组人数之比为,
三所学校共有数学强基学生48人,
甲校的数学强基小组人数24;
乙校的数学强基小组人数为16;
丙校的数学强基小组人数8,
把甲校的数学强基小组学生的平均分记为,方差记为;
把乙校的数学强基小组学生的平均分记为,方差记为;
把丙校的数学强基小组学生的平均分记为,方差记为;
把所有学生的平均分记为,方差记为.
根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,
可得,即,解得,
,
即,解得.
故答案为:18.
59.(25-26高一上·陕西渭南·期末)澄城县统计局对两所高中高一学生的月考数学成绩进行抽样分析,得到如下数据:
甲校:85,88,90,92,95
乙校:80,85,90,95,100
(1)分别计算两校样本的平均数、极差和方差;
(2)若以“成绩稳定且优秀”为标准,哪所学校表现更好?说明理由.
【答案】(1)甲:均值90,极差10,方差;乙:均值90,极差20,方差50;
(2)甲校方差小,成绩更稳定,表现更好.
【分析】(1)根据两个学校的数据,分别代入平均数,极差,方差公式,即可求解;
(2)根据平均数和方差的大小,判断哪所学校表现更好.
【详解】(1)甲校的平均数,极差为,
方差为,
乙校的平均数,极差为,
方差为.
(2)两个学校的平均水平一样,但甲校的方差小,所以甲校的成绩更稳定,表现更好.
60.(24-25高一下·湖南·期末)在第七届全国文明城市评审中,某市一机关为了了解干部对家乡文明城市创建的认知程度,举办了一场知识竞赛,满分100分(95分及以上为认知程度高),结果认知程度高的有m人,按年龄分成5组,其中第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计这m人年龄的众数、第95百分位数;
(2)现从以上各组中用分层随机抽样的方法抽取20人,担任该机关创建文明城市的宣传使者.
①从年龄组第四组:和第五组:应各抽取多少人?
②第四组:平均年龄37岁,方差为2.5,第五组:平均年龄43岁,方差为4,求第四组和第五组的总方差.
【答案】(1)众数为27.5,第95百分位数为
(2)①4人,2人;②11
【分析】(1)根据给定的频率分布直方图,可求得众数与95百分位数.
(2)利用分层抽样求出第四组、第五组抽取的人数,再利用分层抽样的方差计算公式计算即可.
【详解】(1)由频率分布直方图可知 众数的估计值为27.5,
由频率分布直方图可知,第95百分位数在第五组内,
设第95百分位数为,
,解得;
(2)①由频率分布直方图可知,第四组的频率为0.2,第五组的频率为0.1,
第四组应该抽取人,
第五组应该抽取人;
②第四组和第五组的平均数为,
.
1
学科网(北京)股份有限公司
$