内容正文:
第13章 统计
知识点01 总体与样本
1.在统计问题中,研究对象的全体叫做总体,总体中的每一个对象叫做个体,从总体中抽取的一部分个体叫做这个总体的一个样本,样本所包含个体的数量称为样本容量.
2.用来描述样本特征的概括性数字度量,称为统计量。
知识点02 数据的获取
通常,按照收集数据的不同方法,可以将数据分为观测数据和实验数据。
对总体的每个个体分别进行调查,我们称之为普查。
从总体中抽取样本的过程称为抽样,通过抽样进行调查研究的方法叫做抽样调查。
知识点03 抽样方法
抽样调查是获取数据的一种重要方式,常用的抽样方法有简单随机抽样、分层随机抽样等.
在抽样的过程中通过逐个抽取的方法抽取样本,且总体的每一个个体都有同样的可能性被选入样本,这种抽样方法叫做简单随机抽样.
1. 抽签法
用抽签法从个体个数为N的总体中抽取一个容量为k的样本的步骤:
(1)将总体中的N个个体编号;
(2)将这N个号码写在形状、大小相同的号签上;
(3)将号签放在同一箱中,并搅拌均匀;
(4)从箱中每次抽出1个号签,连续抽取k次;
(5)将总体中与抽到的号签的编号一致的k个个体取出.
2. 随机数表法
(1)相关概念
制作一个表,这个表由0,1,2,3,4,5,6,7,8,9这10个数字组成,表中任一位置出现任一数字的概率相同,且不同位置的数字之间是独立的. 这样的表称为随机数表,其中的每个数都称为“随机数”. 于是,我们只要按一定的规则从随机数表中选取号码就可以了. 这种抽样方法叫作随机数表法.
(2)用随机数表法抽取样本的步骤
①对总体中的个体编号(每个号码位数一致).
②在随机数表中任选一个数.
③从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过. 如此继续下去,直到取满为止.
④根据选定的号码抽取样本.
3.分层抽样
(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
4. 分层随机抽样步骤
(1)将总体按一定标准分层;
(2)计算各层的个体数与总体的个体数的比;
(3)按各层的个体数占总体的个体数的比确定各层应抽取的样本容量;
(4)在每一层进行抽样(可用简单随机抽样).
知识点04统计图表
1.频率分布表和频率分布直方图:可用于表示数据在不同区间上的分布情况;
2.频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
3.频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
4.频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
5.茎叶图:通常在数据量不大的情况下使用,其特点是保留了数据的原始信息;
6.散点图:可以考察两组数据的变化趋势.
知识点05 统计估计
1.总体分布密度曲线:如果将样本容量取得足够大,且分组的组距取得足够小,那么相应的频率分布折线图将趋于一条光滑的曲线,称为总体分布密度曲线。
2.数字特征:我们把能反映一组数据某种特征的量称为这组数据的数字特征.
3.样本的数字特征
数字特征
定义
众数
在一组数据中,出现次数最多的数据叫做这组数据的众数
中位数
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数
平均数
样本数据的算术平均数,即=
方差
S ²=[(x1-)2+(x2-x)2+…+(xn-x)2],其中s为标准差
4.百分位数
如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.
计算一组n个数据的第p百分位数的步骤:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
注意点:
(1)中位数相当于是第50百分位数.除了中位数外,常用的分位数还有第25百分位数,第75百分位数.
(2)第25,50,75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
(3)第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
一、抽样方法相关易错点
1.抽样随机性不足:在抽样过程中,若样本选择缺乏随机性,会导致样本代表性偏差。例如,仅调查某个特定区域的受访者,或依赖方便获取的群体作为样本,如商场顾客,而非随机抽取,都可能使样本特征与总体不符。
2.抽样框不完整:抽样框是抽样的基础,如果存在缺失部分目标群体的情况,就会造成样本覆盖不全。比如使用过时的电话簿抽样,可能遗漏无固定电话或使用手机的人群,或者未整合多个数据源,导致部分目标个体未被纳入抽样框。
3.抽样比例失衡:不同群体在样本中的比例设置不合理,也会影响结果的准确性。如年龄分层比例过窄,可能忽略特定年龄段的需求,或者总体中某一群体占比较大,但在样本中占比过小,导致该群体的特征不能得到充分体现。
4.混淆抽样方法的适用范围:简单随机抽样适用于总体的个体数不多的情况,若总体个体数较多,采用简单随机抽样可能会比较繁琐,此时更适合采用系统抽样或分层抽样等方法。但学生可能会不考虑总体规模,错误地选择抽样方法。
一、单选题
1.(23-24高二上·上海长宁·期末)①植物根据植株的高度及分枝部位等可以分为乔木、灌木和草木三大类,某植物园需要对其园中的不同植物的干重(烘干后测定的质量)进行测量;②检测员拟对一批新生产的1000箱牛奶抽取10箱进行质量检测;上述两项调查应采用的抽样方法是( )
A.①用简单随机抽样,②用分层随机抽样 B.①用简单随机抽样,②用简单随机抽样
C.①用分层随机抽样,②用简单随机抽样 D.①用分层随机抽样,②用分层随机抽样
【答案】C
【分析】根据简单随机抽样和分层随机抽样的特点进行判断即可.
【详解】①乔木、灌木、草木,分类明显,可以采用分层随机抽样;
②并未有明显分层特点,且样本容量较小,可以采用简单随机抽样;
故选:C.
2.(24-25高二下·上海静安·期末)自2016年起,每年4月24日设立为“中国航天日”,以纪念1970年4月24日长征一号火箭将我国第一颗人造地球卫星“东方红一号”成功送入太空.2025年4月24日是第10个“中国航天日”,搭乘陈冬、 陈中瑞、王杰3名航天员的神舟二十号载人飞船成功发射,以更有纪念意义的太空行动完成了对中国第10个航天日的庆祝活动,同时神舟十九号载人飞船航天员蔡旭哲、宋令东、王浩泽也于五一国际劳动节前夕凯旋回家.
某学校举行了“我向航天员提问”的趣味活动,同学们踊跃参与了活动.现从同学们提出的问题中初选40个不同类型问题进行连续编号(每个编号都由两个数字组成):01,02,03,…39,40,从中随机抽取5个问题请大家投票排名.从下列随机数表第1行第16个数字2开始由左向右依次选取两个数字,重复的跳过,则选出的5个问题编号依次为( )
A.28,03,36,24,40 B.03,36,24,40,04
C.28,03,65,67,52 D.28, 03,40,01,11
【答案】D
【分析】根据随机数表依次抽取即可.
【详解】从随机数表第1行第16个数字2开始由左向右依次选取两个数字为:28,03,65(舍去),67(舍去),52(舍去),40,44(舍去),01,85(舍去),11.
所以选出的5个问题编号依次为:28,03,40,01,11.
故选:D
3.(23-24高二上·上海·期末)已知一个总体含有N个个体,要用简单随机抽样方法从中抽取一个个体,则在抽样过程中,每个个体被抽取的概率( )
A.变小 B.变大 C.相等 D.无法确定
【答案】C
【分析】由简单随机抽样的定义可知每个个体被抽取的概率相等.
【详解】一个总体含有N个个体,要用简单随机抽样方法从中抽取一个个体,
则在抽样过程中,每个个体被抽取的概率为.
故选:C.
4.(24-25高二下·上海·阶段练习)从101个人进行一次抽样时,先采用抽签法从中剔除1个人,再在剩余的100个人中采用随机数表法抽取10个人,那么下列说法正确的是( )
A.这是一种科学的抽样方法
B.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
【答案】A
【分析】先说明采用抽签法每个人被剔除概率都相等,都是,不被剔除的概率也相等,都是,即可判断B;然后采用随机数表法,在没被剔除的100人中被抽到概率都是,即可判断C,综合B,C,即可判断D;综和B,C,D即可判断A.
【详解】由于先采用抽签法,从101个人中剔除1个人,
对101个人中的每个人来说被抽到(即被剔除)概率都相等,都是,
不被剔除的概率也相等,都是,故B错误;
然后采用随机数表法,在剩余的100个人中抽取10个人,
如果被抽到,概率为,也是相等的,故C错误;
所以由B,C可知,每个人被剔除的概率都是相等的,都是;
没被剔除,然后被抽到的概率也是相等的,都是,故D错误;
所以综上可知这是一种科学的抽样方法,故A正确.
故选:A
二、填空题
5.(22-23高二下·上海普陀·阶段练习)已知某校高一(1)班有男生28人,女生21人,用分层抽样的方法从该班级中抽取若干人.已知某男生被抽中的概率为,则抽取的女生人数为 .
【答案】3
【分析】由某男生被抽中的概率可得女生被抽中的概率,根据分层抽样的定义可求抽取的女生人数.
【详解】因为某男生被抽中的概率为,所以女生被抽中的概率为,
所以抽取的女生人数为.
故答案为:3.
6.(22-23高二下·上海黄浦·阶段练习)某高中共有学生人,其中高一、高二、高三的学生人数比为,现用分层抽样的方法从该校所有学生中抽取一个容量为60的样本,则高三年级应该抽取 人.
【答案】
【分析】根据由已知可求得抽样比,再求出高三的学生数,即可求出结果.
【详解】设高一学生数为,则高二学生数为,高三学生数为,
所以,该高中共有学生数为,解得,
用分层抽样的方法从该校所有学生中抽取一个容量为60的样本,抽样比为,
所以高三年级应该抽取人.
故答案为:.
7.(22-23高二下·上海浦东新·阶段练习)某高中共有1500人,高一、高二、高三年级人数比为人,现用分层抽样调查学生的近视状况,共调查150人,则高二年级应调查的人数为 .
【答案】
【分析】根据三个年级的人数比,求出高二年级人数占总人数的比例,用样本容量乘以高二年级人数占总人数的比例,即可得出高二年级应调查的人数.
【详解】因为高一、高二、高三年级人数比为人,
所以高二年级人数占总人数的比例是,
因为用分层抽样的方法从该学校高中三个年级中抽取容量为150的样本,
所以从高二年级抽取,
故答案为:50.
8.(22-23高二上·上海徐汇·期末)某校要从高一、高二、高三共2023名学生中选取50名组成志愿团,若先用简单随机抽样的方法从2023名学生中剔除23名,再从剩下的2000名学生中按分层随机抽样的方法抽取50名,则每名学生入选的可能性为 .
【答案】
【分析】应用随机抽样定义,每各个体被抽到的概率相等求解即可.
【详解】先用简单随机抽样的方法从2023名学生中剔除23名,每各个体被抽到的概率相等,
再从剩下的2000名学生中按分层随机抽样的方法抽取50名,则每名学生入选的可能性为
故答案为:
9.(24-25高二下·上海杨浦·期末)某高中为了了解高二年级学生的作业情况,利用随机数表对该校400名高二学生进行抽样,先将所有学生按进行编号,从中抽取40个样本.若从下面的随机数表中第1行第6列的数开始,依次向右,到行末后转至下一行的行首,逐个取样,直到取足样本为止,则得到的第3个样本编号是 .
【答案】
【分析】按照随机数表提供的数据,三位一组,并取到内的数,不重复取,选取个数即可.
【详解】选取的位数依次为,,(舍),,
则得到的第3个样本编号是.
故答案为:
10.(22-23高二上·上海黄浦·期末)一个总体分为两层,用分层抽样方法从总体中抽取一个容量为的样本.已知层中每个个体被抽到的概率都是 ,则总体中的个体数为 .
【答案】
【分析】根据分层抽样每个个体抽到的概率相等,即可求出结论
【详解】因为用分层抽样方法从总体中抽取一个容量为的样本.
由层中每个个体被抽到的概率都为 ,知道在抽样过程中每个个体被抽到的概率是,
所以总体中的个体数为.
故答案为:.
11.(22-23高二下·上海浦东新·期末)为了了解同学们的作业量,学校决定采用分层抽样的方法从高一、高二、高三学生中选取150人进行调查,已知高一学生有400人,高二学生有500人,高三学生有600人,则应抽取的高三学生人数为 .
【答案】60
【分析】根据分层抽样的定义求解即可.
【详解】由题可知,三个年级共有人,
抽样比例为,
则抽取的学生中,高三年级有人.
故答案为:60.
12.(23-24高二上·上海·阶段练习)管理人员为了了解某水库里大概有多少条鱼,拖网打捞出1000条鱼,在鱼身处打上一个不会掉落的印记,再放回水库,一个月后再次捕捞1000条鱼,发现其中有20条有印记的鱼,问:这个水库里大概有 条鱼.
【答案】
【分析】设这个水库里大概有条鱼,利用等比例性质求即可.
【详解】令这个水库里大概有条鱼,由题意有,可得条.
故答案为:
13.(24-25高二下·上海·阶段练习)某高中为了了解学生收看空中课堂的具体情况,利用分层抽样的方法从高中三个年级的学生中随机抽取了200名进行问卷调查,其中从高一年级的学生中抽取了40名,从高二年级的学生中抽取了50名,若高三年级共有学生440名,则该高中共有学生 名.
【答案】800
【分析】首先求出样本中高三年级抽取的学生数,即可求出该高中共有的学生数.
【详解】依题意可得样本中高三年级抽取了名学生,
所以该高中共有学生名学生。
故答案为:.
14.(24-25高二上·上海黄浦·阶段练习)某果园种植了240棵苹果树,现从中随机抽取了20棵苹果树,算得这20棵苹果树平均每棵产量为28kg,则预估该果园的苹果产量为 kg.
【答案】6720
【分析】将样本均值视为总体均值,即可估计果园的苹果产量.
【详解】将样本均值视为总体均值,故预估该果园的苹果产量为kg.
故答案为:
15.(24-25高二下·上海·阶段练习)某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,..,899进行编号,从中抽取90个样本,若选定从第4行第4列的数开始向右读数,(下面摘取了随机数表中的第3行至第5行),根据下图,读出的第6个数的编号是 .
1676622766
5650267107
3290797853
1355385859
8897541410
1256859926
9682731099
1696729315
5712101421
8826498176
5559563564
3854824622
3162430990
0618443253
2383013030
【答案】315
【分析】利用随机数表的质并结合题意求解即可.
【详解】由题意最先读到的1个的编号是685,
向右读下一个数是992,992它大于899,故舍去,
再下一个数是696,再下一个数是827,再下一个数是310,
再下一个数是991,舍去,再下一个数是696,舍去,再下一个数是729,
再下一个数是315,则读出的第6个数是315.
故答案为:315
二、频率分布直方图相关易错点
1.纵轴意义理解错误:频率分布直方图的纵轴表示 “”,而不是频率。若误将纵轴当作频率,会导致计算频率时出错。
2.频率计算错误:频率应通过 “频率 = 组距 ×” 来计算,即频率等于该区间对应的矩形面积。如在计算员工年薪在某区间的频率时,若没有正确计算矩形面积,就会得出错误的频率值。
3.分组问题:分组时组距和组数的确定要合理。若组距过大,会掩盖数据的分布特征;若组距过小,数据会过于分散,也不利于观察数据的规律。同时,在确定分组区间时,要注意边界值的处理,确保每个数据都能准确归入相应的组。
一、填空题
1.(22-23高二上·上海浦东新·期末)如图所示的是某班60名同学参加2011年高中数学毕业会考所得成绩(成绩均为整数)整理后画出的频率分布直方图,
根据图中可得出的该班不及格(60分以下)的同学的人数为 .
【答案】15
【分析】先算出分数是60以下的频率,再乘以总人数即可.
【详解】由图可知:分数是60以下的频率为 ,所以人数为 ;
故答案为:15.
2.(24-25高二上·上海·期末)已知某校高一年级所有学生的体重(单位:kg),且最大值为98,最小值为44.在制作频率分布直方图时,要对这些体重数据进行分组.若组距为5,则将数据分成 组为宜.
【答案】
【分析】计算出极差,即可得解.
【详解】因为最大值为98,最小值为44,则,
又组距为5,则将数据分成组.
故答案为:
3.(24-25高二上·上海·期末)某校抽取100名学生测量他们的身高,其山最大值为,最小值,绘制身高频率分布直方图,若组距为5,且第一组下限为,则组数为 .
【答案】7
【分析】根据组距即可求解.
【详解】,则组数为7.
故答案为:7.
二、解答题
4.(22-23高二下·上海金山·阶段练习)为庆祝神舟十四号载人飞船返回舱成功着陆,某学校开展了航天知识竞赛活动,共有100人参加了这次竞赛,已知所有参赛学生的成绩均位于区间,将他们的成绩(满分100分)分成五组,依次为、、、、,制成如图所示的频率分布直方图.
(1)求出的值,并用各区间的中间值估计这100人的竞赛成绩的平均数;
(2)采用按比例分配的分层抽样的方法,从竞赛成绩在(即第四、五组内)的学生中抽取了12人作为航天知识宣讲使者.现从这12名使者中随机抽取1人作为组长,求这名组长的竞赛成绩在内的概率.
【答案】(1),73.5
(2)
【分析】(1)由频率之和为解,由频率分布直方图中平均数的估计方法求解平均数即可;
(2)先由分层抽样的方法确定每层的人数,然后由古典概率公式计算概率即可.
【详解】(1)由,解得;
这100人的竞赛成绩的平均数估计为:
.
(2)成绩在的频率为0.25,成绩在的频率为0.05,
所以竞赛成绩在,两个组的人数之比为,
采用分层抽样的方法从中抽取人,
所以成绩在抽得的人数为人,
成绩在抽得的人数为人.
现从这12名使者中随机抽取1人作为组长,
则这名组长的竞赛成绩在内的概率为.
5.(25-26高二上·上海奉贤·阶段练习)为进一步增强学生的疫情防控意识,友实学校组织学生进行了新冠肺炎疫情防控科普知识线上问答,共有100人参加了这次问答,将他们的成绩(满分100分)分成六组:,,,,,,制成如图所示的频率分布直方图.
(1)求图中的值;
(2)用分层抽样的方法从问答成绩在内的学生中抽取24人参加疫情防控知识宣讲,那么在,,内应各抽取多少人?
【答案】(1)
(2),,
【分析】(1)由各小矩形的高之和为求解;
(2)由比例求解.
【详解】(1).
(2)因为,
所以在,,内应各抽取:
,,.
故在,,内分别抽取,,人.
6.(24-25高二上·上海奉贤·期中)2022年2月4日,第24届冬季奥林匹克运动会开幕式在北京国家体育场(鸟巢)举行,某调研机构为了了解人们对“奥运会”相关知识的认知程度,针对本市不同年龄和不同职业的人举办了一次“奥运会”知识竞赛,满分100分(95分及以上为认知程度高),结果认知程度高的有人,按年龄分成5组,其中第一组,第二组,第三组,第四组,第五组,得到如图所示的频率分布直方图,已知第一组有10人.现从以上各组中用分层随机抽样的方法选取20人,担任本市的“奥运会”宣传使者.
(1)若有甲(年龄38),乙(年龄40)两人已确定入选,现计划从第四组和第五组被抽到的使者中,再随机抽取2名作为组长,求甲、乙两人至少有一人被选上的概率;
(2)若第四组宣传使者的年龄的平均数与方差分别为36和,第五组宣传使者的年龄的平均数与方差分别为42和1,据此估计这人中35~45岁所有人的年龄的方差.
【答案】(1)
(2)
【分析】(1)根据古典型概念公式可得;
(2)根据分层抽样平均数和方差公式可得.
【详解】(1)由题意得,第四组应抽取人,记为(甲),,,,
第五组抽取人,记为(乙),,对应的样本空间的样本点为:
,
,设事件为“甲、乙两人至少一人被选上”,
则,
所以;
(2)设第四组、第五组的宣传使者的年龄的平均数分别为,,方差分别为,,
则,,,,
设第四组和第五组所有宣传使者的年龄平均数为,方差为,
则,
,因此第四组和第五组所有宣传使者的年龄方差为10.
据此估计这人中35~45岁所有人的年龄的方差为10.
7.(23-24高二上·上海宝山·阶段练习)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定A+、A、B+、B、B-、C+、C、C-、D+、D、E共5等11级,然后在相应赋分区间内利用转换公式进行赋分,A+和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)求图中的值;
(2)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取6人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中恰有一人原始成绩在内的概率;
(3)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差(结果精确到0.1).
【答案】(1)0.03
(2)
(3),
【分析】(1)借助频率之和为1即可得;
(2)根据分层抽样,计算出每个区间中的人数,结合概率公式即可得;
(3)借助平均数、方差与标准差的定义计算即可.
【详解】(1),解得;
(2)由原始分在和中的频率之比为,
故抽取的6人中,原始分在中的有人,记为、,
原始分在中的有人,记为、、、,
则从人中抽取人所有可能的结果有:
,,,,,,,,
,,,,,,,
共个基本事件,
其中抽取这2人中恰有一人原始成绩在内的结果有,
,,,,,,,,
共个基本事件,
故这2人中恰有一人原始成绩在内的概率;
(3),
,
故其估计值为.
三、茎叶图相关易错点
1.“叶” 的记录错误:茎叶图中 “叶” 的位置只有一个数字,且重复出现的数据要重复记录,不能遗漏。如果在绘制茎叶图时没有按照这个规则进行,就会导致数据展示错误,进而影响对数据的分析和统计。
2.数字特征估计错误:给定两组数据的茎叶图,估计数字特征时,一般茎上的数字由小到大排列,“重心” 下移者平均数较大,数据集中者方差较小。但如果对茎叶图的形态分析不准确,就可能会错误地估计平均数和方差等数字特征。
一、单选题
1.(22-23高二上·上海浦东新·期末)小明同学每天阅读数学文化相关的书籍,他每天阅读的页数分别为:4、5、4.5、5、6、8、7、5、4.5、6(单位:页).下列图形中不利于描述这些数据的是( )
A.条形图 B.茎叶图 C.散点图 D.扇形图
【答案】C
【分析】根据相关图的特征理解判断.
【详解】条形图:是用宽度相同的条形的高度(或长度)表示数据的频数,故符合题意;
茎叶图:即可以保留原始数据又可以方便记录数据,故符合题意;
散点图:用两组数据构成多个坐标点,通常用于比较跨类别的成对数据,不符合题意;
扇形图:是用整个圆表示总体,用圆内各个扇形的大小表示各个部分占总体的百分数,扇形图可以容易看出各个部分所占总体的比例,故符合题意;
故选:C.
二、填空题
2.(24-25高二上·上海·阶段练习)某次数学考试后,随机选取14位学生的成绩,得到如下茎叶图,其中个数部分作为“叶”,百位数和十位数作为“茎”,若该组数据的第25百分位数是87,则x的值为 .
【答案】7
【分析】根据题意结合百分位数的概念运算求解.
【详解】,则该组数据从小到大排列后的第四位数是87,即,
故答案为:7.
3.(24-25高二下·上海徐汇·阶段练习)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据.若这两组数据的中位数相等,且平均值也相等,则
【答案】8
【分析】根据茎叶图中的数据,结合题意条件,建立方程组,求解得到的值即可.
【详解】由茎叶图可知,甲组数据从小到大顺序为:,其中位数为65,
平均值为;
乙组数据从小到大顺序为:,其中位数为,
平均值为.
依题意有:,解得,故.
故答案为:8.
4.(22-23高二上·上海虹口·期中)某社区安置了15个体温检测点,每个检测点每天检测的人数都是随机的,不受位置等因素影响,如图是由2021年1月1日检测人数绘制的茎叶图,则某个检测点在这一天检测人数达145及以上的概率是 .
13
0
2
4
6
14
0
0
0
5
6
8
8
15
2
3
3
4
【答案】
【分析】根据茎叶图中的数据即可求解.
【详解】由茎叶图可知:
检测人数达145及以上的有8个检测点,占全部的,
由古典概型可知:
这个检测点在这一天检测人数达145及以上的概率为.
故答案为:
5.(22-23高二·上海·单元测试)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值 .
甲
乙
7
2
n
9
m
3
2
4
8
【答案】
【分析】由乙数据可得中位数,即可求m,再由甲数据求平均数为33,即可求n,即可结果.
【详解】由图知:甲数据为,乙数据为,且,
显然乙的中位数为,故,则,
所以平均数为,即,可得,
故.
故答案为:
6.(22-23高二上·上海徐汇·期末)从本市某高中全体高二学生中抽取部分学生参加体能测试,按照测试成绩绘制茎叶图,并以,,,,为分组作出频率分布直方图,后来茎叶图受到了污损,可见部分信息如图,则a的值为 .
【答案】
【分析】根据频率分布图可得组内有2个数据.结合茎叶图和频率分布直方图可知样本容量,即可得出组内的数据有4个,进而求出a的值.
【详解】由频率分布直方图可得,组内数据的频率等于组内数据的频率,所以组内有2个数据.
设样本容量为,则,所以.
所以组内的数据有,所以组内数据的频率等于,所以.
故答案为:.
三、解答题
7.(23-24高二下·上海静安·期末)甲、乙两位气步枪运动员在射击队内的选拔赛成绩茎叶图如右:
(1)求甲、乙两名选手射击的平均环数;
(2)请用具有统计意义的数量来刻画甲、乙两位运动员的射击成绩的稳定性,并帮助射击队选拔一名运动员外出参加比赛.
【答案】(1)
(2)答案见解析
【分析】(1)利用平均数公式求解即可.
(2)利用方差公式分别求解方程,依据方差大小分析稳定性,再选人即可.
【详解】(1)
(2)
由可知甲、乙两位运动员的平均成绩一致;
而即甲的射击成绩的离散程度较小,乙的射击成绩的离散程度较大,
因此甲的成绩较稳定,所以选甲代表射击队出去参加比赛.
四、数据特征值相关易错点
1.混淆总体与样本相关概念:容易混淆总体、个体、样本与样本容量的概念。
2.计算中位数时忽略数据顺序:中位数是将数据由小到大或由大到小依次排列后,处在最中间位置的数或最中间两个数据的平均数。如果不先对数据进行排序就直接计算中位数,很容易得出错误的结果。
3.对平均数、中位数、众数的适用情况理解不清:平均数对极端值非常敏感,在数据存在极端值的情况下,平均数可能无法准确反映数据集的真实情况,此时中位数或众数可能是更合适的选择。但学生可能会不考虑数据的分布特点,盲目使用平均数来描述数据的集中趋势。
4.误解方差和标准差的意义:方差和标准差是用来衡量一组数据波动大小的统计量,方差或标准差越大,说明数据的离散程度越大。学生可能会出现对其计算公式理解错误,或者不能正确根据方差和标准差的大小来判断数据的离散程度。例如,认为方差大的数据反而更稳定等。
一、单选题
1.(24-25高二上·上海黄浦·期末)某校有学生500人,其中男生320人,女生180人.某人想了解该校全体学生的身高(单位:cm)信息,从男生、女生中分别随机抽取人进行测量.如果已知男生样本的均值为173.5,方差为17,女生样本的均值为163.83,方差为30.03,但原始测量数据已丢失.设总体均值与方差分别为与,则下列说法正确的是( ).
A.若,可算出总样本的均值与方差,且将其分别作为与的估计值是合适的
B.若,无法算出总样本的均值与方差
C.若,可算出总样本的均值与方差,且将其分别作为与的估计值是合适的
D.若,无法算出总样本的均值与方差
【答案】C
【分析】根据已知,分层抽样分析数据的前提及样本特征与总体特征的关系判断A、C、D;对于总体数据各层中的数据差异非常小的情况下也可分析总体特征判断B.
【详解】由于男生、女生总人数不相等,需要用分层抽样的方式估计出样本的均值和方差,
此时所得样本特征可作为总体特征的估计值,故不合适、合适,A、D错,C对;
在情况下,只有所有男生、女生身高都在各自身高均值附近波动且幅度很小时,可以算出总样本的均值与方差,B错;
故选:C.
二、填空题
2.(24-25高二下·上海杨浦·期末)一组从小到大排列的10个数据:0,1,2,3,4,8,9,10,11,13,这组数据的第80百分位数是 .
【答案】10.5
【分析】根据给定条件,利用第80百分位数的定义直接求解.
【详解】由,得这组数据的第80百分位数是.
故答案为:10.5
3.(24-25高二下·上海浦东新·期中)某果园种植了棵苹果树,随机抽取的棵果树的产量(单位:千克)分别为:20, 24 ,25 ,26 ,26 ,27 ,28 ,29 ,30 ,32 ,33 ,36,据此预计,这棵果树的产量百分位数为 千克.
【答案】
【分析】找出第个数字和第个数字取平均数即可.
【详解】因样本总共个数,所以,
只需找出第个数字和第个数字取平均数即可,
从小到大排列,第个数字和第个数字分别为,
所以第百分位数为.
故答案为:
4.(24-25高二下·上海·阶段练习)样本数据20,24,6,15,18,10,42,57的第25百分位数为 .
【答案】
【分析】先把数据从小到大排列,再根据百分位数定义计算求解.
【详解】样本数据从小到大排列,
因为,
所以数据的第25百分位数为第二个数与第三个数的平均数.
故答案为:.
5.(23-24高二上·上海·期末)某大学共有教师1000人,其中教授、副教授、讲师、助教的人数比为1:4:3:2,现用分层抽样的方法从全校所有教师中抽取一个容量为40的样本,讲师应抽取的人数为 .
【答案】
【分析】根据分层抽样的概念计算出答案.
【详解】由分层抽样得到讲师应抽取的人数为.
故答案为:12
6.(24-25高二上·上海长宁·期末)某校高一共有学生240人,现采用分层抽样的方法从中抽取80人进行体能测试;若这80人中有35人是男生,则该校高一男生共有 人.
【答案】105
【分析】根据给定条件,求出分层抽样的抽样比,进而求得答案.
【详解】依题意,分层抽样的抽样比为:,所以该校男生的人数为:.
故答案为:105
7.(21-22高二下·上海宝山·期中)某校有学生1200人,其中高三学生400人,为了解学生的身体素质情况,采用按年级分层随机抽样的方法,从该校学生中抽取一个120人的样本,则样本中高三学生的人数为 .
【答案】40
【分析】根据分层抽样的抽样比相等即可求解.
【详解】某校有学生1200人,从该校学生中抽取一个120人的样本,抽样比为,
所以样本中高三学生的人数为人,
故答案为:40.
8.(22-23高二下·上海杨浦·期中)在100个人中,其中45人为女性,55人为男性,计划抽取20人测量身高.若按性别进行分层随机抽样,则应该抽取 位男性测量身高。
【答案】
【分析】根据题意求得每个人抽到的概率,结合分层抽样列出方程,即可求解.
【详解】利用分层抽样的方法从100个人中抽取了20人测量身高,其中45人为女性,55人为男性,
则每个人被抽到的概率为,
设应该抽取位男性,可得,解得(人),
即应该抽取位男性测量身高.
故答案为:.
9.(23-24高二上·上海·阶段练习)为了解黄浦区全体高二学生“小三门”的选科情况,区教育局共联络了950名黄浦区在读高二学生进行调查,在这项调查中,样本量是 .
【答案】950
【分析】根据样本量的定义即可求解.
【详解】由题意可知样本量为:950
故答案为:950
10.(22-23高二上·上海长宁·阶段练习)为了了解某水库里大概有多少条鱼,先打捞出了1000条鱼,在鱼身上标记一个不会掉落的印记后放回水库,过一段时间后再次捕捞了200条鱼,发现其中5条鱼有印记.则这个水库里大概有 条鱼
【答案】40000
【分析】利用“捉放捉”原则即可求得这个水库里大概有40000条鱼
【详解】设水库里大概有x条鱼,则,解之得
故答案为:40000
11.(24-25高二下·上海·期末)李老师在整理名学生的成绩时不小心遗失了其中一位学生的成绩,且剩余学生的成绩数据如下:,,,,,,但李老师记得这名学生的成绩恰好是本组学生成绩的第百分位数,则这名学生的成绩的方差为 .
【答案】
【分析】首先得遗失了其中一位学生的成绩为7,再根据平均数、方差的计算公式即可求解.
【详解】设遗失了其中一位学生的成绩为,若,这将导致本组学生成绩的第百分位数是7而不是,矛盾,
故,
所以所求平均数为,
所求为.
故答案为:.
12.(24-25高二上·上海徐汇·期末)某高中的三个年级共有学生1000人,其中高一300人,高二340人,高三360人,该校现在要了解学生对校本课程的看法,准备从全校学生中抽取50人进行访谈,若采取分层抽样,且按年级来分层,则高一年级应抽取的人数是 .
【答案】
【分析】确定抽样比,即可求解;
【详解】由题意可知抽样比为:,
所以高一年级应抽取的人数是,
故答案为:
13.(22-23高二上·上海浦东新·期末)“二十四节气歌”是以“春、夏、秋、冬”开始的四句诗.某校高二共有学生400名,随机抽查100名学生并提问二十四节气歌,只能说出一句的有45人,能说出两句及以上的有38人,据此估计该校高二年级的400名学生中,对“二十四节气歌”一句也说不出的有 人.
【答案】
【分析】根据题意可知,随机抽查比例是,算出被抽查的100名学生中对“二十四节气歌”一句也说不出的人数,按比例计算即可得出结果.
【详解】由题意可知,随机抽查100名学生中有人一句也说不出,
又抽查比例为,
所以,该校高二年级的400名学生中共有人对“二十四节气歌”一句也说不出.
故答案为:
14.(23-24高二上·上海长宁·期末)从总体容量为的一批电子元件中抽取一个容量为30的样本,若每个电子元件被抽到的可能性为,则总体容量 .
【答案】
【分析】根据条件列出总体容量和样本容量的关系式,由此可求结果.
【详解】由条件可知:,
所以,
故答案为:.
三、解答题
15.(21-22高二下·上海崇明·期末)某企业质检人员从所生产的产品中随机抽取了100个,将其质量指标值分成以下六组:,得到如下频率分布直方图.
(1)求出直方图中的值;
(2)在样本中,有的个体小于或者等于中位数,同时也有的个体大于或者等于中位数,所以在频率分布直方图中,在中位数的左边和右边直方图的面积相等.请利用样本估计总体的思想,估计该企业所生产的产品的质量指标值的中位数(精确到).
【答案】(1)0.030
(2)73.33
【分析】(1)用所有的矩形面积之和为1,求得m的值;
(2)先估计中位数n落在内,用n左边的面积为0.5求出n值.
【详解】(1)由,解得,
所以直方图中m的值为0.030
(2)因为,所以中位数在第4组,
设中位数为n,则,解得,
所以估计该企业所生产的产品质量指标值的中位数为73.33.
16.(24-25高二上·上海·期末)校高一年级共有学生330名,为了解该校高一年级学生的身高情况,学校采用分层随机抽样的方法抽取66名学生,其中女生32名,男生34名,测量他们的身高.
(1)该校高一学生中男、女生各有多少名?
(2)在32名女生身高的数据中,其中一个数据记录有误,错将165cm记录为156cm,由错误数据求得这32个数据的平均数为161cm,方差为23.6875,求原始数据的平均数及方差(平均数结果保留精确值,方差结果精确到0.01).
【答案】(1)男生共有名,女生共有名.
(2)原始数据的平均数(cm),方差
【分析】(1)根据分层抽样的步骤,由题中条件,可直接得出结果;
(2)先设原始的32个数据为,根据错误数据的平均数与原始数据平均数之间关系,求出原始数据的平均数;根据错误数据的方差与原始数据的方差之间关系,可求出原始数据的方差.
【详解】(1)该校高一学生中,男生共有名,
女生共有名.
(2)设原始的32个数据为,其中,
由错误数据的平均数,
得原始数据的平均数(cm).
由,
得,
故.
17.(24-25高二下·上海·期中)某学校高一年级的学生有1200人,其中男生800人,女生400人,为了了解高一年级学生的身高信息,采用分层抽样的方法抽取样本,测量身高所得的统计数据如下频率分布直方图和频率分布表:
高一女生身高样本的频率分布表
组别
频数
频率
4
0.10
8
12
0.30
2
0.05
高一男生身高样本的频率分布直方图
(1)求的值.并利用高一男生身高频率分布直方图来估计男生样本的平均数(同一组中的数据用该组区间的中点值做代表);
(2)若女生身高的样本方差为70.4,男生身高的样本方差为89,请根据题目图表所给信息,求高一年级学生身高的样本平均数和方差.
【答案】(1);
(2)平均数为;方差为
【分析】(1)根据表格中的数据,求得样本容量,根据概率的性质,可得答案;由频率分布直方图,利用平均数估计值计算公式,可得答案.
(2)利用频率分布表求得平均数的估计值,根据平均数的计算以及方差的计算,可得答案.
【详解】(1)高一女生身高的样本容量为,则,
由,解得,
由频率分布直方图可得,解得,
由题意可得
,
故高一男生身高的平均数估计值为.
(2)由女生样本的频率分布表可知,高一女生身高的平均数为
,
所以高一年级学生的样本身高平均数为,
高一年级学生的样本身高方差为.
18.(23-24高二下·上海嘉定·期末)用分层随机抽样从某校高一年级学生的数学期末成绩(满分100分,成绩都是整数)中抽取一个容量为100的样本,其中男生成绩数据40个,女生成绩数据60个,再将40个男生成绩样本数据分为6组: [40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100].绘制得到如图所示的频率分布直方图.
(1)求a的值;
(2)若在区间[40,50)和[90,100]内的两组男生成绩样本数据中,随机抽取两个进行调查,求调查对象来自不同分组的概率:
(3)已知男生成绩样本数据的平均数和方差分别为71和187.75,女生成绩样本数据的平均数和方差分别为73.5和119,求总样本的平均数和方差.
【答案】(1)0.025
(2)
(3),
【分析】(1)根据频率分布直方图的长方形面积和为1列方程,解方程即可;
(2)根据直方图得到成绩在区间和的男生人数,然后求概率即可;
(3)根据分层抽样的性质求总样本的平均数,根据方差公式和、求总样本的方差.
【详解】(1)由题意得,解得.
(2),,
所以成绩在区间的男生有4人,在区间的男生有2人,
设成绩在区间的男生为,在区间的男生为,
则在这6个数据中随机抽取两个的样本空间包含的样本点为:
,,,,,,,,,,,,,,,
所以,
记事件“调查对象来自不同分组”,
则事件包含的样本点为,,,,,,,,
,
所以调查对象来自不同的分组得概率为.
(3)设男生成绩样本数据为,其平均数位,方差为,
女生成绩样本数据为,其平均数为,方差为,
设总体的平均数为,方差为,
由分层抽样总体样本平均数与各层样本平均数的关系得,
因为,
又,
同理,
所以
,
所以总样本的平均数和方差分别为72.5和148.
一、单选题
1.(24-25高二下·上海虹口·期末)随着Deepseek的流行,各种大模型层出不穷,现有甲、乙两个大模型,在对甲、乙两个大模型进行深度体验后,6位评委分别对甲、乙进行打分(满分10分),得到如图所示的统计表格:
评委编号模型名称
1
2
3
4
5
6
甲
8.0
9.2
8.0
8.2
8.6
8.4
乙
7.8
9.0
8.3
8.4
8.5
8.5
则下列结论正确的是( )
A.甲得分的平均数大于乙得分的平均数 B.甲得分的中位数大于乙得分的中位数
C.甲得分的极差大于乙得分的极差 D.甲得分的方差大于乙得分的方差
【答案】D
【分析】分别求出甲,乙两个大模型的平均数,中位数,极差,方差即可得解.
【详解】因为甲得分的平均数,
乙得分的平均数,,故A错误;
将甲的6个得分从小到大排序:,
所以甲的中位数为;
将乙的6个得分从小到大排序:,
所以甲的中位数为;,故B错误;
甲的极差为,乙的极差为,故C错误;
甲得分的方差,
乙得分的方差,
,故D正确.
故选:D
2.(22-23高二下·上海浦东新·阶段练习)下列命题中正确的个数为( )
①数据1,2,3,3,4,5的众数大于中位数;
②数据1,2,2,2,3,3,3,4,5,6的第85百分位数为5;
③数据1,2,2,2,3,3,3,4,5,6,6,6,7,7,8的极差(全距)为7;
④若甲组数据的方差为5,乙组数据为5,6,9,10,5,则这两组数据中较稳定的是乙;
A.1 B.2 C.3 D.4
【答案】C
【分析】根据中位数和百分位数定义,极值和方差分别判断各个选项即可
【详解】①众数为3,中位数为3,众数等于中位数,错误;
②第85百分位数为:,取第9个数据,为5,正确;
③极差为,正确;
④乙组数据的方差为,则这两组数据中较稳定的是乙,正确,正确的命题有②③④,
故选:C.
3.(23-24高二下·上海·阶段练习)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生规模性感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天,甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的城市是( )
A.甲:中位数为2,众数为3 B.乙:总体均值为3,中位数为4
C.丙:总体均值为2,总体方差为3 D.丁:总体均值为1,总体方差大于0
【答案】C
【分析】通过举反例排除ACD三个选项,根据方差的计算判断C选项正确.
【详解】A选项,数据可以为“”,不符合该标志;
B选项,数据可以为“”,不符合该标志;
C选项,总体均值是2时,只要出现超过7人时,方差就大于3,故C正确;
D选项,数据可以为“”,不符合该标志;
故选:C.
二、填空题
4.(24-25高二下·上海松江·期末)某学校为了获得该校全体高中学生的体育锻炼情况, 按男、女学生的比例分别抽样调查了 48 名男生和 27 名女生的每周锻炼时间. 通过计算得到男生每周锻炼时间的平均数为 7.6 小时, 方差为 7.3, 女生每周锻炼时间的平均数为 6.4 小时, 方差为 8, 则所有样本数据的方差是 .
【答案】
【分析】根据所有样本数据的方差公式进行求解即可.
【详解】设所有样本数据的平均数为,
所以所有样本数据的方差为,
故答案为:
5.(22-23高二下·上海黄浦·阶段练习)某表演赛评分(两位数)如茎叶图所示,去掉一个最高分和一个最低分后,所剩数据的方差为 .
7
8
8
5
5
5
7
8
9
4
【答案】
【分析】根据茎叶图得出数据,计算平均值,再由方差公式计算即可.
【详解】由题意知,剩下的数据为85,85,85,87,88,
平均分为,
方差为,
故答案为:
三、解答题
6.(24-25高二上·上海黄浦·期末)某大型超市从一家贸易公司购进600袋白糖.为了了解这些白糖的重量情况,从中抽取了21袋白糖,称出各袋白糖的重量(单位:g)如下:
486 494 496 498 499 493 492
498 490 497 504 489 495 503
498 502 509 498 487 501 508
若设这21袋白糖的平均重量为,标准差为.
(1)求与(精确到0.1);
(2)试估计在这600袋白糖中重量位于与之间的共有多少袋?所占的百分比是多少?
【答案】(1),
(2)400袋,
【分析】(1)根据均值定义计算均值,根据方差公式计算出方差,然后得标准差;
(2)直接计数即可得,然后计算所占百分比即可.
【详解】(1)根据题意,,
.
(2)质量位于与之间等于在区间上的白糖的袋数,共有14袋,所占的百分比为.
由此估计600袋白糖中质量位于与之间的共有袋,所占的百分比为.
7.(24-25高二上·上海·期末)某工厂选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:分钟)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的第75百分数;
(2)为了解该工厂职工的基本信息,从工厂中抽取了100个职工的体重数据,发现全部介于45公斤到75公斤之间,现将100个体重数据分为6组:第一组,第二组,…,第六组,得到如图2所示的频率分布直方图.其中第一组有2人,第二组有13人.求与的值.
【答案】(1)
(2)
【分析】(1)按照求百分数的计算步骤计算即可;
(2)据直方图面积为1的性质及第一组第二组的人数建立方程组,解出,进而得解.
【详解】(1)40名工人完成生产任务所需时间按从小到大排列为: ,因为,
所以第75百分数为;
(2)依题意,则,
又因为,所以,
因为,所以,
所以,
所以.
8.(23-24高二下·上海·期中)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定,共5等11级,然后在相应赋分区间内利用转换公式进行赋分,和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取5人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中至少有一人原始成绩在内的概率;
(2)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差s(结果精确到0.1).
【答案】(1)
(2);
【分析】(1)由频率分布直方图的性质,求得,得到在和中的频率之比为,结合古典摡型的概率计算公式,即可求解;
(2)根据题意,求得,结合,即可求解.
【详解】(1)解:由频率分布直方图的性质,可得,
解得,则原始分在和中的频率之比为,
所以抽取的5中,原始成绩在和内的学生分布为人和人,
则这2人中至少有一人原始成绩在内的概率为.
(2)解:由题意知,落在的平均成绩,方差,
落在的平均成绩,方差,
可得,
所以
,
所以估计落在的成绩的标准差.
9.(23-24高二下·上海浦东新·期中)已知甲组数据,,…,的茎叶图如图所示,其中数据的整数部分为茎,数据的小数部分(仅一位小数)为叶,例如第一数据为5.3.
(1)为甲组数据的平均值、方差、中位数M;
(2)乙组数据为,,…,,且甲、乙两组数据合并后的30个数据的平均值,方差,求乙组数据的平均值和方差,写出必要的计算过程和步骤.
【答案】(1);;
(2)
【分析】(1)根据茎叶图求平均值,再由方差与均值的关系求,将茎叶图中的数据从小到大排列确定中位数M.
(2)由甲乙平均数及(1)的结果列方程求乙组数据的平均值,再由方差与均值的关系列方程组求出,进而求方差.
【详解】(1)甲组数据为,,,
则甲组数据的中位数,
甲组数据的平均值.
甲组数据的方差.
(2)由,可得
由,解得
则.
10.(24-25高二下·上海杨浦·阶段练习)某学校初二年级的学生有1200人,其中男生800人,女生400人,为了了解初二年级学生的身高信息,采用分层抽样的方法抽取样本,测量身高所得的统计数据如下频率分布直方图和频率分布表(同一组中的数据用该组区间的中点值做代表).
初二男生身高样本的频率分布直方图
组别
频数
频率
4
0.10
8
12
0.30
2
0.05
初二女生身高样本的频率分布表
(1)求的值,并利用初二男生身高频率分布直方图估计男生样本的平均数;
(2)若女生身高的样本方差为70.4,男生身高的样本方差为89,请根据题目图表所给信息,求初二年级学生身高的样本平均数和方差.
【答案】(1),169
(2)平均数为166,方差为100.8.
【分析】(1)根据频率和为1求,再代入平均数公式,即可求解;
(2)首先根据频率公式计算,再计算女生的平均数,再根据(1)的结果,代入总体平均数公式和总体方差公式,即可求解.
【详解】(1)可得,
此时男生身高平均数为.
(2)结合分布表,,因此,进而,此时计算得到女生身高平均数为.
因此初二年级身高平均数为,方差为.
11.(24-25高二下·上海杨浦·期末)随着DeepSeek大模型的全面落地,人工智能行业迎来结构性变革.某人工智能实验室记录了5月17日至23日的模型训练任务情况,如下表所示.例如:17日为数据清洗任务,训练耗时9小时,模型准确率提升,当日效率(模型准确率提升值与训练耗时的比值)为.
日期
17日
18日
19日
20日
21日
22日
23日
任务
数据清洗
模型调试
参数优化
轻度拟合
架构调整
算法优化
性能测试
训练耗时
9小时
12小时
14小时
12小时
14小时
12小时
14小时
准确率提升值
1.0%
1.3%
1.2%
0.9%
1.1%
1.0%
1.3%
(1)写出训练耗时的平均数、中位数、标准差和极差;
(2)从17日至23日这七天中,随机选取连续三天的数据,求这三天中至少有两天的当日效率不低于的概率;
(3)该实验室24日完成最终部署,耗时超过10小时.记17日至20日这四天训练耗时的方差为日至24日这四天训练耗时的方差为.若,求24日的训练耗时.
【答案】(1)平均数为小时,中位数为12小时,标准差小时;
(2);
(3)17小时.
【分析】(1)根据给定的数据直接求出平均数、中位数、标准差.
(2)求出每天的当日效率,再计算古典概率.
(3)求出两段数据的平均数进而求出方差,再建立方程求得答案.
【详解】(1)将17日至23日的训练耗时数据由小到大排列为:,
平均数为(小时);
中位数为12小时;
标准差(小时).
(2)
日期
17日
18日
19日
20日
21日
22日
23日
当日效率
0.1111
0.1083
0.0857
0.075
0.0786
0.0833
0.0929
从17日至23日这七天中,随机选取连续三天的数据,有5种选法,
其中至少有两天当日效率不低于的选法只有1种选法,
所以这三天中至少有两天的当日效率不低于的概率为.
(3)17日至20日这四天训练耗时的平均数,
方差,
设24日的训练耗时为小时,21日至24日这四天训练耗时的平均数,
方差,由,
得,整理得,解得或,又,
所以24日的训练耗时为17小时.
12.(24-25高二下·上海杨浦·期末)人工智能算力是驱动AI时代创新与进步的核心动力,是重塑经济、社会与国家竞争力的“新质生产力”.某人工智能实验室收集了30台服务器的单机均值算力数据(单位:TFLOPS),数据范围在之间,排序后的数据如下:
115
119
120
133
150
160
161
170
180
190
210
220
220
220
220
225
230
230
239
240
240
241
244
245
247
247
249
250
285
300
(1)直接写出这组数据的众数和极差;
(2)现该实验室准备组建一个服务器集䅵,为了使该服务器集群总算力最大(即算力总和最大)的同时又满足能耗比的需求(要求该集群的服务器的平均算力不低于250),该实验室应该选取多少台服务器组成服务器集释?分别是哪几台?
(3)若该实验室增加2台服务器,算力数据分别是和,通过计算发现,增加这两台服务器前后,该实验室服务器的平均值和第75百分位数都不变,求、的值.
【答案】(1)众数为220,极差为
(2)13台;取所有算力大于等于239的服务器,取1台230的服务器
(3),
【分析】(1)观察可直接确定众数、极差;
(2)从大到小区计算均值即可得到满足需求的选取;
(3)根据增加前后的对比可求、的值.
【详解】(1)观察已知数据,众数为220,极差为.
(2)因为
所以应该选13台;取所有算力大于等于239的服务器,取1台230的服务器.
(3)增加前,均值为210,,,;
由,得第75百分位数为244;
增加后,,第75百分位数为第24与第25个数据的均值,仍为244,
所以,故
13.(24-25高二下·上海·期中)25年3月9日,在十四届全国人大三次会议民生主题记者会上,国家卫健委主任雷海潮表示,将持续推进“体重管理年”行动.国家卫健委发布的《成人肥胖食养指南(2024版)》显示,我国18岁及以上居民超重率、肥胖率分别达到和,居民肥胖率呈上升趋势.目前,国际上常用身体质量指数(BMI)来衡量人体肥胖程度以及是否健康,其计算公式是
.
中国成人的BMI数值标准为:为偏瘦;为正常;为偏胖;为肥胖.
为了解某公司员工的身体肥胖情况,研究人员从公司员工体检数据中,根据年龄采用分层随机抽样方法抽取了50名员工的身高和体重数据,计算得到他们的BMI值如下:
老年组:21.8 18.2 25.2 28.1 21.5 19.1 25.7 24.4 17.6 20.8
中年组:20.5 20.2 17.4 21.6 18.4 20.3 30.8 23.6 23.3 22.8
20.8 16.8 19.0 16.4 18.7 26.1 20.2 17.6 15.4 21.5
19.5 31.6 19.1 20.4 13.9
青年组:18.6 16.6 15.9 18.3 18.1
29.7 18.9 16.9 25.8 19.8 18.5 16.0 17.6 19.1 26.5
根据上面的数据,请回答以下问题:
(1)请完成下表,并绘制25名中年组员工的体重指数(BMI)的频率分布直方图;
(2)分别求出以上老年组和青年组员工体重指数(BMI)的第30百分位数(精确到小数点后一位数字),并比较老年组和青年组员工在肥胖状况上的差异;
(3)分析公司员工胖瘦程度的整体情况,并提出控制体重的至少两条建议.
25名员工的BMI值的频率分布表如下:
分组
频数
频率
频率/组距
【分析】(1)先统计数据,再计算频率,最后画频率分布直方图即可;
(2)按照百分位数概念来求解即可;
(3)通过偏胖率和偏瘦率来分析各层次员工,然后给出健身锻炼和健康饮食的建议
【详解】(1)
分组
频数
频率
频率/组距
6
0.24
0.06
13
0.52
0.13
3
0.12
0.03
1
0.04
0.01
2
0.08
0.02
频率直方图如下:
(2)老年组工体重指数(BMI)21.8 18.2 25.2 28.1 21.5 19.1 25.7 24.4 17.6 20.8,
从小到大排序为:17.8 18.2 19.1 20.8 21.5 21.8 24.4 25.2 25.7 28.1,
根据,所以老年组员工体重指数(BMI)的第30百分位数是,
青年组员工体重指数(BMI)18.6 16.6 15.9 18.3 18.1 29.7 18.9 16.9 25.8 19.8 18.5 16.0 17.6 19.1 26.5,
从小到大排序为:15.9 16 16.6 16.9 17.6 18.1 18.3 18.5 18.6 18.9 19.1 19.8 25.8 26.5 29.7,
根据,所以青年组员工体重指数(BMI)的第30百分位数是,
根据第30百分位数比较可知:老年组员工属于正常,青年组员工偏瘦.
(3)统计汇总表如下:
偏瘦
正常
偏胖
肥胖
老年组
2
4
3
1
中年组
7
15
1
2
青年组
7
5
2
1
合计
16
24
6
4
由上表格可知公司总体偏胖(包含肥胖)率为,
其中老年组占了,说明老年组偏胖率最高,中年组和青年组偏胖率相当,
由上表格可知公司总体偏瘦率为,
其中青年组和中年组偏瘦率相当,各占了,老年组偏瘦率很低,
由上分析:老年组要注意超重和肥胖问题,要加强体育锻炼,每天至少60分钟中等强度有氧运动(如快走、游泳、跑步、打球等)。
青年和中年组要注意营养健康问题,公司可开展健康饮食讲座,提升员工健康意识,同时提倡结合力量训练(如举重)增肌,避免单纯增脂。
14.(24-25高二下·上海松江·阶段练习)某校在高二期末考试,从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)求图中a的值,并估计该校高二学生周末等级考化学成绩的平均数及中位数;(注:为了计算均值,可用区间的中点值给区间内的每个数据赋值)
(2)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取9人查看他们的答题情况,再从中选取3人进行个案分析,求这3人中恰有一人原始成绩在内的概率;
(3)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差s.
【答案】(1),,
(2)
(3),
【分析】(1)根据频率分布直方图的特征和平均数、中位数的计算公式计算即得;
(2)根据古典概型的概率问题求解即可;
(3)由题意,根据混合样本的平均数、方差和标准差的计算公式计算即得.
【详解】(1)由图可得:,解得;
则化学成绩的平均数为:,
中位数的估计值为,则,且,解得,
(2)由原始分在和中的频率之比为,
故抽取的9人中,原始分在中的有3人,在中的有6人,
则从9人中抽取3人,恰有一人原始成绩在内的概率为.
(3)依题意,化学成绩落在的有人,落在的有人.
故,
.
15.(24-25高二下·上海闵行·阶段练习)某校高一年级开设有羽毛球训练课,期末对学生进行羽毛球五项指标(正手发高远球、定点高远球、吊球、杀球以及半场计时往返跑)考核,满分100分.参加考核的学生有40人,考核得分的频率分布直方图如图所示.
(1)由频率分布直方图,求出图中t的值,并估计考核得分的平均值(同一组中的数据用该组区间的中点值为代表);
(2)为了提升同学们的羽毛球技能,校方准备招聘高水平的教练.现采用分层抽样的方法(样本量按比例分配),从得分在内的学生中抽取5人,再从中挑出两人进行试课,求两人得分分别来自和的概率;
(3)现已知直方图中考核得分在内的平均数为75,方差为6.25,在内的平均数为85,方差为0.5,求得分在内的平均数和方差.
【答案】(1),平均值为79.5.
(2)
(3)平均数为81,方差为26.8.
【分析】(1)由频率表分布直方图中概率之和为1,可求出t的值,再由平均数的计算公式求解即可;
(2)由古典概率的计算公式求解即可;
(3)由分层抽样的平均数和方差公式求解即可.
【详解】(1)由题意得:,解得,设考核得分的平均值为,
则,
所以考核得分的平均值为79.5.
(2)由题意知,抽出的5位同学中,得分在的有人,在的有人.
设事件M表示两人分别来自和,则.
(3)由题意知,落在区间内的数据有个,落在区间内的数据有个.
记在区间的数据分别为,平均分为,方差为;
在区间的数据分别为为,平均分为,方差为;
这20个数据的平均数为,方差为.
由题意,,且,
则.
根据方差的定义,
由,
可得
故得分在内的平均数为81,方差为26.8.
1 / 6
学科网(北京)股份有限公司
$
第13章 统计
知识点01 总体与样本
1.在统计问题中, 叫做总体, 叫做个体, 叫做这个总体的一个样本, 称为样本容量.
2.用来描述样本特征的 ,称为统计量。
知识点02 数据的获取
通常,按照收集数据的不同方法,可以将数据分为 和 。
对 进行调查,我们称之为普查。
从 中抽取样本的过程称为抽样,通过 进行调查研究的方法叫做抽样调查。
知识点03 抽样方法
抽样调查是获取数据的一种重要方式,常用的抽样方法有 、 等.
在抽样的过程中通过 抽取样本,且总体的 被选入样本,这种抽样方法叫做简单随机抽样.
1. 抽签法
用抽签法从个体个数为N的总体中抽取一个容量为k的样本的步骤:
(1)将总体中的N个个体编号;
(2)将这N个号码写在形状、大小相同的号签上;
(3)将号签放在同一箱中,并搅拌均匀;
(4)从箱中每次抽出1个号签,连续抽取k次;
(5)将总体中与抽到的号签的编号一致的k个个体取出.
2. 随机数表法
(1)相关概念
制作一个表,这个表由0,1,2,3,4,5,6,7,8,9这10个数字组成,表中任一位置出现任一数字的概率相同,且不同位置的数字之间是独立的. 这样的表称为随机数表,其中的每个数都称为“随机数”. 于是,我们只要按一定的规则从随机数表中选取号码就可以了. 这种抽样方法叫作随机数表法.
(2)用随机数表法抽取样本的步骤
①对总体中的个体编号(每个号码位数一致).
②在随机数表中任选一个数.
③从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过. 如此继续下去,直到取满为止.
④根据选定的号码抽取样本.
3.分层抽样
(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按 进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由 的几个部分组成时,往往选用分层抽样.
4. 分层随机抽样步骤
(1)将总体按一定标准分层;
(2)计算各层的个体数与总体的个体数的比;
(3)按各层的个体数占总体的个体数的比确定各层应抽取的样本容量;
(4)在每一层进行抽样(可用简单随机抽样).
知识点04统计图表
1.频率分布表和频率分布直方图:可用于表示 ;
2.频率分布表的画法:
第一步:求 ,决定组数和组距,组距= ;
第二步: ,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
3.频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示 ,每个小矩形的面积表示样本落在该组内的频率.
4.频率分布折线图:连接频率分布直方图中各小长方形上端的 ,就得到频率分布折线图.
5.茎叶图:通常在数据量不大的情况下使用,其特点是 ;
6.散点图:可以考察 的变化趋势.
知识点05 统计估计
1.总体分布密度曲线:如果将 取得足够大,且分组的 取得足够小,那么相应的频率分布折线图将趋于一条光滑的曲线,称为总体分布密度曲线。
2.数字特征:我们把能反映一组数据某种特征的量称为这组数据的数字特征.
3.样本的数字特征
数字特征
定义
众数
在一组数据中,出现次数 的数据叫做这组数据的众数
中位数
将一组数据按大小依次排列,把处在 位置的一个数据(或最中间两个数据的 )叫做这组数据的中位数
平均数
样本数据的算术平均数,即
方差
其中s为标准差
4.百分位数
如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.
计算一组n个数据的第p百分位数的步骤:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
注意点:
(1)中位数相当于是第50百分位数.除了中位数外,常用的分位数还有第25百分位数,第75百分位数.
(2)第25,50,75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
(3)第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
一、抽样方法相关易错点
1.抽样随机性不足:在抽样过程中,若样本选择缺乏随机性,会导致样本代表性偏差。例如,仅调查某个特定区域的受访者,或依赖方便获取的群体作为样本,如商场顾客,而非随机抽取,都可能使样本特征与总体不符。
2.抽样框不完整:抽样框是抽样的基础,如果存在缺失部分目标群体的情况,就会造成样本覆盖不全。比如使用过时的电话簿抽样,可能遗漏无固定电话或使用手机的人群,或者未整合多个数据源,导致部分目标个体未被纳入抽样框。
3.抽样比例失衡:不同群体在样本中的比例设置不合理,也会影响结果的准确性。如年龄分层比例过窄,可能忽略特定年龄段的需求,或者总体中某一群体占比较大,但在样本中占比过小,导致该群体的特征不能得到充分体现。
4.混淆抽样方法的适用范围:简单随机抽样适用于总体的个体数不多的情况,若总体个体数较多,采用简单随机抽样可能会比较繁琐,此时更适合采用系统抽样或分层抽样等方法。但学生可能会不考虑总体规模,错误地选择抽样方法。
一、单选题
1.(23-24高二上·上海长宁·期末)①植物根据植株的高度及分枝部位等可以分为乔木、灌木和草木三大类,某植物园需要对其园中的不同植物的干重(烘干后测定的质量)进行测量;②检测员拟对一批新生产的1000箱牛奶抽取10箱进行质量检测;上述两项调查应采用的抽样方法是( )
A.①用简单随机抽样,②用分层随机抽样 B.①用简单随机抽样,②用简单随机抽样
C.①用分层随机抽样,②用简单随机抽样 D.①用分层随机抽样,②用分层随机抽样
2.(24-25高二下·上海静安·期末)自2016年起,每年4月24日设立为“中国航天日”,以纪念1970年4月24日长征一号火箭将我国第一颗人造地球卫星“东方红一号”成功送入太空.2025年4月24日是第10个“中国航天日”,搭乘陈冬、 陈中瑞、王杰3名航天员的神舟二十号载人飞船成功发射,以更有纪念意义的太空行动完成了对中国第10个航天日的庆祝活动,同时神舟十九号载人飞船航天员蔡旭哲、宋令东、王浩泽也于五一国际劳动节前夕凯旋回家.
某学校举行了“我向航天员提问”的趣味活动,同学们踊跃参与了活动.现从同学们提出的问题中初选40个不同类型问题进行连续编号(每个编号都由两个数字组成):01,02,03,…39,40,从中随机抽取5个问题请大家投票排名.从下列随机数表第1行第16个数字2开始由左向右依次选取两个数字,重复的跳过,则选出的5个问题编号依次为( )
A.28,03,36,24,40 B.03,36,24,40,04
C.28,03,65,67,52 D.28, 03,40,01,11
3.(23-24高二上·上海·期末)已知一个总体含有N个个体,要用简单随机抽样方法从中抽取一个个体,则在抽样过程中,每个个体被抽取的概率( )
A.变小 B.变大 C.相等 D.无法确定
4.(24-25高二下·上海·阶段练习)从101个人进行一次抽样时,先采用抽签法从中剔除1个人,再在剩余的100个人中采用随机数表法抽取10个人,那么下列说法正确的是( )
A.这是一种科学的抽样方法
B.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
二、填空题
5.(22-23高二下·上海普陀·阶段练习)已知某校高一(1)班有男生28人,女生21人,用分层抽样的方法从该班级中抽取若干人.已知某男生被抽中的概率为,则抽取的女生人数为 .
6.(22-23高二下·上海黄浦·阶段练习)某高中共有学生人,其中高一、高二、高三的学生人数比为,现用分层抽样的方法从该校所有学生中抽取一个容量为60的样本,则高三年级应该抽取 人.
7.(22-23高二下·上海浦东新·阶段练习)某高中共有1500人,高一、高二、高三年级人数比为人,现用分层抽样调查学生的近视状况,共调查150人,则高二年级应调查的人数为 .
8.(22-23高二上·上海徐汇·期末)某校要从高一、高二、高三共2023名学生中选取50名组成志愿团,若先用简单随机抽样的方法从2023名学生中剔除23名,再从剩下的2000名学生中按分层随机抽样的方法抽取50名,则每名学生入选的可能性为 .
9.(24-25高二下·上海杨浦·期末)某高中为了了解高二年级学生的作业情况,利用随机数表对该校400名高二学生进行抽样,先将所有学生按进行编号,从中抽取40个样本.若从下面的随机数表中第1行第6列的数开始,依次向右,到行末后转至下一行的行首,逐个取样,直到取足样本为止,则得到的第3个样本编号是 .
10.(22-23高二上·上海黄浦·期末)一个总体分为两层,用分层抽样方法从总体中抽取一个容量为的样本.已知层中每个个体被抽到的概率都是 ,则总体中的个体数为 .
11.(22-23高二下·上海浦东新·期末)为了了解同学们的作业量,学校决定采用分层抽样的方法从高一、高二、高三学生中选取150人进行调查,已知高一学生有400人,高二学生有500人,高三学生有600人,则应抽取的高三学生人数为 .
12.(23-24高二上·上海·阶段练习)管理人员为了了解某水库里大概有多少条鱼,拖网打捞出1000条鱼,在鱼身处打上一个不会掉落的印记,再放回水库,一个月后再次捕捞1000条鱼,发现其中有20条有印记的鱼,问:这个水库里大概有 条鱼.
13.(24-25高二下·上海·阶段练习)某高中为了了解学生收看空中课堂的具体情况,利用分层抽样的方法从高中三个年级的学生中随机抽取了200名进行问卷调查,其中从高一年级的学生中抽取了40名,从高二年级的学生中抽取了50名,若高三年级共有学生440名,则该高中共有学生 名.
14.(24-25高二上·上海黄浦·阶段练习)某果园种植了240棵苹果树,现从中随机抽取了20棵苹果树,算得这20棵苹果树平均每棵产量为28kg,则预估该果园的苹果产量为 kg.
15.(24-25高二下·上海·阶段练习)某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,..,899进行编号,从中抽取90个样本,若选定从第4行第4列的数开始向右读数,(下面摘取了随机数表中的第3行至第5行),根据下图,读出的第6个数的编号是 .
1676622766
5650267107
3290797853
1355385859
8897541410
1256859926
9682731099
1696729315
5712101421
8826498176
5559563564
3854824622
3162430990
0618443253
2383013030
二、频率分布直方图相关易错点
1.纵轴意义理解错误:频率分布直方图的纵轴表示 “”,而不是频率。若误将纵轴当作频率,会导致计算频率时出错。
2.频率计算错误:频率应通过 “频率 = 组距 ×” 来计算,即频率等于该区间对应的矩形面积。如在计算员工年薪在某区间的频率时,若没有正确计算矩形面积,就会得出错误的频率值。
3.分组问题:分组时组距和组数的确定要合理。若组距过大,会掩盖数据的分布特征;若组距过小,数据会过于分散,也不利于观察数据的规律。同时,在确定分组区间时,要注意边界值的处理,确保每个数据都能准确归入相应的组。
一、填空题
1.(22-23高二上·上海浦东新·期末)如图所示的是某班60名同学参加2011年高中数学毕业会考所得成绩(成绩均为整数)整理后画出的频率分布直方图,
根据图中可得出的该班不及格(60分以下)的同学的人数为 .
2.(24-25高二上·上海·期末)已知某校高一年级所有学生的体重(单位:kg),且最大值为98,最小值为44.在制作频率分布直方图时,要对这些体重数据进行分组.若组距为5,则将数据分成 组为宜.
3.(24-25高二上·上海·期末)某校抽取100名学生测量他们的身高,其山最大值为,最小值,绘制身高频率分布直方图,若组距为5,且第一组下限为,则组数为 .
二、解答题
4.(22-23高二下·上海金山·阶段练习)为庆祝神舟十四号载人飞船返回舱成功着陆,某学校开展了航天知识竞赛活动,共有100人参加了这次竞赛,已知所有参赛学生的成绩均位于区间,将他们的成绩(满分100分)分成五组,依次为、、、、,制成如图所示的频率分布直方图.
(1)求出的值,并用各区间的中间值估计这100人的竞赛成绩的平均数;
(2)采用按比例分配的分层抽样的方法,从竞赛成绩在(即第四、五组内)的学生中抽取了12人作为航天知识宣讲使者.现从这12名使者中随机抽取1人作为组长,求这名组长的竞赛成绩在内的概率.
5.(25-26高二上·上海奉贤·阶段练习)为进一步增强学生的疫情防控意识,友实学校组织学生进行了新冠肺炎疫情防控科普知识线上问答,共有100人参加了这次问答,将他们的成绩(满分100分)分成六组:,,,,,,制成如图所示的频率分布直方图.
(1)求图中的值;
(2)用分层抽样的方法从问答成绩在内的学生中抽取24人参加疫情防控知识宣讲,那么在,,内应各抽取多少人?
6.(24-25高二上·上海奉贤·期中)2022年2月4日,第24届冬季奥林匹克运动会开幕式在北京国家体育场(鸟巢)举行,某调研机构为了了解人们对“奥运会”相关知识的认知程度,针对本市不同年龄和不同职业的人举办了一次“奥运会”知识竞赛,满分100分(95分及以上为认知程度高),结果认知程度高的有人,按年龄分成5组,其中第一组,第二组,第三组,第四组,第五组,得到如图所示的频率分布直方图,已知第一组有10人.现从以上各组中用分层随机抽样的方法选取20人,担任本市的“奥运会”宣传使者.
(1)若有甲(年龄38),乙(年龄40)两人已确定入选,现计划从第四组和第五组被抽到的使者中,再随机抽取2名作为组长,求甲、乙两人至少有一人被选上的概率;
(2)若第四组宣传使者的年龄的平均数与方差分别为36和,第五组宣传使者的年龄的平均数与方差分别为42和1,据此估计这人中35~45岁所有人的年龄的方差.
7.(23-24高二上·上海宝山·阶段练习)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定A+、A、B+、B、B-、C+、C、C-、D+、D、E共5等11级,然后在相应赋分区间内利用转换公式进行赋分,A+和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)求图中的值;
(2)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取6人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中恰有一人原始成绩在内的概率;
(3)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差(结果精确到0.1).
三、茎叶图相关易错点
1.“叶” 的记录错误:茎叶图中 “叶” 的位置只有一个数字,且重复出现的数据要重复记录,不能遗漏。如果在绘制茎叶图时没有按照这个规则进行,就会导致数据展示错误,进而影响对数据的分析和统计。
2.数字特征估计错误:给定两组数据的茎叶图,估计数字特征时,一般茎上的数字由小到大排列,“重心” 下移者平均数较大,数据集中者方差较小。但如果对茎叶图的形态分析不准确,就可能会错误地估计平均数和方差等数字特征。
一、单选题
1.(22-23高二上·上海浦东新·期末)小明同学每天阅读数学文化相关的书籍,他每天阅读的页数分别为:4、5、4.5、5、6、8、7、5、4.5、6(单位:页).下列图形中不利于描述这些数据的是( )
A.条形图 B.茎叶图 C.散点图 D.扇形图
二、填空题
2.(24-25高二上·上海·阶段练习)某次数学考试后,随机选取14位学生的成绩,得到如下茎叶图,其中个数部分作为“叶”,百位数和十位数作为“茎”,若该组数据的第25百分位数是87,则x的值为 .
3.(24-25高二下·上海徐汇·阶段练习)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据.若这两组数据的中位数相等,且平均值也相等,则
4.(22-23高二上·上海虹口·期中)某社区安置了15个体温检测点,每个检测点每天检测的人数都是随机的,不受位置等因素影响,如图是由2021年1月1日检测人数绘制的茎叶图,则某个检测点在这一天检测人数达145及以上的概率是 .
13
0
2
4
6
14
0
0
0
5
6
8
8
15
2
3
3
4
5.(22-23高二·上海·单元测试)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值 .
甲
乙
7
2
n
9
m
3
2
4
8
6.(22-23高二上·上海徐汇·期末)从本市某高中全体高二学生中抽取部分学生参加体能测试,按照测试成绩绘制茎叶图,并以,,,,为分组作出频率分布直方图,后来茎叶图受到了污损,可见部分信息如图,则a的值为 .
三、解答题
7.(23-24高二下·上海静安·期末)甲、乙两位气步枪运动员在射击队内的选拔赛成绩茎叶图如右:
(1)求甲、乙两名选手射击的平均环数;
(2)请用具有统计意义的数量来刻画甲、乙两位运动员的射击成绩的稳定性,并帮助射击队选拔一名运动员外出参加比赛.
四、数据特征值相关易错点
1.混淆总体与样本相关概念:容易混淆总体、个体、样本与样本容量的概念。
2.计算中位数时忽略数据顺序:中位数是将数据由小到大或由大到小依次排列后,处在最中间位置的数或最中间两个数据的平均数。如果不先对数据进行排序就直接计算中位数,很容易得出错误的结果。
3.对平均数、中位数、众数的适用情况理解不清:平均数对极端值非常敏感,在数据存在极端值的情况下,平均数可能无法准确反映数据集的真实情况,此时中位数或众数可能是更合适的选择。但学生可能会不考虑数据的分布特点,盲目使用平均数来描述数据的集中趋势。
4.误解方差和标准差的意义:方差和标准差是用来衡量一组数据波动大小的统计量,方差或标准差越大,说明数据的离散程度越大。学生可能会出现对其计算公式理解错误,或者不能正确根据方差和标准差的大小来判断数据的离散程度。例如,认为方差大的数据反而更稳定等。
一、单选题
1.(24-25高二上·上海黄浦·期末)某校有学生500人,其中男生320人,女生180人.某人想了解该校全体学生的身高(单位:cm)信息,从男生、女生中分别随机抽取人进行测量.如果已知男生样本的均值为173.5,方差为17,女生样本的均值为163.83,方差为30.03,但原始测量数据已丢失.设总体均值与方差分别为与,则下列说法正确的是( ).
A.若,可算出总样本的均值与方差,且将其分别作为与的估计值是合适的
B.若,无法算出总样本的均值与方差
C.若,可算出总样本的均值与方差,且将其分别作为与的估计值是合适的
D.若,无法算出总样本的均值与方差
二、填空题
2.(24-25高二下·上海杨浦·期末)一组从小到大排列的10个数据:0,1,2,3,4,8,9,10,11,13,这组数据的第80百分位数是 .
3.(24-25高二下·上海浦东新·期中)某果园种植了棵苹果树,随机抽取的棵果树的产量(单位:千克)分别为:20, 24 ,25 ,26 ,26 ,27 ,28 ,29 ,30 ,32 ,33 ,36,据此预计,这棵果树的产量百分位数为 千克.
4.(24-25高二下·上海·阶段练习)样本数据20,24,6,15,18,10,42,57的第25百分位数为 .
5.(23-24高二上·上海·期末)某大学共有教师1000人,其中教授、副教授、讲师、助教的人数比为1:4:3:2,现用分层抽样的方法从全校所有教师中抽取一个容量为40的样本,讲师应抽取的人数为 .
6.(24-25高二上·上海长宁·期末)某校高一共有学生240人,现采用分层抽样的方法从中抽取80人进行体能测试;若这80人中有35人是男生,则该校高一男生共有 人.
7.(21-22高二下·上海宝山·期中)某校有学生1200人,其中高三学生400人,为了解学生的身体素质情况,采用按年级分层随机抽样的方法,从该校学生中抽取一个120人的样本,则样本中高三学生的人数为 .
8.(22-23高二下·上海杨浦·期中)在100个人中,其中45人为女性,55人为男性,计划抽取20人测量身高.若按性别进行分层随机抽样,则应该抽取 位男性测量身高。
9.(23-24高二上·上海·阶段练习)为了解黄浦区全体高二学生“小三门”的选科情况,区教育局共联络了950名黄浦区在读高二学生进行调查,在这项调查中,样本量是 .
10.(22-23高二上·上海长宁·阶段练习)为了了解某水库里大概有多少条鱼,先打捞出了1000条鱼,在鱼身上标记一个不会掉落的印记后放回水库,过一段时间后再次捕捞了200条鱼,发现其中5条鱼有印记.则这个水库里大概有 条鱼
11.(24-25高二下·上海·期末)李老师在整理名学生的成绩时不小心遗失了其中一位学生的成绩,且剩余学生的成绩数据如下:,,,,,,但李老师记得这名学生的成绩恰好是本组学生成绩的第百分位数,则这名学生的成绩的方差为 .
12.(24-25高二上·上海徐汇·期末)某高中的三个年级共有学生1000人,其中高一300人,高二340人,高三360人,该校现在要了解学生对校本课程的看法,准备从全校学生中抽取50人进行访谈,若采取分层抽样,且按年级来分层,则高一年级应抽取的人数是 .
13.(22-23高二上·上海浦东新·期末)“二十四节气歌”是以“春、夏、秋、冬”开始的四句诗.某校高二共有学生400名,随机抽查100名学生并提问二十四节气歌,只能说出一句的有45人,能说出两句及以上的有38人,据此估计该校高二年级的400名学生中,对“二十四节气歌”一句也说不出的有 人.
14.(23-24高二上·上海长宁·期末)从总体容量为的一批电子元件中抽取一个容量为30的样本,若每个电子元件被抽到的可能性为,则总体容量 .
三、解答题
15.(21-22高二下·上海崇明·期末)某企业质检人员从所生产的产品中随机抽取了100个,将其质量指标值分成以下六组:,得到如下频率分布直方图.
(1)求出直方图中的值;
(2)在样本中,有的个体小于或者等于中位数,同时也有的个体大于或者等于中位数,所以在频率分布直方图中,在中位数的左边和右边直方图的面积相等.请利用样本估计总体的思想,估计该企业所生产的产品的质量指标值的中位数(精确到).
16.(24-25高二上·上海·期末)校高一年级共有学生330名,为了解该校高一年级学生的身高情况,学校采用分层随机抽样的方法抽取66名学生,其中女生32名,男生34名,测量他们的身高.
(1)该校高一学生中男、女生各有多少名?
(2)在32名女生身高的数据中,其中一个数据记录有误,错将165cm记录为156cm,由错误数据求得这32个数据的平均数为161cm,方差为23.6875,求原始数据的平均数及方差(平均数结果保留精确值,方差结果精确到0.01).
17.(24-25高二下·上海·期中)某学校高一年级的学生有1200人,其中男生800人,女生400人,为了了解高一年级学生的身高信息,采用分层抽样的方法抽取样本,测量身高所得的统计数据如下频率分布直方图和频率分布表:
高一女生身高样本的频率分布表
组别
频数
频率
4
0.10
8
12
0.30
2
0.05
高一男生身高样本的频率分布直方图
(1)求的值.并利用高一男生身高频率分布直方图来估计男生样本的平均数(同一组中的数据用该组区间的中点值做代表);
(2)若女生身高的样本方差为70.4,男生身高的样本方差为89,请根据题目图表所给信息,求高一年级学生身高的样本平均数和方差.
18.(23-24高二下·上海嘉定·期末)用分层随机抽样从某校高一年级学生的数学期末成绩(满分100分,成绩都是整数)中抽取一个容量为100的样本,其中男生成绩数据40个,女生成绩数据60个,再将40个男生成绩样本数据分为6组: [40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100].绘制得到如图所示的频率分布直方图.
(1)求a的值;
(2)若在区间[40,50)和[90,100]内的两组男生成绩样本数据中,随机抽取两个进行调查,求调查对象来自不同分组的概率:
(3)已知男生成绩样本数据的平均数和方差分别为71和187.75,女生成绩样本数据的平均数和方差分别为73.5和119,求总样本的平均数和方差.
一、单选题
1.(24-25高二下·上海虹口·期末)随着Deepseek的流行,各种大模型层出不穷,现有甲、乙两个大模型,在对甲、乙两个大模型进行深度体验后,6位评委分别对甲、乙进行打分(满分10分),得到如图所示的统计表格:
评委编号模型名称
1
2
3
4
5
6
甲
8.0
9.2
8.0
8.2
8.6
8.4
乙
7.8
9.0
8.3
8.4
8.5
8.5
则下列结论正确的是( )
A.甲得分的平均数大于乙得分的平均数 B.甲得分的中位数大于乙得分的中位数
C.甲得分的极差大于乙得分的极差 D.甲得分的方差大于乙得分的方差
2.(22-23高二下·上海浦东新·阶段练习)下列命题中正确的个数为( )
①数据1,2,3,3,4,5的众数大于中位数;
②数据1,2,2,2,3,3,3,4,5,6的第85百分位数为5;
③数据1,2,2,2,3,3,3,4,5,6,6,6,7,7,8的极差(全距)为7;
④若甲组数据的方差为5,乙组数据为5,6,9,10,5,则这两组数据中较稳定的是乙;
A.1 B.2 C.3 D.4
3.(23-24高二下·上海·阶段练习)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生规模性感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天,甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的城市是( )
A.甲:中位数为2,众数为3 B.乙:总体均值为3,中位数为4
C.丙:总体均值为2,总体方差为3 D.丁:总体均值为1,总体方差大于0
二、填空题
4.(24-25高二下·上海松江·期末)某学校为了获得该校全体高中学生的体育锻炼情况, 按男、女学生的比例分别抽样调查了 48 名男生和 27 名女生的每周锻炼时间. 通过计算得到男生每周锻炼时间的平均数为 7.6 小时, 方差为 7.3, 女生每周锻炼时间的平均数为 6.4 小时, 方差为 8, 则所有样本数据的方差是 .
5.(22-23高二下·上海黄浦·阶段练习)某表演赛评分(两位数)如茎叶图所示,去掉一个最高分和一个最低分后,所剩数据的方差为 .
7
8
8
5
5
5
7
8
9
4
三、解答题
6.(24-25高二上·上海黄浦·期末)某大型超市从一家贸易公司购进600袋白糖.为了了解这些白糖的重量情况,从中抽取了21袋白糖,称出各袋白糖的重量(单位:g)如下:
486 494 496 498 499 493 492
498 490 497 504 489 495 503
498 502 509 498 487 501 508
若设这21袋白糖的平均重量为,标准差为.
(1)求与(精确到0.1);
(2)试估计在这600袋白糖中重量位于与之间的共有多少袋?所占的百分比是多少?
7.(24-25高二上·上海·期末)某工厂选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:分钟)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的第75百分数;
(2)为了解该工厂职工的基本信息,从工厂中抽取了100个职工的体重数据,发现全部介于45公斤到75公斤之间,现将100个体重数据分为6组:第一组,第二组,…,第六组,得到如图2所示的频率分布直方图.其中第一组有2人,第二组有13人.求与的值.
8.(23-24高二下·上海·期中)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定,共5等11级,然后在相应赋分区间内利用转换公式进行赋分,和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取5人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中至少有一人原始成绩在内的概率;
(2)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差s(结果精确到0.1).
9.(23-24高二下·上海浦东新·期中)已知甲组数据,,…,的茎叶图如图所示,其中数据的整数部分为茎,数据的小数部分(仅一位小数)为叶,例如第一数据为5.3.
(1)为甲组数据的平均值、方差、中位数M;
(2)乙组数据为,,…,,且甲、乙两组数据合并后的30个数据的平均值,方差,求乙组数据的平均值和方差,写出必要的计算过程和步骤.
10.(24-25高二下·上海杨浦·阶段练习)某学校初二年级的学生有1200人,其中男生800人,女生400人,为了了解初二年级学生的身高信息,采用分层抽样的方法抽取样本,测量身高所得的统计数据如下频率分布直方图和频率分布表(同一组中的数据用该组区间的中点值做代表).
初二男生身高样本的频率分布直方图
组别
频数
频率
4
0.10
8
12
0.30
2
0.05
初二女生身高样本的频率分布表
(1)求的值,并利用初二男生身高频率分布直方图估计男生样本的平均数;
(2)若女生身高的样本方差为70.4,男生身高的样本方差为89,请根据题目图表所给信息,求初二年级学生身高的样本平均数和方差.
11.(24-25高二下·上海杨浦·期末)随着DeepSeek大模型的全面落地,人工智能行业迎来结构性变革.某人工智能实验室记录了5月17日至23日的模型训练任务情况,如下表所示.例如:17日为数据清洗任务,训练耗时9小时,模型准确率提升,当日效率(模型准确率提升值与训练耗时的比值)为.
日期
17日
18日
19日
20日
21日
22日
23日
任务
数据清洗
模型调试
参数优化
轻度拟合
架构调整
算法优化
性能测试
训练耗时
9小时
12小时
14小时
12小时
14小时
12小时
14小时
准确率提升值
1.0%
1.3%
1.2%
0.9%
1.1%
1.0%
1.3%
(1)写出训练耗时的平均数、中位数、标准差和极差;
(2)从17日至23日这七天中,随机选取连续三天的数据,求这三天中至少有两天的当日效率不低于的概率;
(3)该实验室24日完成最终部署,耗时超过10小时.记17日至20日这四天训练耗时的方差为日至24日这四天训练耗时的方差为.若,求24日的训练耗时.
12.(24-25高二下·上海杨浦·期末)人工智能算力是驱动AI时代创新与进步的核心动力,是重塑经济、社会与国家竞争力的“新质生产力”.某人工智能实验室收集了30台服务器的单机均值算力数据(单位:TFLOPS),数据范围在之间,排序后的数据如下:
115
119
120
133
150
160
161
170
180
190
210
220
220
220
220
225
230
230
239
240
240
241
244
245
247
247
249
250
285
300
(1)直接写出这组数据的众数和极差;
(2)现该实验室准备组建一个服务器集䅵,为了使该服务器集群总算力最大(即算力总和最大)的同时又满足能耗比的需求(要求该集群的服务器的平均算力不低于250),该实验室应该选取多少台服务器组成服务器集释?分别是哪几台?
(3)若该实验室增加2台服务器,算力数据分别是和,通过计算发现,增加这两台服务器前后,该实验室服务器的平均值和第75百分位数都不变,求、的值.
13.(24-25高二下·上海·期中)25年3月9日,在十四届全国人大三次会议民生主题记者会上,国家卫健委主任雷海潮表示,将持续推进“体重管理年”行动.国家卫健委发布的《成人肥胖食养指南(2024版)》显示,我国18岁及以上居民超重率、肥胖率分别达到和,居民肥胖率呈上升趋势.目前,国际上常用身体质量指数(BMI)来衡量人体肥胖程度以及是否健康,其计算公式是
.
中国成人的BMI数值标准为:为偏瘦;为正常;为偏胖;为肥胖.
为了解某公司员工的身体肥胖情况,研究人员从公司员工体检数据中,根据年龄采用分层随机抽样方法抽取了50名员工的身高和体重数据,计算得到他们的BMI值如下:
老年组:21.8 18.2 25.2 28.1 21.5 19.1 25.7 24.4 17.6 20.8
中年组:20.5 20.2 17.4 21.6 18.4 20.3 30.8 23.6 23.3 22.8
20.8 16.8 19.0 16.4 18.7 26.1 20.2 17.6 15.4 21.5
19.5 31.6 19.1 20.4 13.9
青年组:18.6 16.6 15.9 18.3 18.1
29.7 18.9 16.9 25.8 19.8 18.5 16.0 17.6 19.1 26.5
根据上面的数据,请回答以下问题:
(1)请完成下表,并绘制25名中年组员工的体重指数(BMI)的频率分布直方图;
(2)分别求出以上老年组和青年组员工体重指数(BMI)的第30百分位数(精确到小数点后一位数字),并比较老年组和青年组员工在肥胖状况上的差异;
(3)分析公司员工胖瘦程度的整体情况,并提出控制体重的至少两条建议.
25名员工的BMI值的频率分布表如下:
分组
频数
频率
频率/组距
14.(24-25高二下·上海松江·阶段练习)某校在高二期末考试,从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)求图中a的值,并估计该校高二学生周末等级考化学成绩的平均数及中位数;(注:为了计算均值,可用区间的中点值给区间内的每个数据赋值)
(2)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取9人查看他们的答题情况,再从中选取3人进行个案分析,求这3人中恰有一人原始成绩在内的概率;
(3)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差s.
15.(24-25高二下·上海闵行·阶段练习)某校高一年级开设有羽毛球训练课,期末对学生进行羽毛球五项指标(正手发高远球、定点高远球、吊球、杀球以及半场计时往返跑)考核,满分100分.参加考核的学生有40人,考核得分的频率分布直方图如图所示.
(1)由频率分布直方图,求出图中t的值,并估计考核得分的平均值(同一组中的数据用该组区间的中点值为代表);
(2)为了提升同学们的羽毛球技能,校方准备招聘高水平的教练.现采用分层抽样的方法(样本量按比例分配),从得分在内的学生中抽取5人,再从中挑出两人进行试课,求两人得分分别来自和的概率;
(3)现已知直方图中考核得分在内的平均数为75,方差为6.25,在内的平均数为85,方差为0.5,求得分在内的平均数和方差.
1 / 6
学科网(北京)股份有限公司
$