内容正文:
压轴专题04 第13章 统计
目录
1
5
一.总体与样本,普查与抽样 5
二.样本均值与方差 6
三.频率分布直方图与古典概率 9
四.平均数,方差 12
五.总体百分位数 15
15
1.总体平均数与样本平均数
(1)总体平均数
一般地,总体中有个个体,它们的变量值分别为,,…,
则称为总体均值,又称总体平均数.
(2)加权平均数
如果总体的个变量值中,不同的值共有()个,不妨记为,,…,,其中出现的频数(),则总体均值还可以写成加权平均数的形式:.
(3)样本平均数
如果从总体中抽取一个容量为的样本,它们的变量值分别为,,…,
则称为样本均值,又称样本平均数.
2.分层随机抽样的平均数
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为和,抽取的样本量分别为和.我们用表示第1层各个个体的变量值,用表示第1层样本的各个个体的变量值;用表示第2层各个个体的变量值,用表示第2层样本的各个个体的变量值,则第1层的总体平均数和样本平均数分别为
.
第2层的总体平均数和样本平均数分别为
.
总体平均数和样本平均数分别为
.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用.
3.绘制频率分布直方图的步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
4.第百分位数
(1)第百分位数的概念
一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)四分位数
在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.另外,像第1百分位数,第5百分位数,第95百分位数和第99百分位数在统计中也经常被使用.
5.总体集中趋势的估计
(1)平均数
①定义:一组数据的和与这组数据的个数的商.数据,,的平均数为.
(2)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数。
②特征:一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(3)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
6.在频率分布直方图中平均数,中位数,众数的估计值
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
7.总体离散程度的估计
(1)极差
一组数据中的最大值与最小值的差称为极差.
(2)方差与标准差
一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;
标准差:
(3)总体方差和标准差
如果总体中所有个体的变量值分别为,,总体平均数为,则称
为总体方差,为总体标准差.
(4)样本方差和标准差
如果一个样本中个体的变量值分别为,,,样本平均数为,则称
为样本方差,为样本标准差.
(5)加权方差
如果总体的个变量值中,不同的值共有()个,记为,,,其中出现的频数为(),则总体方差为.
一.总体与样本,普查与抽样
例题1.(23-24高二·上海·课堂例题)在下面两个问题中,总体和样本分别是什么,样本量是多少?
(1)为了解大学四年级学生毕业后的就业意愿,一项调查联络了972名大学四年级学生,并询问他们:“你计划毕业后继续深造还是就业?”
(2)为了解各种品牌饼干的价格行情,一名学生在某超市挑选了10种品牌的饼干,并记录了它们的价格.
例题2.(23-24高二·上海·课堂例题)小王和小张计划调查上海市新生儿的性别情况.小王调查了最近一个月在A医院出生的320名新生儿,其中有156名女孩,小王由此推断:上海市新生儿男女比例基本均衡.小张的姐姐在B医院待产,她告诉小张最近一周在B医院出生的18名新生儿中有13名女孩,小张由此推断:上海市新生儿男女比例严重失调,考虑下面的问题:
(1)在上面的统计活动中,总体和样本分别是什么?
(2)你同意小王和小张的推断吗?请说一说你的理由.
(3)你认为是否可以用上面的样本来推断上海市新生儿的男女比例?请说一说你的理由.
二.样本均值与方差
例题1.(23-24高二下·上海·期中)本市某区对全区高中生的身高(单位:厘米)进行统计,得到如下的频率分布直方图.
(1)若数据分布均匀,记随机变量为各区间中点所代表的身高,写出的分布列及期望.
(2)现从身高在区间的高中生中分层抽样抽取一个160人的样本.若身高在区间中样本的均值为176厘米,方差为10;身高在区间中样本的均值为184厘米,方差为16,试求这160人身高的方差.
例题2.(23-24高二下·上海·阶段练习)本市某区对全区高中生的身高(单位:厘米)进行统计,得到如下的频率分布直方图.
(1)若数据分布均匀, 用频率估计概率,则在全市随机取一名高中生,求其身高不低于180厘米的概率;
(2)现从身高在区间的高中生中分层抽样抽取一个80人的样本,若身高在区间中样本的均值为176厘米,方差为10;身高在区间[180, 190)中样本的均值为184 厘米,方差为16,试求这80人的方差.
例题3.(23-24高二上海·课堂例题)某学校有高中学生500人,其中男生300人,女生200人.有人为了获得该校全体高中学生的身高信息,采用分层抽样的方法抽取样本,并观测样本的指标值(单位:cm),计算得男生样本的均值为175,方差为20,女生样本均值为165,方差为30
(1)如果已知男、女的样本量按比例分配,请计算总样本的均值和方差各为多少?
(2)如果已知男、女的样本量都是25,请计算总样本均值和方差各为多少?
例题4.(23-24高二上·上海宝山·阶段练习)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定A+、A、B+、B、B-、C+、C、C-、D+、D、E共5等11级,然后在相应赋分区间内利用转换公式进行赋分,A+和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)求图中的值;
(2)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取6人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中恰有一人原始成绩在内的概率;
(3)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差(结果精确到0.1).
对点训练
1.(23-24高二·上海·课堂例题)数据、、、的方差为,数据、、、的方差为,若,,,成立,a、b为常数,求证:.
2.(23-24高二下·上海嘉定·期末)用分层随机抽样从某校高一年级学生的数学期末成绩(满分100分,成绩都是整数)中抽取一个容量为100的样本,其中男生成绩数据40个,女生成绩数据60个,再将40个男生成绩样本数据分为6组: [40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100].绘制得到如图所示的频率分布直方图.
(1)求a的值;
(2)若在区间[40,50)和[90,100]内的两组男生成绩样本数据中,随机抽取两个进行调查,求调查对象来自不同分组的概率:
(3)已知男生成绩样本数据的平均数和方差分别为71和187.75,女生成绩样本数据的平均数和方差分别为73.5和119,求总样本的平均数和方差.
3.(23-24高二下·上海·期中)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定,共5等11级,然后在相应赋分区间内利用转换公式进行赋分,和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取5人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中至少有一人原始成绩在内的概率;
(2)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差s(结果精确到0.1).
三.频率分布直方图与古典概率
例题1.(23-24高二上·上海松江·期末)全世界人们越来越关注环境保护问题,某监测站点于2016年8月某日起连续n天监测空气质量指数(AQI),数据统计如下:
空气质量指数
空气质量等级
空气优
空气良
轻度污染
中度污染
重度污染
天数
20
40
m
10
5
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布直方图;
(2)在空气质量指数分别属于和监测数据中,用分层抽样的方法抽取5天,再从中任意选取2天,求事件A“两天空气都为良”发生的概率.
例题2.(2022高二·上海·专题练习)某校100名学生期中考试数学成绩的频率分布直方图如图,其中成绩分组区间如下:
组号
第一组
第二组
第三组
第四组
第五组
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
(1)求图中a的值;
(2)根据频率分布直方图,估计这100名学生期中考试数学成绩的平均分;
(3)现用分层抽样的方法从第3、4、5组中随机抽取6名学生,将该样本看成一个总体,从中随机抽取2名,求其中恰有1人的分数不低于90分的概率?
对点训练
1.(24-25高二上·上海·课后作业)某网站推出了关于生态文明建设进展情况的调查,调查数据表明,环境治理和保护问题仍是百姓最为关心的热点.现从参与关注生态文明建设的人群中随机选出200人,并将这200人按年龄分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
(1)求a的值;
(2)现在要从年龄较小的第1,2组中用分层随机抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查,求第2组恰好抽到2人的概率.
2.(23-24高二下·上海浦东新·期中)某企业为了了解本企业员工每天慢走与慢跑的情况,对每天慢走时间在25分钟到55分钟之间的员工,随机抽取n人进行调查,将既参加慢走又参加慢跑的人称为“H族”,否则称为“非H族”,得如下的统计表以及每天慢走时间在25分钟到55分钟之间的员工人数的频率分布直方图(部分):
组数
分组
人数
本组中“H族”的比例
1
200
0.6
2
300
0.65
3
200
0.5
4
150
0.4
5
a
0.3
6
50
0.3
(1)试补全频率分布直方图,并求a与n的值:
(2)从每天慢走时间在(分钟)内的“H族”中按时间采用分层抽样法抽取6人参加企业举办的健身沙龙体验活动,再从这6人中选2人作健身技巧与减脂秘籍的发言,求这2人每天慢走的时间恰好1人在分钟内,另一个人在分钟内的概率.
四.平均数,方差
例题1.(2023·上海杨浦·一模)在一次男子10米气手枪射击比赛中,甲运动员的成绩(单位:环)为7.5、7.8、…、10.9;乙运动员的成绩为8.3、8.4、…、10.1,如下茎叶图所示.从这组数据来看,下列说法正确的是( )
A.甲的平均成绩和乙一样,且甲更稳定 B.甲的平均成绩和乙一样,但乙更稳定
C.甲的平均成绩高于乙,且甲更稳定 D.乙的平均成绩高于甲,且乙更稳定
例题2.(24-25高二·上海·随堂练习)从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.由于一些数据丢失,试利用频率分布直方图求:
(1)这50名学生成绩的众数与中位数;
(2)这50名学生的平均成绩.
例题3.(23-24高二下·上海静安·期末)甲、乙两位气步枪运动员在射击队内的选拔赛成绩茎叶图如右:
(1)求甲、乙两名选手射击的平均环数;
(2)请用具有统计意义的数量来刻画甲、乙两位运动员的射击成绩的稳定性,并帮助射击队选拔一名运动员外出参加比赛.
对点训练
1.(23-24高三上·上海松江·期末)如图所示的茎叶图记录了甲、乙两支篮球队各6名队员某场比赛的得分数据(单位:分).则下列说法正确的是 ( )
A.甲队数据的中位数大于乙队数据的中位数;
B.甲队数据的平均值小于乙队数据的平均值;
C.甲队数据的标准差大于乙队数据的标准差;
D.乙队数据的第75百分位数为27.
2.(25-26高二上·上海·单元测试)冬末春初,乍暖还寒,人们容易感冒发热.若发生群体性发热,则会影响到人们的身体健康,干扰正常工作生产.某大型公司规定:若任意连续7天,每天不超过5人体温高于,则称没有发生群体性发热.下列连续7天体温高于人数的统计特征数中,以下结论中能判定该公司没有发生群体性发热的个数为 .
①中位数为3,众数为2; ②均值小于1,中位数为1;
③均值为3,众数为4; ④均值为2,标准差为.
3.(23-24高二·上海·课堂例题)某高校两个班级在一门选修课程的某次考试中的成绩(总分:100分)如下:
甲班
84
75
78
95
67
49
86
77
66
88
73
78
53
45
74
91
84
99
53
84
67
57
68
55
90
73
72
67
57
乙班
74
58
92
100
74
37
83
97
66
84
61
75
94
70
73
84
81
48
82
66
83
100
90
66
93
44
分别计算两个班级成绩的平均数、中位数和众数,并说明在这次考试中哪个班的成绩更好.
4.(23-24高二上·上海·单元测试)随机抽取某校甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据如下:
甲班:170 179 162 168 158 182 179 168 163 171
乙班:159 173 179 178 162 181 176 168 170 165
(1)计算甲班的样本方差;
(2)现从乙班这10名同学中随机抽取两名同学,求身高为176cm同学被抽中的概率.
五.总体百分位数
1.(2024·上海长宁·二模)某运动员8次射击比赛的成绩为:、、、、、、、;已知这组数据的第百分位为,若从这组数据中任取一个数,这个数比大的概率为,则的取值不可能是( )
A.65 B.70 C.75 D.80
2.(23-24高三下·上海·开学考试)容量为的一组数据,它的第百分位数(为1到99之间的整数)各不相同,则的最小值为 .
对点训练
1.(23-24高三上·上海·期中)已知实数的平均数为4,则这四个数的中位数的取值范围是 .
1.(23-24高一上·上海杨浦·阶段练习)某高中三个年级共有学生900人,其中男生528人,高一学生312人,高一男生l92人,共青团员670人,男团员336人,高一团员247人,高一男团员147人,则高二、高三女生中非团员的总人数为
2.(23-24高三上·上海·期末)一个调查机构就某地居民的月收入调查了10000人,将所得数据分成如下六组:相应的频率分布直方图如图所示.若按月收入将这10000人也分成上述六组,并通过分层抽样抽出100人作进一步调查,则这一组中应抽出 人.
3.(2024·上海·三模)对于没有重复数据的样本、、…、,记这m个数的第k百分位数为.若不在这组数据中,且在区间中的数据有且只有5个,则m的所有可能值组成的集合为 .
4.(23-24高三上·上海宝山·期末)在某次比赛中运动员五轮的成绩互不相等,记为,平均数为,若随机删去其中一轮的成绩,得到一组新数据,记为,平均数为,下面说法正确的是 .(写出所有正确选项)
①新数据的极差可能等于原数据的极差.
②新数据的中位数可能等于原数据的中位数.
③若,则新数据的方差一定大于原数据方差.
④若,则新数据的第40百分位数一定大于原数据的第40百分位数.
5.(23-24高二上·上海·期末)为深入学习宣传党的二十大精神,某校开展了“奋进新征程,强国伴我行”二十大主题知识竞赛.其中高一年级选派了10名同学参赛,且该10名同学的成绩依次是:70,85,86,88,90,90,92,94,95,100.则下列说法正确的序号为 .(写出全部正确的序号)①中位数为90,平均数为89;②极差为30,方差为58.③70百分位数为92;④去掉一个最低分和一个最高分,平均数变大,方差变小
6.(2023·上海宝山·一模)在一次为期天的博览会上,主办方统计了每天的参观人数(单位:千人),得到样本的茎叶图(如下图),则该样本的第百分位数是
7.(23-24高二下·上海杨浦·阶段练习)已知样本容量为5的样本的平均数为3,方差为,在此基础上获得新数据9,把新数据加入原样本得到样本容量为6的新样本,则该新样本的方差为 .
8.(22-23高二下·上海徐汇·阶段练习)某地区水务局计划派500位企业员工组团参加2023年在广州举行的第十六届中国广州国际水处理技术设备展览会.团队按年龄分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
区间
人数
50
50
a
150
b
(1)上表是年龄的频数分布表,求正整数a、b的值;
(2)现在要从年龄较小的第1、2、3组中用分层抽样的方法抽取6人,年龄在第1、2、3组的人数分别是多少?
(3)因会务需要,现从第1、2、3组中抽取6人组成经验交流小组(其中第1组1人,第2组1人,第3组4人),在这6人中随机抽取2人,求至少有1人在第3组的概率.
9.(23-24高二上·上海徐汇·阶段练习)某商场为推销当地的某种特产进行了一次促销活动,将派出的促销员分成甲、乙两个小组分别在两个不同的场地进行促销,每个小组各6人.以下茎叶图记录了这两个小组成员促销特产的件数,且图中甲组的一个数据已损坏,用表示,已知甲组促销特产件数的平均数比乙组促销特产件数的平均数少1件.
(1)求的值,并求甲组数据的第80百分位数;
(2)在甲组中任选2位促销员,求他们促销的特产件数都多于乙组促销件数的平均数的概率.
10.(23-24高二上·上海徐汇·期末)某高校承办了奥运会的志愿者选拔面试工作,现随机抽取了100名候选者的面试成绩并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图,已知第三、四、五组的频率之和为0.7,第一组和第五组的频率相同.
(1)求、的值;
(2)估计这100名候选者面试成绩的平均数和第60百分位数(精确到0.1);
(3)在第四、五两组志愿者中,按比例分层抽样抽取5人,然后再从这5人中选出2人,求选出的两人来自同一组的概率.
11.(23-24高三上·上海黄浦·阶段练习)参考公式:平均值,方差.已知甲组数据的茎叶图如图所示,其中数据的整数部分为䓍,数据的小数部分(仅一位小数)为叶,例如第一个数据为5.3.
(1)求:甲组数据的平均值、方差、中位数;
(2)乙组数据为,且甲、乙两组数据合并后的30个数据的平均值为,方差为,求:乙组数据的平均值和方差,写出必要的计算步骤.
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
压轴专题04 第13章 统计
目录
1
4
一.总体与样本,普查与抽样 4
二.样本均值与方差 5
三.频率分布直方图与古典概率 13
四.平均数,方差 19
五.总体百分位数 25
26
1.总体平均数与样本平均数
(1)总体平均数
一般地,总体中有个个体,它们的变量值分别为,,…,
则称为总体均值,又称总体平均数.
(2)加权平均数
如果总体的个变量值中,不同的值共有()个,不妨记为,,…,,其中出现的频数(),则总体均值还可以写成加权平均数的形式:.
(3)样本平均数
如果从总体中抽取一个容量为的样本,它们的变量值分别为,,…,
则称为样本均值,又称样本平均数.
2.分层随机抽样的平均数
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为和,抽取的样本量分别为和.我们用表示第1层各个个体的变量值,用表示第1层样本的各个个体的变量值;用表示第2层各个个体的变量值,用表示第2层样本的各个个体的变量值,则第1层的总体平均数和样本平均数分别为
.
第2层的总体平均数和样本平均数分别为
.
总体平均数和样本平均数分别为
.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用.
3.绘制频率分布直方图的步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
4.第百分位数
(1)第百分位数的概念
一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)四分位数
在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.另外,像第1百分位数,第5百分位数,第95百分位数和第99百分位数在统计中也经常被使用.
5.总体集中趋势的估计
(1)平均数
①定义:一组数据的和与这组数据的个数的商.数据,,的平均数为.
(2)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数。
②特征:一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(3)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
6.在频率分布直方图中平均数,中位数,众数的估计值
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
7.总体离散程度的估计
(1)极差
一组数据中的最大值与最小值的差称为极差.
(2)方差与标准差
一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;
标准差:
(3)总体方差和标准差
如果总体中所有个体的变量值分别为,,总体平均数为,则称
为总体方差,为总体标准差.
(4)样本方差和标准差
如果一个样本中个体的变量值分别为,,,样本平均数为,则称
为样本方差,为样本标准差.
(5)加权方差
如果总体的个变量值中,不同的值共有()个,记为,,,其中出现的频数为(),则总体方差为.
一.总体与样本,普查与抽样
例题1.(23-24高二·上海·课堂例题)在下面两个问题中,总体和样本分别是什么,样本量是多少?
(1)为了解大学四年级学生毕业后的就业意愿,一项调查联络了972名大学四年级学生,并询问他们:“你计划毕业后继续深造还是就业?”
(2)为了解各种品牌饼干的价格行情,一名学生在某超市挑选了10种品牌的饼干,并记录了它们的价格.
【答案】(1)总体是就业意愿情况,样本是972位大学四年级学生的就业意愿情况,样本量972;
(2)总体是各品牌饼干的价格,样本是挑选的10种品牌饼干的价格,样本量10.
【考点】总体与样本
【分析】根据给定条件,利用总体、样本的定义直接求解作答.
【详解】(1)联络972位大学四年级学生,对就业意愿情况调查,
总体是就业意愿情况,样本是972位大学四年级学生的就业意愿情况,样本量为972.
(2)了解各种品牌饼干的价格行情,在某超市挑选了10种品牌的饼干,并记录了它们的价格,
总体是各品牌饼干的价格,样本是挑选的10种品牌饼干的价格,样本量为10.
例题2.(23-24高二·上海·课堂例题)小王和小张计划调查上海市新生儿的性别情况.小王调查了最近一个月在A医院出生的320名新生儿,其中有156名女孩,小王由此推断:上海市新生儿男女比例基本均衡.小张的姐姐在B医院待产,她告诉小张最近一周在B医院出生的18名新生儿中有13名女孩,小张由此推断:上海市新生儿男女比例严重失调,考虑下面的问题:
(1)在上面的统计活动中,总体和样本分别是什么?
(2)你同意小王和小张的推断吗?请说一说你的理由.
(3)你认为是否可以用上面的样本来推断上海市新生儿的男女比例?请说一说你的理由.
【答案】(1)答案见解析;
(2)同意,理由见解析;
(3)不能,理由见解析;
【考点】总体与样本
【分析】(1)根据总体和样本定义分别求解;
(2)根据抽样情况判断不全面不能得出推论;
(3)说明不能用上面的样本来推断上海市新生儿的男女比例的理由.
【详解】(1)总体是上海市新生儿的性别情况,样本是在A医院出生的320名新生儿的性别情况;
(2)不同意,根据抽样情况只能说明抽样的情况,判断不全面,不能得出推论;
(3)不能,抽样的不全面不能得出科学的推断.
方法总结:抓紧定义,总体:调查对象的全体;个体:组成总体的每一个调查对象;样本:从总体中抽取的那部分个体;样本量:样本中包含的个体数
二.样本均值与方差
例题1.(23-24高二下·上海·期中)本市某区对全区高中生的身高(单位:厘米)进行统计,得到如下的频率分布直方图.
(1)若数据分布均匀,记随机变量为各区间中点所代表的身高,写出的分布列及期望.
(2)现从身高在区间的高中生中分层抽样抽取一个160人的样本.若身高在区间中样本的均值为176厘米,方差为10;身高在区间中样本的均值为184厘米,方差为16,试求这160人身高的方差.
【答案】(1)分布列见详解,期望为171.7
(2)27.25
【考点】样本均值与方差
【分析】(1)依据分布列和期望的定义即可求得的分布列及期望;
(2)依据方差的定义去求这160人的方差.
【详解】(1)由,解得,
所以的分布列为:
155
165
175
185
195
205
0.22
0.27
0.25
0.15
0.1
0.01
.
(2)由于身高在区间,的人数之比为,
所以分层抽样抽取160人,区间,内抽取的人数分别为100人与60人.
在区间中抽取的100个样本的均值为176,方差为10,即,,
在区间中抽取的60个样本的均值为184,方差为16,即,,
所以这160人身高的均值为,
从而这160人身高的方差为
,
因此这160人身高的方差为27.25.
例题2.(23-24高二下·上海·阶段练习)本市某区对全区高中生的身高(单位:厘米)进行统计,得到如下的频率分布直方图.
(1)若数据分布均匀, 用频率估计概率,则在全市随机取一名高中生,求其身高不低于180厘米的概率;
(2)现从身高在区间的高中生中分层抽样抽取一个80人的样本,若身高在区间中样本的均值为176厘米,方差为10;身高在区间[180, 190)中样本的均值为184 厘米,方差为16,试求这80人的方差.
【答案】(1);
(2)
【考点】样本均值与方差
【分析】(1)先由频率分布直方图中每组的频率之和等于1求出的值,再对身高不低于180厘米的各个小组的频率进行累加即得;
(2)由分层抽样确定两个组别分别抽取的人数,设出两组的样本,计算出所抽取的80人的身高总样本的均值,化简总样本方差公式,将数据代入计算即得.
【详解】(1)由频率分布直方图可得:解得
则在全市随机取一名高中生,求其身高不低于180厘米的概率为.
(2)由于身高在区间,的人数之比为,所以分层抽样抽取80人,区间,内抽取的人数分别为50人与30人.
设在区间中抽取的50个样本为,其均值为176,方差为,即.
设区间中抽取的30个样本为.其均值为,方差为,即;
所以这80人身高的均值为.
从而这80人身高的方差为
因此,这80人身高的方差为
例题3.(23-24高二上海·课堂例题)某学校有高中学生500人,其中男生300人,女生200人.有人为了获得该校全体高中学生的身高信息,采用分层抽样的方法抽取样本,并观测样本的指标值(单位:cm),计算得男生样本的均值为175,方差为20,女生样本均值为165,方差为30
(1)如果已知男、女的样本量按比例分配,请计算总样本的均值和方差各为多少?
(2)如果已知男、女的样本量都是25,请计算总样本均值和方差各为多少?
【答案】(1)总样本的均值为cm,总样本的方差为
(2)总样本的均值为cm,总样本的方差为;
【考点】样本均值与方差
【分析】(1)根据男、女的样本量按比例分配进行计算可得答案;
(2)按男、女的样本量都是25计算总样本均值和方差即可.
【详解】(1)男、女的样本量按比例分配,
总样本的均值为cm,
总样本的方差为;
(2)男、女的样本量都是25,
总样本的均值为cm,
总样本的方差为;
例题4.(23-24高二上·上海宝山·阶段练习)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定A+、A、B+、B、B-、C+、C、C-、D+、D、E共5等11级,然后在相应赋分区间内利用转换公式进行赋分,A+和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)求图中的值;
(2)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取6人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中恰有一人原始成绩在内的概率;
(3)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差(结果精确到0.1).
【答案】(1)0.03
(2)
(3),
【考点】样本均值与方差
【分析】(1)借助频率之和为1即可得;
(2)根据分层抽样,计算出每个区间中的人数,结合概率公式即可得;
(3)借助平均数、方差与标准差的定义计算即可.
【详解】(1),解得;
(2)由原始分在和中的频率之比为,
故抽取的6人中,原始分在中的有人,记为、,
原始分在中的有人,记为、、、,
则从人中抽取人所有可能的结果有:
,,,,,,,,
,,,,,,,
共个基本事件,
其中抽取这2人中恰有一人原始成绩在内的结果有,
,,,,,,,,
共个基本事件,
故这2人中恰有一人原始成绩在内的概率;
(3),
,
故其估计值为.
方法总结:总体平均数和样本平均数分别为.
样本方差
对点训练
1.(23-24高二·上海·课堂例题)数据、、、的方差为,数据、、、的方差为,若,,,成立,a、b为常数,求证:.
【答案】证明见解析
【考点】样本均值与方差
【分析】利用几个数据的平均数与方差的计算公式整理化简即可得证.
【详解】设数据的平均数为,数据的平均数为,
因为,成立,
所以,
则,
因为,
得,
所以
,
所以.
2.(23-24高二下·上海嘉定·期末)用分层随机抽样从某校高一年级学生的数学期末成绩(满分100分,成绩都是整数)中抽取一个容量为100的样本,其中男生成绩数据40个,女生成绩数据60个,再将40个男生成绩样本数据分为6组: [40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100].绘制得到如图所示的频率分布直方图.
(1)求a的值;
(2)若在区间[40,50)和[90,100]内的两组男生成绩样本数据中,随机抽取两个进行调查,求调查对象来自不同分组的概率:
(3)已知男生成绩样本数据的平均数和方差分别为71和187.75,女生成绩样本数据的平均数和方差分别为73.5和119,求总样本的平均数和方差.
【答案】(1)0.025
(2)
(3),
【考点】样本均值与方差
【分析】(1)根据频率分布直方图的长方形面积和为1列方程,解方程即可;
(2)根据直方图得到成绩在区间和的男生人数,然后求概率即可;
(3)根据分层抽样的性质求总样本的平均数,根据方差公式和、求总样本的方差.
【详解】(1)由题意得,解得.
(2),,
所以成绩在区间的男生有4人,在区间的男生有2人,
设成绩在区间的男生为,在区间的男生为,
则在这6个数据中随机抽取两个的样本空间包含的样本点为:
,,,,,,,,,,,,,,,
所以,
记事件“调查对象来自不同分组”,
则事件包含的样本点为,,,,,,,,
,
所以调查对象来自不同的分组得概率为.
(3)设男生成绩样本数据为,其平均数位,方差为,
女生成绩样本数据为,其平均数为,方差为,
设总体的平均数为,方差为,
由分层抽样总体样本平均数与各层样本平均数的关系得,
因为,
又,
同理,
所以
,
所以总样本的平均数和方差分别为72.5和148.
3.(23-24高二下·上海·期中)为了让学生适应上海“3+3”的新高考模式,某校在高二期末考试中使用赋分制给等级考科目的成绩进行赋分.先按照考生原始分从高到低按比例划定,共5等11级,然后在相应赋分区间内利用转换公式进行赋分,和E级排名各占比5%,其余各级排名各占比10%.现从全年级的等级考化学成绩中随机取100名学生的原始成绩(满分100分)进行分析,其频率分布直方图如图所示:
(1)若采用分层抽样的方法,从原始成绩在和内的学生中共抽取5人查看他们的答题情况,再从中选取2人进行个案分析,求这2人中至少有一人原始成绩在内的概率;
(2)已知落在的平均成绩,方差,落在的平均成绩,方差,求落在的平均成绩,并估计落在的成绩的标准差s(结果精确到0.1).
【答案】(1)
(2);
【考点】样本均值与方差
【分析】(1)由频率分布直方图的性质,求得,得到在和中的频率之比为,结合古典摡型的概率计算公式,即可求解;
(2)根据题意,求得,结合,即可求解.
【详解】(1)解:由频率分布直方图的性质,可得,
解得,则原始分在和中的频率之比为,
所以抽取的5中,原始成绩在和内的学生分布为人和人,
则这2人中至少有一人原始成绩在内的概率为.
(2)解:由题意知,落在的平均成绩,方差,
落在的平均成绩,方差,
可得,
所以
,
所以估计落在的成绩的标准差.
三.频率分布直方图与古典概率
例题1.(23-24高二上·上海松江·期末)全世界人们越来越关注环境保护问题,某监测站点于2016年8月某日起连续n天监测空气质量指数(AQI),数据统计如下:
空气质量指数
空气质量等级
空气优
空气良
轻度污染
中度污染
重度污染
天数
20
40
m
10
5
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布直方图;
(2)在空气质量指数分别属于和监测数据中,用分层抽样的方法抽取5天,再从中任意选取2天,求事件A“两天空气都为良”发生的概率.
【答案】(1),,直方图见解析
(2)
【考点】频率分布直方图与古典概率
【分析】(1)根据频率的定义可求得,从而求得,进一步计算每组的频率,从而完成频率分布直方图;
(2)根据分层抽样的定义可以确定空气质量指数为和的监测天数中分别抽取4天和1天,再根据古典概率模型计算公式即可求解.
【详解】(1)因为,解得,
因为,解得,
,,,.
完成频率分布直方图如图:
(2)空气质量指数为和的监测天数中分别抽取4天和1天,
在所抽取的5天中,将空气质量指数为的4天分别记为,将空气质量指数为的1天记为.
从中任取2天的基本事件分别为,,,,,,,,,,共10天,
其中事件“两天空气都为良”包含的基本事件为,,,,,,共6天,
所以事件“两天空气都为良”发生的概率.
例题2.(2022高二·上海·专题练习)某校100名学生期中考试数学成绩的频率分布直方图如图,其中成绩分组区间如下:
组号
第一组
第二组
第三组
第四组
第五组
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
(1)求图中a的值;
(2)根据频率分布直方图,估计这100名学生期中考试数学成绩的平均分;
(3)现用分层抽样的方法从第3、4、5组中随机抽取6名学生,将该样本看成一个总体,从中随机抽取2名,求其中恰有1人的分数不低于90分的概率?
【答案】(1)
(2)74.5
(3)
【考点】频率分布直方图与古典概率
【分析】(1)根据所以概率的和为1,即所求矩形的面积和为1,建立等式关系,可求出所求;
(2)均值为各组组中值与该组频率之积的和;
(3)先分别求出3,4,5组的人数,再利用古典概型知识求解.
【详解】(1)由题意得,所以.
(2)由直方图分数在[50,60]的频率为0.05,
的频率为0.35,
的频率为0.30,
的频率为0.20,
的频率为0.10,所以这100名学生期中考试数学成绩的平均分的估计值为:
(3)由直方图,得:
第3组人数为人,
第4组人数为人,
第5组人数为人.
所以利用分层抽样在60名学生中抽取6名学生,
每组分别为:
第3组:人,
第4组:人,
第5组:人.
所以第3、4、5组分别抽取3人、2人、1人
设第3组的3位同学为A1,A2,A3,第4组的2位同学为B1,B2,第5组的1位同学为C1,则从六位同学中抽两位同学有15种可能如下:
(A1,A2),(A1,A3),(B1,B2),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A1,C1),(A2,C1),(A3,C1),(B1,C1),(B2,C1),
其中恰有1人的分数不低于90(分)的情形有:(A1,C1),(A2,C1),(A3,C1),(B1,C1),(B2,C1),共5种.…
所以其中第4组的2位同学至少有一位同学入选的概率为
对点训练
1.(24-25高二上·上海·课后作业)某网站推出了关于生态文明建设进展情况的调查,调查数据表明,环境治理和保护问题仍是百姓最为关心的热点.现从参与关注生态文明建设的人群中随机选出200人,并将这200人按年龄分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
(1)求a的值;
(2)现在要从年龄较小的第1,2组中用分层随机抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查,求第2组恰好抽到2人的概率.
【答案】(1)
(2)
【考点】频率分布直方图与古典概率
【分析】由频率分布直方图直接求出a.
第1,2组的人数分别为20人,30人,从第1,2组中用分层抽样的方法抽取5人,则第1,2组抽取的人数分别为2人,3人,分别记为,设从5人中随机抽取3人,利用列举法求出第2组中抽到2人的概率.
【详解】(1)由,得
(2)第1,2组抽取的人数分别为20人,30人,从第1,2组中用分层抽样的方法抽取5人,
则第1,2组抽取的人数分别为2人,3人,分别记为.
设从5人中随机抽取3人,为,
共10个基本事件,
其中第2组恰好抽到2人包含,
共6个基本事件,从而第2组抽到2人的概率
2.(23-24高二下·上海浦东新·期中)某企业为了了解本企业员工每天慢走与慢跑的情况,对每天慢走时间在25分钟到55分钟之间的员工,随机抽取n人进行调查,将既参加慢走又参加慢跑的人称为“H族”,否则称为“非H族”,得如下的统计表以及每天慢走时间在25分钟到55分钟之间的员工人数的频率分布直方图(部分):
组数
分组
人数
本组中“H族”的比例
1
200
0.6
2
300
0.65
3
200
0.5
4
150
0.4
5
a
0.3
6
50
0.3
(1)试补全频率分布直方图,并求a与n的值:
(2)从每天慢走时间在(分钟)内的“H族”中按时间采用分层抽样法抽取6人参加企业举办的健身沙龙体验活动,再从这6人中选2人作健身技巧与减脂秘籍的发言,求这2人每天慢走的时间恰好1人在分钟内,另一个人在分钟内的概率.
【答案】(1)频率分布直方图见解析;,.
(2)
【考点】频率分布直方图与古典概率
【分析】(1)利用所有组的频率之和等于1,算出第二组的频率,得到第二组矩形的高,补全频率分布直方图,由第一组的频率和频数计算样本容量,再计算第五组的频数.
(2)按分层抽样的法则在两个组中抽取对应人数,从这6人中选2人,列出样本空间,看其中恰好1人在[40,45)分钟内,另一个人在[45,50)分钟内占多少种基本事件,计算相应概率。
【详解】(1)第二组的频率为,
所以第二组小矩形高为.补全后的频率直方图如下:
第一组的频率为,所以.
第五组的频率为,所以.
(2)因为分钟的“H族”人数为,
分钟的“H族”人数为,二者比例为,
所以按时间采用分层抽样法抽取6人,分钟内抽取4人,分钟内抽取2人.
设这2人每天慢走的时间恰好1人在分钟,另一个人在分钟为事件Q,
在分钟内抽取4人记为A,B,C,D,分钟内抽取2人记为a,b,
则有AB,AC,AD,Aa,Ab,BC,BD,Ba,Bb,CD,Ca,Cb,Da,Db,ab,
共15种不同的抽取方法,事件Q有Aa,Ab,Ba,Bb,Ca,Cb,Da,Db,共8种,
所以,即选出发言的2人每天慢走的时间恰好1人在分钟内,
另一个人在分钟内的概率为.
四.平均数,方差
例题1.(2023·上海杨浦·一模)在一次男子10米气手枪射击比赛中,甲运动员的成绩(单位:环)为7.5、7.8、…、10.9;乙运动员的成绩为8.3、8.4、…、10.1,如下茎叶图所示.从这组数据来看,下列说法正确的是( )
A.甲的平均成绩和乙一样,且甲更稳定 B.甲的平均成绩和乙一样,但乙更稳定
C.甲的平均成绩高于乙,且甲更稳定 D.乙的平均成绩高于甲,且乙更稳定
【答案】B
【考点】计算平均数方差
【分析】分别计算甲乙的平均值和方差,对比得到答案.
【详解】甲的平均值为:,
甲的方差为:
乙的平均值为:,
乙的方差为:.
故甲的平均成绩和乙一样,但乙更稳定
故选:B
例题2.(24-25高二·上海·随堂练习)从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.由于一些数据丢失,试利用频率分布直方图求:
(1)这50名学生成绩的众数与中位数;
(2)这50名学生的平均成绩.
【答案】(1)众数75,中位数.
(2)76.2
【考点】计算平均数方差
【分析】(1)运用众数概念,中位数概念求解,
(2)根据平均值计算方法求解.
【详解】(1)由众数的概念可知,众数是出现次数最多的数.在直方图中高度最高的小长方形的底边中点的横坐标即为所求,
所以众数应为.
由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等,
即频率也相等,从而就是小矩形的面积和相等.
因此在频率分布直方图中将所有小矩形的面积一分为二的垂直于横轴的直线与横轴交点的横坐标所对应的成绩即为所求.
因为,
所以前三个小矩形面积的和为0.3.而第四个小矩形面积为,,
所以中位数应位于第四个小矩形内.
设中位数为x,,
解得,
故中位数应约为.
(2)样本平均值应是频率分布直方图的“重心”,即所有数据的平均值,
取每个小矩形底边的中点的横坐标乘以每个小矩形的面积求和即可.
所以平均成绩为
.
例题3.(23-24高二下·上海静安·期末)甲、乙两位气步枪运动员在射击队内的选拔赛成绩茎叶图如右:
(1)求甲、乙两名选手射击的平均环数;
(2)请用具有统计意义的数量来刻画甲、乙两位运动员的射击成绩的稳定性,并帮助射击队选拔一名运动员外出参加比赛.
【答案】(1)
(2)答案见解析
【考点】计算平均数方差
【分析】(1)利用平均数公式求解即可.
(2)利用方差公式分别求解方程,依据方差大小分析稳定性,再选人即可.
【详解】(1)
(2)
由可知甲、乙两位运动员的平均成绩一致;
而即甲的射击成绩的离散程度较小,乙的射击成绩的离散程度较大,
因此甲的成绩较稳定,所以选甲代表射击队出去参加比赛.
方法总结:①一组数据的平均数计算公式,方差计算公式;②在频率分布直方图中,平均数的估计是各矩形中点和面积的积之和,方差计算公式为
对点训练
1.(23-24高三上·上海松江·期末)如图所示的茎叶图记录了甲、乙两支篮球队各6名队员某场比赛的得分数据(单位:分).则下列说法正确的是 ( )
A.甲队数据的中位数大于乙队数据的中位数;
B.甲队数据的平均值小于乙队数据的平均值;
C.甲队数据的标准差大于乙队数据的标准差;
D.乙队数据的第75百分位数为27.
【答案】D
【考点】计算平均数方差
【分析】
根据中位数、平均数、方程、百分位数等知识对选项进行分析,从而确定正确答案.
【详解】A选项,甲队的中位数是,乙队的中位数是,
两者相等,所以A选项错误.
B选项,甲队的平均数为,
乙队的平均数为,
两者相等,所以B选项错误.
C选项,甲队的标准差为:
,
乙队的标准差为:
,
所以甲队数据的标准差小于乙队数据的标准差,所以C选项错误.
D选项,乙队的数据为,,
所以乙队数据的第75百分位数为,D选项正确.
故选:D
2.(25-26高二上·上海·单元测试)冬末春初,乍暖还寒,人们容易感冒发热.若发生群体性发热,则会影响到人们的身体健康,干扰正常工作生产.某大型公司规定:若任意连续7天,每天不超过5人体温高于,则称没有发生群体性发热.下列连续7天体温高于人数的统计特征数中,以下结论中能判定该公司没有发生群体性发热的个数为 .
①中位数为3,众数为2; ②均值小于1,中位数为1;
③均值为3,众数为4; ④均值为2,标准差为.
【答案】2
【考点】计算平均数方差
【分析】对于①,③,可以通过举反例进行判断;对于②,④,可以假设,即该公司发生了群体性发热,再由所给均值、中位数、标准差得出矛盾,即可判断.
【详解】将连续7天体温高于人数由小到大依次记为、、、、、、,
对于①,反例:设连续7天体温高于人数为2、2、2、3、3、4、6,
满足中位数为3,众数为2,与题意矛盾,故①不合乎要求;
对于②,假设,即该公司发生了群体性发热,因中位数为1,
则,平均数为,矛盾,
故假设不成立,即该公司没有发生群体性发热,故②合乎要求;
对于③,反例:设连续7天体温高于人数为0、1、2、4、4、4、6,
满足众数为4,均值为3,与题意矛盾,故③不合乎要求;
对于④,假设,即该公司发生群体性发热,
若均值为2,则方差为,
即,与④矛盾,故假设不成立,
即该公司没有发生群体性发热,故④合乎要求.
故答案为:2.
3.(23-24高二·上海·课堂例题)某高校两个班级在一门选修课程的某次考试中的成绩(总分:100分)如下:
甲班
84
75
78
95
67
49
86
77
66
88
73
78
53
45
74
91
84
99
53
84
67
57
68
55
90
73
72
67
57
乙班
74
58
92
100
74
37
83
97
66
84
61
75
94
70
73
84
81
48
82
66
83
100
90
66
93
44
分别计算两个班级成绩的平均数、中位数和众数,并说明在这次考试中哪个班的成绩更好.
【答案】答案见解析
【考点】计算平均数方差
【分析】利用平均数、中位数和众数的计算方法与代表意义即可得解.
【详解】依题意,
,
,
首先对两班的成绩按高低进行排列,甲班从低到高的顺序:45,49,53,53,55,57,57,
66,67,67,67,68,72,73,73,74,75,77,78,78,84,84,84,86,88,90,91,95,99;
乙班从低到高的顺序:37,44,48,58,61,66,66,66,70,73,74,74,75,81,82,
83,83,84,84,90,92,93,94,97,100,100;
故甲班的中位数为73,乙班的中位数;
甲班的众数为84和67,乙班的众数为66,
由于甲班的平均成绩小于乙班的平均成绩,且甲班成绩的中位数小于乙班的,
所以乙班的成绩更好点.
4.(23-24高二上·上海·单元测试)随机抽取某校甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据如下:
甲班:170 179 162 168 158 182 179 168 163 171
乙班:159 173 179 178 162 181 176 168 170 165
(1)计算甲班的样本方差;
(2)现从乙班这10名同学中随机抽取两名同学,求身高为176cm同学被抽中的概率.
【答案】(1)57.2
(2)
【考点】计算平均数方差
【分析】(1)求出,利用方差公式计算可得答案;
(2)求出从乙班这10名同学中随机抽取两名同学的方法、身高为176cm同学被抽中的方法,利用古典概型概率公式进行计算可得答案.
【详解】(1),
所以
;
(2)从乙班这10名同学中随机抽取两名同学有种方法,
身高为176cm同学被抽中的方法有种方法,
所以身高为176cm同学被抽中的概率为.
五.总体百分位数
1.(2024·上海长宁·二模)某运动员8次射击比赛的成绩为:、、、、、、、;已知这组数据的第百分位为,若从这组数据中任取一个数,这个数比大的概率为,则的取值不可能是( )
A.65 B.70 C.75 D.80
【答案】D
【考点】计算总体百分位数
【分析】先利用古典概型分析的取值范围,再利用百分位数的定义逐一分析各选项,从而得解.
【详解】将该运动员8次射击比赛的成绩从小到大排列:
、、、、、、、,
因为从这组数据中任取一个数,这个数比大的概率为,
一共有8个数,所以比大的数有两个,则,
对于A,因为,所以第65百分位为第6个数,即,满足题意;
对于B,因为,所以第70百分位为第6个数,即,满足题意;
对于C,因为,
所以第75百分位为第个数的平均数,即,满足题意;
对于D,因为,所以第80百分位为第7个数,即,不满足题意.
故选:D.
2.(23-24高三下·上海·开学考试)容量为的一组数据,它的第百分位数(为1到99之间的整数)各不相同,则的最小值为 .
【答案】
【考点】计算总体百分位数
【分析】由百分位数的定义可证明,再说明可能取到,即得结果.
【详解】由百分位数的定义,按从小到大排列原始数据,第百分位数,
如果不是整数,则第百分位数为大于的比邻整数数位的数据,
如果是整数,则第百分位数为第项与第项数据的平均数.
所以,一方面,若容量为的一组数据的第百分位数各不相同.
这个数本身有个,相邻两个数的平均数有个,这共有个数.
而每个第百分位数都是这个数之一,这些百分位数又各不相同.
所以,即;
而另一方面,这组数据的第百分位数分别是,各不相同.
所以,的最小值为.
故答案为:.
方法总结:计算第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;
若是整数,则第百分位数为第项与第项数据的平均数.
对点训练
1.(23-24高三上·上海·期中)已知实数的平均数为4,则这四个数的中位数的取值范围是 .
【答案】
【考点】计算总体百分位数
【分析】利用平均数及中位数的概念计算即可.
【详解】由题意可知,
若该四个数按大小排列,位于中间,则位于两侧,此时中位数是;
若该四个数按大小排列,位于中间,则位于两侧,此时,不符合题意;
若该四个数按大小排列,位于中间,则位于两侧,同上,不符合题意;
若该四个数按大小排列,位于中间,则位于两侧,则有;
若该四个数按大小排列,位于中间,则位于两侧,同上;
若该四个数按大小排列,位于中间,则位于两侧,可知;
此时中位数是;
综上所述这四个数的中位数的取值范围是.
故答案为:.
1.(23-24高一上·上海杨浦·阶段练习)某高中三个年级共有学生900人,其中男生528人,高一学生312人,高一男生l92人,共青团员670人,男团员336人,高一团员247人,高一男团员147人,则高二、高三女生中非团员的总人数为
【答案】18
【分析】根据题目数据,先计算全校女生,女团员,再计算高一女团员,女生,即可计算高二高三女生中非团员.
【详解】因为三个年级共有学生900人,其中男生528人,故女生共372人,
又高一学生312人,高一男生l92人,故高一女生120人,
由共青团员670人,男团员336人知女团员共有334人,其中高一女团员247-147=100人,
所以高二高三女生共372-120=252人,其中女团员共有334-100=234人,
所以高二、高三女生中非团员的总人数为252-234=18人.
故答案为18
【点睛】本题主要考查了学生对实际问题的分析能力,属于中档题.
2.(23-24高三上·上海·期末)一个调查机构就某地居民的月收入调查了10000人,将所得数据分成如下六组:相应的频率分布直方图如图所示.若按月收入将这10000人也分成上述六组,并通过分层抽样抽出100人作进一步调查,则这一组中应抽出 人.
【答案】15
【分析】计算出这一组的频率后可得应抽取的人数.
【详解】这一组的频率是,故100人中应抽取的人数为15人.
【点睛】本题考查频率分布直方图的应用及分层抽样,属于基础题.
3.(2024·上海·三模)对于没有重复数据的样本、、…、,记这m个数的第k百分位数为.若不在这组数据中,且在区间中的数据有且只有5个,则m的所有可能值组成的集合为 .
【答案】
【分析】就是否为正整数分类讨论,若为正整数,则5个数分别为;若不为整数,则5个数分别为,就的范围分类计算后可得m的所有可能值组成的集合.
【详解】不妨设,因为不在这组数据,故为正整数,
若为正整数,故,其中为正整数,
故,,
因为在区间中的数据有且只有5个,
故这个5个数分别为,故即,
但当时,,此时至少有6个,
故,
当时,即为,共5个,符合;
当时,即为,共6个,不符合;
当时,即为,共7个,不符合;
若为不是整数,故,其中为正奇数,
设,其中为正整数,
则,且,故,
故,,
因为在区间中的数据有且只有5个,
故这个5个数分别为,故即,
但当,,此时至少有6个,
故,
当时,即为,共5个,符合;
当时,即为,共6个,不符合;
当时,即为,共7个,不符合;
综上,符合条件的为,,
故答案为:.
【点睛】思路点睛:与不等式有关的整数解问题,可先根据区间中含有的整数的个数初步确定参数的范围,再逐个讨论后舍去矛盾的情况即可.
4.(23-24高三上·上海宝山·期末)在某次比赛中运动员五轮的成绩互不相等,记为,平均数为,若随机删去其中一轮的成绩,得到一组新数据,记为,平均数为,下面说法正确的是 .(写出所有正确选项)
①新数据的极差可能等于原数据的极差.
②新数据的中位数可能等于原数据的中位数.
③若,则新数据的方差一定大于原数据方差.
④若,则新数据的第40百分位数一定大于原数据的第40百分位数.
【答案】①②③
【分析】根据极差、中位数、平均数和方差的概念,以及百分位数的概念及计算方法,逐项判定,即可求解.
【详解】对于①,若随机删去任一轮的成绩,恰好不是最高成绩和最低成绩,
此时新数据的极差可能等于原数据的极差,所以①正确;
对于②,不妨假设,
当时,若随机删去的成绩是,
此时新数据的中位数等于原数据的中位数,所以②正确;
对于③,若,即删去的数据恰为平均数,
根据方差的计算公式,分子不变,分母变小,所以方差会变大,所以③正确;
对于④,若,即删去的数据恰为平均数,在按从小到大的顺序排列的5个数据中,
因为,此时原数据的分位数为第二数和第三个数的平均数;
删去一个数据后的4个数据,从小到大的顺序排列,可得,
此时新数据的分位数为第二个数,
显然新数据的分位数小于原数据的分位数,所以④错误.
故答案为:①②③.
5.(23-24高二上·上海·期末)为深入学习宣传党的二十大精神,某校开展了“奋进新征程,强国伴我行”二十大主题知识竞赛.其中高一年级选派了10名同学参赛,且该10名同学的成绩依次是:70,85,86,88,90,90,92,94,95,100.则下列说法正确的序号为 .(写出全部正确的序号)①中位数为90,平均数为89;②极差为30,方差为58.③70百分位数为92;④去掉一个最低分和一个最高分,平均数变大,方差变小
【答案】①②④
【分析】根据题意,通过中位数、平均数、极差、方差、百分位数的计算,逐项判断即可.
【详解】对于①,10个分数从小到大进行排列后,
第5个和第6个数的平均值为,
即中位数为90,
这10个数的平均值为
,
故①正确;
对于②,这10个数的极差为,
方差为
故②正确;
对于③,由于,
所以70百分位数是第7个数和第8个数的平均数,即,
故③错误;
对于④,去掉一个最低分和一个最高分的平均数为
,平均数变大,
方差为
,方差变小,故④正确,
故答案为:①②④.
6.(2023·上海宝山·一模)在一次为期天的博览会上,主办方统计了每天的参观人数(单位:千人),得到样本的茎叶图(如下图),则该样本的第百分位数是
【答案】
【分析】求解个数据的第百分位数即第项与第项数据的平均数.
【详解】,
由茎叶图知从小到大排列第项数据为,第项数据为,
则该样本的第百分位数是与的平均数,即,
故答案为:.
7.(23-24高二下·上海杨浦·阶段练习)已知样本容量为5的样本的平均数为3,方差为,在此基础上获得新数据9,把新数据加入原样本得到样本容量为6的新样本,则该新样本的方差为 .
【答案】8
【分析】根据均值公式与方差公式计算.
【详解】记原来的数据为,新增数据为,
由题意,,
,
则,
,
所以新方差为.
故答案为:8.
8.(22-23高二下·上海徐汇·阶段练习)某地区水务局计划派500位企业员工组团参加2023年在广州举行的第十六届中国广州国际水处理技术设备展览会.团队按年龄分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.
区间
人数
50
50
a
150
b
(1)上表是年龄的频数分布表,求正整数a、b的值;
(2)现在要从年龄较小的第1、2、3组中用分层抽样的方法抽取6人,年龄在第1、2、3组的人数分别是多少?
(3)因会务需要,现从第1、2、3组中抽取6人组成经验交流小组(其中第1组1人,第2组1人,第3组4人),在这6人中随机抽取2人,求至少有1人在第3组的概率.
【答案】(1),
(2)1人,1人,4人
(3)
【分析】(1)由频数分布表和频率分布直方图的性质列出方程,能求出,;
(2)先求出第1,2,3组共有300人,由此利用分层抽样,求出抽取6人年龄在第1,2,3组的人数分别是多少;
(3)设第1组的1位员工为,第二组的1位员工为,第3组的4位员工为,,,,由从6位同学中抽两位员工,利用列举法,求出至少有1人年龄在第3组的概率;
【详解】(1)由题设可知,,,
所以,.
(2)因为第1,2,3组共有人,
利用分层抽样在300名学生中抽取6名学生,每组抽取的人数分别为:
第1组的人数为,第2组的人数为,第3组的人数为,
所以第1,2,3组分别抽取1人,1人,4人.
(3)设第1组的1位员工为A,第2组的1位员工为B,第3组的4位员工为,,,,则从6位中抽两位员工有:
,,,,,,,,,,,,,,共15种可能.
其中2人年龄都不在第3组的有:共1种可能,
所以,至少有1人年龄在第3组的概率为.
9.(23-24高二上·上海徐汇·阶段练习)某商场为推销当地的某种特产进行了一次促销活动,将派出的促销员分成甲、乙两个小组分别在两个不同的场地进行促销,每个小组各6人.以下茎叶图记录了这两个小组成员促销特产的件数,且图中甲组的一个数据已损坏,用表示,已知甲组促销特产件数的平均数比乙组促销特产件数的平均数少1件.
(1)求的值,并求甲组数据的第80百分位数;
(2)在甲组中任选2位促销员,求他们促销的特产件数都多于乙组促销件数的平均数的概率.
【答案】(1),第80百分位数为40;
(2).
【分析】(1)根据茎叶图求出乙组促销特产件数的平均数,进而可得甲组平均数,由平均数可求出的值,再由百分位数的定义求第80百分位数;
(2)求出基本事件的总数以及组促销员促销的特产件数都多于包含的基本事件的个数,由古典概率公式即可求解.
【详解】(1)乙组同学促销特产件数的平均数为(件).
则甲组同学促销特产件数的平均数为35件,
由,解得.
将甲组同学促销特产件数按从小到大排列可得,
因为, 所以甲组数据的第80百分位数为其第5个数,
所以甲组数据的第80百分位数为40.
(2)乙组促销特产件数的平均数为36件.
甲组同学促销的件数分别为28,29,34,38,40,41.
若从中任取两个数字,所有的基本事件为,,,,
,,,,,,,,
,,,共15个基本事件.
其中符合条件的基本事件有,,,共3个基本事件.
所求概率为.
10.(23-24高二上·上海徐汇·期末)某高校承办了奥运会的志愿者选拔面试工作,现随机抽取了100名候选者的面试成绩并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图,已知第三、四、五组的频率之和为0.7,第一组和第五组的频率相同.
(1)求、的值;
(2)估计这100名候选者面试成绩的平均数和第60百分位数(精确到0.1);
(3)在第四、五两组志愿者中,按比例分层抽样抽取5人,然后再从这5人中选出2人,求选出的两人来自同一组的概率.
【答案】(1),;
(2)平均数69.5,第60百分位数71.7;
(3)
【分析】(1)由每个小矩形面积代表频率,所有频率之和为1,可得,;
(2)根据直方图中各个数字特征的求法运算即可;
(3)先分层抽样求出列举法求出抽取的第四、第五两组志愿者人数,再利用列举法求出古典概型的概率即可.
【详解】(1)解:因为第三、四、五组的频率之和为0.7,
所以,
解得,
所以前两组的频率之和为,
即,
所以;
(2)解:又频率分布直方图可得众数为70,
平均数为,
前两个分组频率之和为0.3,前三个分组频率之和为0.75,
所以第60百分位数在第三组,且为;
(3)解:第四、第五两组志愿者分别有20人,5人,
故按照分层抽样抽得的第四组志愿者人数为4,分别设为,,,,第五组志愿者人数为1,设为,
这5人中选出2人,所有情况有,,,,,,,,,.,,,,,共有10种情况,
其中选出的两人来自同一组的有,,,,,,,,,共6种情况,
故选出的两人来自同一组的概率为.
11.(23-24高三上·上海黄浦·阶段练习)参考公式:平均值,方差.已知甲组数据的茎叶图如图所示,其中数据的整数部分为䓍,数据的小数部分(仅一位小数)为叶,例如第一个数据为5.3.
(1)求:甲组数据的平均值、方差、中位数;
(2)乙组数据为,且甲、乙两组数据合并后的30个数据的平均值为,方差为,求:乙组数据的平均值和方差,写出必要的计算步骤.
【答案】(1);;
(2)
【分析】(1)利用平均值、方差、中位数的定义即可求得,,;
(2)依据题给条件列出关于平均值和方差的方程,解之就求得
【详解】(1)甲组数据为,,
则甲组数据的中位数
甲组数据的平均值
甲组数据的方差
(2)由,可得
由,解得
则
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$