内容正文:
任务三十四·用样本估计总体
高一数学期末复习课程
一、主干知识梳理
1.总体百分位数的估计
(1)第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中
的数据小于或等于这个值,且至少有 的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
至少有p%
(100-p)%
[知识深化]
1.第0百分位数为数据中的最小数,第100百分位数为数据中的最大数;
2.一组数据的百分位数既可能是这组数据中的数,也可能不是这组数据中的数;
3.一组数据的某些百分位数可能是同一个数.
2.总体集中趋势的估计
数字特征 概念
众数 一组数据中出现次数 的数
不一定唯一,一定是这组数据中的数
中位数 把一组数据按从小到大(或从大到小)的顺序排列,处在
位置的一个数据(或两个数据的平均数)
唯一,不一定是这组数据中的数
平均数
唯一,不一定是这组数据中的数 如果有n个数据x1,x2,…,xn,那么这n个数的平均数
=
最多
中间
3.总体离散程度的估计
(1)假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,那么这n个数的
①标准差
s=.
②方差
s2=[(x1-)2+(x2-)2+…+(xn-)2].
(2)分层随机抽样的均值与方差
分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为,样本方差为s2.
以分两层抽样的情况为例.假设第一层有m个数分别为x1,x2,…,xm,平均数为,方差为;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为.则xi,(xi-)2,yi,(yi-)2.
则①;
②s2={m[+()2]+n[+()2]}.
二、基础检测
1.有下列一组数据:2,17,33,15,11,42,34, 13,22,则这组数据的第25百分位数是( )
A.11 B.33 C.13 D.22
C
解析:该组数据从小到大排列为2,11,13,15,17,22,33,34,42,共有9个数据,且9×25%=2.25,则这组数据的第25百分位数是从小到大排列的第三个数,即13.
2.若数据x1,x2,x3,…,xn的标准差为s,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的标准差为( )
A.s+1 B.s C.3s+1 D.3s
D
解析:由题意可得数据3x1+1,3x2+1,…,3xn+1的标准差为=3s.
3.(多选)某人投掷骰子5次,由于记录遗失,只有数据平均数为3和方差不超过1,则这5次点数中( )
A.众数可为3 B.中位数可为2
C.极差可为2 D.最大点数可为5
AC
解析:对于选项A,如果五次都为3,众数为3,符合题意,故A正确;
对于选项B,若中位数为2,则出现2,2,2,4,5这组情况方差最小,但此时方差大于1,故不符合题意,故B错误;
对于选项C,2,3,3,3,4这种情况下方差小于1,故C正确;
对于选项D,若最大点数为5,当方差最小,该组数为2,2,3,3,5,该组数的方差大于1,故D错误.
4.某校体育节10名旗手的身高(单位: cm)分别为175,178,176,180,179,175,176,179,180,179,则中位数为 .
178.5
解析:把10名旗手的身高从小到大排列为175,175,176,176,178,179,179,179,180,180,
则=178.5,所以所求中位数为178.5.
5.(多选)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( )
A.样本x1,x2,…,xn的标准差 B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差 D.样本x1,x2,…,xn的平均数
AC
解析:
由标准差的定义可知,标准差考查的是数据的离散程度,故A正确;
由中位数的定义可知,中位数考查的是数据的集中趋势,故B错误;
由极差的定义可知,极差考查的是数据的离散程度,故C正确;
由平均数的定义可知,平均数考查的是数据的集中趋势,故D错误.
6.某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理下表:
亩产量 [900,950) [950,1 000) [1 000,
1 050) [1 050,
1 100) [1 100,
1 150) [1 150,
1 200)
生产数 6 12 18 30 24 10
据表中数据,结论中正确的是( )
A.100块稻田亩产量中位数小于1 050 kg
B.100块稻田中的亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
C
解析:由6+12+18=36<50,6+12+18+30=66>50,得中位数在[1 050,1 100)范围内,故A错误;
亩产量低于1 100 kg的稻田生产数为6+12+18+30=66,=66%<80%,
故B错误;
亩产量最大值在[1 150,1 200)范围内,最小值在[900,950)范围内,
故极差在(1 150-950,1 200-900)范围内,即200 kg至300 kg之间,故C正确;
取各区间中点估算平均值:925+975+1 025+1 075+
1 125+1 175=1 067,大于1 000 kg,故D错误.故选C.
7.(多选)如图所示,下列频率分布直方图显示了三种不同的分布形态.图1形成对称形态,图2形成“右拖尾”形态,图3形成“左拖尾”形态,根据所给图作出以下判断,正确的是( )
A.图1的平均数=中位数=众数 B.图2的平均数<众数<中位数
C.图2的众数<中位数<平均数 D.图3的平均数<中位数<众数
ACD
解析:
图1的频率分布直方图是对称的,所以平均数=中位数=众数,故A正确;
图2众数最小,右拖尾平均数大于中位数,故B错误,C正确;
图3左拖尾众数最大,平均数小于中位数,故D正确.
8.已知1,x1,x2,x3,x4这5个数的平均数为3,方差为2,则x1,x2,x3,x4这4个数的方差为( )
A.1 B. C. D.2
B
解析:∵1,x1,x2,x3,x4这5个数的平均数为3,方差为2,
=3,即x1+x2+x3+x4=14,
∴x1,x2,x3,x4这4个数的平均数为,
-32=2,即=54,
∴x1,x2,x3,x4这4个数的方差为
s2=)-54-
三、能力达标
①.样本的数字特征和百分位数的估计
例1 (1)一组数据按从小到大的顺序排列为1,4,m,12, 14,21,若该组数据的中位数是极差的,则该组数据的第45百分位数是( )
A.4 B.6 C.8 D.12
D
解析:由已知可得极差是21-1=20,而中位数是极差的,即中位数是12,根据六个数的中位数是=12,解得m=12,6×45%=2.7,则该组数据的第45百分位数是第三个数,即12.
(2)(多选)下面是某城市某日在不同观测点对细颗粒物的观测值:
396 275 268 225 168 166 176 173 188 168 141 157
若在此组数据中增加一个比现有的最大值大25的数据,下列数字特征发生改变的是( )
A.极差 B.中位数 C.众数 D.平均数
ABD
解析:根据题意,若在此组数据中增加一个比现有的最大值大25的数据,即最大值变为396+25=421,极差为最大值与最小值的差,要发生改变;加入数据前,中位数为(173+176)=174.5,加入数据后,中位数为176,发生改变;众数为数据中出现次数最多的数,不会改变;若加入数据前,平均数为,加入数据后,平均数为,发生改变.
及时练1:(1)为了解高中学生每天的体育活动时间,某市教育部门随机抽取1 000名高中学生进行调查,把每天进行体育活动的时间按照时长(单位:分钟)分成6组:[30,40),[40,50),[50,60),[60,70),[70,80), [80,90].然后对统计数据整理得到如图所示的频率分布直方图,则可估计这1 000名学生每天体育活动时间的第25百分位数为( )
A.47.5 B.45.5
C.43.5 D.42.5
A
解析:第25百分位数设为x,而
0.1<0.25<0.1+0.2,
则所求百分位数在第二组,
则可列方程0.1+0.02(x-40)=0.25,解得x=47.5.
(2)某校从高一新生中随机抽取了一个容量为10的身高样本,数据(单位:cm)从小到大排序如下:158,165,165,167,168, 169,x,172,173,175,若样本数据的第60百分位数是170,则x=( )
A.169 B.170 C.171 D.172
C
解析 根据题意,10×60%=6,所以第60百分位数为,
由已知=170,所以x=171.
②.总体集中趋势的估计
例2 (1)某射击运动员连续射击5次,命中的环数(环数为整数)形成的一组数据中,中位数为8,唯一的众数为9,极差为3,则该组数据的平均数为( )
A.7.6 B.7.8 C.8 D.8.2
B
解析:依题意,这组数据一共有5个数,中位数为8,则从小到大排列,8的前面有两个数,后面也有两个数,又因为唯一的众数为9,则有两个9,其余数字均只出现一次,则最大数字为9,又极差为3,所以最小数字为6,所以这组数据为6,7,8,9,9,所以平均数为=7.8.
(2)(多选)某校为了解甲、乙两个班级学生的化学学习情况,从两个班某次考试的化学成绩(均为整数)中各随机抽查20名学生的成绩,得到如图所示的数据图(用频率分布直方图估计总体平均数时,每个区间的值均取该区间的中点值),用样本估计总体,关于甲、乙两个班级的化学成绩,
甲班化学成绩
乙班化学成绩
下列结论正确的是( )
A.甲班成绩的众数大于乙班成绩的众数
B.乙班成绩的第75百分位数为80
C.甲班成绩的中位数为79
D.甲班成绩的平均数大于乙班成绩的平均数的估计值
BCD
解析:对于A,甲班成绩的众数为79,由频率分布直方图无法准确得到乙班成绩的众数,故A错误;对于B,因为(0.02+0.025+0.3)×10=0.75,所以乙班成绩的第75百分位数为80,故B正确;对于C,由甲班成绩可得小于79分的数据有2+1+1+1+2+2=9个,79分的数据有6个,样本共20个数据,所以甲班成绩的中位数为79,故C正确;对于D,甲班成绩的平均数为(2×57+58+59+67+2×68+2×69+6×79+87+2×88+89+98)=74.8,
乙班成绩的平均数的估计值为=10×(55×0.02+65×0.025+75×0.03+85×0.02+95×0.005)=71.5,
所以甲班成绩的平均数大于乙班成绩的平均数的估计值,故D正确.
及时练2:某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样本,发现数据均在[40,100]内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的有( )
A.频率分布直方图中第三组的频数为10
B.根据频率分布直方图估计样本的众数为75
C.根据频率分布直方图估计样本的中位数为75
D.根据频率分布直方图估计样本的平均数为75
ABC
解析 分数在[60,70)内的频率为1-10×(0.005+0.020+0.030+0.025+0.010) =0.10,所以第三组的频数为100×0.10=10,故A正确;因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,从图中可看出众数的估计值为75,故B正确;因为(0.005+0.020+0.010)×10=0.35<0.5, (0.005+0.020+0.010+0.030)×10=0.65>0.5,所以中位数位于[70,80)内,设中位数为x,则0.35+0.03(x-70)=0.5,解得x=75,所以中位数的估计值为75,故C正确;样本平均数的估计值为45×(10×0.005)+55×(10×0.020)+65×(10×0.010)+75×(10×0.030)+85×(10×0.025)+95×(10×0.010)=73,故D错误.
③.总体离散程度的估计
例3 某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为,样本方差分别记为.
(1)求;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
解:(1)由题中数据可得,
(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10,
(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3,
[(9.8-10)2+(10.3-10)2+(10.0-10)2+(10.2-10)2+(9.9-10)2+(9.8-10)2+(10.0-10)2+(10.1-10)2+(10.2-10)2+(9.7-10)2]=0.036;
[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2 +(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.
(2)因为=10.3-10=0.3,
2=2=20.174,
所以>2,
故新设备生产产品的该项指标的均值较旧设备有显著提高.
及时练3:一组数据由8个数组成,将其中一个数由4改为2,另一个数由6改为8,其余数不变,得到新的一组数据,则新的一组数的方差相比原一组数的方差的增加值为 .
2
解析 一个数由4改为2,另一个数由6改为8,故该组数据的平均数不变,
设没有改变的6个数分别为x1,x2,…,x6,
原一组数的方差+…+],
新数据的方差+…+],
所以]=2.
四、补充习题
1.(多选)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
BD
解析:对于选项A,如1,2,2,2,2,5的平均数不等于2,2,2,2的平均数,故A错误;
对于选项B,不妨设x2≤x3≤x4≤x5,x2,x3,x4,x5的中位数为,x1,x2,…,x6的中位数为,故B正确;
对于选项C,因为x1是最小值,x6是最大值,
所以x1,x2,…,x6的数据波动更大,故C错误;
对于选项D,不妨设x2≤x3≤x4≤x5,则x1≤x2≤x3≤x4≤x5≤x6,
所以x5-x2≤x6-x1,故D正确.故选BD.
2.某企业有A,B两个车间生产同一种型号的产品,检验小组对两个车间各生产的100件产品均随机抽取6件检测、获得质量指标值(满分值为10,8分及以上为合格品),如下表所示:
A车间产品质量指标 10 9 7 8 10 10
B车间产品质量指标 10 6 10 10 9 9
(1)以频率作为概率,估计A,B两车间生产该批次产品的合格率;
(2)分别求出6件产品的平均数与方差,以此为依据,判断哪个车间生产质量更好?
解 (1)从数据可知,在随机抽取6件产品中,A车间生产该批次产品的合格量为5,频率为,B车间生产该批次产品的合格量为5,频率为,以频率作为概率,A,B两车间生产该批次产品的合格率均为
(2)A车间随机抽取6件产品的平均数为=9,
方差为[(10-9)2+(9-9)2+(7-9)2+(8-9)2+(10-9)2+(10-9)2]=,
B车间随机抽取6件产品的平均数为=9,
方差为[(10-9)2+(6-9)2+(10-9)2+(10-9)2+(9-9)2+(9-9)2]=2.
因为,所以A车间生产的产品质量比B车间生产的产品质量更稳定,故选A车间生产的产品更好.
3.有一组样本数据x1,x2,…,x2 024,其中x1是最小值,x2 024是最大值,则下列说法正确的是( )
A.x2,x3,…,x2 023的中位数一定等于x1,x2,…,x2 024的中位数
B.x2,x3,…,x2 023的平均数一定等于x1,x2,…,x2 024的平均数
C.x2,x3,…,x2 023的标准差一定不小于x1,x2,…,x2 024的标准差
D.x2,x3,…,x2 023的第30百分位数一定不等于x1,x2,…,x2 024的第30百分位数
A
解析:对于A,因为x1,x2,…,x2 024的中位数为从小到大排列的第1 013个数,设为x0;又因为x2,x3,…,x2 023的中位数从小到大排列的第1 012个数恰为x0,所以x2,x3,…,x2 023的中位数一定等于x1,x2,…,x2 024的中位数,故A正确;
对于B,因为不一定相等,故x2,x3,…,x2 023的平均数
与x1,x2,…,x2 024的平均数不一定相等,故B错误;
对于C,因为x2,x3,…,x2 023的极差不大于x1,x2,…,x2 024的极差,所以x2,x3,…,x2 023的标准差不大于x1,x2,…,x2 024的标准差,故C错误;
对于D,因为2 022×30%=606.7,2 024×30%=607.2,则x1,x2,…,x2 024的第30百分位数为从小到大排列的第608个数,设为M;x2,x3,…,x2 023的第30百分位数为从小到大排列的第607个数恰为M,故x2,x3,…,x2 023的第30百分位数一定等于x1,x2,…,x2 024的第30百分位数,故D错误.
任 务 完 成
$