内容正文:
高考总复习 数学
第十章 统计与统计案例
第二节 用样本估计总体
课标解读 1.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述.
2.理解集中趋势参数、离散程度参数的统计含义;能用样本估计总体的取值规律;理解百分位数的统计含义.
必备知识 基础落实
定义
众数 在一组数据中出现次数____的数
中位数 将一组数据按________依次排列(相同的数据要重复列出),处在最中间位置的那个数据(或最中间两个数据的平均数)
平均数 一组数据的__________
最多
大小顺序
算术平均数
必备知识 基础落实
第p百分位数
至少有p%
至少有(100-p)%
必备知识 基础落实
一、辨析正误(在括号内画“√”或“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的方差越大,说明这组数据越集中.( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( )
√
×
√
必备知识 基础落实
ABD
必备知识 基础落实
B
必备知识 基础落实
必备知识 基础落实
必备知识 基础落实
C
关键能力 精准突破
关键能力 精准突破
A
关键能力 精准突破
关键能力 精准突破
A
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
亩产量 [900,950) [950,1 000) [1 000,1 050)
频数 6 12 18
亩产量 [1 050,1 100) [1 100,1 150) [1 150,1 200)
频数 30 24 10
关键能力 精准突破
C
关键能力 精准突破
BD
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
B
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
[方法技巧]
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
关键能力 精准突破
请完成:分级练(73)
温馨提示
谢谢观看!
知识点 样本的数字特征
方差
s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数),其中s是标准差
百分
位数
一般地,一组数据的____________是这样一个值,它使得这组数据中_____________的数据小于或等于这个值,且____________________的数据大于或等于这个值
二、版本互鉴
1.(多选)(人教A版必修第二册P224 T2改编)四名同学各掷骰子5次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断出可能出现点数6的有( )
A.平均数为3,中位数为2
B.中位数为3,众数为2
C.平均数为2,方差为2.4
D.中位数为3,方差为2.8
2.(人教A版必修第二册P224 T3改编)如果一组数据的中位数比平均数小很多,则下列叙述一定错误的是( )
A.数据中可能有异常值
B.这组数据是近似对称的
C.数据中可能有极端大的值
D.数据中众数可能和中位数相同
3.(人教A版必修第二册P203例2改编)一个容量为20的样本,其数据按从小到大的顺序排列为1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为________,第86百分位数为________.
答案:14.5 17
4.(苏教版必修第二册P254 T10改编)已知数据x1,x2,…,x10的平均数为2,方差为3,那么数据2x1+3,2x2+3,…,2x10+3的平均数和方差分别为________,________.
答案:7 12
考点 百分位数(自悟通)
1.现有一组数据:663,664,665,668,671,664,656,674,651,653,652,656,则这组数据的第85百分位数是( )
A.652 B.668
C.671 D.674
解析:由题意知这组数共12个,则12×85%=10.2.将这组数据从小到大排列为651,652,653,656,656,663,664,664,665,668,671,674,故这组数据的第85百分位数为第11个数,即671.
2.某小组九名学生在一次数学测验中的成绩(单位:分)分别为83,84,86,86,87,88,90,93,96,这九人成绩的第70百分位数是k.若在该小组随机选取两名学生,则成绩一个比k高,另一个比k低的概率为( )
A. B.
C. D.
解析:因为9×0.7=6.3,所以第70百分位数是从小到大的第7个数,即第70百分位数是90,所以在该小组随机选取两名学生,成绩一个比90高,另一个比90低的概率为==.
3.某高校承担了志愿者选拔的面试工作,面试成绩满分100分,同学们面试成绩的频率分布直方图如图所示,则此次面试中成绩的第90百分位数是( )
A.85 B.90
C.86 D.80
解析:由题图知各组的频率为
分组
[40,
50)
[50,
60)
[60,
70)
[70,
80)
[80,
90)
[90,
100]
频率
0.1
0.3
0.4
10a
0.1
10a
所以a=0.005,则第四组[70,80)的频率为0.05,前四组的频率之和为0.85,所以这次面试成绩的第90百分位数为80+10×=85.
4.某校组织学生参与航天知识竞答活动,某班8名同学成绩如下:7,6,8,9,8,7,10,m.若去掉m,该组数据的第25百分位数保持不变,则整数m(1≤m≤10)的值可以是________.(写出一个满足条件的m值即可)
答案:7或8或9或10(填上述4个数中任意一个均可)
解析:7,6,8,9,8,7,10,m,若去掉m,该组数据从小到大排列为6,7,7,8,8,9,10,则7×0.25=1.75,故第25百分位数为第二个数即7,所以7,6,8,9,8,7,10,m这组数据的第25百分位数为7,而8×0.25=2,所以7为第二个数与第三个数的平均数,所以m(1≤m≤10)的值可以是7或8或9或10.
求解百分位数的计算问题,首先按从小到大排列数据(对于频率分布直方图中的数据,我们通常把它们看成均匀分布在直方图上),然后计算出i=n×p%,当i不是整数时要取整(对频率分布直方图而言,则计算出相应的比例值).
考点 总体集中趋势的估计(精研通)
命题点1 样本的数字特征的计算
【例1】(1)(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
(2)(多选)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
解析:(1)对于A选项,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;
对于B选项,100块稻田中亩产量低于1 100 kg的稻田所占比例为×100%=66%,故B不正确;
对于C选项,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;
对于D选项,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+1 175×10)=1 067(kg),故D不正确.
综上所述,故选C.
(2)取x1=1,x2=x3=x4=x5=2,x6=9,则x2,x3,x4,x5的平均数为2,标准差为0,x1,x2,…,x6的平均数为3,标准差为=,故A,C均不正确.根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相
等,故B正确.根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.
(1)平均数、方差的性质可用于简化运算,要熟记.
(2)方差描述一组数据围绕平均数波动的幅度.应用时注意其公式的简化形式:s2=-x2.
命题点2 频率分布直方图中的数字特征
【例2】统计局就某地居民的月收入(单位:元)情况调查了10 000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点,不包括右端点,如第一组表示月收入在[2 500,3 000)内.
(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10 000人中用分层随机抽样的方法抽出100人做进一步分析,则月收入在[4 000,4 500)内的应抽取多少人?
(2)估计该地居民月收入的中位数和众数;
(3)假设同组中的数据用该组区间的中点值为代表,估计该地居民月收入的平均数.
解:(1)因为(0.000 2+0.000 4+0.000 3+0.000 1)×500=0.5,所以2a×500=0.5,所以a=0.000 5.又0.000 5×500=0.25,所以月收入在[4 000,4 500)内的频率为0.25,所以月收入在[4 000,4 500)内的应抽取的人数为0.25×100=25.
(2)因为0.000 2×500=0.1,0.000 4×500=0.2,0.000 5×500=0.25,0.1+0.2+0.25=0.55>0.5,所以样本数据的中位数是3 500+=3 900.因此估计该地居民月收入的中位数是3 900元.在频率分布直方图中,众数是最高矩形底边中点的横坐标,所以众数应为=4 000.
(3)样本平均数为(2 750×0.000 2+3 250×0.000 4+3 750×0.000 5+4 250×0.000 5+4 750×0.000 3+5 250×0.000 1)×500=3 900,因此估计该地居民月收入的平均数为3 900元.
频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
1.已知一组正数x1,x2,x3,x4,x5的方差为s2=x-9,则另一组数据2x1-1,2x2-1,2x3-1,2x4-1,2x5-1的平均数为( )
A.4 B.5
C.6 D.7
解析:由s2= (xi-x)2=(x-5x2)=x-x2,可得x2=9.又显然有x>0,所以x=3,故数据2x1-1,2x2-1,2x3-1,2x4-1,2x5-1的平均数为2×3-1=5.
2.某商场为了制定合理的停车收费政策,需要了解顾客的停车时长(单位:min).现随机抽取了该商场到访顾客的100辆车进行调查,将数据分成6组:(0,100],(100,200],(200,300],(300,400],(400,500],(500,600],并整理得到如下频率分布直方图(顾客的停车时长均不超过600 min).
(1)求a;
(2)若某天该商场到访顾客的车辆数为500,根据频率分布直方图估计该天停车时长在区间(300,500]内的车辆数;
(3)为了吸引顾客,该商场准备给停车时长较短的车辆提供免费停车服务.若以第30百分位数为标准,请你根据频率分布直方图,给出确定免费停车时长标准的建议(数据取整数).
解:(1)根据频率分布直方图中所有小矩形面积之和为1,
可列等式为(0.001 3+0.003 2+0.003 4+0.001 6+a+0.000 2)×100=1,所以a=0.000 3.
(2)样本中停车时长在区间(300,500]内的频率为(0.001 6+0.000 3)×100=0.19,
所以估计该天停车时长在区间(300,500]内的车辆数是500×0.19=95.
(3)设免费停车时间长不超过y min.因为样本中停车时长在区间(0,100]内的频率为0.13<30%,并且在区间(0,200]内的频率为0.45>30%,所以y位于区间(100,200]内,则0.13+(y-100)×0.003 2=0.3,所以y≈153,
所以确定免费停车时长为153 min.
考点 总体离散程度的估计(精研通)
【例3】(2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验
序号i
1
2
3
4
5
6
7
8
9
10
伸缩
率xi
545
533
551
522
575
544
541
568
596
548
伸缩
率yi
536
527
543
530
560
533
522
550
576
536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
解:(1)由题意,求出zi的值如下表所示,
试验序号i
1
2
3
4
5
6
7
8
9
10
zi
9
6
8
-8
15
11
19
18
20
12
则=×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)因为2=2=,=11=>,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频率分布表.
y的
分组
[-0.20,
0)
[0,
0.20)
[0.20,
0.40)
[0.40,
0.60)
[0.60,
0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(参考数据:≈8.602,计算结果精确到0.01)
解:(1)根据题中产值增长率频率分布表,得所调查的100个企业中产值增长率不低于40%的企业频率为=0.21,产值负增长的企业频率为=0.02,用样本频率分布估计总体分布,得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6,
s==0.02×≈0.17.
所以这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
$$