内容正文:
5.1.4
用样本估计总体
[教学方式:拓展融通课——习题讲评式教学]
课时目标
1.本课时的重点是正确理解样本数据标准差的意义和作用,学会计算数据的标准差.
2.本课时的难点是能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.
CONTENTS
目录
1
2
3
题型(一) 用样本的数字特征估计总体
的数字特征
题型(二) 分层抽样的平均数、方差
题型(三) 用样本的分布估计总体
的分布
4
课时跟踪检测
用样本的分布估计总体的分布
(1)一般情况下,如果样本的容量_____,抽样方法又_____的话,样本的特征能够反映总体的特征.特别地,样本平均数(也称为样本均值)、方差(也称为样本方差)与总体对应的值相差不会太大.
(2)在容许一定误差存在的前提下,可以用_____的数字特征去估计总体的数字特征.
恰当
合理
样本
(3)分层抽样的平均数、方差以分两层抽样的情况为例.假设第一层抽取m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层抽取n个数,分别为y1,y2,…,yn,平均数为,方差为t2.如果记样本
均值为,样本方差为b2,则 _________,
b2==.
题型(一) 用样本的数字特征估计
总体的数字特征
01
[例1] 甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:
(1)填写下表;
平均数 方差 中位数 命中9环及以上
甲 7 1.2 1
乙 5.4 3
解:由题图,得乙的打靶环数依次为2,4,6,8,7,7,8,9,9,10,所以=×(2+4+6+8+7+7+8+9+9+10)=7;乙的打靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是=7.5;甲的打靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如下表所示:
平均数 方差 中位数 命中9环及以上
甲 7 1.2 7 1
乙 7 5.4 7.5 3
(2)请从四个不同的角度对这次测试进行分析:
①从平均数和方差结合分析偏离程度;
②从平均数和中位数结合分析谁的成绩好些;
③从平均数和命中9环及以上的次数相结合看谁的成绩好些;
④从折线图上两人射击命中环数及走势分析谁更有潜力.
解:①甲、乙的平均数相同,均为7,但<,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.
②甲、乙的平均水平相同,而乙的中位数比甲大,说明乙打靶成绩比甲好.
③甲、乙的平均水平相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的打靶成绩比甲好.
④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.
|思|维|建|模|
在日常生活中,当面对一组数据时,相比每一个观测值,有时我们更关心的是能反映这组数据特征的一些值,如本例,我们可以从平均数、中位数、百分位数、众数、极差、方差、标准差等角度进行比较.
针对训练
1.某汽车租赁公司为了调查A型汽车与B型汽车的出租情况,现随机抽取这两种型号的汽车各50辆,分别统计了每辆汽车在2023年11月22日至11月28日的出租天数,统计数据如下表:
出租天数 3 4 5 6 7
车辆数 3 30 5 7 5
A型汽车
B型汽车
出租天数 3 4 5 6 7
车辆数 10 10 15 10 5
(1)试根据上面的统计数据,判断这两种型号的汽车在2023年11月22日至11月28日出租天数的方差的大小关系;
解:由题表,得50辆A型汽车出租天数的平均数为=×(3×3+4×30+5×5+6×7+7×5)=4.62.
∴=×[(3-4.62)2×3+(4-4.62)2×30+(5-4.62)2×5+(6-4.62)2×7+
(7-4.62)2×5]=1.235 6.
50辆B型汽车出租天数的平均数为=×(3×10+4×10+5×15+6×10+7×5)=4.8.
∴=×[(3-4.8)2×10+(4-4.8)2×10+(5-4.8)2×15+(6-4.8)2×10+
(7-4.8)2×5]=1.56.
∴B型汽车在2023年11月22日至11月28日出租天数的方差较大.
(2)如果A型汽车与B型汽车每辆车每天出租获得的利润相同,该公司需要购买一辆汽车,请你根据所学的统计知识,给出建议应该购买哪一种车,并说明你的理由.
解:答案一:∵A型汽车在2023年11月22日至11月28日出租天数的平均数为4.62,B型汽车在2023年11月22日至11月28日出租天数的平均数为4.8,
∴选择B型汽车的利润较大.故应该购买B型汽车.
答案二:∵A型汽车在2023年11月22日至11月28日出租天数的平均数为4.62,B型汽车在2023年11月22日至11月28日出租天数的平均数为4.8,但B型汽车出租天数的方差较大,利润不稳定.
∴应购买A型汽车.(答出一个即可)
题型(二) 分层抽样的平均数、方差
02
[例2] 在对某中学高一年级学生身高的调查中,采用样本容量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?(保留小数点后两位有效数字)
解:把男生样本记为x1,x2,…,x23,其平均数记为,方差记为;把女生样本记为y1,y2,…,y27,其平均数记为,方差记为;把总样本数据的平均数记为,方差记为s2.
由=170.6,=160.6,根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,可得总样本平均数为=+==165.2.
把已知的男生、女生样本平均数和方差的取值代入,可得s2=≈51.49.我们可以计算出总样本的方差约为51.49,并据此估计高一年级学生身高的总体方差约为51.49.
|思|维|建|模|
求分层抽样方差的方法
(1)弄清楚各层中的样本容量、平均数、方差;
(2)代入方差公式b2=.
针对训练
2.某学校有高中学生500人,其中男生320人,女生180人.有人为了获得该校全体高中学生的身高信息,采用分层抽样的方法抽取样本,并观测样本的指标值(单位:cm),计算得男生样本的均值为173.5,方差为17,女生样本的均值为163.83,方差为30.03.
根据以上信息,能够计算出总样本的平均数和方差吗?(保留小数点后两位有效数字)
解:记总样本的平均数为,方差为,
则=×(320×173.5+180×163.83)≈170.02.
=≈43.24.故总样本的平均数约为170.02,方差约为43.24.
题型(三) 用样本的分布估计总体
的分布
03
[例3] 某超市有甲、乙两家分店,为调查两家分店的销售情况,现随机抽查了上个年度两家店20天的日销售额(单位:万元),分别得到甲、乙两家分店日销售额的频率分布直方图如下:
(1)比较甲、乙两店日销售额的平均数的大小(同一组中的数据用该组区间的中点值作代表);
解:由题图估算甲店的日销售额平均数为
=10×0.1+30×0.1+50×0.6+70×0.15+90×0.05=49,
估算乙店的日销售额平均数为
=10×0.2+30×0.25+50×0.25+70×0.1+90×0.2=47.
>.
(2)若规定分店一年(按360天计算)中日销售额不低于55万的天数不少于120天为运转良好,请结合上图,分析两家分店上个年度运转是否良好?
解:由题意,得日销售额不低于55万的天数占比不少于=.
甲店日销售额不低于55万的频率约为(60-55)×0.03+20×0.007 5+20
×0.002 5=0.35,
乙店日销售额不低于55万的频率约为(60-55)×0.012 5+20×0.005+20×0.010=0.362 5,
两者均大于,两店均运转良好.
(3)如果你是投资决策者,你更愿意在哪家店投资,请你根据所学的统计知识,说明你的理由.
解:答案一:甲店日销售额平均值略高于乙店,由频率分布直方图可知.甲店的销售额方差明显低于乙店,故甲店销售情况比乙店要稳定,所以我选甲店.
答案二:虽然甲店日销售额平均值略高于乙店,但乙店日销售额在80万~100万出现的频率比甲店高,故我认为乙店更有潜力,所以我选乙店.(答出一个即可)
|思|维|建|模|
利用频率分布直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能比较准确的估计其众数、中位数和平均数.
针对训练
3.某快递公司招聘快递骑手,该公司提供了两种日工资方案:方案1:规定每日底薪50元,快递骑手每完成一单业务提成3元;方案2:规定每日底薪150元,快递业务的前44单没有提成,从第45单开始,每完成一单业务提成5元,该快递公司记录了每天骑手的人均业务量.现随机抽取100天的数据,将样本数据分为[25,35),[35,45),[45,55),[55,65),[65,75),[75,85),[85,95]七组,整理得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
解:由频率分布直方图得(0.005+0.005+a+0.03+a+0.015+0.005)×10=1,解得a=0.02.
(2)若仅从人均日收入的角度考虑,请你利用所学的统计学知识为新聘骑手做出日工资方案的选择,并说明理由(同组中的每个数据用该组区间的中点值代替).
解:由题图 ,知快递公司人均每日完成快递数量的平均数是30×0.05+40×0.05+50×0.2+60×0.3+70×0.2+80×0.15+90×0.05=62.
方案1日工资为50+62×3=236,
方案2日工资为150+(62-44)×5=240>236.
∴骑手应选择方案2.
课时跟踪检测
04
1
3
4
5
6
7
8
9
10
11
12
2
1.(多选)下列说法正确的是 ( )
A.数据的极差越小,样本数据分布越集中、稳定
B.数据的平均数越小,样本数据分布越集中、稳定
C.数据的标准差越小,样本数据分布越集中、稳定
D.数据的方差越小,样本数据分布越集中、稳定
√
解析:由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故B不正确,A、C、D正确.
√
√
1
5
6
7
8
9
10
11
12
2
3
4
2.为了解某地区1 500名高三男生的身体发育情况,抽查了该地区100名年龄为17~18岁的高三男生体重(kg),得到频率分布直方图如图.根据图示,估计该地区高三男生中体重在[56.5,64.5)kg的学生人数是 ( )
A.390
B.510
C.600
D.660
√
1
5
6
7
8
9
10
11
12
2
3
4
解析:由题意得体重在[56.5,64.5)kg的学生频率为(0.03+0.05+0.05+0.07)×2=0.4,其人数为1 500×0.4=600.
1
5
6
7
8
9
10
11
12
3
4
2
3.已知甲、乙两组数据可以整理成如图所示的茎叶图.若甲组数据的中位数为a,乙组数据的75%分位数为b,则a+b的值是 ( )
甲 乙
9 8 7
9 7 5
6 4 3
2 0
1
2
3 5 7 8
1 1 3
0 2
0 1
1
5
6
7
8
9
10
11
12
3
4
2
A.37 B.38
C.39 D.40
√
解析:甲组数据从小到大排列为7,8,9,15,17,19,23,24,26,32,共10个数据,所以中位数为=18,所以a=18.乙组数据从小到大排列为5,7,8,11,11,13,20,22,30,31,共10个数据,又75%×10=7.5,所以乙组数据的75%分位数为22,所以b=22,所以a+b=18+22=40.
1
5
6
7
8
9
10
11
12
3
4
2
4.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.估计这次测试数学成绩的平均分为 ( )
A.50 B.60
C.72 D.80
√
解析:利用组中值估算学生的平均分为45×0.05+55×0.15+65×0.2+
75×0.3+85×0.25+95×0.05=72.
1
5
6
7
8
9
10
11
12
3
4
2
5.某人统计了甲、乙两家零售商店在周一到周五的营业额(单位:百元)情况,得到了如图所示的茎叶图(其中茎表示十位数,叶表示个位数),关于这5天的营业额情况,下列结论正确的是 ( )
A.甲、乙两家商店营业额的极差相同
B.甲、乙两家商店营业额的中位数相同
C.从营业额超过3 000元的天数所占比例来看,甲商店较高
D.甲商店营业额的方差小于乙商店营业额的方差
√
1
5
6
7
8
9
10
11
12
3
4
2
解析:甲商店营业额的极差为10,乙商店营业额的极差为8,故A错误;
甲商店营业额的中位数为32,乙商店营业额的中位数为30,故B错误;
甲商店营业额超过3 000元的天数为3,乙商店营业额超过3 000元的天数为2,故从营业额超过3 000元的天数所占比例来看,甲商店较高,故C正确;
1
5
6
7
8
9
10
11
12
3
4
2
甲商店营业额的平均数为=32,乙商店营业额的平均数为=30,故甲商店营业额的方差=×[(27-32)2+(28-32)2+
(32-32)2+(36-32)2+(37-32)2]=16.4,乙商店营业额的方差=×
[(26-30)2+(28-30)2+(30-30)2+(32-30)2+(34-30)2]=8,>,故甲商店营业额的方差大于乙商店营业额的方差,故D错误.
1
5
6
7
8
9
10
11
12
3
4
2
6.(多选)在某次高中学科竞赛中,4 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中的数据用该组区间的中点值为代表,则下列说法正确的是 ( )
A.成绩在[70,80)分的考生人数最多
B.不及格的考生人数为1 000
C.考生竞赛成绩的平均数约为70.5分
D.考生竞赛成绩的中位数约为75分
√
√
√
1
5
6
7
8
9
10
11
12
3
4
2
解析:由频率分布直方图可知,成绩在[70,80)分的考生人数最多,所以A正确;不及格的人数为4 000×(0.01+0.015)×10=1 000,所以B正确;平均分约为(45×0.01+55×0.015+65×0.02+75×0.03+85×
0.015+95×0.01)×10=70.5(分),所以C正确;设中位数约为x0分,
因为(0.01+0.015+0.02)×10=0.45<0.5,(0.01+0.015+0.02+0.03)×10=0.75>0.5,所以0.45+(x0-70)×0.03=0.5,解得x0≈71.7,所以D错误.
1
5
6
7
8
9
10
11
12
3
4
2
7.(5分)某地有居民100 000户,其中普通家庭99 000户,高收入家庭1 000户.从普通家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取100户进行调查,发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收入家庭70户.依据这些数据,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是_______.
5.7%
1
5
6
7
8
9
10
11
12
3
4
2
解析:由题意,得普通家庭中拥有3套或3套以上住房的大约为99 000
×=5 000户,
高收入家庭中拥有3套或3套以上住房的大约为1 000×=700户.
所以该地拥有3套或3套以上住房的家庭共约有5 000+700=5 700户.
故估计该地拥有3套或3套以上住房的家庭所占的比例为×100%=5.7%.
1
5
6
7
8
9
10
11
12
3
4
2
8.(5分)某果园有苹果树100棵,为了估计该果园的苹果总产量,小王先按长势把苹果树分成了A,B,C三个级别,其中A级30棵,B级60棵,C级10棵,然后从A,B,C三个级别的苹果树中分别随机抽取了3棵、6棵、1棵,测出其产量,制成了如下统计表.小李看了这个统计表后马上正确估计出了该果园的苹果总产量,那么小李的估计值是______kg.
7 600
苹果树长势 A级 B级 C级
随机抽取棵数 3 6 1
所抽取果树的平均产量/kg 80 75 70
1
5
6
7
8
9
10
11
12
3
4
2
解析:由题表各等级苹果树的平均产量可估算果园的苹果总产量为(80×3+75×6+70×1)×10=7 600 kg.
1
5
6
7
8
9
10
11
12
3
4
2
9.(5分)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示).由图中数据可知a=______.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为____.
0.030
3
1
5
6
7
8
9
10
11
12
3
4
2
解析:因为频率分布直方图中各矩形的面积之和为1,所以10×(0.005+0.035+a+0.020+0.010)=1,解得a=0.030.由题图可知身高在[120,150]内的学生人数为100×10×(0.030+0.020+0.010)=60,其中身高在[140,150]内的学生人数为10,所以从身高在[140,150]内的学生中选取的人数为×10=3.
1
5
6
7
8
9
10
11
12
3
4
2
10.(5分)如图是某班学生在一次数学考试中的成绩的频率分布直方图.根据直方图估计其成绩的众数是_______,中位数是_______ ,平均数是_______.
75
76.7
76.5
1
5
6
7
8
9
10
11
12
3
4
2
解析:由频率分布直方图可知,其众数为=75.设中位数为x,
由题图知0.01×10+0.02×10+(x-70)×0.03=0.5,所以x≈76.7.
平均数为(55×0.01+65×0.02+75×0.03+85×0.025+95×0.015)×10
=76.5.
1
5
6
7
8
9
10
11
12
3
4
2
11.(10分)2025年“五一”假期,全国国内出游3.14亿人次,同比增长6.4%,这一数据反映了民众出行意愿高涨,折射出我国内需市场的活力.某景点为提升服务水平,对部分游客发起满意度调查,满意度采用百分制,统计结果绘制成如图所示的频率分布直方图.
1
5
6
7
8
9
10
11
12
3
4
2
(1)求图中a的值,并估计满意度得分在75分及以上所占的百分比;(4分)
解:由频率分布直方图可知10×a+10×0.03+10×0.04+10×0.02=1,
解得a=0.01,
满意度得分在75分及以上所占的百分比为+0.4+0.2=0.75.
1
5
6
7
8
9
10
11
12
3
4
2
(2)估计满意度得分的中位数和平均数(同一组中数据用该组区间的中点值作代表).(6分)
解:法一:因为满意度在[60,80)内的频率为0.1+0.3=0.4,满意度在[60,90)内的频率为0.1+0.3+0.4=0.8,所以中位数在[80,90)内,设中位数为x,则有0.4+(x-80)×0.04=0.5, 解得x=82.5,所以满意度得分的中位数为82.5,
满意度得分的平均数为65×0.1+75×0.3+85×0.4+95×0.2=82.
1
5
6
7
8
9
10
11
12
3
4
2
法二:因为满意度在[60,80)内的频率为0.1+0.3=0.4,满意度在
[60,90)内的频率为0.1+0.3+0.4=0.8,所以中位数在[80,90)内,
由80+10×=82.5,可得中位数为82.5,
满意度得分的平均数为65×0.1+75×0.3+85×0.4+95×0.2=82.
1
5
6
7
8
9
10
11
12
3
4
2
12.(15分)文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100],得到如图所示的频率分布直方图.
1
5
6
7
8
9
10
11
12
3
4
2
(1)求频率分布直方图中a的值;(3分)
解:∵每组小矩形的面积之和为1,
∴(0.005+0.010+0.020+a+0.025+0.010)×10=1,解得a=0.030.
∴频率分布直方图中a的值为0.030.
1
5
6
7
8
9
10
11
12
3
4
2
(2)估计样本成绩的中位数;(4分)
解:中位数即50%分位数,成绩落在[40,70)内的频率为(0.005+0.010+0.020)×10=0.35,
落在[40,80)内的频率为(0.005+0.010+0.020+0.030)×10=0.65,故中位数落在[70,80)内.
设中位数为m,则0.35+(m-70)×0.030=0.50,解得m=75,故中位数为75.
1
5
6
7
8
9
10
11
12
3
4
2
(3)已知落在[50,60)的平均成绩是54,方差是7,落在[60,70)的平均成绩为66,方差是4,求两组成绩的总平均数和总方差s2.(8分)
解:由题图可知,成绩在[50,60)的市民人数为100×0.1=10,
成绩在[60,70)的市民人数为100×0.2=20,故==62,
s2===37.
∴两组成绩的总平均数是62,总方差是37.
本课结束
更多精彩内容请登录:www.zghkt.cn
$