内容正文:
5.1.4 用样本估计总体
学业标准
素养目标
1.会用样本的数字特征估计总体的数字特征.(重点)
2.能通过频率分布表或频率分布直方图对数据做出总体估计.(难点)
1.通过用样本的数字特征估计总体的数字特征,培养学生数学运算、逻辑推理等核心素养.
2.通过用样本的分布估计总体的分布,主要提升学生数据分析核心素养.
[对应学生用书P69]
导学1 用样本估计总体
1.前提
样本的容量恰当,抽样方法合理.
2.必要性
(1)在容许一定__误差__存在的前提下,可以用样本估计总体,这样能节省人力和物力.
(2)有时候总体的__数字特征__不可能获得,只能用样本估计总体.
3.误差
估计一般是有误差的.但是,__大数定律__可以保证,当样本的容量越来越大时,估计的误差很小的可能性将越来越大.
导学2 用样本的数字特征估计总体的数字特征
某学校高一年级,只知道甲班和乙班的数学平均成绩为甲=70,乙=80;甲班人数为50人,乙班人数为40人,而缺少每名学生的成绩,如何计算甲、乙这两个班的数学平均成绩?
[提示] 甲、乙这两个班的平均成绩==·甲+·乙=甲+乙≈74.4(分)
◎结论形成
1.一般来说,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.
2.样本是用分层抽样得到的,由每一层的数字特征估计总体的数字特征.以分两层抽样的情况为例.
条件
假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为t2
结论
如果记样本均值为,样本方差为b2,则=____,b2=__×__
导学3 用样本的分布估计总体的分布
2023年学期末,某学校对100间学生公寓进行综合评比,依考核分数分为A,B,C,D四种等级,其中分数在[60,70)为D等级,有15间;分数在[70,80)为C等级,有40间;分数在[80,90)为B等级,有20间;分数在[90,100]为A等级,有25间.考核评估后,得其频率分布直方图如图所示,估计这100间学生公寓评估得分的中位数为________.
[提示] 根据题意,由直方图可知,在[60,70)内的频率为0.15,在[70,80)内的频率为0.40,其和为0.55,故可知中位数在70~80之间,设为x,则可知(x-70)×0.040=0.35,解得x=78.75,可知满足题意的中位数即为78.75.
[答案] 78.75
◎结论形成
如果总体在每一个分组的频率记为π1,π2,…,πn,样本在每一组对应的频率记为p1,p2,…,pn,一般来说,___(πi-pi)2__不等于零.当样本的容量越来越大时,上式很小的可能性将越来越大.
[对应学生用书P70]
1.判断正误(正确的打“√”,错误的打“×”)
(1)样本的数字特征有随机性.( )
(2)只要样本抽取合理,样本平均数与总体平均数相等.( )
(3)一般地,样本容量越大,用样本去估计总体就越准确.( )
(4)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.( )
答案 (1)√ (2)× (3)√ (4)√
2.某商场买来一车苹果,从中随机抽取了10个苹果,其质量(单位:克)分别为150,152,149,148,146,151,150,152,147,153,由此评估这车苹果单个质量的平均值是( )
A.150.2克 B.149.8克
C.149.4克 D.147.8克
解析 这车苹果单个质量的平均值约是(150+152+149+148+146+151+150+152+147+153)=149.8(克).
答案 B
3.为了了解某地区10 000名高三男生的身体发育情况,抽查了该地区100名年龄为17~18岁的高三男生体重(kg),得到频率分布直方图如图.根据图示,估计该地区高三男生中体重在[56.5,64.5)的学生人数是( )
A.40 B.400
C.4 000 D.4 400
解析 依题意得,该地区高三男生中体重在[56.5,64.5)的学生人数是10 000×(0.03+2×0.05+0.07)×2=4 000.
答案 C
4.若用样本数据1,0,-1,2,1,3来估计总体的标准差,则总体的标准差估计值是________.
解析 样本平均值为
==1,
样本方差为
s2=[(1-1)2+(0-1)2+(-1-1)2+(2-1)2+(1-1)2+(3-1)2]=.
所以样本标准差为,则总体的标准差估计值是.
答案
[对应学生用书P71]
题型一 用样本的数字特征估计总体的数字特征
甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:
(1)填写下表;
平均数
方差
中位数
命中9环及以上
甲
7
1.2
1
乙
5.4
3
(2)请从四个不同的角度对这次测试进行分析:
①从平均数和方差结合分析偏离程度;
②从平均数和中位数结合分析谁的成绩好些;
③从平均数和命中9环及以上的次数相结合看谁的成绩好些;
④从折线图上两人射击命中环数及走势分析谁更有潜力.
解析 (1)乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,所以乙=(2+4+6+8+7+7+8+9+9+10)=7;乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是=7.5;甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如下表所示:
平均数
方差
中位数
命中9环及以上
甲
7
1.2
7
1
乙
7
5.4
7.5
3
(2)①甲、乙的平均数相同,均为7,但s<s,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.
②甲、乙的平均水平相同,而乙的中位数比甲大,说明乙射靶成绩比甲好.
③甲、乙的平均水平相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.
④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.
样本数字特征所反映的样本的特征
一般地,平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心”,而标准差则反映了样本的波动程度、离散程度,即均衡性、稳定性、差异性等.因此,我们可以根据问题的需要选择用样本的不同数字特征来分析问题.
[触类旁通]
1.(多选题)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的柱形图如图所示,则( )
A.甲的成绩的平均数等于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
解析 由柱形图知:
甲射靶5次的成绩分别为4,5,6,7,8;
乙射靶5次的成绩分别为5,5,5,6,9,
所以甲==6,
乙==6.
所以甲=乙.故A正确.
甲的成绩的中位数为6,乙的成绩的中位数为5,故B不正确.
s=[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=×10=2,s=[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=×12=,因为2<,所以s<s.故C正确.
甲的成绩的极差为8-4=4,
乙的成绩的极差为9-5=4,
故D不正确.
答案 AC
题型二 利用样本的频率分布直方图估计总体(一题多变)
某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
[自主解答] (1)由题干图知众数为=75.
(2)由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
[母题变式]
1.(变结论)若本例条件不变,估计数学成绩的平均分.
解析 由题干图知这次数学成绩的平均分为:
×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
2.(变结论)若本例条件不变,估计80分以上的学生人数.
解析 [80,90)分的频率为:0.025×10=0.25,
频数为0.25×80=20.
[90,100)分的频率为0.005×10=0.05,
频数为0.05×80=4.
所以80分以上的学生人数为20+4=24.
(1)因为频率分布直方图中没有保留样本的原始数据,所以利用频率分布直方图求的众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数.
(2)利用频率分布直方图求众数、中位数、平均数的方法如下:
①在频率分布直方图中,众数是最高的矩形的底边的中点;
②在频率分布直方图中,中位数左边和右边的直方图的面积相等;
③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
[触类旁通]
2.某年级120名学生在一次百米测试中的成绩(单位:秒)全部介于13秒与18秒之间.将测试成绩分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么测试成绩的70%分位数约为________.
解析 设测试成绩(秒)的70%分位数为x,
因为=0.55,=0.85,所以x∈[16,17),
所以0.55+(x-16)×=0.70,
解得x=16.5.
答案 16.5
题型三 利用样本的茎叶图估计总体
为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校200名授课教师中抽取20名教师,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示(如图).
(1)求该样本数据的平均数、中位数、众数;
(2)试估计全校教师中,上学期使用多媒体教学次数在[15,25)内的人数.
[自主解答] (1)该样本数据的平均数=(7+9+13+13+15+16+17+21+22+24+25+28+28+30+31+34+37+41+41+42)=24.7;
该组数据的中位数为=24.5;
该组数据的众数是13,28,41.
(2)由样本数据可知,上学期使用多媒体教学次数在[15,25)内的频率为=,因此在全校教师中,上学期使用多媒体教学次数在[15,25)内的人数估计有×200=60(人).
[素养聚焦] 通过茎叶图的应用重点提升数据分析等核心素养.
(1)由于茎叶图中保留了样本的原始数据,因此在计算样本数据的数字特征时,可套用公式,代入数据计算可得.
(2)由茎叶图估计总体分布及数字特征时,可通过样本数据的分布情况及数字特征进行估计.
[触类旁通]
3.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h),试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2
3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1
2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3
1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2
2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
解析 (1)A=(0.6+1.2+2.7+1.5+2.8+1.8+2.2+2.3+3.2+3.5+2.5+2.6+1.2+2.7+1.5+2.9+3.0+3.1+2.3+2.4)=2.3.
B=(3.2+1.7+1.9+0.8+0.9+2.4+1.2+2.6+1.3+1.4+1.6+0.5+1.8+0.6+2.1+1.1+2.5+1.2+2.7+0.5)=1.6.
从计算结果看,A药服用者的睡眠时间增加的平均数大于服用B药的.所以A药的疗效更好.
(2)
从茎叶图看,A药的疗效更好.
[缜密思维提能区] 易错辨析
统计思想的实际应用
[典例] 在一次科技知识竞赛中,两组学生的成绩如下表.
分数
50
60
70
80
90
100
人数
甲组
2
5
10
13
14
6
乙组
4
4
16
2
12
12
已经算得两个组的平均分都是80分.请根据你所学过的统计知识,进一步判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
[解析] (1)甲组成绩的众数为90,乙组成绩的众数为70,从成绩的众数比较看,甲组成绩好些.
(2)由已知得甲=乙=80,
s=[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,
s=[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵s<s,∴甲组成绩较乙组成绩稳定,故甲组好些.
(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.
(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,所以乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.
●纠错心得
要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的大小去决定哪一组的成绩
好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.
知识落实
技法强化
1.用样本的数字特征估计总体的数字特征.
2.用样本的分布估计总体的分布.
用频率分布直方图来估计有关数字特征时要注意:由于频率分布直方图已经损失了一些样本数据的信息,因而由频率分布直方图所估计出来的有关数字特征与实际数据可能会有一些误差,但频率分布直方图形象直观,利用它可以快速得到相关数字特征,还可以用来检验我们直接计算的结果是否正确.
学科网(北京)股份有限公司
$$