内容正文:
第14章 统计
章末知识点总结提升
苏教版 必修第二册
网络构建·知识导图
要点归纳·典例提升
要点一 抽样方法
1.抽样方法有简单随机抽样、分层抽样.
2.两种抽样方法比较
【典例1】 (1)①某小区有800户家庭,其中高收入家庭200户,中等收入家庭480户,低收入家庭120户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为100的样本;②从10名学生中抽取3人参加座谈会.
方法:a.简单随机抽样;b.分层抽样.则问题与方法配对正确的是( )
A.①(a),②(b)
B.①(b),②(a)
C.①(a),②(a)
D.①(b),②(b)
B
解析 问题①中的总体是由差异明显的几部分组成的,故可采用分层抽样;问题②中总体的个数较少,故可采用简单随机抽样.故匹配正确的是B.
(2)一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量(单位:辆)如表:
类型 轿车A 轿车B 轿车C
舒适型 100 150 z
标准型 300 450 600
按类用分层抽样的方法在这个月生产的轿车中抽取50辆,其中A类轿车有10辆.则z的值为 ,用分层抽样的方法从C类轿车中抽取一个容量为5的样本,则舒适型、标准型的轿车应分别抽取 .
400
2辆,3辆
解析 设该厂本月生产轿车n辆,由题意得,所以n=2 000,所以z=2 000-100-300-150-450-600=400.
设所抽取的样本中有m辆舒适型轿车,因为用分层抽样的方法从C类轿车中抽取一个容量为5的样本,所以,解得m=2,所以在C类轿车中抽取2辆舒适型轿车,3辆标准型轿车.故答案为400;2辆、3辆.
题后反思 应用抽样方法抽取样本应注意的问题
(1)用随机数表法抽样时,对个体所编的号码位数要相等.当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.
(2)两种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数表法;当总体中个体差异较显著时,可采用分层抽样.
跟踪训练1 总体由编号为01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为( )
7816 1572 0802 6315 0216 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
A.02 B.14
C.15 D.16
B
解析 选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数字,则选出来的个体的编号为16,15,72(舍去),08,02,63(舍去),15(舍去),02(舍去),16(舍去),43(舍去),19,97(舍去),14.故选出的第6个个体编号为14.故选B.
要点二 统计图表的应用
常见的统计图表有频数直方图、频率分布直方图、折线图、条形图、扇形图等,解决此类问题的关键是由图表读出有用的数据和信息,再根据数据进行分析.
与频率分布直方图有关问题的常见类型及解题策略:
(1)已知频率分布直方图中的部分数据,求其他数据,可利用频率之和等于1求解.
(2)已知频率分布直方图,求某种范围内的数据,可利用图形结合范围求解.
【典例2】 (1)(多选题)空气质量指数大小分为五级.指数越大说明污染的情况越严重,对人体危害越大.指数范围在[0,50],[51,100],[101,200],[201,300],[301,500]之间分别对应“优”“良”“轻(中)度污染”“中度(重)污染”“重污染”五个等级.下面是某市连续14天的空气质量指数趋势图,下列说法正确的有( )
A.这14天中有4天空气质量指数为“良”
B.这14天中空气质量指数的中位数是103
C.从2日到5日空气质量越来越差
D.连续三天中空气质量指数方差最小的是9日到11日
ACD
解析 14天中,1日,3日,12日,13日的空气质量指数为良,共4天,故A正确;
将14天的空气质量指数从小到大排序后,知14天中的中位数为=103.5,故B错误;
从2日到5日空气质量指数越来越大,故空气质量越来越差,故C正确;
从9日到11日的空气质量指数的波动最小,故方差最小,故D正确.
故选ACD.
(2)(多选题)供电部门对某社区1 000位居民12月份人均用电情况进行统计后,按人均用电量分为[0,10),[10,20),[20,30),[30,40),[40,50]五组,整理得到如图所示的频率分布直方图,则有关这1 000位居民,下列说法正确的是( )
A.12月份人均用电量人数最多的一组有400人
B.12月份人均用电量在[20,30)内的有300人
C.12月份人均用电量不低于20千瓦时的有500人
D.在这1 000位居民中用分层抽样方法抽取10位
居民协助收费,抽到的居民用电量在[30,40)一组
的人数为2
ABC
解析 根据频率分布直方图知,12月份人均用电量人数最多的一组是[10,20),有1 000×0.04×10=400(人),A正确;
12月份人均用电量在[20,30)内的人数为1 000×0.03×10=300,B正确;
12月份人均用电量不低于20千瓦时的频率是(0.03+0.01+0.01)×10=0.5,有1 000×0.5=500(人),C正确;
用电量在[30,40)内的有0.01×10×1 000=100(人),所以在这1 000位居民中用分层抽样方法抽取10位居民协助收费,抽到的居民用电量在[30,40)一组的人数为10=1,D错误.
题后反思 此类问题主要考查统计图表的识别和应用,要会从图中读出相应的信息,然后利用信息解决问题即可得结果.
跟踪训练2 (1)(多选题)2024年某地居民人均可支配收入的构成比例如图所示,已知该地居民人均经营净收入为5 250元,则( )
A.2024年该地居民人均经营净收入占居民人均可支配收入的21%
B.2024年该地居民人均可支配收入为25 000元
C.2024年该地居民人均转移净收入低于人均经营净收入
D.2024年该地居民人均工资性收入比人均转移净收入多6 750元
ABD
解析 对于A,该地居民人均经营净收入占居民人均可支配收入的百分比为1-6%-23%-50%=21%,A正确;
对于B,该地居民人均可支配收入为5 250÷21%=25 000(元),B正确;
对于C,由23%>21%,得该地居民人均转移净收入高于人均经营净收入,C错误;
对于D,该地居民人均工资性收入为25 000×50%=12 500(元),
人均转移净收入为25 000×23%=5 750(元),12 500-5 750=6 750,D正确.故选ABD.
(2)(多选题)为了了解某外贸企业职工对“一带一路”的认知程度,随机抽取了100名职工组织了“一带一路”知识竞赛,满分为100分(80分及以上为认知程度较高),并将所得成绩分组得到了如图所示的频率折线图,则下列说法正确的有( )
A.成绩是50分或100分的职工人数是0
B.对“一带一路”认知程度较高的人数是35
C.中位数是74.5
D.平均分是75.5
BD
解析 对于A选项,由于频率折线图表示的是某一个范围的频率,不能判断成绩是50分或100分的职工人数,A选项错误;
对于B选项,由题意可得a=0.1-(0.01+0.015+0.04+0.005)=0.03,所以成绩为80分及以上的职工人数为(0.03+0.005)×10×100=35,B选项正确;
对于C选项,设中位数为x,因为(0.01+0.015)×10=0.25,(0.01+0.015+0.04)×10=0.55,所以x∈(70,80),由题意可得0.25+(x-70)×0.04=0.5,解得x=76.25,C选项错误;
对于D选项,平均分为55×0.1+65×0.15+75×0.4+85×0.3+95×0.05=75.5,D选项正确.故选BD.
要点三 用样本估计总体的集中趋势和离散程度
我们通过样本数据的众数、中位数、平均数估计总体的集中趋势,通过样本数据的方差或标准差估计总体的离散程度.众数就是样本数据中出现次数最多的那个值;把样本数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,那么中位数为处于中间位置的数,如果数据的个数是偶数,那么中位数为中间两个数据的平均数;平均数就是所有样本数据的平均值,用表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式是s=.
【典例3】 某大学为了了解学生对A,B两家餐厅的满意度情况,从在A,B两家餐厅都用过餐的学生中随机抽取了100人,每人分别对这两家餐厅进行满意指数打分(满意指数是指学生对餐厅满意度情况的打分,分数设置为2~10分).根据打分结果按[2,4),[4,6),[6,8),[8,10]分组,得到如图所示的频率分布直方图,其中对B餐厅满意指数在[2,4)中的有30人.
A餐厅满意指数频率分布直方图
B餐厅满意指数频率分布直方图
(1)求B餐厅满意指数频率分布直方图中a,b的值.
(2)利用样本估计总体的思想,估计A餐厅满意指数和B餐厅满意指数的平均数及方差(同一组中的数据用该组区间的中点值作代表).
参考公式:s2=(x1-)2p1+(x2-)2p2+(x3-)2p3+…+(xn-)2pn,其中为x1,x2,…,xn的平均数,p1,p2,…,pn分别为x1,x2,…,xn对应的频率.
(3)如果一名新来的同学打算从A,B两家餐厅中选择一家用餐,你建议选择哪家餐厅?请说明理由.
解 (1)因为B餐厅满意指数在[2,4)中的有30人,
所以2b=,解得b=0.15,
则0.15×2+a·2+0.2×2+0.05×2=1,解得a=0.1.
(2)设A餐厅满意指数的平均数与方差分别为,B餐厅满意指数的平均数及方差分别为,
则=3×0.1+5×0.3+7×0.4+9×0.2=6.4,
s=(3-6.4)2×0.1+(5-6.4)2×0.3+(7-6.4)2×0.4+(9-6.4)2×0.2=3.24,
=3×0.3+5×0.2+7×0.4+9×0.1=5.6,
s=(3-5.6)2×0.3+(5-5.6)2×0.2+(7-5.6)2×0.4+(9-5.6)2×0.1=4.04.
(3)因为A餐厅满意指数的平均数及方差分别为6.4,3.24,B餐厅满意指数的平均数及方差分别为5.6,4.04,因为6.4>5.6,3.24<4.04,所以推荐A餐厅.
规律方法 与频率分布直方图有关问题的常见类型及解题策略
(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率之和等于1就可求出其他数据.
(2)已知频率分布直方图,求某种范围内的数据,可利用图形结合范围求解.
跟踪训练3 文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100]得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)已知落在[50,60)的平均成绩是61,方差是7,
落在[60,70)的平均成绩为70,方差是4,求两组
成绩的总平均数和总方差s2.
解 (1)∵每组小矩形的面积之和为1,
∴(0.005+0.010+0.020+a+0.025+0.010)×10=1,
∴a=0.030.
(2)由图可知,成绩在[50,60)的市民人数为100×0.1=10,
成绩在[60,70)的市民人数为100×0.2=20,
故=67,
s2=[7+(61-67)2]+[4+(70-67)2]=23,
所以两组市民成绩的总平均数是67,总方差是23.
要点四 百分位数、用频率分布直方图估计总体
1.四分位数:25百分位数,50百分位数,75百分位数,这三个百分位数把一组由小到大排列的数据分成四等份,因此称为四分位数.
2.由频率分布直方图求百分位数时,一般采用方程的思想,设出k百分位数,根据其意义列出方程求解.
【典例4】 (1)已知100个数据的75百分位数是9.3,则下列说法正确的是
( )
A.这100个数据中一定有75个数小于或等于9.3
B.把这100个数据从小到大排列后,9.3是第75个数据
C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数
D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数
C
解析 因为100×75%=75,为整数,所以将数据从小到大排列后第75个数据和第76个数据的平均数为75百分位数,是9.3.故选C.
(2)(多选题)国庆期间,某校开展“弘扬中华传统文化,传承中华文明”主题活动知识竞赛.赛前为了解学生的备赛情况,组织对高一年级和高二年级学生的抽样测试,测试成绩数据处理后,得到如图所示的频率分布直方图,
高一年级抽测成绩
高二年级抽测成绩
则下面说法正确的是( )
A.a=0.025
B.高一年级抽测成绩的众数为75
C.高二年级抽测成绩的70百分位数为87
D.估计高一年级学生成绩的平均分低于高二年级学生成绩的平均分
ABD
解析 对于A,由(0.002 5×2+0.010+0.02+a+0.04)×10=1,解得a=0.025,正确;
对于B,由频率分布直方图可知高一年级抽测成绩的众数为75,正确;
对于C,因为a=0.025,由(0.002 5×2+0.010+0.025)×10=0.4,
(0.002 5×2+0.010+0.025+0.04)×10=0.8,所以70百分位数是80+10 =87.5,故错误;
对于D,高一年级学生成绩的平均数约为45×0.04+55×0.11+65×0.18+75×0.35+85×0.22+95×0.1=74分,
高二年级学生成绩的平均数约为45×0.025+55×0.025+65×0.1+75×0.25+85×0.4+95×0.2=80.75分,
因为74<80.75,所以选项D正确.故选ABD.
题后反思 1.计算百分位数时,一是注意是多少百分位数;二是注意是否按从小到大的顺序排序;三是注意是否有相同的数据.
2.频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.
跟踪训练4 (1)(多选题)为了解人们对环保知识的认知情况,某调查机构对A地区随机选取了n个居民进行了环保知识问卷调查(满分为100分),并根据问卷成绩(不低于60分记为及格)绘制成如图所示的频率分布直方图(分为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组),若问卷成绩最后三组频数之和为360,则( )
A.n=480
B.问卷成绩在[70,80)内的频率为0.3
C.a=0.030
D.以样本估计总体,若对A地区5 000人进行
问卷调查,则约有1 250人不及格
BCD
解析 由(0.010+0.015+0.015+a+0.025+0.005)×10=1,解得a=0.030,故C正确;
n==600,故A不正确;
成绩在[70,80)内的频率为10a=0.3,故B正确;
若对A地区5 000人进行问卷调查,则约有5 000×(0.1+0.15)=1 250人不及格,故D正确,故选BCD.
(2)“绿水青山就是金山银山”的理念深入人心,人民群众的生态环境获得感、幸福感、安全感不断提升.某校高一年级举行环保知识竞赛,共500人参加,若参赛学生成绩的60百分位数是80分,则关于竞赛成绩不小于80分的人数的说法正确的是( )
A.至少为300人 B.至少为200人
C.至多为300人 D.至多为200人
B
解析 由题意,500×60%=300,因此竞赛成绩不小于80分的人数至少有500-300=200人,故选B.
高考链接
1.(2025新高考Ⅱ)样本数据2,8,14,16,20的平均数为( )
A.8 B.9 C.12 D.18
C
解析 由题意,所求平均数为=12.故选C.
2.(2024新高考Ⅱ)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理下表:
亩产量 [900,
950) [950,
1 000) [1 000,
1 050) [1 050,
1 100) [1 100,
1 150) [1 150,
1 200)
生产数 6 12 18 30 24 10
据表中数据,结论中正确的是( )
A.100块稻田亩产量中位数小于1 050 kg
B.100块稻田中的亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
C
解析 由6+12+18=36<50,6+12+18+30=66>50,得中位数在[1 050,1 100)范围内,故A错误;
亩产量低于1 100 kg的稻田生产数为6+12+18+30=66,=66%<80%,故B错误;
亩产量最大值在[1 150,1 200)范围内,最小值在[900,950)范围内,故极差在(1 150-950,1 200-900)范围内,即200 kg至300 kg之间,故C正确;
取各区间中点估算平均值:925+975+1 025+1 075+
1 125+1 175=1 067,大于1 000 kg,故D错误.
故选C.
$