内容正文:
第一节
第九章 统计与成对数据的统计分析
随机抽样与统计图表
【目标要求】 1.知道获取数据的基本途径;了解总体、样本、样本量的概念,了解数据的随机性.2.了解简单随机抽样的含义及其解决问题的过程,掌握抽签法和随机数法.3.了解分层随机抽样的特点和使用范围,了解分层随机抽样的必要性,掌握各层样本比例分配的方法.4.能根据实际问题的特点选择恰当的统计图表,体会合理使用统计图表的重要性.
1.总体、个体、样本
调查对象的全体(或调查对象的某些指标的全体)称为___________,组成总体的每一个调查对象(或每一个调查对象的相应指标)称为___________,在抽样调查中,从总体中抽取的那部分个体称为___________,样本中包含的个体数称为_____________,简称样本量.
总体
个体
样本
样本容量
2.简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做__________简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做_____________简单随机抽样.__________________和____________________统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
常见的简单随机抽样方法:(1)_______________;(2)_______________.
放回
不放回
放回简单随机抽样
不放回简单随机抽样
抽签法
随机数法
3.分层随机抽样
(1)定义
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行____________抽样,再把所有子总体中抽取的样本_____________作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(2)比例分配
在分层随机抽样中,如果每层___________都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
简单随机
合在一起
样本量
(3)平均数计算
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层和第2层样本的平均数分
别为,,则样本的平均数=_____________=_______________.
4.统计图表
常见的统计图表有条形图、扇形图、折线图、频率分布直方图.
+
+
5.作频率分布直方图的步骤
(1)求_____________(即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将数据_____________;
(4)列频率分布表;
(5)画频率分布直方图.
极差
分组
1.简单随机抽样和分层随机抽样在抽样过程中每个个体被抽取的机会相等.
2.分层随机抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
3.在频率分布直方图中,中位数左边和右边的直方图的面积是相等的.
4.频率分布直方图中纵轴上的数据是各组的频率除以组距,不要和条形图混淆.
1.思考辨析(对的打“√”,错的打“×”)
(1)简单随机抽样是一种不放回抽样.( )
(2)抽签法和随机数法都是简单随机抽样.( )
(3)分层随机抽样中,每个个体被抽到的可能性与层数及分层有关.
( )
分层随机抽样中,每个个体被抽到的可能性与层数及分层无关.
解析
(4)频率分布直方图中,小长方形的面积越大,表示样本数据落在该区间的频率越大.( )
2.(多选题)下列调查中,适合用抽样调查的是( )
A.调查某款新能源汽车电池的使用寿命
B.调查某班学生的身高
C.调查全国居民使用某款手机的情况
D.调查飞机零部件的质量情况
选项A:调查某款新能源汽车电池的使用寿命,测试电池使用寿命会对电池造成破坏,且全面测试成本高、耗时久,适合抽样调查;选项B:调查某班学生的身高,班级学生数量相对较少,能够方便、准确地对每个学生进行身高测量,适合全面调查(普查),不适合抽样调查;选项C:调查全国居民使用某款手机的情况,全国居民数量极其庞大,全面调查难度极大、成本过高,适合抽样调查;选项D:调查飞机零部件的质量情况,飞机零部件质量关乎飞行安全,必须进行全面、精确的检查,确保每个零部件都合格,适合全面调查(普查),不适合抽样调 查. 故选AC.
解析
3.(人A必二P224T1改编)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了100名学生的成绩进行调查分析,在这个问题中,被抽取的100名学生成绩是( )
A.总体 B.个体 C.样本 D.样本量
解析
4.(人B必二P90T2改编)已知某地区有小学生12 000人,初中生11 000人,高中生9 000人,现在要了解该地区学生的近视情况,准备抽取320人进行调查,则应该抽取小学生、初中生、高中生的人数分别是_____________.
小学生、初中生、高中生人数的比例为12 000∶11 000∶9 000=
12∶11∶9,故抽取人数分别为320×=120,320×
=110,320×=90.
解析
120,110,90
5.已知某一段公路限速70千米/时,现抽取400辆通过这一段公路的汽车的速度,其频率分布直方图如图所示,则这400辆汽车中在该路段超速的有_____________辆.
80
速度在(70,80]内的频率为1-(0.01×10+0.03×10+0.04×10)=0.2,所以在(70,80]内的频数为0.2×400=80.故这400辆汽车中在该路段超速的有80辆.
解析
(1)下列问题中最适合用简单随机抽样方法的是( )
A.某学校有学生1 320人,卫生部门为了了解学生的身体发育情况,准备从中抽取一个容量为300的样本
B.从1 135个村庄中抽取50个进行收入调查
C.从全班30名学生中,任意选取5名进行家访
D.为了解某地区某传染病的发病情况,从该地区的5 000人中抽取200人进行统计
考点一
简单随机抽样………………自练自悟
对于A,总体容量较大,有明显的层次性,如男、女生在身高、体重等方面有较大差异,宜采用分层随机抽样方法;对于B,总体容量较大,且各村庄人口、地域、发展等方面有差异,收入可能有明显的差异,不宜采用简单随机抽样方法;对于C,总体个数少,且家访活动学生个体平等,宜采用简单随机抽样方法;对于D,总体容量大,不同年龄的人传染病发病情况不同,有明显的差异,不宜采用简单随机抽样方 法.综上比较,最适合用简单随机抽样方法的是C.故选C.
解析
(2)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
A.08 B.02 C.63 D.01
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
根据题意,依次读出的数据为65(舍去),72(舍去),08,02,63(舍去), 14,07,02(舍去,重复),43(舍去),69(舍去),97(舍去),28(舍去),01.故选D.
解析
(3)(2026·厦门调研)利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )
A. B. C. D.
解析
1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限; (2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.(一次性抽取和逐个不放回抽取是等价的)
2.简单随机抽样常有抽签法(适用于总体中个体数较少的情 况)、随机数法(适用于个体数较多的情况).
【例1】 (1)(2026·西安联考)某工厂甲、乙、丙三个车间,生产了同一种产品,数量分别为3 200,x,2 400,为了解各车间的产品是否存在显著差异,采用按比例分配分层随机抽样的方式按车间抽取样本进行检测.若在甲、乙两车间共抽取了90件,在乙、丙两车间共抽取了80件,则x=( )
A.3 000 B.3 200 C.3 600 D.4 000
考点二
分层随机抽样
由按比例分配的分层随机抽样可知=,解得x=4 000.故选D.
解析
(2)在调查某中学的学生身高时,利用比例分配的分层随机抽样的方法抽取男生20人,女生15人,得到了男生身高的平均数为170 cm,女生身高的平均数为165 cm,估计该中学所有学生的平均身高为_____________ cm(结果精确到0.1).
≈167.9(cm),即该中学所有学生的平均身高约为167.9 cm.
解析
167.9
进行分层随机抽样的相关计算时,常利用以下关系式巧解:
1.=;
2.总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
【训练】 (1)为了调研某工业新区的空气质量状况,某课题组对甲、乙、丙3地的空气质量进行调查,按地域特点分别在三地设置空气质量观测点.已知甲、乙、丙三地区内观测点的个数分别为20,y,z,且依次构成等差数列,而20,y-10,z成等比数列,若用按比例分配的分层随机抽样的方法抽取30个观测点,则丙地应抽取观测点的个数为( )
A.18 B.16 C.10 D.4
解析
(2)记样本x1,x2,…,xm的平均数为,样本y1,y2,…,yn的平均数为(≠).若样本x1,x2,…,xm,y1,y2,…,yn的平均数为=+,则的值为( )
A.3 B.4 C. D.
解析
考向❶ 扇形图、条形图
【例2】 (多选题)新高一学生会对物理、历史2门课程进行选科,每位同学从中选择1门课程学习.现对该校2 000名学生的选科情况进行了统计,如图①,并用比例分配的分层随机抽样的方法从中抽取5%的学生对所选课程进行了满意率调查,如图②.
考点三
统计图表
则下列说法正确的是( )
A.满意率调查中抽取的样本容量为2 000
B.该校学生中对物理课程满意的人数约为720
C.若抽取的学生中对历史课程满意的人数为32,则a=80
D.抽取的学生中对物理课程满意的人数多于对历史课程满意的人数
根据题意及题图①可知:该调查的总体容量为2 000,其中学习物理的有2 000×60%=1 200人,学习历史的有2 000×40%=800人;对于选项A:满意率调查中抽取的样本容量为2 000×5%=100,故A项错误;对于选项B:该校学生中对物理课程满意的人数约为1 200×60%=720,故B项正确;对于选项C:按比例分配进行分层随机抽样时,学习物理有100×60%=60人,学习历史的有100×40%=40人,若
解析
抽取的学生中对历史课程满意的人数为32,则a=×100=80,故C项正确;对于选项D:因为a≤100,所以抽取的学生中对历史课程满意的人数为40×a%≤40,又因为抽取的学生中对物理课程满意的人数为60×60%=36,所以抽取的学生中对物理课程满意的人数、对历史课程满意的人数无法比较,故D项错误.故选BC.
解析
扇形图和条形图的作用
1.扇形图:直观描述各类数据占总数的比例.
2.条形图:直观描述不同类别或分组数据的频数和频率.
考向❷ 折线图
【例3】 (2026·绵阳模拟)睡眠很重要,教育部《关于进一步加强中小学生睡眠管理工作的通知》中强调“小学生每天睡眠时间应达到10小时,初中生应达到9小时,高中生应达到8小时”.某机构调查了1万名学生的时间并利用信息得出下图,则以下判断正确的是( )
A.高三年级学生平均学习时间最长
B.中小学生的平均睡眠时间都没有达到《通知》中的标准,其中高中生平均睡眠时间最接近标准
C.大多数年龄段学生平均睡眠时间少于学习时间
D.与高中生相比,大学生平均学习时间大幅下降,释放出的时间基本是在睡眠
解析
折线图描述了数据随时间的变化趋势.
考向❸ 频率分布直方图
【例4】 要调查某地区高中学生身体素质,从高中生中抽取100人进行跳远测试,根据测试成绩制作频率分布直方图如图,现从成绩在[120,140)之间的学生中用分层随机抽样的方法抽取5人,应从[120,130)间抽取人数为b,则( )
A.a=0.025,b=2
B.a=0.025,b=3
C.a=0.030,b=4
D.a=0.030,b=3
由题得10×(0.005+0.035+a+0.020+0.010)=1,所以a=0.030.在[120,130)之间的学生有100×10×0.030=30(人),在[130,140)之间的学生有100×10×0.020=20(人),则在[120,140)之间的学生有50人,又用分层随机抽样的方法在[120,140)之间的学生中抽取5人,即抽样比为,所以成绩在[120,130)之间的学生中抽取的人数应为30×=3,即b=3.故选D.
解析
频率分布直方图的数据特点
1.频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
2.频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
考向❹雷达图
【例5】 (多选题)十项全能的比赛成绩是按照国际田径联合会制定的专门田径运动会全能评分表将各个单项成绩所得的评分加起来计算的,总分多者为优胜者.如图,这是某次十项全能比赛中甲、乙两名运动员的各个单项得分的雷达图,则下列说法正确的是( )
A.在400米跑项目中,甲的得分比乙的得分低
B.在跳高和标枪项目中,甲、乙水平相当
C.甲的各项得分比乙的各项得分更均衡
D.甲的各项得分的极差比乙的各项得分的极差大
对于A,由雷达图可知,400米跑项目中,甲的得分比乙的得分高,A错误;对于B,由雷达图可知,在跳高和标枪项目中,甲、乙水平相当,B正确;对于C,甲各项得分的波动较大,乙的各项得分均在(600,800]内,波动较小,故乙的各项得分比甲的各项得分更均衡,C错误;对于D,甲的各项得分的极差约为1 000-470=530,乙的各项得分的极差小于200,D正确.故选BD.
解析
雷达图可以在同一坐标系内展示多指标的分析比较情况,它是由一组坐标和多个同心圆组成的图表.雷达图分析法是综合评价中常用的一种方法,尤其适用于对多属性体系结构描述的对象作出全局性、整体性评价,在数据可视化中经常会用到.
【题组对点练】
题号 1 2 3 4
考向 ❶ ❷ ❹ ❸
(1)为了解某中学三个年级的学生对食堂饭菜的满意程度,用分层随机抽样的方法抽取30%的学生进行调查,已知该中学学生人数和各年级学生的满意率分别如图①和图②所示,则样本容量和抽取的高二年级学生中满意的人数分别为( )
A.800,360 B.600,108
C.800,108 D.600,360
由扇形图可知,三个年级的学生总人数为400+600+1 000=2 000,所以样本容量为2 000×30%=600.因为抽取的高二年级学生人数为600×30%=180,所以抽取的高二年级学生中满意的人数为180×60%=108.故选B.
解析
(2)(2026·保定模拟)(多选题)下图为2022年~2025年某国星级酒店数量、营业收入及餐饮收入比重情况统计图,下列结论正确的是( )
A.2022年~2025年某国星级酒店数量逐年减少
B.2022年~2025年某国星级酒店营业收入最高不超过2 000亿元
C.2022年~2025年某国星级酒店餐饮收入比重最高的是2023年
D.2022年~2025年某国星级酒店餐饮收入比重的极差是1.54%
对于A,2022年~2025年某国星级酒店数量依次为:8 920,8 423,7 676,7 337,逐年减少,故A正确;对于B,2022年~2025年某国星级酒店营业收入最高为1 907.77亿元,故B正确;对于C,2022年~2025年某国星级酒店餐饮收入比重最高的是2023年,故C正确;对于D,2022年~2025年某国星级酒店餐饮收入比重的极差是41.63%-38.19%=3.44%,故D错误.
解析
(3)(2026·商洛模拟)(多选题)如图,是某款新能源汽车在速度、稳定 性、安全性、易用性、续航能力这五个方面的
综合评分的雷达图,则下列结论正确的是( )
A.这款新能源汽车在速度方面的综
合评分高于稳定性方面的综合评分
B.这款新能源汽车在稳定性和续航能力这两方面的综合评分相等
C.这款新能源汽车在安全性方面的综合评分最低
D.这款新能源汽车在速度方面的综合评分高于易用性方面的综合评分
由雷达图可知,这款新能源汽车在速度方面的综合评分在(8,10)内,在稳定性和续航能力这两方面的综合评分都是8分,在安全性方面的综合评分在(6,8)内,在易用性方面的综合评分是10分,故A,B,C正确,D错误.故选ABC.
解析
(4)从某学校一年级随机抽取100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[110,120),[120,130),[130,
140)三组内的学生中,用分层随机抽样的方法选取17人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为 .
6
由题中频率分布直方图知,身高在[100,110),[110,120),[120,130),
[130,140),[140,150]内的频率依次为0.05,0.35,10a,0.2,0.1,10a=1-0.05-0.35-0.2-0.1=0.3,因此,身高在[120,130)内的频率为0.3,则身高在[110,120),[120,130),[130,140)内的人数比为0.35∶0.3∶0.2=
7∶6∶4,所以利用分层随机抽样抽取的17人中,在[120,130)内的人数为×17=6.
解析
由题意可得100名学生成绩是样本.
根据题意,=,解得n=28.故在整个抽样过程中每个个体被抽到的概率为=.
依题意知,
×80=16.
由题意知x1+x2+…+xm=m,y1+y2+…+yn=n,=
==+=+,所以=,=,可得n=3m,=.故选D.
根据图象可知,高三年级学生平均学习时间没有高二年级学生平均学习时间长,A错误;根据图象可知,中小学生平均睡眠时间都没有达到《通知》中的标准,高中生平均睡眠时间最接近标准,B正确;学习时间大于睡眠时间的有:初二、初三、高一、高二、高三,占比,睡眠时间长于学习时间的占比,C错误;从高三到大学一年级,平均学习时间减少9.65-5.71=3.94(小时),平均睡眠时间增加8.52-7.91=0.61(小时),所以D错误.
$