内容正文:
第17讲抽样方法
9限时:55分钟
一、选填题(62分)
1.数据5.5,6.1,7.2,8.0,8.5,8.6,8.8,9.0,
9.2,9.8的第80百分位数为
2.某大学数学系共有本科生1000人,其中一
二、三、四年级的人数比为4:3:2:1,要用
分层抽样的方法从所有本科生中抽取一个容
量为200的样本,则应抽取三年级的学生人
数为
(
A.80
B.40
C.60
D.20
3.为了解学生每天的体育运动时间,某市教育
部门对全市高中学生进行调查,随机抽取
1000名学生每天进行体育运动的时间,按照
时长(单位:分钟)分成6组:第一组[30,40),
第二组[40,50),第三组[50,60),第四组[60,
70),第五组[70,80),第六组[80,90].对统计
数据整理得到如图所示的频率分布直方图,
则下列说法不正确的是
()
↑频率组距
0.03
0.02
0.0
30405060708090时间/分钟
A.频率分布直方图中的a=0.015
B.这1000名学生中每天的体育运动时间不
少于1小时的学生人数为400
C.估计这1000名学生每天的体育运动时间
的众数是55
D.估计这1000名学生每天的体育运动时间
的第25百分位数为45.5
4.(多选)甲、乙两旅游景区某月初连续7天的
日均气温数据如图所示,则关于这7天,以下
·31
第一部分
轮单元检测
与总体分布的估计
⊙总分:86分
判断正确的是
↑气温/℃
6
。一甲
5
-乙
3
2
1234567日期
A.甲旅游景区日均气温的中位数与平均数
相等
B.甲旅游景区的日均气温比乙旅游景区的
日均气温稳定
C.乙旅游景区日均气温的极差为2℃
D.乙旅游景区日均气温的众数为5℃
.(多选)某校组建了演讲、舞蹈、航模、合唱、机
器人五个社团,全校所有学生都参加且每人
只参加其中一个社团,校团委在全校学生中
随机选取一部分学生(这部分学生人数少于
全校学生人数)进行调查,并将调查结果绘制
成了如图所示的两个不完整的统计图,则
人数
250
00
200
合唱
150
机器人
100
演讲
50
50
航模
10%
舞蹈
20%
0
15%
演讲舞蹈航模合唱机器人社团
A.选取的这部分学生的总人数为500
B.选取的学生中参加合唱社团的学生人数
占样本量的40%
C.选取的学生中参加机器人社团的学生人
数为78
D.选取的学生中参加合唱社团的学生人数
比参加机器人社团的学生人数多125
艺考一本通
数学
6.(多选)某班语文老师对该班甲、乙、丙、丁4
名同学连续7周每周阅读的天数(每周阅读
天数可以是1,2,3,4,5,6,7)进行统计,根据
统计所得数据对这4名同学这7周每周的阅
读天数分别做了如下描述:
甲:中位数为3,众数为5;
乙:中位数为4,极差为3;
丙:中位数为4,平均数为3;
丁:平均数为3,方差为3.
那么可以判断一周阅读天数一定没有出现7
天的是
()
A.甲
B.乙
C.丙
D.丁
7.(多选)已知由样本数据(c,y)
(i=1,2,3,…,10)组成的一个样本,得到回
归直线方程为y=2x一0.4,且x=2,去除
两个歧义点(一2,1)和(2,一1)后,得到新的
回归直线的斜率为3.则下列说法正确的是
(
)
A.相关变量x,y具有正相关关系
B.去除两个歧义点后的回归直线方程为y
=3x-3
C.去除两个歧义点后,样本(4,8.9)的残差
为-0.1
D.去除两个歧义点后,随x值增加相关变
量y值增加速度变小
8.某学校高一、高二、高三三个年级共有学生
3500人,其中高三学生是高一学生的两倍,
高二学生比高一学生多300人,现在按100的
抽样比例用分层抽样的方法抽取样本,则高
一学生应抽取的人数为
)
A.8
B.11
C.16
D.10
9.利用简单随机抽样,从n个个体中抽取一个
容量为10的样本,若第二次抽取时,余下的
每个个体被抽到的概率为,则在整个抽样
过程中,每个个体被抽到的概率为(
A
8房
c
D.
·3
10.根据如下样本数据:
3
4
5
6
4.0
a-5.4
-0.50.5
b-0.6
得到的回归方程为y=bx十a.若样本点的
中心为(5,0.9),则当x每增加1个单位时,
y
(
A.增加1.4个单位
B.减少1.4个单位
C.增加7.9个单位
D.减少7.9个单位
11.某考察团对全国10个城市进行职工人均工
资水平x(千元)与居民人均消费水平y(千
元)统计调查,y与x具有相关关系,回归方
程y=0.66x十1.562.若某城市居民人均消
费水平为7.675(千元),估计该城市人均消
费占人均工资收入的百分比约为
二、解答题(每题12分,共24分)
12.近年我国新能源产业的发展取得了有目共
睹的成果.2020年国务院在正式发布的《新
能源汽车产业发展规划(2021一2035年)》
中提出,到2025年,新能源汽车新车销售量
达到汽车新车销售总量的20%左右.力争
经过15年的持续努力,使纯电动汽车成为
新销售车辆的主流.在此大背景下,某市新
能源汽车保有量持续增加,有关部门将该市
从2018年到2022年的新能源汽车保有量
y(单位:万辆)进行了统计,得到y与年份代
码t(如t=1代表2018年)的统计表如下
所示.
2
3
5
y
1.53.245.3
6
(1)请通过计算样本相关系数r(结果保留
两位小数)说明y与t具有较强的线性相关
关系(若|r>0.75,则两个变量具有较强的
线性相关关系);
(2)求出y关于t的经验回归方程,并预测
该市2023年新能源汽车的保有量,
参考公式:对于一组数据(x,y)(i=1,2,…,),样
2
本相关系数”=
立✉-%-习
经验回归方程y
=a+x中,b=
三x-0候-
,a=y-bz.
2x-x月
参考教据:2红-iP=10%-=12
58,4-i0y-0=1.1v25.8≈1.22
13.在现实生活中,每个人都有一定的心理压
力,压力随着现代生活节奏的加快、社会竞
争日趋激烈等逐渐增大.某市研究组为了解
该市市民压力的情况,随机邀请本市200名
市民进行心理压力测试评估,得到一个压力
分值,绘制出如图所示的频率分布直方图.
1频率
组距
8微
0.010
微
0102030405060708090100分值
(1)求a的值,并估计该市市民的压力分值
在区间[70,100]内的概率(用频率估计概
率).
(2)估计该市市民压力分值的平均数(同
组数据用该组区间的中点值代表).
·3
第一部分
一轮单元检测
(3)若市民的压力分值不低于70,则称为
“高压市民”,在样本中,研究组按年龄段进
行研究,发现年龄在30岁到50岁的“高压
市民”有35人,年龄在30岁到50岁的“非
高压市民”有25人,剩余“高压市民”的年龄
分散在其他年龄段.为研究方便,记年龄在
30岁到50岁为年龄段A,其余为年龄段B.
根据所给数据,完成下面的2×2列联表,根
据小概率值α=0.001的独立性检验,能否
认为该市的市民是否为“高压市民”与其年
龄有关联。
单位:人
压力
年龄
合计
高压市民
非高压市民
年龄段A
年龄段B
合计
n(ad-bc )2
附:X=a+bc十a十c)h+d,其中n=a+
b+c+d.
a
0.05
0.01
0.001
3.841
6.635
10.828
3·104,P(BA)=2.20×10+,所以根据全概率公式,P(B)
=P(A)P(BA)+P(A)P(BA)=0.075×10-4+2.2×0.
7×10-4=1.615×10-4,所以P(AB)=
P(AB)
P(B)
P(A)P(BA)
0.075×10-4
PA)P(BA)+PA)P(B不-1.615X10≈0.046.所
以该市一名驾驶员在2021年发生了交通事故,则其为女性
的概率是0.046.
14.【解析】(1)估计奶茶爱好者的平均年龄x=(5×0.016十15
×0.036+25×0.028+35×0.010+45×0.008+55×
0.002)×10=21.4(岁)
(2)由题图,得奶茶爱好者年龄位于区间[20,60)的频率为
(10×0.028+10×0.010+10×0.008+10×0.002)
0.48,故奶茶爱好者年龄位于区间[20,60)的概率为0.48.
(3)设A={任选一名奶茶爱好者年龄位于区间[10,20)}
设B={任选一名奶茶爱好者喜欢“古茗”〉,由条件概率公
式可得:P(BIA)=
P(AB)_21%×35%=0.21.
P(A)
35%
第17讲抽样方法与总体分布的估计
1.9.1【解析】10×80%=8,则数据5.5,6.1,7.2,8.0,8.5,
8.6,88,9.0,9.2,9.8的第80百分位数为909.2=9.1
故答案为9.1.
2.B【解析】因为要用分层抽样的方法从该系所有本科生中
抽取一个容量为200的样本,一、二、三、四年级的学生比为
4:3:2:1,所以三年级要抽取的学生人数是4十3千2+
×200=40,故选B.
3.D【解析】由频率之和为1,得10×(0.01+0.02十0.03十2a
十0.01)=1,解得a=0.015,故A中说法正确;这1000名学
生每天的体育运动时间不少于1小时的频率为(0.015十0.
015+0.01)×10=0.4,则这1000名学生中每天的体育运动
时间不少于1小时的学生人数为0.4×1000=400,故B中
说法正确:由频率分布直方图可估计这1000名学生每天的
体育运动时间的众数是55,故C中说法正确;由10×0.01=
0.1<0.25,10×0.01+10×0.02=0.3>0.25,得这1000名
学生每天的体育运动时间的第25百分位数位于「40,50)内,
估计这1000名学生每天的体育运动时间的第25百分位数
为40十0,0.X10=47.5,故D中说法不正确.故选D
4.ACD【解析】甲旅游景区的日均气温分别为5℃,3℃,
6℃,3℃,7℃,5℃,6℃,乙旅游景区的日均气温分别为
5℃,4℃,6℃,5℃,5℃,4℃,6℃.甲旅游景区日均气温
的中位教为5℃,平均数为5+3+6+3+7+5+6=5(℃),
A正确:根据折线图知乙旅游景区的日均气温更稳定,B错
误:乙旅游景区日均气温的极差为6一4=2(℃),C正确;乙
旅游景区日均气温的众数为5℃,D正确.故选ACD.
5.ABD【解析】由两个统计图可得参加演讲社团的学生人数
为50,占选取的学生的总人数的10%,所以选取的这部分学
生的总人数为50÷10%=500,故A正确.选取的学生中参
加合唱社团的学生人数为200,则选取的学生中参加合唱社
200=2
团的学生人数占样本量的500
=40%,故B正确.选取
的学生中参加机器人社团的学生人数占样本量的1一40%
-20%一10%-15%=15%,所以选取的学生中参加机器人
社团的学生人数为500×15%=75,故C不正确.选取的学
生中参加合唱社团的学生人数为200,参加机器人社团的学
生人数为75,所以选取的学生中参加合唱社团的学生人数
比参加机器人社团的学生人数多125,故D正确.故选ABD.
6.ACD【解析】对于A,因为中位数为3,众数为5,所以这7
个数从小到大排列后,第4个数是3,所以1,2,3中一定有
一个数出现2次,5出现3次,所以这7个数中一定没有出
现7,则A正确.对于B,因为中位数为4,极差为3,所以这7
个数可以是4,4,4,4,4,4,7,则B错误.对于C,若出现1个
7,则这7个数从小到大排列后,后4个数之和最小为19,前
3个数之和最小为3,从而这7个教的平均数最小为号>3,
即这7个数的平均数不可能为3,故C正确.对于D,设这7
个数分别为x1,2,x3,x4,x5,x6,x7,则1十x2十3十x4十
x5+x6+x=21,(.x1-3)2+(x2-3)2+(a-3)2+
参考答案·数学
(.x4-3)2+(x-3)2+(x-3)2+(x-3)2=21.若x
=7,则x2十x3十x4十x5十x6十7=14,(x2一3)2十
(.x3-3)2+(x-3)2+(x5-3)2+(x6-3)2+(x7-3)2
=5,从而x2,3,x4,x5,x6,x?这6个数可能是4,4,4,4,4,3
或4,4,4,4,3,2或4,4,4,3,2,2或4,4,3,2,2,2或4,3,2,
2,2,2或3,2,2,2,2,2或5,4,3,3,3,3或5,3,3,3,3,2或
4,3,3,3,3,1或3,3,3,3,2,1,这与2+x3+x1十x5十x6十
x7=14矛盾,即这7个数中一定没有出现7,故D正确.故选
ACD.
7.ABC【解析】对A,因为回归直线的斜率大于0,即相关变
量x,y具有正相关关系,故A正确;对B,将x=2代入y=
2x一0.4得y=3.6,则去掉两个歧义点后,得到新的相关变
量的平均值分别为又=。=号,立=36X义10=9
8
8
2,
9
3X号=一3,此时的回归直线方程为y=3x二3
正确;对C,x=4时,y=3X4一3=9,残差为8.9一9=一0.
1,故C正确;对D,斜率3>1,此时随x值增加相关变量y
值增加速度变大,D错误.故选ABC
8.A【解析】设高一学生有x人,则高三学生有2.x人,高二学
生有(x+300)人,学校共有4x+300=3500(人),解得x
1
800(人),由此可得按100的抽样比例用分层抽样的方法抽
取样本,高一学生应抽取的人数为00×800=8(人),
9.B【解析】由题意知9
即=3所以n=28,所以P=品=5小
2814
10.B【解析】依题意得,y=a十2=0.9,故a十b=6.50:
5
又样本点的中心为(5,0.9),故0.9=5b十a②,联立①②
解得b=一1.4,a=7.9,即y=-1.4x十7.9,可知当x每增
加1个单位时,y减少1.4个单位,故选B.
11.83%【解析】由y=0.66.x+1.562知,当y=7.675时,x
一6113.故所求百分比为7.675=7.67点660≈836.
6113
12.【解析】(1)由题知r=
11.1
11.1
√10X12.58≈11.22
≈0.99>0.75,
故y与t具有较强的线性相关关系.(2)由题知6=山
10
1,11,又i=1+2+3+4+5=3,y=1.5+3.2+4+5.3+6
5
=4,所以a=4一1.11×3=0.67,故y=1.11t十0.67.当t
=6时,y=1.11×6十0.67=7.33,故预测该市2023年新
能源汽车的保有量为7.33万辆.
13.【解析】(1)依题意得,0.04+0.02+0.05十0.10十10a十0
16+0.15+0.18+10a十0.04=1,解得a=0.013,估计该
市市民的压力分值在区间[70,100]内的概率为(0.018十0.
013+0.004)×10=0.35.
(2)由频率分布直方图及(1)知,压力分值在各分组区间内
的频率依次为0.04,0.02,0.05,0.10,0.13,0.16,0.15,0.
18,0.13,0.04,估计该市市民压力分值的平均数为5×0.
04+15×0.02+25×0.05+35×0.10+45×0.13+55×0.
16+65×0.15+75×0.18+85×0.13+95×0.04=58.
(3)由(1)知,在样本中,“高压市民”有200×0.35=70
(人),2X2列联表为:
单位:人
压力
年龄
合计
高压市民
非高压市民
年龄段A
35
25
60
年龄段B
必
105
140
合计
70
130
200
零假设为H。:该市的市民是否为“高压市民”与其年龄无关
联,根据列联表中的数据,经计算得到X
200×(35×105-35×25)2
=800
60×140×70×130
39
>20>10.828=x0.01,
根据小概率值α=0.001的独立性检验,推断H不成立,即
认为该市的市民是否为“高压市民”与其年龄有关联
75