内容正文:
专题12 统计、成对数据的统计分析
题型概览
题型01随机数表法
题型02分层抽样的计算问题
题型03总体百分位数的估计
题型04数据的极差
题型05平均数和方差意义的应用
题型06频率分布直方图的应用
题型07样本数据的数字特征
题型08回归直线方程及其应用
题型09完善列联表、独立性检验的应用
优选提升题
(
题型01
) 随机数表法
1.(23-24高二下·云南·期末)总体编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 .
7816 6572 0802 6314 0214 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
(
题型02
) 分层抽样的计算问题
1.(23-24高二下·云南大理·期末)某年级有男生490人,女生510人,为了解学生身高,按性别进行分层,并通过分层随机抽样的方法得到样本容量为100的样本数据,若抽样时在各层中按比例分配样本,并得到样本中男生、女生的平均身高分别为和,在这种情况下,可估计该年级全体学生的平均身高为 .
3.(23-24高二下·云南·期末)某地区的高中学校分为A、B两类,A类高中学校共有学生6000人,B类高中学校共有学生2000人.现按A、B两类进行分层,用分层随机抽样的方法,从该地区的高中学校抽取学生40人进行调查研究.设抽到该地区A类高中学校学生x人,则 .
(
题型03
) 总体百分位数的估计
1.(23-24高二下·云南曲靖·期末)在一次身高检查中,某班10名同学的身高分别为,,则这组数据的第80百分位数是( )
A. B. C. D.
2.(23-24高二下·云南红河·期末)为全面普及无人机知识,激发青少年探索航空未来创造力与想象力,提升青少年科学素养和创新能力,培养航空后备人才.中国航空学会、云南省科学技术协会、云南警官学院于2024年4月中句在红河州弥勒市共同举办第8届全国青少年无人机大赛(云南省赛).某校为下一届大赛做准备,在校内进行选拔赛,9名学生成绩依次为:85,105,75,100,95,85,90,100,80.则这组数据的第60百分位数为( )
A.85 B.90 C.92.5 D.95
3.(23-24高二下·云南楚雄·期末)某同学测得连续7天的最低气温(单位:℃)分别为18,19,18,15,15,17,13,则该组数据的第70百分位数为( )
A.15 B.17 C.17.5 D.18
(
题型04
) 数据的极差
1.(23-24高二下·云南玉溪·期末)某同学高中阶段6次考试的数学成绩为105,117,110,128,141,133,则这6次数学成绩的极差为( )
A.128 B.119 C.36 D.28
(
题型0
5
) 平均数和方差意义的应用
1.(23-24高二下·云南·期末)甲、乙、丙、丁四名运动员参加射击项目选拔赛,每人10次射击成绩的平均数(单位:环)和方差如下表所示:
甲
乙
丙
丁
8.5
9
9.5
9.9
0.25
1
0.65
0.09
根据表中数据,若从中选择一名成绩好且发挥稳定的运动员参加比赛,则应该选( )
A.甲 B.乙 C.丙 D.丁
(
题型0
6
) 频率分布直方图的应用
1.(23-24高二下·云南玉溪·期末)在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积和的,且样本量为80,则中间一组的频数为( )
A.0.25 B.16 C.20 D.0.5
2.(多选)(23-24高二下·云南曲靖·期末)如图所示,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图象作出以下判断,正确的是( )
A.图(1)的平均数中位数众数
B.图(2)的众数<平均数<中位数
C.图(2)的众数<中位数<平均数
D.图(3)的中位数平均数众数
(
题型0
7
) 样本数据的数字特征
1.(23-24高二下·云南昆明·期末)某人连续投一枚骰子次,记录向上的点数得到一组样本数据,若该组样本数据的平均数为,则( )
A.极差可能为 B.中位数可能为 C.方差可能为 D.众数可能为
2.(23-24高二下·云南·期末)某校运动会,一位射击运动员10次射击射中的环数依次为:7,7,10,9,7,6,9,10,7,8.则下列说法错误的是( )
A.这组数据的平均数为8 B.这组数据的众数为7
C.这组数据的极差为4 D.这组数据的第80百分位数为9
(
题型0
8
) 回归直线方程及其应用
1.(23-24高二下·云南·期末)已知两个变量与的对应关系如下表:
1
3
5
7
9
6
18
39
53
若与满足一元线性回归模型,且经验回归方程为,则( )
A.29 B.30 C.31 D.32
2.(多选)(23-24高二下·云南临沧·期末)(多选)某商家统计了最近5个月某产品的销量,如表所示:若y与x线性相关,且线性回归方程为,则( )
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.
(
题型0
9
) 完善列联表、独立性检验的应用
1.(23-24高二下·云南·期末)某学校高三年级有学生1000名,经调查,其中750名同学经常参加体育锻炼(称为类同学),另外250名同学不经常参加体育锻炼(称为类同学).现用分层抽样方法(按类、类分两层)从该年级的学生中共抽查200名同学,如果以身高达到作为达标的标准,对抽取的200名学生,得到以下列联表:
身高达标
身高不达标
总计
经常参加体育锻炼
80
不经常参加体育锻炼
30
总计
200
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
1.(23-24高二下·云南大理·期末)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围
锻炼时长
学业成绩
优秀
5
44
42
3
1
不优秀
139
191
179
43
28
(1)该地区29000名学生中体育锻炼时长大于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长;(精确到0.1)
(3)是否有95%的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
附:,.
2.(23-24高二下·云南·期末)随着移动互联网和直播带货技术的发展,直播带货已经成为一种热门的销售方式,特别是商家通过展示产品,使顾客对商品有更全面的了解.下面统计了某新手开启直播带货后从6月份到10月份每个月的销售量(万件)的数据,得到如图所示的散点图.其中6月份至10月份相应的代码为,如:表示6月份.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程?(给出判断即可,不必说明理由)
(2)(i)根据(1)的判断结果,建立关于的回归方程;(计算结果精确到0.01)
(ⅱ)根据结果预测12月份的销售量大约是多少万件?
参考公式与数据:, ,,其中.
2 / 5
学科网(北京)股份有限公司
$$
专题12 统计、成对数据的统计分析
题型概览
题型01随机数表法
题型02分层抽样的计算问题
题型03总体百分位数的估计
题型04数据的极差
题型05平均数和方差意义的应用
题型06频率分布直方图的应用
题型07样本数据的数字特征
题型08回归直线方程及其应用
题型09完善列联表、独立性检验的应用
优选提升题
(
题型01
) 随机数表法
1.(23-24高二下·云南·期末)总体编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 .
7816 6572 0802 6314 0214 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
【答案】01
【知识点】随机数表法
【分析】结合随机数表法确定正确答案.
【详解】从随机数表的第一行的第列和第列数字开始由左到右选取的编号依次为,
所以选出来的第5个个体的编号为.
故答案为:.
(
题型02
) 分层抽样的计算问题
1.(23-24高二下·云南大理·期末)某年级有男生490人,女生510人,为了解学生身高,按性别进行分层,并通过分层随机抽样的方法得到样本容量为100的样本数据,若抽样时在各层中按比例分配样本,并得到样本中男生、女生的平均身高分别为和,在这种情况下,可估计该年级全体学生的平均身高为 .
【答案】164.9
【知识点】抽样比、样本总量、各层总数、总体容量的计算、平均数的和差倍分性质
【分析】由抽样比例,得到男生人数和女生人数,再由分层抽样的平均值公式计算平均身高.
【详解】通过分层随机抽样的方法得到样本容量为100的样本数据,
男生抽取的人数为,女生抽取的人数为.
样本中男生、女生的平均身高分别为和,
可估计该年级全体学生的平均身高为.
故答案为:164.9
3.(23-24高二下·云南·期末)某地区的高中学校分为A、B两类,A类高中学校共有学生6000人,B类高中学校共有学生2000人.现按A、B两类进行分层,用分层随机抽样的方法,从该地区的高中学校抽取学生40人进行调查研究.设抽到该地区A类高中学校学生x人,则 .
【答案】30
【知识点】抽样比、样本总量、各层总数、总体容量的计算
【分析】由分层抽样中各层样本数的确定方法求解即可.
【详解】由题意,.
故答案为:30.
(
题型03
) 总体百分位数的估计
1.(23-24高二下·云南曲靖·期末)在一次身高检查中,某班10名同学的身高分别为,,则这组数据的第80百分位数是( )
A. B. C. D.
【答案】C
【知识点】总体百分位数的估计
【分析】根据百分位数的定义计算可得结果.
【详解】将这10个数据从小到大排列,因为,
所以第80百分位数为第8个数与第9个数的平均数,即.
故选:C
2.(23-24高二下·云南红河·期末)为全面普及无人机知识,激发青少年探索航空未来创造力与想象力,提升青少年科学素养和创新能力,培养航空后备人才.中国航空学会、云南省科学技术协会、云南警官学院于2024年4月中句在红河州弥勒市共同举办第8届全国青少年无人机大赛(云南省赛).某校为下一届大赛做准备,在校内进行选拔赛,9名学生成绩依次为:85,105,75,100,95,85,90,100,80.则这组数据的第60百分位数为( )
A.85 B.90 C.92.5 D.95
【答案】D
【知识点】总体百分位数的估计
【分析】根据百分位数的定义求解即可.
【详解】9名学生成绩从低到高依次为:75,80,85,85,90,95,100,100,105.
且,
故第60百分位数为:95.
故选:D
3.(23-24高二下·云南楚雄·期末)某同学测得连续7天的最低气温(单位:℃)分别为18,19,18,15,15,17,13,则该组数据的第70百分位数为( )
A.15 B.17 C.17.5 D.18
【答案】D
【知识点】总体百分位数的估计
【分析】利用第70百分位数的定义求解即得.
【详解】将该组数据从小到大排列为,又,
所以该组数据的第70百分位数为18.
故选:D.
(
题型04
) 数据的极差
1.(23-24高二下·云南玉溪·期末)某同学高中阶段6次考试的数学成绩为105,117,110,128,141,133,则这6次数学成绩的极差为( )
A.128 B.119 C.36 D.28
【答案】C
【知识点】计算几个数据的极差、方差、标准差
【分析】根据给定条件,利用极差的定义直接求解即得.
【详解】6次考试的数学成绩为105,110,117,128,133,141,所以成绩的极差为.
故选:C
(
题型0
5
) 平均数和方差意义的应用
1.(23-24高二下·云南·期末)甲、乙、丙、丁四名运动员参加射击项目选拔赛,每人10次射击成绩的平均数(单位:环)和方差如下表所示:
甲
乙
丙
丁
8.5
9
9.5
9.9
0.25
1
0.65
0.09
根据表中数据,若从中选择一名成绩好且发挥稳定的运动员参加比赛,则应该选( )
A.甲 B.乙 C.丙 D.丁
【答案】D
【知识点】用方差、标准差说明数据的波动程度、用平均数的代表意义解决实际问题
【分析】根据平均数和方差的意义分析求解.
【详解】从数据来看丁的平均成绩最高,方差最小,
因此丁成绩好且发挥稳定,应选择丁.
故选:D.
(
题型0
6
) 频率分布直方图的应用
1.(23-24高二下·云南玉溪·期末)在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积和的,且样本量为80,则中间一组的频数为( )
A.0.25 B.16 C.20 D.0.5
【答案】B
【知识点】由频率分布直方图计算频率、频数、样本容量、总体容量
【分析】设中间一组的频数为x,根据题意可列方程求解.
【详解】设中间一组的频数为x,依题意有,解得.
故选:B.
2.(多选)(23-24高二下·云南曲靖·期末)如图所示,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图象作出以下判断,正确的是( )
A.图(1)的平均数中位数众数
B.图(2)的众数<平均数<中位数
C.图(2)的众数<中位数<平均数
D.图(3)的中位数平均数众数
【答案】AC
【知识点】根据频率分布直方图计算众数、由频率分布直方图估计平均数、由频率分布直方图估计中位数
【分析】根据平均数,中位数,众数的概念结合图形分析判断.
【详解】图(1)的分布直方图是对称的,平均数中位数众数,A正确;
图(2)众数最小,右拖尾平均数大于中位数,B错误,C正确;
图(3)左拖尾众数最大,平均数小于中位数,D错误.
故选:AC
(
题型0
7
) 样本数据的数字特征
1.(23-24高二下·云南昆明·期末)某人连续投一枚骰子次,记录向上的点数得到一组样本数据,若该组样本数据的平均数为,则( )
A.极差可能为 B.中位数可能为 C.方差可能为 D.众数可能为
【答案】C
【知识点】计算几个数据的极差、方差、标准差、计算几个数的平均数、计算几个数的中位数、计算几个数的众数
【分析】根据平均数的公式可得,且,再根据各个数据特征值的概念及公式分别判断即可.
【详解】根据平均数的公式可得,且,
A选项:若极差为,则,,此时不成立,A选项错误;
B选项:若中位数为,则,即,且,此时与不符,B选项错误;
C选项:当,时,方差为,C选项正确;
D选项:若众数为,则数据中至少有两个为,此时,不成立,D选项错误;
故选:C.
2.(23-24高二下·云南·期末)某校运动会,一位射击运动员10次射击射中的环数依次为:7,7,10,9,7,6,9,10,7,8.则下列说法错误的是( )
A.这组数据的平均数为8 B.这组数据的众数为7
C.这组数据的极差为4 D.这组数据的第80百分位数为9
【答案】D
【知识点】计算几个数的众数、计算几个数的平均数、计算几个数据的极差、方差、标准差、总体百分位数的估计
【分析】利用众数、中位数、极差、百分位数的定义,根据条件逐一对各个选项分析判断即可得出结果.
【详解】这组数据的平均数为,故A正确;
这组数据的众数为7,故B正确;
这组数据的极差为,故C正确;
将这组数据按照从小到大的顺序排列为,
因为,
所以这组数据的第80百分位数为,故D错误.
故选:D.
(
题型0
8
) 回归直线方程及其应用
1.(23-24高二下·云南·期末)已知两个变量与的对应关系如下表:
1
3
5
7
9
6
18
39
53
若与满足一元线性回归模型,且经验回归方程为,则( )
A.29 B.30 C.31 D.32
【答案】A
【知识点】根据样本中心点求参数
【分析】根据样本中心点在回归方程上即可.
【详解】由表格数据得,
因为样本中心点在回归方程上,
所以,
解得.
故选:A.
2.(多选)(23-24高二下·云南临沧·期末)(多选)某商家统计了最近5个月某产品的销量,如表所示:若y与x线性相关,且线性回归方程为,则( )
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.
【答案】ACD
【知识点】用回归直线方程对总体进行估计、残差的计算、根据回归方程进行数据估计、根据样本中心点求参数
【分析】根据已知条件,结合线性回归方程的性质,即可求解.
【详解】对于A,由题中数据可知,随着x变大,变小,则变量y与x负相关,故A正确;
对于D,由表中数据可知,,,
又因为,则,解得,故D正确;
对于B,当时,残差为,故B错误;
对于C,当时,,
故可以预测当时销量约为2.1万只,故C正确.
故选:ACD.
(
题型0
9
) 完善列联表、独立性检验的应用
1.(23-24高二下·云南·期末)某学校高三年级有学生1000名,经调查,其中750名同学经常参加体育锻炼(称为类同学),另外250名同学不经常参加体育锻炼(称为类同学).现用分层抽样方法(按类、类分两层)从该年级的学生中共抽查200名同学,如果以身高达到作为达标的标准,对抽取的200名学生,得到以下列联表:
身高达标
身高不达标
总计
经常参加体育锻炼
80
不经常参加体育锻炼
30
总计
200
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
附:,其中.
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析
(2)不能
【知识点】完善列联表、独立性检验解决实际问题
【分析】(1)根据分层抽样的抽取比例求得经常参加体育锻炼的同学人数及不经常参加体育锻炼的同学人数,即可完善列联表;
(2)通过表格数据计算卡方值,与临界值比较即可判断.
【详解】(1)根据分层抽样的概念可知,抽取比例为,
所以经常参加体育锻炼的同学有,不经常参加体育锻炼的同学有,
填写列联表如下:
身高达标
身高不达标
总计
经常参加体育锻炼
80
70
150
不经常参加体育锻炼
20
30
50
总计
100
100
200
(2)由列联表中的数据,得的观测值为,
所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
1.(23-24高二下·云南大理·期末)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围
锻炼时长
学业成绩
优秀
5
44
42
3
1
不优秀
139
191
179
43
28
(1)该地区29000名学生中体育锻炼时长大于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长;(精确到0.1)
(3)是否有95%的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
附:,.
【答案】(1)
(2)
(3)有
【知识点】由频率分布直方图估计平均数、独立性检验解决实际问题、由频率分布直方图计算频率、频数、样本容量、总体容量、卡方的计算
【分析】(1)求出相关占比,乘以总人数即可;
(2)根据平均数的计算公式即可得到答案;
(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.
【详解】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
2.(23-24高二下·云南·期末)随着移动互联网和直播带货技术的发展,直播带货已经成为一种热门的销售方式,特别是商家通过展示产品,使顾客对商品有更全面的了解.下面统计了某新手开启直播带货后从6月份到10月份每个月的销售量(万件)的数据,得到如图所示的散点图.其中6月份至10月份相应的代码为,如:表示6月份.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程?(给出判断即可,不必说明理由)
(2)(i)根据(1)的判断结果,建立关于的回归方程;(计算结果精确到0.01)
(ⅱ)根据结果预测12月份的销售量大约是多少万件?
参考公式与数据:, ,,其中.
【答案】(1)模型②
(2)(i);(ⅱ)预测12月份的销售量大约是13.9万件
【知识点】非线性回归、根据散点图判断是否线性相关、求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据散点图结合一次函数以及二次函数图象特征分析判断;
(2)(i)令,根据题中数据和公式求回归方程;
(ⅱ)令,代入回归方程运算求解即可.
【详解】(1)由散点图可知增加幅度不一致,且散点图接近于曲线,非线性,
结合图象故选模型②.
(2)(i)令,则,
可得,,
则,,
所以关于的回归方程为,
即关于的回归方程;
(ⅱ)令,可得,
预测12月份的销售量大约是13.9万件.
2 / 13
学科网(北京)股份有限公司
$$