内容正文:
微专题12 统计与成对数据的统计分析
命题点1 用样本估计总体
1.(2024·山东菏泽一模)已知样本数据为x1,x2,x3,x4,x5,x6,x7,去掉一个最大值和一个最小值后的数据与原来的数据相比,下列数字特征一定不变的是( )
A.极差 B.平均数
C.中位数 D.方差
解析 样本数据为x1,x2,x3,x4,x5,x6,x7,去掉一个最大值和一个最小值后的数据与原来的数据相比,假设从小到大就是从x1到x7,极差可能变化,故A错误;平均数为=,可能变,故B错误;中位数还是按从小到大排序中间位置的数,故C正确;方差为S2=[(x2-)2+(x3-)2+(x4-)2+(x5-)2+(x6-)2],有可能变,故D错误.故选C.
答案 C
2.(2024·湖北武汉五调)已知一组数据1,2,3,4,x的上四分位数是x,则x的取值范围为( )
A.{3} B.[2,3]
C.[3,4] D.{4}
解析 在五个数中,上四分位数为第二大的数,故1,2,3,4,x中第二大的数是x,所以3≤x≤4.
答案 C
3.(多选)(2024·山东菏泽三模)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100个该配件的质量指标值(单位:分)作为一个样本,得到如下所示的频率分布直方图,则(同一组中的数据用该组区间的中点值作代表)( )
A.m=0.030
B.样本质量指标值的平均数为75
C.样本质量指标值的众数小于其平均数
D.样本质量指标值的第75百分位数为85
解析 对于A项,由题意知(0.010+0.015+m+0.035+0.010)×10=1,解得m=0.030,故A项正确;
对于B项,样本质量指标值的平均数为
55×0.1+65×0.15+75×0.35+85×0.3+95×0.1=76.5,故B项错误;
对于C项,样本质量指标值的众数是=75<76.5,故C项正确;
对于D项,前3组的频率之和为(0.010+0.015+0.035)×10=0.60,前4组的频率之和为0.60+0.030×10=0.90,故第75百分位数位于第4组,设其为t,则(t-80)×0.030+0.60=0.75,解得t=85,即第75百分位数为85,故D项正确.故选ACD.
答案 ACD
4.规定一个学生数学成绩优秀的标志为连续5次数学考试成绩(满分150分)均不低于120分.现有甲、乙、丙三位学生连续5次数学考试成绩的记录数据(记录数据都是正整数)情况:
①甲学生5个数据的中位数为127,众数为120;
②乙学生5个数据的中位数为125,均值为127;
③丙学生5个数据中有一个数据是135,均值为128,方差为19.8.
则可以断定数学成绩优秀的学生为__________.(在“甲、乙、丙”中进行选择)
解析 因为甲学生的5个数据的中位数为127,众数是120,所以5个数据中有2个数据为120,有1个数据为127,有2个数据大于127,所以甲学生的5个数据均不小于120,所以甲学生数学成绩优秀;若乙学生的5个数据分别为118,119,125,136,137,满足中位数为125,均值为127,但其中有小于120的数据,故不能断定乙学生数学成绩优秀;丙学生的5个数据中有一个数据为135,设另外4个数据分别是a,b,c,d,因为5个数据的均值为128,方差为19.8,所以[(a-128)2+(b-128)2+(c-128)2+(d-128)2+(135-128)2]=19.8,所以(a-128)2+(b-128)2+(c-128)2+(d-128)2=50(*),假设a,b,c,d中存在小于120的数据,不妨设a<120,则(a-128)2>64,显然(*)式不成立,所以假设不成立,即a,b,c,d均不小于120,所以丙学生的5个数据均不小于120,所以丙学生数学成绩优秀.所以可以断定数学成绩优秀的学生为甲和丙.
答案 甲、丙
(1)解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.
(2)进行分层随机抽样的相关计算时,常用到的两个关系
①=;
②总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
命题点2 回归分析
考向一 线性回归分析
(2024·河南郑州第三次质量检测)下表是某地2017-2021年五年中当地酸雨区面积约占本土面积的百分比(yi%):
年份
2017年
2018年
2019年
2020年
2021年
年份代码xi
1
2
3
4
5
yi
6.4
5.5
5.0
4.8
3.8
(1)求2017—2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2026年该地酸雨区面积占本土面积的百分比.
(回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-,
iyi=70.6,=133.69)
附:样本相关系数r=,≈6.
[解析] (1)由已知,可得==3,==5.1,由题可列下表:
xi-
-2
-1
0
1
2
yi-
1.3
0.4
-0.1
-0.3
-1.3
(xi-)(yi-)=-5.9, =, =,
r==-≈-≈-0.98.
(2)由小问(1)知,y与x的相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
由小问(1)知,===-0.59,=-=5.1-×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=10,则=-0.59×10+6.87=0.97,故预测2026年该地酸雨区面积占本土面积的百分比为0.97%.
考向二 非线性回归分析
(2024·山东日照二模)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.
(1)已知该公司甲部门有3名负责人,乙部门有4名负责人,该公司从甲、乙两部门中随机选取3名负责人做测试分析,记负责人来自甲部门的人数为X,求X的最有可能的取值;
(2)该公司统计了七个部门测试的平均成绩x(满分100分)与绩效等级优秀率y,如下表所示:
x
32
41
54
68
74
80
92
y
0.28
0.34
0.44
0.58
0.66
0.74
0.94
根据数据绘制散点图,初步判断,选用y=λecx作为回归方程.令z=ln y,经计算得=-0.642,≈0.02.
(ⅰ)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(ⅱ)根据统计分析,大致认为各部门测试平均成绩x~N,其中μ近似为样本平均数,σ2近似为样本方差s2,经计算s≈20,求某个部门绩效等级优秀率不低于0.78的概率.
参考公式与数据:①ln 0.15≈-1.9,e1.2≈3.32,ln 5.2≈1.66;
②经验回归方程=x+中,=,
=-.
③若随机变量X~N(μ,σ2),则
P(μ-σ<X<μ+σ)=0.682 6,
P(μ-2σ<X<μ+2σ)=0.954 4,
P(μ-3σ<X<μ+3σ)=0.997 4.
解析 (1)依题意,随机变量X服从超几何分布,且X的可能取值为0,1,2,3,则P(X=0)==,P==,P(X=2)==,P(X=3)==.
由此可得P=最大,即X=1的可能性最大,故X最有可能的取值为1.
(2)(ⅰ)依题意,y=λecx两边取对数,得ln y=cx+ln λ,即z=cx+ln λ,
其中==63,
由提供的参考数据,可知c=0.02,又-0.642=0.02×63+ln λ,故ln λ≈-1.9,
由提供的参考数据,可得λ≈0.15,故=0.15×e0.02x,当x=60时,=0.15×e0.02×60≈0.498,即估计其绩效等级优秀率为0.498.
(ⅱ)由(ⅰ)及提供的参考数据可知,μ≈=63,σ≈s≈20,又≥0.78,即0.15×e0.02x≥0.78,可得0.02x≥ln 5.2,即x≥83.又μ+σ=83,且P(μ-σ<X<μ+σ)=0.682 6,由正态分布的性质,得P==0.158 7,记“绩效等级优秀率不低于0.78”为事件A,则P(A)=P=0.158 7,所以绩效等级优秀率不低于0.78的概率等于0.158 7.
回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:
①若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;
②若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;
③利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值.
【预测练1】
1.某省为调查北部城镇2024年生产总值,抽取了20个城镇进行分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个城镇的人口(单位:万人)和该城镇2024年生产总值(单位:亿元),计算得i=100,i=800,(xi-)2=70,(yi-)2=280,=120.
(1)请用相关系数r判断该组数据中y与x之间线性相关关系的强弱(若|r|∈[0.75,1],相关性较强;若|r|∈[0.25,0.75),相关性一般;若|r|∈[0,0.25),相关性较弱);
(2)求y关于x的经验回归方程;
(3)若该省北部某城镇2024年的人口约为5万人,根据(2)中的经验回归方程估计该城镇2024年的生产总值.
参考公式:相关系数r=,
对于一组具有线性相关关系的数据(xi,yi)(i=1,2,…,n),其经验回归直线=x+的斜率和截距的最小二乘估计公式分别为=,=-.
解析 (1)由题意知相关系数r===≈0.857,因为y与x的相关系数r满足|r|∈,所以y与x之间具有较强的线性相关关系.
(2)===,
=-=-×=,
所以=x+.
(3)由(2)可估计该城镇2024年的生产总值=×5+=40(亿元).
2.(2024·浙江台州二模)某电动车公司为了扩大市场份额,计划加大广告投入,该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示,令νi=ln xi(i=1,2,…,5),数据经过初步处理得:
i
i
(xi-)2
(yi
-)2
(νi
-)2
(xi-)
·(yi-)
(yi-)
·(νi-)
44
4.8
10
40.3
1.612
19.5
8.06
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N,且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①相关系数r=,
经验回归方程=x+中,=,=-;
②参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
解析 (1)设模型①和②的相关系数分别为r1,r2.
由题意可得r1==≈≈0.97,
r2====1.
所以|r1|<|r2|,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为===5,
又由=i=0.96,=i=8.8,
得m=-5=8.8-0.96×5=4,
所以y=5ν+4,即回归方程为=5ln x+4.
当x=6时,=5ln 6+4≈13,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为200×(5ln x+4)-200x-ξ(x>0),
令g(x)=200×(5ln x+4)-200x-ξ,
所以g′(x)=-200.
令g′(x)=0,得x=5,
可得y=g(x)在(0,5)上为增函数,在(5,+∞)上为减函数.
所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1 400-ξ,由题意得:1 400-ξ>1 000,即ξ<400,P(ξ<400)=P(ξ>800)=0.3,即该公司年净利润大于1 000(百万元)的概率为0.3.
命题点3 独立性检测
(2024·河北保定二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据表中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表)与成绩的中位数(中位数精确到0.01);
(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
优秀人数
非优秀人数
合计
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值α=0.005的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
附:χ2=,n=a+b+c+d.
α
0.05
0.010
0.005
0.001
xα
3.841
6.635
7.879
10.828
[解析] (1)强化训练后的平均成绩约为
55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.
由于前三列概率之和为0.04+0.16+0.2=0.4,
设中位数为80+x,则0.032x=0.1,
解得x=3.125,所以中位数约为83.13.
(2)零假设为H0:跳水运动员是否优秀与强化训练无关.
补充完整的表格为
优秀人数
非优秀人数
合计
强化训练前
40
60
100
强化训练后
60
40
100
合计
100
100
200
则χ2==8>7.879=x0.005,根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为跳水运动员是否优秀与强化训练有关.
解决独立性检验问题的关键三关
(1)假设关:假设两个分类变量无关.
(2)公式关:把相关数据代入独立性检验公式求χ2的观测值.
(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断.
【预测练2】
(2024·河南开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:
男
女
在A餐厅用餐
40
20
在B餐厅用餐
15
25
(1)以题给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;
(2)依据α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?
附:χ2=.
α
0.05
0.01
0.005
0.001
xα
3.841
6.635
7.879
10.828
解析 (1)由表中数据可得,选择A餐厅的概率为=,选择B餐厅的概率为=,设事件A1:甲、乙去A餐厅用餐,事件B1:甲、乙去B餐厅用餐,事件A2:甲、乙选择同一种套餐,事件A:甲、乙两名同学选择同一套餐用餐,
P(A1)=2,P(B1)=2,P(A2|A1)=,P(A2|B1)=,
则P(A)=P(A1)P(A2|A1)+P(B1)P(A2|B1)=2×+2×=.
故甲、乙两人选择同一套餐用餐的概率为.
(2)根据数据可得方案一的列联表:
男
女
合计
在A餐厅用餐
40
20
60
在B餐厅用餐
15
25
40
合计
55
45
100
零假设为H0:性别与选择餐厅之间无关,
根据列联表中的数据,经计算得到χ2=≈8.249>7.879=x0.005,
依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别与选择餐厅之间有关,此推断犯错误的概率不大于0.005.
1.(多选)(2021·新高考Ⅱ卷)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( )
A.样本x1,x2,…,xn的标准差
B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差
D.样本x1,x2,…,xn的平均数
解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.
答案 AC
2.(多选)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
解析 对于选项A:设x2,x3,x4,x5的平均数为m,x1,x2,…,x6的平均数为n,
则n-m=-=,
因为没有确定2,x2+x3+x4+x5的大小关系,所以无法判断m,n的大小,
例如:1,2,3,4,5,6,可得m=n=3.5;
例如1,1,1,1,1,7,可得m=1,n=2;
例如1,2,2,2,2,2,可得m=2,n=;故A错误;
对于选项B:不妨设x1≤x2≤x3≤x4≤x5≤x6,
可知x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数均为,故B正确;
对于选项C:因为x1是最小值,x6是最大值,
则x2,x3,x4,x5的波动性不大于x1,x2,…,x6的波动性,即x2,x3,x4,x5的标准差不大于x1,x2,…,x6的标准差,
例如:2,4,6,8,10,12,则平均数n=(2+4+6+8+10+12)=7,
标准差s1=
=,
4,6,8,10,则平均数m==7,
标准差s2=
=,显然>,即s1>s2;故C错误;
对于选项D:不妨设x1≤x2≤x3≤x4≤x5≤x6,
则x6-x1≥x5-x2,当且仅当x1=x2,x5=x6时,等号成立,故D正确.故选BD.
答案 BD
3.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量
[900,950)
[950,1 000)
[1 000,1 050)
频数
6
12
18
亩产量
[1 050,1 100)
[1 100,1 150)
[1 150,1 200)
频数
30
24
10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg 之间
解析 对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,(提醒:若a<x<b,c<y<d,求x-y的范围时,应先求出-y的范围)故C正确;对于D,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+1 175×10)=1 067(kg),故D不正确.(另解:由表知,小于1 000的数据远少于大于1 000的数据,所以100块稻田亩产量的平均值大于1 000 kg,所以D不正确)综上所述,故选C.
答案 C
4.(2024·全国甲卷·理)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
(1)填写如下列联表:
优级品
非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
附:K2=,n=a+b+c+d.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解析 (1)第1步:填写列联表
填写列联表如下:
优级品
非优级品
甲车间
26
24
乙车间
70
30
第2步:作出完整的2×2列联表
则完整的2×2列联表如下:
优级品
非优级品
总计
甲车间
26
24
50
乙车间
70
30
100
总计
96
54
150
第3步:根据公式求K2
K2==4.687 5.
第4步:根据K2的值判断
因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;
因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)第1步:求出
由题意可知==0.64,
第2步:求出p+1.65的值
又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,
第3步:由与p+1.65的大小关系判断
所以>p+1.65,所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
学科网(北京)股份有限公司
$$