内容正文:
达标测试卷(十) 统计与成对数据的统计分析
(本卷满分150分 考试时间120分钟)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.已知一组数据为50,40,39,45,32,34,42,37,则这组数据第40百分位数为( )
A.39 B.40 C.45 D.32
2.某校高三共有200人参加体育测试,根据规则,82分以上的考生成绩等级为A,则估计获得A的考生人数约为( )
A.100 B.75 C.50 D.25
3.为了解某中学学生假期中每天自主学习的时间,采用样本量比例分配的分层随机抽样,现抽取高一学生40人,其每天学习时间均值为8小时,方差为0.5,抽取高二学生60人,其每天学习时间均值为9小时,方差为0.8,抽取高三学生100人,其每天学习时间均值为10小时,方差为1,则估计该校学生每天学习时间的方差为( )
A.1.4 B.1.45 C.1.5 D.1.55
4.根据一组样本数据(x1,y1),(x2,y2),…,(x10,y10),求得经验回归方程为=1.2x+0.4,且=3.现发现这组样本数据中有两个样本点(1.2,0.5)和(4.8,7.5)误差较大,去除后,重新求得的经验回归方程为=1.1x+a,则a=( )
A.0.5 B.0.6 C.0.7 D.0.8
5.已知一组数据丢失了其中一个,另外六个数据分别是8,8,8,10,11,16,若这组数据的平均数、中位数、众数依次成等差数列,则丢失数据的所有可能值的和为( )
A.12 B.20 C.25 D.27
6.已知数据x1,x2,…,x5(xi∈Z,i=1,2,…,5)的平均数、中位数、方差均为4,则这组数据的极差为( )
A.3 B.4 C.5 D.6
7.已知实数x0,x1,…,x2024,则使xi-k|和(xi-k)2最小的实数k分别为x0,x1,…,x2024的( )
A.平均数;平均数 B.平均数;中位数 C.中位数;平均数 D.标准差;平均数
8.某校积极开展“戏曲进校园”活动,为了解该校各班参加戏曲兴趣小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本标准差为2,且样本数据互不相等,则该样本数据的极差为( )
A.3 B.4 C.5 D.6
二、选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.
9.为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中正确的是( )
A.该地农户家庭年收入的极差为12
B.估计该地农户家庭年收入的75%分位数约为9
C.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
D.估计该地农户家庭年收入的平均值超过6.5万元
10.已知一组数据1,3,5,7,9,其中位数为a,平均数为,极差为b,方差为s2.现从中删去某一个数,得到一组新数据,其中位数为a′,平均数为′,极差为b′,方差为s′2,则下列说法中正确的是( )
A.若删去3,则a<a′ B.若删去9,则<′
C.无论删去哪个数,均有b≥b′ D.若=′,则s2<s′2
11.某校社团为发扬奥运体育精神举办了竞技比赛,此比赛共有5名同学参加,赛后经数据统计得到该5名同学在此次比赛中所得成绩的平均数为8,方差为4,比赛成绩x∈[0,15],且x∈N*,则该5名同学中比赛成绩的最高分可能为( )
A.13 B.12 C.11 D.10
三、填空题:本题共3小题,每小题5分,共15分.
12.从某工厂生产的零件中随机抽取11个,其尺寸值为43,45,45,45,49,50,50,51,51,53,57(单位:mm),现从这11个零件中任取3个,则3个零件的尺寸刚好为这11个零件尺寸的平均数、第六十百分位数、众数的概率为________.
13.某公司对来应聘的人进行笔试,统计出200名应聘者的笔试成绩,整理得到下表:
组号
1
2
3
4
5
6
成绩分组
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
累积频率
0.05
0.15
a
a+0.30
2a+0.10
2a+0.30
注:第n组的累积频率指的是前n组的频率之和.
若公司计划150人进入面试,则估计参加面试的最低分数线为________.
14.已知一组统计数据x1,x2,…,xn的平均数为,方差为s2,则函数f(x)=(x-xi)2的最小值为________.
四、解答题:本题共5小题,共77分.解答应写出文字说明、证明过程或演算步骤.
15.(13分)某公司为了了解顾客对其旗下产品的满意程度,随机抽取n名顾客进行满意度问卷调查,按所得评分(满分100分)从低到高将满意度分为四个等级:
调查评分
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
满意度等级
不满意
一般
良好
满意
并绘制如图所示的频率分布直方图.已知调查评分在[70,80)的顾客为80人.
(1)求n的值及频率分布直方图中t的值;
(2)若某段时间有10 000名顾客购买该公司的产品,请估计这10 000名顾客中对该公司产品满意度达到“满意”的人数;
(3)该公司设定的预案是以抽取的样本作为参考,若顾客满意度评分的均值低于80分,则需要对该公司旗下产品进行调整,否则不需要调整.根据你所学的统计知识,判断该公司是否需要对旗下产品进行调整,并说明理由.(每组数据以区间的中点值代替)
16.(15分)某兴趣小组,对高三刚结束的测试的物理成绩进行随机调查,在所有选择物理科的考生中随机抽取100名各类考生的物理成绩,整理数据如下表(单位:人).
物理成绩
学生分类
[50,60)
[60,70)
[70,80)
[80,90]
A班男生
2
8
15
8
B班男生
3
10
20
4
A班女生
3
4
2
1
B班女生
10
6
4
0
(1)估计该校高三学习物理男生人数与女生人数的比值;
(2)求A班物理平均成绩的估计值(同一组中的数据用该组区间中点值为代表,结果四舍五入到整数);
(3)把成绩在[60,90]称为及格,成绩在[50,60)为不及格,根据所有数据完成下面2×2列联表,试根据小概率值α=0.01的独立性检验,分析该校考生的物理成绩与性别是否有关?
性别
成绩
合计
及格
不及格
男生
女生
合计
附:χ2=
α
0.05
0.01
0.001
χα
3.841
6.635
10.828
17.(15分)为进一步推动防范电信网络诈骗工作,预防和减少电信网络诈骗案件的发生,某市开展防骗知识大宣传活动.举办了“网络防骗”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100],得到如图所示的频率分布直方图.
(1)求图中a的值,根据频率分布直方图计算样本成绩的平均数和下四分位数;
(2)已知若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为m,,s;n,,s,记总的样本平均数为,样本方差为s2.
证明:s2={m[s+(-)2]+n[s+(-)2]};
(3)已知落在[50,60)的平均成绩是59,方差是7,落在[60,70)的平均成绩为65,方差是4,求两组样本成绩的总平均数和总方差s2.
18.(17分)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入,该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示,令vi=ln xi(i=1,2,…,5),数据经过初步处理得到下表.
(xi-)2
(yi-)2
(vi-)2
(xi-)(yi-)
(yi-)(vi-)
44
4.8
10
40.3
1.612
19.5
8.06
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数r=,
回归直线=+x中公式分别为=,=-;
②参考数据:=8.06, ≈20.1,ln 5≈1.6,ln 6≈1.8.
19.(17分)将2024表示成5个正整数x1,x2,x3,x4,x5之和,得到方程x1+x2+x3+x4+x5=2024①,称五元有序数组(x1,x2,x3,x4,x5)为方程①的解,对于上述的五元有序数组(x1,x2,x3,x4,x5),当1≤i,j≤5时,若max(xi-xj)=t(t∈N),则称(x1,x2,x3,x4,x5)是t-密集的一组解.
(1)方程①是否存在一组解(x1,x2,x3,x4,x5),使得xi+1-xi(i=1,2,3,4)等于同一常数?若存在,请求出该常数;若不存在,请说明理由;
(2)方程①的解中共有多少组是1-密集的?
(3)记S=,问S是否存在最小值?若存在,请求出S的最小值;若不存在,请说明理由.
学科网(北京)股份有限公司
$$
达标测试卷(十) 统计与成对数据的统计分析
1.A 将这组数据从小到大排列为32,34,37,39,40,42,45,50,共8个,
因为8×40%=3.2,所以这组数据第40百分位数为第4个数据,即为39,故选A.
2.C 由频率分布直方图可得82分以上的考生的频率约为0.025×10×+0.005×10=0.25,
所以获得A的考生人数约为200×0.25=50(人),故选C.
3.B 由题意可得,该校学生每天学习时间的均值为
=×8+×9+×10=9.3,
该校学生每天学习时间的方差为
s2=×[0.5+(8-9.3)2]+×[0.8+(9-9.3)2]+×[1+(10-9.3)2]=1.45.故选B.
4.C 因为原来的经验回归方程为=1.2x+0.4,且=3,
所以=1.2×3+0.4=4,
因为去除的两个样本点为(1.2,0.5)和(4.8,7.5),并且=3,=4,
所以去除两个样本点后,样本点的中心仍为(3,4),
代入重新求得的经验回归方程=1.1x+a,
可得4=1.1×3+a,解得a=0.7.故选C.
5.D 这7个数据的众数是8,设丢失的数据是x,
则平均数为=,
若x<8,则中位数是8,则+8=8×2,解得x=-5.
若x=8,则中位数是8,平均数=,
此时,8,8不成等差数列,不符合题意.
若8<x<10,则中位数是x,则+8=2x,解得x=9.
若x=10,则中位数是10,则=,
,10,8不成等差数列,不符合题意.
若x>10,则中位数是10,则+8=10×2,解得x=23.
所以丢失数据的所有可能值的和为-5+9+23=27.故选D.
6.D 根据题意,不妨设x1<x2<x3<x4<x5,且xi∈Z,可得x3=4,
由平均数为4,得(x1+x2+x3+x4+x5)=4,
即x1+x2+x3+x4+x5=20;
由方差为4,得[(x1-4)2+(x2-4)2+(x3-4)2+(x4-4)2+(x5-4)2]=4,
即x+x+x+x+x=100;
联立
由xi∈Z可解得x1=1,x2=3,x4=5,x5=7.
根据极差定义可得这组数据的极差为x5-x1=6.故选D.
7.C |xi-k|=|x0-k|+|x1-k|+…+|x2024-k|,表示2025个绝对值之和,
根据绝对值的几何意义知,绝对值的和的最小值表示距离和的最小值,
因为2025为奇数,所以k取x0,x1,…,x2024的中位数时,|xi-k|有最小值;
(xi-k)2= (x-2kxi+k2)=(x+x+x+…+x)-(2x0+2x1+2x2+…+2x2024)k+2025k2为关于k的一元二次函数,
故当k=时,(xi-k)2有最小值,
即k为x0,x1,…,x2024的平均数时,(xi-k)2有最小值.故选C.
8.D 不妨设该五个班级的样本数据分别为a,b,c,d,e(a<b<c<d<e),且a,b,c,d,e∈N*,则依题意有
化简得a+b+c+d+e=35,(a-7)2+(b-7)2+(c-7)2+(d-7)2+(e-7)2=20,
易知e≥d+1≥c+2≥b+3≥a+4⇒a+b+c+d+e≤5e-10⇒e≥9,
又易知五个数据减7的平方数为整数,a-7,b-7,c-7,d-7,e-7五个数的绝对值不超过4.
当e=11时,(a-7)2+(b-7)2+(c-7)2+(d-7)2=4,由数据为整数且均不相同得等式不成立;
当e=10时,(a-7)2+(b-7)2+(c-7)2+(d-7)2=11,由数据为整数且均不相同得该四个平方数只能为0,1,1,9,则a=4,b=6,c=7,d=8,符合题意,此时极差为6;
当e=9时,(a-7)2+(b-7)2+(c-7)2+(d-7)2=16,由数据为整数且均不相同得等式不成立;
综上,五组数据的极差为6.故选D.
9.BCD 观察频率分布直方图,
对于A,该地农户家庭年收入的极差约为14-3=11,A错误;
对于B,数据在[2.5,8.5)的频率为0.02+0.04+0.1+0.14+0.2+0.2=0.7,
数据在[2.5,9.5)的频率为0.8,因此75%分位数m∈(8.5,9.5),(m-8.5)×0.1=0.05,解得m=9,B正确;
对于C,数据在[4.5,8.5)内的频率为0.1+0.14+0.2+0.2=0.64>0.5,C正确;
对于D,家庭年收入的平均值=3×0.02+4×0.04+5×0.1+6×0.14+7×0.2+8×0.2+9×0.1+10×0.1+11×0.04+(12+13+14)×0.02=7.68(万元),D正确.故选BCD.
10.ACD A选项,若去掉3,根据中位数的定义,a=5,a′==6,满足a<a′,A选项正确;
B选项,若删去9,根据平均数的定义,
==5,′==4,>′,B选项错误;
C选项,根据极差的定义,
若去掉的数是3,5,7中的一个,
显然去掉前后极差都是9-1=8,满足b=b′,
若去掉1,b′=9-3=6<b=8,
若去掉9,b′=7-1=6<b=8,
综上,b≥b′,C选项正确;
D选项,原数据平均数=5,去掉一个数后平均数保持不变,即′=5,
则剩下的四个数之和为5×4=20,显然去掉的数只能是5,由方差的定义,
s2=[(1-5)2+(3-5)2+(5-5)2+(7-5)2+(9-5)2]=8,
s′2=[(1-5)2+(3-5)2+(7-5)2+(9-5)2]=10,
满足s2<s′2,D选项正确.故选ACD.
11.BC 设该5名同学在此次比赛中所得成绩分别为x1,x2,x3,x4,x5,
由题得=(x1+x2+x3+x4+x5)=8,
则x1+x2+x3+x4+x5=40,
且s2=[(x1-8)2+(x2-8)2+(x3-8)2+(x4-8)2+(x5-8)2]=4,
则(x1-8)2+(x2-8)2+(x3-8)2+(x4-8)2+(x5-8)2=20,
不妨设x5最大,
对于A选项,若x5=13,则(x1-8)2+(x2-8)2+(x3-8)2+(x4-8)2=-5不成立,故A错误;
对于B选项,若x5=12,则(x1-8)2+(x2-8)2+(x3-8)2+(x4-8)2=4,
则满足题意,例如5位同学的成绩可为7,7,7,7,12,故B正确;
对于C选项,若x5=11,则(x1-8)2+(x2-8)2+(x3-8)2+(x4-8)2=11,
则满足题意,例如5位同学的成绩可为5,7,8,9,11,故C正确;
对于D选项,若x5=10,则x1+x2+x3+x4=30且(x1-8)2+(x2-8)2+(x3-8)2+(x4-8)2=16,
则x+x+x+x-16(x1+x2+x3+x4)+4×82=16,
则x+x+x+x=16(x1+x2+x3+x4)-4×82+16=16×30-4×82+16=240,
则可得该方程组无正整数解,故D错误.故选BC.
12.解析 由题意知11个零件的平均数为=49,
第六十百分位数的位置为11×60%=6.6,即取第7位数50,故第六十百分位数为50,
由题可知众数为45,所以当从11个零件中任取3个零件共有C=165种情况,
则3个数分别为平均数49、第六十百分位数50,众数45共有CCC=6种情况,
所以其概率为=.
答案
13.解析 由各组累积频率为1得,2a+0.3=1,则a=0.35.
又由=0.75知,面试的最低分数线为笔试成绩从低到高排列的第25百分位数m,
由题表知,笔试成绩分别在[40,60)与[40,70)的累积频率分别为0.15,0.35,
故=,解得m=65,
从而可估计参加面试的最低分数线为65.
答案 65
14.解析 由=i,得s2=(xi-)2=(-2i+n2)=(-n2),
则=n(s2+2),
故f(x)=(x-xi)2=nx2-2xi+=nx2-2n·x+=n(x-)2+ns2≥ns2,当且仅当x=时等号成立.所以函数f(x)=(x-xi)2的最小值为ns2.
答案 ns2
15.解析 (1)0.02×10n=80,10t+0.06+0.1+0.2+60t+90t=1,
所以n=400,t=0.004.
(2)6t=6×0.004=0.024,
所以估计这10 000名顾客中对该公司产品满意度达到“满意”的人数为10 000×0.024×10=10 000×0.24=2400(人).
(3)由频率分布直方图得,顾客满意度评分的均值为
45×0.04+55×0.06+65×0.1+75×0.2+85×9×0.04+95×0.24=80,
由题意知不需要对该公司旗下产品进行调整.
16.解析 (1)由表中数据可知,男生共有2+8+15+8+3+10+20+4=70,
女生共有3+4+2+1+10+6+4+0=30,
由此估计该校高三学习物理男生人数与女生人数的比值约为=.
(2)A班共有:2+3+8+4+15+2+8+1=43人,
A班物理平均成绩的估计值为
55×+65×+75×+85×
=≈72.
(3)由表中数据可知,2×2列联表如下:
性别
成绩
合计
及格
不及格
男生
65
5
70
女生
17
13
30
合计
82
18
100
零假设为H0:该校考生的物理成绩与考生性别无关,
根据表格中数据计算得到
χ2=≈18.635>6.635=x0.01,
根据小概率值α=0.01的χ2独立性检验,推断H0不成立,即认为该校考生的物理成绩与性别有关,此推断犯错误的概率不大于0.01.
17.(1)解析 由题意可知,(0.005+0.010+0.020+a+0.025+0.010)×10=1,
解得a=0.030.
平均数为(45×0.005+55×0.01+65×0.02+75×0.030+85×0.025+95×0.010)×10=74,
前2组的频率和为(0.005+0.010)×10=0.15,
前3组的频率和为0.15+0.020×10=0.35,
所以下四分位数在第3组,设为x,
则0.15+(x-60)×0.02=0.25,得x=65,
所以下四分位数为65.
(2)证明 ==+,
s= (xi-)2,s=(yi-)2,
总体方差s2=,
又(xi-)2=[(xi-)+(-)]2
=[(xi-)2+2(-)(xi-)+(-)2]
=(xi-)2+2(-) (xi-)+(-)2,
因为 (xi-)=xi- =m-m=0,
(xi-)2=(xi-)2+2(-) (xi-)+(-)2=ms+m(-)2=m[s+(-)2].
同理(yi-)2=n[s+(-)2],
故s2=
={m[s+(-)2]+n[s+(-)2]}.
(3)解析 [50,60)的频率是0.010×10=0.1,频数是0.1×100=10,[60,70)的频率是0.020×10=0.2,频数是0.2×100=20,所以总体平均数=×59+×65=63,
总体方差s2={10[7+(59-63)2]+20[4+(65-63)2]}=13.
18.解析 (1)设模型①和②的相关系数分别为r1,r2.
由题意可得r1==≈≈0.97,
r2====1.
所以|r1|<|r2|,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为===5,
又由=i=0.96,=i=8.8,
得m=-5=8.8-0.96×5=4,
所以y=5v+4,即回归方程为y=5ln x+4.
当x=6时,y=5ln 6+4≈13,
因此当年广告费为6(百万元)时,产品的销售量大约是13(百万辆).
(3)净利润为200×(5ln x+4)-200x-ξ(x>0),
令g(x)=200×(5ln x+4)-200x-ξ,
所以g′(x)=-200.
可得y=g(x)在(0,5)上为增函数,在(5,+∞)上为减函数.
所以g(x)max =g(5)=200×(5ln 5+4-5)-ξ≈1400-ξ,
由题意得1400-ξ>1000,即ξ<400,
P(ξ<400)=P(ξ>800)=0.3,
即该公司年净利润的最大值大于1000(百万元)的概率为0.3.
·60·19.解析 (1)若xi+1-xi(i=1,2,3,4)等于同一常数,
根据等差数列的定义可得{xi}构成等差数列,
所以x1+x2+x3+x4+x5=5x3=2024,
解得x3=,与x3∈N*矛盾,
所以不存在一组解(x1,x2,x3,x4,x5),
使得xi+1-xi(i=1,2,3,4)等于同一常数.
(2)因为=(x1+x2+x3+x4+x5)==404.8,
依题意t=1时,即当1≤i,j≤5时,max(xi-xj)=1,
所以max{xi}=405,min{xj}=404,
设有y个405,则有5-y个404,由405y+404(5-y)=2024,解得y=4,
所以x1,x2,x3,x4,x5中有4个405,1个404,
所以方程①的解共有5组.
(3)因为平均数=(x1+x2+x3+x4+x5)==404.8,
又方差σ2=(xi-)2,
即5σ2=(xi-)2=-52,
所以S=5σ2+52,因为为常数,所以当方差σ2取最小值时,S取最小值,
又当t=0时x1=x2=x3=x4=x5,即5x1=2024,方程无正整数解,故舍去;
当t=1时,即(x1,x2,x3,x4,x5)是1-密集时,S取得最小值,
且Smin=4×4052+4042=819 316.
学科网(北京)股份有限公司
$$