内容正文:
第8章 成对数据的统计分析 单元自测卷
建议用时:120分钟,满分:150分
一、填空题(本大题共有12题,满分54分,第1-6题每题4分,第7-12题每题5分)
1.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则 .
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
2.某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数 .(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
3.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为 .
4.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则 .
5.某饮料店的日盈利(单位:百元)与当天平均气温(单位:℃)之间有如下数据:
x/℃
0
1
2
y/百元
5
4
2
2
1
由表中数据可得回归方程中.试预测当天平均气温为℃时,饮料店的日盈利约为 百元.
6.已知变量与线性相关,由样本点求得的线性回归方程为,若点在回归直线上,且,则 .
7.若变量和的4对观测数据为,两个变量满足一元线性回归模型(随机误差),请写出参数的最小二乘估计值为
8.某学习小组用计算机软件对一组数据,进行回归分析,甲同学首先求出线性回归方程为,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到线性回归方程为,则实数 .
9.已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别 (选填“有关”或“无关”).
10.小坤统计了“喜欢学习数学”和“性别为男性”的关系,统计男,女同学分别为60,40名,在男生中随机抽取三名同学,其中喜欢数学的人数恰有一人的概率为,则男生中喜欢数学的人数(大于男生中不喜欢数学的人数)为 经过计算,认为有的概率认为“喜欢学习数学”和“性别为男性”有关,则女同学中喜欢学习数学的人数的最大值为 (精确到1)
0.05
0.025
0.01
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
11.下列命题中错误的是 .
①将一组数据中的每个数都加上或减去同一个常数后,平均数与方差都不变;
②残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
③在一组样本数据(不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为;
④在吸烟与患肺病这两个分类变量的计算中,若由独立性检验知,在犯错误率不超过0.01的前提下,认为吸烟与患肺病有关系.若某人吸烟,则他有的可能性患肺病.
⑤甲、乙两个模型的分别约为0.88和0.80,则模型甲的拟合效果更好;
12.对平面直角坐标系中的两组点,如果存在一条直线使这两组点分别位于该直线的两侧,则称该直线为“分类直线”.对于一条分类直线,记所有的点到的距离的最小值为,约定:越大,分类直线的分类效果越好.某学校高三(2)班的7位同学在2020年期间网购文具的费用(单位:百元)和网购图书的费用(单位:百元)的情况如图所示,现将,,和为第Ⅰ组点.将,和归为第Ⅱ点.在上述约定下,可得这两组点的分类效果最好的分类直线,记为.给出下列四个结论:
①直线比直线的分类效果好;
②分类直线的斜率为2;
③该班另一位同学小明的网购文具与网购图书的费用均为300元,则小明的这两项网购花销的费用所对应的点与第Ⅱ组点位于的同侧;
④如果从第Ⅰ组点中去掉点,第Ⅱ组点保持不变,则分类效果最好的分类直线不是.
其中所有正确结论的序号是 .
二、选择题(本大题共有4题,满分18分,第13、14每题4分,15、16每题5分).
13.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
14.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
15.已知变量x和变量y,根据最小二乘法估计得到成对数据组的经验回归方程,成对数据组的经验回归方程,记,则( )
(参考公式,对于一组成对数据,其经验回归直线的斜率和截距的最小二乘估计公式为:)
A.直线经过点 B.直线不经过点 C. D.
16.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若我们推断不成立,此推断犯错误率不超过,则的最小值为( )
附:,附表:
0.05
0.01
3.841
6.635
A.7 B.8 C.9 D.10
三、解答题(本大题共5题,第17-19题每题14分,第20-21题每题18分,共78分).
17.(14分)某农业科研团队为探究不同的施肥种植方式对作物产量的影响,在一片试验田里,对采用有机肥料种植的作物和化学肥料种植的作物进行研究. 经统计,试验田里采用有机肥料种植的作物有800株,采用化学肥料种植的作物有400株. 现按分层随机抽样的方法,从两类施肥种植的作物中一共抽取120株进行产量检测,以每株作物产量达到500克作为达标标准,得到以下部分列联表:
单位:株
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
化学肥料种植
20
合计
120
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的施肥种植方式与作物产量达标情况有关联?
附:,其中
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
18.(14分)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码,表示年份代码为的产量,经计算得,,
(1)求样本的相关系数;(精确到0.01)
(2)现从这5年中随机抽取2年,记这2年中小麦产量不低于13.7千万吨的年数为,求的分布列与期望.
附:相关系数,.
19.(14分)随机抽取某集团公司旗下五家超市,得到广告支出x(万元)与销售额y(万元)的数据如下:
广告支出x(万元)
2
4
5
6
8
销售额y(万元)
20
30
50
60
70
(1)计算x,y的相关系数r,并判断是否可以认为广告支出与销售额具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高,)
(2)求出y关于x的线性回归方程,并预测若广告支出15(万元),则销售额约为多少万元?参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
20.(18分)某企业为确定下一年度投入某种产品的生产所需的资金,需了解每投入2千万资金后,工人人数(单位:百人)对年产能(单位:千万元)的影响,对投入的人力和年产能的数据作了初步处理,得到散点图和统计量表.
(1)根据散点图判断:与哪一个适宜作为年产能关于投入的人力的回归方程类型?并说明理由?
(2)根据(1)的判断结果及相关的计算数据,建立关于的回归方程;
(3)现该企业共有2000名生产工人,资金非常充足,为了使得年产能达到最大值,则下一年度共需投入多少资金(单位:千万元)?
附注:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,(说明:的导函数为)
21.(18分)高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
学科网(北京)股份有限公司1 / 16
学科网(北京)股份有限公司
$
第8章 成对数据的统计分析 单元自测卷
一、填空题(本大题共有12题,满分54分,第1-6题每题4分,第7-12题每题5分)
1. 2.. 3. 4. 5.. 6. 6 7.5.1.
8 9. 有关. 10.50;23. 11. ①③④ 12.
二、选择题(本大题共有4题,满分18分,第13、14每题4分,15、16每题5分).
13
14
15
16
A
D
A
C
三、解答题(本大题共5题,第17-19题每题14分,第20-21题每题18分,共78分).
17.(14分)【详解】(1)解:采用有机肥料种植的作物抽取株数为(株),
因为抽取的有机肥料种植的作物中产量达标的有60株,所以产量不达标的有20株.
采用化学肥料种植的作物抽取株数为(株),
因为抽取的化学肥料种植的作物中产量不达标的有20株,所以产量达标的有20株.
完成后的列联表如下: 单位:株 (7分)
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
20
80
化学肥料种植
20
20
40
合计
80
40
120
(2)解: 零假设为:不同的施肥种植方式与作物产量达标情况无关联.
根据公式,
根据小概率值的独立性检验,我们推断不成立,即认为不同的施肥种植方式与作物产量达标情况有关联,此推断犯错误的概率不大于0.05. (7分)
18.(14分【详解】(1),,
故样本相关系数
. (7分)
(2)X的取值可以为0,1,2,
则,
,
,
于是X的分布列为
X
0
1
2
P
故. (7分)
19.(14分)【详解】(1)根据表格里的数据可得:
,.
所以
.
.
.
所以可以认为广告支出与销售额具有较高的线性相关程度. (8分)
(2)根据公式可得:
,.
所以关于的线性回归方程为.
当广告支出15万元时,销售额约为万元. (6分)
20.(18分)【详解】(1)由图可知适宜作为年产能关于投入的人力的回归方程类型
若选择,则,此时当接近于0时,必小于0,
故选择作为年产能关于投入的人力的回归方程类型 (5分)
(2)由,得,故与符合线性回归,.
,
,即,
关于的回归方程. (5分)
(3)当人均产能达到最大时,年产能也达到最大,
由(2)可知人均产能函数,
,
时,,时,
时,单调递增,时,单调递减,
当时,人均产能函数达到最大值,
因此,每2千万资金安排2百人进行生产,能使人均产能达到最大,
对于该企业共有2000名生产工人,且资金充足,
下一年度应该投入20千万资金进行生产,可以适当企业的产能达到最大. (8分)
21.(18分)【详解】(1)由已知可得,
.
又因为,
,
所以,
所以,
所以,
当时,,
所以预测第6季度血压明显降低(或治愈)的大约有42人. (5分)
(2)(ⅰ)由题知的所有可能取值为0,1,2,
;
;
,
所以的分布列为
0
1
2
所以. (5分)
(ⅱ)设经过次挑战后,挑战权在乙、丙组的概率分别为,,
则当时,,,,
由后两个等式相加,得. ①
因为,所以,,
代入①式得,
即,
所以.
因为,,
所以,
所以,
所以数列是首项为,公比为的等比数列,
所以,
即,
所以由,得,即,
所以对任意给定的正数(不论它多么小),总存在正整数(表示不超过的最大整数),使得当时, ,
所以数列为“聚点数列”,聚点的值为. (8分)
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司1 / 16
学科网(北京)股份有限公司
$
第8章 成对数据的统计分析 单元自测卷
建议用时:120分钟,满分:150分
一、填空题(本大题共有12题,满分54分,第1-6题每题4分,第7-12题每题5分)
1.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则 .
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
【答案】
【分析】利用相关系数与回归系数的关系,结合已知数据计算.需要先求出,再通过求出分子,最后代入公式得到.
【详解】因为,,所以.
由,
解得,所以 .
故答案为:
2.某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数 .(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【答案】
【分析】根据表中数据求出,进而得出的值,代入公式计算即可得出答案.
【详解】由已知可得,,
,
则 ,
,
所以, .
故答案为:.
3.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为 .
【答案】
【分析】根据残差求得时的预测值,从而求得,再根据样本中心一定在回归直线上即可得到答案.
【详解】由题意可得时的预测值为,
所以,解得,即经验回归方程为,
又因为,,
所以,解得,
故答案为:
4.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则 .
【答案】/
【分析】根据回归直线性质计算求解.
【详解】令,
所以,
由,解得.
故答案为:
5.某饮料店的日盈利(单位:百元)与当天平均气温(单位:℃)之间有如下数据:
x/℃
0
1
2
y/百元
5
4
2
2
1
由表中数据可得回归方程中.试预测当天平均气温为℃时,饮料店的日盈利约为 百元.
【答案】
【分析】求出样本中心点,代入得到值,再令即得.
【详解】由已知数据
因为,则,代入,则,
则,
令,则.
故答案为:.
6.已知变量与线性相关,由样本点求得的线性回归方程为,若点在回归直线上,且,则 .
【答案】6
【分析】依题意,可得点在回归直线上,求得,将条件代入回归方程求出,利用平均数公式即可求得
【详解】由题意,点在回归直线上,
代入可得,,解得.
又,且样本点的中心在回归直线上,
故代入得,最后得结果,则,解得.
故答案为:.
7.若变量和的4对观测数据为,两个变量满足一元线性回归模型(随机误差),请写出参数的最小二乘估计值为
【答案】5.1
【分析】根据最小二乘法的原理,通过求随机误差平方和在为何值时取得最小值,即可得参数的最小二乘估计值.
【详解】依题意,两个变量满足一元线性回归模型,随机误差,
则随机误差平方和
,
易知,随机误差平方和是一个一元二次函数,
当时,随机误差平方和取得最小值,
因此参数的最小二乘估计值为5.1.
故答案为:5.1.
8.某学习小组用计算机软件对一组数据,进行回归分析,甲同学首先求出线性回归方程为,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到线性回归方程为,则实数 .
【答案】
【分析】根据样本点的中心为,求得,然后利用样本点的中心,由甲求得,,再由乙求得样本点的中心,代入回归直线方程即可求解.
【详解】修正前样本点的中心为,代入,可知.
假设甲输入的为,为,
则,,
得,,
修正后,,
则样本点的中心为,将其代入线性回归方程,
得.
故答案为:
9.已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别 (选填“有关”或“无关”).
【答案】有关
【分析】根据题中所给数据,结合独立性检验的基本思想即可求解.
【详解】∵,∴根据小概率值的独立性检验,喜欢该体育运动与性别有关.
故答案为:有关.
10.小坤统计了“喜欢学习数学”和“性别为男性”的关系,统计男,女同学分别为60,40名,在男生中随机抽取三名同学,其中喜欢数学的人数恰有一人的概率为,则男生中喜欢数学的人数(大于男生中不喜欢数学的人数)为 经过计算,认为有的概率认为“喜欢学习数学”和“性别为男性”有关,则女同学中喜欢学习数学的人数的最大值为 (精确到1)
0.05
0.025
0.01
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
【答案】 50 23
【分析】设男生中喜欢数学的人数为人,由超几何分布的概率公式计算即可,设女生中喜欢数学的人数为人,由独立性检验的原理中的公式计算求解即可.
【详解】由题意可知,男同学有人,设男生中喜欢数学的人数为人,则且.
在男生中随机抽取三名同学,其中喜欢数学的人数恰有一人的概率为,
故,整理可得,
因为且,解得.
设女生中喜欢数学的人数为人,
则
男生
女生
合计
喜欢数学
50
不喜欢数学
10
合计
60
40
100
经过计算,认为有的概率认为“喜欢学习数学”和“性别为男性”有关,
则,即,
解得,
故最大值为.
故答案为:50;23.
11.下列命题中错误的是 .
①将一组数据中的每个数都加上或减去同一个常数后,平均数与方差都不变;
②残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
③在一组样本数据(不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为;
④在吸烟与患肺病这两个分类变量的计算中,若由独立性检验知,在犯错误率不超过0.01的前提下,认为吸烟与患肺病有关系.若某人吸烟,则他有的可能性患肺病.
⑤甲、乙两个模型的分别约为0.88和0.80,则模型甲的拟合效果更好;
【答案】①③④
【分析】根据平均数的定义和方差的定义判断命题①,根据残差图的性质判断命题②,根据相关系数的定义判断命题③,根据独立性检验的知识判断命题④,根据决定系数性质判断命题⑤.
【详解】设原样本数据为,设其平均数为,方差为,
则,
将样本数据都加上常数可得,,
则新数据的平均数,
新数据的平均数,
同理可得将原数据中每个数据都减,新数据的平均数为,方差为,
命题①错误;
由残差的性质可得残差图中残差点所在的水平带状区域越窄,说明残差的平方和越小,说明回归方程的预报精确度越高;命题②正确;
若所有样本点都在直线上,则这组样本数据的线性相关系数为,命题③错误;
若由独立性检验知,在犯错误率不超过0.01的前提下,认为吸烟与患肺病有关系.只能说明结论判断错误的概率为,不能说明他有的可能性患肺病,命题④错误;
因为甲的决定系数比乙的决定系数更接近1,所以模型甲的拟合效果更好;命题⑤正确;
故答案为:①③④.
12.对平面直角坐标系中的两组点,如果存在一条直线使这两组点分别位于该直线的两侧,则称该直线为“分类直线”.对于一条分类直线,记所有的点到的距离的最小值为,约定:越大,分类直线的分类效果越好.某学校高三(2)班的7位同学在2020年期间网购文具的费用(单位:百元)和网购图书的费用(单位:百元)的情况如图所示,现将,,和为第Ⅰ组点.将,和归为第Ⅱ点.在上述约定下,可得这两组点的分类效果最好的分类直线,记为.给出下列四个结论:
①直线比直线的分类效果好;
②分类直线的斜率为2;
③该班另一位同学小明的网购文具与网购图书的费用均为300元,则小明的这两项网购花销的费用所对应的点与第Ⅱ组点位于的同侧;
④如果从第Ⅰ组点中去掉点,第Ⅱ组点保持不变,则分类效果最好的分类直线不是.
其中所有正确结论的序号是 .
【答案】②③④
【分析】根据分类直线的定义判断.
【详解】由图象知:,
①当直线为分类直线时,,当直线为分类直线时,所以直线分类效果好,故错误;
②由图知的位置由,,确定,
所有的点到的距离的最小值为,约定:越大,分类直线的分类效果越好.
可知点,,直到线的距离相等,
所以直线过点,的中点,而的中点为,的中点为,
故直线的斜率为,故正确;
③当到L的距离与到L的距离相等时为L的临界值,此时点在L的右侧,故正确;
④去掉点后,,解得,故正确;
故答案为:②③④
【点睛】关键点点睛:本题关键是理解分类直线的定义,如本题L的位置由确定.
二、选择题(本大题共有4题,满分18分,第13、14每题4分,15、16每题5分).
13.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【分析】先计算线性相关系数 ,再通过 ()的绝对值判断相关强度( 越接近1,线性相关程度越强).
【详解】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
14.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A;由的正负即可判断B;.根据回归方程代入计算即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,解得,故A错误;
因为,所以与的样本是正相关,故B错误;
当时,的预估值为,故C错误;
由相关系数公式可知,去掉样本点后,与的样本相关系数不会改变,故D正确.
故选:D.
15.已知变量x和变量y,根据最小二乘法估计得到成对数据组的经验回归方程,成对数据组的经验回归方程,记,则( )
(参考公式,对于一组成对数据,其经验回归直线的斜率和截距的最小二乘估计公式为:)
A.直线经过点 B.直线不经过点 C. D.
【答案】A
【分析】根据回归方程的性质判断选择即可.
【详解】根据回归方程的性质得出直线经过点样本中心点,A选项正确;
直线直线经过点样本中心点,B选项错误;
回归直线,,不能确定,的大小关系,C,D选项错误;
故选:A.
16.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若我们推断不成立,此推断犯错误率不超过,则的最小值为( )
附:,附表:
0.05
0.01
3.841
6.635
A.7 B.8 C.9 D.10
【答案】C
【分析】根据题意可得列联表,由已知数据计算,根据独立性检验的结论,列不等式求的取值范围,得最小值.
【详解】根据题意,不妨设男生中喜欢短视频的人数为人,男生中不喜欢短视频的人数为人,女生中喜欢短视频的人数为人,女生中不喜欢短视频的人数为人.
所以可得列联表如下:
喜欢短视频人数
不喜欢短视频人数
合计
男生人数
女生人数
合计
于是,
由于推断不成立,此推断犯错误率不超过,
所以依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,且,于是最小值为.
故选:C
三、解答题(本大题共5题,第17-19题每题14分,第20-21题每题18分,共78分).
17.(14分)某农业科研团队为探究不同的施肥种植方式对作物产量的影响,在一片试验田里,对采用有机肥料种植的作物和化学肥料种植的作物进行研究. 经统计,试验田里采用有机肥料种植的作物有800株,采用化学肥料种植的作物有400株. 现按分层随机抽样的方法,从两类施肥种植的作物中一共抽取120株进行产量检测,以每株作物产量达到500克作为达标标准,得到以下部分列联表:
单位:株
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
化学肥料种植
20
合计
120
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的施肥种植方式与作物产量达标情况有关联?
附:,其中
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析
(2)能
【分析】(1)根据分层抽样方法计算各层抽取株数,再结合题中信息可完善列联表;
(2)根据独立性检验方法求解值,再结合临界值表可得出结论.
【详解】(1)解:采用有机肥料种植的作物抽取株数为(株),
因为抽取的有机肥料种植的作物中产量达标的有60株,所以产量不达标的有20株.
采用化学肥料种植的作物抽取株数为(株),
因为抽取的化学肥料种植的作物中产量不达标的有20株,所以产量达标的有20株.
完成后的列联表如下: 单位:株
施肥种植方式
产量达标情况
合计
产量达标
产量不达标
有机肥料种植
60
20
80
化学肥料种植
20
20
40
合计
80
40
120
(2)解: 零假设为:不同的施肥种植方式与作物产量达标情况无关联.
根据公式,
根据小概率值的独立性检验,我们推断不成立,即认为不同的施肥种植方式与作物产量达标情况有关联,此推断犯错误的概率不大于0.05.
18.(14分)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码,表示年份代码为的产量,经计算得,,
(1)求样本的相关系数;(精确到0.01)
(2)现从这5年中随机抽取2年,记这2年中小麦产量不低于13.7千万吨的年数为,求的分布列与期望.
附:相关系数,.
【答案】(1)
(2)分布列见解析,
【分析】(1)先求出平均值,再应用已知数据结合相关系数公式计算求解;
(2)根据超几何分布求出概率,再写出分布列应用数学期望公式计算即可.
【详解】(1),,
故样本相关系数
.
(2)X的取值可以为0,1,2,
则,
,
,
于是X的分布列为
X
0
1
2
P
故.
19.(14分)随机抽取某集团公司旗下五家超市,得到广告支出x(万元)与销售额y(万元)的数据如下:
广告支出x(万元)
2
4
5
6
8
销售额y(万元)
20
30
50
60
70
(1)计算x,y的相关系数r,并判断是否可以认为广告支出与销售额具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高,)
(2)求出y关于x的线性回归方程,并预测若广告支出15(万元),则销售额约为多少万元?参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【答案】(1),可以认为广告支出与销售额具有较高的线性相关程度
(2),销售额为136万元.
【分析】(1)根据相关系数公式求出相关系数即可判断.
(2)根据公式求出,进而确定线性回归方程,然后将广告支出代入方程中求出销售额即可.
【详解】(1)根据表格里的数据可得:
,.
所以
.
.
.
所以可以认为广告支出与销售额具有较高的线性相关程度.
(2)根据公式可得:
,.
所以关于的线性回归方程为.
当广告支出15万元时,销售额约为万元.
20.(18分)某企业为确定下一年度投入某种产品的生产所需的资金,需了解每投入2千万资金后,工人人数(单位:百人)对年产能(单位:千万元)的影响,对投入的人力和年产能的数据作了初步处理,得到散点图和统计量表.
(1)根据散点图判断:与哪一个适宜作为年产能关于投入的人力的回归方程类型?并说明理由?
(2)根据(1)的判断结果及相关的计算数据,建立关于的回归方程;
(3)现该企业共有2000名生产工人,资金非常充足,为了使得年产能达到最大值,则下一年度共需投入多少资金(单位:千万元)?
附注:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,(说明:的导函数为)
【答案】(1)选择,理由见解析;(2);(3)20千万
【分析】(1)由图可知适宜作为年产能关于投入的人力的回归方程类型;
(2)由,得,再利用最小二乘法求出,从而得到关于的回归方程;
(3)利用导数求得当时,取得最大值.
【详解】(1)由图可知适宜作为年产能关于投入的人力的回归方程类型
若选择,则,此时当接近于0时,必小于0,
故选择作为年产能关于投入的人力的回归方程类型
(2)由,得,故与符合线性回归,.
,
,即,
关于的回归方程.
(3)当人均产能达到最大时,年产能也达到最大,
由(2)可知人均产能函数,
,
时,,时,
时,单调递增,时,单调递减,
当时,人均产能函数达到最大值,
因此,每2千万资金安排2百人进行生产,能使人均产能达到最大,
对于该企业共有2000名生产工人,且资金充足,
下一年度应该投入20千万资金进行生产,可以适当企业的产能达到最大.
【点睛】本题考查统计中的散点图、回归方程的最小二乘法求解、统计中的决策问题,考查函数与方程思想、转化与化归思想,考查数据处理能力、逻辑推理能力和运算求解能力,求解时注意知识的交会.
21.(18分)高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)42人
(2)(ⅰ)分布列见解析,(ⅱ)证明见解析,.
【分析】(1)根据所给的公式,结合代入法进行求解即可;
(2)(ⅰ)根据古典概型运算公式,结合数学期望进行求解即可;
(ⅱ)根据题意列出数列的递推公式,结合等比数列的定义和通项公式、已知定义进行求解即可.
【详解】(1)由已知可得,
.
又因为,
,
所以,
所以,
所以,
当时,,
所以预测第6季度血压明显降低(或治愈)的大约有42人.
(2)(ⅰ)由题知的所有可能取值为0,1,2,
;
;
,
所以的分布列为
0
1
2
所以.
(ⅱ)设经过次挑战后,挑战权在乙、丙组的概率分别为,,
则当时,,,,
由后两个等式相加,得. ①
因为,所以,,
代入①式得,
即,
所以.
因为,,
所以,
所以,
所以数列是首项为,公比为的等比数列,
所以,
即,
所以由,得,即,
所以对任意给定的正数(不论它多么小),总存在正整数(表示不超过的最大整数),使得当时, ,
所以数列为“聚点数列”,聚点的值为.
【点睛】关键点点睛:本题的关键是利用题意构造递推数列,结合构造法、已知定义进行求解.
学科网(北京)股份有限公司1 / 16
学科网(北京)股份有限公司
$