内容正文:
第八章 成对数据的统计分析
章末综合达标卷
班级___ 姓名________ 组号_____
1、 单项选择题(本大题共8题,每小题5分,共计40分。每小题列出的四个选项中只有一项是最符合题目要求的)
1.已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
2.统计x与y两个变量的五组对应数据如下表所示,若y与x之间的经验回归直线方程为,估计当时,y的值为( )
x
1
2
3
4
5
y
85
100
100
105
110
A.125 B.130 C.133 D.166
3.通过随机询问110名中学生是否爱好某项运动,得到如下的列联表:
爱好
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
由,算得统计量的观测值,根据临界值表:
0.050
0.010
0.001
3.841
6.635
10.828
则下列结论中不正确的是( )
A.在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别无关”
C.只有1%以下的把握认为“爱好该项运动与性别无关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
4.在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则( )
A.13.5 B.14 C.14.5 D.15
5.已知变量,的5对样本数据为,,,,,用最小二乘法得到经验回归方程:,过点,的直线方程为:,则( )
A.
B.样本数据的残差为
C.
D.
6.根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
7.2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
8.恩格尔系数是食品支出总额占个人消费支出总额的比值,恩格尔系数越小,消费结构越完善,生活水平越高.某学校社会调查小组通过调查得到如下数据:
年个人消费总额万元
1
1.5
2
2.5
3
恩格尔系数
0.9
0.8
0.5
0.2
0.1
若与之间具有线性相关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为( )
(参考数据:;参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为)
A.0.148 B.0.138 C.0.248 D.0.238
2、 多项选择题(本大题共3题,每小题6分,共计18分。每小题列出的四个选项中有多项是符合题目要求的,多选或错选不得分)
9.关于统计量,下列说法正确的是( )
A.统计量的值越大,两个分类变量的线性相关程度越强
B.若求出统计量,由于6.31比较接近,因此能推断两个分类变量有关系,且犯错误概率不超过0.01
C.独立性检验的本质是比较观测值与期望值之间的差异,由统计量所代表的这种差异的大小是通过确定适当的小概率值来进行判断的
D.根据统计量的构造过程可知,的值越小,零假设成立的可能性越大.
10.下列关于回归分析的说法中正确的是( )
A.回归直线一定过样本中心
B.两个模型中残差平方和越小的模型拟合的效果越好
C.甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好
D.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适
11.考虑两个变量和的样本数据集,其样本相关系数通过以下公式给出:
其中,和分别是和的第i个样本值,和分别是和的样本均值.下列关于样本相关系数公式各部分的陈述正确的是( )
A.分母中的和是和的标准差.
B.分子部分用于衡量两个变量之间变化趋势的一致性,即分子为正值时表示变量之间正相关,分子为负值时表示变量之间负相关.
C.样本相关系数的值越接近于0,表示和之间的线性关系越强.
D.通过对分子部分进行标准化处理,样本相关系数能够消除变量的度量单位的影响,使得不同数据集之间的相关性能够进行直接比较.
3、 填空题(每小题3分,共计15分)
12.已知,之间的一组数据:
1
4
9
16
1
2.98
5.01
7.01
若与满足经验回归方程,则此曲线必过点 .
13.已知变量与的10对观测数据为,且,,若关于的经验回归方程为,则变量的平均值 ; .
14.①线性回归方程必过;②独立性检验的统计假设是各事件之间相互独立③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是 .(把你认为正确的结论都写在横线上)
四、解答题(解答题需写出必要的解题过程或文字说明,15题13分,16、17题各15分,18、19题各17分)
15.某连锁经营公司所属的5个零售店某月的销售额x(单位:千万元)和利润额y(单位:百万元)资料如表:
零售店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/百万元
2
3
3
4
5
画出销售额和利润额的散点图,并判断这两个变量是否具有线性相关关系.
16.某机构为了解学生是否喜欢绘画与性别有关,调查了400名学生(男女各一半)的选择,发现喜欢绘画的人数是300,喜欢绘画的男生比女生少60人.
(1)完成下面的列联表;
喜欢绘画
不喜欢绘画
总计
男生
女生
总计
(2)根据调查数据回答:有的把握认为是否喜欢绘画与性别有关吗?
附:.临界值表如下:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
17.2023年全国竞走大奖赛,暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:s)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和.
参考数据:,.参考公式:,.
18.某校体育锻炼时间准备提供三项体育活动供学生选择.为了解该校学生对“三项体育活动中要有篮球”这种观点的态度(态度分为同意和不同意),随机调查了200名学生,数据如下:
单位:人
男生
女生
合计
同意
70
50
120
不同意
30
50
80
合计
100
100
200
(1)能否有的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关?
(2)现有足球、篮球、跳绳供学生选择.
①若甲、乙两名学生从这三项运动中随机选一种,且他们的选择情况相互独立互不影响.记事件为“甲学生选择足球”,事件为“甲、乙两名学生的选择不同”,判断事件是否独立,并说明理由.
②若该校所有学生每分钟跳绳个数.根据往年经验,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟跳绳个数比开始时个数增加10,该校有1000名学生,预估经过训练后该校每分钟跳182个以上人数(结果四舍五入到整数).
参考公式和数据:,其中.
0.025
0.010
0.005
5.024
6.635
7.879
若,则,,.
19.党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
原创精品资源学科网独家享有版权,侵权必究!12
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
第八章 成对数据的统计分析
章末综合达标卷
班级___ 姓名________ 组号_____
1、 单项选择题(本大题共8题,每小题5分,共计40分。每小题列出的四个选项中只有一项是最符合题目要求的)
1.已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【答案】C
【分析】根据相关系数的性质可得正确的选项.
【详解】对于AB,当气候温度高,海水表层温度变高变低不确定,故AB错误.
对于CD,因为相关系数为正,故随着气候温度由低到高时,海水表层温度呈上升趋势,
故C正确,D错误.
故选:C.
2.统计x与y两个变量的五组对应数据如下表所示,若y与x之间的经验回归直线方程为,估计当时,y的值为( )
x
1
2
3
4
5
y
85
100
100
105
110
A.125 B.130 C.133 D.166
【答案】C
【分析】根据回归直线必过点求解即可.
【详解】由表中数据可求得,因为回归直线必过点,即点,
所以,所以,
所以,故当时,.
故选:C.
3.通过随机询问110名中学生是否爱好某项运动,得到如下的列联表:
爱好
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
由,算得统计量的观测值,根据临界值表:
0.050
0.010
0.001
3.841
6.635
10.828
则下列结论中不正确的是( )
A.在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别无关”
C.只有1%以下的把握认为“爱好该项运动与性别无关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
【答案】BD
【分析】根据题意结合独立性检验的思想逐项分析判断.
【详解】因为,
可知在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”,故A正确,B错误;
即只有1%以下的把握认为“爱好该项运动与性别无关”, 有99%以上的把握认为“爱好该项运动与性别有关”,故C正确,D错误;
故选:BD.
4.在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则( )
A.13.5 B.14 C.14.5 D.15
【答案】A
【分析】由题意,求出剔除异常数据后的平均数,进而求出剔除异常数据前的平均数,根据回归直线必过样本中心点得到.
【详解】因为,剔除异常数据数据后, ,
因为点在直线上,所以,解得,
设利用原始数据求得的经验回归直线过点,
则,
因为,所以.
故选:A.
5.已知变量,的5对样本数据为,,,,,用最小二乘法得到经验回归方程:,过点,的直线方程为:,则( )
A.
B.样本数据的残差为
C.
D.
【答案】D
【分析】对于A,由回归方程必过样本中心点可知,只需求出样本中心就可以求出,进一步由直线方程的知识求出即可判断;对于B,由残差的定义即可判断;对于CD,由最小二乘法的意义即可判断.
【详解】对于A选项,由已知可得,,,
根据经验回归方程,可知,所以.
根据已知,可求出,
则直线的方程为,整理可得,
所以,故A选项错误;
对于B项,由已知,经验回归方程为,
样本数据的预测值为,
所以样本数据的残差为,故B项错误;
对于C、D选项,根据最小二乘法的意义,可知,
故D项正确.
故选:D.
6.根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
【答案】D
【分析】根据一元线性回归模型的有关概念即可判断.
【详解】用一元线性回归模型得到经验回归模型,
根据对应的残差图,残差的均值不可能成立,且残差图中的点分布在一条拋物线形状的弯曲带状区域上,
说明残差与坐标轴变量有二次关系,不满足一元线性回归模型,
故选:D.
7.2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【答案】C
【分析】首先利用换元法将回归方程转化为线性回归方程,再代入样本点中心,求,再根据方程进行预测.
【详解】设,,则
所以,
,且
则,得,
所以,
下午4点对应的,此时预测游客的人流量.
故选:C
8.恩格尔系数是食品支出总额占个人消费支出总额的比值,恩格尔系数越小,消费结构越完善,生活水平越高.某学校社会调查小组通过调查得到如下数据:
年个人消费总额万元
1
1.5
2
2.5
3
恩格尔系数
0.9
0.8
0.5
0.2
0.1
若与之间具有线性相关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为( )
(参考数据:;参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为)
A.0.148 B.0.138 C.0.248 D.0.238
【答案】A
【分析】结合题意求出,然后进行求解即可.
【详解】,,
故,
则,所以老张的恩格尔系数为.
故选:A.
2、 多项选择题(本大题共3题,每小题6分,共计18分。每小题列出的四个选项中有多项是符合题目要求的,多选或错选不得分)
9.关于统计量,下列说法正确的是( )
A.统计量的值越大,两个分类变量的线性相关程度越强
B.若求出统计量,由于6.31比较接近,因此能推断两个分类变量有关系,且犯错误概率不超过0.01
C.独立性检验的本质是比较观测值与期望值之间的差异,由统计量所代表的这种差异的大小是通过确定适当的小概率值来进行判断的
D.根据统计量的构造过程可知,的值越小,零假设成立的可能性越大.
【答案】CD
【分析】根据独立性检验的思想以及的性质逐项分析判断.
【详解】对于选项A:统计量的值越大,两个分类变量的相关的可能性越大,与线性相关程度无关,故A错误;
对于选项B:因为,
在犯错误概率不超过0.01的前提下,没有足够条件推断两个分类变量有关系,故B错误;
对于选项C:根据独立性检验思想可知:
独立性检验的本质是比较观测值与期望值之间的差异,由统计量所代表的这种差异的大小是通过确定适当的小概率值来进行判断的,故C正确;
对于选项D:根据独立性检验思想可知:的值越小,零假设成立的可能性越大,故D正确;
故选:CD.
10.下列关于回归分析的说法中正确的是( )
A.回归直线一定过样本中心
B.两个模型中残差平方和越小的模型拟合的效果越好
C.甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好
D.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适
【答案】ABD
【分析】根据回归直线过样本中心点可判断A;利用残差平方和与模型拟合效果之间的关系可判断B;利用相关指数与模型拟合效果的关系可判断C;利用残差图与模型的拟合效果的关系可判断D.
【详解】对于A,回归直线一定过样本中心,A选项正确;
对于B,两个模型中残差平方和越小的模型拟合的效果越好,B正确;
对于C,甲、乙两个模型的分别约为和,则模型甲的拟合效果更好,C错误;
对于D,残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,D正确.
故选:ABD.
11.考虑两个变量和的样本数据集,其样本相关系数通过以下公式给出:
其中,和分别是和的第i个样本值,和分别是和的样本均值.下列关于样本相关系数公式各部分的陈述正确的是( )
A.分母中的和是和的标准差.
B.分子部分用于衡量两个变量之间变化趋势的一致性,即分子为正值时表示变量之间正相关,分子为负值时表示变量之间负相关.
C.样本相关系数的值越接近于0,表示和之间的线性关系越强.
D.通过对分子部分进行标准化处理,样本相关系数能够消除变量的度量单位的影响,使得不同数据集之间的相关性能够进行直接比较.
【答案】BD
【分析】根据标准差定义,判断A,根据相关系数的定义和性质,判断BCD.
【详解】A.和是和的标准差,故A错误;
B.由相关系数的定义,可知B正确;
C.样本相关系数的值越接近于0,表示和之间的线性关系越弱,故C错误;
D.根据相关系数的演化过程,可知D正确.
故选:BD
3、 填空题(每小题3分,共计15分)
12.已知,之间的一组数据:
1
4
9
16
1
2.98
5.01
7.01
若与满足经验回归方程,则此曲线必过点 .
【答案】
【分析】根据给定的数表,求出的平均数即可.
【详解】依题意,的平均数为,的平均数为,
所以此曲线必过点.
故答案为:
13.已知变量与的10对观测数据为,且,,若关于的经验回归方程为,则变量的平均值 ; .
【答案】 10 9
【分析】根据给定条件,求出,再利用回归方程求出,进而求出.
【详解】依题意,,又,则,解得,
由,得.
故答案为:10;9
14.①线性回归方程必过;②独立性检验的统计假设是各事件之间相互独立③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是 .(把你认为正确的结论都写在横线上)
【答案】①②④
【分析】根据相关的概念逐一判断即可.
【详解】①线性回归方程过样本点中心,正确;
②独立性检验的统计假设是各事件之间相互独立,正确;
③相关系数的绝对值越小,表明两个变量相关性越弱,错误;
④④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系,正确.
故答案为:①②④
四、解答题(解答题需写出必要的解题过程或文字说明,15题13分,16、17题各15分,18、19题各17分)
15.某连锁经营公司所属的5个零售店某月的销售额x(单位:千万元)和利润额y(单位:百万元)资料如表:
零售店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/百万元
2
3
3
4
5
画出销售额和利润额的散点图,并判断这两个变量是否具有线性相关关系.
【详解】根据连锁经营公司所属的5个零售店某月的销售额和利润额资料画出散点图如下.
从图中可以看出,5个点大致分布在一条直线附近,所以这两个变量具有线性相关关系.
16.某机构为了解学生是否喜欢绘画与性别有关,调查了400名学生(男女各一半)的选择,发现喜欢绘画的人数是300,喜欢绘画的男生比女生少60人.
(1)完成下面的列联表;
喜欢绘画
不喜欢绘画
总计
男生
女生
总计
(2)根据调查数据回答:有的把握认为是否喜欢绘画与性别有关吗?
附:.临界值表如下:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)列联表为:
喜欢绘画
不喜欢绘画
总计
男生
120
80
200
女生
180
20
200
总计
300
100
400
(2)由(1)中列联表得:
所以有的把握认为是否喜欢绘画与性别有关.
17.2023年全国竞走大奖赛,暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:s)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和.
参考数据:,.参考公式:,.
【详解】(1)依题意可得,,
,,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是秒.
(2)根据(1)得到,;
,;
,;
,;
,,
所以,即步长残差和为.
18.某校体育锻炼时间准备提供三项体育活动供学生选择.为了解该校学生对“三项体育活动中要有篮球”这种观点的态度(态度分为同意和不同意),随机调查了200名学生,数据如下:
单位:人
男生
女生
合计
同意
70
50
120
不同意
30
50
80
合计
100
100
200
(1)能否有的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关?
(2)现有足球、篮球、跳绳供学生选择.
①若甲、乙两名学生从这三项运动中随机选一种,且他们的选择情况相互独立互不影响.记事件为“甲学生选择足球”,事件为“甲、乙两名学生的选择不同”,判断事件是否独立,并说明理由.
②若该校所有学生每分钟跳绳个数.根据往年经验,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟跳绳个数比开始时个数增加10,该校有1000名学生,预估经过训练后该校每分钟跳182个以上人数(结果四舍五入到整数).
参考公式和数据:,其中.
0.025
0.010
0.005
5.024
6.635
7.879
若,则,,.
【详解】(1)由题设列联表,有,
故有的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关.
(2)①则故事件独立.
②训练后,
故预估经过训练后该校每分钟跳182个以上人数为
答:故预估经过训练后该校每分钟跳182个以上人数约为人.
19.党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
【详解】(1)由表数据可得的平均数,
所以,
所以相关系数,
由,所以与具有较高的线性相关程度;
(2)依题意可得,
,
,
所以,
所以关于的线性回归方程为.
原创精品资源学科网独家享有版权,侵权必究!12
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$