内容正文:
第七章 统计案例单元测试(A考点梳理卷)
姓名______ 班级______ 考号______
考点一、回归分析
一、单选题
1.在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图越宽 B.残差平方和越小
C.决定系数越小 D.相关系数越大
【答案】B
【分析】根据残差、决定系数、相关系数的概念判断即可.
【详解】残差图越宽,模型的拟合效果越差,故A错误;
残差平方和越小,模型的拟合效果越好,故B正确;
决定系数越小,说明模型的拟合效果越差,故C错误;
相关系数越大,两个变量的线性相关性越强,故D错误;
故选:B
2.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
【答案】D
【分析】根据相关系数的符号的正负决定两个变量的正相关、负相关,以及相关系数绝对值越大,两个变量的线性相关性越强,进而可得出结论.
【详解】由线性相关系数知与正相关,
由线性相关系数知与负相关,
又,所以变量与变量的线性相关性比变量与变量的线性相关性更强.
故选:D.
3.下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
【答案】B
【分析】根据线性回归方程和相关系数及残差分析即可判断正误.
【详解】线性回归方程可以不经过任何一个样本点,①错,
值越大则两个变量的相关程度越强,②错,
决定系数越大,模型拟合效果越好,③对,
残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,④对.
故选:B.
4.一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
【答案】D
【分析】运用相关系数公式进行求解即可.
【详解】因为,,所以,
,
故选:D.
5.已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【分析】根据已知条件,结合变量间的相关关系,结合图象分析判断即可.
【详解】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,所以残差平方和变小,所以C错误,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
故选:B.
6.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则( )
A. B. C.1 D.3
【答案】A
【分析】利用负相关性的定义求解即可.
【详解】由样本数据可知解释变量与响应变量之间具有负相关性,
所以
又因为对应的点均在直线上,
故,故A正确.
故选:A
7.已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【答案】D
【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由残差定义可得结果.
【详解】,增加两个样本点后的平均数为;
,,增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的残差为.
故选:D.
8.2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】B
【分析】令,由,得,因为,所以
则,即可求解.
【详解】令,则,
又,由,得,
因为,所以
则,
下午4点时对应的是,
可得,
故选:B
二、填空题
9.下面命题中说法正确的是 .
①设两个变量之间的线性相关系数为,则越大,的相关性越强;
②等高堆积条形图可以直观的反映一对分类变量之间是否具有关联性;
③如果散点图的散点都落在一条直线上,则;
④正方形的面积与周长是相关关系.
【答案】①②③
【分析】由相关系数、等高堆积条形图和决定系数的性质判断①②③,由相关关系的定义判断④.
【详解】越大,的相关性越强,①正确;
与表格相比,等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响,②正确;
若散点图的散点都落在一条直线上,残差平方和为0,,③正确;
正方形的面积与周长是函数关系,④错误.
故答案为:①②③.
10.用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【答案】
【分析】将两边取自然对数,再结合题意得到,,即可求出.
【详解】因为,两边取自然对数可得,
令,可得,又,
所以,,所以,
所以.
故答案为:
三、解答题
11.铁观音性寒、味甘、酸、归肺、脾经,具有清热降火、健脾消脂、提神醒脑、生津利尿的功效,是中国十大名茶之一.为促使各生产厂家健康科学发展,某调研机构随机抽取家铁观音生产厂家,整理得到生产铁观音的单位成本(元/盒)与铁观音的产量(千盒)之间的关系数据如下:
铁观音的产量千盒
生产铁观音的单位成本(元/盒)
(1)根据所给数据,求生产铁观音的单位成本关于铁观音产量的一元线性回归方程,并估计单位成本为元/盒时产量为多少(计算过程保留两位小数);
(2)根据(1)中的回归模型,计算各组残差,并计算残差的平方和.
【详解】(1)由表格数据知:,,,,
,
,
生产铁观音的单位成本关于铁观音的产量的一元线性回归方程为,
令,则,解得:,
当单位成本为元/盒时,预估产量约为盒.
(2)各组残差分别为:
,
,
,
,
,
,
残差的平方和.
12.某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
【详解】(1)对取对数,得,设,,先建立关于的线性回归方程.
,,
,
模型②的回归方程为.
(2)由表格中的数据,有3040714607,即,
即,,
模型①的相关指数小于模型②的,说明回归模型②的拟合效果更好.
2021年时,,预测旅游人数为(万人).
考点二、独立性检验
一、单选题
1.根据分类变量与的成对样本数据,计算得到.已知,依据小概率值的独立性检验,则( )
A.与不独立
B.与不独立,这个结论犯错误的概率不超过0.05
C.与独立
D.与独立,这个结论犯错误的概率不超过0.05
【答案】C
【分析】根据独立性检验的知识判断即可.
【详解】因为
根据,根据小概率值的独立性检验知:与独立,C正确.
故选:C.
2.有甲、乙两种过滤水中重金属的设备,为了检验使用这两种设备与过滤后水中重金属含量的关系,各过滤了15瓶受重金属污染的相同水体,调查得出以下数据:
重金属含量高
重金属含量低
设备甲
6
9
设备乙
1
14
根据以上数据,则( )
A. B. C. D.
【答案】A
【分析】先完成列联表,然后根据公式求解即可.
【详解】由题意得到如下2×2列联表:
重金属含量高
重金属含量低
合计
设备甲
6
9
15
设备乙
1
14
15
合计
7
23
30
所以.
故选:A
3.以下说法正确的是( )
A.等高堆积条形图可以直观反映两个分类变量之间是否具有关联性
B.用独立性检验推断的结论可靠,不会犯错误
C.残差平方和越大,则相应模型的拟合效果越好
D.决定系数越小,则相应模型的拟合效果越好
【答案】A
【分析】根据给定条件,利用独立性检验思想判断AB;利用经验回归问题判断CD.
【详解】对于A,等高堆积条形图可以直观反映两个分类变量之间是否具有关联性,A正确;
对于B,用独立性检验推断的结论可靠,会犯随机性错误;B错误;
对于C,残差平方和越小,则相应模型的拟合效果越好,C错误;
对于D,决定系数越大,则相应模型的拟合效果越好,D错误.
故选:A
4.为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
【答案】C
【分析】利用独立性检验列联表及观测值可解得答案.
【详解】由题意被调查的文理科教师人数相同,设理科教师的人数为,由题意可列出列联表:
理科教师
文科教师
合计
喜欢用平板教学
不喜欢用平板教学
合计
.
由于有的把握认为是否喜欢用平板教学和文理学科有关,
所以,
解得,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即理科教师的人数可以是:12,13,14,15,16,17,18,19,且考虑到喜欢用平板的人数占理科教师总人数的,故人数为15人时,有实际意义.
故选:C
5.下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】C
【分析】根据线性相关系数,独立性检验,残差图及决定系数的概念分别判断即可.
【详解】线性相关系数越接近1,两个变量的线性相关程度越强,故①正确;
独立性检验并不能100%确定两个变量之间是否具有某种关系,故②错误;
回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;
回归分析中,可用判断模型的拟合效果,越大,模型的拟合效果越好,故④正确;
故选:C.
6.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
【答案】B
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
30
15
45
非篮球迷
45
10
55
合计
75
25
100
所以,
所以在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关,
即有的把握认为是否是篮球迷与性别有关,
又,所以没有的把握认为是否是篮球迷与性别有关.
故选:B.
7.学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
【答案】D
【分析】根据等高堆积条形图即可判断A,B选项,计算出的值即可判断C,D选项.
【详解】对于A,由等高堆积条形图可知,参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数少,故A错误;
对于B,全校学生中男生和女生人数比不确定,故不能确定全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多,故B错误;
对于C,结合等高堆积条形图可得:
性别
游泳
合计
喜欢
不喜欢
男生
0.6n
0.4n
n
女生
0.4n
0.6n
n
合计
n
n
2n
故,
若,则,
故依据的独立性检验,不可以认为游泳运动的喜好和性别有关,故C错误;
对于D,若,则,
依据的独立性检验,可以认为游泳运动的喜好和性别有关,故D正确.
故选:D
8.某校团委对“学生性别和喜欢某视频是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢该视频的人数占男生人数的,女生喜欢该视频的人数占女生人数的,若依据小概率值的独立性检验,认为喜欢该视频和性别有关,则男生至少有( )
附:
0.050
0.010
3.841
6.635
.
A.12人 B.6人 C.10人 D.18人
【答案】A
【分析】设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,列不等式即可解出结论.
【详解】解:设被调查的男生人数为,则被调查的女生人数为,则列联表为
性别
付某视频的态度
合
喜欢
不喜欢
计
男生
女生
合计
根据小概率值的独立性检验,
认为喜欢某视频和性别有关,则,
即,
则,
又均为整数,
所以男生至少有12人.
故选:A.
二、填空题
9.在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
【答案】③
【分析】根据题意,结合独立性检验的含义,逐项判定,即可求解.
【详解】①若的临界值,我们有的把握认为饮酒与患肝脏病有关系,
但在1000个饮酒的人中未必有900人患有肝脏病,所以①错误;
②从独立性检验可以知道99%的把握认为饮酒与患肝脏病有关系时,
是指饮酒与患肝脏病有关系的概率,而不是饮酒的人有99%的可能性有肝脏病,所以②错误:
③若从统计量中求出有99.5%的把握认为饮酒与患肝脏病有关系,
则有0.5%的可能性使得推断错误,所以③正确.
故答案为:③.
10.有甲、乙两个班级共计100人进行物理考试,按照大于等于80分为优秀,80分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
乙班
30
已知在全部100人中随机抽取1人,成绩非优秀的概率为,则下列说法正确的是 .
①列联表中的值为的值为40;
②列联表中的值为的值为50;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
附:,其中.
0.15
0.1
0.05
0.025
0.01
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【答案】①
【分析】根据题中条件计算可判断选项①、②;根据列联表计算出的值,即可判断选项③④.
【详解】由题意知,成绩非优秀的学生数是,
成绩非优秀的学生数是70,所以,
选项①正确、②错误;
根据列联表中的数据,
得到
因此没有97.5%的把握认为“成绩与班级有关系”.
故③,④错误,
故答案为:①.
三、解答题
11.某单位对其30名员工的饮食习惯进行了一次调查,并用如图所示的茎叶图表示他们的饮食指数(说明:图中饮食指数低于70的人,喜食蔬菜;饮食指数高于70的人,喜食肉类).
喜食蔬菜
喜食肉类
总计
35岁以上
35岁以下
总计
(1)根据所给数据完成下面的2×2列联表;
(2)能否有99%的把握认为该单位员工的饮食习惯与年龄有关?
独立性检验的临界值表:
0.10
0.05
0.01
2.706
3.841
6.635
参考公式:,
【详解】(1)解:根据茎叶图中的数据,填写列联表如下所示:
喜食蔬菜
喜食肉类
总计
35岁以上
16
2
18
35岁以下
4
8
12
总计
20
10
30
(2)解:由(1)中列联表中的数据,
可得,
故有的把握认为该单位员工的饮食习惯与年龄有关
12.长跑可提高呼吸系统和心血管系统机能,较长时间有节奏的深长呼吸,能使人体呼吸大量的氧气,吸收氧气量若超过平时的倍,就可以抑制人体癌细胞的生长和繁殖.其次长跑锻炼还改善了心肌供氧状态,加快了心肌代谢,同时还使心肌肌纤维变粗,心收缩力增强,从而提高了心脏工作能力.某学校对男、女学生是否喜欢长跑进行了调查,调查男、女生人数均为200,统计得到以下列联表:
喜欢
不喜欢
合计
男生
120
80
200
女生
100
100
200
合计
220
180
400
(1)是否有的把握认为学生对长跑的喜欢情况与性别有关联?
(2)为弄清学生不喜欢长跑的原因,从调查的不喜欢长跑的学生中按性别采用分层抽样的方法随机抽取9人,再从这9人中抽取3人进行面对面交流,记随机变量表示抽到的3人中女生的人数,求的分布列;
(3)将频率视为概率,用样本估计总体,从该校全体学生中随机抽取12人,记其中喜欢长跑的人数为,求的数学期望.
附:,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【详解】(1)零假设学生对长跑的喜欢情况与性别无关联,
根据题意,由列联表中的数据,
可得,
所以在的独立性检验中,可以推断不成立,
即有的把握认为学生对长跑的喜欢情况与性别有关联;
(2)从调查的不喜欢长跑的学生中按性别采用分层抽样的方法随机抽取9人,
其中男生的人数为人,女生的人数为人,
从9人中随机抽取3人,即随机变量的可能取值为,
可得,
,
则随机变量的分布列为:
0
1
2
3
(3)由题意知,任抽1人喜欢长跑的概率为,
所以随机变量服从二项分布,即,
所以.
考点三、统计案例综合
一、单选题
1.下列说法正确的是( )
A.某班共有学生50人,现按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,则该班女生共有20人
B.数据,,,,,,,的第80百分位数为8
C.线性回归分析中,样本相关系数的绝对值越大,成对样本数据的线性相关性越强
D.线性回归模型分析中,模型的决定系数越小,模型的拟合效果越好
【答案】C
【分析】结合分层抽样的定义,百分位数的定义,相关系数、决定系数的定义,即可求解.
【详解】对于A,按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,
则样本中女生有3人,该班女生共有人,A错误;
对于B,数据2,3,3,5,7,8,10,12,共8个,,则该组数据的第80百分位数为10,B错误;
对于C,线性回归分析中,样本相关系数r的绝对值越大,成对样本数据的线性相关性越强,C正确;
对于D,线性回归模型分析中,模型的决定系数越小,模型的拟合效果越差,D错误.
故选:C
2.若需要刻画因变量y和自变量x的相关关系,且从已知数据中知道y随着x的增大而减小,并且随着x的增大,y大致趋于一个确定的值,为拟合y和x之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B.
C. D.
【答案】D
【分析】结合题意要求,根据函数的单调性与图象趋势即可判断.
【详解】AC项,由题意,y随着x的增大而减小,即回归方程对应一个减函数,
因为,函数与都是增函数,故AC错误;
B项,函数,当,
不满足题意要求随着x的增大,y大致趋于一个确定的值,故B错误;
D项,由,函数是减函数,且当,满足题意.
故选:D.
3.已知下列命题:
①两个变量相关性越强,则相关系数就越接近于1.
②用最小二乘法求得的一元线性回归模型的残差和一定是0.
③用最小二乘法求得的回归直线恒过样本点的中心,且至少过一个样本点.
④从统计量中得知有的把握认为吸烟与患肺病有关系,是指推断有的可能性出现错误.
其中正确命题的个数是( )
A.1 B.2 C.3 D.4
【答案】A
【分析】根据相关系数的概念判断①,根据最小二乘法判断②③,根据独立性检验的思想判断④.
【详解】对于①:两个变量相关性越强,则相关系数的绝对值即就越接近于1,故①错误;
对于②:用最小二乘法求得的一元线性回归模型的残差和不一定是,故②错误;
对于③:用最小二乘法求得的回归直线恒过样本中心点,
但是可以不过任何一个样本点,故③错误;
对于④:从统计量中得知有的把握认为吸烟与患肺病有关系,是指推断有的可能性出现错误,故④正确.
故选:A
4.下列命题中正确的是( )
A.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别是4和0.3
B.对两个变量,进行线性相关检验,得线性相关系数,对两个变量,进行线性相关检验,得线性相关系数,则变量与正相关,变量与负相关,变量与的线性相关性较强
C.根据变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05
D.某校高三(1)班和(2)班各有40名同学,其中参加数学兴趣社团的学生分别有10人和8人,现从这两个班中随机抽取一名同学,若抽到的是参加数学兴趣社团的学生,则他来自高三(1)班的概率是
【答案】C
【分析】求出参数值判断A;利用相关系数与相关性强弱的关系判断B;利用独立性检验判断C;求出概率判断D.
【详解】对于A,由,得,即,则,A错误;
对于B,线性相关系数,越大,线性相关性越强,而,
因此变量与正相关,变量与负相关,变量与的线性相关性较强,B错误;
对于C,由独立性检验知,C正确;
对于D,抽到的是参加数学兴趣社团的学生的结果有18个不同结果,
他来自高三(1)班的的结果有10个,因此他来自高三(1)班的概率是,D错误.
故选:C
5.杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
周期数
1
2
3
4
5
频数
2
17
36
93
142
由表格可得关于的二次回归方程为,则此回归模型第3周期的残差(实际值与预报值之差)为( )
A.-12 B.-10 C.-8 D.-6
【答案】B
【分析】转化为线性回归方程求,可得二次回归方程,取时求得,再由残差的概念求解.
【详解】令,则回归方程为,符合线性回归,
周期数的平均数,
频数的平均数,
则中心点为,代入,
可得,则,
所以,
当时的预估值为,
则第3周期的残差为,
故选:.
6.某观影平台对新近上映的某部影片的观众评价情况进行调查,得到如下数据(单位:人):
作出评价
不作评价
男
30
15
女
45
10
附:,
0.10
0.05
0.01
k
2.706
3.841
6.635
则下列说法正确的是( )
A.在犯错误的概率不超过0.05的前提下,可以认为是否作出观影评价与性别有关
B.在犯错误的概率不超过0.01的前提下,可以认为是否作出观影评价与性别有关
C.没有95%的把握认为是否作出观影评价与性别有关
D.有99%的把握认为是否作出观影评价与性别有关
【答案】C
【分析】计算出卡方,结合题意表格中的数据即可判断.
【详解】由题意知,,
所以没有的把握认为是否作出观影评价与性别有关.
故选:C
7.某地根据以往数据,得到当地16岁男性的身高与其父亲身高的经验回归方程为,当地人小王16岁时身高,他父亲身高,则小王身高的残差为( )
A. B. C. D.
【答案】B
【分析】首先根据回归方程求小王身高的预测值,再计算残差.
【详解】当时,得,则,
所以小王身高的残差为.
故选:B
8.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
二、填空题
9.某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 .
广告支出费用/万元
1
3
4
6
11
销售量万件
1.9
3.2
4.4
6.3
12.7
【答案】2.02
【分析】先求出样本点的中心点,然后代入回归方程求出,从而求出当时,解得,从而可求解.
【详解】由题意,,
而样本点的中心点在经验回归直线上,
代入得,解得.
所以,当时,解得,
所以残差为.
故答案为:.
10.为了了解运动和寿命是否相关,先作了一次抽样调查,被调查的经常锻炼与不经常锻炼的人均为12t,统计得到以下列联表,经计算,有超过95%的把握但不超过99%的把握认为经常锻炼和长寿相关,则调查人数中经常锻炼的人至少有 人.
锻炼
寿命
合计
长寿
不长寿
经常
不经常
合计
【答案】36
【分析】运用独立性检验的计算公式,反求即可.
【详解】根据列联表中的数据,经计算得到,
由题意知,即得.
又,则或4,则调查人数中经常锻炼的人至少有人.
故答案为:36.
三、解答题
11.2024年2月10日至17日(正月初一至初八),“2024・内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号x
1
2
3
4
5
观众人数y
0.7
0.8
1
1.2
1.3
(1)已知可用线性回归模型拟合y与x的关系,请建立y关于x的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将列联表补充完整,依据的独立性检验,能否认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票
购买非A等票
总计
男性观众
50
女性观众
60
总计
100
200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,,,其中.
0.100
0.050
0.010
2.706
3.841
6.635
【详解】(1)由表格可知,
可得,,
则,
所以;
(2)根据数据补全表格如下:
购买A等票
购买非A等票
总计
男性观众
40
50
90
女性观众
60
50
110
总计
100
100
200
所以,
故没有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
12.由于航天行业拥有广阔的发展前景,有越来越多的公司开始从事航天研究,某航天公司研发了一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离x(km)
56
63
71
79
90
102
110
117
损坏零件数y(个)
61
73
90
105
119
136
149
163
参考数据:.
(1)建立y关于x的回归模型,根据所给数据及回归模型,求y关于x的回归方程(精确到0.1,精确到1);
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取100台进行等距离飞行测试,对其中60台进行飞行前保养,测试结束后,有20台报废,其中保养过的推进器占比30%,请根据统计数据完成2×2列联表,并根据小概率值的独立性检验,能否认为推进器是否报废与保养有关?
保养
未保养
合计
报废
20
未报废
合计
60
100
附:回归方程中斜率和截距的最小二乘估计公式分别为,;
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【详解】(1)由题意得,
则,
所以.
(2)设零假设为:是否报废与是否保养无关,
由题意,报废推进器中保养过的共台,
未保养的推进器共台,补充列联表如下:
保养
未保养
合计
报废
6
14
20
未报废
54
26
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关,此推断的错误概率不大于0.01.
原创精品资源学科网独家享有版权,侵权必究!8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
第七章 统计案例单元测试(A考点梳理卷)
姓名______ 班级______ 考号______
考点一、回归分析
一、单选题
1.在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图越宽 B.残差平方和越小
C.决定系数越小 D.相关系数越大
2.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
3.下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
4.一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
5.已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
6.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则( )
A. B. C.1 D.3
7.已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
8.2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
二、填空题
9.下面命题中说法正确的是 .
①设两个变量之间的线性相关系数为,则越大,的相关性越强;
②等高堆积条形图可以直观的反映一对分类变量之间是否具有关联性;
③如果散点图的散点都落在一条直线上,则;
④正方形的面积与周长是相关关系.
10.用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
三、解答题
11.铁观音性寒、味甘、酸、归肺、脾经,具有清热降火、健脾消脂、提神醒脑、生津利尿的功效,是中国十大名茶之一.为促使各生产厂家健康科学发展,某调研机构随机抽取家铁观音生产厂家,整理得到生产铁观音的单位成本(元/盒)与铁观音的产量(千盒)之间的关系数据如下:
铁观音的产量千盒
生产铁观音的单位成本(元/盒)
(1)根据所给数据,求生产铁观音的单位成本关于铁观音产量的一元线性回归方程,并估计单位成本为元/盒时产量为多少(计算过程保留两位小数);
(2)根据(1)中的回归模型,计算各组残差,并计算残差的平方和.
12.某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
考点二、独立性检验
一、单选题
1.根据分类变量与的成对样本数据,计算得到.已知,依据小概率值的独立性检验,则( )
A.与不独立
B.与不独立,这个结论犯错误的概率不超过0.05
C.与独立
D.与独立,这个结论犯错误的概率不超过0.05
2.有甲、乙两种过滤水中重金属的设备,为了检验使用这两种设备与过滤后水中重金属含量的关系,各过滤了15瓶受重金属污染的相同水体,调查得出以下数据:
重金属含量高
重金属含量低
设备甲
6
9
设备乙
1
14
根据以上数据,则( )
A. B. C. D.
3.以下说法正确的是( )
A.等高堆积条形图可以直观反映两个分类变量之间是否具有关联性
B.用独立性检验推断的结论可靠,不会犯错误
C.残差平方和越大,则相应模型的拟合效果越好
D.决定系数越小,则相应模型的拟合效果越好
4.为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
5.下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
6.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
7.学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
8.某校团委对“学生性别和喜欢某视频是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢该视频的人数占男生人数的,女生喜欢该视频的人数占女生人数的,若依据小概率值的独立性检验,认为喜欢该视频和性别有关,则男生至少有( )
附:
0.050
0.010
3.841
6.635
.
A.12人 B.6人 C.10人 D.18人
二、填空题
9.在饮酒与患肝脏病是否有关的研究中,关于饮酒与患肝脏病这两个分类变量的计算中,下列说法正确的序号是 .
①若的临界值是2.706,我们有的把握认为饮酒与患肝脏病有关系,那么在1000个饮酒的人中,必有900人患肝脏病;
②从独立性的检验可知有的把握认为饮酒与患肝脏病有关系时,则若某人饮酒,那么他有的可能患有肝脏病;
③若从统计量中求出有的把握认为饮酒与患肝脏病有关系,是指有的可能性使得推断错误.
10.有甲、乙两个班级共计100人进行物理考试,按照大于等于80分为优秀,80分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
乙班
30
已知在全部100人中随机抽取1人,成绩非优秀的概率为,则下列说法正确的是 .
①列联表中的值为的值为40;
②列联表中的值为的值为50;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
附:,其中.
0.15
0.1
0.05
0.025
0.01
0.001
2.072
2.706
3.841
5.024
6.635
10.828
三、解答题
11.某单位对其30名员工的饮食习惯进行了一次调查,并用如图所示的茎叶图表示他们的饮食指数(说明:图中饮食指数低于70的人,喜食蔬菜;饮食指数高于70的人,喜食肉类).
喜食蔬菜
喜食肉类
总计
35岁以上
35岁以下
总计
(1)根据所给数据完成下面的2×2列联表;
(2)能否有99%的把握认为该单位员工的饮食习惯与年龄有关?
独立性检验的临界值表:
0.10
0.05
0.01
2.706
3.841
6.635
参考公式:,
12.长跑可提高呼吸系统和心血管系统机能,较长时间有节奏的深长呼吸,能使人体呼吸大量的氧气,吸收氧气量若超过平时的倍,就可以抑制人体癌细胞的生长和繁殖.其次长跑锻炼还改善了心肌供氧状态,加快了心肌代谢,同时还使心肌肌纤维变粗,心收缩力增强,从而提高了心脏工作能力.某学校对男、女学生是否喜欢长跑进行了调查,调查男、女生人数均为200,统计得到以下列联表:
喜欢
不喜欢
合计
男生
120
80
200
女生
100
100
200
合计
220
180
400
(1)是否有的把握认为学生对长跑的喜欢情况与性别有关联?
(2)为弄清学生不喜欢长跑的原因,从调查的不喜欢长跑的学生中按性别采用分层抽样的方法随机抽取9人,再从这9人中抽取3人进行面对面交流,记随机变量表示抽到的3人中女生的人数,求的分布列;
(3)将频率视为概率,用样本估计总体,从该校全体学生中随机抽取12人,记其中喜欢长跑的人数为,求的数学期望.
附:,其中.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
考点三、统计案例综合
一、单选题
1.下列说法正确的是( )
A.某班共有学生50人,现按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,则该班女生共有20人
B.数据,,,,,,,的第80百分位数为8
C.线性回归分析中,样本相关系数的绝对值越大,成对样本数据的线性相关性越强
D.线性回归模型分析中,模型的决定系数越小,模型的拟合效果越好
2.若需要刻画因变量y和自变量x的相关关系,且从已知数据中知道y随着x的增大而减小,并且随着x的增大,y大致趋于一个确定的值,为拟合y和x之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B.
C. D.
3.已知下列命题:
①两个变量相关性越强,则相关系数就越接近于1.
②用最小二乘法求得的一元线性回归模型的残差和一定是0.
③用最小二乘法求得的回归直线恒过样本点的中心,且至少过一个样本点.
④从统计量中得知有的把握认为吸烟与患肺病有关系,是指推断有的可能性出现错误.
其中正确命题的个数是( )
A.1 B.2 C.3 D.4
4.下列命题中正确的是( )
A.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别是4和0.3
B.对两个变量,进行线性相关检验,得线性相关系数,对两个变量,进行线性相关检验,得线性相关系数,则变量与正相关,变量与负相关,变量与的线性相关性较强
C.根据变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05
D.某校高三(1)班和(2)班各有40名同学,其中参加数学兴趣社团的学生分别有10人和8人,现从这两个班中随机抽取一名同学,若抽到的是参加数学兴趣社团的学生,则他来自高三(1)班的概率是
5.杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
周期数
1
2
3
4
5
频数
2
17
36
93
142
由表格可得关于的二次回归方程为,则此回归模型第3周期的残差(实际值与预报值之差)为( )
A.-12 B.-10 C.-8 D.-6
6.某观影平台对新近上映的某部影片的观众评价情况进行调查,得到如下数据(单位:人):
作出评价
不作评价
男
30
15
女
45
10
附:,
0.10
0.05
0.01
k
2.706
3.841
6.635
则下列说法正确的是( )
A.在犯错误的概率不超过0.05的前提下,可以认为是否作出观影评价与性别有关
B.在犯错误的概率不超过0.01的前提下,可以认为是否作出观影评价与性别有关
C.没有95%的把握认为是否作出观影评价与性别有关
D.有99%的把握认为是否作出观影评价与性别有关
7.某地根据以往数据,得到当地16岁男性的身高与其父亲身高的经验回归方程为,当地人小王16岁时身高,他父亲身高,则小王身高的残差为( )
A. B. C. D.
8.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
二、填空题
9.某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表,已知,则时,残差为 .
广告支出费用/万元
1
3
4
6
11
销售量万件
1.9
3.2
4.4
6.3
12.7
10.为了了解运动和寿命是否相关,先作了一次抽样调查,被调查的经常锻炼与不经常锻炼的人均为12t,统计得到以下列联表,经计算,有超过95%的把握但不超过99%的把握认为经常锻炼和长寿相关,则调查人数中经常锻炼的人至少有 人.
锻炼
寿命
合计
长寿
不长寿
经常
不经常
合计
三、解答题
11.2024年2月10日至17日(正月初一至初八),“2024・内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号x
1
2
3
4
5
观众人数y
0.7
0.8
1
1.2
1.3
(1)已知可用线性回归模型拟合y与x的关系,请建立y关于x的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将列联表补充完整,依据的独立性检验,能否认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票
购买非A等票
总计
男性观众
50
女性观众
60
总计
100
200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,,,其中.
0.100
0.050
0.010
2.706
3.841
6.635
12.由于航天行业拥有广阔的发展前景,有越来越多的公司开始从事航天研究,某航天公司研发了一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离x(km)
56
63
71
79
90
102
110
117
损坏零件数y(个)
61
73
90
105
119
136
149
163
参考数据:.
(1)建立y关于x的回归模型,根据所给数据及回归模型,求y关于x的回归方程(精确到0.1,精确到1);
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取100台进行等距离飞行测试,对其中60台进行飞行前保养,测试结束后,有20台报废,其中保养过的推进器占比30%,请根据统计数据完成2×2列联表,并根据小概率值的独立性检验,能否认为推进器是否报废与保养有关?
保养
未保养
合计
报废
20
未报废
合计
60
100
附:回归方程中斜率和截距的最小二乘估计公式分别为,;
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
原创精品资源学科网独家享有版权,侵权必究!8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$