内容正文:
专题01 成对数据的相关分析与一元线性回归分析七大题型
题型一:相关关系的辨析及判断
题型二:相关系数的理解及计算
题型三:样本中心点的应用
题型四:离差分析与应用
题型五:线性回归分析
题型六:非线性回归分析
题型七:回归方程与概率的结合
题型一:相关关系的辨析及判断
1.物理实验中,测得变量x和变量y的几组数据,如下表:
x
0.50
0.99
2.01
3.98
y
-0.99
0.01
0.98
2.00
则下列选项中对x,y最适合的拟合函数是( )
A. B. C. D.
【答案】D
【分析】由拟合函数的定义,分别代入数据检验,可得答案.
【详解】根据,,代入计算,可以排除选项A.
根据,,代入计算,可以排除选项B,C.
将各数据代入检验,函数最接近,可知选项D满足题意.
故选:D.
2.对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.0.87
【答案】D
【分析】根据相关系数与变量间相关性的关系,即可得答案.
【详解】由相关系数的绝对值越大,变量间的线性相关性越强知:各选项中的绝对值最大.
故选:D
3.某公司2018-2023年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示.
年份
2018
2019
2020
2021
2022
2023
x/百万元
12.2
14.6
16.0
18.0
20.4
22.3
y/百万元
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,年利润中位数( )
A.是16,x与y有正线性相关关系
B.是17,x与y有正线性相关关系
C.是17,x与y有负线性相关关系
D.是18,x与y有负线性相关关系
【答案】B
【分析】根据数据分析可直接得出结论.
【详解】由题意,利润中位数是,
而且随着利润x的增加,广告支出y也在增加,故x与y有正线性相关关系.
故选:B.
4.对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【答案】B
【分析】根据散点图点的变化关系确定正负相关性即可.
【详解】由变量,的散点图,知随增大,也增大,变量与正相关,
由变量,的散点图,知随增大,减小,与负相关.
故选:B
5.观察下列散点图,有三种情况:①正相关,②负相关,③不相关.与散点图的位置相对应的序号依次是 .
【答案】①③②
【分析】由图象分析即可得到答案.
【详解】第一个图大体趋势从左向右上升,故是正相关,
第二个图不相关,
第三个图大体趋势从左向右下降,故是负相关.
故答案为:①③②.
6.判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画.
回归模型: ;函数模型: .
①某公司的销售收入和广告支出;
②某城市写字楼的出租率和每平米月租金;
③航空公司的顾客投诉次数和航班正点率;
④某地区的人均消费水平和人均国内生产总值(GDP);
⑤学生期末考试成绩和考前用于复习的时间;
⑥一辆汽车在某段路程中的行驶速度和行驶时间;
⑦正方形的面积与周长.
【答案】 ①②③④⑤ ⑥⑦
【分析】利用回归模型与函数模型的定义依次分析即可.
【详解】对于①,销售收入虽然跟广告支出有关,但并不是广告打得多就对销售得多,还得看产品质量等其他因素,故其为回归模型;
对于②,某城市写字楼的出租率和每平米月租金有关,但写字楼的出租率还跟租户的收入、写字楼的地理位置等因素有关,故其为回归模型;
对于③,航空公司的顾客投诉次数和航班正点率有关,但航班正点率还跟天气等因素有关,故其为回归模型;
对于④,某地区的人均消费水平和人均国内生产总值(GDP)有关,但同样的GDP,一线城市与十八线城市的人均消费显然是不一样的,故其为回归模型;
对于⑤,学生期末考试成绩和考前用于复习的时间有关,但显然跟学生原本的知识基础、智商水平等因素有关,故其为回归模型;
对于⑥,一辆汽车在某段路程中的行驶速度和行驶时间,由可知其为函数模型;
对于⑦,正方形的面积为,周长为,故,故其为函数模型.
故答案为:①②③④⑤;⑥⑦
7.有下列关系;
①炼钢时钢水的含碳量与冶炼时间的关系;
②曲线上的点与该点的坐标之间的关系;
③柑橘的产量与气温之间的关系;
④森林的同一种树木,其横断面积直径与高度之间的关系.
其中具有相关关系的是 .(填序号)
【答案】①③④
【分析】根据相关关系的定义,逐一分析每个关系是否为不确定的依存关系,从而确定具有相关关系的序号.
【详解】相关关系是变量间不确定的依存关系,非函数关系.
①炼钢时钢水含碳量与冶炼时间,存在不确定依存,是相关关系;
②曲线上点与坐标是一一对应函数关系,不是相关关系;
③柑橘产量与气温,存在不确定依存,是相关关系;
④树木横断面直径与高度,存在不确定依存,是相关关系.
故答案为:①③④
8.如图所示的两个变量不具有相关关系的有 .(填序号)
【答案】①④
【分析】根据相关关系逐项分析判断.
【详解】对于①:图中是确定的函数关系;
对于②:图中的点大都分布在一条曲线周围,是相关关系;
对于③:中的点大都分布在一条直线周围,是相关关系;
对于④:中点的分布没有任何规律可言,x,y不具有相关关系.
故答案为:①④.
题型二:相关系数的理解及计算
9.对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】B
【分析】根据散点图和相关性的关系,判断结果.
【详解】由散点图知,相关系数对应的散点图呈负相关,
且线性相关性比较强.
故选:B.
10.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【分析】先计算线性相关系数 ,再通过 ()的绝对值判断相关强度( 越接近1,线性相关程度越强).
【详解】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
11.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为( )
附:样本相关系数
A. B. C. D.1
【答案】B
【分析】设,,,,,,与的夹角为,与的夹角为,再由相关系数可知,则与夹角的余弦值的最大值为,利用余弦差角公式求值即可.
【详解】设,,,
,,,
由样本相关系数公式可知,,
设与的夹角为,与的夹角为,则有,
易知均为锐角且,
与夹角的余弦值的最大值为,此时与样本相关系数最大,
,
故的样本相关系数的最大值为.
故选:B.
12.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
13.某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
附:.
【答案】
【分析】根据题意,结合表格中的数据,利用相关系数的计算公式,准确计算,即可求解.
【详解】由表格中的数据,可得,,
则,
,,
故.
故答案为:.
14.若已知是的4倍,是的1.5倍,则样本相关系数r的值为 .
【答案】/0.75
【分析】利用相关系数的公式计算即可.
【详解】解:.
故答案为:.
15.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
参考数据:.
参考公式:相关系数.
【答案】(1),
(2)
【分析】(1)利用平均数计算公式得到和;
(2)先计算出,利用公式计算出相关系数.
【详解】(1)由题可知,
;
(2)计算得,
故;
16.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
材积量
0.25
0.40
0.22
0.54
0.51
0.34
样本号i
7
8
9
10
总和
根部横截面积
0.05
0.07
0.07
0.06
0.6
材积量
0.36
0.46
0.42
0.40
3.9
并计算得,,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数,.
【答案】(1)
(2)0.97
(3)
【分析】(1)根据平均数的计算个数即可求解,
(2)根据相关系数的计算公式即可求解,
(3)根据比例即可求解.
【详解】(1)估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为.
(2)样本相关系数
.
(3)设这种树木的根部横截总面积为X ,总材积量为Y ,则,则,
所以该林区这种树木的总材积量的估计值为.
17.下图是我国2014-2020年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合与的关系,请求出相关系数,并用相关系数的大小说明与相关性的强弱.
参考数据:,,.
【答案】0.99,与的线性相关程度比较高
【分析】计算出的值,将参考数据代入相关系数公式,求出的值,即可得出结论.
【详解】由折线图中数据和参考数据得,
,
,,
所以,
所以与的线性相关程度比较高.
题型三:样本中心点的应用
18.对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为离差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:建立与的线性回归方程为,则为( )
月份
1
2
3
4
5
销量
0.5
1
1.4
A.0.79 B.2 C.2.1 D.1.21
【答案】C
【分析】求出,将点代入回归方程中即可.
【详解】由题意可得,
将点代入中得,,
故,
故选:C
19.已知变量与之间的一组数据如下表:
1
2
3
4
5
0.8
2.9
4.8
7.2
9.1
若关于的线性回归方程为,则( )
A.1.31 B. C.1.56 D.
【答案】B
【分析】求出,,由点在线性回归方程上进行求解.
【详解】,
,
而点在线性回归方程上,
得,
解得,
故选:B
20.某产品的研发费用x万元与销售利润y万元的统计数据如表所示,
研发费用x (万元)
4
2
3
5
利润y (万元)
49
26
39
m
根据上表可得回归方程.中的 .据此模型预计研发费用为6万元时,利润为65.5, 则( )
A. B.
C. D.
【答案】C
【分析】将代入可求,再根据回归方程经过样本中心点,可求.
【详解】由题意:.
所以.
又由已知数据,,.
又经过,所以.
所以,.
故选:C
21.某小吃店的日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:由表中数据可得回归方程中.试预测当天平均气温为时,小吃店的日盈利约为 百元.
0
1
2
百元
5
4
2
2
1
【答案】6
【分析】根据已知数据求出样本中心点,代入得到值,再令即可得解.
【详解】由已知数据可知变量的平均值,
变量的平均值,
所以样本数据的中心点为,
因为,所以,代入,得,
所以,
令,得.
故答案为:6.
22.手机支付的兴起使得现金支付越来越稀缺.某便利店统计了该店历年现金收入的数额如下表:
年份
2015
2016
2017
2018
2019
2020
序号
1
2
3
4
5
6
现金收入(万元)
40
36
29
23
14
8
若认为该便利店的历年现金收入与序号满足回归方程为,请你估计该店2021年的年现金收入为 万元.
【答案】
【分析】本题考查线性回归方程的有关计算.
【详解】由表可知,,,
代入公式中,得到,解得.
所以,当2021年即时代入可得:.
所以估计该店2021年的年现金收入为万元.
故答案为:1.8
23.某企业近几年加大了对科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下表所示,由下表中的数据求得经验回归方程为,其中m为下表中科技投入x的4个数据的方差的8倍,据此经验回归方程预测,当时,的值为 (百万元).
科技投入x(百万元)
1
2
3
4
收益y(百万元)
m
m+3
15
18
【答案】
【分析】先求出,再结合方差公式可得,即可得,再借助经验回归方程过点即可得,再将代入经验回归方程即可得解.
【详解】,则,
则,
则有,即,即,
故当时,.
故答案为:.
题型四:离差分析与应用
24.研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差Q变大
【答案】C
【分析】由已知可得,,求出相关系数,即可判断A,B选项,再利用回归直线方程过样本中心点可判断C选项,D利用离差平方和进行判断即可.
【详解】设变量x,y的平均数分别为,,
则,,即,,
可知新数据的样本中心点不变,仍为,
则,
,
,
则相关系数.
可知相关系数的值不变,变量与变量的相关性不变,故A,B错误;
对于C,因为,所以不变,
且线性回归方程过样本中心点,即,均不变,所以线性回归方程不变,故C正确;
因为即为样本中心点,即,
可知离差平方和不变,所以拟合误差Q不变,故D错误.
故选:C.
25.某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
【答案】D
【分析】观察图象,较其他的点偏离回归直线最大,去掉后,回归效果更好,结合相关系数、正负相关性、离差平方和以及相关性逐项分析判断.
【详解】观察图象知:较其他的点偏离回归直线最大,因此去掉后,回归效果更好,
对于A,相关系数越接近于1,线性相关性越强,
因此去掉后,相关系数的绝对值变大,A错误;
对于B,由表格数据可知越大,越大,所以相关变量具有正相关关系,B错误;
对于C,因为离差平方和越大,拟合效果越差,因此去掉后,离差平方和变小,拟合误差变小,C错误;
对于D,由选项A知,去掉后,相关系数的绝对值变大,
因此解释变量与响应变量的相关性变强,D正确.
故选:D
26.成对数据的回归方程为,则它们在处的离差是( )
A. B.
C. D.
【答案】A
【分析】根据离差的概念,离差指的是观测值与预测值之间的差值,所以求出预测值,作差即可求出的离差.
【详解】因为回归方程为,
所以它们在处的预测值为,而观测值为,
所以根据离差的基本内涵可知,它们在处的离差为.
故选:A.
27.有一散点图如图所示,在5个数据中去掉后,下列说法中正确的是( )
A.离差和变小 B.相关系数变小
C.拟合误差变小 D.解释变量与反应变量的相关性变弱
【答案】C
【分析】根据离差和、相关系数、拟合误差、解释变量与反应变量的相关性逐项判断可得答案.
【详解】对于A,离差和是每个数据点与均值差值的累计和,恒为0,故A错误;
对于B,因为点离其它点较远,去掉后,相关性变强,而且是正相关,所以相关系数变大,故B错误;
对于C,点离其它点较远,是一个异常值,拟合误差减小,故C正确
对于D,解释变量与反应变量的相关性变强,故D错误.
故选:C.
28.由表格数据得到的线性回归方程为,则此回归方程在样本点处的离差是
x
3
4
5
6
y
2.5
4
4.5
【答案】/
【分析】先计算出样本的中心点坐标,将其代入中可求得m的值,再结合离差的定义求解即可.
【详解】因为,,且线性回归方程恒过,
所以,解得,
将代入回归方程得,
所以此回归方程在样本点处的离差是.
故答案为:
29.对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的离差为 .
【答案】0.5/
【分析】利用样本中心在回归直线上及离差的定义即可求解.
【详解】将代入,得,解得,
所以,
故当时,,
所以离差.
故答案为:0.5.
30.某工厂为研究某种产品产量(吨)与所需某种原材料(吨)得相关性.在生产过程中收集4组对应数据如表所示,已知关于的经验回归方程为,则表中的值为 ,在样本点处的离差为 .
3
4
5
6
2.5
3
4
【答案】 4.5
【分析】根据回归直线过样本中心点得出,再根据定义计算离差即可.
【详解】,,
当时,,则离差为.
故答案为:;.
31.由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的离差值为 .
【答案】
【分析】首先求剩余数据的中心点,再代入回归直线方程求,再代入求,即可求离差值.
【详解】由于回归直线过样本中心点,当时,,
去除偏离点后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,所以,新的回归直线方程为,当时,,
所以,去除偏离点后,相应于样本点的离差值为.
故答案为:.
32.两个线性相关变量与的统计数据如表:
9
9.5
10
10.5
11
11
10
8
6
5
其回归直线方程是,则相对应于点的离差为 .
【答案】0.2/
【分析】根据线性回归方程一定经过样本点中心,进而求解参数,再根据离差的计算公式即可得出答案.
【详解】,
所以样本点中心为,代入回归方程得:,解得,
所以回归方程为,当时,,
所以离差为:.
故答案为:.
题型五:线性回归分析
33.某学校数学学习兴趣小组利用信息技术手段探究两个数值变量之间的线性关系,随机抽取8个样本点,由于操作过程的疏忽,在用最小二乘法求经验回归方程时只输入了前6组数据,得到的线性回归方程为,其样本中心为.后来检查发现后,输入8组数据得到的新的线性回归方程为,新的样本中心为,已知,则以下结论中正确的个数是( )
①新的样本中心仍为;
②新的样本中心为;
③两个数值变量具有正相关关系;
④.
A.0 B.1 C.2 D.3
【答案】C
【分析】由平均数的求法,根据样本中心的定义,利用回归直线方程的斜率,结合样本估计总体及最小乘法原理,逐项检验,可得答案.
【详解】对于①②,由题意可得,,则新的样本中为,故①错误,②正确;
对于③,将代入回归直线,可得,解得,故③正确;
对于④,根据样本估计总体及最小乘法原理,利用组数据所得经验回归程是与样本点“距离”平方和最小的直线方程,故④错误.
故选:C.
34.根据如下样本数据得到的回归直线方程为,则下列结论不正确的是( )
2
3
4
5
6
4.0
2.5
-0.5
0.5
-2
A. B.
C. D.预计时,
【答案】D
【分析】根据表格中的数据,求得样本中点的坐标,结合由随着的增大而趋于减小,逐项判定,即可求解.
【详解】由表格中的数据,可得,,
所以样本点的中心的坐标为,
对于B中,由随着的增大而趋于减小,可得的斜率,所以B正确;
对于A中,当时,可得,所以A正确;
对于C中,将样本中心代入回归方程,可得,所以C正确;
对于D中,由由随着的增大而趋于减小,预计时,,所以D错误.
故选:D.
35.为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班级随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,,该班某生的脚长为25,据此估计其身高为 ;
【答案】厘米
【分析】根据样本中心点在回归直线上进行求解即可.
【详解】因为,,
所以,,,
代入中,得,
即,某生的脚长为25,
所以,
因此据此估计其身高为厘米.
故答案为:厘米
36.年月日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.年,全国芯片研发单位相比年增加家,提交芯片数量增加个,均增长超过倍.某芯片研发单位用在“芯片”上研发费用占本单位总研发费用的百分比()如表所示.
年份
年份代码
(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数,并推断与线性相关程度;(已知:,则认为与线性相关很强;,则认为与线性相关一般;,则认为与线性相关较弱)
.
(2)求出与的回归直线方程(保留一位小数);
(3)请判断,若年用在“芯片”上研发费用不低于万元,则该单位年芯片研发的总费用预算为万元是否符合研发要求?
附:相关数据:,,,.
相关计算公式:①相关系数;在回归直线方程中,,.
【答案】(1)图见解析,,线性相关很强
(2)
(3)符合研发要求
【分析】(1)根据表格数据可绘制折线图,结合公式可求得相关系数r,对比已知线性相关强度判断依据即可得到结论;
(2)采用最小二乘法即可求得回归直线;
(3)将代入回归直线可求得,进而计算得到预算为500万元时的研发费用的预估值,由此可得结论.
【详解】(1)折线图如下:
由题意得:,
,
,
,
,与线性相关很强.
(2)由题意得:,
,
关于的回归直线方程为.
(3)年对应的年份代码,则当时,,
预测年用在“芯片”上的研发费用约为(万元),
,符合研发要求.
题型六:非线性回归分析
37.已知变量的关系可以用模型拟合,设,其变换后得到一组数据如下:
16
17
18
19
50
34
41
31
由上表可得线性回归方程,则( )
A.-5 B. C.126.5 D.
【答案】D
【分析】根据表格数据求,,代入回归方程求参数,结合得,由方程的形式可知,即可求c.
【详解】由表格数据知:,,
由可得到;
由得,,
所以,即.
故选:D
38.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则 , .
【答案】
【分析】两边同时取对数,求得,结合,求得,得到的值,再由,求得,结合,即可求解.
【详解】由,两边同时取对数,可得,
因为变换后的线性回归方程为,可得,
即,所以,
又因为,且,
所以,
因为,可得,所以.
故答案为:;.
39.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,,②分别进行拟合,由此得到相应的回归方程并进行离差分析,进一步得到图2所示的离差图.
根据收集到的数据,计算得到如下值:
24
2.9
646
168
422688
50.4
70308
表中,,,;
(1)根据离差图,比较模型①、②的拟合效果,模型 比较合适?
(2)根据(1)中所选择的模型,求出y关于x的回归方程是 .附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】 ①
【分析】(1)根据离差点的分布情况分析即可;
(2)先取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适,理由如下:模型①离差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适;
(2)令,则,
由所给的参考数据可得,,
所以,
所以关于的线性回归方程为,即,
所以产卵数关于温度的回归方程为,
故答案为:①;.
40.2022年11月29日23时03分.我国酒泉卫星发射中心用长征二号F遥十五运载火箭,成功将神舟十五号载人飞船送入预定轨道,顺利将费俊龙、邓清明、张陆3名航天员送入太空,发射取得圆满成功.11月30日7时33分,神舟十五号3名航天员顺利进驻中国空间站,与神舟十四号航天员乘组首次实现“太空会师”.某公司负责生产的A型材料是神舟十五号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
15
22
27
40
18
54
60
建立了y与x的两个回归模型:模型①:,模型②:;
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
回归模型
模型①
模型②
79.31
20.2
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
【答案】(1)
(2)模型②拟合精度更高、更可靠,72.93亿元
【分析】(1)由已知数据计算相关指数即可;
(2)当越大时,回归方程的拟合效果越好.即可判断模型②更可靠,然后估计即可.
【详解】(1)对于模型①,
对应的,
故对应的,
故对应的相关指数,对于模型②,
同理对应的相关指数,.
(2)模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为(亿元).
41.随着科技的进步及人民生活水平的提高,人们对于智能化生活的需求逐渐增加.李明统计了他在2011年至2020年的年收入与他购买电子产品的花销的数据.
为了预测他在2021年年收入为20万元时,在电子产品上花销为多少,建立了关于的两个回归模型:
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由样本点的分布,可以认为样本点集中在曲线:的附近,对年收入做变换,令.则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测李明年收入为20万元时的电子产品花销为多少百元?(结果保留两位小数).
附:样本的最小二乘估计公式为,;
参考数据:,.
【答案】(1)
(2)模型①的电子产品花销的预测值为(万元),模型②的电子产品花销的预测值为(万元)
【分析】(1)结合已知数据和公式求出这两个系数即可得回归方程;
(2)把代入模型①、②的回归方程,算出即可.
【详解】(1)由题意,知,,可得,
又由,
则,
所以,模型②中关于的回归方程.
(2)当时,模型①的电子产品花销的预测值为(百元),
当时,模型②的电子产品花销的预测值为
(百元).
42.有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
运营里程y/万千米
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
【答案】(1)乙同学的更适合作为y关于x的回归方程类型,理由见解析
(2)
(3)17.25
【分析】(1)比较已知的相关系数的大小;
(2)由已知数据求出,结合回归方程变形为,求出d和,从而可求出回归方程;
(3)利用非线性回归方程进行估计.
【详解】(1)因为,所以乙同学的更适合作为y关于x的回归方程类型.
(2),
由得,即.
则,
,
所以.
(3)2030年对应的年份代码,代入(2)中的y关于x的回归方程,
得.故预测2030年中国高铁运营里程将达到17.25万千米.
43.近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【答案】(1)选.
(2);690
【分析】(1)观察散点图,结合散点图的特征选择合适的回归方程类型.
(2)由,得.再根据所给数据,结合线性回归方程的有关计算公式,可求回归方程,再令求值即可.
【详解】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,
所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.
(2)因为表示活动推出的天数,,则.
.
因为,所以.
所以,所以.
又,所以.
所以.
当时,.
所以预测活动推出第8天售楼部来访的人次为690.
44.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【分析】(1)计算相关系数,根据相关系数的绝对值大小得出结论;
(2)(i)两边取自然对数,转化为线性回归方程求解,再转化为指数式即可;
(ii)根据(i)的结论预测销售额y达到80亿元时研发投入即可得解.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
题型七:回归方程与概率的结合
45.2023年10月6日,哈三中举行百年校庆活动,在活动期间统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月2日
10月3日
10月4日
10月5日
10月6日
第天
1
2
3
4
5
参观人数
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数加以说明(保留小数点后两位);(若,则认为与的线性相关性很强),并求出关于的线性回归方程;
(2)校庆期间学校仅开放1号门和2号门,校友从中随机等可能选择一个进入,且出学校与进学校选择相同门的概率为.假设校友从1号门、2号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月6日回母校参加活动,设为4人中从2号门出学校的人数,求的分布列、期望及方差.
附:参考数据:.
参考公式:回归直线方程,其中.
相关系数.
【答案】(1),认为与的线性相关性很强;回归方程为;
(2)分布列见解析,期望值为2,方差为1.
【分析】(1)计算出相关系数,作出判断,并得到和,得到回归方程;
(2)设出事件,利用全概率公式得到“甲从2号门出学校”的概率,从而确定,利用二项分布的知识求出分布列,期望和方差.
【详解】(1)
,
所以认为与的线性相关性很强,
,,
故求出关于的线性回归方程为;
(2)记“甲从2号门出学校”为事件,“甲从2号门进学校”为事件,
“甲从1号门进学校”为事件,
由题意得,,
由全概率公式可得,
同理,乙、丙、丁从2号门出学校的概率也为,
故,
所以,,
,,
,
所以分布列如下;
0
1
2
3
4
期望值为,方差为.
46.为了解某一地区纯电动汽车销售情况,某机构根据统计数据,用最小二乘法得到电动汽车销量(单位:万台)关于(年份)的线性回归方程为,且销量的方差为,年份的方差为.
(1)求与的相关系数,并据此判断电动汽车销量与年份的相关性强弱;
(2)该机构还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:
购买非电动车
购买电动车
总计
男性
39
6
45
女性
30
15
45
总计
69
21
90
能否在犯错误的概率不超过0.025的前提下认为购买电动汽车与性别有关?
(3)在购买电动汽车的车主中按照性别进行分层抽样抽取7人,再从这7人中随机抽取3人,记这3人中,男性的人数为,求的分布列和期望.
①参考数据:;
②参考公式:(i)线性回归方程:,其中.
(ii)相关系数:,若,则可判断与线性相关较强.
(iii),其中.
附表:
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1),与线性相关较强
(2)可以在犯错误的概率不超过0.025的前提下认为购买电动汽车与车主性别有关
(3)分布列见解析,
【分析】(1)由相关系数计算公式即可求解判断;
(2)通过卡方值的计算即可判断;
(3)通过抽样比确男性车主选取2人,女性车主选取5人,再确定的取值求得概率即可求解.
【详解】(1)相关系数为
故与线性相关较强
(2)零假设为:购买电动汽车与车主性别无关;
可以在犯错误的概率不超过0.025的前提下认为购买电动汽车与车主性别有关
(3)抽样比,男性车主选取2人,女性车主选取5人,则的可能取值为0,1,2,
故,
故的分布列为.
0
1
2
47.某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.
参考公式:;参考数据:.
【答案】(1),管理时间与土地使用面积线性相关
(2)分布列见解析,
【分析】(1)根据表格中的数据,结合相关系数的计算公式,求得的值,即可得出结论;
(2)根据题意,得到变量的所有可能取值,利用重复试验的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)由题意得,,
所以,
可得,
则,
所以管理时间与土地使用面积线性相关.
(2)由题意,随机变量的所有可能取值为0,1,2,3,
从该县中随机抽取一位村民,取到不愿意参与管理的男性村民的概率为,
故,
故的分布列为
0
1
2
3
所以数学期望.
48.2025年4月,中国新能源汽车零售渗透率突破,进入“以电为主”的新阶段,充电桩的使用率也成为关注焦点.经调查,某市今年月份的充电桩日均使用时长(时)与新能源汽车保有量(万辆)及充电桩日均使用率(,为常数)的数据如下表所示:
月份
1
2
3
4
5
6
新能源汽车保有量(万辆)
8
13
15
18
23
25
充电桩日均使用时长(时)
5
7
10
12
15
17
充电桩日均使用率
0.15
0.21
0.3
0.36
0.45
0.51
(1)若用充电桩日均使用率近似估计一个充电桩一天内被使用的概率,设该市某个充电桩在3月份的某3天中被使用的天数为,求的分布列;
(2)求关于的样本相关系数,并说明线性相关程度的强弱;(精确到0.01)
(3)若关于的经验回归方程为,求的值(精确到0.1),并预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为多少.
参考数据:,.
参考公式:相关系数.
【答案】(1)分布列见解析
(2)0.99,与的线性相关程度较强.
(3),0.72.
【分析】(1)由题可知充电桩在3月份使用的概率为0.3,故,根据二项分布写出分布列即可;
(2)根据题意先求,利用相关系数公式,代入数据求值与1比较即可;
(3)由过回归方程可求,根据回归方程进行预测即可.
【详解】(1)由题可知的所有可能取值为,且,
则,
,
,
,
所以的分布列为
0
1
2
3
0.343
0.441
0.189
0.027
(2)由题可知,,
则,
因为接近于1,所以与的线性相关程度较强.
(3)由题可知,
解得,
所以关于的经验回归方程为.
将代入经验回归方程,得,
又因为,所以当时,,
故预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为0.72.
49.即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使机构的服务需求持续增长.数据显示,近年来中国市场规模迅速扩大.下表为2018年年中国市场规模(单位:百亿元),其中2018年年对应的代码依次为.
年份代码x
1
2
3
4
5
中国市场规模y
1.12
1.68
2.45
3.35
4.32
(1)由上表数据可知,可用指数函数模型拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国市场规模(单位:百亿元):
(2)从2018年年中国市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58
0.84
46.83
15.99
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:
【答案】(1)①;②12.61
(2)分布列见解析,
【分析】(1)两边同时取自然对数得,设,则,从而将非线性方程转化为线性方程,利用题中数据可求得,,可得y关于x的回归方程,进而可预测2025年中国市场规模;
(2)X的可能取值为1,2,3,计算出对应的概率,可得分布列,再利用期望公式计算期望即可.
【详解】(1)两边同时取自然对数得.
设,则,
因为,
所以.
把代入,得,
所以,则,
所以,即y关于x的回归方程为.
2025年的年份代码是8,
故预测2025年中国市场规模为(单位:百亿元)
(2)2018年年中国市场规模的5个数据中,与的差的绝对值小于1的数据有,共3个,
所以的可能取值为,
,
所以的分布列为
1
2
3
.
2 / 11
学科网(北京)股份有限公司
$
专题01 成对数据的相关分析与一元线性回归分析七大题型
题型一:相关关系的辨析及判断
题型二:相关系数的理解及计算
题型三:样本中心点的应用
题型四:离差分析与应用
题型五:线性回归分析
题型六:非线性回归分析
题型七:回归方程与概率的结合
题型一:相关关系的辨析及判断
1.物理实验中,测得变量x和变量y的几组数据,如下表:
x
0.50
0.99
2.01
3.98
y
-0.99
0.01
0.98
2.00
则下列选项中对x,y最适合的拟合函数是( )
A. B. C. D.
2.对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.0.87
3.某公司2018-2023年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示.
年份
2018
2019
2020
2021
2022
2023
x/百万元
12.2
14.6
16.0
18.0
20.4
22.3
y/百万元
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,年利润中位数( )
A.是16,x与y有正线性相关关系
B.是17,x与y有正线性相关关系
C.是17,x与y有负线性相关关系
D.是18,x与y有负线性相关关系
4.对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
5.观察下列散点图,有三种情况:①正相关,②负相关,③不相关.与散点图的位置相对应的序号依次是 .
6.判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画.
回归模型: ;函数模型: .
①某公司的销售收入和广告支出;
②某城市写字楼的出租率和每平米月租金;
③航空公司的顾客投诉次数和航班正点率;
④某地区的人均消费水平和人均国内生产总值(GDP);
⑤学生期末考试成绩和考前用于复习的时间;
⑥一辆汽车在某段路程中的行驶速度和行驶时间;
⑦正方形的面积与周长.
7.有下列关系;
①炼钢时钢水的含碳量与冶炼时间的关系;
②曲线上的点与该点的坐标之间的关系;
③柑橘的产量与气温之间的关系;
④森林的同一种树木,其横断面积直径与高度之间的关系.
其中具有相关关系的是 .(填序号)
8.如图所示的两个变量不具有相关关系的有 .(填序号)
题型二:相关系数的理解及计算
9.对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
10.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
11.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为( )
附:样本相关系数
A. B. C. D.1
12.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
13.某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
附:.
14.若已知是的4倍,是的1.5倍,则样本相关系数r的值为 .
15.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
参考数据:.
参考公式:相关系数.
16.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
材积量
0.25
0.40
0.22
0.54
0.51
0.34
样本号i
7
8
9
10
总和
根部横截面积
0.05
0.07
0.07
0.06
0.6
材积量
0.36
0.46
0.42
0.40
3.9
并计算得,,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数,.
17.下图是我国2014-2020年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合与的关系,请求出相关系数,并用相关系数的大小说明与相关性的强弱.
参考数据:,,.
题型三:样本中心点的应用
18.对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为离差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:建立与的线性回归方程为,则为( )
月份
1
2
3
4
5
销量
0.5
1
1.4
A.0.79 B.2 C.2.1 D.1.21
19.已知变量与之间的一组数据如下表:
1
2
3
4
5
0.8
2.9
4.8
7.2
9.1
若关于的线性回归方程为,则( )
A.1.31 B. C.1.56 D.
20.某产品的研发费用x万元与销售利润y万元的统计数据如表所示,
研发费用x (万元)
4
2
3
5
利润y (万元)
49
26
39
m
根据上表可得回归方程.中的 .据此模型预计研发费用为6万元时,利润为65.5, 则( )
A. B.
C. D.
21.某小吃店的日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:由表中数据可得回归方程中.试预测当天平均气温为时,小吃店的日盈利约为 百元.
0
1
2
百元
5
4
2
2
1
22.手机支付的兴起使得现金支付越来越稀缺.某便利店统计了该店历年现金收入的数额如下表:
年份
2015
2016
2017
2018
2019
2020
序号
1
2
3
4
5
6
现金收入(万元)
40
36
29
23
14
8
若认为该便利店的历年现金收入与序号满足回归方程为,请你估计该店2021年的年现金收入为 万元.
23.某企业近几年加大了对科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下表所示,由下表中的数据求得经验回归方程为,其中m为下表中科技投入x的4个数据的方差的8倍,据此经验回归方程预测,当时,的值为 (百万元).
科技投入x(百万元)
1
2
3
4
收益y(百万元)
m
m+3
15
18
题型四:离差分析与应用
24.研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差Q变大
25.某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
26.成对数据的回归方程为,则它们在处的离差是( )
A. B.
C. D.
27.有一散点图如图所示,在5个数据中去掉后,下列说法中正确的是( )
A.离差和变小 B.相关系数变小
C.拟合误差变小 D.解释变量与反应变量的相关性变弱
28.由表格数据得到的线性回归方程为,则此回归方程在样本点处的离差是
x
3
4
5
6
y
2.5
4
4.5
29.对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的离差为 .
30.某工厂为研究某种产品产量(吨)与所需某种原材料(吨)得相关性.在生产过程中收集4组对应数据如表所示,已知关于的经验回归方程为,则表中的值为 ,在样本点处的离差为 .
3
4
5
6
2.5
3
4
31.由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的离差值为 .
32.两个线性相关变量与的统计数据如表:
9
9.5
10
10.5
11
11
10
8
6
5
其回归直线方程是,则相对应于点的离差为 .
题型五:线性回归分析
33.某学校数学学习兴趣小组利用信息技术手段探究两个数值变量之间的线性关系,随机抽取8个样本点,由于操作过程的疏忽,在用最小二乘法求经验回归方程时只输入了前6组数据,得到的线性回归方程为,其样本中心为.后来检查发现后,输入8组数据得到的新的线性回归方程为,新的样本中心为,已知,则以下结论中正确的个数是( )
①新的样本中心仍为;
②新的样本中心为;
③两个数值变量具有正相关关系;
④.
A.0 B.1 C.2 D.3
34.根据如下样本数据得到的回归直线方程为,则下列结论不正确的是( )
2
3
4
5
6
4.0
2.5
-0.5
0.5
-2
A. B.
C. D.预计时,
35.为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班级随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,,该班某生的脚长为25,据此估计其身高为 ;
36.年月日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.年,全国芯片研发单位相比年增加家,提交芯片数量增加个,均增长超过倍.某芯片研发单位用在“芯片”上研发费用占本单位总研发费用的百分比()如表所示.
年份
年份代码
(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数,并推断与线性相关程度;(已知:,则认为与线性相关很强;,则认为与线性相关一般;,则认为与线性相关较弱)
.
(2)求出与的回归直线方程(保留一位小数);
(3)请判断,若年用在“芯片”上研发费用不低于万元,则该单位年芯片研发的总费用预算为万元是否符合研发要求?
附:相关数据:,,,.
相关计算公式:①相关系数;在回归直线方程中,,.
题型六:非线性回归分析
37.已知变量的关系可以用模型拟合,设,其变换后得到一组数据如下:
16
17
18
19
50
34
41
31
由上表可得线性回归方程,则( )
A.-5 B. C.126.5 D.
38.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则 , .
39.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,,②分别进行拟合,由此得到相应的回归方程并进行离差分析,进一步得到图2所示的离差图.
根据收集到的数据,计算得到如下值:
24
2.9
646
168
422688
50.4
70308
表中,,,;
(1)根据离差图,比较模型①、②的拟合效果,模型 比较合适?
(2)根据(1)中所选择的模型,求出y关于x的回归方程是 .附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
40.2022年11月29日23时03分.我国酒泉卫星发射中心用长征二号F遥十五运载火箭,成功将神舟十五号载人飞船送入预定轨道,顺利将费俊龙、邓清明、张陆3名航天员送入太空,发射取得圆满成功.11月30日7时33分,神舟十五号3名航天员顺利进驻中国空间站,与神舟十四号航天员乘组首次实现“太空会师”.某公司负责生产的A型材料是神舟十五号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
15
22
27
40
18
54
60
建立了y与x的两个回归模型:模型①:,模型②:;
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
回归模型
模型①
模型②
79.31
20.2
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
41.随着科技的进步及人民生活水平的提高,人们对于智能化生活的需求逐渐增加.李明统计了他在2011年至2020年的年收入与他购买电子产品的花销的数据.
为了预测他在2021年年收入为20万元时,在电子产品上花销为多少,建立了关于的两个回归模型:
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由样本点的分布,可以认为样本点集中在曲线:的附近,对年收入做变换,令.则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测李明年收入为20万元时的电子产品花销为多少百元?(结果保留两位小数).
附:样本的最小二乘估计公式为,;
参考数据:,.
42.有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
运营里程y/万千米
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
43.近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
44.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
题型七:回归方程与概率的结合
45.2023年10月6日,哈三中举行百年校庆活动,在活动期间统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月2日
10月3日
10月4日
10月5日
10月6日
第天
1
2
3
4
5
参观人数
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数加以说明(保留小数点后两位);(若,则认为与的线性相关性很强),并求出关于的线性回归方程;
(2)校庆期间学校仅开放1号门和2号门,校友从中随机等可能选择一个进入,且出学校与进学校选择相同门的概率为.假设校友从1号门、2号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月6日回母校参加活动,设为4人中从2号门出学校的人数,求的分布列、期望及方差.
附:参考数据:.
参考公式:回归直线方程,其中.
相关系数.
46.为了解某一地区纯电动汽车销售情况,某机构根据统计数据,用最小二乘法得到电动汽车销量(单位:万台)关于(年份)的线性回归方程为,且销量的方差为,年份的方差为.
(1)求与的相关系数,并据此判断电动汽车销量与年份的相关性强弱;
(2)该机构还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:
购买非电动车
购买电动车
总计
男性
39
6
45
女性
30
15
45
总计
69
21
90
能否在犯错误的概率不超过0.025的前提下认为购买电动汽车与性别有关?
(3)在购买电动汽车的车主中按照性别进行分层抽样抽取7人,再从这7人中随机抽取3人,记这3人中,男性的人数为,求的分布列和期望.
①参考数据:;
②参考公式:(i)线性回归方程:,其中.
(ii)相关系数:,若,则可判断与线性相关较强.
(iii),其中.
附表:
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
47.某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.
参考公式:;参考数据:.
48.2025年4月,中国新能源汽车零售渗透率突破,进入“以电为主”的新阶段,充电桩的使用率也成为关注焦点.经调查,某市今年月份的充电桩日均使用时长(时)与新能源汽车保有量(万辆)及充电桩日均使用率(,为常数)的数据如下表所示:
月份
1
2
3
4
5
6
新能源汽车保有量(万辆)
8
13
15
18
23
25
充电桩日均使用时长(时)
5
7
10
12
15
17
充电桩日均使用率
0.15
0.21
0.3
0.36
0.45
0.51
(1)若用充电桩日均使用率近似估计一个充电桩一天内被使用的概率,设该市某个充电桩在3月份的某3天中被使用的天数为,求的分布列;
(2)求关于的样本相关系数,并说明线性相关程度的强弱;(精确到0.01)
(3)若关于的经验回归方程为,求的值(精确到0.1),并预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为多少.
参考数据:,.
参考公式:相关系数.
49.即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使机构的服务需求持续增长.数据显示,近年来中国市场规模迅速扩大.下表为2018年年中国市场规模(单位:百亿元),其中2018年年对应的代码依次为.
年份代码x
1
2
3
4
5
中国市场规模y
1.12
1.68
2.45
3.35
4.32
(1)由上表数据可知,可用指数函数模型拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国市场规模(单位:百亿元):
(2)从2018年年中国市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58
0.84
46.83
15.99
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:
2 / 11
学科网(北京)股份有限公司
$