内容正文:
8.2.2 一元线性回归模型参数的最小二乘估计
题型一 求回归直线方程
1.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,统计出小李某月1号到5号每天打篮球时间(单位:h)与当天投篮命中率的成对数据满足的关系式:,,.若与满足线性回归方程,则回归系数( )
A.0.04 B.0.03 C.0.02 D.0.01
2.某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
A. B. C. D.
3.某同学调查研究学校门口、、、、、这六家奶茶店某月的销售情况,其中、、、、这五家的销售额和利润额的数据如下表所示.
奶茶店代号
销售额/万元
3
5
6
7
9
利润额/万元
2
3
3
4
5
若第六家奶茶店的销售额为4万元,则其利润额估计是 万元.
4.儿童的身高随年龄的增加而增加,已知某城市1-5岁儿童的平均身高如下表所示.
年龄x/岁
1
2
3
4
5
平均身高y/cm
76.0
86.5
97.5
103.5
111.5
(1)儿童的平均身高y与年龄x之间是相关关系还是函数关系?请依据判断求出平均身高y关于年龄x的回归直线方程(或函数解析式);
(2)能否用第(1)问求出的关系式预测该城市30岁市民的平均身高?若能,请求出预测值;若不能,请简要说明理由.
参考数据:.
参考公式:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为:,.
题型二 最小二乘法的概念及辨析
5.用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
6.设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )
A.直线过点
B.直线的斜率即为和的相关系数
C.和的相关系数在到1之间
D.当为偶数时,分布在两侧的样本点的个数相等
7.某公司在2016-2021年的销售额(万元)如下表,根据表中数据用最小二乘法得到的回归方程为.
2016
2017
2018
2019
2020
2021
则当关于的表达式取最小值时, .
8.2020年初的新冠疫情对零售业造成严重冲击,随着疫情逐步得到控制,各地经济逐渐得到恢复,以下是某地一超市2020年6月某星期的营业收入统计情况:
星期:x
1
2
3
4
5
营业收入:y(单位;万元)
5
7.5
9
10.5
13
(1)根据数据可知y与x之间存在较强线性关系,求出y关于x的线性回归方程;
(2)该超市为鼓励员工努力工作,制定如下奖励方案:若当天营业收入达到或超过8万元,则当天上班的每一位员工可获得一个50元的红包,若当天营业收入达到或超过12万元,则当天上班的每一位员工可获得一个100元的红包.假设某员工这5天中上了3天班,每天上班的可能性都一样,求该员工5天中获得红包奖励不少于100元的概率.
附:.
题型三 残差的计算
9.为了研究物理成绩与数学成绩之间的关系,随机抽取100名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A.2.5 B.3.5 C.3.5 D.2.5
10.某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
11.对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
12.某汽车研发公司的工程师为了解一款新型汽车在不同行驶速度x(km/h)下油耗y(L/100km)的变化规律,进行了相关实验,记录不同速度下的油耗数据的散点图如下:
(1)根据散点图求y关于x的经验回归方程(精确到0.01);
(2)根据线性回归方程,绘制残差图,并分析线性回归方程的拟合效果(若残差的平方和小于0.775,则说明拟合效果良好,否则拟合效果较差).
附:,.
题型四 决定系数的计算及分析
13.某数学建模小组提出了①,②,③,④四种回归模型描述某城市居民年收入与A商品销售额的关系,已知①,②,③,④对应的决定系数分别为0.33,0.51,0.88,0.43,则拟合效果最好的是模型( )
A.④ B.③ C.② D.①
14.下列命题中,假命题的是( )
A.若回归方程为,则变量y与x正相关
B.甲同学所在的某校高三共有5003人,先随机剔除3人,再按简单随机抽样的方法抽取容量为200的一个样本,则甲被抽到的概率为
C.若样本数据,,…,的方差为2,则数据,,…,的方差为4
D.在线性回归分析中相关指数用来刻画回归的效果,若值越大,则模型的拟合效果越好
15.已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
16.中国的非遗项目丰富多样,涵盖广泛,体现了中华民族的智慧和独特的文化魅力.春节期间某地为充分宣扬该地非遗物质文化,加大非遗传承人的技艺展示.该地市场开发与发展机构统计了非遗传承人的技艺展示量与市场消费收入的6组数据如下表:
技艺展示量x(单位:个)
21
23
24
27
29
32
市场消费收入y(单位:万元)
6
11
20
27
57
77
(1)若用线性回归理论进行统计分析,求市场消费收入y关于技艺展示量x的回归方程(精确到0.1);
(2)若用非线性回归模型求得市场消费收入y关于技艺展示量x的回归方程为,且决定系数,与(1)中的线性回归模型相比,应用决定系数说明哪种模型的拟合效果更好.
附:一组数据,,…,,其回归直线的斜率和截距的最小二乘估计为,;决定系数
参考数据:,,,
线性回归模型的残差平方和为(其中,分别为非遗传承人的技艺展示量和市场消费收入,).
题型五 非线性回归
17.某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
18.下列说法正确的是( )
A.若样本数据的方差为2,则数据的方差为17
B.一组数据8,11,10,9,12的第80百分位数是
C.用决定系数比较两个模型的拟合效果时,若越大,则相应模型的拟合效果越好
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和2
19.用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
20.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
1
学科网(北京)股份有限公司
$
8.2.2 一元线性回归模型参数的最小二乘估计
题型一 求回归直线方程
1.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,统计出小李某月1号到5号每天打篮球时间(单位:h)与当天投篮命中率的成对数据满足的关系式:,,.若与满足线性回归方程,则回归系数( )
A.0.04 B.0.03 C.0.02 D.0.01
【答案】D
【分析】根据回归系数公式,代入数据求出结果即可.
【详解】由题意,已知,则,,
则,
故选:D.
2.某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
A. B. C. D.
【答案】ABD
【分析】根据题意,结合给定条件,求出数据修正前后的相关统计数据,再比较大小,即可得到答案.
【详解】由题意知,数据修正前:,
,,
,
,,
数据修正后:,
,,
,
,,,
因此,,,而,则,
所以ABD正确,C错误.
故选:ABD.
3.某同学调查研究学校门口、、、、、这六家奶茶店某月的销售情况,其中、、、、这五家的销售额和利润额的数据如下表所示.
奶茶店代号
销售额/万元
3
5
6
7
9
利润额/万元
2
3
3
4
5
若第六家奶茶店的销售额为4万元,则其利润额估计是 万元.
【答案】2.4
【分析】根据最小二乘法公式求出,,即可得出线性回归方程,然后进行预测即可得解.
【详解】设线性回归方程为,
因为,,
,,
所以,,
即利润额y对销售额x的线性回归方程为,
所以若第六家奶茶店的销售额为4万元,则其利润额估计是.
故答案为:2.4.
4.儿童的身高随年龄的增加而增加,已知某城市1-5岁儿童的平均身高如下表所示.
年龄x/岁
1
2
3
4
5
平均身高y/cm
76.0
86.5
97.5
103.5
111.5
(1)儿童的平均身高y与年龄x之间是相关关系还是函数关系?请依据判断求出平均身高y关于年龄x的回归直线方程(或函数解析式);
(2)能否用第(1)问求出的关系式预测该城市30岁市民的平均身高?若能,请求出预测值;若不能,请简要说明理由.
参考数据:.
参考公式:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)相关关系,
(2)不能,理由见解析
【分析】(1)先计算出和,然后计算,用题目中给的数据代入公式计算.
(2)按照回归直线的定义分析,言之有理即可.
【详解】(1)解:相关关系
得
∴
(2)不能
因为该回归模型是基于儿童数据建立的,仅适用于描述该年龄段的统计规律,对30岁成年人的预测超出了模型的适用范围.
题型二 最小二乘法的概念及辨析
5.用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】根据最小二乘法的概念和求解过程,即可求解.
【详解】根据最小二乘法的概念和求解,可得回归方程是为了使得每个数据与估计值之间的差的平方和最小.
故选:D.
6.设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )
A.直线过点
B.直线的斜率即为和的相关系数
C.和的相关系数在到1之间
D.当为偶数时,分布在两侧的样本点的个数相等
【答案】AC
【分析】根据回归直线方程、相关系数的的概念及特点、回归直线与样本点的关系判断各选项即可.
【详解】回归直线一定过这组数据的样本中心点,故A项正确;
两个变量的相关系数不是回归直线的斜率,两者公式不同,故B项不正确;
两个变量的相关系数在到1之间,故C项正确;
所有样本点集中在回归直线附近,不一定两侧一样多,故D项不正确.
故选:AC.
7.某公司在2016-2021年的销售额(万元)如下表,根据表中数据用最小二乘法得到的回归方程为.
2016
2017
2018
2019
2020
2021
则当关于的表达式取最小值时, .
【答案】4067
【分析】根据题意结合最小二乘法可得取到最小值时,,换元令,分析运算即可.
【详解】根据题意结合最小二乘法可知:取到最小值时,,
令,即,
则取到最小,
即,所以.
故答案为:4067.
8.2020年初的新冠疫情对零售业造成严重冲击,随着疫情逐步得到控制,各地经济逐渐得到恢复,以下是某地一超市2020年6月某星期的营业收入统计情况:
星期:x
1
2
3
4
5
营业收入:y(单位;万元)
5
7.5
9
10.5
13
(1)根据数据可知y与x之间存在较强线性关系,求出y关于x的线性回归方程;
(2)该超市为鼓励员工努力工作,制定如下奖励方案:若当天营业收入达到或超过8万元,则当天上班的每一位员工可获得一个50元的红包,若当天营业收入达到或超过12万元,则当天上班的每一位员工可获得一个100元的红包.假设某员工这5天中上了3天班,每天上班的可能性都一样,求该员工5天中获得红包奖励不少于100元的概率.
附:.
【答案】(1);(2).
【分析】(1)结合参考公式求出,即可写出y关于x的线性回归方程;
(2)根据题意列出基本事件,并求出符合条件的事件的个数,然后根据古典概型求概率的公式即可求解.
【详解】(1)由条件得
y关于x的线性回归方程:,
(2)设事件A:“红包奖励不少于100元”,
则5天中上了3天班有,共10种
事件A包含,共8种
所以,.
题型三 残差的计算
9.为了研究物理成绩与数学成绩之间的关系,随机抽取100名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A.2.5 B.3.5 C.3.5 D.2.5
【答案】D
【分析】先求出对应的物理成绩的预测值,再根据残差的定义计算即可.
【详解】将代入得,
则样本点的残差为.
故选:D
10.某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
【答案】AB
【分析】根据经验回归方程的性质,结合已知条件逐一分析各选项,对相关性、相关系数、残差等进行判断.
【详解】经验回归方程为,斜率为,函数单调递增,
y随着x的增大而增大,即y与x正相关,故A正确;
样本中心点必在回归线方程上,
,将代入回归方程,得,解得,
,解得,故B正确;
当时,预测值,实际值为,
残差,故C错误;
经验回归方程为,斜率为,
样本的相关系数,故D错误.
故选:AB.
11.对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
【答案】0.5/
【分析】利用样本中心在回归直线上及残差的定义即可求解.
【详解】将代入,得,解得,
所以,
故当时,,
所以残差.
故答案为:0.5.
12.某汽车研发公司的工程师为了解一款新型汽车在不同行驶速度x(km/h)下油耗y(L/100km)的变化规律,进行了相关实验,记录不同速度下的油耗数据的散点图如下:
(1)根据散点图求y关于x的经验回归方程(精确到0.01);
(2)根据线性回归方程,绘制残差图,并分析线性回归方程的拟合效果(若残差的平方和小于0.775,则说明拟合效果良好,否则拟合效果较差).
附:,.
【答案】(1)
(2)作图见解析,拟合效果较好
【分析】(1)由图算出和的值,代入最小二乘法公式,得到回归方程;
(2)结合(1)的回归方程,求解出对应数据,列表画图,计算残差,算出其平方和,最后比大小即可.
【详解】(1)由图得,,
则,
故,
则y关于x的经验回归方程为.
(2)结合(1),计算得残差如下表:
行驶速度
60
70
80
90
100
110
油耗实际值
7.5
6.8
6.2
5.7
5.4
5
油耗估计值
7.35
6.85
6.35
5.85
5.35
4.85
残差
0.15
0.05
0.15
因此残差分布图如下:
因为,
所以经验回归方程的拟合效果较好.
题型四 决定系数的计算及分析
13.某数学建模小组提出了①,②,③,④四种回归模型描述某城市居民年收入与A商品销售额的关系,已知①,②,③,④对应的决定系数分别为0.33,0.51,0.88,0.43,则拟合效果最好的是模型( )
A.④ B.③ C.② D.①
【答案】B
【分析】根据决定系数的定义及性质判断即可.
【详解】越大,模型的拟合效果越好,因为,所以模型③拟合效果最好.
故选:B.
14.下列命题中,假命题的是( )
A.若回归方程为,则变量y与x正相关
B.甲同学所在的某校高三共有5003人,先随机剔除3人,再按简单随机抽样的方法抽取容量为200的一个样本,则甲被抽到的概率为
C.若样本数据,,…,的方差为2,则数据,,…,的方差为4
D.在线性回归分析中相关指数用来刻画回归的效果,若值越大,则模型的拟合效果越好
【答案】AC
【分析】对于选项A,根据相关性的概念,由x的系数分析判断;对于选项B,根据随机抽样可知每个个体被抽到的机会均等,分析运算即可;对于选项C,结合新样本数据的方差公式运算;对于选项D,相关指数越接近于1,拟合效果越好.
【详解】对A:由,可知,则变量y与x负相关,故A项为假命题;
对B:根据随机抽样可知每个个体被抽到的机会均等,与抽样方法无关,某校高三共有5003人,抽取容量为200的一个样本,则甲被抽到的概率为,故B项为真命题;
对C:若样本数据,,…,的方差为2,则数据,,…,的方差为,不等于4,故C项为假命题;
对D:在线性回归分析中相关指数越接近于1,则模型的拟合效果越好,故D项为真命题.
故选:AC
15.已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【答案】0.96
【分析】依据决定系数的公式计算即可.
【详解】因为.
故答案为:.
16.中国的非遗项目丰富多样,涵盖广泛,体现了中华民族的智慧和独特的文化魅力.春节期间某地为充分宣扬该地非遗物质文化,加大非遗传承人的技艺展示.该地市场开发与发展机构统计了非遗传承人的技艺展示量与市场消费收入的6组数据如下表:
技艺展示量x(单位:个)
21
23
24
27
29
32
市场消费收入y(单位:万元)
6
11
20
27
57
77
(1)若用线性回归理论进行统计分析,求市场消费收入y关于技艺展示量x的回归方程(精确到0.1);
(2)若用非线性回归模型求得市场消费收入y关于技艺展示量x的回归方程为,且决定系数,与(1)中的线性回归模型相比,应用决定系数说明哪种模型的拟合效果更好.
附:一组数据,,…,,其回归直线的斜率和截距的最小二乘估计为,;决定系数
参考数据:,,,
线性回归模型的残差平方和为(其中,分别为非遗传承人的技艺展示量和市场消费收入,).
【答案】(1)
(2)用非线性回归模型拟合效果更好
【分析】(1)首先算出,,然后算出即可;
(2)算出线性回归模型的决定系数,然后与非线性回归模型的决定系数比较即可作出判断.
【详解】(1)由题意,则,
,
,,
y关于x的线性回归方程为.
(2)对于线性回归模型,,,
决定系数为,
因为,所以用非线性回归模型拟合效果更好.
题型五 非线性回归
17.某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【答案】D
【分析】根据散点图的变化规律,寻求合适的特征函数.
【详解】由图可知,随着温度的增加,发芽率的增长速度越来越慢,符合对数型函数的特征.
故选:D.
18.下列说法正确的是( )
A.若样本数据的方差为2,则数据的方差为17
B.一组数据8,11,10,9,12的第80百分位数是
C.用决定系数比较两个模型的拟合效果时,若越大,则相应模型的拟合效果越好
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和2
【答案】CD
【分析】根据方差性质计算可得A错误,由百分位数定义计算可得B错误,利用决定系数公式及其意义可知C正确,由非线性回归方程模型以及对数运算法则计算可得D正确.
【详解】对于A,记样本数据的方差为,又因为,
所以数据的方差为,即A错误;
对于B,将数据从小到大重新排列为8,9,10,11,12,共5个数据,;
所以第80百分位数是第4个数和第5个数的平均数,即,所以B错误;
对于C,用决定系数比较两个模型的拟合效果时,若越大,则相应模型的拟合效果越好,即C正确;
对于D,易知,又因为线性回归方程为;
所以,即可得,所以的值分别是和2,即D正确.
故选:CD
19.用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【答案】
【分析】将两边取自然对数,再结合题意得到,,即可求出.
【详解】因为,两边取自然对数可得,
令,可得,又,
所以,,所以,
所以.
故答案为:
20.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
【答案】(1);
(2)模型②.
【分析】(1)根据给定的数据,利用最小二乘法公式求出经验回归方程.
(2)分别求出模型①、模型②中年利润增量,再比较它们与40差的绝对值大小即可.
【详解】(1)由,得,
则,,
所以模型②中关于的经验回归方程为.
(2)模型①,,当时,年利润增量,
模型②,,当时,,
因此年利润增量,而,
所以模型②的预报效果更好.
1
学科网(北京)股份有限公司
$