内容正文:
专题11 线性回归直线与非线性回归直线方程
【题型归纳目录】
题型一:线性回归
题型二:相关系数
题型三:残差的计算
题型四:线性回归方程的计算
题型五:非线性回归方程的计算
【知识点梳理】
1、两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2、回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
3、当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
【典型例题】
题型一:线性回归
【典例1-1】(2025·高二·天津·期末)为了了解家庭月收入(单位:千元)与月储蓄(单位:千元)的关系,从某居民区随机抽取10个家庭,根据测量数据的散点图可以看出与之间具有线性相关关系,其回归直线方程为,若该居民区某家庭月收入为7千元,据此估计该家庭的月储蓄为 千元.
【典例1-2】(2025·吉林白山·二模)已知,的取值如表:
0
1
3
4
4.3
4.8
6.7
若,具有线性相关关系,且回归方程为,则 .
【变式1-1】(2025·贵州黔东南·一模)已知,取值如表:
画散点图分析可知:与线性相关,且求得回归方程为,则 .
【变式1-2】(2025·高二·黑龙江佳木斯·期末)在2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天销售量及其价格进行调查,5家商场的售价元和销售量件之间的一组数据如下表所示:
价格
9
9.5
10
10.5
11
销售量
11
10
8
6
5
由散点图可知,销售量与价格之间有较好的线性相关关系,其线性回归方程是:,则 .
题型二:相关系数
【典例2-1】(2025·高二·辽宁葫芦岛·阶段练习)观察下列散点图,其中两个变量的相关关系判断一定正确的是( )
A.图1中y与x呈正相关
B.图2中y与x不相关
C.图3中y与x的线性相关系数小于0
D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数
【典例2-2】(2025·高一·河南周口·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【变式2-1】(2025·高二·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【变式2-2】(2025·高二·上海·期中)下列有关线性回归分析的四个命题:① 线性回归直线必过样本数据的中心点;② 回归直线就是散点图中经过样本数据点最多的那条直线;③当相关性系数 时,两个变量正相关;④如果两个变量的相关性越强,则相关性系数就越接近于 1.其中真命题的个数为( ).
A.1 个 B.2 个 C.3 个 D.4 个
题型三:残差的计算
【典例3-1】(2025·高二·新疆伊犁·期中)某次测量发现一组数据具有较强的相关关系,并计算得到经验回归方程,其中数据书写不清楚,若该数据对应的残差的绝对值不大于,则的取值范围为 .
【典例3-2】(2025·高二·广东深圳·期中)已知变量和的经验回归直线方程为,则时的观测值为6.5,此时残差为 (注:观测值减去预测值称为残差).
【变式3-1】(2025·黑龙江哈尔滨·一模)由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
【变式3-2】(2025·高二·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
题型四:线性回归方程的计算
【典例4-1】(21-22高二下·陕西西安·期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益y(亿元)的数据统计如下:
研发投入x(亿元)
1
2
3
4
5
产品收益y(亿元)
3
7
9
10
11
(1)计算x,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.
参考数据:,,.
附:相关系数公式:,回归直线方程的斜率,截距.
【典例4-2】(21-22高二下·陕西宝鸡·期末)如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
【变式4-1】(21-22高二下·安徽·期末)为了解温度对物质参与的某种化学反应的影响,研究小组在不同温度条件下做了四次实验,实验中测得的温度x(单位:°C)与的转化率y% (转化率=)的数据如下表所示:
x
45
55
65
75
y
23
38
65
74
(1)求y与x的相关系数(结果精确到0.01);
(2)该研究小组随后又进行了一次该实验,其中的起始量为50 g,反应结束时还剩余2.5 g,若已知y关于x的线性回归方程为,估计这次实验是在多少摄氏度的温度条件下进行的..
参考数据: ,,,.
参考公式:相关系数
【变式4-2】(21-22高二下·江西吉安·期末)防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
题型五:非线性回归方程的计算
【典例5-1】(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【典例5-2】(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【变式5-1】(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【变式5-2】(23-24高二下·宁夏石嘴山·期中)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度的8组观测数据,制成图l所示的散点图,现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;
25
2.9
646
168
422688
50.4
70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出关于的回归方程.附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,,
【强化训练】
1.(2025·高二·山东青岛·期中)根据变量Y和x的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
2.(2025·高二·天津滨海新·期中)下列说法中,正确的个数是( )
①若随机变量X服从正态分布,且,则;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强.
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05.
⑤决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好.
A.1 B.2 C.3 D.4
3.(2025·高二·河南·期中)下列说法正确的是( )
A.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于0
C.根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验(),可判断X与Y有关联,此推断犯错误的概率不超过0.05
D.由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀
4.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
5.(2025·高二·浙江宁波·期中)下列结论不正确的是( )
A.若、两组成对数据的样本相关系数分别为,,则组数据比组数据的相关性强
B.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变
C.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
D.由两个分类变量、的成对样本数据计算得到,依据的独立性检验,可判断、相关,且犯错误的概率不超过
6.(2025·高二·天津·期中)某学校一同学研究温差x(°C)与本校当天新增感冒人数y (人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列结论错误的是( )
A.样本中心点为 B.
C.时, 残差为 D.相关系数
7.(2025·高二·山东德州·期中)为研究某种植物的生长高度y(单位:cm)与光照时间x(单位:小时)之间的关系,研究人员随机测量了12株该种植物的光照时间和生长高度,得到的回归方程为,则样本的残差的绝对值为( )
A.1.05 B.1.15 C.1.25 D.1.35
8.(2025·上海徐汇·二模)在研究线性回归模型时,若样本数据所对应的点都在直线上,则两组数据和的线性相关系数为( )
A. B.1 C. D.2
9.(多选题)(2025·高二·新疆伊犁·期中)已知变量与具有线性相关关系,根据一组样本数据求得的回归直线方程为,则下列说法正确的是( )
A.若,则
B.若,则相关系数
C.若点都在直线上,则相关系数或
D.若越大,则越大
10.(多选题)(2025·高二·河北沧州·期中)关于样本相关系数r,下列说法正确的是( )
A.
B.当越接近1时,成对样本数据的线性相关程度越强
C.当时,成对样本数据之间没有任何相关关系
D.当时,成对样本数据正相关
11.(多选题)(2025·高二·河南南阳·期中)下列命题正确的有( )
A.回归直线经过样本点的中心
B.回归直线至少经过所有样本点中的一个
C.两个变量相关性越强,则相关系数越接近1
D.对于独立性检验,随机变量的值越大,判定“两个变量有关系”犯错误的概率就越小
12.(2025·高二·黑龙江大庆·期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
6
6.5
若由表中数据得到经验回归直线方程为,则时的残差为 .
13.(2025·高二·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
14.(2025·高二·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
15.(2025·高二·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
16.(2025·高二·安徽蚌埠·期中)若一组观测值之间满足,且恒为0,则为 ;(参考公式:)
17.(2025·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
18.(2025·高二·宁夏·阶段练习)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是 .①>,②<,③<,④>.
19.(2025·高二·广西玉林·期中)为了对,两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关指数为,乙模型的相关指数为,则 (填“甲”或“乙”)模型拟合的效果更好.
20.(2025·高二·福建莆田·期中)关于与有如下数据:
2
4
5
6
8
30
40
60
50
70
为了对,两个变量进行统计分析,现有以下两种线性模型:甲:,乙:,则 (填“甲”或“乙”)模型拟合的效果更好.
21.(24-25高二下·江西景德镇·期中)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表:
5
6
7
8
9
0.55
0.50
0.60
0.65
0.70
(1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强);
(2)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为,假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值.
参考公式:相关系数
22.(24-25高二下·山西·期中)下表为我国2015年至2023年城镇人口(单位:亿)的数据,其中年份代码分别对应年份,并计算得与的样本相关系数
年份代码
1
2
3
4
5
6
7
8
9
城镇人口亿
7.67
7.93
8.19
8.43
8.64
8.84
9.02
9.14
9.21
(1)求关于的回归方程(系数精确到0.01);
(2)预测2025年我国乡村人口为4.53亿人,城镇居民平均消费水平为4.26万元,农村居民平均消费水平为2.24万元,试预测2025年我国居民平均消费水平(精确到0.01);
(3)若变量和的对观测数据为,
则称为样本协方差,其中.
①基于我国2015年至2023年城镇人口(单位:亿)的数据,求协方差(精确到0.01);
②一般地,如何通过协方差的取值判断随机变量和是否正负相关?协方差的大小一定能度量出和的线性相关程度吗?样本相关系数相比协方差有何优点?
附:样本相关系数.
回归方程中斜率和截距的最小二乘估计公式分别为:
23.(24-25高二下·河南南阳·期中)某健身俱乐部为了研究会员每周锻炼时间(单位:)与体重减少量(单位:)的关系,随机选取了5名会员进行跟踪调查,得到以下数据:
(1)求每周锻炼时间与体重减少量的样本相关系数;(保留两位小数)
(2)求体重减少量关于每周锻炼时间的线性回归方程,并估计当某会员每周锻炼时间为时的体重减少量.
参考公式:相关系数;在线性回归方程中,.
24.(24-25高二下·浙江·期中)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额(单位:百亿)
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱.)
(2)利用最小二乘法建立关于的线性回归方程,并预测2025年该平台的交易额.
参考数据:,,
参考公式:相关系数;
线性回归方程中,斜率和纵截距的最小二乘估计分别为,.
25.(24-25高二下·广西柳州·期中)近期根据中国消费者信息研究报告显示,超过40%的消费者更加频繁地使用网上购物,某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和时间第x天间的数据,列表如下:
x
1
2
3
4
5
y
75
84
93
98
100
(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和时间第x天之间的关系?若可用,求出y关于x的经验回归方程,并估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若相关系数,则线性相关程度很高,可以用线性回归模型拟合,r精确到0.01);
(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
参考数据:.,,
附:相关系数,,
14
学科网(北京)股份有限公司
$$
专题11 线性回归直线与非线性回归直线方程
【题型归纳目录】
题型一:线性回归
题型二:相关系数
题型三:残差的计算
题型四:线性回归方程的计算
题型五:非线性回归方程的计算
【知识点梳理】
1、两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2、回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
3、当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
【典型例题】
题型一:线性回归
【典例1-1】(2025·高二·天津·期末)为了了解家庭月收入(单位:千元)与月储蓄(单位:千元)的关系,从某居民区随机抽取10个家庭,根据测量数据的散点图可以看出与之间具有线性相关关系,其回归直线方程为,若该居民区某家庭月收入为7千元,据此估计该家庭的月储蓄为 千元.
【答案】
【解析】由于,代入,于是得到,故答案为1.7.
【典例1-2】(2025·吉林白山·二模)已知,的取值如表:
0
1
3
4
4.3
4.8
6.7
若,具有线性相关关系,且回归方程为,则 .
【答案】
【解析】将代入回归方程为,可得,应填答案.
【变式1-1】(2025·贵州黔东南·一模)已知,取值如表:
画散点图分析可知:与线性相关,且求得回归方程为,则 .
【答案】
【解析】分析:计算,根据线性回归方程过样本中心点,代入方程求出m的值.
计算=×(0+1+3+5+6)=3,
=×(1+m+3m+5.6+7.4)=,
∴这组数据的样本中心点是(3,),
又y与x的线性回归方程=x+1过样本中心点,
∴=1×3+1,
解得m=.
故填.
【变式1-2】(2025·高二·黑龙江佳木斯·期末)在2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天销售量及其价格进行调查,5家商场的售价元和销售量件之间的一组数据如下表所示:
价格
9
9.5
10
10.5
11
销售量
11
10
8
6
5
由散点图可知,销售量与价格之间有较好的线性相关关系,其线性回归方程是:,则 .
【答案】40
【解析】根据题意:,,,
题型二:相关系数
【典例2-1】(2025·高二·辽宁葫芦岛·阶段练习)观察下列散点图,其中两个变量的相关关系判断一定正确的是( )
A.图1中y与x呈正相关
B.图2中y与x不相关
C.图3中y与x的线性相关系数小于0
D.图1中y与x的线性相关系数小于图2中y与x的线性相关系数
【答案】D
【解析】对于A,图1中随增大而减小, y与x呈负相关,A错误;
对于B,图2中各点较分散,y与x的相关性不强,不能肯定不相关,B错误;
对于C,图3中随增大而增大,y与x呈正相关,相关系数大于0,C错误;
对于D,图1与图2,y与x都呈负相关,相关系数为负,
而图1中y与x的线性相关性较图2中y与x的线性相关性强,
所以,图1中y与x的线性相关系数小于图2中y与x的线性相关系数,D正确.
故选:D
【典例2-2】(2025·高一·河南周口·期末)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【解析】由图可知图(1)和图(3)是正相关,故相关系数为正,又因为图(1)的点较图(3)的点分布密集,故相关性图(1)更好,相关系数较大,即;
图(2)和图(4)是负相关,故相关系数为负,又因为图(2)的点较图(4)的点分布密集,故相关性图(2)更好,相关系数的绝对值较大,即,故;
综上可知:,
故选:A.
【变式2-1】(2025·高二·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【解析】因为散点图都呈直线型,所以图1,图2两组数据都具有线性相关关系,故A正确;
图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
图1正相关,图2负相关,所以,故C不正确;
因为图2相关程度更强,所以,故D正确.
故选:C.
【变式2-2】(2025·高二·上海·期中)下列有关线性回归分析的四个命题:① 线性回归直线必过样本数据的中心点;② 回归直线就是散点图中经过样本数据点最多的那条直线;③当相关性系数 时,两个变量正相关;④如果两个变量的相关性越强,则相关性系数就越接近于 1.其中真命题的个数为( ).
A.1 个 B.2 个 C.3 个 D.4 个
【答案】B
【解析】对于①,线性回归直线一定过样本数据点的中心,故①正确;
对于②,回归直线在散点图中可能不经过任何一个样本数据点,故②错误;
对于③,当相关系数时,两个变量正相关,故③正确;
对于④,如果两个变量的相关性越强,则相关性系数就越接近于或,故④错误.
故真命题的个数为2.
故选:B.
题型三:残差的计算
【典例3-1】(2025·高二·新疆伊犁·期中)某次测量发现一组数据具有较强的相关关系,并计算得到经验回归方程,其中数据书写不清楚,若该数据对应的残差的绝对值不大于,则的取值范围为 .
【答案】
【解析】当时,,
由.
故答案为:
【典例3-2】(2025·高二·广东深圳·期中)已知变量和的经验回归直线方程为,则时的观测值为6.5,此时残差为 (注:观测值减去预测值称为残差).
【答案】
【解析】当时,,
所以时的残差为.
故答案为:
【变式3-1】(2025·黑龙江哈尔滨·一模)由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
【答案】
【解析】由于回归直线过样本中心点,当时,,
去除偏离点后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,所以,新的回归直线方程为,当时,,
所以,去除偏离点后,相应于样本点的残差值为.
故答案为:.
【变式3-2】(2025·高二·浙江·期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为 .
x
2
3
4
5
6
y
1.5
2
3.5
4
5.5
【答案】
【解析】由表格可得:,,
把代入,解得,
,
把代入解得,
在样本处的残差为.
故答案为:.
题型四:线性回归方程的计算
【典例4-1】(21-22高二下·陕西西安·期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益y(亿元)的数据统计如下:
研发投入x(亿元)
1
2
3
4
5
产品收益y(亿元)
3
7
9
10
11
(1)计算x,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.
参考数据:,,.
附:相关系数公式:,回归直线方程的斜率,截距.
【解析】(1)∵,,,
∴,
∴该中医药企业的研发投入x与产品收益y具有较高的线性相关程度.
(2)∵,
,
∴.
∴y关于x的线性回归方程为,
将代入线性回归方程可得,,
∴预测研发投入20(亿元)时产品的收益为40.3(亿元).
【典例4-2】(21-22高二下·陕西宝鸡·期末)如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
【解析】(1)由折线图得如下数据计算得:
,,,
所以相关系数,
因为,所以可用线性回归模型拟合y与x的关系
(2)
,
所以回归方程为,
当时,,
所以预测年产量为10吨时的污水排放量为吨
【变式4-1】(21-22高二下·安徽·期末)为了解温度对物质参与的某种化学反应的影响,研究小组在不同温度条件下做了四次实验,实验中测得的温度x(单位:°C)与的转化率y% (转化率=)的数据如下表所示:
x
45
55
65
75
y
23
38
65
74
(1)求y与x的相关系数(结果精确到0.01);
(2)该研究小组随后又进行了一次该实验,其中的起始量为50 g,反应结束时还剩余2.5 g,若已知y关于x的线性回归方程为,估计这次实验是在多少摄氏度的温度条件下进行的..
参考数据: ,,,.
参考公式:相关系数
【解析】(1),
所以
;
(2)根据回归直线的性质,,即,得.
由条件可知,
令,得,
因此估计这次实验是在85°C的温度条件下进行的.
【变式4-2】(21-22高二下·江西吉安·期末)防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:
月份
1
2
3
4
5
订单
20
24
43
52
(1)求关于的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.
参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.
【解析】(1)由题可得:,
,
,
关于的线性回归方程为,
2022年6月对应的变量为6,将代入,
得,
估计6月份该厂的订单数为59.9万元.
(2)相关系数.
与之间具有很强的正相关关系.
题型五:非线性回归方程的计算
【典例5-1】(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【解析】(1)方法一:设关于的回归直线方程为,
由已知,,
,
,
所以,
,
所以关于的回归直线方程为,
方法二:因为关于的回归直线方程为,
因为,,
所以,,
则,
所以关于的回归直线方程为,
(2)若用指数型函数模型拟合与的关系,则有,
设,,,
则,
,
,
所以,
所以,
所以关于的回归方程为,
(3)由(1)关于的回归直线方程为,
所以时,,
残差为,
由(2)关于的指数函数模型的回归方程为,
所以时,,
残差为,
因为,所以指数函数模型拟合效果更好.
【典例5-2】(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【解析】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
6
14
20
未报废
54
26
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
【变式5-1】(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【解析】(1)由散点图可知,更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型.
因为,所以.
因为,,,,
所以,
所以,所以回归方程为.
所以每年月份来哈尔滨的游客数量关于年份代码的回归直线方程为.
(2)当时,,
所以预测年月份来哈尔滨的游客数量为万.
【变式5-2】(23-24高二下·宁夏石嘴山·期中)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度的8组观测数据,制成图l所示的散点图,现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;
25
2.9
646
168
422688
50.4
70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出关于的回归方程.附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,,
【解析】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
于是, ,
因此关于的线性回归方程为,即,
所以产卵数y关于温度x的回归方程为.
【强化训练】
1.(2025·高二·山东青岛·期中)根据变量Y和x的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
【答案】D
【解析】根据一元线性回归模型中对随机误差的假定,残差应是均值为、方差为的随机变量的观测值.
对于A选项,残差与有线性关系,故A错误;
对于B选项,残差的方差不是一个常数,随着观测时间变大而变小,故B错;
对于C选项,残差与有非线性关系,故C错;
对于D选项,残差比较均匀地分布在以取值为的横轴为对称轴的水平带状区域内,故D正确.
故选:D.
2.(2025·高二·天津滨海新·期中)下列说法中,正确的个数是( )
①若随机变量X服从正态分布,且,则;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强.
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05.
⑤决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】B
【解析】对于①. 已知随机变量服从正态分布,,
则,所以,故①错误;
对于②,线性相关系数的范围在到1之间,有正有负,相关有正相关和负相关,
相关系数的绝对值的大小越接近于1,两个变量的线性相关性越强;
反之,线性相关性越弱,故②错误;
对于③,在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,
则回归方程的预报精确度越高,故③正确;
对于④,据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05,
故④正确.
对于⑤,因为甲的决定系数比乙的决定系数更接近1,所以模型甲的拟合效果更好,命题⑤错误;
故选:B.
3.(2025·高二·河南·期中)下列说法正确的是( )
A.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于0
C.根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验(),可判断X与Y有关联,此推断犯错误的概率不超过0.05
D.由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀
【答案】C
【解析】对于AB:若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故AB错误;
对于C:因为,根据独立性检验可知:与有关联,
此推断犯错误的概率不超过0.05,故C正确;
对于D:由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,
但某人数学成绩优秀,不能简单地认为他有99%的可能物理优秀,故D错误.
故选:C.
4.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【答案】D
【解析】由表格中数据得,
,
代入方程得,,解得,因此.
由两边取对数,得.
又,所以,,即.
故选:D
5.(2025·高二·浙江宁波·期中)下列结论不正确的是( )
A.若、两组成对数据的样本相关系数分别为,,则组数据比组数据的相关性强
B.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变
C.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
D.由两个分类变量、的成对样本数据计算得到,依据的独立性检验,可判断、相关,且犯错误的概率不超过
【答案】C
【解析】对于A选项,样本相关系数的绝对值越接近,相关性越强,故A正确
对于B选项,一组数据中的每一个数据都加上或减去同一个常数后,方差不变,满足方差的性质,故 B正确
对于C选项,在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故 C错误
对于D选项,因为,
所以,依据的独立性检验,可判断、相关,且犯错误的概率不超过,故D正确.
故选:C.
6.(2025·高二·天津·期中)某学校一同学研究温差x(°C)与本校当天新增感冒人数y (人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列结论错误的是( )
A.样本中心点为 B.
C.时, 残差为 D.相关系数
【答案】C
【解析】对于A项,因为,,
所以样本中心点为,故A项正确;
对于B项,由回归直线必过样本中心可得:,解得:,故B项正确;
对于C项,由B项知,,令,则,
所以残差为,故C项错误;
对于D项,经验回归方程中,斜率,说明与正相关,
故相关系数,故D项正确.
故选:C
7.(2025·高二·山东德州·期中)为研究某种植物的生长高度y(单位:cm)与光照时间x(单位:小时)之间的关系,研究人员随机测量了12株该种植物的光照时间和生长高度,得到的回归方程为,则样本的残差的绝对值为( )
A.1.05 B.1.15 C.1.25 D.1.35
【答案】A
【解析】把代入,可得生长高度y的估计值为,
则样本的残差的绝对值为.
故选:A.
8.(2025·上海徐汇·二模)在研究线性回归模型时,若样本数据所对应的点都在直线上,则两组数据和的线性相关系数为( )
A. B.1 C. D.2
【答案】A
【解析】若样本数据所对应的点都在直线上,
则两组数据和的线性相关系数为.
故选:A.
9.(多选题)(2025·高二·新疆伊犁·期中)已知变量与具有线性相关关系,根据一组样本数据求得的回归直线方程为,则下列说法正确的是( )
A.若,则
B.若,则相关系数
C.若点都在直线上,则相关系数或
D.若越大,则越大
【答案】ABC
【解析】对A:因为线性回归方程必过样本中心点,所以,故A正确;
对B:若,则变量与负相关,则相关系数,故B正确;
对C:若点都在直线上,则相关系数或,C正确;
对D:与的值无关,故D错误.
故选:ABC
10.(多选题)(2025·高二·河北沧州·期中)关于样本相关系数r,下列说法正确的是( )
A.
B.当越接近1时,成对样本数据的线性相关程度越强
C.当时,成对样本数据之间没有任何相关关系
D.当时,成对样本数据正相关
【答案】ABD
【解析】由相关系数性质可得,A正确;
由相关系数性质可得当越接近1时,成对样本数据的线性相关程度越强,B正确;
当时,成对样本数据之间没有线性相关关系,但不排除它们之间有其他相关关系,C错误,
由相关系数性质可得当时,成对样本数据正相关,D正确,
故选:ABD.
11.(多选题)(2025·高二·河南南阳·期中)下列命题正确的有( )
A.回归直线经过样本点的中心
B.回归直线至少经过所有样本点中的一个
C.两个变量相关性越强,则相关系数越接近1
D.对于独立性检验,随机变量的值越大,判定“两个变量有关系”犯错误的概率就越小
【答案】AD
【解析】对于A:回归直线恒过样本点的中心,故A正确;
对于B:回归直线可以不过任一个样本点,故B错误;
对于C:两个变量的相关性越强,则相关系数r的绝对值就越接近1,故C错误;
对于D:对于独立性检验,随机变量的值越大,判定“两个变量有关系”犯错误的概率就越小,故D正确.
故选:AD.
12.(2025·高二·黑龙江大庆·期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
6
6.5
若由表中数据得到经验回归直线方程为,则时的残差为 .
【答案】/
【解析】,
,
故,得,
当时,,
故残差为:,
故答案为:.
13.(2025·高二·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
【答案】
【解析】
,
所以.
故答案为:.
14.(2025·高二·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【解析】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
15.(2025·高二·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【答案】0.96
【解析】因为.
故答案为:.
16.(2025·高二·安徽蚌埠·期中)若一组观测值之间满足,且恒为0,则为 ;(参考公式:)
【答案】1
【解析】由恒为0,知恒成立,即恒成立,故.
故答案为:1
17.(2025·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
【答案】
【解析】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
18.(2025·高二·宁夏·阶段练习)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是 .①>,②<,③<,④>.
【答案】①③
【解析】用相关指数的值判断模型的拟合效果,越大,说明残差平方和越小,模型的拟合效果越好,因为第①个线性模型比第②个线性模型拟合效果好,所以,;
故答案为:①③
19.(2025·高二·广西玉林·期中)为了对,两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关指数为,乙模型的相关指数为,则 (填“甲”或“乙”)模型拟合的效果更好.
【答案】甲
【解析】相关指数越接近1,表明拟合效果越好,
,
甲模型拟合效果更好.
故答案为:甲.
20.(2025·高二·福建莆田·期中)关于与有如下数据:
2
4
5
6
8
30
40
60
50
70
为了对,两个变量进行统计分析,现有以下两种线性模型:甲:,乙:,则 (填“甲”或“乙”)模型拟合的效果更好.
【答案】甲
【解析】
设甲模型的相关指数为,
则
;
设乙模型的相关指数为,
则
.
因为,即,所以甲模型拟合效果更好.
故答案为:甲.
21.(24-25高二下·江西景德镇·期中)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表:
5
6
7
8
9
0.55
0.50
0.60
0.65
0.70
(1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强);
(2)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为,假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值.
参考公式:相关系数
【解析】(1)由表知,,
,
,
,
,
则,
由此可以认为该性能指数与孩子的喜爱程度相关性很强.
(2)当小李答对题数为3时,概率为:
,
当小李答对题数为4时,概率为:,
所以小李挑战成功的概率为:,
由,,,
则,当且仅当时等号成立,
所以,由二次函数的知识可知,
当时,小李挑战成功的概率最大,最大为.
22.(24-25高二下·山西·期中)下表为我国2015年至2023年城镇人口(单位:亿)的数据,其中年份代码分别对应年份,并计算得与的样本相关系数
年份代码
1
2
3
4
5
6
7
8
9
城镇人口亿
7.67
7.93
8.19
8.43
8.64
8.84
9.02
9.14
9.21
(1)求关于的回归方程(系数精确到0.01);
(2)预测2025年我国乡村人口为4.53亿人,城镇居民平均消费水平为4.26万元,农村居民平均消费水平为2.24万元,试预测2025年我国居民平均消费水平(精确到0.01);
(3)若变量和的对观测数据为,
则称为样本协方差,其中.
①基于我国2015年至2023年城镇人口(单位:亿)的数据,求协方差(精确到0.01);
②一般地,如何通过协方差的取值判断随机变量和是否正负相关?协方差的大小一定能度量出和的线性相关程度吗?样本相关系数相比协方差有何优点?
附:样本相关系数.
回归方程中斜率和截距的最小二乘估计公式分别为:
【解析】(1)由表格中的数据,可得,且.
又由,可得,
则,
所以关于的回归方程为.
(2)2025年对应的年份代码为,
预测2025年我国城镇人口为亿人,
预测2025年我国居民平均消费水平为万元.
(3)①由题,由(1):,
则,
所以.
②注意到协方差与样本相关系数同号,
可得如果协方差为正,说明两个随机变量具有正相关关系;
如果协方差为负,说明两个随机变量具有负相关关系.
协方差的大小与和的度量单位有关,
所以不宜直接用它度量成对样本数据线性相关程度的大小;
如本题中城镇人口的单位为“亿”,如果将其单位由亿改为万,
则的大小将变为原来的10000倍,
但单位的改变并不会导致年份代码与城镇人口之间相关程度的改变,
样本相关系数相比协方差,消除了度量单位的影响,其大小一定能度量出和的线性相关程度.
23.(24-25高二下·河南南阳·期中)某健身俱乐部为了研究会员每周锻炼时间(单位:)与体重减少量(单位:)的关系,随机选取了5名会员进行跟踪调查,得到以下数据:
(1)求每周锻炼时间与体重减少量的样本相关系数;(保留两位小数)
(2)求体重减少量关于每周锻炼时间的线性回归方程,并估计当某会员每周锻炼时间为时的体重减少量.
参考公式:相关系数;在线性回归方程中,.
【解析】(1)由题,,,
,
,
,
所以相关系数.
(2)由(1),可得,,
所以体重减少量关于每周锻炼时间的线性回归方程为,
当时,.
估计当某会员每周锻炼时间为时的体重减少量为.
24.(24-25高二下·浙江·期中)随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额(单位:百亿)
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱.)
(2)利用最小二乘法建立关于的线性回归方程,并预测2025年该平台的交易额.
参考数据:,,
参考公式:相关系数;
线性回归方程中,斜率和纵截距的最小二乘估计分别为,.
【解析】(1)由已知得,,
,,
,
故,
,所以线性相关性程度很强;
(2),,
则,
所以关于的线性回归方程为,
当时,,
所以预计2025年该平台的交易额为15.9百亿.
25.(24-25高二下·广西柳州·期中)近期根据中国消费者信息研究报告显示,超过40%的消费者更加频繁地使用网上购物,某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和时间第x天间的数据,列表如下:
x
1
2
3
4
5
y
75
84
93
98
100
(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和时间第x天之间的关系?若可用,求出y关于x的经验回归方程,并估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若相关系数,则线性相关程度很高,可以用线性回归模型拟合,r精确到0.01);
(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
参考数据:.,,
附:相关系数,,
【解析】(1)由表中数据可得,,所以,所以可用线性回归模型拟合人数与天数之间的关系.而,则所以
令,可得,所以1月10日到该专营店购物的人数约为109.
(2)若选方案一、需付款元.
若选方案二、设需付款元,则的取值可能为,则,
,
所以,因此选择方案二更划算.
14
学科网(北京)股份有限公司
$$