考点11 成对数据的相关性及线性回归方程模型(专项训练)数学人教A版选择性必修第三册
2026-05-16
|
2份
|
62页
|
18人阅读
|
0人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 8.1 成对数据的统计相关性,8.2 一元线性回归模型及其应用 |
| 类型 | 题集-专项训练 |
| 知识点 | 计数原理与概率统计 |
| 使用场景 | 同步教学-新授课 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 4.39 MB |
| 发布时间 | 2026-05-16 |
| 更新时间 | 2026-05-16 |
| 作者 | math教育店铺 |
| 品牌系列 | 上好课·上好课 |
| 审核时间 | 2026-05-16 |
| 下载链接 | https://m.zxxk.com/soft/57894003.html |
| 价格 | 4.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
以“概念辨析-量化分析-模型构建-检验优化”为主线,系统整合相关关系、回归模型知识,提炼“特征判断-公式应用-转化建模”三步解题法,培养数据观念与模型意识。
**专项设计**
|模块|题量/典例|方法提炼|知识逻辑|
|----|-----------|----------|----------|
|相关关系辨析|2例+3变式|先辨关系类型(函数/相关)再判趋势(正/负/线性)|从定性描述(散点图)到定量刻画(相关系数)|
|相关系数应用|2例+3变式|公式分步计算,性质判断强弱(|r|>0.75强相关)|相关系数与线性相关性的内在联系|
|回归方程构建|2例+3变式|样本中心点(\(\bar{x},\bar{y}\))代入求参数,最小二乘法算系数|回归直线必过样本中心的原理应用|
|残差分析|2例+3变式|残差图分布+决定系数\(R^2\)判断拟合效果|模型检验从直观(残差图)到量化(\(R^2\))|
|非线性回归|2例+5变式|换元转化(如\(z=\ln y\))为线性模型再回代|非线性问题线性化的转化思想|
内容正文:
考点11 成对数据的相关性及线性回归方程模型
考点一:相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
考点二:回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
题型一:相关关系的辨析及判断
先区分函数关系(确定)与相关关系(不确定),再看变化趋势:同增为正相关,一增一减为负相关。观察散点是否靠近直线,判断是线性相关还是非线性相关。
【例1】在下列两个量之间的关系中,属于相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.一块农田的小麦产量与施肥量 D.正n边形的边数与内角度数之和
【答案】C
【详解】A、D是函数关系;B是不相关关系,也不是函数关系;
C是相关关系,一般来说,农田的施肥量越大,小麦产量一般会越多.
【例2】某公司2018-2023年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示.
年份
2018
2019
2020
2021
2022
2023
x/百万元
12.2
14.6
16.0
18.0
20.4
22.3
y/百万元
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,年利润中位数( )
A.是16,x与y有正线性相关关系
B.是17,x与y有正线性相关关系
C.是17,x与y有负线性相关关系
D.是18,x与y有负线性相关关系
【答案】B
【详解】由题意,利润中位数是,
而且随着利润x的增加,广告支出y也在增加,故x与y有正线性相关关系.
故选:B.
【变式1-1】已知变量与正相关,变量与满足,则下列说法正确的是( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与正相关 D.与负相关,与负相关
【答案】D
【详解】因为,所以与负相关,
又因为变量与正相关,所以与负相关.
故选:D.
【变式1-2】下列关系中,属于相关关系的是______(填序号).
①球的体积与该球的半径之间的关系;
②农作物的产量与施肥量之间的关系;
③一般情况下,一个人的身高和体重之间的关系.
【答案】②③
【详解】在①中,球的体积与该球的半径之间是函数关系,不是相关关系;
在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;
在③中,一般情况下,一个人的身高和体重是正相关关系.
【变式1-3】观察下列散点图,有三种情况:①正相关,②负相关,③不相关.与散点图的位置相对应的序号依次是______.
【答案】①③②
【详解】第一个图大体趋势从左向右上升,故是正相关,
第二个图不相关,
第三个图大体趋势从左向右下降,故是负相关.
故答案为:①③②.
题型二:相关系数的理解及计算
牢记相关系数公式与范围,正相关,负相关。越接近1线性相关性越强,大于0.75为强线性相关。
计算时先算、,再代入公式分子分母分别计算,分步求值减少错误,直接用性质判断正负与强弱。
【例3】对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
【答案】C
【详解】两个图的散点都大致分布在直线附近,因此两组数据都具有线性相关关系,故A正确;
图1中,整体随增大而增大,是正相关,即;图2中,整体随增大而减小,是负相关,即,故B正确;
因为,,正数一定大于负数,因此,故C不正确;
相关系数的绝对值越接近1,线性相关性越强,散点越贴近直线. 图2的散点比图1更贴近直线,因此,故D正确.
【例4】粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码i,表示年份代码为i的产量,经计算得,,.
(1)求样本的相关系数r;(精确到0.01)
(2)现从这5年中随机抽取3年,记这3年中小麦产量大于13.6千万吨的年数为X,求X的分布列与数学期望.
附:相关系数,.
【答案】(1)0.92
(2)随机变量的分布列为
X
1
2
3
P
【分析】
【详解】(1)解:根据统计表格中的数据,可得,,
以及,,.
可得样本相关系数.
(2)解:根据题意,可得随机变量的取值为,
则,,,
所以随机变量的分布列为
X
1
2
3
P
所以期望为.
【变式2-1】已知四个点,,,得到的线性相关系数为,去掉后得到的线性相关系数为,则( )
A. B. C. D.无法确定
【答案】A
【详解】注意到,,均在直线上.故,
而不在该直线上,即四点不共线,故.于是.
【变式2-2】为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【详解】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
【变式2-3】近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
【答案】(1),很强的线性正相关关系
(2)
X
80
150
210
P
【详解】(1)由题意,,,
则,
由,
同理,
则,
则,
由接近1且为正,故变量x与y之间有很强的线性正相关关系.
(2)由题意,X的可能取值为80、150、210,
则,,
,
故X的分布列为:
X
80
150
210
P
则.
题型三:样本中心点的应用
样本中心点为,回归直线一定过该点,这是高频考点。已知可直接求,已知可反求。
题目给出多组数据时,先算平均值得到中心点,再代入回归方程求未知参数,一步到位,不用复杂计算。
【例5】若一组点通过最小二乘估计得到的回归直线方程为,且,则______.
【答案】
【详解】.
回归直线方程一定经过样本中心点,
,即,.
又,.
【例6】现有10个样本数据,,…,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C. D.2
【答案】A
【详解】根据回归直线过样本中心点,代入得:
,所以原个样本的值总和为:,
去掉后,剩余个样本的值总和为:,值总和为:
因此新的样本中心点为:,
因为新的经验回归方程为,回归直线必过新的样本中心点,代入得:
,解得:.
【变式3-1】已知变量和满足经验回归方程,且变量和之间的一组相关数据如下表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【详解】选项A:因为变量和满足经验回归方程,又,,
所以,解得,故A正确;
选项B:因为变量和满足经验回归方程,
当时,,故B正确;
选项C:因为变量和满足经验回归方程,,
所以变量和呈负相关,故C正确;
选项D:由选项A知,,,该经验回归直线必过点,不一定过样本点,故D错误.
故选:D.
【变式3-2】已知变量和变量的一组成对样本数据,其经验回归方程为,若,,新样本数据得到的经验回归方程依然为,则( )
A. B. C. D.
【答案】C
【详解】记,,
则,同理,
所以,点、都在直线上,
所以,,解得.
故选:C.
【变式3-3】给定变量与相对应的一组数据,若通过该组数据求得的回归直线方程为,则的值为__________.
【答案】21
【详解】由于,,
由于回归直线方程为,则,解得:
题型四:残差分析与决定系数
残差是实际值减预测值,残差图均匀分布在水平窄带内说明拟合好。决定系数越接近1、残差平方和越小,模型拟合效果越好。
判断拟效果优先看,再看残差图,按“大、残差小、带状窄”三个标准判断,结论直接明确。
【例7】根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.决定系数变小 B.残差平方和变小
C.相关系数变大 D.不变
【答案】A
【详解】增加点,从散点图中可以看出拟合效果变差;
决定系数越接近1,拟合效果越好,所以拟合效果变差后决定系数变小,故A正确;
残差平方和越小,拟合效果越好,所以残差平方和变大,故B错误;
越接近1,相关程度越强,拟合效果越好,由于两个变量成正相关,所以相关系数变小,故C错误;
增加点前的的平均数为,增加点后的的平均数为,
所以变大,故D错误.
【例8】(多选)生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关.有人调查了10名男大学生的身高(单位:)及其父亲身高(单位:)的数据,已知其中一组数据为,且,求得经验回归方程为,并绘制了如下残差图(残差观测值预测值),则
A.这10名男大学生的身高的平均值为176.75
B.由残差图可判定儿子身高与父亲身高的关系不符合上述回归模型
C.数据对应的残差为3.7
D.去掉数据后,重新求得的回归直线的决定系数变小
【答案】AC
【详解】满足经验回归方程,代入,计算可得,故A正确;
从残差图中可以看到残差比较均匀地分布在以均值为0,横轴为对称轴的水平带状区域内,满足上述回归模型,故B错误;
代入,得,因此残差为,故C正确;
由残差图可知是一个极端数据,去掉后重新求得的回归直线拟合程度会变好,决定系数变大,D错误.
故选:AC.
【变式4-1】已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
【答案】A
【详解】.因为,所以,因为经验回归方程过点,
所以,所以增加一个数据后的,,
设修正后的回归直线为,而修正后的回归直线过点,即 ,
所以,
解得,所以修正后的回归直线为 ,
所以数据 相对于修正后的回归直线的残差为 .
【变式4-2】某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【答案】C
【详解】A.相关系数的绝对值不超过1,A错误;
B.由回归直线方程知,每增加一个单位,平均减少个单位,B错误;
C.第二个样本点对应的残差,C正确;
D.第三个样本点对应的残差,D错误.
故选:C.
【变式4-3】某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
参考公式:相关系数,经验回归方程为,其中,,.
A. B. C. D.
【答案】ABD
【详解】数据修正前:
,
,,
,
,,
数据修正后:
,
,,
,
,,
因此,,,而,则,ABD正确,C错误.
故选:ABD
题型五:线性回归分析
先判断线性相关(用或散点图),再用最小二乘法求、,写出回归方程。代入可预测值。
计算遵循“先平均、再求、后求”,利用样本中心点简化计算,预测时注意取值范围,不盲目外推。
【例9】某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格(元)
日需求量()
(1)求关于的线性回归方程;
(2)利用(1)中的回归方程,当价格元时,日需求量的预测值为多少?
参考公式:线性回归方程,其中,
【答案】(1)
(2)预测值为
【分析】
【详解】(1)由表格中的数据可得,,
由题意得,
且,
所以,,
故回归直线方程为.
(2)将代入回归直线方程得,
当价格元时,日需求量的预测值为.
【例10】如图是我国2015年至2023年岁及以上老年人人口数(单位:亿)的折线图,
注:年份代码分别对应年份.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数(结果精确到)加以说明;
(2)建立关于的回归方程(系数精确到).
参考数据:,,,.
参考公式:相关系数 若,则与有较强的线性相关性.
回归方程中斜率和截距的最小二乘估计公式分别为:,.
【答案】(1),与之间存在较强的正相关关系
(2)
【分析】
【详解】(1)由折线图看出,与之间存在较强的正相关关系,理由如下:
因为,,,
所以,,
,
所以,
所以,
故与之间存在较强的正相关关系.
(2)由(1),结合题中数据可得,
,,
,
所以关于的回归方程为.
【变式5-1】某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高(单位:)与父亲身高(单位:)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
父亲身高
160
170
175
185
190
儿子身高
170
174
175
180
186
参考数据及公式:,,,,,.
根据表中数据,求出关于的线性回归方程.
【答案】
【详解】,,
,,
故回归方程为:.
【变式5-2】为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
【答案】(1)
(2)
(3)
0
1
2
【分析】
【详解】(1)因为,
所以;
(2)由题意可知,,
,
所以,,
所以;
(3)由题意可得
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
44
37
35
27
49
45
41
37
33
29
是否有效采集数据
否
是
否
是
否
否
随机变量的可能取值为,
,
所以分布列为:
0
1
2
数学期望为.
【变式5-3】新型模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图像数据对一种新型降噪模型进行实验,对使用该模型后,图像中的噪声残留量y(单位:个/像素)进行检测,统计得到下表:
第x轮迭代
1
2
3
4
5
噪声残留量y(个/像素)
67
57
50
42
34
并计算得:.
(1)计算变量x(迭代轮数)和变量y(噪声残留量)的样本相关系数r(r的值精确到0.001);
(2)若图像中的噪声残留量不高于10个/像素,则说明数据降噪完成.用最小二乘法求y关于x的经验回归方程,并预测该模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,,.
【答案】(1)
(2),8
【详解】(1)由题可得:,
,
样本相关系数;
(2)噪声残留量y的取值为67,57,50,42,34,
所以,
根据题意可得,
所以y关于x的经验回归方程为,
要使图象中的噪声残留量不高于10个/像素,则,
即,所以该AI模型至少需要迭代8轮才可以完成降噪.
题型六:非线性回归分析(选填)
【例11】(多选)(多选题)某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
【答案】BD
【详解】根据图象可知,函数图象随着自变量的变大,函数值增长速度越来越快,
结合选项,可判定为指数函数或的特征,
故选:BD.
【例12】为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
【答案】C
【详解】依题意,,
由与的线性回归方程,得,则,
即,因此,所以.
【变式6-1】某地为响应“扶贫必扶智,扶智就是扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农民免费借阅,收集的自2017年至2021年共5年的年借阅数据如下表:
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
年借阅量(万册)
2
17
36
93
142
根据上表,可得关于的二次回归方程为,则下列说法正确的是( )
A.
B.2,17,36,93,142的第三四分位数为93
C.此回归模型2020年的残差(实际值与预报值之差)(多选)为5
D.估计2022年借阅数为220
【答案】BC
【详解】,,
所以,A选项错误.
,所以2,17,36,93,142的第三四分位数为93,B选项正确.
由上述分析可知,
所以年的预测值为,则残差为,C选项正确.
估计年借阅数为万册,D选项错误.
故选:BC
【变式6-2】2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】B
【分析】
【详解】令,则,
又,由,得,
因为,所以
则,
下午4点时对应的是,
可得,
故选:B
【变式6-3】已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则_______.(参考数据:)
【答案】0.3
【详解】由题意知,解得,
所以,
由,得,所以,
则.
故答案为:0.3
题型七:非线性回归分析(解答)
先对原变量做变换(如、),将非线性模型转化为线性模型,再求关于的回归方程。
最后回代还原为关于的表达式,步骤规范:换元→求线性回归→回代→写最终模型,每步清晰不跳步。
【例13】某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
【答案】(1)更适宜作为回归模型.
(2)(i);(ii)会报警提示,理由见解析
【分析】
【详解】(1)函数是均匀变化的,图象是一条直线,
函数的图象是一条曲线,选择恰当的可使更好拟合散点图.
所以更适宜作为回归模型.
(2)(i)两边取对数得,
由于,故,
,
即,故,
(ii)会报警提示,理由如下:
中,令得,
故会报警提示
【例14】椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(1)
(2)644.6;258.3
【分析】
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
【变式7-1】学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【分析】
【详解】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
【变式7-2】某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【答案】(1),实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩
(2)当施肥量为10kg/亩时利润最大
【分析】
【详解】(1)根据题意,可得,
又由,
所以产量y关于施肥量x的回归方程为,
其中的实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩.
(2)设利润为元/亩,
当且仅当kg/亩时取等,即当施肥量为10kg/亩时利润最大.
【变式7-3】脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,
【答案】(1)选择模型②,理由见解析
(2),10人
【分析】
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
.
一、单选题
1.对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是( )
A. B.
C. D.
【答案】A
【详解】由图1和图2可得,随的增大而增大,随的增大而减小,
所以,所以,故B正确;
因为图1的数据点比图2的更集中,所以,
所以,,故A错误,C正确;
,故D正确.
2.某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
【答案】B
【详解】因为,且,
所以,解得.
3.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【答案】A
【详解】令,,由与呈线性相关关系,得线性回归方程,
则,,
因此,即,所以关于的回归方程为.
4.以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
【答案】D
【详解】对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:两个变量不具有线性相关性,故B错误;
对于C:两个变量之间的关系为负相关关系;故C错误;
对于D:两个变量之间的关系为正相关关系,且散点图中的点分布在一条直线附近,线性相关程度较高;故D正确.
5.某研究小组为了探究变量x与y之间的线性相关关系,收集了5组数据,(),并绘制成如图所示的散点图(点A,B,C,D,E).经计算,这5组数据的样本相关系数为r.若去掉点后,剩余4组数据的样本相关系数为,则下列结论正确的是( )
A. B. C. D.
【答案】A
【详解】从散点图中可知,样本数据的两变量是正相关,
由于点较其他点偏离程度大,删除点后,回归效果更好,
从而相关系数的绝对值更接近于1,所以
6.已知样本点,,……,的经验回归直线的方程为,相关系数为,样本均值分别为,.现令,.设新样本点的经验回归直线为,则下列命题为假命题的是( )
附:样本相关系数,经验回归方程中斜率和截距的最小二乘估计公式分别为,.
A.与的相关系数为 B.过
C.的斜率为 D.的截距为
【答案】D
【详解】由已知样本均值性质可得新样本均值分别为与,
因为经验回归直线必过样本中心点,
所以新经验回归直线过点,故B正确;
因为且,
代入相关系数公式可得新样本的相关系数,故A正确;
代入斜率公式可得新经验回归直线的斜率
,故C正确;
由回归截距公式可得新经验回归直线的截距,故D错误.故选D.
7.某学校数学学习兴趣小组利用信息技术手段探究两个数值变量之间的线性关系,随机抽取8个样本点,由于操作过程的疏忽,在用最小二乘法求经验回归方程时只输入了前6组数据,得到的线性回归方程为,其样本中心为.后来检查发现后,输入8组数据得到的新的线性回归方程为,新的样本中心为,已知,则以下结论中正确的个数是( )
①新的样本中心仍为;
②新的样本中心为;
③两个数值变量具有正相关关系;
④.
A.0 B.1 C.2 D.3
【答案】C
【详解】对于①②,由题意可得,,则新的样本中为,故①错误,②正确;
对于③,将代入回归直线,可得,解得,故③正确;
对于④,根据样本估计总体及最小乘法原理,利用组数据所得经验回归程是与样本点“距离”平方和最小的直线方程,故④错误.
故选:C.
8.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月
1
2
3
繁殖数量
A.百只 B.百只 C.百只 D.百只
【答案】B
【详解】由两边取自然对数得,令,
则,即与呈线性相关关系,
,,
回归直线必过样本点的中心,,解得,
,则,当时,.
故选:B
二、多选题
9.下列关于相关系数的说法正确的是( )
A.相关系数越大两个变量间相关性越强
B.相关系数的取值范围为
C.相关系数时两个变量正相关,时两个变量负相关
D.相关系数时,样本点在同一直线上
【答案】BCD
【详解】对于相关系数,有以下结论:①当时,表明两个变量正相关;当时,表明两个变量负相关.
②的绝对值越接近于,表明两个变量的线性相关性越强;的绝对值越接近于,表明两个变量之间几乎不存在线性相关关系.
对于A,当时此结论不成立,所以A不正确.
对于B,由相关系数的性质可得,所以B正确.
对于C,由相关系数的性质可得正确.
对于D,由相关系数的性质可得正确.
故选:BCD.
10.为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【答案】BCD
【分析】
【详解】A选项,因为,故房屋的建筑面积和销售价格y呈正相关,相关系数为,A错误;
B选项,代入,可得的预测值:,残差为:,故B正确;
C选项,,因为线性回归方程恒过点,故,
解得:,C正确;
D选项,决定系数越接近1,拟合效果越好,因为,故甲机构选取的模型拟合效果更好,D正确.
三、填空题
11.下列关系中,属于相关关系的是________.(填序号)
①扇形的半径与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
【答案】②④
【详解】在①中,扇形的半径与面积之间的关系是函数关系;
在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;
③为确定的函数关系;
在④中,降雪量与交通事故的发生率之间具有相关关系.
故答案为:②④.
12.如图,由观测数据的散点图可知,与的关系可以用模型拟合,设,利用最小二乘法求得关于的回归方程为.已知,,则________.
【答案】1
【详解】由可得,由可得
,
由回归方程必过样本中心点,即过点,所以,解得.
故答案为:.
13.已知x与y之间的几组数据如下表.
x
1
2
3
4
y
4
m
n
1
表中y的平均值为2.5,若某同学对m赋了三个值,分别为3.5,3,2.5,得到三条线性回归直线的方程,分别为,对应的相关系数分别为,则下列结论中正确的是_______.(填序号)①在同一个坐标系中,三条回归直线可以围成一个封闭图形;②;③;④相关系数中,最大.
参考公式:线性回归方程,其中;相关系数;.
【答案】② ④
【详解】由题意知,即..
① 若,则,
,
,
,
则,.
② 若,则,则
,
,,
则,.
③ 若,则,
,
,,
则,.
由样本点的中心相同知三条回归直线交于同一个点,不可能围成封闭三角形,所以①不正确.
由以上计算可得,所以②正确,③不正确.
相关系数中,最大,所以④正确.
故答案为:②④.
四、解答题
14.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
2
4
6
8
10
40
45
50
55
60
经计算:,,,
(1)求关于的线性回归方程;(参考公式:,)
(2)若明年计划投入宣传费12万元,预测年利润.
【答案】(1)
(2)万元
【分析】
【详解】(1)
,
,
所以,
因此,
所以关于的线性回归方程;
(2)把代入中,得,
所以预测明年利润为万元.
15.实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价(元)与网上月销量(万件)的数据如下:
(1)求相关系数(保留3位小数),并说明与的线性相关程度;
(2)建立关于的线性回归方程;
(3)若月销量不低于万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【答案】(1),与完全线性负相关.
(2)
(3)定价最高为元.
【详解】(1),,
故
,
故与完全负相关.
(2),故,
故回归方程为.
(3)由题设,此时,故,故定价最高为元.
16.电动自行车作为一种绿色、节能的交通工具,受到广大市民的青睐,但随之而来的电动自行车违规停放和充电的问题,已成为城市管理的一大难题.某市为切实消除电动自行车消防安全隐患,决定在各小区建设智能充电桩,并统计了第1个月到6个月的充电桩的建成数量(单位:千个)如下表所示:
第个月
1
2
3
4
5
6
充电桩建成数量(千个)
0.9
1.7
3.2
5
5.3
5.5
根据表中数据,拟使用模型和模型对两个变量,进行拟合.
(1)请从相关系数的角度,分析哪一个模型的拟合程度更好;
(2)根据(1)的分析,选取拟合程度更好的模型,求出关于的经验回归方程,并预测到第8个月时,全市的充电桩建成数量.
参考公式:对于一组数据,其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,,令,,,;令,,,.
【答案】(1)的拟合程度更好.
(2)经验回归方程为,预测到第8个月时,全市的充电桩建成数量为6400个.
【分析】
【详解】(1)对于模型,令,代入公式得.
对于模型,令,代入公式得.
因为,所以的拟合程度更好.
(2),.
根据最小二乘估计,.
因此关于的经验回归方程为.
当时,代入得.
因此预测到第8个月时,全市充电桩建成数量为千个.
1 / 10
学科网(北京)股份有限公司
$
考点11 成对数据的相关性及线性回归方程模型
考点一:相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
考点二:回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
题型一:相关关系的辨析及判断
先区分函数关系(确定)与相关关系(不确定),再看变化趋势:同增为正相关,一增一减为负相关。观察散点是否靠近直线,判断是线性相关还是非线性相关。
【例1】在下列两个量之间的关系中,属于相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.一块农田的小麦产量与施肥量 D.正n边形的边数与内角度数之和
【例2】某公司2018-2023年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示.
年份
2018
2019
2020
2021
2022
2023
x/百万元
12.2
14.6
16.0
18.0
20.4
22.3
y/百万元
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,年利润中位数( )
A.是16,x与y有正线性相关关系
B.是17,x与y有正线性相关关系
C.是17,x与y有负线性相关关系
D.是18,x与y有负线性相关关系
【变式1-1】已知变量与正相关,变量与满足,则下列说法正确的是( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与正相关 D.与负相关,与负相关
【变式1-2】下列关系中,属于相关关系的是______(填序号).
①球的体积与该球的半径之间的关系;
②农作物的产量与施肥量之间的关系;
③一般情况下,一个人的身高和体重之间的关系.
【变式1-3】观察下列散点图,有三种情况:①正相关,②负相关,③不相关.与散点图的位置相对应的序号依次是______.
题型二:相关系数的理解及计算
牢记相关系数公式与范围,正相关,负相关。越接近1线性相关性越强,大于0.75为强线性相关。
计算时先算、,再代入公式分子分母分别计算,分步求值减少错误,直接用性质判断正负与强弱。
【例3】对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
【例4】粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码i,表示年份代码为i的产量,经计算得,,.
(1)求样本的相关系数r;(精确到0.01)
(2)现从这5年中随机抽取3年,记这3年中小麦产量大于13.6千万吨的年数为X,求X的分布列与数学期望.
附:相关系数,.
【变式2-1】已知四个点,,,得到的线性相关系数为,去掉后得到的线性相关系数为,则( )
A. B. C. D.无法确定
【变式2-2】为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【变式2-3】近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
题型三:样本中心点的应用
样本中心点为,回归直线一定过该点,这是高频考点。已知可直接求,已知可反求。
题目给出多组数据时,先算平均值得到中心点,再代入回归方程求未知参数,一步到位,不用复杂计算。
【例5】若一组点通过最小二乘估计得到的回归直线方程为,且,则______.
【例6】现有10个样本数据,,…,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C. D.2
【变式3-1】已知变量和满足经验回归方程,且变量和之间的一组相关数据如下表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【变式3-2】已知变量和变量的一组成对样本数据,其经验回归方程为,若,,新样本数据得到的经验回归方程依然为,则( )
A. B. C. D.
【变式3-3】给定变量与相对应的一组数据,若通过该组数据求得的回归直线方程为,则的值为__________.
题型四:残差分析与决定系数
残差是实际值减预测值,残差图均匀分布在水平窄带内说明拟合好。决定系数越接近1、残差平方和越小,模型拟合效果越好。
判断拟效果优先看,再看残差图,按“大、残差小、带状窄”三个标准判断,结论直接明确。
【例7】根据生物实验中的一组数据作出如图所示的散点图,并对这组数据进行回归分析后发现遗漏了点,增加点后再次进行回归分析,得到的结果和原来相比( )
A.决定系数变小 B.残差平方和变小
C.相关系数变大 D.不变
【例8】(多选)生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关.有人调查了10名男大学生的身高(单位:)及其父亲身高(单位:)的数据,已知其中一组数据为,且,求得经验回归方程为,并绘制了如下残差图(残差观测值预测值),则
A.这10名男大学生的身高的平均值为176.75
B.由残差图可判定儿子身高与父亲身高的关系不符合上述回归模型
C.数据对应的残差为3.7
D.去掉数据后,重新求得的回归直线的决定系数变小
【变式4-1】已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
【变式4-2】某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【变式4-3】某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
参考公式:相关系数,经验回归方程为,其中,,.
A. B. C. D.
题型五:线性回归分析
先判断线性相关(用或散点图),再用最小二乘法求、,写出回归方程。代入可预测值。
计算遵循“先平均、再求、后求”,利用样本中心点简化计算,预测时注意取值范围,不盲目外推。
【例9】某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格(元)
日需求量()
(1)求关于的线性回归方程;
(2)利用(1)中的回归方程,当价格元时,日需求量的预测值为多少?
参考公式:线性回归方程,其中,
【例10】如图是我国2015年至2023年岁及以上老年人人口数(单位:亿)的折线图,
注:年份代码分别对应年份.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数(结果精确到)加以说明;
(2)建立关于的回归方程(系数精确到).
参考数据:,,,.
参考公式:相关系数 若,则与有较强的线性相关性.
回归方程中斜率和截距的最小二乘估计公式分别为:,.
【变式5-1】某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高(单位:)与父亲身高(单位:)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
父亲身高
160
170
175
185
190
儿子身高
170
174
175
180
186
参考数据及公式:,,,,,.
根据表中数据,求出关于的线性回归方程.
【变式5-2】为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
【变式5-3】新型模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图像数据对一种新型降噪模型进行实验,对使用该模型后,图像中的噪声残留量y(单位:个/像素)进行检测,统计得到下表:
第x轮迭代
1
2
3
4
5
噪声残留量y(个/像素)
67
57
50
42
34
并计算得:.
(1)计算变量x(迭代轮数)和变量y(噪声残留量)的样本相关系数r(r的值精确到0.001);
(2)若图像中的噪声残留量不高于10个/像素,则说明数据降噪完成.用最小二乘法求y关于x的经验回归方程,并预测该模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,,.
题型六:非线性回归分析(选填)
【例11】(多选)(多选题)某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
【例12】为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
【变式6-1】某地为响应“扶贫必扶智,扶智就是扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农民免费借阅,收集的自2017年至2021年共5年的年借阅数据如下表:
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
年借阅量(万册)
2
17
36
93
142
根据上表,可得关于的二次回归方程为,则下列说法正确的是( )
A.
B.2,17,36,93,142的第三四分位数为93
C.此回归模型2020年的残差(实际值与预报值之差)(多选)为5
D.估计2022年借阅数为220
【变式6-2】2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【变式6-3】已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则_______.(参考数据:)
题型七:非线性回归分析(解答)
先对原变量做变换(如、),将非线性模型转化为线性模型,再求关于的回归方程。
最后回代还原为关于的表达式,步骤规范:换元→求线性回归→回代→写最终模型,每步清晰不跳步。
【例13】某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量(库仑)与使用时间(小时)的散点图,其中为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ii)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考公式:.参考数据:记
45
12.02
1.55
20.20
285
-4.25
45.07
3.42
【例14】椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【变式7-1】学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【变式7-2】某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【变式7-3】脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
一、单选题
1.对于变量有观测数据,得散点图1;对于变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法不正确的是( )
A. B.
C. D.
2.某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
3.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
4.以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
5.某研究小组为了探究变量x与y之间的线性相关关系,收集了5组数据,(),并绘制成如图所示的散点图(点A,B,C,D,E).经计算,这5组数据的样本相关系数为r.若去掉点后,剩余4组数据的样本相关系数为,则下列结论正确的是( )
A. B. C. D.
6.已知样本点,,……,的经验回归直线的方程为,相关系数为,样本均值分别为,.现令,.设新样本点的经验回归直线为,则下列命题为假命题的是( )
附:样本相关系数,经验回归方程中斜率和截距的最小二乘估计公式分别为,.
A.与的相关系数为 B.过
C.的斜率为 D.的截距为
7.某学校数学学习兴趣小组利用信息技术手段探究两个数值变量之间的线性关系,随机抽取8个样本点,由于操作过程的疏忽,在用最小二乘法求经验回归方程时只输入了前6组数据,得到的线性回归方程为,其样本中心为.后来检查发现后,输入8组数据得到的新的线性回归方程为,新的样本中心为,已知,则以下结论中正确的个数是( )
①新的样本中心仍为;
②新的样本中心为;
③两个数值变量具有正相关关系;
④.
A.0 B.1 C.2 D.3
8.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月
1
2
3
繁殖数量
A.百只 B.百只 C.百只 D.百只
二、多选题
9.下列关于相关系数的说法正确的是( )
A.相关系数越大两个变量间相关性越强
B.相关系数的取值范围为
C.相关系数时两个变量正相关,时两个变量负相关
D.相关系数时,样本点在同一直线上
10.为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
三、填空题
11.下列关系中,属于相关关系的是________.(填序号)
①扇形的半径与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
12.如图,由观测数据的散点图可知,与的关系可以用模型拟合,设,利用最小二乘法求得关于的回归方程为.已知,,则________.
13.已知x与y之间的几组数据如下表.
x
1
2
3
4
y
4
m
n
1
表中y的平均值为2.5,若某同学对m赋了三个值,分别为3.5,3,2.5,得到三条线性回归直线的方程,分别为,对应的相关系数分别为,则下列结论中正确的是_______.(填序号)①在同一个坐标系中,三条回归直线可以围成一个封闭图形;②;③;④相关系数中,最大.
参考公式:线性回归方程,其中;相关系数;.
四、解答题
14.某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
2
4
6
8
10
40
45
50
55
60
经计算:,,,
(1)求关于的线性回归方程;(参考公式:,)
(2)若明年计划投入宣传费12万元,预测年利润.
15.实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价(元)与网上月销量(万件)的数据如下:
(1)求相关系数(保留3位小数),并说明与的线性相关程度;
(2)建立关于的线性回归方程;
(3)若月销量不低于万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
16.电动自行车作为一种绿色、节能的交通工具,受到广大市民的青睐,但随之而来的电动自行车违规停放和充电的问题,已成为城市管理的一大难题.某市为切实消除电动自行车消防安全隐患,决定在各小区建设智能充电桩,并统计了第1个月到6个月的充电桩的建成数量(单位:千个)如下表所示:
第个月
1
2
3
4
5
6
充电桩建成数量(千个)
0.9
1.7
3.2
5
5.3
5.5
根据表中数据,拟使用模型和模型对两个变量,进行拟合.
(1)请从相关系数的角度,分析哪一个模型的拟合程度更好;
(2)根据(1)的分析,选取拟合程度更好的模型,求出关于的经验回归方程,并预测到第8个月时,全市的充电桩建成数量.
参考公式:对于一组数据,其相关系数;其回归直线的斜率和截距的最小二乘估计分别为:,.
参考数据:,,令,,,;令,,,.
1 / 10
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。