专题8.2 一元线性回归分析(高效培优讲义)数学沪教版选择性必修第二册
2026-02-28
|
2份
|
63页
|
260人阅读
|
16人下载
精品
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学沪教版选择性必修第二册 |
| 年级 | 高二 |
| 章节 | 8.2 一元线性回归分析 |
| 类型 | 教案-讲义 |
| 知识点 | 回归分析 |
| 使用场景 | 同步教学-新授课 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 4.66 MB |
| 发布时间 | 2026-02-28 |
| 更新时间 | 2026-02-28 |
| 作者 | 热爱数学者 |
| 品牌系列 | 学科专项·举一反三 |
| 审核时间 | 2026-02-28 |
| 下载链接 | https://m.zxxk.com/soft/56598857.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
专题8.2 一元线性回归分析
教学目标
1.了解一元线性回归模型的含义,了解最小二乘原理。
2.了解非线性回归模型。
3.了解离差、离差图的概念。
教学重难点
1.重点
(1)掌握一元线性回归模型参数的最小二乘估计方法;
2.难点
(1)针对实际问题,会用一元线性回归模型进行预测;
(2)掌握对数函数模型、指数函数模型和幂函数模型的求解过程;
知识点01 离差的概念及其相关概念
一、离差的概念与作用
一般地,设给定一组有线性相关关系的成对数据、、…、和一个线性方程(或称线性模型); ①
如何描述数据与此线性方程的贴近度呢?
当变量取值(=1,2,…,)时,令,它是变量与对应的理想值;
但数据中的与不一定相同,它们的差称为在处的离差;
当时称为正离差,而当时称为负离差;
显然,离差直观地描述了单对数据与线性方程①的贴近度;
二、拟合误差
可以像计算方差那样,用离差的平方和Q=(yi-)2来刻画直线与点之间的拟合程度;称为拟合误差;它是一个很好的描述数据与线性方程①贴近度的指标;
离差平方和:残差平方和(yi-)2越小,模型的拟合效果越好.
【即学即练】
1.下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.离差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
【答案】B
【分析】根据线性回归直线的性质可判断选项ABC;根据相关系数的性质可判断D,进而可得正确选项.
【详解】对于选项A:样本数据点的中心一定在线性回归直线上,故A错误;
对于选项B:离差平方和越小的模型,拟合的效果越好,故B正确;
对于选项C:线性回归直线在散点图中可能不经过任一样本数据点,故C错误;
对于选项D:如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误;
故选:B.
知识点02 回归分析及其相关概念
我们把拟合误差取得最小值时得到的线性方程(线性模型)记为
并称之为变量随波动的回归方程或回归模型,其中自变量称为解释变量,因变量称为反应变量;回归方程所定义的直线称为回归直线,回归方程的系数(或称回归模型的参数)与称为回归系数;
由一组有离差种线性关系的成对数据求其回归方程的方法称为一元线性回归分析;
回归系数与的计算方法如下:
其中,与分别是数据与(=1,2,…,)的算术平均数;数对称为样本点的中心。
最小二乘法与最小二乘估计量
我们的回归分析是基于取最小值的假设,即基于所有离差的平方和取最小值的假设进行的;这种回归分析的方法称为最小二乘法,由最小二乘法导出的估计量称为最小二乘估计量,所得到的回归系数与又称为模型参数与的最小二乘估计;
【即学即练】
2.设一条经验回归直线的方程为,则当变量x增加一个单位时,( )
A.y平均增加1.2个单位 B.y平均增加3个单位
C.y平均减少1.2个单位 D.y平均减少3个单位
【答案】C
【分析】由经验回归直线的方程中的系数的意义即可得解.
【详解】设一条经验回归直线的方程为,则当变量x增加一个单位时,y平均减少1.2个单位.
故选:C.
题型01 回归直线方程的意义
【典例1】茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
【答案】C
【分析】由已知表格中的数据,代入回归直线方程即可求解参数判断A,应用回归直线判断B,C,在回归方程中,将代入,求得值即可判断D.
【详解】由题知,.
代入,得出,
所以,A选项正确;
,变量和呈正相关,B选项正确;
由题知,,该经验回归方程必过点,C选项错误;
当时,,
故当某户家庭人口数为8时,预测该户茶产业的年收入为25.7万元,D选项正确;
故选:C
【变式1-1】下列有关回归分析的说法正确的是( )
A.样本相关系数越大,则两变量的相关性就越强.
B.回归直线就是散点图中经过样本数据点最多的那条直线.
C.回归直线方程不一定过样本中心点.
D.回归分析中,样本相关系数,则两变量是负相关关系.
【答案】D
【分析】由知识点:两变量的相关性就越强,则相关系数越接近或,当相关系数时两个变量正相关,时两个变量负相关;回归直线方程一定过样本中心点;回归直线是基于样本数据使离差平方和最小的拟合直线,可得正确答案.
【详解】由知识点:两变量的相关性就越强,则相关系数越接近或可知A不正确;由回归直线是基于样本数据使离差平方和最小的拟合直线可判断B不正确;由回归直线方程一定过样本中心点可知C不正确;由当相关系数时两个变量正相关,时两个变量负相关可得D正确.
故选:D
【变式1-2】①事件A和事件B互斥,则;
②数据2,3,6,7,8,10,13,15的第50百分位数为7;
③在线性回归模型中,拟合误差越小,表示回归的效果越好;
④随机变量X的方差,则.
其中正确命题的序号为 .
【答案】①③
【分析】由互斥的并事件的概率判断①,利用百分位数的定义计算可判断②,拟合误差越小,表示回归的效果越好可判断③,利用方差的性质计算可判断④.
【详解】对于①,事件A和事件B互斥,则,故①正确;
对于②,因为,所以数据2,3,6,7,8,10,13,15的第50百分位数为,故②不正确;
对于③,在线性回归模型中,拟合误差越小,表示回归的效果越好,故③正确;
对于④,随机变量X的方差,则,故④错误.
故答案为:①③.
【变式1-3】给出下列四个命题:
①线性相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱;
②由变量和的数据得到其回归直线方程,则一定经过点;
③在回归分析模型中,离差平方和越小,说明模型的拟合效果越好;
④在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加个单位.
其中,所有真命题的序号是 .
【答案】②③④
【分析】根据相关系数、回归方程和回归分析的相关知识依次判断各个选项即可.
【详解】对于①,若,,则,此时对应的两个变量的线性相关性更强,①错误;
对于②,回归直线必过样本中心点,②正确;
对于③,离差平方和越小,模型拟合效果越好,③正确;
对于④,由回归方程可知:当解释变量每增加一个单位时,预报变量平均增加个单位,④正确.
故答案为:②③④.
题型02 求回归直线方程
【典例2】将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则 .
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
【答案】
【分析】利用相关系数与回归系数的关系,结合已知数据计算.需要先求出,再通过求出分子,最后代入公式得到.
【详解】因为,,所以.
由,
解得,所以.
故答案为:
【答案】D
【分析】根据散点图中点的分布特征,结合相关性的定义,即可得出结论.
【详解】根据散点图,由相关性可知:图a各点散布在从左下角到右上角的区域里,是正相关;
图b中各点分布不成带状,相关性不明确,所以不相关;
图c中各点分布在从左上方到右下方的区域里,是负相关.
故选:D
【变式2-1】某研究机构对高三学生的记忆力和判断力进行统计分析,得表数据.请根据上表提供的数据,求出关于的线性回归方程为 ,据此可预测判断力为4的同学的记忆力为 .
6
8
10
12
2
3
5
6
(回归直线方程是:,其中,)
【答案】 9
【分析】设回归方程,利用表中数据,根据最小二乘原理求得系数,即得方程;再用方程代入数据预测记忆力即可.
【详解】设y关于x的线性回归方程为,直线过样本中心点,
由表格数据得,,
,,
故根据最小二乘原理知,
所以,
即线性回归方程为;将代入方程,得,
即可预测可预测判断力为4的同学的记忆力为.
故答案为:①;②.
【变式2-2】为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,
则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.相关系数的绝对值越接近0,表示的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
【答案】D
【分析】对于A,根据条件,直接求出,即可求解;对于B,根据条件,画出散点图,即可求解;对于C,根据相关系数的定义判断即可;对于D,利用线性回归直线方程过样本中心,代入计算,即可求解.
【详解】对于选项A,由题知,
,故选项A正确;
对于选项B,由图表可得散点图如下,由散点图知变量和正相关,所以选项B正确;
对于选项C,相关系数的绝对值越接近0,表示的线性相关程度越弱,故选项C正确;
对于选项D,因为样本中心点为,又,
所以不是关于的线性回归直线方程,故选项D不正确.
故选:D
【变式2-3】电视剧《狂飙》于2023年1月在央视八套黄金档首播,承载着深厚的历史底蕴的《狂飙》取景拍摄地之一的江门三十三墟街即成网红打卡地,吸引了大量游客前来打卡,寻觅剧中的足迹.某文创商店为了了解游客人流量x(单位:百人次)与文创产品销售额y(单位:百元)的关系,对文创商店近期的销售情况作了统计,如下表:
2
3
4
5
6
3.8
6.1
7.8
9.9
12.4
由表中的数据得到了y关于x的线性回归方程,其中已知,由此当预测游客人流量为700人次时,文创产品的销售额大约为( )
A.1430元 B.1420元 C.1455元 D.1416元
【答案】A
【分析】由题意可得,,代入回归方程可得,从而得,即可求解.
【详解】由题意可得,,
则,解得,所以方程,
所以当时,,即元,故A正确.
故选:A.
题型03 利用回归方程进行数据估计
【典例3】某书店为了分析书籍销量与宣传投入之间的关系,对宣传投入x(千元)和书籍销量y(百本)的情况进行了调研,并统计得到表中几组对应数据,同时用最小二乘法得到y关于x的线性回归方程为,则下列说法不正确的是( )
x
3
4
5
6
y
5
6.2
7.4
m
A.变量x、y之间呈正相关 B.预测当宣传投入2千元时,书籍销量约为400本
C. D.拟合误差
【答案】C
【分析】根据线性回归方程即可判断;将代入线性回归方程即可判断;由在线性回归方程上,即可求解;根据拟合误差计算公式求解即可.
【详解】因为线性回归方程为,,
所以变量x、y之间呈正相关,故正确;
当时,(百本),所以书籍销量约为400本,故正确;
由表中数据可得,,
所以,解得,故错误;
当时,,,
当时,,,
当时,,,
当时,,,
所以,故正确.
故选:.
【变式3-1】若对具有线性相关关系的两个变量建立的回归方程为,则当时,的估计值为 .
【答案】
【分析】
将代入回归直线方程可得结果.
【详解】将代入回归直线方程可得.
故答案为:.
【变式3-2】某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的离差
D.第三个样本点对应的离差
【答案】C
【分析】根据相关系数的绝对值不超过1可得选项A错误;根据回归直线方程可得选项B错误;根据离差的概念可得选项C正确,选项D错误.
【详解】A.相关系数的绝对值不超过1,A错误;
B.由回归直线方程知,每增加一个单位,平均减少个单位,B错误;
C.第二个样本点对应的离差,C正确;
D.第三个样本点对应的离差,D错误.
故选:C.
【变式3-3】若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B. C. D.
【答案】D
【详解】解析 对于A:因为在定义域内单调递增且,所以随着的增大而增大,不合题意,故A错误;
对于B:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故B错误;
对于C:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故C错误;
对于D:因为在定义域内单调递减且,所以随着的增大而减小,当解释变量,,故D正确;故选D.
题型04 非线性回归分析
【典例4】13.用模型拟合一组数据时,为了求出非线性回归方程,设,其变换后得到线性回归方程为,则c等于( )
A. B. C.2 D.
【答案】B
【分析】由回归模型,两边取对数,得到,根据题意,得到,即可求解.
【详解】由回归模型,可得,即,
因为变换后得到线性回归方程为,可得,所以.
故选:B.
【变式4-1】害虫防控对于提高农作物产量具有重要意义.已知某种害虫产卵数(单位:个)与温度(单位:)有关,测得一组数据,可用模型进行拟合,利用变换得到的线性回归方程为.若,则的值为 .
【答案】
【分析】将非线性模型两边同时取对数可得,再将样本中心点代入回归方程可得,即可计算出.
【详解】对两边同时取对数可得;
即,可得
由可得,
代入可得,即,所以.
故答案为:
【变式4-2】某科技创新型企业自创建以来,不断加大研发投入,走科技创新之路,年利润得到较快增长,2021~2025连续五年的年利润y(单位:亿元)与年份序号x(,2,3,4,5,其中2021年记为1,2022年记为2,以此类推)满足某一元非线性回归方程,统计数据如下:
374
230
6.3
144
1.6
4
注:,.
(1)设和y的相关系数为,x和v的相关系数为,请从相关系数的角度,确定和(其中a,b,m,n均为常数,e为自然对数的底数)哪一个拟合程度更好;
(2)根据(1)的结论及表中数据,建立y关于x的回归方程.
附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为, .
②参考数据:.
【答案】(1)模型的拟合程度更好
(2).
【分析】(1)根据相关数据分别计算出和y的相关系数和x和v的相关系数,比较大小,即可得结论;
(2)根据最小二乘估计公式求出相关参数,即可得答案.
【详解】(1)令,则可化为,
,
令,则可化为,即,
因为,
所以,
则,因此从相关系数的角度来看,模型的拟合程度更好.
(2)由(1)知,用模型比较合适,
令,则可化为,即,
所以,
因为,,所以,
则关于的回归直线方程为,所以.
【变式4-3】台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
【答案】(1)模型②的拟合程度更好
(2)13(百万辆)
【分析】(1)利用公式分别求出模型①和②的相关系数,结合相关系数的意义即可判断哪一个模型拟合程度更好;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解..
【详解】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
题型05 利用样本中心点求参数
【典例5】已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
0
1
2
3
5
【答案】/
【分析】由题意求得两个变量的平均值,即样本中心,将其代入回归直线,可得斜率,进而可得答案.
【详解】由表格可得的平均值,
则,
由表格可得的平均值,
将代入回归直线,可得,解得,
则,当,则.
故答案为:.
【变式5-1】近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若离差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【分析】将两边同时取对数可得,结合所给经验回归方程求出,由所给参考数据求出,即可求出决定系数.
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
【变式5-2】用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【答案】
【分析】将两边取自然对数,再结合题意得到,,即可求出.
【详解】因为,两边取自然对数可得,
令,可得,又,
所以,,所以,
所以.
故答案为:
【变式5-3】为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A;由的正负即可判断B;.根据回归方程代入计算即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,解得,故A错误;
因为,所以与的样本是正相关,故B错误;
当时,的预估值为,故C错误;
由相关系数公式可知,去掉样本点后,与的样本相关系数不会改变,故D正确.
故选:D.
题型06 离差的相关问题
【典例6】已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的离差为( )
A. B. C. D.
【答案】D
【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由离差定义可得结果.
【详解】,增加两个样本点后的平均数为;
,,增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的离差为.
故选:D.
【变式6-1】某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(离差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的离差为,则表中的值为 .
【答案】
【分析】根据离差求得时的预测值,从而求得,再根据样本中心一定在回归直线上即可得到答案.
【详解】由题意可得时的预测值为,
所以,解得,即经验回归方程为,
又因为,,
所以,解得,
故答案为:
【变式6-2】为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的离差为0,则 .
【答案】290
【分析】先利用离差的计算公式求出,再根据回归直线过样本点的中心求出,即可得解.
【详解】因为在样本点处的离差为0,
所以,得,
则y关于x的线性回归方程为.
因为,所以,
所以.
故答案为:
【变式6-3】小明研究温差(单位:)与本单位当天新增感冒人数(单位:人)的关系,他记录了5天的数据:
3
4
5
6
7
16
20
25
28
36
由表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是( )
A.与正相关 B.经验回归直线经过点
C.当时,离差为1.8 D.
【答案】C
【分析】观察数据或者求得,可知正相关,从而判定A;利用样本中心点在回归直线上,可以判定B;求出的估计值,进而计算离差,从而判定CD.
【详解】选项A:观察数据,增大时也增大,说明正相关,故A正确;
选项B: 易得,,样本中心点为,回归直线方程经过样本中心点,故B正确;
对于CD:将样本中心点坐标代入回归直线方程得
,故D正确.
计算预测值,实际值,
离差.
题目中离差为1.8(未考虑符号),故C错误,
故选:C
题型07 线性回归与其他知识综合
【典例7】随着粤港澳大湾区建设、黄河流域生态保护和高质量发展等区域重大战略实施取得新成效,城乡融合和区域协调发展继续推进,2024年末全国常住人口城镇化率增长至67.00%.下图为2020-2024年年末常住人口城镇化率的折线图.
(1)由折线图看出,可用线性回归模型拟合常住人口城镇化率与年份代码的关系,请建立关于的回归方程,并估计2026年常住人口的城镇化率的值.
(2)从这5年中任取3年,记常住人口城镇化率不超过的年数为,求的分布列与数学期望.
附:回归方程中斜率和截距的最小二乘法公式分别为:,.
【答案】(1);;
(2)分布列见解析,
【分析】(1)求出、的值,将样本数据代入最小二乘法公式,求出、的值,即可得出回归直线方程;
(2)由题意可知,随机变量的取值可能为0、1、2,计算出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得的值.
【详解】(1)设年份代码的平均数为,则.
设常住人口城镇化率的平均数为,则.
因为,
,
所以.
所以.
所以关于的回归方程为.
估计2026年常住人口的城镇化率的值为
(2)由图可知,第、、年常住人口城镇化率超过,
由题意可知,的取值可能为0、、,
因为,,,;
所以的分布列为:
所以的数学期望为.
【变式7-1】近期甲型H3N2流感来袭,医学研究表明,如果每天温差太大,人们受风寒刺激极易受凉感冒,自身抵抗力就会变弱,易受流感病毒侵袭,特别是对于学生及老年人群体更需保暖和多加防范.我校数学建模社团成员共同研究了一天昼夜温差的大小与我校患流感就诊人数多少之间的关系,他们记录了某周周一至周六的温差,并到校医室查阅了这六天中每天学生新增流感就诊的人数,得到数据如下:
日期
周一
周二
周三
周四
周五
周六
昼夜温差t(℃)
4
7
8
9
14
12
新增流感就诊人数y(位)
y₁
y₂
y₃
y₄
y₅
y₆
参考数据:,
(1)已知第一天新增流感就诊的学生中有3位男生,从第一天新增的流感就诊学生中随机抽取2位,其中男生人数记为X,若抽取的2人中至少一位女生的概率为 求X的分布列和数学期望;
(2)已知两个变量t与y之间的样本相关系数 ,请用最小二乘法求出y关于t的经验回归方程 ,据此估计昼夜温差为13℃时,我校新增流感就诊的学生人数.
参考公式:,
【答案】(1)分布列见解析,数学期望为.
(2)经验回归方程为;当昼夜温差13℃时,我校新增流感就诊的学生人数为人.
【分析】(1)先根据已知条件求出第一天新增流感就诊的学生总数,然后求出的可能取值为0,1,2以及对应的概率值,列出分布列,根据期望公式求出数学期望即可.
(2)根据条件中给的公式和相关系数先求出,然后得到,然后根据公式求出,进而得到,从而求得经验回归方程和昼夜温差为13℃时的函数值.
【详解】(1)因为抽取的2人中至少一位女生的概率为,所以抽取的2人中全是男生的概率为.
设第一天新增流感就诊的学生共人,则,化简得.
解得(舍去)或.
所以由题意可知的可能取值为0,1,2,
.
所以的分布列为
0
1
2
所以数学期望为.
(2)由题意可知,,
所以.
所以.
因为,所以,
解得.而,所以
所以y关于t的经验回归方程为.
当昼夜温差时,我校新增流感就诊的学生人数为人.
【变式7-2】某强基计划试点高校为选拔基础学科拔尖人才,对考生设置两项能力测试:学科知识整合能力指标(考察数学、物理等学科知识的交叉应用)和创新思维能力指标(考察逻辑推理、问题建模等能力).随机抽取5名考生的测试结果如表:
6
8
9
12
2
3
4
5
6
(1)若学科知识整合能力指标的平均值,
(ⅰ)求的值;
(ⅱ)求关于的经验回归方程,并估计学科知识整合能力指标为14时的创新思维能力指标;
(附:经验回归方程中和的最小二乘估计分别为,
(2)现有甲、乙两所试点高校的强基计划笔试环节均设置了三门独立考试科目,每门科目通过情况相互独立;
甲高校:每门科目通过的概率均为,通过科目数记为随机变量;
乙高校:第一门科目通过概率为,第二门科目通过概率为,第三门科目通过概率为,
通过科目数记为随机变量;
若以笔试环节通过科目数的期望为决策依据,分析考生应选择报考哪所高校.
【答案】(1)(ⅰ);(ⅱ),7.5;
(2)该考生更应报考乙高校,理由见解析.
【分析】(1)(ⅰ)根据表格中的数据和平均数得到方程,求出;
(ⅱ)利用公式求出,,并求出当时,,得到答案;
(2),从而,求出的所有可能取值和对应的概率,得到数学期望,比较后得到答案.
【详解】(1)(ⅰ)由表格数据可得,解得.
(ⅱ)显然,
则
,
,
.
.∴所求经验回归方程为.
当时,,
∴当学科知识整合能力指标为14时,创新思维能力指标的预测值为7.5;
(2)该考生通过甲高校的考试科目数为,则.
则.
设该考生通过乙高校的考试科目数为,则的所有可能取值为.
,
,
,
.
.
∴该考生更应报考乙高校.
【变式7-3】海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
离差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述离差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:离差,决定系数)
【答案】(1)吨.
(2)离差表见解析;,拟合效果较好.
【分析】(1)先求出平均数,代入经验回归方程即可求出b,从而求解.
(2)(i)根据经验回归方程求解,从而可得;
(ii)根据公式求出决定系数,进而判断.
【详解】(1)根据题中数据可知,,
将样本中心点的坐标代入经验回归方程得
,解得,
所以经验回归方程为.
当时,,
即当浇灌海水浓度为8‰时,该品种海水稻的亩产量为吨.
(2)(i)由经验回归方程可得
,;
,;
,;
,;
,.
所以离差表如下:
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
离差
(ii)由上数据可知,
,
所以决定系数,与1比较接近,
所以拟合效果较好.
一、单选题
1.已知线性相关系数r是描述成对数据线性相关程度的统计量,也称为皮尔逊相关系数;一元线性回归分析是基于拟合误差Q取最小值的假设进行的,最终可得回归方程(回归直线).现有5个数据点,小明对它们进行了一元线性回归分析,得到线性相关系数和回归方程,随后发现自己漏掉了一个数据点且恰好.重新计算6个数据点得到线性相关系数和回归方程,对于下面两个说法:
①一定小于 ②与一定重合
则( )
A.①正确②错误 B.①正确②正确 C.①错误②正确 D.①错误②错误
【答案】C
【分析】根据相关系数的定义,以及得到回归直线方程的过程,即可判断选项.
【详解】当增加一个与回归直线完全拟合的数据点后,这个点没有产生新的拟合误差,整体数据点与回归直线的拟合程度变得更好,所以,不一定,故①错误;
回归方程是基于5个数据点通过最小二乘法(使拟合误差取最小值)得到的,当加入新的数据点,因为它在回归直线上,它不会改变原来使取得最小的直线的位置,所以与一定重合,故②正确.
故选:C
2.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,统计出小李某月1号到5号每天打篮球时间(单位:h)与当天投篮命中率的成对数据满足的关系式:,,.若与满足线性回归方程,则回归系数( )(参考公式:)
A.0.04 B.0.03 C.0.02 D.0.01
【答案】D
【分析】根据回归系数公式,代入数据求出结果即可.
【详解】已知,则,,
则,
故选:D.
3.已知两个变量与对应关系如下表:
若与满足一元线性回归模型,且经验回归方程为,则( )
A.与负相关
B.在处的离差为
C.经验回归直线过点
D.变量每增加一个单位,实际值一定增加个单位
【答案】C
【分析】根据回归直线的斜率可判断A选项;利用离差的定义可判断B选项;求出的值,代入回归直线方程,可判断C选项;根据经验回归方程的意义可判断D选项.
【详解】对于A选项,因为回归直线的斜率为,所以与正相关,A错;
对于B选项,当处的离差为,B错;
对于C选项,,则,
故经验回归直线过点,C对;
对于D选项,变量每增加一个单位,实际值增加个单位左右,D错.
故选:C.
4.已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【分析】利用回归直线方程必过样本中心点,可判断出A和D的正误;对B,代入回归方程,即可求解;对C,利用回归方程的系数的正负,即可判断正误.
【详解】对于A,因为变量和满足经验回归方程,
又,,所以,
解得,所以A正确;
对于B,因为变量和满足经验回归方程,
当时,,所以B正确;
对于C,因为变量和满足经验回归方程,
,所以变量和呈负相关,所以C正确;
对于D,由选项A知,,,该经验回归直线必过点,所以D错误.
故选:D.
5.已知变量的统计数据如下表:
0
1
2
3
4
10
15
20
30
35
分析表中的数据,发现与之间具有线性相关关系,计算得经验回归直线方程为,据此模型预测:当时,的值为( )
A.71.5 B.72 C.73.5 D.74
【答案】D
【分析】根据已知求出样本中心,再由样本中心在回归直线上求参数,进而求估计值.
【详解】由数据得,,
所以,可得,故,
所以,则.
故选:D
6.为了研究某种商品的广告投入x和收益y之间的相关关系,某研究小组收集了5组样本数据如表所示,得到线性回归方程为,则当广告投入为10万元时,收益的预测值为( )万元.
/万元
1
2
3
4
5
/万元
0.50
0.80
1.00
1.20
1.50
A.2.48 B.2.68 C.2.78 D.2.88
【答案】B
【分析】计算出、代入线性回归方程求出,得到线性回归方程可得答案.
【详解】由题意,得,,
则,则,
则当广告投入为10万元时,收益的预测值为万元.
故选:B
7.我国2016-2024年科幻产业营收(单位:亿元)如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
2024
时间变量
1
2
3
4
5
6
7
8
9
营收
100.0
140.0
456.4
658.7
551.1
829.6
877.5
1132.9
1089.6
根据表中数据建立与的线性回归方程,预测我国2025年科幻产业营收约为()(参考数据:)
A.1222.1亿元 B.1310.9亿元 C.1339.1亿元 D.1443.4亿元
【答案】B
【分析】先利用样本中心点在回归直线上的性质,求出截距,再代入2025年对应的时间变量计算预测值.
【详解】,
所以样本中心点为满足回归方程,
代入得:,计算得:
所以回归方程为.
2025年对应的时间变量,代入回归方程:
因此,预测我国2025年科幻产业营收为1310.9亿元.
故选:B
8.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
【答案】D
【分析】根据回归直线方程必过样本中心建立方程,解方程即可求出结果.
【详解】由回归直线过样本中心点,得,
,代入,得,
方程两边同时乘5,得.
故选:D.
三、填空题
9.若关于某人工智能设备的使用年限和所支出的维修费用(万元)统计数据如下:
使用年限
2
3
4
5
6
维修费用
2.2
3.8
5.5
6.5
7.0
若有数据知对呈线性相关关系.其线性回归方程为,请估计使用10年时的维修费用是 万元.
【答案】11
【分析】根据均值点在回归方程上,可得,得到回归方程,即可求解.
【详解】由题知,
,即回归方程为,
所以估计使用10年时的维修费用是11万元.
故答案为:11.
10.为了研究某班学生的听力成绩(单位:分)与笔试成绩(单位:分)的关系,从该班随机抽取20名学生,根据散点图发现与之间有线性关系,设其回归直线为,已知,若该班某学生的听力成绩为28,据此估计其笔试成绩约为 .
【答案】
【分析】计算,得到中心点,代入回归方程得到,代入数据得到答案.
【详解】,故;,故,
故点在回归直线上,即,得,
即,当时,代入计算得到.
故答案为:.
11.某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为 度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
【答案】40
【分析】先求解,代入方程求得,然后可得气温为时用电量的度数.
【详解】,
,
所以,所以当时,.
故答案为:40.
12.王伯伯家的果园最近4年的支出(单位:万元)和收入(单位:万元)之间的数据如下:
2020年
2021年
2022年
2023年
1.8
2.1
2.3
3.0
2.0
2.8
3.2
4.0
若果园最近4年的收入与支出满足线性相关关系,则的值为 ,若计划2024年该果园的收入达到6万元,预计2024年的支出为 万元.
【答案】 4.175
【分析】由已知求得样本点的中心坐标,代入线性回归方程求解;然后在线性回归方程中取求得值即可..
【详解】由图表可知,,,
则样本点的中心为,
代入,得.
收入与支出满足线性回归方程为.
取,可得,则.
预计2024年的支出为4.175万元.
故答案为:;4.175.
13.根据下表数据得到y关于x的线性回归方程,则= .
x
4
6
7
8
10
y
2
3
4
5
6
【答案】/
【分析】根据必在线性回归直线上代入求解即得.
线性回归方程中心点性质计算即可.
【详解】,,
因必在线性回归直线上,
则有,解得.
故答案为:.
14.已知变量满足线性相关关系,一组观测值如下表,且经验回归方程为.现有一对观测数据为,若该数据的离差为,则 .
【答案】
【分析】根据统计所得数据,可以先求出其样本中心点,代入可求得,进而可求得当时的预测值,再根据离差,即可求得观测值.
【详解】由题意可知,,,
将代入,得,解得,
所以.
当时,预测值,则.
故答案为:.
15.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得的数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的离差为0.6,则 .
色差x
21
23
25
27
色度y
15
18
19
20
【答案】21.6
【分析】先根据题目数据求出样本中心点,代入回归直线方程得,然后求出的预报值,根据离差列式求解即可.
【详解】由题意可知,,,
将代入,即,解得,所以,
当时,,则.
故答案为:21.6.
四、解答题
16.某车间为了确定合理的工时定额,需要确定加工零件所花费的时间,为此做了五次试验,得到数据如下:
零件的个数(个)
1
2
3
4
5
加工的时间(小时)
1.5
2.4
3.2
3.9
4.5
(1)求出关于的回归方程;
(2)试预测加工9个零件需要多少时间?
参考公式:,
【答案】(1)
(2)
【分析】(1)根据参考公式:,计算即可;
(2)将代入回归直线方程求的即可.
【详解】(1)由表中数据得:,,,
则,,
所以回归直线方程为.
(2)将代入回归直线方程得,,
所以预测加工9个零件需要小时.
17.儿童的身高随年龄的增加而增加,已知某城市1-5岁儿童的平均身高如下表所示.
年龄x/岁
1
2
3
4
5
平均身高y/cm
76.0
86.5
97.5
103.5
111.5
(1)儿童的平均身高y与年龄x之间是相关关系还是函数关系?请依据判断求出平均身高y关于年龄x的回归直线方程(或函数解析式);
(2)能否用第(1)问求出的关系式预测该城市30岁市民的平均身高?若能,请求出预测值;若不能,请简要说明理由.
参考数据:.
参考公式:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)相关关系,
(2)不能,理由见解析
【分析】(1)先计算出和,然后计算,用题目中给的数据代入公式计算.
(2)按照回归直线的定义分析,言之有理即可.
【详解】(1)解:相关关系
得
∴
(2)不能
因为该回归模型是基于儿童数据建立的,仅适用于描述该年龄段的统计规律,对30岁成年人的预测超出了模型的适用范围.
18.为响应“全民健身”号召,某社区统计了5名居民每周参与体育锻炼的时长(单位:小时)与身体活力指数的对应数据,结果如下表所示:
特征量
居民
居民
居民
居民
居民
2
4
6
8
10
4
5
6
8
7
(1)根据表中数据,计算样本相关系数,并推断它们的相关程度;
(2)求身体活力指数关于每周锻炼时长的一元线性回归方程,并利用该方程计算居民的身体活力指数离差.
参考公式:相关系数;回归系数.
【答案】(1),与成正相关,有较强的相关性;
(2),1.1.
【分析】(1)根据给定的数表求出相关系数,进而推断相关程度.
(2)利用最小二乘法求出线性回归方程,进而求出指定的离差.
【详解】(1)由给定数表得,
,
,
,
所以样本相关系数,
与成正相关,有较强的相关性.
(2)由(1)得,
所以身体活力指数关于每周锻炼时长的一元线性回归方程为,
当时,,所以居民的身体活力指数离差为.
19.某景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数y(万人)与第个月的数据:
1
2
3
4
5
1.3
1.7
2.2
2.8
3.5
已知与线性相关.
(1)求关于的线性回归方程;
(2)预测第7个月的打卡人数.
参考数据:.
参考公式:线性回归方程中斜率、截距的最小二乘法估计公式为.
【答案】(1)
(2)4.5万人
【分析】(1)由统计表格中的数据,取得回归系数,得到,即可得出回归方程;
(2)由(1)中的回归方程,令,求得,即可得到答案.
【详解】(1)解:由统计表格中的数据,可得,,
且,
则,
可得,
所以关于的线性回归方程为.
(2)解:由(1)知:线性回归方程为,
当时,可得.
由此预测第7个月的打卡人数为4.5万人.
20.某奶茶连锁店研制了新品,在五个店按不同的价格进行试销售,通过一天的试销售得到的数据如下表:
单价(元/杯)
10
10.5
11
11.5
12
销售量(杯/店)
30
28
25
22
20
通过分析,发现该新品的销售量(杯/店)与单价(元/杯)具有线性相关关系.
(1)根据上表提供的数据,用最小二乘法求出关于的回归直线方程;
(2)已知此奶茶连锁店一共有500家奶茶店,若为了提高销量,此奶茶连锁店规定该新品的单价是9元/杯,根据(1)所得的回归直线方程,请估计此奶茶连锁店关于此新品一天的总销售量.
附:在回归直线方程中,.
【答案】(1)
(2)杯
【分析】(1)根据题意,分别求得和,利用公式求得的值,进而求得回归直线方程;
(2)由(1)中的回归方程,当时,求得的值,即可得到答案.
【详解】(1)解:由题意,可得,
且,
所以,,
所以关于的回归直线方程是.
(2)解:由(1)知当时,可得,
所以估计此奶茶连锁店关于此新品一天的总销售量是(杯).
21.某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1)
(2).
【分析】(1)16年中有4年居民存款余额超过100万亿元,根据组合知识求解概率;
(2)两边取对数,再根据公式求出,,从而,故.
【详解】(1)由题意,16年中有4年居民存款余额超过100万亿元,
故所求概率为.
(2),
由题知,,
,
,
,故.
22.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行离差分析,进一步得到图2所示的离差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据离差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)①;
(2)
【分析】(1)根据离差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适.
模型①离差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
23.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
【答案】(1);
(2)模型②.
【分析】(1)根据给定的数据,利用最小二乘法公式求出经验回归方程.
(2)分别求出模型①、模型②中年利润增量,再比较它们与40差的绝对值大小即可.
【详解】(1)由,得,
则,,
所以模型②中关于的经验回归方程为.
(2)模型①,,当时,年利润增量,
模型②,,当时,,
因此年利润增量,而,
所以模型②的预报效果更好.
24.2025年“十一”黄金周期间,上饶市文旅局对五大热门景区(三清山、婺源、龟峰、葛仙村、望仙谷)的游客数据进行了统计.已知前五日每日总游客接待量(,单位:万人次)与全市旅游综合收入,单位:亿元的抽样数据如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
29
32
36
30
28
6
7
8
6.5
5.5
(1)根据数据建立旅游综合收入关于游客接待量的线性回归方程,并预测第六日游客接待量达到38万人次时,该市旅游综合收入的估计值;
(2)在“十一”黄金周期间,望仙谷景区单日客流量超过承载上限(5万人次)的概率为0.4.黄金周七天中随机抽取三天,记客流量超过承载上限的天数为,求的分布列及数学期望.
参考数据:.
参考公式:.
【答案】(1),8.7亿元
(2)分布列见解析,
【分析】(1)因为,由求出,由求出
再由回归方程求解旅游综合收入的估计值即可;
(2)由题意可知,,根据二项分布概率公式求解分布列,再根据二项分布的期望求解期望.
【详解】(1)因为
所以.
所以回归方程为:,当时,
当第六日游客接待量达到38.0万人次时,该市旅游综合收入的估计值为8.7亿元.
(2)由题意可知,
则
所以的分布列为:
0
1
2
3
P
.
25.当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.
(百万)
1
2
3
4
5
(千件)
0.5
1
1.5
3
5.5
(1)根据统计表的数据及参考公式计算样本相关系数,推断两个变量的相关程度;
(2)根据(1)问的结果判断是否可以用一元线性回归模型来刻画年销售量和投入额之间的关系?如果可以,根据最小二乘法,建立销售量关于投入额的经验回归方程;如果不可以,请说明理由.
(3)该公司科研团队发现样本数据呈现出明显的非线性相关的特征,得到年销售量关于年投入额的非线性经验回归方程为,并计算出的离差平方和,请根据统计表的数据及参考公式,比较线性经验回归方程和非线性经验回归方程的拟合效果哪种更好?并选择拟合精度更高的方程,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位).
参考公式及数据:,,,,,,.
【答案】(1),正线性相关,且相关程度很强.
(2)可以,
(3)非线性经验回归方程的拟合效果更好,9.68千件
【分析】(1)根据表中数据,代入相关系数的计算公式求出,再根据相关系数的概念判断求解即可;
(2)根据相关系数的概念可知可以用一元线性回归模型来刻画年销售量和投入额之间的关系,利用最小二乘法的计算公式求出即可得解;
(3)计算线性经验回归方程离差和非线性经验回归方程离差比较可得非线性经验回归方程更好,再由所给方程求出预测值即可.
【详解】(1)由表得,,,
又因为,
所以,
由于的值接近1,所以可以推断年销售量和年投入额这两个变量正线性相关,且相关程度很强.
(2)由(1)得两个变量的线性相关程度很强,
所以可以用一元线性回归模型来刻画年销售量和投入额之间的关系,
设年销售量关于年投入额的经验回归方程为,
所以,,
所以年销售量关于年投入额的经验回归方程为.
(3)由(2)得,可得如下数据:
1
2
3
4
5
0.5
1
1.5
3
5.5
1.1
2.3
3.5
4.7
所以的离差平方和为,
由于,故非线性经验回归方程拟合效果更好,
当时,(千件),
故当年投入额为6百万元时,产品的销售量约为9.68千件.
原创精品资源学科网独家享有版权,侵权必究!2
学科网(北京)股份有限公司
$
专题8.2 一元线性回归分析
教学目标
1.了解一元线性回归模型的含义,了解最小二乘原理。
2.了解非线性回归模型。
3.了解离差、离差图的概念。
教学重难点
1.重点
(1)掌握一元线性回归模型参数的最小二乘估计方法;
2.难点
(1)针对实际问题,会用一元线性回归模型进行预测;
(2)掌握对数函数模型、指数函数模型和幂函数模型的求解过程;
知识点01 离差的概念及其相关概念
一、离差的概念与作用
一般地,设给定一组有线性相关关系的成对数据、、…、和一个线性方程(或称线性模型); ①
如何描述数据与此线性方程的贴近度呢?
当变量取值(=1,2,…,)时,令,它是变量与对应的理想值;
但数据中的与不一定相同,它们的差称为在处的离差;
当时称为正离差,而当时称为负离差;
显然,离差直观地描述了单对数据与线性方程①的贴近度;
二、拟合误差
可以像计算方差那样,用离差的平方和Q=(yi-)2来刻画直线与点之间的拟合程度;称为拟合误差;它是一个很好的描述数据与线性方程①贴近度的指标;
离差平方和:残差平方和(yi-)2越小,模型的拟合效果越好.
【即学即练】
1.下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.离差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
知识点02 回归分析及其相关概念
我们把拟合误差取得最小值时得到的线性方程(线性模型)记为
并称之为变量随波动的回归方程或回归模型,其中自变量称为解释变量,因变量称为反应变量;回归方程所定义的直线称为回归直线,回归方程的系数(或称回归模型的参数)与称为回归系数;
由一组有离差种线性关系的成对数据求其回归方程的方法称为一元线性回归分析;
回归系数与的计算方法如下:
其中,与分别是数据与(=1,2,…,)的算术平均数;数对称为样本点的中心。
最小二乘法与最小二乘估计量
我们的回归分析是基于取最小值的假设,即基于所有离差的平方和取最小值的假设进行的;这种回归分析的方法称为最小二乘法,由最小二乘法导出的估计量称为最小二乘估计量,所得到的回归系数与又称为模型参数与的最小二乘估计;
【即学即练】
2.设一条经验回归直线的方程为,则当变量x增加一个单位时,( )
A.y平均增加1.2个单位 B.y平均增加3个单位
C.y平均减少1.2个单位 D.y平均减少3个单位
题型01 回归直线方程的意义
【典例1】茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
【变式1-1】下列有关回归分析的说法正确的是( )
A.样本相关系数越大,则两变量的相关性就越强.
B.回归直线就是散点图中经过样本数据点最多的那条直线.
C.回归直线方程不一定过样本中心点.
D.回归分析中,样本相关系数,则两变量是负相关关系.
【变式1-2】①事件A和事件B互斥,则;
②数据2,3,6,7,8,10,13,15的第50百分位数为7;
③在线性回归模型中,拟合误差越小,表示回归的效果越好;
④随机变量X的方差,则.
其中正确命题的序号为 .
【变式1-3】给出下列四个命题:
①线性相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱;
②由变量和的数据得到其回归直线方程,则一定经过点;
③在回归分析模型中,离差平方和越小,说明模型的拟合效果越好;
④在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加个单位.
其中,所有真命题的序号是 .
题型02 求回归直线方程
【典例2】将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则 .
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
【变式2-1】某研究机构对高三学生的记忆力和判断力进行统计分析,得表数据.请根据上表提供的数据,求出关于的线性回归方程为 ,据此可预测判断力为4的同学的记忆力为 .
6
8
10
12
2
3
5
6
(回归直线方程是:,其中,)
【变式2-2】为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,
则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.相关系数的绝对值越接近0,表示的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
【变式2-3】电视剧《狂飙》于2023年1月在央视八套黄金档首播,承载着深厚的历史底蕴的《狂飙》取景拍摄地之一的江门三十三墟街即成网红打卡地,吸引了大量游客前来打卡,寻觅剧中的足迹.某文创商店为了了解游客人流量x(单位:百人次)与文创产品销售额y(单位:百元)的关系,对文创商店近期的销售情况作了统计,如下表:
2
3
4
5
6
3.8
6.1
7.8
9.9
12.4
由表中的数据得到了y关于x的线性回归方程,其中已知,由此当预测游客人流量为700人次时,文创产品的销售额大约为( )
A.1430元 B.1420元 C.1455元 D.1416元
题型03 利用回归方程进行数据估计
【典例3】某书店为了分析书籍销量与宣传投入之间的关系,对宣传投入x(千元)和书籍销量y(百本)的情况进行了调研,并统计得到表中几组对应数据,同时用最小二乘法得到y关于x的线性回归方程为,则下列说法不正确的是( )
x
3
4
5
6
y
5
6.2
7.4
m
A.变量x、y之间呈正相关 B.预测当宣传投入2千元时,书籍销量约为400本
C. D.拟合误差
【变式3-1】若对具有线性相关关系的两个变量建立的回归方程为,则当时,的估计值为 .
【变式3-2】某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的离差
D.第三个样本点对应的离差
【变式3-3】若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B. C. D.
题型04 非线性回归分析
【典例4】13.用模型拟合一组数据时,为了求出非线性回归方程,设,其变换后得到线性回归方程为,则c等于( )
A. B. C.2 D.
【变式4-1】害虫防控对于提高农作物产量具有重要意义.已知某种害虫产卵数(单位:个)与温度(单位:)有关,测得一组数据,可用模型进行拟合,利用变换得到的线性回归方程为.若,则的值为 .
【变式4-2】某科技创新型企业自创建以来,不断加大研发投入,走科技创新之路,年利润得到较快增长,2021~2025连续五年的年利润y(单位:亿元)与年份序号x(,2,3,4,5,其中2021年记为1,2022年记为2,以此类推)满足某一元非线性回归方程,统计数据如下:
374
230
6.3
144
1.6
4
注:,.
(1)设和y的相关系数为,x和v的相关系数为,请从相关系数的角度,确定和(其中a,b,m,n均为常数,e为自然对数的底数)哪一个拟合程度更好;
(2)根据(1)的结论及表中数据,建立y关于x的回归方程.
附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为, .
②参考数据:.
【变式4-3】台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
题型05 利用样本中心点求参数
【典例5】已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
0
1
2
3
5
【变式5-1】近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若离差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【变式5-2】用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【变式5-3】为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
题型06 离差的相关问题
【典例6】已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的离差为( )
A. B. C. D.
【变式6-1】某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(离差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的离差为,则表中的值为 .
【变式6-2】为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的离差为0,则 .
【变式6-3】小明研究温差(单位:)与本单位当天新增感冒人数(单位:人)的关系,他记录了5天的数据:
3
4
5
6
7
16
20
25
28
36
由表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是( )
A.与正相关 B.经验回归直线经过点
C.当时,离差为1.8 D.
题型07 线性回归与其他知识综合
【典例7】随着粤港澳大湾区建设、黄河流域生态保护和高质量发展等区域重大战略实施取得新成效,城乡融合和区域协调发展继续推进,2024年末全国常住人口城镇化率增长至67.00%.下图为2020-2024年年末常住人口城镇化率的折线图.
(1)由折线图看出,可用线性回归模型拟合常住人口城镇化率与年份代码的关系,请建立关于的回归方程,并估计2026年常住人口的城镇化率的值.
(2)从这5年中任取3年,记常住人口城镇化率不超过的年数为,求的分布列与数学期望.
附:回归方程中斜率和截距的最小二乘法公式分别为:,.
【变式7-1】近期甲型H3N2流感来袭,医学研究表明,如果每天温差太大,人们受风寒刺激极易受凉感冒,自身抵抗力就会变弱,易受流感病毒侵袭,特别是对于学生及老年人群体更需保暖和多加防范.我校数学建模社团成员共同研究了一天昼夜温差的大小与我校患流感就诊人数多少之间的关系,他们记录了某周周一至周六的温差,并到校医室查阅了这六天中每天学生新增流感就诊的人数,得到数据如下:
日期
周一
周二
周三
周四
周五
周六
昼夜温差t(℃)
4
7
8
9
14
12
新增流感就诊人数y(位)
y₁
y₂
y₃
y₄
y₅
y₆
参考数据:,
(1)已知第一天新增流感就诊的学生中有3位男生,从第一天新增的流感就诊学生中随机抽取2位,其中男生人数记为X,若抽取的2人中至少一位女生的概率为 求X的分布列和数学期望;
(2)已知两个变量t与y之间的样本相关系数 ,请用最小二乘法求出y关于t的经验回归方程 ,据此估计昼夜温差为13℃时,我校新增流感就诊的学生人数.
参考公式:,
【变式7-2】某强基计划试点高校为选拔基础学科拔尖人才,对考生设置两项能力测试:学科知识整合能力指标(考察数学、物理等学科知识的交叉应用)和创新思维能力指标(考察逻辑推理、问题建模等能力).随机抽取5名考生的测试结果如表:
6
8
9
12
2
3
4
5
6
(1)若学科知识整合能力指标的平均值,
(ⅰ)求的值;
(ⅱ)求关于的经验回归方程,并估计学科知识整合能力指标为14时的创新思维能力指标;
(附:经验回归方程中和的最小二乘估计分别为,
(2)现有甲、乙两所试点高校的强基计划笔试环节均设置了三门独立考试科目,每门科目通过情况相互独立;
甲高校:每门科目通过的概率均为,通过科目数记为随机变量;
乙高校:第一门科目通过概率为,第二门科目通过概率为,第三门科目通过概率为,
通过科目数记为随机变量;
若以笔试环节通过科目数的期望为决策依据,分析考生应选择报考哪所高校.
【变式7-3】海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
离差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述离差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:离差,决定系数)
一、单选题
1.已知线性相关系数r是描述成对数据线性相关程度的统计量,也称为皮尔逊相关系数;一元线性回归分析是基于拟合误差Q取最小值的假设进行的,最终可得回归方程(回归直线).现有5个数据点,小明对它们进行了一元线性回归分析,得到线性相关系数和回归方程,随后发现自己漏掉了一个数据点且恰好.重新计算6个数据点得到线性相关系数和回归方程,对于下面两个说法:
①一定小于 ②与一定重合
则( )
A.①正确②错误 B.①正确②正确 C.①错误②正确 D.①错误②错误
2.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,统计出小李某月1号到5号每天打篮球时间(单位:h)与当天投篮命中率的成对数据满足的关系式:,,.若与满足线性回归方程,则回归系数( )(参考公式:)
A.0.04 B.0.03 C.0.02 D.0.01
3.已知两个变量与对应关系如下表:
若与满足一元线性回归模型,且经验回归方程为,则( )
A.与负相关
B.在处的离差为
C.经验回归直线过点
D.变量每增加一个单位,实际值一定增加个单位
4.已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
5.已知变量的统计数据如下表:
0
1
2
3
4
10
15
20
30
35
分析表中的数据,发现与之间具有线性相关关系,计算得经验回归直线方程为,据此模型预测:当时,的值为( )
A.71.5 B.72 C.73.5 D.74
6.为了研究某种商品的广告投入x和收益y之间的相关关系,某研究小组收集了5组样本数据如表所示,得到线性回归方程为,则当广告投入为10万元时,收益的预测值为( )万元.
/万元
1
2
3
4
5
/万元
0.50
0.80
1.00
1.20
1.50
A.2.48 B.2.68 C.2.78 D.2.88
7.我国2016-2024年科幻产业营收(单位:亿元)如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
2024
时间变量
1
2
3
4
5
6
7
8
9
营收
100.0
140.0
456.4
658.7
551.1
829.6
877.5
1132.9
1089.6
根据表中数据建立与的线性回归方程,预测我国2025年科幻产业营收约为()(参考数据:)
A.1222.1亿元 B.1310.9亿元 C.1339.1亿元 D.1443.4亿元
8.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
三、填空题
9.若关于某人工智能设备的使用年限和所支出的维修费用(万元)统计数据如下:
使用年限
2
3
4
5
6
维修费用
2.2
3.8
5.5
6.5
7.0
若有数据知对呈线性相关关系.其线性回归方程为,请估计使用10年时的维修费用是 万元.
10.为了研究某班学生的听力成绩(单位:分)与笔试成绩(单位:分)的关系,从该班随机抽取20名学生,根据散点图发现与之间有线性关系,设其回归直线为,已知,若该班某学生的听力成绩为28,据此估计其笔试成绩约为 .
11.某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为 度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
12.王伯伯家的果园最近4年的支出(单位:万元)和收入(单位:万元)之间的数据如下:
2020年
2021年
2022年
2023年
1.8
2.1
2.3
3.0
2.0
2.8
3.2
4.0
若果园最近4年的收入与支出满足线性相关关系,则的值为 ,若计划2024年该果园的收入达到6万元,预计2024年的支出为 万元.
13.根据下表数据得到y关于x的线性回归方程,则= .
x
4
6
7
8
10
y
2
3
4
5
6
14.已知变量满足线性相关关系,一组观测值如下表,且经验回归方程为.现有一对观测数据为,若该数据的离差为,则 .
15.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得的数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的离差为0.6,则 .
色差x
21
23
25
27
色度y
15
18
19
20
四、解答题
16.某车间为了确定合理的工时定额,需要确定加工零件所花费的时间,为此做了五次试验,得到数据如下:
零件的个数(个)
1
2
3
4
5
加工的时间(小时)
1.5
2.4
3.2
3.9
4.5
(1)求出关于的回归方程;
(2)试预测加工9个零件需要多少时间?
参考公式:,
17.儿童的身高随年龄的增加而增加,已知某城市1-5岁儿童的平均身高如下表所示.
年龄x/岁
1
2
3
4
5
平均身高y/cm
76.0
86.5
97.5
103.5
111.5
(1)儿童的平均身高y与年龄x之间是相关关系还是函数关系?请依据判断求出平均身高y关于年龄x的回归直线方程(或函数解析式);
(2)能否用第(1)问求出的关系式预测该城市30岁市民的平均身高?若能,请求出预测值;若不能,请简要说明理由.
参考数据:.
参考公式:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为:,.
18.为响应“全民健身”号召,某社区统计了5名居民每周参与体育锻炼的时长(单位:小时)与身体活力指数的对应数据,结果如下表所示:
特征量
居民
居民
居民
居民
居民
2
4
6
8
10
4
5
6
8
7
(1)根据表中数据,计算样本相关系数,并推断它们的相关程度;
(2)求身体活力指数关于每周锻炼时长的一元线性回归方程,并利用该方程计算居民的身体活力指数离差.
参考公式:相关系数;回归系数.
19.某景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数y(万人)与第个月的数据:
1
2
3
4
5
1.3
1.7
2.2
2.8
3.5
已知与线性相关.
(1)求关于的线性回归方程;
(2)预测第7个月的打卡人数.
参考数据:.
参考公式:线性回归方程中斜率、截距的最小二乘法估计公式为.
20.某奶茶连锁店研制了新品,在五个店按不同的价格进行试销售,通过一天的试销售得到的数据如下表:
单价(元/杯)
10
10.5
11
11.5
12
销售量(杯/店)
30
28
25
22
20
通过分析,发现该新品的销售量(杯/店)与单价(元/杯)具有线性相关关系.
(1)根据上表提供的数据,用最小二乘法求出关于的回归直线方程;
(2)已知此奶茶连锁店一共有500家奶茶店,若为了提高销量,此奶茶连锁店规定该新品的单价是9元/杯,根据(1)所得的回归直线方程,请估计此奶茶连锁店关于此新品一天的总销售量.
附:在回归直线方程中,.
21.某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
22.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行离差分析,进一步得到图2所示的离差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据离差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
23.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
24.2025年“十一”黄金周期间,上饶市文旅局对五大热门景区(三清山、婺源、龟峰、葛仙村、望仙谷)的游客数据进行了统计.已知前五日每日总游客接待量(,单位:万人次)与全市旅游综合收入,单位:亿元的抽样数据如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
29
32
36
30
28
6
7
8
6.5
5.5
(1)根据数据建立旅游综合收入关于游客接待量的线性回归方程,并预测第六日游客接待量达到38万人次时,该市旅游综合收入的估计值;
(2)在“十一”黄金周期间,望仙谷景区单日客流量超过承载上限(5万人次)的概率为0.4.黄金周七天中随机抽取三天,记客流量超过承载上限的天数为,求的分布列及数学期望.
参考数据:.
参考公式:.
25.当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.
(百万)
1
2
3
4
5
(千件)
0.5
1
1.5
3
5.5
(1)根据统计表的数据及参考公式计算样本相关系数,推断两个变量的相关程度;
(2)根据(1)问的结果判断是否可以用一元线性回归模型来刻画年销售量和投入额之间的关系?如果可以,根据最小二乘法,建立销售量关于投入额的经验回归方程;如果不可以,请说明理由.
(3)该公司科研团队发现样本数据呈现出明显的非线性相关的特征,得到年销售量关于年投入额的非线性经验回归方程为,并计算出的离差平方和,请根据统计表的数据及参考公式,比较线性经验回归方程和非线性经验回归方程的拟合效果哪种更好?并选择拟合精度更高的方程,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位).
参考公式及数据:,,,,,,.
原创精品资源学科网独家享有版权,侵权必究!2
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。