8.1 一元线性回归分析与成对数据分析(3种题型基础练+能力提升练)-【上好课】2024-2025学年高二数学同步精品课堂(沪教版2020选择性必修第二册)
2025-02-11
|
2份
|
39页
|
435人阅读
|
9人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学沪教版选择性必修第二册 |
| 年级 | 高二 |
| 章节 | 8.1 成对数据的相关分析,8.2 一元线性回归分析 |
| 类型 | 作业-同步练 |
| 知识点 | - |
| 使用场景 | 同步教学-新授课 |
| 学年 | 2025-2026 |
| 地区(省份) | 上海市 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 2.30 MB |
| 发布时间 | 2025-02-11 |
| 更新时间 | 2025-02-11 |
| 作者 | 数学—Mr Lee |
| 品牌系列 | 上好课·上好课 |
| 审核时间 | 2025-02-11 |
| 下载链接 | https://m.zxxk.com/soft/50382230.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
8.1 一元线性回归分析与成对数据分析
(3种题型基础练+能力提升练)
题型一:成对数据分析(共5小题)
一、单选题
1.某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
【答案】C
【分析】根据散点图和相关系数的概念得到,,进而得到答案.
【详解】由题图可知,所对应的图中的散点呈现正相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
,所对应的图中的散点呈现负相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
因此.
故选:C.
2.变量与相对应的一组数据为;变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )
A. B.
C. D.
【答案】C
【分析】根据正相关,负相关判断的正负,即可比较大小.
【详解】由变量与相对应的一组数据为,,
可得变量与正相关,所以.
而由变量与相对应的一组数据为,,
可知变量与负相关,所以,所以与的大小关系是.
故选:C.
3.如图所示,5 个数据,去掉 后,下列说法正确的是( )
A.相关系数变小 B.决定系数变小
C.残差平方和变小 D.解释变量与预报变量的相关性变弱
【答案】C
【分析】由散点图知,去掉离群点后, 与的相关性变强,且为正相关,由此判断即可.
【详解】由散点图知,去掉离群点后,与的相关性变强,且为正相关,
所以相关系数的值变大,决定系数的值变大,残差平方和变小.
故选:C.
4.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A. B.
C. D.
【答案】D
【分析】根据变量的相关关系判断即可.
【详解】观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
故选:D.
5.下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【答案】B
【分析】由正、负相关的概念逐项判断即可.
【详解】从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则这两个变量为负相关.结合散点图可知,①②满足题意,即两个变量呈负相关的个数为2个.
故选:B
题型二:相关系数(共5小题)
一、单选题
1.下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
【答案】D
【分析】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.
【详解】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A错误;
对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B错误;
对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是错误;
对于D,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,
模型的拟合效果越好,故D正确.
故选:D.
2.下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中
B.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.在一元线性回归模型中,如果相关系数,表明两个变量的相关程度很强
D.对于一组数据,,…,,若所有数据均变成原来的2倍,则变为原来的2倍
【答案】D
【分析】根据正态分布曲线的性质,可得判定A正确;根据决定系数和相关系数的性质,可得判定B正确,C正确;根据方差的性质,可判定D错误.
【详解】对于A中,若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中,所以A正确;
对于B中,在做回归分析时,可以用决定系数刻画模型回归效果,越大,说明模型拟合的效果越好,所以B正确;
对于C中,一元线性回归模型中,相关系数的绝对值越接近1,表明两个变量的相关性越强,
所以如果相关系数,表明两个变量的相关程度很强,所以C正确;
对于D,若所有数据均变成原来的2倍,则变为原来的4倍,所以D正确.
故选:D.
3.由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
【答案】D
【分析】根据相关系数的含义可判断AB;根据回归直线的含义可判断CD;
【详解】对于A,若相关系数越小,则两组变量的相关性越弱,A错误;
对于B,若越大,则两组变量的相关性越强,是回归直线的斜率,
它不反应两变量的相关性强弱,B错误;
对于C,经验回归方程不一定经过样本数据中的一个,C错误;
对于D,在经验回归方程中,当解释变量x每增加1个单位时,
若,相应的观测值y约增加个单位;若,相应的观测值y约增加个单位;
故当解释变量x每增加1个单位时,相应的观测值y约增加个单位,正确,
故选:D
4.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
二、解答题
5.近年来,“双11”网购的观念逐渐深入人心,某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:
年份
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
交易额y/百亿元
9
12
17
21
26
请根据表中提供的数据,画出散点图,推断两个变量是否线性相关,并用样本相关系数r说明y与x的线性相关程度(结果保留三位小数).附:.
【答案】散点图见解析,相关,,相关性很强.
【分析】作出散点图,计算相关系数并确定相关程度.
【详解】画出散点图如下:
由图知,交易额y与年份代码x线性相关,
由表中数据,计算得,,
则,
,
,
所以,
所以变量y与x的线性相关程度很强.
题型三:回归直线方程(共8题)
一、单选题
1.第19届亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月吉祥物的销量,如下表所示:若与线性相关,且线性回归方程为 ,则下列说法正确的是: ( )
时间x
1
2
3
4
5
销售量y(万只)
5
4.5
4
3.5
2.5
A.由题中数据可知,变量与正相关
B.当时,残差为0.2
C.线性回归方程
D.可以预测当 时销量约为 2 万只
【答案】C
【分析】利用表中数据变化情况判断A;由样本中心点求出线性回归方程判断C;利用回归方程求出预测值,进而求出残差判断B;利用回归方程求出预测值判断D.
【详解】对于A,从数据知,随的增大而减小,变量与负相关,A错误;
对于C,,,,
因此线性回归方程为,C正确;
对于B,,残差,B错误;
对于D,当时销量约为(万只),D错误.故选:C
2.已知某仪器的使用年限(年)和其维修费用(万元)的统计数据:
使用年限
维修费用
由散点图知对具有线性相关关系,利用线性回归方程估计使用年限为年时,维修费用为( )万元.
A. B. C. D.
【答案】C
【分析】根据给定的数据求出回归直线方程,再进行预测.
【详解】依题意,,
,,
则,,
则关于的线性回归方程为,当时,,
所以估计使用年限为年时,维修费用为13.59万元.
故选:C
3.下列说法正确的是( )
A.若两个具有线性相关关系的变量的相关性越强,则相关系数r的值越接近于1
B.回归直线方程为时,变量x和y负相关
C.在回归直线方程中,当x每增加1个单位时,相应观测值y增加0.5个单位
D.由样本数据得到的回归直线至少经过点中的一个
【答案】B
【分析】根据回归方程概念性质及相关系数性质判断各个选项.
【详解】对于A,若两个具有线性相关关系的变量的相关性越强,则相关系数r的绝对值越接近于1,故A错误;
对于B,因为斜率小于0,所以变量x和y负相关,故B正确;
对于C,在回归直线方程中,当x每增加1个单位时,相应观测值y约增加0.5个单位,故C错误;
对于D,由样本数据得到的回归直线,必过点,不一定经过中的点,故D错误.
故选:B.
4.某品牌手机商城统计了开业以来前5个月的手机销量情况如下表所示:
时间x
1
2
3
4
5
销售量y(千只)
0.5
0.7
1.0
1.2
1.6
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中,
C.时,残差为0.06
D.可以预测时,该商场手机销量约为1.81千只
【答案】B
【分析】利用回归直线方程的概念一一判断求解.
【详解】对A,由图表可知,变量y与x正相关,
且,即变量y与x正相关,A正确;
对B,由图表数据可得,
因为样本中心满足回归直线,所以,解得,B错误;
对C,时,残差为,C正确;
对D,时,该商场手机销量约为千只,D正确;
故选:B.
二、解答题
5.近年来,我国铁路事业取得历史性成就、发生历史性变革,路网规模质量大幅提升,建成世界最大的高速铁路网.截至2023年底,我国铁路营业里程达15.9万公里,其中高铁营业里程4.5万公里,继续稳居世界第一.如图,是我国2015-2023年高铁营业里程的发展情况(单位:万公里).
(1)由散点图看出,可用线性回归模型拟合高铁营业里程与年份代码的关系,请用相关系数加以说明(结果精确到0.001;当时,认为线性相关性较强;时,认为线性相关性一般;,认为线性相关性较弱);
(2)求关于的线性回归方程,并预测到哪一年我国高铁的营业里程将达到7万公里(结果精确到0.01).
附:参考公式:相关系数;
回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,,,.
【答案】(1)答案见解析
(2),预测到2030年我国高铁的营业里程将会达到7万公里
【分析】(1)先求出,,结合提议中的公式计算即可求解.
(2)根据最小二乘法计算,进而求出,写出线性回归方程,求出结果.
【详解】(1)由散点图数据得
,
,
又,,,
所以,
故与的线性相关性较强,所以可以用线性回归模型拟合与的关系.
(2)由(1)得,
则,
所以关于的线性回归方程为,
令,即,解得,
即时,高铁的营业里程将会达到7万公里,
所以预测到2030年我国高铁的营业里程将会达到7万公里.
6.近年来,随着人工智能技术的不断发展,各种AI应用也不断普及,ChatGPT就是一款具有人类沟通能力的智能AI工具.随着人工智能的加入,各类传媒、影视、游戏行业迎来了高速的发展,AI技术降低了这些行业的人力成本,提高了效率.某公司2016年—2023年的年投入资金(万元)与年收益(百万元)的数据如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用(,均为常数)拟合年收益与年投入资金的关系,求出经验回归方程;
(2)为了促进公司发展,该公司决定在甲、乙两个部门之间进行一次信息化技术比赛,比赛规则如下:两个部门进行三轮答题比赛,每轮只出1道题目,比赛时两部门同时回答这道题,若一部门答对且另一部门答错,则答对的部门得10分,答错的部门得分,若两部门都答对或都答错,则两部门均得0分,累计得分为正者将获得奖品,且两部门答对与否互不影响,每次答题的结果也互不影响,甲部门答对每道题的概率为,乙部门答对每道题的概率为.
(ⅰ)记每一轮比赛中甲部门的得分为,求的分布列和数学期望;
(ⅱ)求三轮比赛后甲部门获得奖品的概率.
参考数据:,,,其中,.
参考公式:对于一组数据,,…,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
【答案】(1)
(2)(ⅰ)分布列见解析,;(ⅱ)
【分析】(1)对两边同时取自然对数得,令,利用最小二乘法可求得,由此可得经验回归方程;
(2)写出的可能取值,分别求出概率即可求出分布列及期望;记三轮比赛后甲部门可获得奖品的得分为,写出的可能取值,分别求出概率即可求解.
【详解】(1)因为,所以两边同时取自然对数,得,
设,所以,
又因为,,,
,
所以,
所以,即,
所以;
(2)(ⅰ)的可能取值为10,0,,
则,
,
,
所以的分布列为
10
0
所以;
(ⅱ)记三轮比赛后甲部门可获得奖品的得分为,则的可能取值为30,20,10,
则,
,
,
所以三轮比赛后甲部门获得奖品的概率为.
7.某乒乓球训练机构以培训青少年为主,其中有一项打定点训练,就是把乒乓球打到对方球台的指定位置(称为“准点球”),每周记录每个接受训练的学员在训练时打的所有球中“准点球”的百分比(y%),A学员已经训练了1年,下表记录了A学员最近七周“准点球”的百分比:
周次(x)
1
2
3
4
5
6
7
y(%)
52
52.8
53.5
54
54.5
54.9
55.3
若.
(1)根据上表数据,计算y与z的相关系数r,并说明y与z的线性相关性的强弱;(若,则认为y与z线性相关性很强;若,则认为y与z线性相关性一般;若,则认为y与z线性相关性较弱)(精确到0.01)
(2)求y关于x的线性回归方程,并预测第9周“准点球”的百分比(精确到0.01);
(3)若现在认为A学员“准点球”的百分比为55%,并以此为概率,现让A学员打3个球,以X表示“准点球”的个数,求X的数学期望.
参考公式和数据:对于一组数据
,,,,,,,,,.
【答案】(1)0.94,与线性相关性很强
(2),55.89%
(3).
【分析】(1)根据题意中的公式求出相关系数r,结合其表示的意义即可下结论;
(2)根据最小二乘法计算可得,进而,将代入即可求解;
(3)由题意可知,利用二项分布求出对应的概率,列出X的分布列,求出数学期望即可.
【详解】(1)
故与线性相关性很强.
(2),
,
所以关于的线性回归方程为,
将代入,
得.
当时,,
故预测第9周“准点球”的百分比为55.89%.
(3)现在A学员任打一球是“准点球”的概率为:,
由题意,数学期望.
8.近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量y(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
【答案】(1)
(2)万辆
【分析】(1)利用所提供数据求,代入参考公式求即可;
(2)结合公式求,由此可得回归方程,再利用回归方程进行预测.
【详解】(1),
,
所以;
(2)由(1)知,,
,
所以关于的线性回归方程是,
当时,(万辆),
该地区年新能源汽车购买数量约为万辆.
一、单选题
1.根据变量的观测数据,绘制成散点图1;根据变量的观测数据,绘制成散点图2.若用线性回归进行分析,设表示变量的样本相关系数,表示变量的样本相关系数,则( )
A. B.
C. D.
【答案】A
【分析】根据散点图,结合相关系数知识即可得出答案.
【详解】由图可得随增大而减小,随增大而减小,
所以与增呈负相关关系,与呈负相关关系,故,
又由图可知图1相关性更强,故更接近,
所以.
故选:A.
2.已知由样本数据=1,2,3,…,8组成的一个样本,得到经验回归方程为,且,增加两个样本点和,得到新样本的经回归方程为.在新的经验回归方程下,当时,的估计值为( )
A.3.25 B.3.4 C.3.7 D.3.85
【答案】D
【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得.
【详解】,
增加两个样本点后的平均数为;
,,
增加两个样本点后的平均数为,
,解得:,
新的经验回归方程为:,
则当时,,
故选:D.
3.某类汽车在今年1至5月销量y(单位:万辆),如下表所示:
月份x
1
2
3
4
5
销量y
5
4.5
4
3.5
2.5
若x与y线性相关,且线性回归方程为,则下列说法不正确的是( )
A.样本的相关系数为负数 B.
C.当时,残差的绝对值为0.1 D.可预测当时销量约为1.5万辆
【答案】C
【分析】对于A,利用表中的数据就化情况分析判断;对于B,利用样本中心点满足回归方程,求出;对于C,利用回归方程可求出预测值,进而可求出残差绝对值;对于D,利用回归方程可求出预测值.
【详解】对于A,从表中的数据看,随的增大而减小,所以变量负相关,则样本的相关系数为负数,故A正确;
对于B,,所以,得,故B正确;
对于C,因为,所以当时,残差的绝对值为,故C错误;
对于D,当时,,所以预测当时销量约为1.5万瓶,故D正确,
故选:C.
4.下列说法正确的序号是( )
A.在回归直线方程中,当解释变量每增加一个单位时,响应变量会增加1.2个单位
B.利用最小二乘法求回归直线方程,就是使得最小的原理:
C.已知,是两个分类变量,若随机变量的观测值越大,则结论“与有关系”的犯错概率越大;
D.若、两组成对数据的相关系数分别为,则组数据的相关性更强
【答案】B
【分析】根据回归方程的定义和性质判断AB;随机变量的观测值越小,则“与有关系”的把握程度越小,C错误;相关系数如果大于零,正相关性更强,小于零,负相关性更强,D错误,得到答案.
【详解】对于选项A:在回归直线方程中,当解释变量每增加一个单位时,响应变量平均增加个单位,A错误;
对于选项B:用随机误差的平方和,即,
并使之达到最小,这样回归直线就是所有直线中取最小值的那一条,由于平方又叫二乘,
所以这种使 “随机误差的平方和为最小”的方法叫做最小二乘法,所以利用最小二乘法求回归直线方程,就是使得最小的原理,B正确;
对于选项C:对分类变量与,对它们的随机变量的观测值越大,
则“与有关系”的把握程度越大,C错误;
对于选项D:样本相关系数反映的是两变量之间线性相关程度的强弱,若,正相关性更强,若,负相关性更强,D错误.故选:B.
5.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为的人臂展大约为
D.身高相差的两人臂展都相差
【答案】D
【分析】运用极差概念,回归直线与散点图知识,回归直线的意义,逐项判断即可.
【详解】对于A,身高极差大约为20,臂展极差大约为25,故A正确;
对于B,很明显根据散点图以及回归直线得到,身高矮一些,臂展就可能短一些,身高高一些,臂展就可能长一些,故B正确;
对于C,身高为,代入回归直线方程可得到臂展的预测值为,但不是准确值,故C正确;
对于D,身高相差的两人臂展的预测值相差,但并不是准确值,回归直线上的点并不都是准确的样本点,故D不正确.
故选:D.
二、多选题
6.如图是根据一组观测数据得到海拔千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低kPa
C.由方程可知,样本点的残差为
D.对比两个回归模型,结合实际情况,方程的预报效果更好
【答案】ACD
【分析】根据散点图即可得出A项;根据回归方程的含义可判断B项;根据残差计算公式求出残差,可判断C项;根据实际大气压强不能为负,可判断D项.
【详解】对于A,由图象知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A正确;
对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误;
对于C,当时, ,所以样本点的残差为,故C正确;对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程的预报效果更好,故D正确.故选:ACD.
7.已知变量x和变量y的一组成对样本数据()的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据()的相关系数满足
D.时,成对样本数据()的线性回归方程满足
参考公式:
【答案】BCD
【分析】根据线性相关、相关系数、线性回归方程等知识,对选项逐一分析,即可得到答案.
【详解】对于A,当越接近1时,成对样本数据的线性相关程度越强,故A错误;
对于B,当时,成对样本数据正相关,相关系数与符号相同,则,故B正确;
对于C,当,时,将这组数据添加后,不变,故相关系数的表达式中的分子和分母均不变,故C正确;
对于D,当,时,将这组数据添加后,不变,故线性回归方程中的斜率的表达式中的分子和分母均不变,所以,故D正确;
综上所述,正确的有B、C、D.故选:BCD.
三、解答题
8.近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)试求与间的样本相关系数,并说明与是否具有较强的线性相关关系(若0.75,则认为与具有较强的线性相关关系,否则认为没有较强的线性相关关系);
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由.
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为,相关系数.
参考数据:.
【答案】(1)0.95,与具有较强的线性相关关系.
(2),估计值为4.6.
(3)需要进行治理,理由见解析
【分析】(1)求出,求出相关系数公式中的各个量,即可得出结论;
(2)利用(1)中的数据求出,求出线性回归方程,即可求出时,的值;
(3)分别求出,的值,13与对比,即可得出结论.
【详解】(1)由题表得,.
,
所以,
,
,
所以,
因为,所以与具有较强的线性相关关系.
(2)由(1)得,
所以经验回归方程为.
当时,,
即当指标为7时,指标的估计值为4.6.
(3)该城市的交通管理部门需要进行治理.理由如下:
由题意得,
因为,所以该城市的交通管理部门需要进行治理.
9.某学校对高三(1)班50名学生第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,其中且1分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为.
(1)求与的样本相关系数;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值.试估计该校共800名高三学生中,数学成绩位于区间的人数.
附:①回归方程中:
②样本相关系数
③若,则
④
【答案】(1)
(2)652
【分析】(1)根据方差和求出,,然后代入公式可得;
(2)由求出,然后根据特殊区间求出,然后可得.
【详解】(1)因为,
所以,
又,所以,
所以.
(2)因为,,
所以,解得,即,
因为,所以,
所以数学成绩服从正态分布,
因为
,
所以该校高三学生数学成绩位于区间大约有人.
10.某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
【答案】(1)
(2),约为万元
【分析】(1)根据所给数据求出,,,,,即可求出相关系数;
(2)根据(1)的结论,可判断选择模型②,令,求出关于的线性回归方程,即可求出关于的经验方程,再代入计算可得.
【详解】(1)因为,
,
所以,
,
,
模型①中,相关系数,
(2)因为,所以选择模型②,
令,先建立关于的线性回归方程,
由于,
,
所以关于的线性回归方程为,
即,
当时,(万元),
所以若投入经费万元,收益约为万元.
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
$$
8.1 一元线性回归分析与成对数据分析
(3种题型基础练+能力提升练)
题型一:成对数据分析(共5小题)
一、单选题
1.某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
2.变量与相对应的一组数据为;变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )
A. B.
C. D.
3.如图所示,5 个数据,去掉 后,下列说法正确的是( )
A.相关系数变小 B.决定系数变小
C.残差平方和变小 D.解释变量与预报变量的相关性变弱
4.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A. B.
C. D.
5.下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
题型二:相关系数(共5小题)
一、单选题
1.下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
2.下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中
B.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.在一元线性回归模型中,如果相关系数,表明两个变量的相关程度很强
D.对于一组数据,,…,,若所有数据均变成原来的2倍,则变为原来的2倍
3.由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
4.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
二、解答题
5.近年来,“双11”网购的观念逐渐深入人心,某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:
年份
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
交易额y/百亿元
9
12
17
21
26
请根据表中提供的数据,画出散点图,推断两个变量是否线性相关,并用样本相关系数r说明y与x的线性相关程度(结果保留三位小数).附:.
题型三:回归直线方程(共8题)
一、单选题
1.第19届亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月吉祥物的销量,如下表所示:若与线性相关,且线性回归方程为 ,则下列说法正确的是: ( )
时间x
1
2
3
4
5
销售量y(万只)
5
4.5
4
3.5
2.5
A.由题中数据可知,变量与正相关
B.当时,残差为0.2
C.线性回归方程
D.可以预测当 时销量约为 2 万只
2.已知某仪器的使用年限(年)和其维修费用(万元)的统计数据:
使用年限
维修费用
由散点图知对具有线性相关关系,利用线性回归方程估计使用年限为年时,维修费用为( )万元.
A. B. C. D.
3.下列说法正确的是( )
A.若两个具有线性相关关系的变量的相关性越强,则相关系数r的值越接近于1
B.回归直线方程为时,变量x和y负相关
C.在回归直线方程中,当x每增加1个单位时,相应观测值y增加0.5个单位
D.由样本数据得到的回归直线至少经过点中的一个
4.某品牌手机商城统计了开业以来前5个月的手机销量情况如下表所示:
时间x
1
2
3
4
5
销售量y(千只)
0.5
0.7
1.0
1.2
1.6
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中,
C.时,残差为0.06
D.可以预测时,该商场手机销量约为1.81千只
二、解答题
5.近年来,我国铁路事业取得历史性成就、发生历史性变革,路网规模质量大幅提升,建成世界最大的高速铁路网.截至2023年底,我国铁路营业里程达15.9万公里,其中高铁营业里程4.5万公里,继续稳居世界第一.如图,是我国2015-2023年高铁营业里程的发展情况(单位:万公里).
(1)由散点图看出,可用线性回归模型拟合高铁营业里程与年份代码的关系,请用相关系数加以说明(结果精确到0.001;当时,认为线性相关性较强;时,认为线性相关性一般;,认为线性相关性较弱);
(2)求关于的线性回归方程,并预测到哪一年我国高铁的营业里程将达到7万公里(结果精确到0.01).
附:参考公式:相关系数;
回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,,,.
6.近年来,随着人工智能技术的不断发展,各种AI应用也不断普及,ChatGPT就是一款具有人类沟通能力的智能AI工具.随着人工智能的加入,各类传媒、影视、游戏行业迎来了高速的发展,AI技术降低了这些行业的人力成本,提高了效率.某公司2016年—2023年的年投入资金(万元)与年收益(百万元)的数据如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用(,均为常数)拟合年收益与年投入资金的关系,求出经验回归方程;
(2)为了促进公司发展,该公司决定在甲、乙两个部门之间进行一次信息化技术比赛,比赛规则如下:两个部门进行三轮答题比赛,每轮只出1道题目,比赛时两部门同时回答这道题,若一部门答对且另一部门答错,则答对的部门得10分,答错的部门得分,若两部门都答对或都答错,则两部门均得0分,累计得分为正者将获得奖品,且两部门答对与否互不影响,每次答题的结果也互不影响,甲部门答对每道题的概率为,乙部门答对每道题的概率为.
(ⅰ)记每一轮比赛中甲部门的得分为,求的分布列和数学期望;
(ⅱ)求三轮比赛后甲部门获得奖品的概率.
参考数据:,,,其中,.
参考公式:对于一组数据,,…,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
7.某乒乓球训练机构以培训青少年为主,其中有一项打定点训练,就是把乒乓球打到对方球台的指定位置(称为“准点球”),每周记录每个接受训练的学员在训练时打的所有球中“准点球”的百分比(y%),A学员已经训练了1年,下表记录了A学员最近七周“准点球”的百分比:
周次(x)
1
2
3
4
5
6
7
y(%)
52
52.8
53.5
54
54.5
54.9
55.3
若.
(1)根据上表数据,计算y与z的相关系数r,并说明y与z的线性相关性的强弱;(若,则认为y与z线性相关性很强;若,则认为y与z线性相关性一般;若,则认为y与z线性相关性较弱)(精确到0.01)
(2)求y关于x的线性回归方程,并预测第9周“准点球”的百分比(精确到0.01);
(3)若现在认为A学员“准点球”的百分比为55%,并以此为概率,现让A学员打3个球,以X表示“准点球”的个数,求X的数学期望.
参考公式和数据:对于一组数据
,,,,,,,,,.
8.近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量y(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
一、单选题
1.根据变量的观测数据,绘制成散点图1;根据变量的观测数据,绘制成散点图2.若用线性回归进行分析,设表示变量的样本相关系数,表示变量的样本相关系数,则( )
A. B.
C. D.
2.已知由样本数据=1,2,3,…,8组成的一个样本,得到经验回归方程为,且,增加两个样本点和,得到新样本的经回归方程为.在新的经验回归方程下,当时,的估计值为( )
A.3.25 B.3.4 C.3.7 D.3.85
3.某类汽车在今年1至5月销量y(单位:万辆),如下表所示:
月份x
1
2
3
4
5
销量y
5
4.5
4
3.5
2.5
若x与y线性相关,且线性回归方程为,则下列说法不正确的是( )
A.样本的相关系数为负数 B.
C.当时,残差的绝对值为0.1 D.可预测当时销量约为1.5万辆
4.下列说法正确的序号是( )
A.在回归直线方程中,当解释变量每增加一个单位时,响应变量会增加1.2个单位
B.利用最小二乘法求回归直线方程,就是使得最小的原理:
C.已知,是两个分类变量,若随机变量的观测值越大,则结论“与有关系”的犯错概率越大;
D.若、两组成对数据的相关系数分别为,则组数据的相关性更强
5.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为的人臂展大约为
D.身高相差的两人臂展都相差
二、多选题
6.如图是根据一组观测数据得到海拔千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低kPa
C.由方程可知,样本点的残差为
D.对比两个回归模型,结合实际情况,方程的预报效果更好
7.已知变量x和变量y的一组成对样本数据()的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据()的相关系数满足
D.时,成对样本数据()的线性回归方程满足
参考公式:
三、解答题
8.近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的指标和指标,数据如下表所示:
城市1
城市2
城市3
城市4
城市5
指标
2
4
5
6
8
指标
3
4
4
4
5
(1)试求与间的样本相关系数,并说明与是否具有较强的线性相关关系(若0.75,则认为与具有较强的线性相关关系,否则认为没有较强的线性相关关系);
(2)建立关于的经验回归方程,并预测当指标为7时,指标的估计值;
(3)若某城市的共享单车的指标在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至指标在区间内.现已知省某城市共享单车的指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由.
参考公式:经验回归方程中,斜率和截距的最小二乘估计分别为,相关系数.
参考数据:.
9.某学校对高三(1)班50名学生第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,其中且1分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为.
(1)求与的样本相关系数;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值.试估计该校共800名高三学生中,数学成绩位于区间的人数.
附:①回归方程中:
②样本相关系数
③若,则
④
10.某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
$$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。