内容正文:
考点01 线性回归分析
考点一:变量的相关性
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关.
3、线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4、相关系数的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为,对数据作进一步的“标准化处理”处理,,分别除和(和分别为,和的均值),得,为简单起见,把上述“标准化”处理后的成对数据分别记为,则变量和变量的样本相关系数的计算公式如下:.
考点二:线性回归方程
1、一元线性回归模型
我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的末知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
2、线性回归方程与最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计(leastsquaresestimate),
其中
3、残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4、刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
题型一:散点图与相关性
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
仅凭肉眼观察散点图就主观判断相关强弱,忽略定量系数;混淆正相关与负相关,把趋势方向看反;将 “相关关系” 错误当成 “函数关系”,认为一定能精确预测;异常值影响判断时未剔除;误以为相关就代表因果,忽略其他变量干扰;不区分线性相关与非线性相关,盲目套用线性分析。
1.下列两个变量之间,是相关关系的有( )
①角度与它的余弦值;②人的体重与视力;③正n边形的边数和它的内角度数之和;④圆心角的大小与所对的圆弧长;⑤光照时间和果树亩产量;⑥收入水平与购买能力;⑦正方体的棱长与体积.
A.①④⑥ B.②⑤⑥⑦ C.⑤⑥ D.③⑤⑦
【答案】C
【解析】①③④⑦是函数关系;②没有关系;⑤⑥是相关关系.
故选:C
2.下列变量之间的关系不是相关关系的是( )
A.光照时间和果树亩产量 B.降雪量和交通事故发生率
C.每亩田施肥量和粮食亩产量 D.圆的面积和半径
【答案】D
【解析】列表解析
选项
是否是相关关系
原因
A
是
果树亩产量与光照时间有关,是相关关系.
B
是
降雪量的大小对交通事故发生率有影响,是相关关系.
C
是
粮食亩产量与每亩田施肥量有关,是相关关系.
D
否
圆的面积S和半径r是函数关系.
故选:D.
3.对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】B
【解析】由散点图知,相关系数对应的散点图呈负相关,
且线性相关性比较强.
故选:B.
4.下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
【答案】A
【解析】由散点图可知,并且第一个图中的点更为集中,更贴近某条直线分布,
第三、四个图中的点的分布更为分散,
因此更接近于1,的绝对值更接近于0,
即最大的是,
故选:A
5.下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
【答案】D
【解析】A,B,C中各点有非线性拟合趋势,D中具有线性相关且为负相关.
故选:D
题型二:相关系数的性质
当相关系数越接近1时,两个变量的相关关系越强,当相关系数越接近0时,两个变量的相关关系越弱.
误以为 r=0 就是无相关,实际只是无线性相关;符号判断错误,正、负相关与趋势对应混乱。
1.一般来说,一个人的身高越高,他的手就越大,为调查这一问题,对某校10名高一男生的身高与右手长度进行测量得到如下数据(单位:cm):
身高
168
170
171
172
174
176
178
178
180
181
右手长度
19.0
20.0
21.0
21.5
21.0
22.0
23.0
24.0
22.5
23.0
(1)判断两者有无线性相关关系;
(2)如果具有线性相关关系,判断相关性的强弱.
【解析】(1)散点图如图所示:
可见,身高与右手长度之间的总体趋势为一条直线,即它们线性相关.
(2)根据以上数据可由计算器计算得,
,,.
.
故两者有很强的线性相关关系.
2.现随机抽取某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如下表所示.
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有较强的线性相关关系?
注:;
若,则我们可以认为y与x之间具有较强的线性相关关系.
【解析】由题意知,
,
,
,,.
所以样本相关系数.
,故我们可以认为与之间具有较强的线性相关关系.
即这10名学生的两次数学成绩具有较强的线性相关关系.
3.为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L),空腹血糖GLU指标值(单位:mmol/L)如表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
参考公式:
相关系数,
参考数据:,,,,,,,.
【解析】由题意,变量与的相关系数,
变量与的相关系数是,
可以看出TC指标值与BMI值,GLU指标值与BMI值都是高度正相关.
4.2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示.
万件
2.08
2.12
2.19
2.28
2.36
2.48
2.59
2.68
2.80
2.87
万元
42.5
43.7
44.0
45.5
46.4
47.5
49.2
50.3
51.4
52.6
(1)计算的值;
(2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度.
【解析】(1)依题意,
(2)依题意,,,,
所以,
因为,所以与之间具有很强的相关性.
5.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
参考数据:.
参考公式:相关系数.
【解析】(1)由题可知,
;
(2)计算得,
故;
题型三:求回归直线方程
(1)线性回归方程的系数的计算,有时利用公式;
(2)线性回归方程必经过样本点的中心.
记错回归系数公式,分子分母颠倒或求和计算错误。
1.若某地财政收入x与支出y满足经验回归方程(单位:亿元),其中,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元 C.10.5亿元 D.9.5亿元
【答案】C
【解析】由题知,
令得,
又因为,所以.
所以年支出预计不会超过10.5亿元.
故选:C.
2.茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
【答案】C
【解析】由题知,.
代入,得出,
所以,A选项正确;
,变量和呈正相关,B选项正确;
由题知,,该经验回归方程必过点,C选项错误;
当时,,
故当某户家庭人口数为8时,预测该户茶产业的年收入为25.7万元,D选项正确;
故选:C
3.已知变量与的一组统计数据如下表:
2
4
5
6
8
27
42
62
72
87
若与线性相关,且关于的经验回归方程为.据此估计,当为9时,约为( )
A.95 B.100 C.105 D.110
【答案】B
【解析】由题意可得,,
由于回归直线过样本的中心点,
所以,解得,
故回归方程为,
当时,.
故选:B.
4.某产品的广告费用与销售额的统计数据如下表:
广告费用x/万元
1.8
2.2
3
5
销售额y/万元
t
7
14
16
根据上表数据得到y与x的回归直线方程为,则t的值( )
A.3 B.5.5 C.4 D.6.5
【答案】A
【解析】依题意,得,,
所以,解得.
5.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
【答案】D
【解析】由题意可知:,,
则样本中心点为.
对于选项A:因回归方程斜率为正值,则变量与正相关,故A正确;
对于选项B:因为线性回归方程过样本中心点,
则,解得,故B正确;
对于选项C:由选项B可知:,
当时,的预估值为,故C正确;
对于选项D:由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,故D错误.
故选:D.
题型四:线性回归分析
(1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和越小,模型的拟合效果越好.
混淆相关关系与函数关系,将回归方程当作精确等式;忽略回归方程适用范围,随意外推预测;不检验线性相关程度,在相关性很弱时仍强行拟合;混淆解释变量与响应变量,方程方向写反;忘记样本中心点必在回归直线上,不会用此检验结果;忽视残差分析,误判模型拟合效果。
1.某市航空公司为了解每年航班正点率对每年顾客投诉次数(单位:次)的影响,对近8年(2017年~2024年)每年航班正点率和每年顾客投诉次数的数据作了初步处理,得到下面的一些统计量的值.
600
592
43837.2
93.8
(1)求关于的经验回归方程,若该市航空公司预计2025年航班正点率为,请估算2025年顾客对该市航空公司投诉的次数;
(2)根据数据统计,该市所有顾客选择乘坐该航空公司航班的概率为,现从该市所有顾客中随机抽取4人,记这4人中选择乘坐该航空公司航班的人数为,求的分布列和数学期望.
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:
【解析】(1),
则,
所以,
所以关于的经验回归方程为;
当时,,
所以2025年顾客对该市航空公司投诉的次数约为次;
(2)可取,,
,,
,,
,
所以分布列为
所以.
(另服从,).
2.根据《中国统计年鉴》计算整理某城市最近十年蔬菜需求量的统计数据,截取部分统计数据如下表:
年份
2009
2011
2013
2015
2017
需求量(万吨)
336
346
357
376
386
(1)画出散点图;
(2)根据(1)画出的散点图判断需求量与年份是否线性相关,若相关,求出线性回归方程,若不相关,说明理由;
(3)利用(2)中所求的线性回归方程预测该市2023年的蔬菜需求量.
附:参考公式,
【解析】(1)画出散点图如图.
(2)由散点图可知,需求量与年份线性相关.
将所给表格中的数据进行处理如下表:
t(年份)
0
2
4
m(需求量)
0
19
29
由表可知,
.
所以,
,
所以
所以,
所以.
所以线性回归方程是,即.
(3)当时,,
即预测该地年蔬菜需求量是万吨.
3.近年来,中国的新能源汽车产业展现出迅猛的发展势头,已然跃升为全球最大的新能源汽车市场.该产业涵盖了电动汽车、插电式混合动力汽车以及燃料电池汽车等多种类型.在电池技术、电机和电控系统等领域,中国的新能源汽车产业取得了引人瞩目的成就.现有一汽车测评栏目为了评估某品牌纯电动汽车的实际续航能力,进行了一系列试验,并收集了相应的数据,详见下表.
速度
6
7
8
9
10
续航里程
4.4
4.2
4
3.9
3.5
(1)根据最小二乘法,计算y关于x的回归方程;
(2)根据你得到的一元线性回归模型,预测速度为时,该电动汽车的续航里程;
(3)计算5组数据的残差,并计算残差之和.
参考公式:线性回归方程中,的最小二乘法估计分别为,.
参考数据:,.
【解析】(1)由题意,,
,
,
故y关于x的线性回归方程为;
(2)根据(1)所求的回归方程,当时,,
所以电动汽车的续航里程为;
(3)由(1)可列表
速度
6
7
8
9
10
续航里程
4.4
4.2
4
3.9
3.5
预测值
4.42
4.21
4
3.79
3.58
残差
0
0.11
残差之和为.
4.某农科研究所想要研究某种农产品的产量与施肥量之间的关系,通过调研得到一些数据如下表:
施肥量x
8
10
12
14
16
18
产量y
6
8
m
t
11
12
已知,,x,y的样本相关系数,说明x,y满足线性回归.
(1)求的值;
(2)求出y关于x的经验回归方程;
(3)若施肥量为12,14时的残差分别为,求的值.
参考公式:经验回归方程的斜率和截距的最小二乘估计公式分别为,,样本相关系数.
【解析】(1)由表格可得:,.
因为,,
所以,即,解得:.
(2)由表格可得:,
.
因为,,
所以,
则,,
所以y关于x的经验回归方程为:.
(3)当时,,残差为;
当时,,残差为;
所以,即.
5.浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【解析】(1)由,,
,
所以,
因为与1非常接近,故可用线性回归模型拟合与的关系.
(2),
所以关于的回归直线方程为.
当时,,
由此预测当年份序号为7时该校的招生人数为4.5千人
题型五:非线性回归分析
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
不会对非线性模型做变量代换,直接强行用线性回归公式计算;变换后混淆新变量与原变量,回代时出错;忽略变换后数据范围,盲目外推导致预测失真;不判断变换后线性相关性,随意拟合;混淆指数、对数、幂函数模型形式,代换错误;只关注拟合公式,忽略实际意义与模型合理性。
1.为了研究某种细菌随天数变化的繁殖个数,设,收集数据如下:
天数
1
2
3
4
5
6
繁殖个数
6
12
25
49
95
190
表(Ⅰ)
3.50
62.83
3.53
17.50
596.57
12.08
表(Ⅱ)
(1)根据表(Ⅰ)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(,为常数)与(,为常数,且,)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果和表(Ⅱ)中的数据,建立关于的经验回归方程(结果保留2位小数).
附:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘法估计分别为,.
【解析】(1)由题意作出散点图如图:
由散点图可知,样本点是沿指数型曲线分布,不是分布在某直线附近,
故(,为常数,且,)适宜作为繁殖个数关于天数变化的回归方程类型.
(2)由题意知,故,
则,
,
则,故.
2.设某幼苗从观察之日起,第x天的高度为,测得的一些数据如下表所示:
第x天
1
4
9
16
25
36
49
高度ycm
0
4
7
9
11
12
13
作出这组数据的散点图发现:与x(天)之间近似满足关系式,其中a,b均为常数.
(1)试借助一元线性回归模型,根据所给数据,用最小二乘法对a,b作出估计,并求出y关于x的经验回归方程;
(2)在作出的这组数据的散点图中,甲同学随机圈取了其中的3个点,记这3个点中幼苗的高度大于的点的个数为,其中为表格中所给的幼苗高度的平均数,试求随机变量的分布列和数学期望.
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.
【解析】(1)令,则,根据已知数据表得到如下表:
x
1
4
9
16
25
36
49
1
2
3
4
5
6
7
y
0
4
7
9
11
12
13
,,
通过上表计算可得:,
因为回归直线过点,所以,
故y关于的回归方程;
(2)7天中幼苗高度大于的有4天,小于等于8的有3天,从散点图中任取3个点,
即从这7天中任取3天,所以这3个点中幼苗的高度大于的点的个数的取值为0,1,2,3,
; ;
;
所以随机变量的分布列为:
0
1
2
3
P
随机变量的期望值.
3.近年来,随着人工智能技术的不断发展,各种AI应用也不断普及,ChatGPT就是一款具有人类沟通能力的智能AI工具.随着人工智能的加入,各类传媒、影视、游戏行业迎来了高速的发展,AI技术降低了这些行业的人力成本,提高了效率.某公司2016年—2023年的年投入资金(万元)与年收益(百万元)的数据如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用(,均为常数)拟合年收益与年投入资金的关系,求出经验回归方程;
(2)为了促进公司发展,该公司决定在甲、乙两个部门之间进行一次信息化技术比赛,比赛规则如下:两个部门进行三轮答题比赛,每轮只出1道题目,比赛时两部门同时回答这道题,若一部门答对且另一部门答错,则答对的部门得10分,答错的部门得分,若两部门都答对或都答错,则两部门均得0分,累计得分为正者将获得奖品,且两部门答对与否互不影响,每次答题的结果也互不影响,甲部门答对每道题的概率为,乙部门答对每道题的概率为.
(ⅰ)记每一轮比赛中甲部门的得分为,求的分布列和数学期望;
(ⅱ)求三轮比赛后甲部门获得奖品的概率.
参考数据:,,,其中,.
参考公式:对于一组数据,,…,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
【解析】(1)因为,所以两边同时取自然对数,得,
设,所以,
又因为,,,
,
所以,
所以,即,
所以;
(2)(ⅰ)的可能取值为10,0,,
则,
,
,
所以的分布列为
10
0
所以;
(ⅱ)记三轮比赛后甲部门可获得奖品的得分为,则的可能取值为30,20,10,
则,
,
,
所以三轮比赛后甲部门获得奖品的概率为.
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费和年销售量.的数据作了初步处理,得到下面的散点图及一些统计量的值.
x
46.6
y
563
w
6.8
289.8
1.6
1469
108.8
表中.
(1)根据散点图判断:与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x、y的关系为.根据(2)的结果回答下列问题;
①年宣传费时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
【解析】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型.
(2)令,先建立关于的线性经验回归方程.由于
,
所以关于的线性经验回归方程为,
因此关于的经验回归方程为.
(3)①由(2)知,当时,年销售量的预报值,
年利润的预报值.
②根据(2)的结果知,年利润的预报值.
所以当,即时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
5.近期,某市公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据以上数据,绘制了散点图.
(1)根据散点图判断,在推广期内,与(均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的经验回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次.
[参考数据:,,,,,其中,]
【解析】(1)由散点图,得适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)由,两边同时取常用对数,得,
设,则,由,,
得,,
因此,即,则,
当时,得,
所以y关于x的回归方程为,活动推出第8天使用扫码支付的人次为347十人次.
1.李华新开了一家便利店,开业第一周的营业收入(单位:千元)统计如下:
天数序号X
1
2
3
4
5
6
7
营业收入Y/千元
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因而模糊,但知道7天的营业收入的平均值是23.已知营业收入Y与天数序号X可以用线性回归方程拟合,且第7天的实际值比预测值小0.6,则预计第10天的营业收入是( )
A.38.4千元 B.44.8千元 C.46.2千元 D.48.2千元
【答案】D
【解析】由第7天的实际值是,所以预测值为35.6,得 ①,
因为回归直线经过中心点,又,,所以②,
联立①②,解得,,
所以预计第10天的营业收入(千元).
2.两个变量X和Y的线性回归方程为,样本相关系数为r,则( )
A.与r同号 B.与r同号 C.与r异号 D.与r异号
【答案】B
【解析】由线性相关关系可知,若,等价于两个变量正相关,等价于;
若,等价于两个变量负相关,等价于,
所以与同号,故B项正确,D项错误;
与的符号没有关系,故A,C项错误.
3.已知变量和满足经验回归方程,且变量和之间的一组相关数据如下表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【解析】选项A:因为变量和满足经验回归方程,又,,
所以,解得,故A正确;
选项B:因为变量和满足经验回归方程,
当时,,故B正确;
选项C:因为变量和满足经验回归方程,,
所以变量和呈负相关,故C正确;
选项D:由选项A知,,,该经验回归直线必过点,不一定过样本点,故D错误.
故选:D.
4.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
【答案】D
【解析】由回归直线过样本中心点,得,
,代入,得,
方程两边同时乘5,得.
故选:D.
5.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【解析】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
6.已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【解析】对于A,因为变量和满足经验回归方程,
又,,所以,
解得,所以A正确;
对于B,因为变量和满足经验回归方程,
当时,,所以B正确;
对于C,因为变量和满足经验回归方程,
,所以变量和呈负相关,所以C正确;
对于D,由选项A知,,,该经验回归直线必过点,所以D错误.
故选:D.
7.已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
【答案】B
【解析】根据题意可得,,,
则5对样本数据的样本点中心为,
将其代入方程中得,,则.
故选:B.
8.某产品的研发费用x万元与销售利润y万元的统计数据如表所示,
研发费用x (万元)
4
2
3
5
利润y (万元)
49
26
39
m
根据上表可得回归方程.中的 .据此模型预计研发费用为6万元时,利润为65.5, 则( )
A. B.
C. D.
【答案】C
【解析】由题意:.
所以.
又由已知数据,,.
又经过,所以.
所以,.
故选:C
9.(多选题)对于变量X,Y,经过随机抽样获得成对数据(,2,3,…,10),且,利用最小二乘法得到Y关于X的线性回归方程为,且X与Y的相关系数,则下列结论正确的是( )
A.r越大,X与Y的线性相关性越强
B.若,则
C.若,则
D.若样本点(,2,3,…,10)都在回归直线上,则
【答案】AD
【解析】由于可得,则,
对于A, r的绝对值越接近1,由于,故的值越大,X与Y的线性相关性越强,故A正确,
对于C,当时,,则,故C错误,
对于D, 若样本点(,2,3,…,10)都在回归直线上,且,则,D正确,
对于B, 当时,无法确定的值,B错误,
10.(多选题)已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如下表所示,则下列说法正确的是( )
x
5
6
9
12
y
8
7
m
2.4
A.m=5 B.当x=13时,
C.变量x和y呈负相关 D.该经验回归直线必过点(9,5)
【答案】ABC
【解析】对于A,因为变量x和y满足经验回归方程,
又,,所以,解得m=5,故A正确;
对于B,因为变量x和y满足经验回归方程,当x=13时,,故B正确;
对于C,因为变量x和y满足经验回归方程,k=-0.78<0,所以变量x和y呈负相关,故C正确;
对于D,由选项A知,,该经验回归直线必过点,不一定过样本点(9,5),故D错误.
11.(多选题)为调查本班学生的身高体重情况,班主任在学生中随机抽测了人的身高和体重,统计数据制作成如下所示的散点图:
由最小二乘法计算得到回归直线的方程为,样本相关系数为.经过分析确定为异常数据,把它去掉后,再用剩下的组数据计算得到回归直线的方程为,样本相关系数为,且必经过点.找到该异常数据的同学后重新测量为,用该组数据与剩下的组数据计算得到回归直线的方程为,样本相关系数为,则以下结论正确的有( )
A. B.
C. D.
【答案】AC
【解析】身高的平均值为,
从散点图分析可知,异常数据的横坐标小于平均值,纵坐标相对过大,
所以去掉异常数据后回归直线的斜率变大,所以,
因为去掉异常数据后成对样本数据的线性相关程度更强,拟合效果会更好,所以,
又因为重新测量后的数据恰好为余下组数据的平均值,所以,,
综上,,.
12.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为________.
【答案】
【解析】因为,
所以.
故答案为:.
13.已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时,________.
【答案】7
【解析】由样本数据点集求得的经验回归方程为,且,
所以,故数据的样本中心点为,
去掉,,
重新求得的经验回归直线的斜率估计值为,
经验回归方程设为,代入,求得,
所以经验回归直线的方程为:,将代入经验回归方程,求得的估计值为.
故答案为:7.
14.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则__________.
【答案】/
【解析】令,
所以,
由,解得.
故答案为:
15.近些年来,促进新能源汽车产业发展政策频出,新能源市场得到很大发展,销量及渗透率远超预期,新能源几乎成了各个汽车领域的热点.某车企通过市场调研并进行粗略模拟,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入/亿元
1
2
3
4
5
经济收益/亿元
2.5
4
6.5
9
10.5
(1)依据表中统计数据,计算样本相关系数(结果保留3位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强)
(2)求出关于的线性回归方程,并预测研发投入10亿元时的经济收益.
参考数据:.
附:相关系数,线性回归方程的斜率,截距.
【解析】(1),
,
又因为,
所以,
所以具有较强的线性相关程度.
(2)因为,
则,所以关于的线性回归方程为,
将代入线性回归方程,得,
所以预测研发投入10亿元时产品的经济收益为亿元.
16.已知某产品近5年的市场销售单价(单位:元)如下表:
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
市场销售单价
2.0
2.2
2.4
3.6
4.8
(1)已知和线性相关,用最小二乘法求出关于的经验回归方程;
(2)试预测该产品2026年的市场销售单价.
附:经验回归方程中斜率和截距最小二乘估计公式分别为,.
【解析】(1)由题意得,.
因为,
.
所以,.
故经验回归方程为.
(2)由已知2026年对应的年份编号为7,令,则.
故预测该产品2026年的市场销售单价为元.
17.为了解学生初中升学的数学成绩对高一数学学习的影响,在高一年级随机抽取6名学生,对其入学的数学成绩(分)和高一第一学期期末考试数学成绩(分)进行了统计,如下表:
中考数学成绩
50
60
70
80
90
100
高一第一学期期末数学成绩
65
80
95
105
120
130
(1)规定高一期末数学成绩不低于90分为及格,不低于120分为优秀,从所抽取的6人中随机选取1人,记为“学生的高一第一学期期末数学成绩及格”,为“学生的高一第一学期期末数学成绩优秀”,求;
(2)由散点图可知与之间具有线性相关关系,求关于的经验回归方程并估计某中考数学成绩为110分的学生高一第一学期期末考试的数学成绩(成绩保留整数,采用四舍五入法).
附:经验回归模型中,;
参考数据:.
【解析】(1)依题意,,
所以.
(2)依题意,,,
则,
,因此,
当时,,
所以估计该学生高一第一学期期末考试的数学成绩为145分.
18.已知与及与的成对数据如下表,且关于的回归直线方程为.
0.1
0.4
0.9
1.6
2.5
3.6
4.9
1
4
6
8
9
10
1
4
9
16
25
36
49
0
4
7
9
11
12
13
(1)求关于的回归直线方程;
(2)由散点图发现可以用函数模型拟合与的关系,请建立关于的回归方程(的值精确到0.01);
(3)又得到一组新数据,根据这对数据残差的绝对值的大小判断(1)(2)两个方程哪个拟合效果更好.
参考数据:.
参考公式:对于一组数据,其回归直线方程为,其中.
【解析】(1)由表中数据得,则,,
又关于的回归直线方程为,则,
即关于的回归直线方程为.
(2)若用函数模型拟合与的关系,则令,此时,
则,即,
又,所以关于的回归方程为.
(3)(1)中关于的回归直线方程为,
所以当时,,残差为,
(2)中关于的回归方程为,所以当时,,
残差为,
因为,所以(2)中方程的拟合效果更好.
19.某公司投资某款电动玩具的宣传费(单位:十万元)和销量(单位:百万件)如表所示:
宣传费(十万元)
3
4
5
6
销量(百万件)
2.5
3
4
4.5
(1)已知可用线性回归模型拟合与的关系,求关于的经验回归方程;
(2)若甲、乙两人购买这款电动玩具的概率分别为,且甲、乙是否购买这款电动玩具互不影响.若每个电动玩具的售价均定为80元,且两人购买电动玩具的总金额的期望不超过120元,求的取值范围.
参考公式:经验回归方程中斜率和截距的最小二乘估计公式分别为.
【解析】(1)由题知,
,
所以,
所以.
所以关于的经验回归方程为.
(2)设甲、乙两人中选择购买这款电动玩具的人数为,
则的所有可能取值为,
又,
,
,
所以,
,
令,即,解得.
又,所以的取值范围为.
1 / 10
学科网(北京)股份有限公司
$
考点01 线性回归分析
考点一:变量的相关性
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关.
3、线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4、相关系数的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为,对数据作进一步的“标准化处理”处理,,分别除和(和分别为,和的均值),得,为简单起见,把上述“标准化”处理后的成对数据分别记为,则变量和变量的样本相关系数的计算公式如下:.
考点二:线性回归方程
1、一元线性回归模型
我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的末知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
2、线性回归方程与最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计(leastsquaresestimate),
其中
3、残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4、刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
题型一:散点图与相关性
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
仅凭肉眼观察散点图就主观判断相关强弱,忽略定量系数;混淆正相关与负相关,把趋势方向看反;将 “相关关系” 错误当成 “函数关系”,认为一定能精确预测;异常值影响判断时未剔除;误以为相关就代表因果,忽略其他变量干扰;不区分线性相关与非线性相关,盲目套用线性分析。
1.下列两个变量之间,是相关关系的有( )
①角度与它的余弦值;②人的体重与视力;③正n边形的边数和它的内角度数之和;④圆心角的大小与所对的圆弧长;⑤光照时间和果树亩产量;⑥收入水平与购买能力;⑦正方体的棱长与体积.
A.①④⑥ B.②⑤⑥⑦ C.⑤⑥ D.③⑤⑦
2.下列变量之间的关系不是相关关系的是( )
A.光照时间和果树亩产量 B.降雪量和交通事故发生率
C.每亩田施肥量和粮食亩产量 D.圆的面积和半径
3.对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
4.下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
5.下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
题型二:相关系数的性质
当相关系数越接近1时,两个变量的相关关系越强,当相关系数越接近0时,两个变量的相关关系越弱.
误以为 r=0 就是无相关,实际只是无线性相关;符号判断错误,正、负相关与趋势对应混乱。
1.一般来说,一个人的身高越高,他的手就越大,为调查这一问题,对某校10名高一男生的身高与右手长度进行测量得到如下数据(单位:cm):
身高
168
170
171
172
174
176
178
178
180
181
右手长度
19.0
20.0
21.0
21.5
21.0
22.0
23.0
24.0
22.5
23.0
(1)判断两者有无线性相关关系;
(2)如果具有线性相关关系,判断相关性的强弱.
2.现随机抽取某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如下表所示.
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有较强的线性相关关系?
注:;
若,则我们可以认为y与x之间具有较强的线性相关关系.
3.为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L),空腹血糖GLU指标值(单位:mmol/L)如表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
参考公式:
相关系数,
参考数据:,,,,,,,.
4.2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示.
万件
2.08
2.12
2.19
2.28
2.36
2.48
2.59
2.68
2.80
2.87
万元
42.5
43.7
44.0
45.5
46.4
47.5
49.2
50.3
51.4
52.6
(1)计算的值;
(2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度.
5.某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
参考数据:.
参考公式:相关系数.
题型三:求回归直线方程
(1)线性回归方程的系数的计算,有时利用公式;
(2)线性回归方程必经过样本点的中心.
记错回归系数公式,分子分母颠倒或求和计算错误。
1.若某地财政收入x与支出y满足经验回归方程(单位:亿元),其中,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元 C.10.5亿元 D.9.5亿元
2.茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
3.已知变量与的一组统计数据如下表:
2
4
5
6
8
27
42
62
72
87
若与线性相关,且关于的经验回归方程为.据此估计,当为9时,约为( )
A.95 B.100 C.105 D.110
4.某产品的广告费用与销售额的统计数据如下表:
广告费用x/万元
1.8
2.2
3
5
销售额y/万元
t
7
14
16
根据上表数据得到y与x的回归直线方程为,则t的值( )
A.3 B.5.5 C.4 D.6.5
5.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
题型四:线性回归分析
(1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和越小,模型的拟合效果越好.
混淆相关关系与函数关系,将回归方程当作精确等式;忽略回归方程适用范围,随意外推预测;不检验线性相关程度,在相关性很弱时仍强行拟合;混淆解释变量与响应变量,方程方向写反;忘记样本中心点必在回归直线上,不会用此检验结果;忽视残差分析,误判模型拟合效果。
1.某市航空公司为了解每年航班正点率对每年顾客投诉次数(单位:次)的影响,对近8年(2017年~2024年)每年航班正点率和每年顾客投诉次数的数据作了初步处理,得到下面的一些统计量的值.
600
592
43837.2
93.8
(1)求关于的经验回归方程,若该市航空公司预计2025年航班正点率为,请估算2025年顾客对该市航空公司投诉的次数;
(2)根据数据统计,该市所有顾客选择乘坐该航空公司航班的概率为,现从该市所有顾客中随机抽取4人,记这4人中选择乘坐该航空公司航班的人数为,求的分布列和数学期望.
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:
2.根据《中国统计年鉴》计算整理某城市最近十年蔬菜需求量的统计数据,截取部分统计数据如下表:
年份
2009
2011
2013
2015
2017
需求量(万吨)
336
346
357
376
386
(1)画出散点图;
(2)根据(1)画出的散点图判断需求量与年份是否线性相关,若相关,求出线性回归方程,若不相关,说明理由;
(3)利用(2)中所求的线性回归方程预测该市2023年的蔬菜需求量.
附:参考公式,
3.近年来,中国的新能源汽车产业展现出迅猛的发展势头,已然跃升为全球最大的新能源汽车市场.该产业涵盖了电动汽车、插电式混合动力汽车以及燃料电池汽车等多种类型.在电池技术、电机和电控系统等领域,中国的新能源汽车产业取得了引人瞩目的成就.现有一汽车测评栏目为了评估某品牌纯电动汽车的实际续航能力,进行了一系列试验,并收集了相应的数据,详见下表.
速度
6
7
8
9
10
续航里程
4.4
4.2
4
3.9
3.5
(1)根据最小二乘法,计算y关于x的回归方程;
(2)根据你得到的一元线性回归模型,预测速度为时,该电动汽车的续航里程;
(3)计算5组数据的残差,并计算残差之和.
参考公式:线性回归方程中,的最小二乘法估计分别为,.
参考数据:,.
4.某农科研究所想要研究某种农产品的产量与施肥量之间的关系,通过调研得到一些数据如下表:
施肥量x
8
10
12
14
16
18
产量y
6
8
m
t
11
12
已知,,x,y的样本相关系数,说明x,y满足线性回归.
(1)求的值;
(2)求出y关于x的经验回归方程;
(3)若施肥量为12,14时的残差分别为,求的值.
参考公式:经验回归方程的斜率和截距的最小二乘估计公式分别为,,样本相关系数.
5.浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:
年份序号
1
2
3
4
5
招生人数/千人
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
题型五:非线性回归分析
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
不会对非线性模型做变量代换,直接强行用线性回归公式计算;变换后混淆新变量与原变量,回代时出错;忽略变换后数据范围,盲目外推导致预测失真;不判断变换后线性相关性,随意拟合;混淆指数、对数、幂函数模型形式,代换错误;只关注拟合公式,忽略实际意义与模型合理性。
1.为了研究某种细菌随天数变化的繁殖个数,设,收集数据如下:
天数
1
2
3
4
5
6
繁殖个数
6
12
25
49
95
190
表(Ⅰ)
3.50
62.83
3.53
17.50
596.57
12.08
表(Ⅱ)
(1)根据表(Ⅰ)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(,为常数)与(,为常数,且,)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果和表(Ⅱ)中的数据,建立关于的经验回归方程(结果保留2位小数).
附:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘法估计分别为,.
2.设某幼苗从观察之日起,第x天的高度为,测得的一些数据如下表所示:
第x天
1
4
9
16
25
36
49
高度ycm
0
4
7
9
11
12
13
作出这组数据的散点图发现:与x(天)之间近似满足关系式,其中a,b均为常数.
(1)试借助一元线性回归模型,根据所给数据,用最小二乘法对a,b作出估计,并求出y关于x的经验回归方程;
(2)在作出的这组数据的散点图中,甲同学随机圈取了其中的3个点,记这3个点中幼苗的高度大于的点的个数为,其中为表格中所给的幼苗高度的平均数,试求随机变量的分布列和数学期望.
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.
3.近年来,随着人工智能技术的不断发展,各种AI应用也不断普及,ChatGPT就是一款具有人类沟通能力的智能AI工具.随着人工智能的加入,各类传媒、影视、游戏行业迎来了高速的发展,AI技术降低了这些行业的人力成本,提高了效率.某公司2016年—2023年的年投入资金(万元)与年收益(百万元)的数据如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用(,均为常数)拟合年收益与年投入资金的关系,求出经验回归方程;
(2)为了促进公司发展,该公司决定在甲、乙两个部门之间进行一次信息化技术比赛,比赛规则如下:两个部门进行三轮答题比赛,每轮只出1道题目,比赛时两部门同时回答这道题,若一部门答对且另一部门答错,则答对的部门得10分,答错的部门得分,若两部门都答对或都答错,则两部门均得0分,累计得分为正者将获得奖品,且两部门答对与否互不影响,每次答题的结果也互不影响,甲部门答对每道题的概率为,乙部门答对每道题的概率为.
(ⅰ)记每一轮比赛中甲部门的得分为,求的分布列和数学期望;
(ⅱ)求三轮比赛后甲部门获得奖品的概率.
参考数据:,,,其中,.
参考公式:对于一组数据,,…,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费和年销售量.的数据作了初步处理,得到下面的散点图及一些统计量的值.
x
46.6
y
563
w
6.8
289.8
1.6
1469
108.8
表中.
(1)根据散点图判断:与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x、y的关系为.根据(2)的结果回答下列问题;
①年宣传费时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
5.近期,某市公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据以上数据,绘制了散点图.
(1)根据散点图判断,在推广期内,与(均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的经验回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次.
[参考数据:,,,,,其中,]
1.李华新开了一家便利店,开业第一周的营业收入(单位:千元)统计如下:
天数序号X
1
2
3
4
5
6
7
营业收入Y/千元
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因而模糊,但知道7天的营业收入的平均值是23.已知营业收入Y与天数序号X可以用线性回归方程拟合,且第7天的实际值比预测值小0.6,则预计第10天的营业收入是( )
A.38.4千元 B.44.8千元 C.46.2千元 D.48.2千元
2.两个变量X和Y的线性回归方程为,样本相关系数为r,则( )
A.与r同号 B.与r同号 C.与r异号 D.与r异号
3.已知变量和满足经验回归方程,且变量和之间的一组相关数据如下表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
4.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
5.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
6.已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
7.已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
8.某产品的研发费用x万元与销售利润y万元的统计数据如表所示,
研发费用x (万元)
4
2
3
5
利润y (万元)
49
26
39
m
根据上表可得回归方程.中的 .据此模型预计研发费用为6万元时,利润为65.5, 则( )
A. B.
C. D.
9.(多选题)对于变量X,Y,经过随机抽样获得成对数据(,2,3,…,10),且,利用最小二乘法得到Y关于X的线性回归方程为,且X与Y的相关系数,则下列结论正确的是( )
A.r越大,X与Y的线性相关性越强
B.若,则
C.若,则
D.若样本点(,2,3,…,10)都在回归直线上,则
10.(多选题)已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如下表所示,则下列说法正确的是( )
x
5
6
9
12
y
8
7
m
2.4
A.m=5 B.当x=13时,
C.变量x和y呈负相关 D.该经验回归直线必过点(9,5)
11.(多选题)为调查本班学生的身高体重情况,班主任在学生中随机抽测了人的身高和体重,统计数据制作成如下所示的散点图:
由最小二乘法计算得到回归直线的方程为,样本相关系数为.经过分析确定为异常数据,把它去掉后,再用剩下的组数据计算得到回归直线的方程为,样本相关系数为,且必经过点.找到该异常数据的同学后重新测量为,用该组数据与剩下的组数据计算得到回归直线的方程为,样本相关系数为,则以下结论正确的有( )
A. B.
C. D.
12.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得经验回归方程为,则该模型的回归方程为________.
13.已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时,________.
14.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则__________.
15.近些年来,促进新能源汽车产业发展政策频出,新能源市场得到很大发展,销量及渗透率远超预期,新能源几乎成了各个汽车领域的热点.某车企通过市场调研并进行粗略模拟,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入/亿元
1
2
3
4
5
经济收益/亿元
2.5
4
6.5
9
10.5
(1)依据表中统计数据,计算样本相关系数(结果保留3位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强)
(2)求出关于的线性回归方程,并预测研发投入10亿元时的经济收益.
参考数据:.
附:相关系数,线性回归方程的斜率,截距.
16.已知某产品近5年的市场销售单价(单位:元)如下表:
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
市场销售单价
2.0
2.2
2.4
3.6
4.8
(1)已知和线性相关,用最小二乘法求出关于的经验回归方程;
(2)试预测该产品2026年的市场销售单价.
附:经验回归方程中斜率和截距最小二乘估计公式分别为,.
17.为了解学生初中升学的数学成绩对高一数学学习的影响,在高一年级随机抽取6名学生,对其入学的数学成绩(分)和高一第一学期期末考试数学成绩(分)进行了统计,如下表:
中考数学成绩
50
60
70
80
90
100
高一第一学期期末数学成绩
65
80
95
105
120
130
(1)规定高一期末数学成绩不低于90分为及格,不低于120分为优秀,从所抽取的6人中随机选取1人,记为“学生的高一第一学期期末数学成绩及格”,为“学生的高一第一学期期末数学成绩优秀”,求;
(2)由散点图可知与之间具有线性相关关系,求关于的经验回归方程并估计某中考数学成绩为110分的学生高一第一学期期末考试的数学成绩(成绩保留整数,采用四舍五入法).
附:经验回归模型中,;
参考数据:.
18.已知与及与的成对数据如下表,且关于的回归直线方程为.
0.1
0.4
0.9
1.6
2.5
3.6
4.9
1
4
6
8
9
10
1
4
9
16
25
36
49
0
4
7
9
11
12
13
(1)求关于的回归直线方程;
(2)由散点图发现可以用函数模型拟合与的关系,请建立关于的回归方程(的值精确到0.01);
(3)又得到一组新数据,根据这对数据残差的绝对值的大小判断(1)(2)两个方程哪个拟合效果更好.
参考数据:.
参考公式:对于一组数据,其回归直线方程为,其中.
19.某公司投资某款电动玩具的宣传费(单位:十万元)和销量(单位:百万件)如表所示:
宣传费(十万元)
3
4
5
6
销量(百万件)
2.5
3
4
4.5
(1)已知可用线性回归模型拟合与的关系,求关于的经验回归方程;
(2)若甲、乙两人购买这款电动玩具的概率分别为,且甲、乙是否购买这款电动玩具互不影响.若每个电动玩具的售价均定为80元,且两人购买电动玩具的总金额的期望不超过120元,求的取值范围.
参考公式:经验回归方程中斜率和截距的最小二乘估计公式分别为.
1 / 10
学科网(北京)股份有限公司
$