变量间的相关性 讲义-2026届高三数学一轮复习
2025-11-11
|
2份
|
32页
|
113人阅读
|
1人下载
普通
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 教案-讲义 |
| 知识点 | 回归分析 |
| 使用场景 | 高考复习-一轮复习 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 743 KB |
| 发布时间 | 2025-11-11 |
| 更新时间 | 2025-11-11 |
| 作者 | 匿名 |
| 品牌系列 | - |
| 审核时间 | 2025-11-11 |
| 下载链接 | https://m.zxxk.com/soft/54830645.html |
| 价格 | 0.50储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
变量间的相关性
课前必备知识
课标要求
1.会作两个关联变量的散点图,会利用散点图认识变量间的相关关系,了解样本相关系数的统计含义.2.结合实例,会通过相关系数比较多组成对数据的相关性.3.了解最小二乘法的思想,能根据最小二乘法建立线性回归模型,会用回归分析思想与方法解决实际问题.
知识梳理
1.相关关系
两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为__相关关系__.与函数关系不同,相关关系是一种__不确定__关系.
2.散点图
在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的统计图叫做散点图.它可直观地判断两个变量关系是否可以用线性关系表示.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量__正相关__;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量__负相关__.
3.样本相关系数
r=,
当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.|r|越接近1时,成对样本数据的线性相关程度越强;当|r|接近0时,成对样本数据的线性相关程度越弱.
4.一元线性回归模型
(1)在一元线性回归模型Y=bx+a+e中,因变量Y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分Y的变化,在统计中,我们把自变量x叫做__解释__变量,因变量Y称为__响应__变量.
(2)经验回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程为,则
残差平方和为.
5.残差分析
(1)残差及残差平方和:残差ei=,残差平方和为.
(2)用决定系数来比较两个模型的拟合效果,其计算公式是R2= 1-,R2的值越大,表示残差平方和越 小 ,即回归模型的拟合效果越 好 .
课前训练
1.(2024·天津卷)下列图中,相关性系数最大的是( )
解析:A 观察四幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他三图更接近1.故选A.
2.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. y=a+bx B. y=a+bx2
C. y=a+bex D. y=a+bln x
解析:D 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是y=a+bln x.故选D.
3.(教材母题必修8.2.2练习T2改编)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展.现要订购一批苗木,苗木长度与售价如下表:
苗木长度x
/cm
38
48
58
68
78
88
售价y/元
16.8
18.8
20.8
22.8
24
25.8
若苗木长度x(cm)与售价y(元)之间存在线性相关关系,其经验回归方程为=x+8.9,则当售价大约为38.9元时,苗木长度大约为( )
A.148 cm B.150 cm
C.152 cm D.154 cm
解析:B
因为==63,
==21.5,所以样本中心点为(63,21.5),
又知经验回归方程=x+8.9经过点(63,21.5),所以21.5=63+8.9,所以=0.2,
所以经验回归方程为=0.2x+8.9,
当=38.9元时,x=150 cm.
则当售价大约为38.9元时,苗木长度大约为150 cm.故选B.
4.某农业科研所在5块面积相同的长方形试验田中均种植了同一种农作物,每一块试验田的施肥量x(单位:kg)与产量y(单位:kg)之间有如下关系:
施肥量x/kg
20
40
50
60
80
产量y/kg
600
800
1200
1000
1400
已知y与x满足线性回归方程=13x+,则当施肥量为80 kg时,残差为________.
解析:10
由题意得==50,
==1000,
已知回归直线过样本点的中心,所以1000=13×50+,
解得=350,所以=13x+350,
则当x=80时,=13×80+350=1390,故残差为1400-1390=10.
5.用模型y=aekx拟合一组数(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2…y10=e70,设z=ln y,得变换后的经验回归方程为=x+4,则ak=__________.
解析:3e4 已知x1+x2+…+x10=10,
所以==1,y1y2…y10=e70,z=ln y,
所以=
=
===7,
由题意,(,)满足的经验回归方程为=x+4,所以7=·1+4,所以=3,
此时经验回归方程为=3x+4,即ln y=3x+4,可将此式化为指数形式=e3x+4,即=e4·e3x.
因为模型为y=aekx,所以a=e4,k=3,所以ak=3e4.
课堂核心考点
考点1 变量间的相关性
【例1】 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
根部横截面积xi
材积量yi
1
0.04
0.25
2
0.06
0.40
3
0.04
0.22
4
0.08
0.54
5
0.08
0.51
6
0.05
0.34
7
0.05
0.36
8
0.07
0.46
9
0.07
0.42
10
0.06
0.40
总和
0.6
3.9
计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数
解析:(1)样本中10棵这种树木的根部横截面积的平均值==0.06,
样本中10棵这种树木的材积量的平均值==0.39,
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)
=
=≈≈0.97,
则r≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,可得=,解得Y=1209.
则该林区这种树木的总材积量估计为1209 m3.
判断两个变量是否线性相关及相关程度通常有两种方法:
①利用散点图直观判断;
②将相关数据代入相关系数公式求出r,然后根据r的大小进行判断.
相关系数|r|越大,相关程度越强;|r|越小,相关程度越弱.通常|r|≥0.75时,认为两个变量具有线性相关关系.
变式探究
1.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合).
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量
X/小时
30<X<50
50≤X≤70
X>70
光照控制仪
运行台数
3
2
1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:
参考数据:≈0.55,≈0.95.
解析:(1)由已知数据可得
==5,
==4.
因为(xi-)(yi-)=(-3)×(-1)+(-1)×0+0×0+1×0+3×1=6,
==2,
==,
所以相关系数
==≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3000-2×1000=1000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3000-1×1000=5000(元).
当30<X<50时,共有5周,此时3台光照控制仪都运行,
每周的周总利润为3×3000=9000(元).
所以过去50周的周总利润的平均值为
=4600(元),
所以商家在过去50周的周总利润的平均值为4600元.
考点2 回归方程的求解与运用
【例2】 (2025·重庆阶段考)研究表明,学生的学习成绩y(分)与每天投入的课后学习时间x(分钟)有较强的线性相关性.某校数学小组为了研究如何高效利用自己的学习时间,收集了该校高三(1)班学生9个月内在某学科(满分100分)所投入的课后学习时间和月考成绩的相关数据,下图是该小组制作的原始数据与统计图(散点图).
月次
某科课后投入时间x
(分钟)
高三(1)班某科
平均分y(分)
1
20
65
2
25
68
3
30
75
4
35
72
5
40
73
6
45
73
7
50
73
8
55
73.5
9
60
73
(1)当x≤40时,该小组建立了y与x的线性回归模型,求其经验回归方程.
(2)当x≤40时,由图中观察到,第3个月的数据点明显偏离回归直线l,若剔除第3个月数据点后,用余下的4个散点做线性回归分析,得到新回归直线l′,证明:l∥l′.
(3)当x>40时,该小组确定了y与x满足的线性回归方程为=0.01x+72.6,该数学小组建议该班在该学科投入课后学习时间为40分钟,请结合(1)(2)的结论说明该建议的合理性.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为
,.
解析:(1)==30,
==70.6,
则=- =70.6-0.4×30=58.6,
所以所求经验回归方程为=0.4x+58.6.
(2)证明:设l′的方程为y=b1x+a1,
==30,
==69.5,
所以
=×[(-10)×(-4.5)+(-5)×(-1.5)+5×2.5+10×3.5]
=0.4,
则a1=-b1=69.5-0.4×30=57.5,
所以l′的方程为y=0.4x+57.5,
故所以l∥l′.
(3)当x≤40时,l′的斜率为0.4,这个斜率的意义是:课后每多投入10分钟,平均分就能提高4分.
当x>40时,回归直线的斜率为0.01,这个斜率的意义是:课后每多投入10分钟,平均分就能提高0.1分,说明投入几乎没用.
故该学习小组的建议是合理的.
回归方程分为线性回归方程和非线性回归方程两种,判定方法一般依据样本数据画出散点图.
(1)线性回归方程的求法:
①依据样本数据画出散点图,确定两个变量具有线性相关关系;
②由求得,的值而得到其经验回归方程.
(2)求非线性回归方程的求法:
①依据样本数据画出散点图,确定两个变量具有非线性相关关系;②通过换元化非线性回归为线性回归;③利用相关数据计算回归系数,;④将线性经验回归方程转化为非线性经验回归方程.
注意:①计算的值时,需要根据题目条件选择计算公式或,而计算时,要利用回归直线过样本点的中心(,)的特点.
②在严格按照公式求解时,一定要注意题目中提供的数据,注意计算的准确性,并注意近似计算的要求.
变式探究
2.(2025·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入,该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示.
令vi=ln xi(i=1,2,…,5),数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好.
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少.
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除了受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①相关系数
回归直线中公式分别为,;
②参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
解析:(1)设模型①和②的相关系数分别为r1,r2.
由题意可得
r1==
≈≈0.97,
r2====1.
所以|r1|<|r2|,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为==5,
又由,,
-5=8.8-0.96×5=4,所以y=5v+4,即回归方程为y=5ln x+4.
当x=6时,y=5ln 6+4≈13,
因此当年广告费为6(百万元)时,产品的年销售量大概是13(百万辆).
(3)净利润为200×(5ln x+4)-200x-ξ(x>0),
令g(x)=200×(5ln x+4)-200x-ξ,
所以g′(x)=-200,
可得y=g(x)在(0,5)上为增函数,在(5,+∞)上为减函数.
所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1400-ξ,
由题意得1400-ξ>1000,即ξ<400,P(ξ<400)=P(ξ>800)=0.3,
即该公司年净利润大于1000(百万元)的概率为0.3.
考点3 残差分析
【例3】 BMI指数是用体重千克数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当BMI数值大于或等于20.5时,我们说体重较重,当BMI数值小于20.5时,我们说体重较轻,身高大于或等于170 cm时,我们说身高较高,身高小于170 cm时,我们说身高较矮.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号
身高xi/cm
体重yi/kg
1
166
57
2
167
58
3
160
53
4
173
61
5
178
66
6
169
57
7
158
50
8
173
66
(1)根据最小二乘法的思想与公式求得经验回归方程=0.8x-75.9.请利用已经求得的经验回归方程,完善下列残差表,并求决定系数R2(精确到0.01).
编号
身高xi/cm
体重yi/kg
残差
1
166
57
0.1
2
167
58
0.3
3
160
53
0.9
4
173
61
-1.5
5
178
66
-0.5
6
169
57
7
158
50
8
173
66
(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的经验回归方程.
参考公式:R2=1-,
,
,.
参考数据:xiyi=78880,x=226112,=168,=58.5,(yi-)=226.
解析:(1)由题意知经验回归方程为=0.8x-75.9,
计算=57-0.8×169+75.9=-2.3,
=50-0.8×158+75.9=-0.5,
=66-0.8×173+75.9=3.5.
残差表完善如下,
编号
身高xi/cm
体重yi/kg
残差
1
166
57
0.1
2
167
58
0.3
3
160
53
0.9
4
173
61
-1.5
5
178
66
-0.5
6
169
57
-2.3
7
158
50
-0.5
8
173
66
3.5
计算R2=1-=1-×(0.01+0.09+0.81+2.25+0.25+5.29+0.25+12.25)≈0.91,
所以决定系数R2≈0.91.
(2)通过残差分析知,残差的最大(绝对值)的那组数据为第8组,且y8=58.
由xiyi=78880,
计算修订后=78880-173×66+173×58=77496,
又x==226112,=168,
修订后y′=×(8×58.5-66+58)=57.5.
所以
=
=0.675,
=-=57.5-0.675×168=-55.9.
所以y关于x的经验回归方程是=0.675x-55.9.
判断相关关系的方法
(1)散点图法:如果样本点的分布从整体上看大致在一条直线(或曲线)附近,或者样本点的分布从整体上看大致在一条带形区域内,变量就具有相关关系;大致在一条直线(或曲线)附近的密集程度或带形区域宽度反映相关程度.
(2)决定系数法:由公式R2=1-求得R2的值,R2的值越接近1,拟合效果越好,相关性越强.
变式探究
3.某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.
x
1
2
3
4
5
6
y
0.5
1
1.5
3
6
12
z=ln y
-0.7
0
0.4
1.1
1.8
2.5
(1)该公司科研团队分析散点图的特征后,计划分别用①y=bx+a和②y=edx+c两种方案作为年销售量y关于年投资额x的回归分析模型,请根据统计表的数据,确定方案①和②的经验回归方程.(注:系数a,b,c,d按四舍五入保留一位小数)
(2)根据下表中数据,用相关指数R2(不必计算,只比较大小)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少.
经验回归方程
残差平方和
y=bx+a
y=edx+c
18.29
0.65
参考公式及数据:,,
,.
解析:(1)由题可得=(1+2+3+4+5+6)=3.5,
=(0.5+1+1.5+3+6+12)=4,
,
=-≈4-2.11×3.5≈-3.4,
故方案①的经验回归方程为=2.1x-3.4.
对y=edx+c两边取对数得ln y=dx+c,
令z=ln y,z=dx+c是一元线性回归方程.
=(-0.7+0+0.4+1.1+1.8+2.5)=0.85,
c=-d=0.85-0.63×3.5≈-1.4,
故方案②的经验回归方程为=e0.6x-1.4.
(2)方案①相关指数;方案②相关指数,
(有此结论即给分),故模型②的拟合效果更好,精度更高.
当研发年投资额为8百万元时,产品的年销售量(千件).
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
变量间的相关性
课前必备知识
课标要求
1.会作两个关联变量的散点图,会利用散点图认识变量间的相关关系,了解样本相关系数的统计含义.2.结合实例,会通过相关系数比较多组成对数据的相关性.3.了解最小二乘法的思想,能根据最小二乘法建立线性回归模型,会用回归分析思想与方法解决实际问题.
知识梳理
1.相关关系
两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为__相关关系__.与函数关系不同,相关关系是一种__不确定__关系.
2.散点图
在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的统计图叫做散点图.它可直观地判断两个变量关系是否可以用线性关系表示.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量__正相关__;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量__负相关__.
3.样本相关系数
r=,
当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.|r|越接近1时,成对样本数据的线性相关程度越强;当|r|接近0时,成对样本数据的线性相关程度越弱.
4.一元线性回归模型
(1)在一元线性回归模型Y=bx+a+e中,因变量Y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分Y的变化,在统计中,我们把自变量x叫做__解释__变量,因变量Y称为__响应__变量.
(2)经验回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程为,则
残差平方和为.
5.残差分析
(1)残差及残差平方和:残差ei=,残差平方和为.
(2)用决定系数来比较两个模型的拟合效果,其计算公式是R2= 1-,R2的值越大,表示残差平方和越 小 ,即回归模型的拟合效果越 好 .
课前训练
1.(2024·天津卷)下列图中,相关性系数最大的是( )
2.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. y=a+bx B. y=a+bx2
C. y=a+bex D. y=a+bln x
3.(教材母题必修8.2.2练习T2改编)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展.现要订购一批苗木,苗木长度与售价如下表:
苗木长度x
/cm
38
48
58
68
78
88
售价y/元
16.8
18.8
20.8
22.8
24
25.8
若苗木长度x(cm)与售价y(元)之间存在线性相关关系,其经验回归方程为=x+8.9,则当售价大约为38.9元时,苗木长度大约为( )
A.148 cm B.150 cm
C.152 cm D.154 cm
4.某农业科研所在5块面积相同的长方形试验田中均种植了同一种农作物,每一块试验田的施肥量x(单位:kg)与产量y(单位:kg)之间有如下关系:
施肥量x/kg
20
40
50
60
80
产量y/kg
600
800
1200
1000
1400
已知y与x满足线性回归方程=13x+,则当施肥量为80 kg时,残差为________.
5.用模型y=aekx拟合一组数(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2…y10=e70,设z=ln y,得变换后的经验回归方程为=x+4,则ak=__________.
课堂核心考点
考点1 变量间的相关性
【例1】 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
根部横截面积xi
材积量yi
1
0.04
0.25
2
0.06
0.40
3
0.04
0.22
4
0.08
0.54
5
0.08
0.51
6
0.05
0.34
7
0.05
0.36
8
0.07
0.46
9
0.07
0.42
10
0.06
0.40
总和
0.6
3.9
计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数
判断两个变量是否线性相关及相关程度通常有两种方法:
①利用散点图直观判断;
②将相关数据代入相关系数公式求出r,然后根据r的大小进行判断.
相关系数|r|越大,相关程度越强;|r|越小,相关程度越弱.通常|r|≥0.75时,认为两个变量具有线性相关关系.
变式探究
1.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合).
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量
X/小时
30<X<50
50≤X≤70
X>70
光照控制仪
运行台数
3
2
1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:
参考数据:≈0.55,≈0.95.
考点2 回归方程的求解与运用
【例2】 (2025·重庆阶段考)研究表明,学生的学习成绩y(分)与每天投入的课后学习时间x(分钟)有较强的线性相关性.某校数学小组为了研究如何高效利用自己的学习时间,收集了该校高三(1)班学生9个月内在某学科(满分100分)所投入的课后学习时间和月考成绩的相关数据,下图是该小组制作的原始数据与统计图(散点图).
月次
某科课后投入时间x
(分钟)
高三(1)班某科
平均分y(分)
1
20
65
2
25
68
3
30
75
4
35
72
5
40
73
6
45
73
7
50
73
8
55
73.5
9
60
73
(1)当x≤40时,该小组建立了y与x的线性回归模型,求其经验回归方程.
(2)当x≤40时,由图中观察到,第3个月的数据点明显偏离回归直线l,若剔除第3个月数据点后,用余下的4个散点做线性回归分析,得到新回归直线l′,证明:l∥l′.
(3)当x>40时,该小组确定了y与x满足的线性回归方程为=0.01x+72.6,该数学小组建议该班在该学科投入课后学习时间为40分钟,请结合(1)(2)的结论说明该建议的合理性.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为
,.
(1)线性回归方程的求法:
①依据样本数据画出散点图,确定两个变量具有线性相关关系;
②由求得,的值而得到其经验回归方程.
(2)求非线性回归方程的求法:
①依据样本数据画出散点图,确定两个变量具有非线性相关关系;②通过换元化非线性回归为线性回归;③利用相关数据计算回归系数,;④将线性经验回归方程转化为非线性经验回归方程.
注意:①计算的值时,需要根据题目条件选择计算公式或,而计算时,要利用回归直线过样本点的中心(,)的特点.
②在严格按照公式求解时,一定要注意题目中提供的数据,注意计算的准确性,并注意近似计算的要求.
变式探究
2.(2025·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入,该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示.
令vi=ln xi(i=1,2,…,5),数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好.
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少.
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除了受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①相关系数
回归直线中公式分别为,;
②参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
考点3 残差分析
【例3】 BMI指数是用体重千克数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当BMI数值大于或等于20.5时,我们说体重较重,当BMI数值小于20.5时,我们说体重较轻,身高大于或等于170 cm时,我们说身高较高,身高小于170 cm时,我们说身高较矮.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号
身高xi/cm
体重yi/kg
1
166
57
2
167
58
3
160
53
4
173
61
5
178
66
6
169
57
7
158
50
8
173
66
(1)根据最小二乘法的思想与公式求得经验回归方程=0.8x-75.9.请利用已经求得的经验回归方程,完善下列残差表,并求决定系数R2(精确到0.01).
编号
身高xi/cm
体重yi/kg
残差
1
166
57
0.1
2
167
58
0.3
3
160
53
0.9
4
173
61
-1.5
5
178
66
-0.5
6
169
57
7
158
50
8
173
66
(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的经验回归方程.
参考公式:R2=1-,
,
,.
参考数据:xiyi=78880,x=226112,=168,=58.5,(yi-)=226.
判断相关关系的方法
(1)散点图法:如果样本点的分布从整体上看大致在一条直线(或曲线)附近,或者样本点的分布从整体上看大致在一条带形区域内,变量就具有相关关系;大致在一条直线(或曲线)附近的密集程度或带形区域宽度反映相关程度.
(2)决定系数法:由公式R2=1-求得R2的值,R2的值越接近1,拟合效果越好,相关性越强.
变式探究
3.某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.
x
1
2
3
4
5
6
y
0.5
1
1.5
3
6
12
z=ln y
-0.7
0
0.4
1.1
1.8
2.5
(1)该公司科研团队分析散点图的特征后,计划分别用①y=bx+a和②y=edx+c两种方案作为年销售量y关于年投资额x的回归分析模型,请根据统计表的数据,确定方案①和②的经验回归方程.(注:系数a,b,c,d按四舍五入保留一位小数)
(2)根据下表中数据,用相关指数R2(不必计算,只比较大小)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少.
经验回归方程
残差平方和
y=bx+a
y=edx+c
18.29
0.65
参考公式及数据:,,
,.
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。