内容正文:
9.1.2 线性回归方程
一、基础达标
1.已知变量x,y之间具有线性关系,其散点图如右图所示,则其线性回归方程可能为( )
A.=1.5x+2 B.=-1.5x+2
C.=1.5x-2 D.=-1.5x-2
2.若在一次试验中,测得(x,y)的四组值分别是A(1,3),B(2,3.8),C(3,5.2),D(4,6),则与x的回归直线方程是( )
A.=x+1.9 B.=1.04x+1.9
C.=0.95x+1.04 D.=1.05x-0.9
3.某公司一种型号的产品近期销售情况如表:
月份x
2
3
4
5
6
销售额y/万元
15.1
16.3
17.0
17.2
18.4
根据上表可得到回归直线方程=0.75x+,据此估计,该公司7月份这种型号产品的销售额为( )
A.18.85万元 B.19.3万元
C.19.25万元 D.19.05万元
4.(多选题)已知由样本数据点集合{(xi,yi)|i=1,2,3,…,n},求得的回归直线方程为=1.5x+0.5,且=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)的误差较大,去除后重新求得的回归直线l的斜率为1.2,则下列说法正确的是( )
A.变量x与y呈正相关关系
B.去除两个数据点后y的估计值增加速度变快
C.去除后与去除前样本点的中心不变
D.去除后的回归直线方程为=1.2x+1.4
5.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x+1的图象附近,设z=ln y,将其变换后得到线性方程z=mx+n,则mn= .
6.若线性回归方程中的回归系数=0,则相关系数r= .
7.高中女学生的身高预报体重的回归方程是=0.75x-75.5(其中x,的单位分别是cm,kg),则此方程在样本点处的残差是 .
8.根据统计,某蔬菜基地西红柿亩产量的增加量y(单位:百千克)与某种液体肥料每亩使用量x(单位:千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的线性回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为多少.
附:相关系数公式r=.
参考数据:(xi-)(yi-)=6,(xi-)2=20,(yi-)2=2,≈0.95.
回归直线x+中斜率和截距的最小二乘估计公式分别为.
9.某企业研发出一款性能优越的新能源汽车,备受消费者青睐.该企业为了研究新能源汽车在某地区每月销售量y(单位:千辆)与月份x的关系,统计了今年前5个月该地区的销售量,得到下面的散点图及一些统计量的值.
(xi-)(yi-)
(ti-)(yi-)
9.5
29.5
185.6
表中ti=(i=1,2,3,4,5).
(1)根据散点图判断两变量x,y的关系用y=a+bx与y=c+dx2哪一个比较合适?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(的值精确到0.1),并预测从今年几月份起该地区的月销售量不低于3.6万辆?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线方程x+的斜率和截距的最小二乘估计分别为.
二、能力提升
10.某学习小组用计算机软件对一组数据(xi,yi)(i=1,2,3,…,8)进行回归分析,甲同学首先求出经验回归方程=2x+5,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(3,7)误输成(7,3),数据(4,6)误输成(4,-6),将这两个数据修正后得到经验回归方程x+k,则实数k=( )
A.-6 B.- C. D.
11.对某位运动员近5次比赛成绩统计如下表:
比赛次数x
1
2
3
4
5
得分y
39
40
48
48
50
根据表可得y关于x的线性回归方程为y=3x+a,则下列说法不正确的是( )
A.a=36
B.y与x的相关系数r>0
C.得分y的方差为22.8
D.预测第6次比赛成绩约为54
12.(多选题)以下关于线性回归的判断,正确的是( )
A.若散点图中所有点都在一条直线附近,则这条直线为回归直线
B.散点图中的绝大多数点都线性相关,个别特殊点不影响线性回归,如图中的A,B,C点
C.已知直线方程为=0.50x-0.81,则x=25时,y的估计值为11.69
D.回归直线方程的意义是它反映了样本整体的变化趋势
13.有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,给出下列说法:①相关系数r变大;②相关指数R2变大;③残差平方和变小;④变量x与变量y的相关性变强.其中正确说法的个数为( )
A.1 B.2 C.3 D.4
14.(多选题)下列选项中正确的是( )
A.线性回归分析中,R2的值越大,说明残差平方和越小
B.若一组观测数据(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2=1
C.线性回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法
D.画残差图时,纵坐标为残差,横坐标一定是编号
15.某品牌餐饮公司准备在10个规模相当的地区开设加盟店,为合理安排各地区加盟店的个数,先在其中5个地区进行试点,得到试点地区加盟店个数x及单店日平均营业额y(单位:万元)的数据如下:
x
1
2
3
4
5
y
10.9
10.2
9.0
7.8
7.1
由表可得y关于x线性相关,为保证规模和效益,该公司要求在其他5个地区需满足同一地区所有加盟店的日平均营业额预计值总和不低于35万元,则一个地区开设的加盟店个数m的所有可能取值为 .(参考数据:xiyi=125,=55)
16.在国家积极推动美丽乡村建设的政策背景下,各地根据当地生态资源打造了众多特色纷呈的乡村旅游胜地.某人意图将自己位于乡村旅游胜地的房子改造成民宿用于出租,在旅游淡季随机选取100天,对当地已有的六间不同价位的民宿进行跟踪,统计其出租率y(),设民宿租金为x(单位:元/日),得到如图所示的数据散点图.
(1)若用“出租率”近似估计旅游淡季民宿每天租出去的概率,求租金为388元的那间民宿在淡季内的3天中至少有2天闲置的概率.
(2)①根据散点图判断,y=bx+a与y=cln x+d哪个更适合此模型(给出判断即可,不必说明理由)?根据判断结果求线性回归方程.
②若该地一年中旅游淡季约为280天,在此期间无论民宿是否出租,每天都要付出9.9%x的固定成本,若民宿出租,则每天需要再付出10%x的日常支出成本.试用①中模型进行分析,旅游淡季民宿租金定为多少元时,该民宿在这280天的收益W达到最大.
附:记zi=ln xi,≈261.3,=0.47,=5.4,(xi-)(yi-)≈-221,≈121 333.3,(zi-)(yi-)≈-0.99,≈2.2,e5≈148,e5.1≈164,e5.2≈181.
三、拓展探究
17.已知变量y关于x的非线性回归方程为,其一组数据如下表所示:
x
1
2
3
4
y
e
e3
e4
e6
若x=5,则预测y的值可能为( )
A.e5 B. C.e7 D.
参考答案
1.B
2.B ∵=2.5,=4.5,
∴这组数据的样本中心点是(2.5,4.5),把样本中心点代入四个选项中,只有=1.04x+1.9成立,故选B.
3.D 由表中数据可得×(2+3+4+5+6)=4,×(15.1+16.3+17+17.2+18.4)=16.8,因为回归直线过样本点的中心,所以16.8=0.75×4+,解得=13.8,所以回归直线方程为=0.75x+13.8,则该公司7月份这种型号产品的销售额为y=0.75×7+13.8=19.05万元.故选D.
4.ACD 因为回归直线方程为y=1.5x+0.5,1.5>0,所以变量x与y呈正相关关系,故A正确;因为1.5>1.2,所以去除后y的估计值增加速度变慢,故B错误;当=3时,=3×1.5+0.5=5,所以去除前样本点的中心为(3,5),又因为=3,=5,所以去掉两个数据点(1.2,2.2)和(4.8,7.8)后,样本点的中心还是(3,5),故C正确;因为去除后重新求得的回归直线l的斜率为1.2,所以可设l:y=1.2x+,将点(3,5)代入直线l,得5=1.2×3+,解得=1.4,所以去除后的回归直线方程为y=1.2x+1.4,故D正确.故答案为ACD.
5.2ln 2+2 若y=2e2x+1,则z=ln y=ln(2e2x+1)=ln 2+ln e2x+1=2x+1+ln 2,于是有m=2,n=1+ln 2 ,
所以mn=2(1+ln 2)=2ln 2+2.
6.0 相关系数r=的分子相同,故r=0.
7.1.5 ∵高中女学生的身高预报体重的回归方程是=0.75x-75.5,∴当x=160时,=0.75×160-75.5=44.5,
∴此方程在样本点处的残差是46-44.5=1.5.
8.解 (1)相关系数r=≈0.95.
因为|r|> 0.75,所以可用线性回归模型拟合y与x的关系.
(2)由已知数据,可得=5,
=4,=0.3,
则=4-5×0.3=2.5,所以线性回归方程为=0.3x+2.5.
当x=12时,=0.3×12+2.5=6.1,即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为610千克.
9.解 (1)y=c+dx2比较合适(散点图中点的分布不是一条直线,相邻两点的纵坐标的差值是增大趋势,所以y=c+dx2比较合适).
(2)设t=x2,则×(1+4+9+16+25)=11,(ti-)2=(1-11)2+(4-11)2+(9-11)2+(16-11)2+(25-11)2=374,先建立y关于t的线性回归方程y=c+dt,则≈0.5,-0.5=9.5-0.5×11=4,所以y关于t的线性回归方程为=4+0.5t,因此y关于x的线性回归方程为=4+0.5x2.
令4+0.5x2≥36,解得x≥8或x≤-8(舍去),故估计从今年8月份起该地区的月销售量不低于3.6万辆.
10.D 由题可知m=2×2+5=9,假设甲输入的(x1,y1)为(7,3),(x2,y2)为(4,-6),
所以7+4+x3+…+x8=2×8=16,3-6+y3+…+y8=9×8=72,所以x3+…+x8=5,y3+…+y8=75,所以改为正确数据时得3+4+x3+…+x8=12,7+6+y3+…+y8=88,
所以样本点的中心为(,11),将其代入回归直线方程x+k,得k=.故选D.
11.C 由表格数据,=3,=45,所以45=3×3+a⇒a=36,故y=3x+36,若x=6,则y=54,A,D正确;×[(39-45)2+(40-45)2+(48-45)2+(48-45)2+(50-45)2]=20.8,C错误;r=>0,B正确.故选C.
12.BCD 对于A,能使所有数据点都在一条直线附近的直线不止一条,只有按最小二乘法求得回归系数得到的直线才是回归方程,故A错误;对于B,散点图中的绝大多数点都线性相关,个别特殊点不会影响线性回归,故B正确;对于C,将x=25代入=0.50x-0.81得=11.69,故C正确,对于D,散点图中所有点都在回归直线的附近,因此回归直线方程反映了样本整体的变化趋势,故D正确.故选BCD.
13.D 根据题意,散点图5个(x,y)数据中去掉D(3,10),可得y与x的相关性变强,并且是正相关,所以相关系数r变大,相关指数R2变大,残差的平方和变小,所以四个命题都正确.故选D.
14.ABC 对于A,线性回归分析中,R2的值越大,说明模型的拟合效果越好,则残差平方和越小,A正确;对于B,若一组观测数据(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2=1,B正确;对于C,线性回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,C正确;对于D,残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重的估计值等,D错误.
15.5,6,7 由题意可得=3,=9,xiyi=125,=55,设线性回归方程为x+,则=-1,=9-(-3)=12,故线性回归方程为=-x+12.根据题意,m(12-m)≥35,解得5≤m≤7,
又m∈N*,所以m的所有可能取值为5,6,7.
16.解 (1)因为每天的出租率为0.2,所以每天闲置的概率为0.8,所以3天中至少有2天闲置的概率P=0.82×0.2+0.83=0.896.
(2)①根据散点图的分布情况,各散点连线更贴近y=cln x+d的图象,故y=cln x+d的拟合效果更好.
依题意,(zi-)(yi-)≈-0.99,≈2.2,
所以c==-0.45,
所以d=-c=0.47+0.45×5.4=2.9,
所以线性回归方程为y=-0.45ln x+2.9.
②设旅游淡季民宿租金为x,则淡季该民宿的出租率y=-0.45ln x+2.9,所以该民宿在这280天的收益为W=280(x-0.1x)(-0.45ln x+2.9)-280×0.099x=280×0.9x·(-0.45ln x+2.9)-27.72x=-113.4xln x+703.08x,
所以W'=703.08-113.4ln x-113.4=589.68-113.4ln x.
令W'=0,得ln x=5.2,所以x=e5.2≈181,且当x∈(0,181)时,W'>0,当x∈(181,+∞)时,W'<0,所以W(x)在(0,181)上单调递增,在(181,+∞)上单调递减,所以当x=181时,W取得最大值.所以旅游淡季民宿租金定为181元时,该民宿在这280天的收益W达到最大.
17.D 将式子两边取对数,得到ln x-0.5,
令z=ln ,得到z=x-0.5,
列出x,z的取值对应的表格如下:
x
1
2
3
4
z
1
3
4
6
则=2.5,=3.5.
∵()满足z=x-0.5,∴3.5=×2.5-0.5,解得=1.6,
∴z=1.6x-0.5,∴=e1.6x-0.5,当x=5时,=e1.6×5-0.5=.
12
学科网(北京)股份有限公司
$