内容正文:
4.3 统计模型
4.3.1 一元线性回归模型
知识
层面
1.了解变量间的相关关系,会画散点图,并会根据散点图判断两个变量之间是否具有相关关系. 2.了解最小二乘法的思想,会求回归直线方程,掌握回归直线方程的性质. 3.了解两个变量间的线性相关系数r,并能利用公式求相关系数r. 4.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.
素养
层面
1.通过回归直线方程及相关关系的学习,体会数学建模与直观想象的素养;借助求解回归直线方程和相关系数,培养数学运算的素养. 2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.
你知道“名师出高徒”的意思吗?--高明的师傅很可能教出技艺高的徒弟,比喻学识丰富的人对于培养人才的重要性.也就是说,高水平的老师往往能教出高水平的学生.
问题.那么老师的水平与学生的水平之间具有怎样的关系呢?这种关系是确定的吗?该关系与函数关系相同吗?
提示:老师的水平与学生的水平之间具有相关性,一般而言,高水平的老师教出高水平的学生的可能性更大;但两者之间虽然具有相关性,却不具备确定性,这种关系是不确定的.不相同.
知识点一 变量的相关关系
1.相关关系的概念:我们所研究的很多问题中,两个变量之间经常存在着相互影响、相互依赖的关系.这些关系常见的有两类:函数关系和相关关系.
[概念辨析] 相关关系与函数关系的异同:
关系
异同点
函数关系
相关关系
相同点
两者均是两个变量之间的关系
不同点
是一种确定性关系
是一种非确定性关系
是一种因果关系
不一定是因果关系,也可能是伴随关系
是一种理想的关系
是更为一般的情况
2.散点图
(1)概念:一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示:
序号i
1
2
3
…
n
变量x
x1
x2
x3
…
xn
变量y
y1
y2
y3
…
yn
则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
(2)作用:散点图展示了样本点散布的位置.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
学生用书↓第81页
[微提醒] 1.散点图具有直观、简明的特点,我们可以根据散点图来判断两个变量有没有相关关系.
2.通过散点图不但可以判断测量值的大小、变动范围与整体趋势,还可以通过观察剔除异常数值,提高估计相关程度的准确性.
3.当所画的散点图的横坐标与纵坐标所对应的数据差距很大时,可在实际作图时,将横坐标与纵坐标取不同的单位长度,使画出的散点图形象、美观.
3.正相关与负相关
(1)从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关,散点图如图(甲)所示;
(2)从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,称这两个变量负相关,散点图如图(乙)所示.
4.线性相关与非线性相关:
(1)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这两个变量线性相关;
(2)非线性相关:如果两个变量具有相关性,但不是线性相关,就称这两个变量非线性相关或曲线相关.
知识点二 回归直线方程
1.回归直线方程的概论
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则y=x+称为y关于x的回归直线方程(对应的直线称为回归直线).
2.最小二乘法
上述求回归直线方程的过程中需使得平方和最小,所以其中涉及的方法称为最小二乘法.
可以证明,给定两个y与x的一组数据之后,回归直线方程=x+总是存在的,而且
==,=-.
其中,称为回归系数.它实际上也就是回归直线方程的斜率.回归直线方程确定之后,就可用于预测.
需要注意的是,上述公式中,指的是x1,x2,x3,…,xn的平均数,即=(x1+x2+…+xn)=i;类似地,是y1,y2,y3,…,yn的平均数,即=i.
[微提醒] 1.回归直线一定过点(,).
2.y与x正相关的充要条件是>0;y与x负相关的充要条件是<0.
3.当x增大一个单位时,增大个单位,这就是回归系数的实际意义.
4.回归直线方程=x+中x的系数是,表示直线的斜率,注意与《选择性必修第一册》中的一次函数的关系式或直线方程y=ax+b进行区分.
知识点三 相关系数
1.概念:注意到现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用
r=
学生用书↓第82页
=来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
2.性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
[微提醒] 1.样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.
2.|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.
3.相关系数与向量夹角的余弦
一般地,a=(x1-,x2-,…,xn-),b=(y1-,y2-,…,yn-)都称为n维向量,如果按照类似2维与3维的情况定义向量的内积和模,则相关系数r总是等于两个向量夹角的余弦,即r=cos 〈a,b〉=.
知识点四 非线性回归分析
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用线性回归方程来建立两个变量之间的关系.
2.非线性回归方程
当回归方程不是形如y=bx+a(a,b∈R)时,称回归方程为非线性回归方程.
当两个变量不是线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性回归方程.
1.下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系
B.学生的成绩和身高
C.儿童的年龄与体重
D.物体的体积和质量
答案:C
解析:A、D是函数关系,B是不相关关系,C是相关关系.
2.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )
A.=1.5x+2 B.=-1.5x+2
C.=1.5x-2 D.=-1.5x-2
答案:B
解析:由散点图知,变量x,y之间负相关,回归直线在y轴上的截距为正数,故只有B选项符合.
3.如果两个变量之间的线性相关程度很高,则其相关系数r的绝对值应接近于( )
A.0.5 B.2
C.0 D.1
答案:D
解析:相关系数|r|越接近于1,相关程度越高.
4.在两个变量的回归分析中,作散点图的目的是__________________;相关系数是度量______________的量.
答案:从散点图中看出数据的大致规律,再根据这个规律选择适当的函数进行拟合 两个变量之间线性相关程度
5.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则线性回归方程是________.
答案:=1.23x+0.08
解析:设回归直线方程为=x+,因为回归直线的斜率的估计值为1.23,即=1.23,又回归直线过定点(4,5),所以a=5-1.23×4=0.08,所以=1.23x+0.08.
学生用书↓第83页
题型一 相关关系及判断
例1 某个男孩的年龄与身高的统计数据如下表所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
[思路点拨]
画散点图 → 观察各点的分布 → 判断是否具有相关关系
解:(1)散点图如图所示.
(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.
1.两个变量x和y具有相关关系的判断方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断.
(2)表格、关系式法:结合表格或关系式进行判断.
(3)经验法:借助积累的经验进行分析判断.
2.判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
对点练1.(1)下列关系中,属于相关关系的是______.(填序号)
①圆的半径与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
(2)某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元).
x
2
4
5
6
8
y
30
40
60
50
70
①画出散点图;
②从散点图中判断销售金额与广告费支出成什么样的关系.
答案:(1)②④
解析:(1)在①中,圆的半径与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.
(2)①以x对应的数据为横坐标,以y对应的数据为纵坐标,所作的散点图如图所示.
②从图中可以发现广告费支出与销售金额之间具有相关关系,并且当广告费支出由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
题型二 回归方程的应用
例2 某人进行理财投资,其中投资资金x(万元)与获得的收入y(万元)之间有下表所对应的数据:
x
1
2
3
4
y
1.2
2.6
3.9
5.1
(1)画出表中数据的散点图;
(2)求出y关于x的线性回归方程;
(3)若投资资金为9万元,则收入约为多少万元?
学生用书↓第84页
[思路点拨] ,作散点图→,判断线性相关→,求回归方程→,应用
解:(1)作出的散点图如图所示:
(2)观察散点图可知各点大致分布在一条直线附近,列出下表:
序号
x
y
x2
xy
1
1
1.2
1
1.2
2
2
2.6
4
5.2
3
3
3.9
9
11.7
4
4
5.1
16
20.4
∑
10
12.8
30
38.5
易得=2.5,=3.2,
所以===1.3,
=-=3.2-1.3×2.5=-0.05,
故y关于x的线性回归方程为=1.3x-0.05.
(3)当x=9时,=1.3×9-0.05=11.65,
故当投资资金为9万元时,收入约为11.65万元.
利用回归直线方程解题的常见思路及注意点
1.利用回归直线过样本点的中心,可以求参数问题,参数可涉及回归方程或样本点数据.
2.利用回归方程中系数的意义,分析实际问题.
3.利用回归直线进行预测,此时需关注两点:①所得的值只是一个估计值,不是精确值;②变量x与y成线性相关关系时,回归直线方程才有意义,否则即使求出回归直线方程也是毫无意义的,用其估计和预测的量也是不可信的.
对点练2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对应数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解:(1)由题设所给数据,可得散点图如图.
(2)由对应数据,计算得:x=86,
==4.5,==3.5,
已知xiyi=66.5,所以由最小二乘法确定的回归直线方程的系数===0.7,=-=3.5-0.7×4.5=0.35.
因此,所求的回归直线方程为=0.7x+0.35.
(3)由(2)的回归直线方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
题型三 相关系数的计算及应用
例3 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据.
甲醛
浓度x
18
20
22
24
26
28
30
缩醛
化度y
26.86
28.35
28.75
28.87
29.75
30.00
30.36
求样本相关系数r并判断它们的相关程度.
解:列表如下
i
xi
yi
x
y
xiyi
1
18
26.86
324
721.459 6
483.48
2
20
28.35
400
803.722 5
567
3
22
28.75
484
826.562 5
632.5
4
24
28.87
576
833.476 9
692.88
5
26
29.75
676
885.062 5
773.5
6
28
30.00
784
900
840
7
30
30.36
900
921.729 6
910.80
∑
168
202.94
4 144
5 892.013 6
4 900.16
==24,=,
r=
=
≈0.96.
由此可知,甲醛浓度与缩醛化度之间有很强的正线性相关关系.
学生用书↓第85页
线性相关系数的理解
1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r>0.75,则线性相关较为显著,否则为不显著.
对点练3.某农场经过观测得到水稻产量和施化肥量的统计数据如表:
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330
345
365
405
445
450
455
求水稻产量与施化肥量的相关系数,并判断相关性的强弱.
相关系数及线性回归直线方程系数公式:
==,=- ,
r=.
参考数据:=7 000,=1 132 725,iyi=87 175
解:由已知数据计算可知,=30,≈399.3,
所以相关系数r=≈0.97
由于0.97与1十分接近,所以水稻产量与施化肥量的相关性强.
易错点 准确理解概念和参数的含义
关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x、y两个变量进行统计分析,现有以下两种线性模型:甲模型=6.5x+17.5,乙模型=7x+17,试比较哪一个模型拟合的效果更好.
[易错分析] 用相关指数R2来比较模型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小模型的拟合效果越好.易理解错误而致误.
[误区警示] 明确R2的大小与拟合效果的关系.
[正解] 因为R=1-
=1-=0.845,
R=1-=1-=0.82,
所以R>R.
所以甲模型拟合的效果更好.
学生用书↓第86页
1.以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
A.①② B.①③
C.②③ D.③④
答案:B
解析:①③中的点分布在一条直线附近,适合线性回归模型.
2.由变量x与y相对应的一组数据(1,y1),(5,y2),(7,y3),(13,y4),(19,y5)得到的回归直线方程为=2x+45,则=( )
A.135 B.90
C.67 D.63
答案:D
解析:因为=(1+5+7+13+19)=9,=2+45,所以=2×9+45=63.故选D.
3.工人工资y(单位:元)与劳动生产率x(单位:千元)的相关关系的回归直线方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元
答案:B
解析:因为回归直线的斜率为80,所以x每增加1,平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.
4.若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0.83,0.72,-0.90,则线性相关程度最强的一组是________(选填“甲”“乙”或“丙”).
答案:丙
解析:两个变量y与x的回归模型中,它们的相关系数|r|越接近于1,这个模型的两个变量线性相关程度就越强,在甲、乙、丙中,所给的数值中-0.90的绝对值最接近1,所以丙的线性相关程度最强.
课时测评19 一元线性回归模型F11F
(时间:40分钟 满分:100分)
(本栏目内容,在学生用书中以独立形式分册装订!)
(1-8每小题5分,共40分)
1.对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
答案:C
解析:给出一组样本数据,总可以作出相应的散点图,故C正确;但不一定能分析出两个变量的关系,故A不正确;更不一定符合线性相关,不一定用一条直线近似的表示,故B不正确;两个变量的统计数据不一定有函数关系,故D不正确.
2.两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关系数r如表,其中拟合效果最好的模型是( )
模型
模型1
模型2
模型3
模型4
相关系数r
0.48
0.15
0.96
0.30
A.模型1 B.模型2
C.模型3 D.模型4
答案:C
解析:在线性回归分析中,相关系数为r,|r|越接近于1,其相关程度越大;|r|越小,相关程度也越小;由模型3的相关系数|r|最大,所以其模拟效果最好.
3.为了规定工时定额,需要确定加工某种零件所需的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),由最小二乘法求得回归直线方程为=0.67x+54.9.若已知x1+x2+x3+x4+x5=250,则y1+y2+y3+y4+y5=( )
A.75 B.155.4
C.375 D.442
答案:D
解析:由x1+x2+x3+x4+x5=250,得==50,又=0.67x+54.9,所以=0.67+54.9=0.67×50+54.9=88.4,所以y1+y2+y3+y4+y5=5=5×88.4=442.
4.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1 B.-0.5
C.0 D.0.5
答案:C
解析:根据变量x,y的散点图,得:x,y之间的样本相关关系非常不明显,所以相关系数r最接近的值应为0.
5.(多选)某公司过去五个月的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据:
x
2
4
5
6
8
y
▲
40
60
50
70
工作人员不慎将表格中y的第一个数据丢失.已知y对x呈线性相关关系,且回归方程为=6.5x+17.5,则下列说法正确的是( )
A.销售额y与广告费支出x正相关
B.丢失的数据(表中▲处)为30
C.该公司广告费支出每增加1万元,销售额一定增加6.5万元
D.若该公司下月广告费支出为8万元,则销售额约为75万元
答案:AB
解析:由回归直线方程为=6.5x+17.5,可知b^=6.5,则销售额y与广告费支出x正相关,所以A正确;设丢失的数据为m,由表中的数据可得=5,=,把点代入回归方程,可得=6.5×5+17.5,解得m=30,所以B正确;该公司广告费支出每增加1万元,销售额不一定增加6.5万元,所以C不正确;若该公司下月广告费支出为8万元,则销售额约为=6.5×8+17.5=69.5(万元),所以D不正确.故选AB.
6.某单位为了了解用电量y度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
由表中数据得回归直线方程=x+中=-2,据此预测当气温为5 ℃时,用电量的度数约为_________.
答案:40
解析:由表格得=(14+12+8+6)÷4=10,=(22+26+34+38)÷4=30,即样本中心点的坐标为:(10,30),又因为样本中心点(10,30)在回归方程=x+上且=-2,所以30=10×(-2)+a,解得:a=50,所以=-2x+50.当x=5时,y=(-2)×5+50=40.
7.给出5名同学的数学成绩和物理成绩,计算其数学成绩和物理成绩的相关系数r,
r=,判断其关系为____________________.
序号
数学
物理
A
60
50
B
70
40
C
80
70
D
90
80
E
100
80
答案:有很强的正相关关系
解析:分别令:x1=60,x2=70,x3=80,x4=90,x5=100.y1=50,y2=40,y3=70,y4=80,y5=80.
可得==80,
==64.
(xi-)(yi-)=-20×(-14)+(-10)×(-24)+0+10×16+20×16=1 000.
(xi-)2=(-20)2+(-10)2+0+102+202=1 000,(yi-)2=142+242+62+162+162=1 320.所以r=≈0.87.所以其数学成绩和物理成绩的相关关系为:有很强的正相关关系.
8.下列五个命题,正确命题的序号为________.
①任何两个变量都具有相关关系;
②圆的周长与该圆的半径具有相关关系;
③某商品的需求量与该商品的价格是一种非确定性关系;
④根据散点图求得的回归直线方程可能是没有意义的;
⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.
答案:③④⑤
解析:变量的相关关系是变量之间的一种近似关系,并不是所有的变量都有相关关系,而有些变量之间是确定的函数关系.例如,②中圆的周长与该圆的半径就是一种确定的函数关系;另外,线性回归直线是描述这种关系的有效方法;如果两个变量对应的数据点与所求出的直线偏离较大,那么,这条回归直线的方程就是毫无意义的,综上可得命题①②不对,命题③④⑤正确.
9.(10分)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定坐标系中画出表中数据的散点图;(3分)
(2)求y关于x的线性回归方程=x+;(3分)
(3)试预测加工10个零件需要多少时间?(=,=- .)(4分)
解析:
(1)散点图,如图所示.
(2)==3.5,
==3.5,
所以iyi=52.5,=54,
所以==0.7,
所以=3.5-0.7×3.5=1.05,
所以回归直线方程:=0.7x+1.05.
(3)当=0.7×10+1.05=8.05,预测加工10个零件需要8.05个小时.
10.(10分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据.
单价x/元
8
8.2
8.4
8.6
8.8
9
销量y/件
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20;(4分)
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)(6分)
解:(1)由于==8.5,
==80,
所以=-=80+20×8.5=250,
从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值,
故当单价定为8.25元时,工厂可获得最大利润.
11.(5分)(多选)根据最小二乘法由一组样本点(xi,yi)(其中i=1,2,…,500),求得的回归方程是=x+,则下列说法正确的是( )
A.样本点可能全部都不在回归直线=x+上
B.若所有样本点都在回归直线=x+上,则变量间的相关系数为1
C.若所有的样本点都在回归直线=x+上,则xi+的值与yi相等
D.若回归直线=x+的斜率<0,则变量x与y呈负相关
答案:ACD
解析:回归直线一定经过样本中心点,但是样本点可能全部不在回归直线上,所以A正确;所有样本点都在回归直线=x+上,则变量间的相关系数为±1,所以B不正确;所有的样本点都在回归直线=x+上,则xi+的值与yi相等,所以C正确;回归直线=x+的斜率<0,则r<0,样本点分布应该从左到右是下降的,则变量x与y呈负相关,所以D正确.
12.(5分)(多选)为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,那么下面说法中错误的有( )
A.若所有样本点都在直线y=-2x+1上,则r=1
B.若所有样本点都在直线y=-2x+1上,则r=-2
C.若|r|越大,则变量x与y的线性相关性越强
D.若|r|越小,则变量x与y的线性相关性越强
答案:ABD
解析:当所有样本点都在直线y=-2x+1上时,样本点数据完全负相关,其相关系数r=-1,所以A、B都错误;相关系数|r|值越大,则变量x与y的线性相关性越强,故C正确;
相关系数|r|值越小,则变量x与y的线性相关性越弱,故D错误.
综上知,以上错误的说法是ABD.
13.(15分)流行性感冒(简称流感)是流感病毒引起的急性呼吸道感染,是一种传染性强、传播速度快的疾病.其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播.流感每年在世界各地均有传播,在我国北方通常呈冬春季流行,南方有冬春季和夏季两个流行高峰.儿童相对免疫力低,在幼儿园、学校等人员密集的地方更容易被传染.某幼儿园将去年春季该园患流感小朋友按照年龄与人数统计,得到如下数据:
年龄(x)
2
3
4
5
6
患病人数(y)
22
22
17
14
10
计算变量x,y的相关系数r(计算结果精确到0.01),并回答是否可以认为该幼儿园去年春季患流感人数与年龄负相关很强?(若|r|∈[0.75,1],则x,y相关性很强;若|r|∈[0.3,0.75),则x,y相关性一般;若|r|∈[0,0.25],则x,y相关性较弱.)
参考数据:≈5.477
参考公式:==,相关系数r=.
解:由题意得:==4,
==17,
r===≈-0.97,
因为r<0,
所以说明x,y负相关,
又|r|∈[0.75,1],说明x,y相关性很强.
所以可以认为该幼儿园去年春季患流感人数与年龄负相关很强.
14.(15分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据进行初步处理,得到如图所示的散点图及一些统计量的值.
(xi-)2
(ωi-)2
(xi-)·
(yi-)
(ωi-)·
(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中ωi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2分)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(4分)
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?(9分)
附:对于一组数据(u1,v),(u2,v),…,(un,v),其回归直线=+u的斜率和截距的最小二乘估计分别为β^=,=-β^·.
解:(1)由散点图可以判断,y=c+d适宜作年销售量y关于年宣传费x的回归方程类型.
(2)令ω=,建立y关于ω的经验回归方程y=c+dω.
由于d^===68,
=-=563-68×6.8=100.6,
所以y关于ω的经验回归方程为y^=100.6+68ω,因此y关于x的回归方程为y^=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+68=576.6,
年利润z的预报值z^=0.2×576.6-49=66.32.
②根据(2)的结果知,年利润z的预报值
z^=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z^取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
学科网(北京)股份有限公司
$$