内容正文:
课时分层评价20 一元线性回归模型及其参数的最小二乘估计
(时间:60分钟 满分:110分)
(本栏目内容,在学生用书中以独立形式分册装订!)
(1—9题,每小题5分,共45分)
1.一位母亲记录了儿子3岁~9岁的身高,由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归模型为=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )
A.身高一定是145.83 cm B.身高在145.83 cm以上
C.身高在145.83 cm以下 D.身高在145.83 cm左右
答案:D
解析:x=10时,y=7.19×10+73.93=145.83,但这是预测值,而不是精确值,所以只能选D.
2.下表是x和y之间的一组数据,则y关于x的回归直线必过点( )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
答案:C
解析: 回归直线必过样本中心点(,),即(2.5,4).故选C.
3.已知某回归方程为=2-3x,则当解释变量增加1个单位时,预报变量平均( )
A.增加3个单位 B.减少3个单位
C.增加个单位 D.减少个单位
答案:B
解析:依题意,回归方程为=2-3x,所以当解释变量增加1个单位时,预报变量平均减少3个单位.故选B.
4.变量y,x之间有如下对应数据:
x
4
4.5
5.5
6
y
12
11
10
m
已知变量y对x呈线性相关关系,且回归方程为y=-1.4x+17.5,则m的值是( )
A.7 B.8
C.9 D.10
答案:C
解析:==5,==,则有=-1.4×5+17.5,解得m=9.故选C.
5.科研人员在对人体的脂肪含量和年龄之间的关系的研究中发现,年龄x(岁)和脂肪含量占比y(%)满足经验回归方程=0.58x-0.62,若已知某个体在其两个年龄的脂肪含量占比相差10.44%,则两年龄相差( )
A.15岁 B.17岁
C.18岁 D.20岁
答案:C
解析:设两个年龄分别为x1,x2,脂肪含量占比分别为y1,y2,由=0.58x-0.62得y1-y2=0.58(x1-x2),即10.44=0.58(x1-x2),解得x1-x2=18,故C正确.故选C.
6.(多选)已知某地10月份第x天的平均气温为y(单位:℃),x,y线性相关,由x,y的前7天样本数据(xi,yi)(i=1,2,…,6,7)求得的经验回归方程为=-x+20,则下列说法正确的是( )
A.x,y负相关
B.第8天的平均气温为18 ℃
C.前7天平均气温的平均数为19 ℃
D.若剔除偏离经验回归直线最大的一个异常点,则相关系数变大
答案:AC
解析:因为-<0,故A正确;第8天的平均气温的预测值为18 ℃,但实际值不一定是18 ℃,故B错误;由=4,及(,)在经验回归直线上,得=19,故C正确;因为x,y负相关,所以相关系数r<0,剔除偏离经验回归直线最大的一个异常点后,|r|变大,但r变小,故D错误.故选AC.
7.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)之间有线性关系,设其回归直线方程为=4x+70.该班某学生的脚长为24厘米,据此估计其身高为
厘米.
答案:166
解析:依题意,令x=24,则=4×24+70=166,即该班某学生的脚长为24厘米,据此估计其身高为166厘米.
8.随着夏季的来临,遮阳帽开始畅销,某商家为了解某种遮阳帽如何定价才可以获得最大利润,现对这种遮阳帽进行试销售,经过统计发现销售量y(单位:顶)与单价x(单位:元)具有线性关系,且线性回归方程为=-3x+200,若想要销售量为80顶,则预计该遮阳帽的单价定为 元.
答案:40
解析:若销售量y=80顶,则=-3x+200=80,解得x=40,所以预计单价应定为40元.
9.某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同年份的该酒品,并测定了其芳香度(如下表).
年份X
0
1
4
5
6
8
芳香度Y
1.3
1.8
5.6
7.4
9.3
由最小二乘法得到线性回归方程=1.03X+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为 .
答案:6.1
解析:由表格数据知==4,设污损的数据为a,则==,所以=1.03×4+1.13,解得a=6.1,即污损的数据为6.1.
10.(13分)某饮料店为了推广“秋天的第一杯奶茶”,需了解一天的平均气温与奶茶销量之间的关系,为此记录了周一至周五的平均气温x(℃)与奶茶销量y(杯)的数据,如表所示:
x
9
11
12
10
8
y
23
26
30
25
21
(1)画出散点图;
(2)根据上表提供的数据,求出y关于x的经验回归方程=x+;
(3)试根据(2)中求出的经验回归方程,预测平均气温约为20 ℃时该饮料店的奶茶销量.
解:(1)画出散点图如下.
(2)依题意,=(9+11+12+10+8)×=10,
=(23+26+30+25+21)×=25,
(xi-)(yi-)=(9-10)×(23-25)+(11-10)×(26-25)+(12-10)×(30-25)+(10-10)×(25-25)+(8-10)×(21-25)=21,
(xi-)2=(9-10)2+(11-10)2+(12-10)2+(10-10)2+(8-10)2=10,
所以===2.1,
=25-2.1×10=4,
所以=2.1x+4.
(3)当x=20时,=2.1×20+4=46.
故预测平均气温约为20 ℃时该饮料店的奶茶销量为46杯.
(11—13题,每小题5分,共15分)
11.已知一组数据(xi,yi)(i=1,2,3,…,n,xi=i)大致呈线性分布,其回归直线方程为=2x-9,则yi的最小值为( )
A.-4 B.-8
C.-16 D.无法确定
答案:C
解析: 回归直线=2x-9经过(,),且=×=,=yi,代入回归方程得yi=×2-9=n-8,即yi=(n-8)n=(n-4)2-16,所以当n=4时,yi的最小值为-16.故选C.
12.(多选)已知变量x和变量y的一组成对样本数据(xi,yi)(i=1,2,…,n)的散点落在一条直线附近,=xi,=yi,相关系数为r,线性回归方程为=x+,则( )
参考公式:r=,=
A.当r>0时,>0
B.当r越大时,成对样本数据的线性相关程度越强
C.xn+1=,yn+1=时,成对样本数据(xi,yi)(i=1,2,…,n,n+1)的相关系数r'满足r'=r
D.xn+1=,yn+1=时,成对样本数据(xi,yi)(i=1,2,…,n,n+1)的线性回归方程=x+满足=
答案:ACD
解析:对于A,当r>0时,变量x和变量y正相关,则>0,故A正确;对于B,当|r|越大时,成对样本数据的线性相关程度越强;当r1=-0.98,r2=0.9时,r1对应的样本数据的线性相关程度更强,故B错误;对于C,当xn+1=,yn+1=时,,不变且xn+1-=yn+1-=0,所以r'==
=r,C;D,xn+1=,yn+1=,,xn+1-=yn+1-=0,所以===,故D正确.故选ACD.
13.某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1 030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为=x+,其中=,=-.
答案:1 384
解析:设父代产量为xi(i=1,2,3),子代产量为yi(i=1,2,3),则=(760+810+860)=810,==900,所以(xi-)(yi-)=(-50)×(-90)+0×(-40)+50×130=11 000,(xi-)2=(760-810)2+(810-810)2+(860-810)2=5 000,所以===2.2,=-=900-810×2.2=-882.则线性回归方程为=2.2x-882,当x=1 030时,y=1 030×2.2-882=1 384,所以预测第五期的产量为每亩1 384千克.
14.(15分)在每年的1月份到7月份,某品牌空调销售商发现:“每月销售量(单位:台)”与“当年的月份”线性相关.根据统计得下表:
月份x
1
2
3
4
5
6
销量y
10
19
31
45
55
68
(1)根据往年的统计得,当年的月份x与销量y满足回归方程=11.77x+t.请预测当年7月份该品牌的空调可以销售多少台.
(2)该销售商从当年的前6个月中随机选取2个月,记X为销量不低于前6个月的月平均销量的月份数,求X的分布列和均值.
解:(1)依题意,==3.5,
==38.
又回归直线过样本中心点(,),
所以38=11.77×3.5+t,得t=-3.195,
所以=11.77x-3.195,
x=7,=79.195≈79,
779.
(2)因为=38,64,5,6,
所以X=0,1,2.
所以P(X=0)==,P(X=1)==,P(X=2)==.
所以X的分布列为
X
0
1
2
P
所以E(X)=0×+1×+2×=1.
15.(5分)在研究变量X与Y之间的相关关系时,进行实验后得到了一组样本数据(x1,y1),(x2,y2),…,(x6,y6),(6,27),利用此样本数据求得的经验回归方程为=-1.5x+,现发现数据(6,27)误差较大,剔除这对数据后,求得的经验回归方程为=-6x+21,且yi=36,则=( )
A.13.5 B.14
C.14.5 D.15
答案:A
解析:因为yi=36,剔除异常数据(6,27)后, =×36=6,因为点(,)在直线=-6x+21上,所以6=-6+21,解得=2.5,设利用原始数据求得的经验回归直线过点(','),则'==3,'==9,因为'=-1.5'+,所以=9+1.5×3=13.5.故选A.
16.(17分)某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为=10,化学成绩的方差为=8,=500 500,其中xi,yi(i∈N,且1≤i≤50)分别表示这50名学生的数学成绩和化学成绩,y关于x的线性回归方程为y=0.4x+t.
(1)求y与x的样本相关系数r;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩η服从正态分布N(μ,σ2),用样本平均数作为μ的估计值,用样本方差作为σ2的估计值,试估计该校共1 600名高三学生中,数学成绩位于区间[96.84,106.32]的人数.
附:①回归方程=x+中,=,=-;
②样本相关系数r=;
③≈2.24,≈3.16;
④若η~N(μ,σ2),则P(μ-σ≤η≤μ+σ)≈0.68,P(μ-2σ≤η≤μ+2σ)≈0.95.
解:(1)由y关于x的线性回归方程为y=0.4x+t知==0.4,
即(xi-)(yi-)=0.4(xi-)2.
又由=10,=8可得(xi-)2=500,
(yi-)2=400.
yx
r=
==≈=0.448.
(2)=-,10=×500 500-,
解得=100,所以η~N(100,10).
又由106.32=100+2×3.16,96.84=100-3.16,及P(μ-σ≤η≤μ+σ)≈0.68,
P(μ-2σ≤η≤μ+2σ)≈0.95,
得P(96.84≤η≤106.32)≈=0.815,
于是估计该校1 600名高三学生中,数学成绩位于区间[96.84,106.32]的人数约为1 600×0.815=1 304人.
学科网(北京)股份有限公司
$