内容正文:
4.2一元线性回归
题型一 求线性回归方程
1.对于变量和变量,经过随机抽样获得成对样本数据,且,若关于的经验回归方程为,其样本相关系数为,则( )
(参考数据:)
A.1 B.2 C.3 D.4
2.为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
3.某人工智能公司从2018至2024年的利润情况如下表所示:
年份
2018
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
7
利润y(单位:亿元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)根据表中的数据,推断变量y与x之间是否线性相关.计算y与x之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出y关于x的经验回归方程,并预测该人工智能公司2025年的利润;
参考数据:
参考公式:对于一组数据,①相关系数为:;
②经验回归直线x的斜率和截距的最小二乘估计公式分别,
4.随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额(单位:百亿)
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱.)
(2)利用最小二乘法建立关于的线性回归方程,并预测2025年该平台的交易额.
参考数据:,,
参考公式:相关系数;
线性回归方程中,斜率和纵截距的最小二乘估计分别为,.
题型二、根据一元线性回归模型中心点求参数
1.已知变量和的统计数据如下表.
80
90
100
110
120
y
120
140
165
180
若,线性相关,经验回归方程为,则( )
A.155 B.158 C.160 D.162
2.下表为2017—2023年某企业两轮电动车的年产量(单位:万辆),其中2017—2023年的年份代码分别为1—7.
年份代码
1
2
3
4
5
6
7
年产量万辆
31
33
38
44
已知与具有线性相关关系,且满足经验回归方程,则的值为( )
A.146.5 B.164.8 C.179.5 D.197.8
3.某工厂为了研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的回归直线方程为.据此计算出在样本处的随机误差为,则表中m的值为( )
A.4.5 B.4.2 C.4.8 D.5
4.对于变量,其部分成对的观测值如下表所示:
1
2
3
4
5
2
6
7
8
12
已知具有线性相关关系,且根据最小二乘法得到的线性回归方程为,则( )
A.0.2 B.0.4 C.0.8 D.1.2
题型三 根据一元线性回归模型求原始数据
1.由如表所示的变量之间的一组数据,得之间的线性回归方程为,则( )
6
8
10
12
7
5.5
4.5
A.点一定在回归直线上
B.每增加1个单位,大约增加0.5个单位
C.
D.去掉这组数据后,求得的回归直线方程斜率将变大
2.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为,则的值为( )
2
4
6
8
10
6
5
4
3
2
A. B. C. D.
3.根据一组样本数据,,,,求得经验回归方程为,已知,,则( )
A.0.5 B.0.6 C.0.7 D.0.8
4.下表是某单位1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4
5
a
7
由散点图可知,用水量y与月份x之间具有较好的线性相关关系,其线性回归方程是,则表中的值为 .
5.表为2020~2024年某省高三学生的近视人数(单位:万人).
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
万人
50
58
67
80
95
已知与具有线性相关关系,且满足经验回归方程,则 .
题型四 一元线性回归模型残差分析
1.某商品的广告支出费用单位:万元与销售量单位:万件之间的对应数据如表所示:
广告支出费用x
5
销售量y
15
18
根据表中数据可得回归直线方程为,则第三个样本点对应的残差为( )
A. B. C. D.
2.已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为( )(残差=观察值-估计值)
A.2 B. C. D.
3.为保护环境,我国近几年大力发展新能源汽车,新能源汽车的产销量迅速位居全球第一.我国某省2024年9月份至2025年1月份这5个月新能源汽车月销量(单位:千辆)与月份代码的数据如表所示:
月份
2024年9月
2024年10月
2024年11月
2024年12月
2025年1月
月份代码
1
2
3
4
5
月销量/千辆
21
52
109
若与线性相关,且经验回归方程为,则( )
A. B.样本相关系数在内
C.相对于点的残差为 D.2025年2月份的销量一定为13.42万辆
4.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下.
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
若由最小二乘法计算得经验回归方程.
(1)计算各组残差,并计算残差平方和;
(2)求,并说明回归模型拟合效果的好坏.(参考数据:)
题型五 一元线性回归模型与概率结合
1.自“机器人扭秧歌”这一节目在2025年春晚舞台大放异彩后,宇树科技这家专注于四足机器人研发的中国科技公司在全球范围内倍受瞩目,旗下一款机器人Unitree Aliengo在巡检与监控、安防与救援、科研与影视等方面应用广泛.现统计出机器人Unitree Aliengo在某地区2024年1月至5月的销售量如下表所示:
月份x
1
2
3
4
5
销售量y/台
26
37
50
64
93
(1)经计算样本的相关系数,故变量x,y线性相关性很强,求y关于x的经验回归方程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于5时,称该对数据为一对“次数据”,现从这5对数据中任取3对做残差分析,求取到的数据中“次数据”对数的分布列和数学期望.
附:经验回归直线中斜率和截距的最小二乘估计公式分别为:.
2.某学校校庆时统计连续天进入学校参加活动的校友数(单位:千人)如下:
日期
月日
月日
月日
月日
月日
第天
参观人数
(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数加以说明(保留小数点后两位);(若,则认为与的线性相关性很强),并求出关于的线性回归方程;
(2)校庆期间学校开放号门、号门和号门供校友出入,校友从号门、号门和号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与入校不同两门的概率各为.假设校友从号门、号门、号门出入学校互不影响,现有甲、乙、丙、丁名校友于月日回母校参加活动,设为人中从号门出学校的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
3.2025“西安年•最中国”春节再次火爆出圈,申遗成功后的首个春节,遇上首个“非遗版春节”,千年古都西安凭借其深厚的历史文化底蕴和丰富的旅游资源吸引了大量国内外游客前来感受一个别样“西安年”.以下随机收集了春节期间5天的日期代码和每天旅客数量(单位:万人)的5组数据,得到统计数据如下表:
日期
1月28日
1月29日
1月30日
1月31日
2月1日
日期代码
1
2
3
4
5
旅客数量(万人)
55
80
150
270
485
4
4.4
5
5.6
6
由5组数据制成图(1)所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图(2)所示的残差图.
(1)根据残差图判断选择哪个模型拟合较好并说明理由;
(2)根据(1)问中所选的模型,求出关于的经验回归方程;
(3)为了吸引旅客,某景点在售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团所有游客中随机同时抽取两名游客,若两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,现按抽奖规则重复进行三次抽奖,设三次抽奖中恰有一次中奖的概率为,当为何值时,最大?
参考公式:对于一组数据其经验回归直线的斜率和截距的最小二乘估计分别为:
4.随着粤港澳大湾区建设、黄河流域生态保护和高质量发展等区域重大战略实施取得新成效,城乡融合和区域协调发展继续推进,年末全国常住人口城镇化率增长至.下图为年年末常住人口城镇化率的折线图.
(1)由折线图看出,可用线性回归模型拟合常住人口城镇化率与年份代码的关系.请建立关于的回归方程;
(2)从这年中任取年,记常住人口城镇化率超过的年数为,求的分布列与数学期望.
附:回归方程中斜率和截距的最小二乘法公式分别为:,.
题型六 非线性回归模型分析
1.经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.5
1360
44
384
—
3
588
32
6430
—
表中.
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型并求出y关于x的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.
附:对于一组数据,其经验回归直线方程的斜率和截距的最小二乘估计分别为.
2.每年3月20日是国际幸福日,节日的意义在于追求幸福,建设未来.某中学为纪念国际幸福日举办了幸福种植计划,一名同学记录了种子的发芽情况,
天数
1
2
3
4
5
胚芽长度(厘米)
0.8
1.1
1.5
2.4
4.2
通过对表中数据进行分析,分别提出了两个回归模型:①;②,
(1)根据以上数据,计算模型①中的关于的相关系数(结果精确到0.01),若,则选择模型①,否则选择模型②,试问应该选择哪个模型?
(2)根据(1)的结果,试建立关于的回归方程,并预测第6天种子的胚芽长度(结果精确到0.01).
附:回归方程中斜率和截距的最小二乘估计公式分别为.
样本相关系数为.
参考数据:.
令.
3.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;;
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y的预报值.
(参考数据:,,,)
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
25
2.89
646
168
422688
48.48
70308
4.小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积X(单位:)和日均客流量Y(单位:百人)的数据,并计算得.
(1)求Y关于X的回归直线方程;
(2)已知服装店每天的经济效益,该商场现有的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:回归直线的斜率和截距的最小二乘估计分别为:.
1.下列说法错误的是 ( )
A.若随机变量 服从正态分布 ,且 ,则 ;
B.一组数据10,11,11,12,13,14,16,18,20,22的第 60 百分位数为 14 ;
C.对具有线性相关关系的变量 ,利用最小二乘法得到的经验回归方程为 ,若样本点的中心为,则实数的值是 ;
D.若决定系数 越大,则两个变量的相关性越强.
2.已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
3.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
4.(多选)下面统计了某品牌新能源汽车2024年上半年的销售量y(单位:万辆)如下表:
月份x
1
2
3
4
5
6
销售量y(单位:万辆)
m
若销售量y关于月份x的经验回归方程为,则下列结论正确的是( )
A. B.销售量的极差为
C.销售量的分位数为 D.销售量的平均数与中位数相等
5.(多选)国家统计局月日发布数据显示,年上半年我国经济运行总体平稳,其中新能源产业依靠持续的技术创新实现较快增长.某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
A.,
B.由散点图知变量和正相关
C.相关系数
D.用最小二乘法求得关于的经验回归直线方程为
6.(多选)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )
A.直线过点
B.直线的斜率即为和的相关系数
C.和的相关系数在到1之间
D.当为偶数时,分布在两侧的样本点的个数相等
7.(多选)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:关于的回归直线方程中,
A.
B.由散点图知变量和负相关
C.相关系数
D.用最小二乘法求得关于的线性回归直线方程为
8.(多选)某公司2019年研发成功一款新产品投放市场,为了做好后期的市场开拓工作,该公司收集了2019年至2023年共5年的销售量数据如下表:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
销售量(万个)
2
17
36
93
142
根据上表,利用最小二乘法可得关于的回归方程为,则下列说法正确的是( )
A.五年销售量的极差是140 B.五年销售量的第八十百分位数是93
C. D.根据回归方程估计2024年销售量为760万个
9.某公司收集了某商品销售收入(单位:万元)与相应的广告支出(单位:万元)共10组数据,绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法错误的是 .
①决定系数变小 ②残差平方和变小
③相关系数的值变小 ④自变量与因变量相关性变弱
10.如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 .
3
5
7
9
2.5
4
6.5
11.随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升.小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:,.
附:回归直线中,,.
12.为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
2 / 7
学科网(北京)股份有限公司
$$
4.2一元线性回归
题型一 求线性回归方程
1.对于变量和变量,经过随机抽样获得成对样本数据,且,若关于的经验回归方程为,其样本相关系数为,则( )
(参考数据:)
A.1 B.2 C.3 D.4
【答案】C
【分析】根据样本相关系数的公式计算出,再根据回归系数的公式计算出,最后根据计算即可.
【详解】因为,
所以,
因为,所以,
所以,所以.
故选:C.
2.为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【答案】A
【分析】根据公式可求得结果.
【详解】由题可得,,
由,
,
所以所求经验回归方程为.
故选:A.
3.某人工智能公司从2018至2024年的利润情况如下表所示:
年份
2018
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
7
利润y(单位:亿元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)根据表中的数据,推断变量y与x之间是否线性相关.计算y与x之间的相关系数(精确到0.01),并推断它们的相关程度;
(2)求出y关于x的经验回归方程,并预测该人工智能公司2025年的利润;
参考数据:
参考公式:对于一组数据,①相关系数为:;
②经验回归直线x的斜率和截距的最小二乘估计公式分别,
【答案】(1)y与x线性相关,,相关程度很强
(2),6.3亿元
【分析】(1)用题目给的、、的值代入算 r ,再依据 r 的值和正负判断变量关系.
(2)把已知的和的值代入计算,得到涉及的系数,进而得到方程.再 把给定 x 值代入回归方程算出 y 值.
【详解】(1)由题设,易知y与x线性相关,且,
,
由于,可以推断变量y与x成正线性相关且相关程度很强.
(2)由题设,,,
所以,因此y关于x的回归方程为,
当时,,即预测该人工智能公司2025的利润为6.3亿元.
4.随着电商事业的快速发展,网络购物交易额也快速提升,某网上交易平台工作人员对2020年至2024年每年的交易额(取近似值)进行统计分析,结果如下表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额(单位:百亿)
1.5
2
3.5
8
15
(1)据上表数据,计算与的相关系数(精确到0.01),并说明与的线性相关性的强弱;(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱.)
(2)利用最小二乘法建立关于的线性回归方程,并预测2025年该平台的交易额.
参考数据:,,
参考公式:相关系数;
线性回归方程中,斜率和纵截距的最小二乘估计分别为,.
【答案】(1)0.92,线性相关性程度很强.
(2),15.9百亿.
【分析】(1)根据相关系数的计算公式可得,再判断可得答案;
(2)根据公式求线性回归方程,再将代入方程进行预测.
【详解】(1)由已知得,,
,,
,
故,
,所以线性相关性程度很强;
(2),,
则,
所以关于的线性回归方程为,
当时,,
所以预计2025年该平台的交易额为15.9百亿.
题型二、根据一元线性回归模型中心点求参数
1.已知变量和的统计数据如下表.
80
90
100
110
120
y
120
140
165
180
若,线性相关,经验回归方程为,则( )
A.155 B.158 C.160 D.162
【答案】A
【分析】根据样本中心点在回归直线方程上,得到,求出.
【详解】由表中数据可得,
代入经验回归方程可得,
则.
故选:A
2.下表为2017—2023年某企业两轮电动车的年产量(单位:万辆),其中2017—2023年的年份代码分别为1—7.
年份代码
1
2
3
4
5
6
7
年产量万辆
31
33
38
44
已知与具有线性相关关系,且满足经验回归方程,则的值为( )
A.146.5 B.164.8 C.179.5 D.197.8
【答案】B
【分析】先求出,又因为点在经验回归直线上,得出即可计算求解.
【详解】由表中数据得,因为点在经验回归直线上,
所以,所以.
故选:B.
3.某工厂为了研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据,如表所示.
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的回归直线方程为.据此计算出在样本处的随机误差为,则表中m的值为( )
A.4.5 B.4.2 C.4.8 D.5
【答案】A
【分析】根据条件求出,再运用回归直线经过样本中心可解.
【详解】根据题意可得,在样本处,,则,解得.
由题表可知,.
因为回归直线过样本点的中心,
所以.故,解得.
故选:A.
4.对于变量,其部分成对的观测值如下表所示:
1
2
3
4
5
2
6
7
8
12
已知具有线性相关关系,且根据最小二乘法得到的线性回归方程为,则( )
A.0.2 B.0.4 C.0.8 D.1.2
【答案】B
【分析】根据回归直线方程必过点,代入即可求解.
【详解】由条件可知,,,
线性回归方程必过点,所以,所以.
故选:B
题型三 根据一元线性回归模型求原始数据
1.由如表所示的变量之间的一组数据,得之间的线性回归方程为,则( )
6
8
10
12
7
5.5
4.5
A.点一定在回归直线上
B.每增加1个单位,大约增加0.5个单位
C.
D.去掉这组数据后,求得的回归直线方程斜率将变大
【答案】C
【分析】利用回归直线方程过样本点可求得,进而逐项计算判断每个选项的正误.
【详解】由题意可得,,
因为回归直线方程一定过样本中心点,
所以,解得,故C正确;
当,所以点不在回归直线上,故A错误;
每增加1个单位,大约减少0.5个单位,故B错误;
当,所以在回归直线上,故去掉点 不影响回归直线方程,故D错误.
故选:C.
2.已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为,则的值为( )
2
4
6
8
10
6
5
4
3
2
A. B. C. D.
【答案】D
【分析】根据表格中的数据,求得样本中心点,将其代入回归直线方程,求得的值,即可得到答案.
【详解】由表格中的数据,可得,,
又样本中心点必在线性回归直线上,将代入回归直线方程,
可得,解得.
故选:D.
3.根据一组样本数据,,,,求得经验回归方程为,已知,,则( )
A.0.5 B.0.6 C.0.7 D.0.8
【答案】C
【分析】利用回归直线方程过样本中心点,可求的值.
【详解】因为,,所以样本中心点,
因为回归方程过样本中心点,所以,解得.
故选:C.
4.下表是某单位1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4
5
a
7
由散点图可知,用水量y与月份x之间具有较好的线性相关关系,其线性回归方程是,则表中的值为 .
【答案】/
【分析】由表格中的数据,求得样本中心代入回归方程,即可求解.
【详解】由表格中的数据,可得,
把代入回归方程,可得,解得.
故答案为:.
5.表为2020~2024年某省高三学生的近视人数(单位:万人).
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
万人
50
58
67
80
95
已知与具有线性相关关系,且满足经验回归方程,则 .
【答案】
【分析】利用经验回归直线必过样本点的中心,从而可求解待定系数.
【详解】由题表可得,,
根据回归直线经过点,所以.
故答案为:
题型四 一元线性回归模型残差分析
1.某商品的广告支出费用单位:万元与销售量单位:万件之间的对应数据如表所示:
广告支出费用x
5
销售量y
15
18
根据表中数据可得回归直线方程为,则第三个样本点对应的残差为( )
A. B. C. D.
【答案】D
【分析】先求得回归直线方程,再利用残差的定义求解.
【详解】解:由已知,,,
所以,
于是,,
因此,第三个样本点对应的残差为
故选:D
2.已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为( )(残差=观察值-估计值)
A.2 B. C. D.
【答案】B
【分析】先计算新的数据的平均值,后得到经验回归方程,再结合残差概念计算即可.
【详解】∵,
∴增加两个样本点后的平均数为;
∵,∴,
∴增加两个样本点后y的平均数为,
∴,解得,
∴新的经验回归方程为,则当时,,
∴样本点的残差为
故选:B.
3.为保护环境,我国近几年大力发展新能源汽车,新能源汽车的产销量迅速位居全球第一.我国某省2024年9月份至2025年1月份这5个月新能源汽车月销量(单位:千辆)与月份代码的数据如表所示:
月份
2024年9月
2024年10月
2024年11月
2024年12月
2025年1月
月份代码
1
2
3
4
5
月销量/千辆
21
52
109
若与线性相关,且经验回归方程为,则( )
A. B.样本相关系数在内
C.相对于点的残差为 D.2025年2月份的销量一定为13.42万辆
【答案】AB
【分析】先根据样本中心点的计算方法求出和,再利用样本中心点在经验回归直线上求出的值;然后根据经验回归方程的性质判断样本相关系数的范围;接着根据残差的定义计算相对于点的残差;最后根据经验回归方程的预测性质判断2025年2月份的销量情况.
【详解】根据题意得,,
又必过样本中心点,所以,解得,故A正确;
因为,具有较强的线性相关关系,且经验回归方程为,
所以,具有较强的正相关关系,故样本相关系数在内,故B正确;
当时,,故残差为,故C错误;
当时,,
故2025年2月份的销量约为13.42万辆,故D错误.
故选:AB.
4.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下.
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
若由最小二乘法计算得经验回归方程.
(1)计算各组残差,并计算残差平方和;
(2)求,并说明回归模型拟合效果的好坏.(参考数据:)
【答案】(1)答案见解析
(2)0.832,回归模型的拟合效果较好
【分析】(1)由线性回归方程代入数据求解即可;
(2)由计算公式求解,即可判断.
【详解】(1)由,
可以算得分别为:
,
,
,
,
所以残差平方和为.
(2),
故.
所以回归模型的拟合效果较好.
题型五 一元线性回归模型与概率结合
1.自“机器人扭秧歌”这一节目在2025年春晚舞台大放异彩后,宇树科技这家专注于四足机器人研发的中国科技公司在全球范围内倍受瞩目,旗下一款机器人Unitree Aliengo在巡检与监控、安防与救援、科研与影视等方面应用广泛.现统计出机器人Unitree Aliengo在某地区2024年1月至5月的销售量如下表所示:
月份x
1
2
3
4
5
销售量y/台
26
37
50
64
93
(1)经计算样本的相关系数,故变量x,y线性相关性很强,求y关于x的经验回归方程;
(2)用(1)中所求的经验回归方程来拟合这组成对数据,当样本数据的残差的绝对值大于5时,称该对数据为一对“次数据”,现从这5对数据中任取3对做残差分析,求取到的数据中“次数据”对数的分布列和数学期望.
附:经验回归直线中斜率和截距的最小二乘估计公式分别为:.
【答案】(1)
(2)的分布列见解析,数学期望为1.2
【分析】(1)由线性回归方程,分别计算各部分的值,代入公式求解即可;
(2)先计算各组数据的残差,再结合超几何分布,得到所有取值的概率,从而得到分布列和数学期望.
【详解】(1)由表格可得,,,
,,
所以,,
故y关于x的经验回归方程是.
(2)当时,,残差的绝对值为;
当时,,残差的绝对值为;
当时,,残差的绝对值为;
当时,,残差的绝对值为;
当时,,残差的绝对值为.
所以“次数据”为第四组和第五组共两组数据.
故“次数据”对数的所有可能取值为0,1,2.
,,.
所以的分布列如下:
0
1
2
的数学期望.
2.某学校校庆时统计连续天进入学校参加活动的校友数(单位:千人)如下:
日期
月日
月日
月日
月日
月日
第天
参观人数
(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数加以说明(保留小数点后两位);(若,则认为与的线性相关性很强),并求出关于的线性回归方程;
(2)校庆期间学校开放号门、号门和号门供校友出入,校友从号门、号门和号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与入校不同两门的概率各为.假设校友从号门、号门、号门出入学校互不影响,现有甲、乙、丙、丁名校友于月日回母校参加活动,设为人中从号门出学校的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),说明见解析,
(2)分布列见解析,,.
【分析】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出、的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从号门出校园的概率均为,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出、的值.
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以与线性相关性很强,可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从号门出学校”为事件,“甲从号门进学校”为事件,
“甲从号门进学校”为事件,“甲从号门进学校”为事件,
由题意可得,,,
,,
由全概率公式得:
,
同理乙、丙、丁从号门出学校的概率也为,
为人中从号门出学校的人数,则,
,,
,,
,
故的分布列为:
,.
3.2025“西安年•最中国”春节再次火爆出圈,申遗成功后的首个春节,遇上首个“非遗版春节”,千年古都西安凭借其深厚的历史文化底蕴和丰富的旅游资源吸引了大量国内外游客前来感受一个别样“西安年”.以下随机收集了春节期间5天的日期代码和每天旅客数量(单位:万人)的5组数据,得到统计数据如下表:
日期
1月28日
1月29日
1月30日
1月31日
2月1日
日期代码
1
2
3
4
5
旅客数量(万人)
55
80
150
270
485
4
4.4
5
5.6
6
由5组数据制成图(1)所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图(2)所示的残差图.
(1)根据残差图判断选择哪个模型拟合较好并说明理由;
(2)根据(1)问中所选的模型,求出关于的经验回归方程;
(3)为了吸引旅客,某景点在售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团所有游客中随机同时抽取两名游客,若两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,现按抽奖规则重复进行三次抽奖,设三次抽奖中恰有一次中奖的概率为,当为何值时,最大?
参考公式:对于一组数据其经验回归直线的斜率和截距的最小二乘估计分别为:
【答案】(1)②,理由见解析
(2)
(3)
【分析】(1)根据散点图判断模型;
(2)根据最小二乘法公式计算,再计算即可求解;
(3)先设函数作差后结合导函数得出单调性即可求出最大值.
【详解】(1)由图知,应该选择模型②.
理由为:模型②的残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,
模型②的残差的绝对值远小于模型①的残差的绝对值,所以②的拟合精度更高,
回归方程的预报精度相应就会越高.故选模型②比较合适.
(2)由(1)知,选用模型②,两边取对数,得
令与可以用经验回归方程来拟合,则
计算可得
.
所以
.所以,即
所以回归方程为.
(3)记“从5个男游客和个女游客中随机同时抽取两名游客,两名游客性别不同(即为中奖)”为事件,
则
设
恒成立
时取得最大值,即
,
令
则,得,
所以在上单调递增,在上单调递减,
当时,取得最大值.由,解得或(舍去)
当时,恰有一次中奖的概率最大.
4.随着粤港澳大湾区建设、黄河流域生态保护和高质量发展等区域重大战略实施取得新成效,城乡融合和区域协调发展继续推进,年末全国常住人口城镇化率增长至.下图为年年末常住人口城镇化率的折线图.
(1)由折线图看出,可用线性回归模型拟合常住人口城镇化率与年份代码的关系.请建立关于的回归方程;
(2)从这年中任取年,记常住人口城镇化率超过的年数为,求的分布列与数学期望.
附:回归方程中斜率和截距的最小二乘法公式分别为:,.
【答案】(1)
(2)分布列见解析,
【分析】(1)求出、的值,将样本数据代入最小二乘法公式,求出、的值,即可得出回归直线方程;
(2)由题意可知,随机变量的取值可能为、、,计算出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得的值.
【详解】(1)设年份代码的平均数为,则.
设常住人口城镇化率的平均数为,则.
因为,
,
所以.
所以.
所以关于的回归方程为.
(2)由图可知,第、、年常住人口城镇化率超过,
由题意可知,的取值可能为、、,
因为;;.
所以的分布列为:
所以的数学期望为.
题型六 非线性回归模型分析
1.经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.5
1360
44
384
—
3
588
32
6430
—
表中.
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型并求出y关于x的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.
附:对于一组数据,其经验回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1)适合,
(2)分布列见解析,
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而运用期望公式可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的所有可能取值为0,1,2,
设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,由全概率公式
,
,
.
所以取出“死卵”个数的分布列为
0
1
2
P
所以.
所以取出“死卵”个数的均值为.
2.每年3月20日是国际幸福日,节日的意义在于追求幸福,建设未来.某中学为纪念国际幸福日举办了幸福种植计划,一名同学记录了种子的发芽情况,
天数
1
2
3
4
5
胚芽长度(厘米)
0.8
1.1
1.5
2.4
4.2
通过对表中数据进行分析,分别提出了两个回归模型:①;②,
(1)根据以上数据,计算模型①中的关于的相关系数(结果精确到0.01),若,则选择模型①,否则选择模型②,试问应该选择哪个模型?
(2)根据(1)的结果,试建立关于的回归方程,并预测第6天种子的胚芽长度(结果精确到0.01).
附:回归方程中斜率和截距的最小二乘估计公式分别为.
样本相关系数为.
参考数据:.
令.
【答案】(1)应选模型②;
(2),预测第6天种子的胚芽长度为5.51厘米.
【分析】(1)根据已知求得,结合已知及相关系数公式求相关系数,即可得结论;
(2)应用最小二乘法求回归方程,再将代入预测第6天种子的胚芽长度.
【详解】(1)由题设,,所以,
所以,故应选模型②;
(2)令,则求出线性回归方程,
所以,,
所以,
所以,
又,则,故,
所以回归方程为,故,有厘米,
所以,预测第6天种子的胚芽长度为5.51厘米.
3.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;;
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y的预报值.
(参考数据:,,,)
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
25
2.89
646
168
422688
48.48
70308
【答案】(1)应该选择模型①,理由见解析
(2);250个
【分析】(1)由模型①的残差点比较均匀落在水平的带状区域以及带状区域的宽度窄,所以选择模型①比较合适;
(2)令,z与温度x可以用线性回归方程来拟合,则,利用公式和数据求出和,则可以得到y关于温度x的回归方程,当时,可求出产卵数y的预报值.
【详解】(1)应该选择模型①.
由于模型①残差点比较均匀地落在水平的带状区域中,
且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,
回归方程的预报精度相应就会越高,故选模型①比较合适
(2)令,z与温度x可以用线性回归方程来拟合,则.
,
所以,
则z关于x的线性回归方程为.
于是有,
所以产卵数y关于温度x的回归方程为
当时,(个).
所以,在气温在34℃时,一个红铃虫的产卵数的预报值为250个
4.小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积X(单位:)和日均客流量Y(单位:百人)的数据,并计算得.
(1)求Y关于X的回归直线方程;
(2)已知服装店每天的经济效益,该商场现有的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:回归直线的斜率和截距的最小二乘估计分别为:.
【答案】(1)
(2)
【分析】(1)由已知条件结合回归直线公式可求出回归直线方程,(2)根据题意得,构造函数,利用二次函数的性质可求出其最大值,从而可求出Z的最大值.
【详解】(1)由已知可得,,
,,所以回归直线方程为.
(2)根据题意得.
设,
令,
则,
当,即时,取最大值,又因为k,,所以此时Z也取最大值,因此,小李应该租的商铺.
1.下列说法错误的是 ( )
A.若随机变量 服从正态分布 ,且 ,则 ;
B.一组数据10,11,11,12,13,14,16,18,20,22的第 60 百分位数为 14 ;
C.对具有线性相关关系的变量 ,利用最小二乘法得到的经验回归方程为 ,若样本点的中心为,则实数的值是 ;
D.若决定系数 越大,则两个变量的相关性越强.
【答案】B
【分析】对于A:根据正态分布特点得到;对于B:利用百分位数定义即可得到;
对于C:利用回归方程经过样本中心点即可得到答案;对于D,利用决定系数性质即可得到结果;
【详解】对于A:因为随机变量 服从正态分布 ,且 ,
所以故A正确;
对于B:这组数据一共10个数据,则,故第60 百分位数为,故B错误;
对于C:因为回归方程为 ,若样本点的中心为,所以,解得,故C正确;
对于D:决定系数 越大,则两个变量的相关性越强,故D正确;
故选:B
2.已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】D
【分析】先计算新数据的平均值,然后计算新数据的回归方程,进而根据残差定义计算.
【详解】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:D.
3.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
【答案】A
【分析】先根据已知条件将,代入线性回归方程,然后通过对数函数的性质求出的最值.
【详解】已知,把,代入可得:
.
得到.
因为,所以,那么,即.
因为对数函数在上单调递增,且,所以,即有最大值为.
变量的估计值有最大值为.
故选:A.
4.(多选)下面统计了某品牌新能源汽车2024年上半年的销售量y(单位:万辆)如下表:
月份x
1
2
3
4
5
6
销售量y(单位:万辆)
m
若销售量y关于月份x的经验回归方程为,则下列结论正确的是( )
A. B.销售量的极差为
C.销售量的分位数为 D.销售量的平均数与中位数相等
【答案】BCD
【分析】利用回归方程过样本中心点可求得;根据极差的概念,百分位数的概念,平均数与中位数的概念即可分别判断B、C、D.
【详解】对于A,易知,则,所以,解得:,故A错误;
对于B,根据表格数据可得销售量的极差为,故B正确;
对于C,,所以销售量的分位数为从小到大排列的第5个数据,即为,故C正确;
对于D,由A选项可知,销售量的平均数为9,销售量中位数为,所以销售量的平均数与中位数相等,故D正确.
故选:BCD.
5.(多选)国家统计局月日发布数据显示,年上半年我国经济运行总体平稳,其中新能源产业依靠持续的技术创新实现较快增长.某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
A.,
B.由散点图知变量和正相关
C.相关系数
D.用最小二乘法求得关于的经验回归直线方程为
【答案】ABC
【分析】根据平均数的概念可得选项A正确;画出散点图可得选项B正确;根据变量和正相关可得选项C正确;根据回归直线过样本中心点得选项D错误.
【详解】A.,,A正确;
B.根据表格作出散点图,因为散点图的分布从左下到右上,所以和正相关,B正确;
C.由选项B可知相关系数,故C正确;
D.由题意得,样本中心点的坐标为,即,回归直线过点.
当时,,故D错误.
故选:ABC.
6.(多选)设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )
A.直线过点
B.直线的斜率即为和的相关系数
C.和的相关系数在到1之间
D.当为偶数时,分布在两侧的样本点的个数相等
【答案】AC
【分析】根据回归直线方程、相关系数的的概念及特点、回归直线与样本点的关系判断各选项即可.
【详解】回归直线一定过这组数据的样本中心点,故A项正确;
两个变量的相关系数不是回归直线的斜率,两者公式不同,故B项不正确;
两个变量的相关系数在到1之间,故C项正确;
所有样本点集中在回归直线附近,不一定两侧一样多,故D项不正确.
故选:AC.
7.(多选)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:关于的回归直线方程中,
A.
B.由散点图知变量和负相关
C.相关系数
D.用最小二乘法求得关于的线性回归直线方程为
【答案】AC
【分析】对于A,根据条件,直接求出,即可求解;对于B和C,根据条件,画出散点图,即可求解;对于D,利用线性回归直线方程过样中心,代入计算,即可求解.
【详解】对于选项A,由题知,,故选项A正确,
对于选项B,由图表可得散点图如下,由散点图知变量和正相关,所以选项B错误,
对于选项C,由选项B知变量和正相关,所以,故选项C正确,
对于选项D,因为样本中心点为,又,
所以不是关于的线性回归直线方程,故选项D错误,
故选:AC.
8.(多选)某公司2019年研发成功一款新产品投放市场,为了做好后期的市场开拓工作,该公司收集了2019年至2023年共5年的销售量数据如下表:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
销售量(万个)
2
17
36
93
142
根据上表,利用最小二乘法可得关于的回归方程为,则下列说法正确的是( )
A.五年销售量的极差是140 B.五年销售量的第八十百分位数是93
C. D.根据回归方程估计2024年销售量为760万个
【答案】AC
【分析】利用极差、百分位数定义即可判断选项A,B;利用线性回归方程过样本中心点即可判断选项C,将代入回归方程即可求得选项D.
【详解】对于选项A:五年销售量的极差是,A选项正确.
对于选项B:,所以2,17,36,93,142的第八十百分位数为,B选项错误.
对于选项C:令,则关于的回归方程为,转化为,
,,
所以,解得,C选项正确.
对于选项D:由上述分析可知,估计2024年销售量为万册,D选项错误
故选:AC
9.某公司收集了某商品销售收入(单位:万元)与相应的广告支出(单位:万元)共10组数据,绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法错误的是 .
①决定系数变小 ②残差平方和变小
③相关系数的值变小 ④自变量与因变量相关性变弱
【答案】①③④
【分析】回归效果越好,则决定系数越大,相关系数的绝对值越大,残差平方和越小.
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
故决定系数会变大,更接近于1;残差平方和变小;
相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1,即相关系数的值变大,自变量与因变量相关性变强,故①,③,④错误,②正确.
故答案为:①③④.
10.如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 .
3
5
7
9
2.5
4
6.5
【答案】5
【分析】通过表格计算出样本中心点,代入回归方程即可求解.
【详解】由表可知,,,
所以样本中心点为,
代入,得,解得.
故答案为:5.
11.随着科技的进步,近年来,我国新能源汽车产业迅速发展,2006年,在国家节能减排的宏观政策指导下,科技部在“十一五”启动了“863”计划新能源汽车重大项目.自2011年起,国家相关部门重点扶持新能源汽车的发展,也逐步得到消费者的认可.各大品牌新能源汽车除了靠不断提高汽车的性能和质量来提升品牌竞争力,在广告投放方面的花费也是逐年攀升.小张同学对某品牌新能源汽车近8年出售的数量及广告费投入情况进行了统计,具体数据见下表:
年份代码
1
2
3
4
5
6
7
8
年销售量/十万辆
3
4
5
6
7
9
10
12
广告费投入/亿元
3.6
4.1
4.4
5.2
6.2
7.5
7.9
9.1
(1)求广告费投入y(亿元)与年销售量x(十万辆)之间的线性回归方程(精确到0.01);
(2)若某人随机在甲、乙两家汽车店购买一辆汽车,如果在甲汽车店购买,那么购买新能源汽车的概率为0.6;如果在乙汽车店购买,那么购买新能源汽车的概率为0.8,求这个人购买的是新能源汽车的概率.
参考数据:,.
附:回归直线中,,.
【答案】(1)
(2)
【分析】(1)由数据求得回归方程系数,即可求解;
(2)由全概率公式即可求解;
【详解】(1),,
由参考数据
所以
故广告费投入y关于年销售量x的回归方程为.
(2)设“在甲汽车店购买汽车”,“在乙汽车店购买汽车”,
“购买的是新能源汽车”,
,,,
由全概率公式得,.
12.为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
【答案】(1)600个
(2)
(3)个
【分析】(1)利用样本质量合格的频率估计总体的概率,求总体中质量合格的零件数量.
(2)根据给出的公式可求的值.
(3)根据期望的线性性质求解.
【详解】(1)因为在这100个零件中,合格的零件为60个,
故质量合格的零件所占样本比例为.
而在这1000个零件中,质量合格的零件数为:(个).
(2)由可得,,
又因为,,
因此可得:.
代入数据可得:.
(3)用表示抽查的结果,若第个零件与第个零件被选中,则记;
若结果是其余情况,则记,.
由线性期望的性质可得:
(个).
2 / 7
学科网(北京)股份有限公司
$$