重难点05 线性回归四大考点重难突破(期末真题汇编)高二数学下学期人教A版
2026-05-22
|
2份
|
54页
|
20人阅读
|
0人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 小结 |
| 类型 | 题集-试题汇编 |
| 知识点 | 统计案例 |
| 使用场景 | 同步教学-期末 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 2.70 MB |
| 发布时间 | 2026-05-22 |
| 更新时间 | 2026-05-22 |
| 作者 | 初高中数理化生秒杀专铺 |
| 品牌系列 | 好题汇编·期末真题分类汇编 |
| 审核时间 | 2026-05-22 |
| 下载链接 | https://m.zxxk.com/soft/57991680.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
聚焦线性回归四大核心考点,精选全国多地域高二期末及联考真题,通过科技、环保等真实情境与梯度化问题设计,实现重难知识的系统性突破。
**题型特征**
|题型|题量/分值|知识覆盖|命题特色|
|----|-----------|----------|----------|
|选择(单/多选)|20题|线性回归方程性质、相关系数判断、误差分析概念|结合正态分布、独立性检验等综合考查,如第1题融合概率与回归方程|
|填空|5题|回归系数计算、相关系数应用|直接考查公式应用,如第4题利用相关系数求回归系数|
|解答题|15题|线性回归建模、非线性回归转换(指数/对数)、残差与决定系数分析|情境真实且具探究性,如第2题智能检测系统结合列联表,第35题对比指数与线性模型拟合效果|
内容正文:
重难点05 线性回归四大考点重难突破
4大高频考点概览
考点01线性回归
考点02相关系数
考点03误差分析
考点04 非线性回归
(
地
城
考点01
线性回归
)1.(24-25高二下·湖南·期末)(多选)下列说法正确的是( )
A.若,则
B.连续型随机变量服从正态分布,若,则
C.若事件A,B满足:,,且,则事件A,B相互独立
D.已知一组成对数据的经验回归方程为,则
【答案】BCD
【分析】由二项分布的方差公式判断A;由正态分布的性质判断B;由互斥事件与独立事件的定义即可判断C;根据回归直线方程必过样本中心点求出,即可判断D.
【详解】对于A,∵,∴从而故A不正确;
对于B,∵且,
∴,故B正确;
对于C,,,且,
,
,,故相互独立,故C正确;
对于D,成对数据中,
,,
又∵经验回归直线过样本点中心,
∴,∴,故D正确,
故选:BCD.
2.某学术平台引入智能检测系统对所收集的文本进行筛查.检测系统对AI生成文本的识别准确率为98%,对人类撰写文本的识别准确率为96.5%.检测系统对所收集的文本进行筛查时,会对每篇文本输出一个“AI生成概率”得分y(分).y与文本长度x(字)可以用一元线性回归模型来刻画,其线性回归方程为,且,,已知该平台中15%的文本由AI生成.
(1)求回归系数;
(2)从该平台随机选取一篇文本,求该文本被检测系统识别为人类撰写文本的概率(精确到0.001);
(3)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数):
文本真实性
检测结果
总计
识别为AI生成(篇)
识别为人类撰写(篇)
真实AI生成(篇)
真实人类撰写(篇)
总计
200
依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异?
参考公式:
提示:独立性检验中常用的小概率值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)
(3)判断“检测结果”与“文本真实性”有差异
【分析】(1)利用回归直线过样本中心可求回归系数;
(2)利用全概率公式可求概率;
(3)完善列联表,再根据公式计算卡方,结合临界值表判断即可.
【详解】(1)因为,且,,
故,故.
(2)记事件为 “由AI生成的文本”, 为“由人类撰写的文本”,
为“被检测系统识别为人类撰写的文本”,
由题意知,,,,,
由全概率公式知:
,
即该文本被检测系统识别为人类撰写文本的概率约为.
(3)AI生成的篇数为,人类撰写的篇数为,
真实AI生成且被识别为AI生成的篇数,
真实人类撰写且被识别为人类撰写的篇数,
故列联表为:
文本真实性
检测结果
总计
识别为AI生成(篇)
识别为人类撰写(篇)
真实AI生成(篇)
29
1
30
真实人类撰写(篇)
6
164
170
总计
35
165
200
零假设为:分类变量相互独立,即“检测结果”与“文本真实性”无差异.
由列联表数据计算得,,
所以依据小概率值的独立性检验,可以判断“检测结果”与“文本真实性”有差异.
3.(24-25高二下·湖南名校联考联合体·期末)(多选)下列说法正确的是( )
A.相关变量的线性回归方程为,若样本点中心为,则
B.的展开式中二项式系数和为32
C.在独立性检验中,随机变量的观测值越小,“认为两个变量有关”这种判断犯错误的概率越小
D.甲、乙两个模型的决定系数分别约为0.95和0.8,则模型甲的拟合效果更好
【答案】ABD
【分析】将样本中心点的坐标代入回归直线方程,求得,可判定A正确;根据二项式展开式的二项式系数的性质,可判定B正确;根据独立性检验的定义,可判定C错误;根据决定系数越大,拟合效果越好,可判定D正确.
【详解】对于A中,将样本点中心点代入回归方程为,
可得,解得,所以A正确;
对于B中,二项式的展开式中二项式系数和为,所以B正确;
对于C中,在独立性检验中,随机变量的观测值越大,“认为两个变量有关”这种判断犯错误的概率越小,所以C错误;
对于D中,根据决定系数的含义知:决定系数越大,模型拟合效果越好,
由,所以模型甲的拟合效果更好,所以D正确.
故选:ABD.
4.(24-25高二下·江苏扬州·期末)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则__________.
参考公式:.
【答案】/1.875
【分析】根据参考数据及公式先利用相关系数求出,再求即可.
【详解】因为,
所以,
由,
解得,
所以.
故答案为:
5.(24-25高二下·河北沧州运东四校联考·期末)2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【答案】(1), 0.27秒,;
(2)成立,证明见解析.
【分析】(1)根据已知条件求得回归方程的系数,即可得回归方程,将代入回归方程,即可得到答案;
(2)结合题中数据进行计算,可求得步长的残差和,从而可得结论,结合回归方程系数的计算公式即可证明.。
【详解】(1),,
,,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是0.27秒.
(2)根据(1)得到,;
,;
,;
,;
,,
所以,即步长残差和为0.
对任意具有线性相关关系的两个变量都成立,证明如下:
.
6.(24-25高二下·黑龙江双鸭山第一中学·期末)如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
【答案】回归方程为,预测2024年该地区生活垃圾无害化处理量将约万吨
【分析】根据最小二乘法计算出回归方程,进而代入预测值,即可求解.
【详解】,,
,
得,
又,,
y关于t的回归方程为.
,将2024对应的代入回归方程得:,
预测2024年该地区生活垃圾无害化处理量将约万吨.
7.调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【分析】根据散点图的特点可分析出相关性的问题,从而判断ABC选项,根据相关系数的定义可以判断D选项.
【详解】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是,D选项错误
故选:C
8.(24-25高二下·广东茂名电白区·期末)(多选)下列说法正确的是( )
A.设有一个经验回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位
B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好
【答案】CD
【分析】根据线性回归方程的含义即可判断A,由相关系数以及决定系数的定义即可判断BD,由残差的含义即可判断C.
【详解】A选项,因为=3-5x,所以变量x增加一个单位时,y平均减少5个单位,故A错误;B选项,线性相关性具有正负,相关性越强,则样本相关系数r的绝对值越接近于1,故B错误;
C选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C正确;
D选项,在一元线性回归模型中,决定系数R2越接近于1,说明模型拟合的精度越高,即回归的效果越好,故D正确.
故选:CD
9.某科技公司研发了一项新产品,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价(千元)和销售量(千件)之间的一组数据如下表所示:
月份
1
2
3
4
5
6
销售单价
销售量
(1)试根据1至5月份的数据,建立关于的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程,其中.
参考数据:,.
【答案】(1);(2)是.
【分析】(1)先由表中的数据求出,再利用已知的数据和公式求出,从而可求出关于的回归直线方程;
(2)当时,求出的值,再与15比较即可得结论
【详解】(1)因为,,
所以,
得,
于是关于的回归直线方程为;
(2)当时,,
则,
故可以认为所得到的回归直线方程是理想的.
10.已知变量与负相关,且由观测数据算得样本平均数,则由该观测的数据算得的线性回归方程可能是( )
A. B.
C. D.
【答案】C
【分析】根据与负相关可判断AB,将样本中心带入选项检验,即得.
【详解】因为变量与负相关,所以 ,排除AB选项;
因为,
而,故C符合题意,
又,故D错误.
故选:C
(
地
城
考点02
相关系数
)
11.我国某农业大学植物研究所相关人员为了解仙人掌的植株高度(单位:),与其根茎长度(单位:)之间是否存在线性相关的关系,通过采样和数据记录得到如下数据:
样本编号
1
2
3
4
根茎长度
10
12
14
16
植株高度
62
86
112
132
参考数据:,,.
(1)由上表数据计算相关系数,并说明是否可用线性回归模型拟合与的关系(若,则可用线性回归模型拟合,计算结果精确到0.001);
(2)求y关于x的经验回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,
【答案】(1),可用线性回归模型拟合与的关系;
(2)
【分析】(1)求出,,,,根据,可判断出可用线性回归模型拟合与的关系;
(2)求出和,从而得到关于的经验回归方程.
【详解】(1),,
,
,
,可用线性回归模型拟合与的关系;
(2),,
故关于的经验回归方程为.
12.(24-25·福建福州第三中学·期末)(多选)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
【答案】AB
【分析】根据经验回归方程的性质,结合已知条件逐一分析各选项,对相关性、相关系数、残差等进行判断.
【详解】经验回归方程为,斜率为,函数单调递增,
y随着x的增大而增大,即y与x正相关,故A正确;
样本中心点必在回归线方程上,
,将代入回归方程,得,解得,
,解得,故B正确;
当时,预测值,实际值为,
残差,故C错误;
经验回归方程为,斜率为,
样本的相关系数,故D错误.
故选:AB.
13.(24-25·湖南部分学校·期末)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
【答案】A
【分析】由表格数据求出样本中心点求解判断A;由的正负判断B;由回归方程计算判断C;由相关系数公式判断D.
【详解】,则样本中心点为,
对于A,由,得,A正确;
对于B,由,得与的样本是正相关,B错误;
对于C,当时,的预估值为,C错误;
对于D,由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,D错误.
故选:A
14.(24-25高二下·黑龙江实验中学·期末)(多选)下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
【答案】BCD
【分析】对于A根据相关系数的性质分析判断;对于B根据决定系数的性质分析判断;对于C根据回归方程过样本中心点分析判断;对于D根据独立性检验思想分析判断.
【详解】因为相关系数绝对值越接近1两个变量的线性相关程度越强,故A选项错误.
因为决定系数越接近0,表示模型对数据的拟合效果越差,故B选项正确.
因为回归直线一定经过样本均值点,故C选项正确.
因为,则没有充分证据推断不成立,即认为与有无,故D选项正确.
故选:BCD
15.(24-25高二下·湖南衡南县第一中学·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),回归方程为
(2)的分布列见解析;
【分析】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从2号门出校园的概率,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出的值.
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以y与x线性相关性很强,
可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件A,“甲从1号门进学校”为事件B,
“甲从2号门进学校”为事件C, “甲从3号门进学校”为事件D,
由题意可得,,,
,,,
由全概率公式得:
,同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,
,
故的分布列为:
0
1
2
3
4
所以.
16.(24-25高二下·河北唐山滦南县·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
【答案】(1)变量与的线性相关程度很强
(2),38.5百亿元
【分析】(1)求出,,从而代入公式计算出,得到结论;
(2)代入公式求出y关于x的经验回归方程为,代入,预测2027年该网站“双11”当天的交易额.
【详解】(1)由题意,根据表格中的数据,
可得,,
则,
,
,
故,
所以,
非常接近,说明变量与的线性相关程度很强.
(2)由(1)可得,
所以,
则.
可得关于的经验回归方程为,
令,可得,
所以预测2027年该网站“双11”当天的交易额为38.5百亿元.
17.(24-25高二下·山东滨州·期末)已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
【答案】(1)分布列见解析,期望为2.4;
(2),该经验回归直线方程有价值.
【分析】(1)由,,求出各概率后得分布列,由期望公式计算出期望;
(2)根据已知数据求出,再比较可得结论.
【详解】(1)由已知,所以,,
的取值分别为3,1,,,
,
所以的分布列为
3
1
0.729
0.243
(2)由已知,
,则,
所以,
,则认为该经验回归直线方程有价值.
18.(24-25高二下·山东威海·期末)(多选)某位同学10次考试的物理成绩与数学成绩如下表所示:
数学成绩x
76
82
72
87
93
78
89
66
81
76
物理成绩y
80
87
75
86
100
79
93
68
85
77
已知y与x线性相关,计算可得,,回归直线方程为,则( )
A.y与x正相关
B.
C.相关系数
D.若该同学第11次考试的数学成绩为80,物理成绩为83,则以这11次成绩重新计算,得到的回归直线方程不变
【答案】ACD
【分析】根据题意,结合回归直线方程一一判断即可.
【详解】对于选项A,在中,,则y与x正相关,故选项A正确;
对于选项B,由,,则样本中心点为,代入得,解得,故选项B错误;
对于选项C,根据选项A可得相关系数,故选项C正确;
对于选项D,新增数据点为,该点恰好是原样本中心,且新增点不影响协方差和方差的计算(新增点的和均为0),所以新的回归直线方程不变,故选项D正确.
故选:ACD.
19.(24-25高二下·广东广州越秀区·期末)随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
【答案】D
【分析】利用正负相关的概念即可作出选项A的判断,利用经验回归直线经过样本中心点,可通过计算判断B,利用公式求参数和,即可判断C,利用相关系数接近于1可判断D.
【详解】由样本相关系数可得y与x呈正相关关系,故A错误;
由数据可得: ,
故经验回归直线经过点,故B错误;
由,
则,故经验回归方程为,故C错误;
由于样本相关系数较接近于1,则y与x的线性相关程度较强,故D正确;
故选:D.
20.(24-25高二下·黑龙江佳木斯桦南县第一中学·期末)(多选)下列说法正确的是( )
A.决定系数越大,表示残差平方和越大,即模型的拟合效果越差
B.经验回归方程相对于点的残差为
C.根据分类变量x与y的成对样本数据,计算得到,则依据的独立性检验,可以认为“x与y没有关联”
D.样本相关系数r的绝对值越接近1,成对样本数据的线性相关程度越强
【答案】BD
【分析】对于A,由决定系数的定义可作出判断;B选项,,B正确;C选项,零假设为:x与y相互独立,由卡方值大于6.635得到不成立,得到结论;D选项,由相关系数的定义作出判断.
【详解】对于A,决定系数越大,表示残差平方和越小,即模型的拟合效果越好,故A不正确.
对于B,残差为,故B正确,
对于C,零假设为:x与y相互独立,即x与y没有关联,
由可知依据的独立性检验,
所以有充分证据推断不成立,可以认为“x与y有关联”,选项C不正确.
对于D,当越接近1时,成对样本数据的线性相关程度越强,选项D正确.
故选:BD
(
地
城
考点0
3
误差分析
)
21.(24-25·湖北楚天协作体·期末)(多选)下列说法正确的是( )
A.数据的第二十五百分位数是1
B.若用不同的模型拟合同一组数据,则决定系数越大的模型,拟合效果越好
C.已知随机变量,若,则
D.依据分类变量与的成对样本数据,计算得到,则依据的独立性检验,可以认为两个变量没有关联
【答案】ABC
【分析】根据百分位数的计算公式即可求解A;根据决定系数的定义即可求解B;根据二项分布的方差和期望的公式即可求解C;根据独立性检验的性质即可求解D.
【详解】对于A:8个数从小到大排列,因为,所以取第2个数与第3个数的平均数,得,故A正确;
对于B:由决定系数越大,残差平方和越小,即模型的拟合效果越好,故B正确;
对于C:由二项分布的均值与方差公式可得,可解得,故C正确;
对于D:由,依据的独立性检验,可以认为两个变量有关联,故D错误.
故选:ABC.
22.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【分析】(1)根据经验回归方程过样本中心点,先由经验回归方程和的平均数,求出的平均数,再根据平均数的定义求出;然后根据残差定义计算8月份的残差.
(2)先求出残差平方和,再代入公式计算,最后与非线性回归模型的比较大小,即可判断.
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
23.(24-25高二下·辽宁县域重点高中·期末)(多选)为了解某种药物的疗效,患者服用该药物,短时间内血液中药物浓度达到峰值,研究员统计了血液中药物浓度(单位:)与代谢时间(单位:)的数据,如下表所示:
0
1
2
3
4
5
6
150
143
132
123
114
104
95
根据表中数据可得回归方程为,则下列说法正确的是( )
附:回归直线中斜率和截距的最小二乘估计公式分别为,,相关系数.
A.
B.当时,对应样本点的残差为0.32
C.若再增加一组数据,则关于的回归直线的斜率变大
D.若删去数据,则与的相关系数不变
【答案】ABD
【分析】求出的平均值,即可求出,判断A;根据残差的计算判断B;根据最小二乘估计公式以及相关系数公式可判断CD.
【详解】由题意知,
,
所以,A项正确;
由上可知,当时,,
则残差为,B项正确;
再增加一组数据后,,,所以的值不变,
的值也不变,故关于的回归直线的斜率不变,C项错误;
删去数据后,,,所以的值不变,
的值也不变,因此与的相关系数不变,D项正确.
故选:ABD
24.(24-25高二下·福建泉州第五中学·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【分析】利用线性回归方程必过样本中心点这个性质来求解,结合残差为实际值减去预测值,即可作出判断.
【详解】由回归直线方程为必过点,所以,
由于去掉两个样本点和后,
得到新的样本数据的平均数为:
因为新的回归直线的斜率为3,根据必过点,
可得回归直线方程为:,即,
当时,,
在新的经验回归方程下,样本的残差为,
故选:B.
25.(24-25高二下·山东菏泽·期末)(多选)下列命题正确的有( )
A.在两个随机变量的线性相关关系中,若相关系数越大,则样本的线性相关性越强
B.若用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好
C.若以模型去拟合某组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别为3,4
D.一组成对数据,增加一对数据,其中,,线性回归方程不变(其中)
【答案】BCD
【分析】根据回归方程、残差、相关系数、非线性回归等知识对选项进行分析,从而确定正确答案.
【详解】对于A,相关系数的绝对值越大,样本的线性相关性越强,故A错误;
对于B,残差平方和越小的模型,拟合的效果越好,B选项正确;
对于C, 由,得,故C确.
对于D,新增加的数据是原数据的样本中心点,
根据线性回归方程的性质,回归直线过,增加这样一个点,样本中心点不变,
计算回归系数和的公式中,分子分母的计算结果也不会改变,所以线性回归方程不变,故D正确.
故选:BCD.
26.(24-25高二下·海南定安县·期末)已知关于的经验回归方程为,则样本点的残差为( )
A.-2 B.-1 C.1 D.2
【答案】B
【分析】根据给定条件,求出预测值,进而求出残差.
【详解】当时,,所以样本点的残差为.
故选:B
27.(24-25高二下·福建三明·期末)(多选)下列命题中,正确的是( )
A.在经验回归方程中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
B.两个变量线性相关性越强,则相关系数r就越接近于1
C.独立性检验中,根据分类变量X与Y的成对样本数据计算得到,推断零假设不成立,即认为X与Y有关联,此推断犯错误的概率不大于0.05
D.用决定系数比较两个回归模型的拟合效果时,越大,表示残差平方和越大,模型拟合效果越差
【答案】AC
【分析】根据回归方程的意义判断A的真假;根据线性相关系数的意义判断B的真假;根据独立性检验的意义判断C的真假;根据决定系数的意义判断D的真假.
【详解】根据回归方程的意义可知A正确;
两个变量线性相关性越强,则相关系数的绝对值就越接近于1,故B错误;
根据独立性检验的意义,可得C正确;
因为决定系数越大,模型拟合效果越好,故D错误.
故选:AC
28.(24-25高二下·河北石家庄·期末)一组实验数据如下:
2
5
8
9
11
12
10
8
8
7
(1)根据表中数据,计算,.
(2)根据表中数据计算样本相关系数.(保留两位小数).
(3)由数据用最小二乘法可得线性回归方程为,统计学中常用决定系数刻画回归效果,例如假设,就说明响应变量的差异有由解释变量引起.请计算本题的(保留两位小数),并指出本题中响应变量的差异在多大程度上由解释变量引起.
(附:,,,)
【答案】(1),,
(2)
(3),响应变量的差异有由解释变量引起.
【分析】(1)根据平均数的计算即可求解,
(2)根据相关系数的计算公式即可求解,
(3)根据所给公式,代入即可求解.
【详解】(1),,
(2),
(3)由于,
响应变量的差异有由解释变量引起.
29.(24-25高二下·山东泰安·期末)(多选)下列说法中正确的是( )
A.如果由一组样本数据,,…得到的经验回归方程是,那么经验回归直线至少经过点,,…中的一个
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和0.3
【答案】BCD
【分析】ABC选项,根据线性回归方程,回归分析中决定系数,残差图的相关概念对选项一一判断;D选项,变形后对照系数,得到,,所以c,k的值分别是和0.3,D正确.
【详解】A选项,可能不经过点,,…中的任何一个,A错误;
B选项,回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,B正确;
C选项,残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,
说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高,C正确;
D选项,中,两边取对数,设,得,所以,,
所以c,k的值分别是和0.3,D正确.
故选:BCD
30.(24-25高二下·安徽蚌埠·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
【答案】C
【分析】根据各个变量的意义作出判断,得到答案.
【详解】A选项,残差图带状区域越宽,说明误差大,模型的拟合效果越差,A错误;
B选项,残差平方和越小,模型的拟合效果越好,B错误;
C选项,决定系数越大,模型的拟合效果越好,C正确;
D选项,相关系数越大,说明两个变量线性相关性越强,与模型的拟合效果无关,D错误.
故选:C
(
地
城
考点0
4
非线性回归
)
31.(24-25高二下·河北唐山滦南县·期末)(多选)下列说法中正确的是( )
A.对于独立性检验,的值越大,说明两事件相关程度越大
B.以模型去拟合一组数据时,为了求出经验回归方程,设,将其变换后得到,则的值分别是和
C.若变量和之间的样本相关系数为,则变量和之间具有很强的线性相关性,而且是负相关
D.通过经验回归方程及系数可以精确反映变量的取值和变化趋势
【答案】ABC
【分析】根据独立性检验、非线性回归方程以及回归直线方程相关知识逐项进行判断.
【详解】对于,根据独立性检验的性质知,的值越大,说明两个事件的相关程度越大,A正确;
对于B,由,两边取自然对数得,设,则,
由,得,则,B正确;
对于C,由变量和间的样本相关系数,得变量和间具有很强的线性相关性,且是负相关,C正确;
对于D,通过经验回归及系数,可以预测变量的取值和变化趋势,D错误.
故选:ABC
32.(24-25高二下·广东广州越秀区·期末)(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
【答案】AD
【分析】利用非线性转化为线性,即可求线性回归方程,通过系数对比即可得判断.
【详解】由两边取自然对数得:,
由变换后得到线性回归方程,
则,即,故AD正确,BC错误;
故选:AD.
33.(24-25高二下·山东淄博·期末)(多选)以下结论正确的是( )
A.在线性回归分析中,样本相关系数的值越大,变量间的线性相关性越强
B.经验回归直线一定经过点
C.一组数据,,,,的经验回归方程为,则当时,残差为1
D.以模型去拟合一组数据时,为了利用一元线性回归模型估计参数,,设,将其变换后得到线性方程,则,的值分别是和0.4
【答案】BCD
【分析】利用相关系数的性质判断A,利用回归直线的性质判断B,先求出样本中心点,进而求出回归方程,再利用残差的定义判断C,对合理变形,得到,最后对照系数求解参数值判断D即可.
【详解】对于A,由相关系数性质得,当越接近1时,
变量间的线性相关性越强,故A错误,
对于B,由回归直线性质得回归直线一定经过点,故B正确,
对于C,由题意得,,
将代入中,得到,解得,
则回归方程为,当时,,
由残差公式得残差为,故C正确,
对于D,由题意得,且设,
则,
而,得到,,解得,
则,的值分别是和0.4,故D正确.
故选:BCD
34.(24-25高二下·山东枣庄·期末)(多选)某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元
1
2
3
4
5
y/千人
5
6
8.1
9
14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
【答案】BC
【分析】利用题目的数据,得出,的最小二乘估计,即可得出回归方程,逐个逐项判断即可.
【详解】由题可知,令,,,
,
所以,
,故B正确;
所以,
令,,
所以曲线C不经过点,故A错误;
当时,千人,
所以若投入广告费9万元,则每晚客流量为万人,
因为每晚最多能接纳10万人,所以会超过夜市接纳能力,故C正确;
由可知,当时,,
所以当广告费从5万元增加到6万元,客流量增加千人,故D错误.
故选:BC
35.(24-25高二下·河北石家庄正中实验中学·期末)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
【答案】(1);
(2)乙建立的回归模型拟合效果更好.
【分析】(1)对两边取对数得,令,利用最小二乘法可求得,由此可得回归方程;
(2)根据公式计算可得相关指数,由此可得结论;
【详解】(1)将两边取对数得:,
令,则,
因为,
所以根据最小二乘估计可知:,
所以,
所以回归方程为,即.
(2)甲建立的回归模型的.
所以乙建立的回归模型拟合效果更好.
36.(24-25高二下·贵州贵州大学附属中学·期末)(多选)下列说法正确的是( )
A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数
B.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好
C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则,的值分别是4和0.3
D.某人在10次答题中,答对题数为,,则答对7题的概率最大.
【答案】ABD
【分析】根据频率分布直方图的特征判断样本的分布特征,即可判断A,根据残差的意义,即可判断B,根据转化关系,即可判断C,比较概率,列出不等式,即可判断D.
【详解】A. 对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数,故A正确;
B. 在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故B正确;,
C.由,设,则,即,
所以,,即,故C错误;
D.由题意可知,,
设答对道题的概率最大,所以
,解得:,
得,所以答对7题的概率最大,故D正确.
故选:ABD
37.(24-25高二下·广东广州天河区·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为______.为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数______.
(参考公式:决定系数,参考数据:);
【答案】
【分析】将两边同时取对数可得,结合所给经验回归方程求出,由所给参考数据求出,即可求出决定系数.
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
38.(24-25高二下·河北石家庄·期末)一个调查学生记忆力的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t(分钟)和答对人数y的统计表格如下:
时间t(分钟)
10
20
30
40
50
60
70
80
90
100
答对人数y
98
70
52
36
30
20
15
11
5
5
1.99
1.85
1.72
1.56
1.48
1.30
1.18
1.04
0.7
0.7
时间t与答对人数y和的散点图如下:
附:,,,,,对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为:,.请根据表格数据回答下列问题:
(1)根据散点图判断,与哪个更适宜作为线性回归模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y与的回归方程;(a,b或c,d的计算结果均保留到小数点后三位)
(3)根据(2)请估算要想答对人数不少于75人,至多间隔多少分钟需要重新记忆一遍.(结果四舍五入保留整数)(参考数据:,).
【答案】(1)更适宜作为线性回归类型;
(2);
(3)19分钟.
【分析】(1)根据给定的两个散点图即可得答案.
(2)先求得的线性回归方程,再将对数式化为指数式即得与的回归方程.
(3))解不等式 即可得答案.
【详解】(1)观察两个散点图知,更适宜作为线性回归类型.
(2)依题意,,,
由(1)知,,根据最小二乘法得:
,
,于是,
因此y与的回归方程.
(3)依题意,,即,则,
而,于是,解得,
所以要想答对人数不少于75人,至多间隔19分钟需要重新记忆一遍.
39.(24-25高二下·山东菏泽·期末)(多选)假设变量与变量的对观测数据为,两个变量满足一元线性回归模型要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,若某汽车品牌从2020~2024年的年销量为(万辆),其中年份对应的代码为,如表,
年份代码
1
2
3
4
5
销量(万辆)
4
9
14
18
25
根据散点图和相关系数判断,它们之间具有较强的线性相关关系,可以用线性回归模型描述
令变量,且变量与变量满足一元线性回归模型则下列结论正确的有( )
A. B.
C. D.2025年的年销售量约为34.4万辆
【答案】AC
【分析】利用线性回归方程待定系数公式,再由变量的线性代换关系进行计算,最后恒过样本点,就可得到线性回归方程.
【详解】由可得:,
同理由,可得,
根据公式,故A正确;B错误;
由表格中数据可得:,
,
,
所以,
由于,所以与的回归方程必过原点,,
又由于,代入得:
,整理得:,故C正确;
当,即表示2025年,此时,
所以2025年的年销售量约为万辆,故D错误;
故选:AC.
40.(24-25高二下·湖北五州·期末)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
【答案】(1)
(2),约为万元
【分析】(1)根据所给数据求出,,,,,即可求出相关系数;
(2)根据(1)的结论,可判断选择模型②,令,求出关于的线性回归方程,即可求出关于的经验方程,再代入计算可得.
【详解】(1)因为,
,
所以,
,
,
模型①中,相关系数,
(2)因为,所以选择模型②,
令,先建立关于的线性回归方程,
由于,
,
所以关于的线性回归方程为,
即,
当时,(万元),
所以若投入经费万元,收益约为万元.
1 / 8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
重难点05 线性回归四大考点重难突破
4大高频考点概览
考点01线性回归
考点02相关系数
考点03误差分析
考点04 非线性回归
(
地
城
考点01
线性回归
)1.(24-25高二下·湖南·期末)(多选)下列说法正确的是( )
A.若,则
B.连续型随机变量服从正态分布,若,则
C.若事件A,B满足:,,且,则事件A,B相互独立
D.已知一组成对数据的经验回归方程为,则
2.某学术平台引入智能检测系统对所收集的文本进行筛查.检测系统对AI生成文本的识别准确率为98%,对人类撰写文本的识别准确率为96.5%.检测系统对所收集的文本进行筛查时,会对每篇文本输出一个“AI生成概率”得分y(分).y与文本长度x(字)可以用一元线性回归模型来刻画,其线性回归方程为,且,,已知该平台中15%的文本由AI生成.
(1)求回归系数;
(2)从该平台随机选取一篇文本,求该文本被检测系统识别为人类撰写文本的概率(精确到0.001);
(3)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数):
文本真实性
检测结果
总计
识别为AI生成(篇)
识别为人类撰写(篇)
真实AI生成(篇)
真实人类撰写(篇)
总计
200
依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异?
参考公式:
提示:独立性检验中常用的小概率值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3.(24-25高二下·湖南名校联考联合体·期末)(多选)下列说法正确的是( )
A.相关变量的线性回归方程为,若样本点中心为,则
B.的展开式中二项式系数和为32
C.在独立性检验中,随机变量的观测值越小,“认为两个变量有关”这种判断犯错误的概率越小
D.甲、乙两个模型的决定系数分别约为0.95和0.8,则模型甲的拟合效果更好
4.(24-25高二下·江苏扬州·期末)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则__________.
参考公式:.
5.(24-25高二下·河北沧州运东四校联考·期末)2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
6.(24-25高二下·黑龙江双鸭山第一中学·期末)如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
7.调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
8.(24-25高二下·广东茂名电白区·期末)(多选)下列说法正确的是( )
A.设有一个经验回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位
B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好
9.某科技公司研发了一项新产品,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价(千元)和销售量(千件)之间的一组数据如下表所示:
月份
1
2
3
4
5
6
销售单价
销售量
(1)试根据1至5月份的数据,建立关于的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程,其中.
参考数据:,.
10.已知变量与负相关,且由观测数据算得样本平均数,则由该观测的数据算得的线性回归方程可能是( )
A. B.
C. D.
(
地
城
考点02
相关系数
)
11.我国某农业大学植物研究所相关人员为了解仙人掌的植株高度(单位:),与其根茎长度(单位:)之间是否存在线性相关的关系,通过采样和数据记录得到如下数据:
样本编号
1
2
3
4
根茎长度
10
12
14
16
植株高度
62
86
112
132
参考数据:,,.
(1)由上表数据计算相关系数,并说明是否可用线性回归模型拟合与的关系(若,则可用线性回归模型拟合,计算结果精确到0.001);
(2)求y关于x的经验回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,
12.(24-25·福建福州第三中学·期末)(多选)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
13.(24-25·湖南部分学校·期末)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
14.(24-25高二下·黑龙江实验中学·期末)(多选)下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
15.(24-25高二下·湖南衡南县第一中学·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
16.(24-25高二下·河北唐山滦南县·期末)某人统计了2020—2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;(样本相关系数保留三位小数,统计中用样本相关系数来衡量两个变量之间线性关系的强弱.相应于变量的取值,变量的观测值为,两个变量的样本相关系数的计算公式为.统计学认为,对于变量,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱)
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,.
17.(24-25高二下·山东滨州·期末)已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
18.(24-25高二下·山东威海·期末)(多选)某位同学10次考试的物理成绩与数学成绩如下表所示:
数学成绩x
76
82
72
87
93
78
89
66
81
76
物理成绩y
80
87
75
86
100
79
93
68
85
77
已知y与x线性相关,计算可得,,回归直线方程为,则( )
A.y与x正相关
B.
C.相关系数
D.若该同学第11次考试的数学成绩为80,物理成绩为83,则以这11次成绩重新计算,得到的回归直线方程不变
19.(24-25高二下·广东广州越秀区·期末)随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
20.(24-25高二下·黑龙江佳木斯桦南县第一中学·期末)(多选)下列说法正确的是( )
A.决定系数越大,表示残差平方和越大,即模型的拟合效果越差
B.经验回归方程相对于点的残差为
C.根据分类变量x与y的成对样本数据,计算得到,则依据的独立性检验,可以认为“x与y没有关联”
D.样本相关系数r的绝对值越接近1,成对样本数据的线性相关程度越强
(
地
城
考点0
3
误差分析
)
21.(24-25·湖北楚天协作体·期末)(多选)下列说法正确的是( )
A.数据的第二十五百分位数是1
B.若用不同的模型拟合同一组数据,则决定系数越大的模型,拟合效果越好
C.已知随机变量,若,则
D.依据分类变量与的成对样本数据,计算得到,则依据的独立性检验,可以认为两个变量没有关联
22.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
23.(24-25高二下·辽宁县域重点高中·期末)(多选)为了解某种药物的疗效,患者服用该药物,短时间内血液中药物浓度达到峰值,研究员统计了血液中药物浓度(单位:)与代谢时间(单位:)的数据,如下表所示:
0
1
2
3
4
5
6
150
143
132
123
114
104
95
根据表中数据可得回归方程为,则下列说法正确的是( )
附:回归直线中斜率和截距的最小二乘估计公式分别为,,相关系数.
A.
B.当时,对应样本点的残差为0.32
C.若再增加一组数据,则关于的回归直线的斜率变大
D.若删去数据,则与的相关系数不变
24.(24-25高二下·福建泉州第五中学·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
25.(24-25高二下·山东菏泽·期末)(多选)下列命题正确的有( )
A.在两个随机变量的线性相关关系中,若相关系数越大,则样本的线性相关性越强
B.若用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好
C.若以模型去拟合某组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别为3,4
D.一组成对数据,增加一对数据,其中,,线性回归方程不变(其中)
26.(24-25高二下·海南定安县·期末)已知关于的经验回归方程为,则样本点的残差为( )
A.-2 B.-1 C.1 D.2
27.(24-25高二下·福建三明·期末)(多选)下列命题中,正确的是( )
A.在经验回归方程中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
B.两个变量线性相关性越强,则相关系数r就越接近于1
C.独立性检验中,根据分类变量X与Y的成对样本数据计算得到,推断零假设不成立,即认为X与Y有关联,此推断犯错误的概率不大于0.05
D.用决定系数比较两个回归模型的拟合效果时,越大,表示残差平方和越大,模型拟合效果越差
28.(24-25高二下·河北石家庄·期末)一组实验数据如下:
2
5
8
9
11
12
10
8
8
7
(1)根据表中数据,计算,.
(2)根据表中数据计算样本相关系数.(保留两位小数).
(3)由数据用最小二乘法可得线性回归方程为,统计学中常用决定系数刻画回归效果,例如假设,就说明响应变量的差异有由解释变量引起.请计算本题的(保留两位小数),并指出本题中响应变量的差异在多大程度上由解释变量引起.
(附:,,,)
29.(24-25高二下·山东泰安·期末)(多选)下列说法中正确的是( )
A.如果由一组样本数据,,…得到的经验回归方程是,那么经验回归直线至少经过点,,…中的一个
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.残差图是一种散点图,若残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则c,k的值分别是和0.3
30.(24-25高二下·安徽蚌埠·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
(
地
城
考点0
4
非线性回归
)
31.(24-25高二下·河北唐山滦南县·期末)(多选)下列说法中正确的是( )
A.对于独立性检验,的值越大,说明两事件相关程度越大
B.以模型去拟合一组数据时,为了求出经验回归方程,设,将其变换后得到,则的值分别是和
C.若变量和之间的样本相关系数为,则变量和之间具有很强的线性相关性,而且是负相关
D.通过经验回归方程及系数可以精确反映变量的取值和变化趋势
32.(24-25高二下·广东广州越秀区·期末)(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
33.(24-25高二下·山东淄博·期末)(多选)以下结论正确的是( )
A.在线性回归分析中,样本相关系数的值越大,变量间的线性相关性越强
B.经验回归直线一定经过点
C.一组数据,,,,的经验回归方程为,则当时,残差为1
D.以模型去拟合一组数据时,为了利用一元线性回归模型估计参数,,设,将其变换后得到线性方程,则,的值分别是和0.4
34.(24-25高二下·山东枣庄·期末)(多选)某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元
1
2
3
4
5
y/千人
5
6
8.1
9
14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
35.(24-25高二下·河北石家庄正中实验中学·期末)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
36.(24-25高二下·贵州贵州大学附属中学·期末)(多选)下列说法正确的是( )
A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数
B.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好
C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则,的值分别是4和0.3
D.某人在10次答题中,答对题数为,,则答对7题的概率最大.
37.(24-25高二下·广东广州天河区·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为______.为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数______.
(参考公式:决定系数,参考数据:);
38.(24-25高二下·河北石家庄·期末)一个调查学生记忆力的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t(分钟)和答对人数y的统计表格如下:
时间t(分钟)
10
20
30
40
50
60
70
80
90
100
答对人数y
98
70
52
36
30
20
15
11
5
5
1.99
1.85
1.72
1.56
1.48
1.30
1.18
1.04
0.7
0.7
时间t与答对人数y和的散点图如下:
附:,,,,,对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为:,.请根据表格数据回答下列问题:
(1)根据散点图判断,与哪个更适宜作为线性回归模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y与的回归方程;(a,b或c,d的计算结果均保留到小数点后三位)
(3)根据(2)请估算要想答对人数不少于75人,至多间隔多少分钟需要重新记忆一遍.(结果四舍五入保留整数)(参考数据:,).
39.(24-25高二下·山东菏泽·期末)(多选)假设变量与变量的对观测数据为,两个变量满足一元线性回归模型要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,若某汽车品牌从2020~2024年的年销量为(万辆),其中年份对应的代码为,如表,
年份代码
1
2
3
4
5
销量(万辆)
4
9
14
18
25
根据散点图和相关系数判断,它们之间具有较强的线性相关关系,可以用线性回归模型描述
令变量,且变量与变量满足一元线性回归模型则下列结论正确的有( )
A. B.
C. D.2025年的年销售量约为34.4万辆
40.(24-25高二下·湖北五州·期末)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
1 / 8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。