内容正文:
线性回归、非线性回归、回归分析与独立性检验专项训练
线性回归、非线性回归、回归分析与独立性检验专项训练
考点一 线性回归
1.(24-25高三下·湖南常德·开学考试)蚊虫的繁殖生长与气温有密切关系,某地科研机构通过观测数据得到该地蚊虫密度与年平均气温(单位:)的关系可用模型来拟合,利用观测数据求得,且,若,则的最大值为( )
A. B. C. D.
【答案】D
【详解】由,得,
由点在回归直线上,得,解得,
所以,
当且仅当时取等号,所以的最大值为.
故选:D.
2.(24-25高三上·广东·期末)已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为则b的值为( )
x
6
8
9
10
12
y
6
5
4
3
2
A.-0.6 B.-0.7 C.-0.8 D.-0.9
【答案】B
【详解】由表可知:,,
因样本中心点必在线性回归直线上,故有,
代入得:,解得.
故选:B.
3.(24-25高三上·天津·期末)已知具有线性相关关系的变量,,设其样本点为(),经验回归方程为,若,,则( )
A. B. C. D.
【答案】B
【详解】依题意,,,
由经验回归方程为经过点,得.
故选:B
4.(2025·江西·一模)已知变量和的统计数据如下表:
400
500
600
700
800
3
4
6
6
7
若线性相关,且经验回归方程为,则据此可以预测当时,( )
A.18.2 B.19.2 C.20.2 D.21.2
【答案】B
【详解】,,
因为在经验回归直线上,
所以,解得,即,
当时,.
故选:B.
5.(2025·福建厦门·一模·多选)药物临床试验是验证新药有效性和安全性必不可少的步骤.在某新药的临床实验中,志愿者摄入一定量药物后,在较短时间内,血液中药物浓度将达到峰值,当血液中药物浓度下降至峰值浓度的20%时,需要立刻补充药物.已知血液中该药物的峰值浓度为120mg/L,为探究该药物在人体中的代谢情况,研究人员统计了血液中药物浓度y(mg/L)与代谢时间x(h)的相关数据,如下表所示:
x
0
1
2
3
4
5
6
7
8
y
120
110
103
93
82
68
59
47
38
根据表中数据可得到经验回归方程,则( )
A. B.变量y与x的相关系数
C.当时,残差为-1.5 D.代谢约10小时后才需要补充药物
【答案】AC
【详解】因为样本中心点在直线上,所以,A选项正确;
血液中药物浓度y(mg/L)随代谢时间x(h)的增大而减小,所以变量y与x的相关系数,B选项错误;
当时,,残差为,C选项正确;
令,解得,D选项错误;综上所述,应选AC.
故选:AC.
6.(24-25高三下·湖南·阶段练习)某蔬菜种植基地最近五年的年投资成本(万元)和年利润(万元)的统计表如下:
10
11
12
13
14
11
12
19
若关于的线性回归方程为,则的平均数 .
【答案】/
【详解】因为线性回归方程过样本中心点,将代入得
故答案为:
7.(24-25高三下·广西桂林·开学考试)春节将至,某商家统计了去年某商品的日营销费用x(单位:百元)与日销售量y(单位:百件),为今年的营销方案制定提供相关的数据参考,得到的数据如下表:
日营销费用x/百元
2
3
4
5
6
日销售量y/百件
1
1.1
1.5
1.8
2.1
已知y与x线性相关.
(1)根据上表数据,求y关于x的经验回归方程;
(2)请利用(1)中的经验回归方程,试估计当今的日销售费用为1000元时,日销售量为多少百件.
参考公式:对于一组具有线性相关关系的数据().其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)3.24百件
【详解】(1),
,
则,
所以
故关于的经验回归方程为.
(2)将代入,得,
故当今年的日营销费用为1000元时,日销售量约为3.24百件.
8.(24-25高三上·山东青岛·期末)某种产品每吨成本7万元,其销售价格(万元/吨)和销售量(吨)的变化情况如下表:
8
9
10
9
(1)若与线性相关,求关于的经验回归方程;
(2)根据(1)的结论,预测要使该产品销售利润最大,销售价格是多少?(结果精确到)
附:(参考公式)
【答案】(1);
(2)万元/吨.
【详解】(1)依题意,,,
,
因此,
所以关于的经验回归方程为.
(2)依题意,销售利润为,
当时,取得最大值,
所以预测销售价格是万元/吨时,该产品销售利润最大.
考点二 非线性回归
1.(24-25高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【答案】D
【详解】由表格中数据,得,
则,解得,因此,
由两边取对数,得,又,
所以,即.
故选:D
2.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】B
【详解】令,则,
又,由,得,
因为,所以
则,
下午4点时对应的是,
可得,
故选:B
3.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
【答案】
【详解】由已知,
设,则,
由回归直线性质可得在直线上,
又,,
所以点在直线上,故点在曲线上.
故答案为:.
4.(23-24高二下·广东肇庆·期末)用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【答案】
【详解】因为,两边取自然对数可得,
令,可得,又,
所以,,所以,
所以.
故答案为:
5.(23-24高二下·河南南阳·期中)已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则 .(参考数据:)
【答案】0.3
【详解】由题意知,解得,
所以,
由,得,所以,
则.
故答案为:0.3
6.(24-25高三上·辽宁沈阳·阶段练习)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度的8组观测数据,制成图l所示的散点图,现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;
25
2.9
646
168
422688
50.4
70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出关于的回归方程.附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)模型①;
(2)
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
于是, ,
因此关于的线性回归方程为,即,
所以产卵数y关于温度x的回归方程为.
7.(24-25高三上·山西·期末)随着国内人均消费水平的提高,居民的运动健身意识不断增强,加之健康与解压需求的增长,使得健身器材行业发展趋势强劲,下表为年中国健身器材市场规模(单位:百亿元),其中年年对应的代码依次为.
年份代码
中国健身器材市场规模
(1)由上表数据可知,可用指数型函数模型拟合与的关系,请建立关于的归方程(,的值精确到);
(2)数据显示年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从年购买过体育用品类的中国消费者中随机抽取人,记购买过运动防护类的消费者人数为,求的分布列及数学期望.
参考数据:
其中,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)分布列见解析,
【详解】(1)两边同时取自然对数得.
设,所以,
因为,,,
所以.
把代入,得,
可得,.
所以,
即关于的回归方程为.
(2)由题意,得的所有可能取值依次为,,,,,且,
,,
,,
,
所以的分布列为
0
1
2
3
4
.
8.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
【答案】(1)亿人
(2),
【详解】(1)设,则,
因为,,,
所以,,
所以,与的拟合函数关系式为
当时,,
则估计年我国在线直播生活购物用户的规模为亿人.
(2)由题意知,所以,,
,
由,可得,
因为,解得,
所以,,.
9.(24-25高三上·重庆·阶段练习)一年一度的“双11”促销活动落下帷幕,各大电商平台发布的数据显示,在消费品以旧换新、家电政府补贴等促消费政策和活动的带动下,消费市场潜能加速释放,带动相关商品销售保持增长. 经过调研,得到2019年到2024年“双11”活动当天某电商平台线上日销售额(单位: 百亿元)与年份(第年)的6组数据(时间变量的取值依次为),对数据进行处理,得到如下散点图(图1)及一些统计量的值. 其中.
48.7
3.5
91
1204
1.1
9.4
388.1
分别用两种模型:①;②进行拟合,得到相应的回归方程,并进行残差分析,得到如图所示的残差图(图2)(残差值真实值预测值).
(1)根据题中信息,通过残差图比较模型①,②的拟合效果,应选择哪一个模型进行拟合?请说明理由;
(2)根据(1)中所选模型,
(i)求出关于的经验回归方程(系数精确到0.1);
(ⅱ)若该电商平台每年活动当天线上日销售额与当日营销成本及年份存在线性关系: ,则在第几年活动当日营销成本的预测值最大?
参考公式: ;参考数据:.
【答案】(1)应选择模型②,理由见详解;
(2)①;②第12年活动当日营销成本的预测值最大.
【详解】(1)由残差图可知模型①的残差值比较分散和远离横轴,所以模型①平方和大于模型②的残差平方和,
所以应选择模型②.
(2)(i)对于模型②:,
令,可得,
则,
可得,所以关于的经验回归方程为;
(ⅱ)由(i)可得:,整理可得,
,则,
令,解得;令,解得;
可知在内单调递增,在内单调递减,
所以当时,取到最大值,即取得最大值,
所以第12年活动当日营销成本的预测值最大.
10.(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
考点三 相关分析与回归分析
1.(24-25高三上·天津·期末)有一散点图如图所示,在六组数据中去掉B点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量x,y正相关
B.相关系数r的绝对值更接近于0
C.残差平方和变大
D.变量x与变量y相关性变强
【答案】D
【详解】由图可知,样本数据的两变量负相关,故A错误;
由图可知,点B相对其它点,偏离直线远,
故去掉B点后,回归直线效果更好,故BC错误,D正确.
故选:D.
2.(24-25高三下·山东·开学考试)某商品的广告支出费用单位:万元与销售量单位:万件之间的对应数据如表所示:
广告支出费用x
5
销售量y
15
18
根据表中数据可得回归直线方程为,则第三个样本点对应的残差为( )
A. B. C. D.
【答案】D
【详解】解:由已知,,,
所以,
于是,,
因此,第三个样本点对应的残差为
故选:D
3.(24-25高三下·山西·开学考试)已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】D
【详解】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:D.
4.(24-25高三上·河北沧州·期末)对具有线性相关的两个变量x和y进行统计分析时,得到一组样本数据,,,,,并由该组数据求得y关于x的回归方程为则样本点处的残差为( )
A.0.1 B. C.1.2 D.
【答案】B
【详解】因为,
.
所以将其代入,可得,
此时的预测值为,且观测值为2,
故残差为.
故选:B.
5.(24-25高三上·浙江嘉兴·期末·多选)下列说法正确的是( )
A.数据1,2,3,5,7,9的中位数大于平均数
B.数据0,1,0,1,0,1的标准差大于方差
C.在相关分析中,样本相关系数的绝对值越大,线性相关程度越强
D.在回归分析中,残差平方和越大,相应模型的拟合效果越好
【答案】BC
【详解】对于A,中位数为,平均数为:,所以中位数小于平均数,故A错误;
对于B,因为平均数为,则方差为,则标准差为,
,即标准差大于方差,故B正确;
对于C,在相关分析中,样本相关系数的绝对值越大,线性相关程度越强,C正确;
对于D,若残差平方和越大,则相应模型的拟合效果越差,故D错误.
故选:BC.
6.(24-25高三下·湖北武汉·开学考试·多选)下列说法正确的是( )
A.在使用经验回归方程进行预测时,经验回归方程只适用于所研究的样本的总体
B.决定系数,可以作为衡量一个模型拟合效果的指标,它越大说明拟合效果越好
C.样本相关系数,当时,表明成对样本数据间没有相关关系
D.经验回归方程相对于点的残差为
【答案】ABD
【详解】对于A,使用经验回归方程进行预测时,经验回归方程只适用于所研究的样本的总体,故A正确;
对于B,决定系数表示的是拟合效果,越大模型的拟合效果越好,故B正确;
对于C,当时,表示成对样本数据间的相关关系很小,并不是没有相关关系,故C错误;
对于D,残差为,故D正确.
7.(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
【答案】0.96
【详解】因为.
故答案为:.
8.(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
【答案】
【详解】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
9.(24-25高三上·河北·期末)某省级示范学校高三的一次考试后,为了调查学生们的偏科程度,在实验班随机抽取8名同学,比较物理成绩x与数学成绩y,得到下表(单位:分):
学生号
1
2
3
4
5
6
7
8
x
98
84
87
94
81
91
85
100
y
135
124
113
125
116
120
132
135
(1)求出y关于x的回归方程(精确到0.01);
(2)若相关系数r满足,则我们可以认为y与x之间具有较强的线性相关关系,计算这8名学生的物理成绩和数学成绩是否具有较强的线性相关关系?
(附:,,,,,相关系数)
【答案】(1);
(2)不具有较强的线性相关关系.
【详解】(1)设y关于x的回归方程为,由题设有,
,,
故所求回归方程为:;
(2)由,
故这8名学生的物理成绩和数学成绩不具有较强的线性相关关系.
10.(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
【答案】(1)
(2)答案见解析
【详解】(1)对取对数,得,设,,先建立关于的线性回归方程.
,,
,
模型②的回归方程为.
(2)由表格中的数据,有3040714607,即,
即,,
模型①的相关指数小于模型②的,说明回归模型②的拟合效果更好.
2021年时,,预测旅游人数为(万人).
考点四 独立性检验
1.(2025·上海·模拟预测)在研究“温度是否影响庄稼生长”时,对实验数据利用2×2列联表进行独立性检验,计算得实验数据的统计量的值为.已知,则( )
A.的值小于3.841,就有95%的把握认为“温度会影响庄稼生长”
B.的值大于3.841,就有95%的把握认为“温度会影响庄稼生长”
C.的值越大,说明实验数据的观测值与预测值的总体偏差越小
D.的值越小,说明实验数据的观测值与预测值的总体偏差越大
【答案】B
【详解】因为,则的值大于3.841,
就有95%的把握认为“温度会影响庄稼生长”,A选项错误,B选项正确;
的值的大小不能说明实验数据的观测值与预测值的总体偏差,C,D选项错误.
故选:B.
2.(24-25高三上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.789
附:
A.有99.5%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【答案】D
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
90
20
110
非篮球迷
60
30
90
合计
150
50
200
所以,
所以没有99%的把握认为是否是篮球迷与性别有关,进而没有99.5%的把握认为是否是篮球迷与性别有关,A,B选项错误;
又,最准确的是在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关,D选项正确.
故选:D.
3.(23-24高二下·广东中山·期末)某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男女市民各名,每位市民对大会给出满意或不满意的评价,得到下面列联表:
满意
不满意
男市民
女市民
当,时,若在的情况下,我们没有充分的证据推断男、女市民对大会的评价有差异,则的最小值为 .
附:,其中.
【答案】
【详解】由题意得,
并令,即,
近似解得,即,注意到,
故的最小值为.
故答案为:.
4.(2025·山东潍坊·模拟预测)截至2024年底,我国新能源汽车保有量达到3140万辆,占汽车总量的8.9%.某市调查了1000名汽车驾驶员对新能源汽车的偏好程度,调查结果如下:
偏好燃油汽车
偏好新能源汽车
合计
男性驾驶员
女性驾驶员
100
400
合计
400
1000
(1)请根据所给数据,完成上面的列联表,并判断是否有99.9%的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关;
(2)用频率估计概率,在所有参加调查的驾驶员中按男性和女性进行分层抽样,随机抽取10名驾驶员,再从这10名驾驶员中随机抽取2人进行问卷调查.
(ⅰ)抽取的2人中,求在有女性驾驶员参加问卷调查的条件下,恰有1名男性驾驶员也参加问卷调查的概率;
(ⅱ)记抽取的2人中,来自女性驾驶员且偏好新能源汽车的人数为X,求X的分布列和数学期望.
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)列联表见解析,有;
(2)(ⅰ);(ⅱ).
【详解】(1)列联表为:
偏好燃油汽车
偏好新能源汽车
合计
男性驾驶员
300
300
600
女性驾驶员
100
300
400
合计
400
600
1000
的观测值为,
所以有99.9%的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关.
(2)(ⅰ)抽取10名驾驶员中,女性驾驶员有(人),男性驾驶员有6人,
记有女性驾驶员参加问卷调查的事件为,恰有1名男性驾驶员也参加问卷调查的事件为,
,,
所以.
(ⅱ)用频率估计概率,女性驾驶员且偏好新能源汽车的概率为,偏好燃油汽车的概率为,
的所有可能值为0,1,2,
被抽取的4名女性驾驶员恰有人参加问卷调查的事件为,则,
参加问卷调查的女性驾驶员中偏好新能源汽车的人数恰好为人的事件为事件,
,,
;
;
,
所以的分布列为:
0
1
2
数学期望.
5.(24-25高三下·广西·开学考试)据统计,某地一特色饭店年月份共有个网上点餐订单,好评率为.为了提高服务质量,饭店进行了服务改进,已知服务改进后该饭店月份共有个网上点餐订单,其中好评订单有个.
(1)根据所给数据填写下列列联表,并依据小概率值的独立性检验,分析能否认为该饭店月份订单的好评与服务改进有关;
好评订单个数
非好评订单个数
合计
服务改进前
服务改进后
合计
(2)若从月、月这两个月网上点餐的订单中按照是否好评对总体进行分层,用分层随机抽样的方法抽取个订单分析顾客的意见,再从这个订单中随机抽取个订单进行电话访谈,求其中恰好有个订单为好评订单的概率.
附:.
【答案】(1)答案见解析,有关
(2)
【详解】(1)月份的订单中,好评订单有个,
非好评订单有个.
月份的订单中,非好评订单有个.
故补全的列联表如下表所示:
好评订单个数
非好评订单个数
合计
服务改进前
服务改进后
合计
零假设:该饭店月份订单的好评与服务改进无关.
,
所以根据小概率值的独立性检验,我们推断不成立,
即该饭店9月份订单的好评与服务改进有关,该推断犯错误的概率不超过.
(2)利用分层随机抽样的方法抽取个订单,则好评订单应抽取个,
非好评订单应抽取个.
设“从这个订单中随机抽取个订单进行电话访谈,其中恰好有个订单为好评订单”为事件,
则.
所以事件恰好有个订单为好评订单的概率为.
6.(2025·贵州黔东南·模拟预测)某工厂在改进生产技术后,针对新旧两种技术所生产的电子元件实施质量检测,现从每种技术生产的产品中各随机抽取容量为40的样本进行电压测试.已知标准电压为3.7V,误差绝对值不超过0.1V的电子元件为优品,超过0.1V的电子元件为良品.
(1)已知旧技术生产的40个样本电子元件的电压测量值近似服从正态分布的近似值为样本均值3.7,的近似值为样本标准差0.09.假设该工厂前期运用旧技术已生产电子元件40000个,试估算旧技术生产的电子元件电压测量值高于3.88V的有多少个?
(2)从新技术生产的40个样本电子元件中随机选取一个是优品的概率为.请补全以下列联表,依据小概率值的独立性检验,能否认为电子元件的优良情况与新旧技术有关?
优品
良品
合计
旧技术
新技术
合计
16
附:若随机变量服从正态分布,则,..
0.100
0.050
0.025
0.005
2.706
3.841
5.024
7.879
【答案】(1)910
(2)列联表见解析;能认为电子元件的优良情况与新旧技术有关.
【详解】(1)由题意,旧技术生产的电子元件的电压测量值,
所以.
所以旧技术生产的40000个电子元件中电压测量值高于3.88V的估计有:个.
(2)因为新技术生产电子元件优品的概率为,则新技术生产的40个样本元件中优品数为:,良品数为:;则旧技术生产的元件良品数为:,优品数为:,完成列联表如下:
优品
良品
合计
旧技术
28
12
40
新技术
36
4
40
合计
64
16
80
所以,
因为,所以依据小概率值的独立性检验,能认为电子元件的优良情况与新旧技术有关.
7.(24-25高三下·江苏扬州·期末)社会生活日新月异,看纸质书的人越来越少,更多的年轻人(35岁以下)喜欢阅读电子书籍,他们认为电子书不仅携带方便,而且可以随时随地阅读,而年长者(35岁以上)更喜欢阅读纸质书.现在某书店随机抽取60名顾客进行调查,得到了如下列联表:
年长者
年轻人
总计
喜欢阅读电子书
24
30
喜欢阅读纸质书
12
总计
60
(1)请将上面的列联表补充完整,并判断是否有的把握认为喜欢阅读电子书与年龄有关;
(2)若在年轻人中按照分层抽样的方法抽取了7人,为进一步了解情况,再从抽取的7人中随机抽取3人,求抽到喜欢阅读电子书的年轻人人数X的分布列及数学期望.
附:,其中
【答案】(1)答案见解析,有的把握认为喜欢阅读电子书与年龄有关
(2)分布列见解析,
【详解】(1)根据题意,可得如下的的列联表:
年长者
年轻人
总计
喜欢阅读电子书
6
24
30
喜欢阅读纸质书
12
18
30
总计
18
42
60
则,
所以有的把握认为喜欢阅读电子书与年龄有关.
(2)由题意可得抽到喜欢阅读电子书的年轻人数为4名,喜欢阅读纸质书的年轻人数为3名,
所以随机变量X的所有可能取值为0,1,2,3;
由超几何分布的分布列可得,,
,;
所以X的分布列为:
0
1
2
3
则期望为.
2
学科网(北京)股份有限公司
$$线性回归、非线性回归、回归分析与独立性检验专项训练
线性回归、非线性回归、回归分析与独立性检验专项训练
考点一 线性回归
1.(24-25高三下·湖南常德·开学考试)蚊虫的繁殖生长与气温有密切关系,某地科研机构通过观测数据得到该地蚊虫密度与年平均气温(单位:)的关系可用模型来拟合,利用观测数据求得,且,若,则的最大值为( )
A. B. C. D.
2.(24-25高三上·广东·期末)已知根据如下表所示的样本数据,用最小二乘法求得线性回归方程为则b的值为( )
x
6
8
9
10
12
y
6
5
4
3
2
A.-0.6 B.-0.7 C.-0.8 D.-0.9
3.(24-25高三上·天津·期末)已知具有线性相关关系的变量,,设其样本点为(),经验回归方程为,若,,则( )
A. B. C. D.
4.(2025·江西·一模)已知变量和的统计数据如下表:
400
500
600
700
800
3
4
6
6
7
若线性相关,且经验回归方程为,则据此可以预测当时,( )
A.18.2 B.19.2 C.20.2 D.21.2
5.(2025·福建厦门·一模·多选)药物临床试验是验证新药有效性和安全性必不可少的步骤.在某新药的临床实验中,志愿者摄入一定量药物后,在较短时间内,血液中药物浓度将达到峰值,当血液中药物浓度下降至峰值浓度的20%时,需要立刻补充药物.已知血液中该药物的峰值浓度为120mg/L,为探究该药物在人体中的代谢情况,研究人员统计了血液中药物浓度y(mg/L)与代谢时间x(h)的相关数据,如下表所示:
x
0
1
2
3
4
5
6
7
8
y
120
110
103
93
82
68
59
47
38
根据表中数据可得到经验回归方程,则( )
A. B.变量y与x的相关系数
C.当时,残差为-1.5 D.代谢约10小时后才需要补充药物
6.(24-25高三下·湖南·阶段练习)某蔬菜种植基地最近五年的年投资成本(万元)和年利润(万元)的统计表如下:
10
11
12
13
14
11
12
19
若关于的线性回归方程为,则的平均数 .
7.(24-25高三下·广西桂林·开学考试)春节将至,某商家统计了去年某商品的日营销费用x(单位:百元)与日销售量y(单位:百件),为今年的营销方案制定提供相关的数据参考,得到的数据如下表:
日营销费用x/百元
2
3
4
5
6
日销售量y/百件
1
1.1
1.5
1.8
2.1
已知y与x线性相关.
(1)根据上表数据,求y关于x的经验回归方程;
(2)请利用(1)中的经验回归方程,试估计当今的日销售费用为1000元时,日销售量为多少百件.
参考公式:对于一组具有线性相关关系的数据().其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
8.(24-25高三上·山东青岛·期末)某种产品每吨成本7万元,其销售价格(万元/吨)和销售量(吨)的变化情况如下表:
8
9
10
9
(1)若与线性相关,求关于的经验回归方程;
(2)根据(1)的结论,预测要使该产品销售利润最大,销售价格是多少?(结果精确到)
附:(参考公式)
考点二 非线性回归
1.(24-25高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
2.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
3.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
4.(23-24高二下·广东肇庆·期末)用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
5.(23-24高二下·河南南阳·期中)已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则 .(参考数据:)
6.(24-25高三上·辽宁沈阳·阶段练习)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度的8组观测数据,制成图l所示的散点图,现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;
25
2.9
646
168
422688
50.4
70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出关于的回归方程.附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,,
7.(24-25高三上·山西·期末)随着国内人均消费水平的提高,居民的运动健身意识不断增强,加之健康与解压需求的增长,使得健身器材行业发展趋势强劲,下表为年中国健身器材市场规模(单位:百亿元),其中年年对应的代码依次为.
年份代码
中国健身器材市场规模
(1)由上表数据可知,可用指数型函数模型拟合与的关系,请建立关于的归方程(,的值精确到);
(2)数据显示年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从年购买过体育用品类的中国消费者中随机抽取人,记购买过运动防护类的消费者人数为,求的分布列及数学期望.
参考数据:
其中,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
8.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
9.(24-25高三上·重庆·阶段练习)一年一度的“双11”促销活动落下帷幕,各大电商平台发布的数据显示,在消费品以旧换新、家电政府补贴等促消费政策和活动的带动下,消费市场潜能加速释放,带动相关商品销售保持增长. 经过调研,得到2019年到2024年“双11”活动当天某电商平台线上日销售额(单位: 百亿元)与年份(第年)的6组数据(时间变量的取值依次为),对数据进行处理,得到如下散点图(图1)及一些统计量的值. 其中.
48.7
3.5
91
1204
1.1
9.4
388.1
分别用两种模型:①;②进行拟合,得到相应的回归方程,并进行残差分析,得到如图所示的残差图(图2)(残差值真实值预测值).
(1)根据题中信息,通过残差图比较模型①,②的拟合效果,应选择哪一个模型进行拟合?请说明理由;
(2)根据(1)中所选模型,
(i)求出关于的经验回归方程(系数精确到0.1);
(ⅱ)若该电商平台每年活动当天线上日销售额与当日营销成本及年份存在线性关系: ,则在第几年活动当日营销成本的预测值最大?
参考公式: ;参考数据:.
10.(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
考点三 相关分析与回归分析
1.(24-25高三上·天津·期末)有一散点图如图所示,在六组数据中去掉B点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量x,y正相关 B.相关系数r的绝对值更接近于0
C.残差平方和变大 D.变量x与变量y相关性变强
2.(24-25高三下·山东·开学考试)某商品的广告支出费用单位:万元与销售量单位:万件之间的对应数据如表所示:
广告支出费用x
5
销售量y
15
18
根据表中数据可得回归直线方程为,则第三个样本点对应的残差为( )
A. B. C. D.
3.(24-25高三下·山西·开学考试)已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
4.(24-25高三上·河北沧州·期末)对具有线性相关的两个变量x和y进行统计分析时,得到一组样本数据,,,,,并由该组数据求得y关于x的回归方程为则样本点处的残差为( )
A.0.1 B. C.1.2 D.
5.(24-25高三上·浙江嘉兴·期末·多选)下列说法正确的是( )
A.数据1,2,3,5,7,9的中位数大于平均数
B.数据0,1,0,1,0,1的标准差大于方差
C.在相关分析中,样本相关系数的绝对值越大,线性相关程度越强
D.在回归分析中,残差平方和越大,相应模型的拟合效果越好
6.(24-25高三下·湖北武汉·开学考试·多选)下列说法正确的是( )
A.在使用经验回归方程进行预测时,经验回归方程只适用于所研究的样本的总体
B.决定系数,可以作为衡量一个模型拟合效果的指标,它越大说明拟合效果越好
C.样本相关系数,当时,表明成对样本数据间没有相关关系
D.经验回归方程相对于点的残差为
7.(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则 .(参考公式:决定系数)
8.(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为 ;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .(参考公式:决定系数)
9.(24-25高三上·河北·期末)某省级示范学校高三的一次考试后,为了调查学生们的偏科程度,在实验班随机抽取8名同学,比较物理成绩x与数学成绩y,得到下表(单位:分):
学生号
1
2
3
4
5
6
7
8
x
98
84
87
94
81
91
85
100
y
135
124
113
125
116
120
132
135
(1)求出y关于x的回归方程(精确到0.01);
(2)若相关系数r满足,则我们可以认为y与x之间具有较强的线性相关关系,计算这8名学生的物理成绩和数学成绩是否具有较强的线性相关关系?
(附:,,,,,相关系数)
10.(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
考点四 独立性检验
1.(2025·上海·模拟预测)在研究“温度是否影响庄稼生长”时,对实验数据利用2×2列联表进行独立性检验,计算得实验数据的统计量的值为.已知,则( )
A.的值小于3.841,就有95%的把握认为“温度会影响庄稼生长”
B.的值大于3.841,就有95%的把握认为“温度会影响庄稼生长”
C.的值越大,说明实验数据的观测值与预测值的总体偏差越小
D.的值越小,说明实验数据的观测值与预测值的总体偏差越大
2.(24-25高三上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.789
附:
A.有99.5%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
3.(23-24高二下·广东中山·期末)某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男女市民各名,每位市民对大会给出满意或不满意的评价,得到下面列联表:
满意
不满意
男市民
女市民
当,时,若在的情况下,我们没有充分的证据推断男、女市民对大会的评价有差异,则的最小值为 .
附:,其中.
4.(2025·山东潍坊·模拟预测)截至2024年底,我国新能源汽车保有量达到3140万辆,占汽车总量的8.9%.某市调查了1000名汽车驾驶员对新能源汽车的偏好程度,调查结果如下:
偏好燃油汽车
偏好新能源汽车
合计
男性驾驶员
女性驾驶员
100
400
合计
400
1000
(1)请根据所给数据,完成上面的列联表,并判断是否有99.9%的把握认为偏好燃油汽车或新能源汽车与驾驶员的性别有关;
(2)用频率估计概率,在所有参加调查的驾驶员中按男性和女性进行分层抽样,随机抽取10名驾驶员,再从这10名驾驶员中随机抽取2人进行问卷调查.
(ⅰ)抽取的2人中,求在有女性驾驶员参加问卷调查的条件下,恰有1名男性驾驶员也参加问卷调查的概率;
(ⅱ)记抽取的2人中,来自女性驾驶员且偏好新能源汽车的人数为X,求X的分布列和数学期望.
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
5.(24-25高三下·广西·开学考试)据统计,某地一特色饭店年月份共有个网上点餐订单,好评率为.为了提高服务质量,饭店进行了服务改进,已知服务改进后该饭店月份共有个网上点餐订单,其中好评订单有个.
(1)根据所给数据填写下列列联表,并依据小概率值的独立性检验,分析能否认为该饭店月份订单的好评与服务改进有关;
好评订单个数
非好评订单个数
合计
服务改进前
服务改进后
合计
(2)若从月、月这两个月网上点餐的订单中按照是否好评对总体进行分层,用分层随机抽样的方法抽取个订单分析顾客的意见,再从这个订单中随机抽取个订单进行电话访谈,求其中恰好有个订单为好评订单的概率.
附:.
6.(2025·贵州黔东南·模拟预测)某工厂在改进生产技术后,针对新旧两种技术所生产的电子元件实施质量检测,现从每种技术生产的产品中各随机抽取容量为40的样本进行电压测试.已知标准电压为3.7V,误差绝对值不超过0.1V的电子元件为优品,超过0.1V的电子元件为良品.
(1)已知旧技术生产的40个样本电子元件的电压测量值近似服从正态分布的近似值为样本均值3.7,的近似值为样本标准差0.09.假设该工厂前期运用旧技术已生产电子元件40000个,试估算旧技术生产的电子元件电压测量值高于3.88V的有多少个?
(2)从新技术生产的40个样本电子元件中随机选取一个是优品的概率为.请补全以下列联表,依据小概率值的独立性检验,能否认为电子元件的优良情况与新旧技术有关?
优品
良品
合计
旧技术
新技术
合计
16
附:若随机变量服从正态分布,则,..
0.100
0.050
0.025
0.005
2.706
3.841
5.024
7.879
7.(24-25高三下·江苏扬州·期末)社会生活日新月异,看纸质书的人越来越少,更多的年轻人(35岁以下)喜欢阅读电子书籍,他们认为电子书不仅携带方便,而且可以随时随地阅读,而年长者(35岁以上)更喜欢阅读纸质书.现在某书店随机抽取60名顾客进行调查,得到了如下列联表:
年长者
年轻人
总计
喜欢阅读电子书
24
30
喜欢阅读纸质书
12
总计
60
(1)请将上面的列联表补充完整,并判断是否有的把握认为喜欢阅读电子书与年龄有关;
(2)若在年轻人中按照分层抽样的方法抽取了7人,为进一步了解情况,再从抽取的7人中随机抽取3人,求抽到喜欢阅读电子书的年轻人人数X的分布列及数学期望.
附:,其中
2
学科网(北京)股份有限公司
$$