内容正文:
专题13 成对数据的统计分析全章7大题型
(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 独立性检验的概念及辨析 题型02 卡方的计算与解决实际问题
题型03 散点图 题型04 线性回归直线方程的相关应用
题型05 线性回归直线方程的计算 题型06 卡方与线性回归直线方程结合
题型07 非线性回归
过·分层验收 阶梯实战演练,验收复习成效
核心考点
复习目标
考情规律
散点图与相关关系
能通过散点图判断两个变量的相关关系(正相关、负相关、线性相关、非线性相关),了解相关关系与函数关系的区别
基础考点,常以选择题或填空题出现,易错点在于混淆相关关系与因果关系
样本相关系数
能计算样本相关系数 ,并根据 的大小判断线性相关强度的强弱
中档考点,常与回归分析结合,易错点在于公式计算符号错误或对 意义的理解偏差
一元线性回归模型与最小二乘法
能理解回归模型 ,掌握最小二乘法求回归系数:,,会写出回归方程
高频核心考点,解答题必考,易错点在于公式中分母是 的离差平方和,以及计算准确性
回归方程的应用(预测与残差)
能利用回归方程进行预测(代值计算),会计算残差 ,并通过残差图判断模型拟合效果
中档应用考点,常出现在解答题第2问,易错点在于预测时自变量取值范围不能随意外推
非线性回归模型
能通过变量变换(如取对数、倒数、平方等)将非线性关系转化为线性关系,再使用线性回归模型求解
难度中上,新高考趋势题型,易错点在于变换后变量的对应关系及还原表达式
列联表与独立性检验
能完成列联表,计算卡方统计量 ,并与临界值比较,判断两个分类变量是否独立
高频考点,常以实际情境(如药物有效性、性别与喜好)出现,解答题或小题均可,易错点在于公式中 顺序、自由度判断及零假设表述
独立性检验的应用与结论
能根据卡方检验的结果给出合理结论(如“有99%的把握认为A与B有关”),理解显著性水平与临界值的关系
基础应用考点,常与列联表计算结合,易错点在于结论表述不规范(如不能说出“证明相关”,只能说“有把握认为”)
知识点01 一元线性回归模型及其应用
(1)一元线性回归模型
在研究两个变量线性相关时,我们常利用成对样本数据建立统计模型,并利用模型进行预测. ①我们称①式为Y关于x的_______一元线性回归模型______. 其中,Y称为____因变量_____或_____响应变量_____,x称为___自变量______或___解释变量______;a和b为模型的未知参数,a称为____截距参数_____,b称为___斜率参数______;e是Y与bx+a之间的____随机误差_____. 如果_____e=0____,那么Y与x之间的关系就可用一元线性函数模型来描述.
(2)一元线性回归模型参数的最小二乘估计回归直线方程过样本点的中心,是回归直线方程最常用的一个特征.
我们将称为关于的____线性回归方程_____,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做_____最小二乘法____,求得的叫做b,a的___最小二乘估计______,其中
(3)回归分析
①残差:对于响应变量Y,通过观测得到的数据称为___观测值_____,通过经验回归方程得到的称为预测值,观测值减去预测称为____残差____.
②刻画回归效果的方式:一是残差图法,残差点比较均匀地落在水平的___带状区域_____中,说明选用的模型比较合适,带状区域的宽度___越窄_____,说明模型拟合精度越高;二是残差平方和法,称为残差平方和,残差平方和____越小____,模型的拟合效果越好;三是用决定系数R2比较,,R2越大,模型的拟合效果____越好____,R2越小,模型的拟合效果____越差____.
知识点02 列联表与独立性检验
(1)分类变量与列联表
①分类变量:为了表述的方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为____分类变量____.
②列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
___________
___________
合计
_______
___________
______________
(2)等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
(3)独立性检验
①计算公式:,其中.
②临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值____越大____.
③独立性检验:,通常称为____零假设____或____原假设____.基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为___独立性检验_____,读作“卡方独立性检验”,简称___独立性检验_____.
④临界值表
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
题型一 独立性检验的概念及辨析
解|题|技|巧
独立性检验用于判断两个分类变量之间是否相互独立。基本思想:通过列联表计算观测频数与期望频数的差异,构造卡方统计量。关键概念:零假设 :两变量独立;备择假设 :两变量不独立。注意区分“相关”与“独立”的含义,以及样本量大小对检验结果的影响
【典例1】(24-25高二下·广东韶关·期末)为了检测某种药物对预防疾病的效果,进行了小动物试验,得到如下列联表:
药物
疾病
合计
未患病
患病
服用
18
7
25
未服用
12
8
20
合计
30
15
45
已知,.根据小概率值的独立性检验,则下列结论正确的是( )
A.药物对预防疾病有效果
B.药物对预防疾病有效果,这个结论犯错误的概率不超过0.05
C.药物对预防疾病无效果
D.药物对预防疾病无效果,这个结论犯错误的概率不超过0.05
【答案】C
【分析】通过计算列联表的统计量,与给定的临界值比较,来判断药物对预防疾病是否有效果.
【详解】零假设:药物对预防疾病无效果,
根据列联表数据,,
根据,将数据代入可得:
,
,根据小概率值的独立性检验,,
所以我们没有充分证据拒绝原假设,即认为药物对预防疾病无效果.
故选:C.
【典例2】(24-25高二下·四川绵阳·期末)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表如表所示:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
附:,其中n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
则以下结论正确的是( )
A.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
【答案】A
【分析】先做出零假设,再计算出,让去和,比较,然后根据独立性检验的理论判断即可.
【详解】零假设:我们认为爱好跳绳与性别无关,
因为,,
所以我们的假设成立,即根据小概率值α=0.001的独立性检验,
我们认为爱好跳绳与性别无关,故A正确;
在犯错误的概率不超过0.001前提下,我们认为爱好跳绳与性别无关,故B错误;
又因为,所以我们的假设不成立,
即根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别有关,故C错误;
在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别有关,故D错误.
故选:A
【变式1】(24-25高二下·四川乐山·期末)某课题组为调查“错题重练”是否有助于学生提高数学成绩,随机抽取300名高中生分为两组,实验组在每天的学习中有计划地开展“错题重练”,对照组学习方法不变.一个月后,对统计数据运用列联表进行独立性检验,计算得,则下列结论正确的是( )
0.1
0.01
0.001
2.706
6.635
10.828
A.认为“错题重练”与提高数学成绩有关
B.认为“错题重练”与提高数学成绩无关
C.认为“错题重练”与提高数学成绩有关,此推断犯错误的概率不大于0.01
D.认为“错题重练”与提高数学成绩有关,此推断犯错误的概率不大于0.001
【答案】C
【分析】根据独立性检验的定义判断即可.
【详解】,
根据小概率值的独立性检验,可以推断“错题重练”与有助于提高数学成绩有关.
故选:C.
【变式2】(24-25高二下·天津滨海新区·期末)从某学校获取了容量为100的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
数学成绩
语文成绩
合计
不优秀
优秀
不优秀
46
9
55
优秀
31
14
45
合计
77
23
100
经计算:
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考附表,得到的正确结论是( )
A.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”;
B.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”;
C.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”;
D.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀无关”.
【答案】B
【分析】由独立性检验比较可得.
【详解】因为,所以根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”.
故选:B.
题型二 卡方的计算与解决实际问题
解|题|技|巧
卡方公式:(对于 列联表)。计算步骤:① 整理列联表,标出实际频数 ;② 代入公式计算 值(注意 );③ 查临界值表,比较 与临界值;若 大于临界值,则拒绝 ,认为有显著关联。解决实际问题时需下结论:在犯错误概率不超过 的前提下认为两变量有关(或无关)。
【典例1】(24-25高二下·四川德阳·期末)近期,高中周末双休引起热议,为调查在校高中学生对国家双休政策的支持情况,某中学数学社团在校园内对学生展开随机调查,得到下表.(数据单位:人)
支持
不支持
成绩优秀
60
30
成绩不优秀
90
30
(1)根据该数学社团的调查结果判断,有无90%把握认为支持双休政策与学生成绩是否优秀有关?
0.1
0.05
0.01
2.706
3.841
6.635
附:.
(2)若该数学社团的调查结果可靠,某文学社团按相同方式在该校园内另随机调查了14位同学.其中成绩优秀且支持双休的人数为,请参考数学社团的调查数据,估算和;
(3)该校准备从数学社团调查的210名同学中用“按比例分层抽样”的方法抽取7位同学座谈、并准备在参与座谈的同学中选取5人组成新的调查小组.假设新的调查小组中支持双休但成绩不优秀的人数为,求的分布列.
【答案】(1)
没有90%的把握认为支持双休政策与学生成绩是否优秀有关
(2)
,
(3)
答案见解析
【详解】(1)由列联表可得(成绩优秀支持人数),(成绩优秀不支持人数),(成绩不优秀支持人数),(成绩不优秀不支持人数),则,
所以,
由题可知,把握对应的临界值为,因为,
所以没有把握认为支持双休政策与学生成绩是否优秀有关.
(2)随机抽取一名学生,该学生为成绩优秀且支持双休的概率,
由题意得,
所以,.
(3)分层抽样的抽样比为,则抽取的7人中支持双休但成绩不优秀的共人,其余共4人,
因此的可能取值为,
;;,
因此的分布列为
.
【典例2】(24-25高二下·山东临沂·期末)为了普及安全教育,某学校随机抽取男生、女生各100名学生进行安全知识测试,根据200名同学的测试成绩得知,该校有的同学成绩超过90分,具体情况如下表格:
性别
了解安全知识的程度
得分不超过90分的人数
得分超过90分的人数
男生
10
女生
t
(1)求;
(2)根据小概率值的独立性检验,能否推断该校男生和女生了解安全知识的程度与性别有关?
附:
0.050
0.010
0.005
3.841
6.635
7.879
【答案】(1)
(2)不能,理由见解析过程
【分析】(1)根据总量结合分量的占比进行计算求解即可;
(2)根据题中公式,结合附中表格的数据进行计算判断即可.
【详解】(1)因为200名同学的测试成绩得知,该校有的同学成绩超过90分,
所以该校成绩超过90分的人数为,
成绩没有超过90分的人数为,
因此;
(2)零假设:该校男生和女生了解安全知识的程度与性别无关,
因为
根据小概率值的独立性检验,没有充分证据推断零假设不成立,
所以不能推断该校男生和女生了解安全知识的程度与性别有关.
【变式1】(24-25高二下·河南周口·期末)随着全民健身热潮的兴起,各地积极举办各类体育活动.某市为了解居民参与体育运动的次数与性别是否有关,随机抽取了200名居民进行调查,其中男性、女性居民各100人.在男性居民中,每周参与体育运动至少3次的有30人;在女性居民中,每周参与体育运动少于3次的有40人.
(1)完成下列2×2列联表,并依据小概率值的独立性检验,分析居民每周参与体育运动的次数与性别是否有关;
性别
每周参与体育运动次数
合计
至少3次
少于3次
男
30
女
40
合计
(2)从每周参与体育运动至少3次的居民中,按男女人数比例用分层随机抽样的方法抽取6人,再从这6人中随机抽取3人做进一步调研,记抽取的3人中男性的人数为X,求X的分布列与数学期望.
附:,其中.
α
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,有关;
(2)分布列见解析,期望为1.
【分析】(1)根据已知完善列联表,应用卡方公式求卡方值,结合独立检验的基本思想得结论;
(2)根据已知确定随机变量对应的可能值,并求出对应概率,即可得分布列,进而求期望.
【详解】(1)由题设,列联表如下,
性别
每周参与体育运动次数
合计
至少3次
少于3次
男
30
70
100
女
60
40
100
合计
90
110
200
所以,
故居民每周参与体育运动的次数与性别有关;
(2)由列联表知,抽取的6人中有2男4女,
所以任意抽取3人,男性人数,
,,,
所以分布列如下,
0
1
2
故.
【变式2】(24-25高二下·青海西宁·期末)西宁市第十四中学为高一、高二的学生开展了丰富的社团活动,共青团委员会的工作人员为研究学生的性别与喜欢烘焙社是否有关联.她随机从两个年级的男生和女生中各抽取了100名学生进行统计分析.并绘制了下列列联表.
喜欢烘焙社
不喜欢烘焙社
合计
男生
45
m
100
女生
n
35
100
合计
x
y
200
(1)求m,n,x,y的值;
(2)根据小概率值的独立性检验,能否认为喜欢烘焙社与性别有关联?
附:
0.15
0.10
0.05
0.025
0.010
0.005
2.072
2.706
3.841
5.024
6.635
7.879
.
【答案】(1);
(2)能.
【分析】(1)根据列表列式计算求解;
(2)先设零假设再计算卡方与临界值比较判断.
【详解】(1)因为,所以,
所以,
所以;
(2)零假设:假设性别与喜欢烘焙社无关.
,
根据小概率值的独立性检验,可认为零假设不成立.
故认为性别与喜欢烘焙社有关.
题型三 散点图
解|题|技|巧
散点图用于直观展示两个变量之间的相关关系(正相关、负相关、线性、非线性、无相关)。绘制时以横轴为一个变量,纵轴为另一个变量。解题技巧:① 观察点的分布形态:若点大致在一条直线附近,则线性相关;若呈曲线状,则非线性相关;若杂乱无章,则无相关。② 识别异常点(离群点)。③ 通过散点图初步判断是否适合用线性回归模型。注意:散点图不能证明因果关系,仅显示相关性。
【典例1】(24-25高二下·北京丰台·期末)下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
【答案】D
【分析】根据数据点的分布情况直观判断是否有线性相关关系及正负相关即可.
【详解】A,B,C中各点有非线性拟合趋势,D中具有线性相关且为负相关.
故选:D
【典例2】(24-25高二下·北京东城·期末)对某种动物的三项指标,,进行调查研究.现有这种动物若干只,设每只动物的这三项指标为.若与的散点图如图1和图2所示,那么关于的散点图最合理的为( )
A. B.
C. D.
【答案】A
【分析】利用排除法,分析可知指标,满足负相关,结合图象指标的范围分析判断即可.
【详解】因为指标,满足正相关,指标,满足负相关,
可知指标,满足负相关,故C错误;
且,可知BD错误;
故选:A.
【变式1】(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
【答案】A
【分析】根据数据的散点图,结合回归系数概念与含义,逐项判定,即可求解.
【详解】去掉点后,散点图中点的分布更接近一条直线,因此变量与的线性相关程度变强,故选项B错误;
由散点图,点的分布从左下角到右上角,故变量与呈正相关,故选项D错误;
因为变量与呈正相关,且相关性变强,所以相关系数变大,故A正确,C错误.
故选:A.
【变式2】(24-25高二下·河北·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】C
【详解】对于BD,散点图分布总体是斜向上,故BD中对应的两个变量之间是正相关;
对于AC,散点图分布总体是斜向下,但C中散点分布较为集中,
而A中散点分布较为分散,故C中对应的两个变量相关性较强且为负相关.
题型四 线性回归直线方程的相关应用
解|题|技|巧
线性回归方程 中,,。应用包括:① 预测:给定 值,计算 ;② 估计斜率与截距的实际意义(如 每增加一个单位, 平均增加 个单位);③ 判断拟合效果:计算相关系数 (越接近1或-1,线性相关越强)。注意回归直线必过点 。
【典例1】(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【答案】D
【分析】对于A,由回归方程可判断变量y与x的负相关;对于B,利用回归方程过可判断选项正误;对于C,由回归方程及残差定义可判断选项正误;对于D,由回归方程可得预测值.
【详解】对于A,因回归方程斜率为负值,则变量y与x负相关,故A正确;
对于B,,,
因回归方程过,则,故B正确;
对于C,当时,由B分析,,则残差为:
故C正确;
对于D,当,由B分析,,故D错误.
故选:D
【典例2】(25-26高三上·福建福州·阶段检测)(多选)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
【答案】AB
【分析】根据经验回归方程的性质,结合已知条件逐一分析各选项,对相关性、相关系数、残差等进行判断.
【详解】经验回归方程为,斜率为,函数单调递增,
y随着x的增大而增大,即y与x正相关,故A正确;
样本中心点必在回归线方程上,
,将代入回归方程,得,解得,
,解得,故B正确;
当时,预测值,实际值为,
残差,故C错误;
经验回归方程为,斜率为,
样本的相关系数,故D错误.
故选:AB.
【变式1】(24-25高二下·四川绵阳·期末)已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
【答案】C
【分析】利用样本中心在回归直线上求参数判断A;根据回归直线一次项系数判断B;计算残差判断C;由回归直线的实际意义判断D.
【详解】由题设,所以,可得,故A错误;
所以,又,即与正相关,则样本相关系数,故B错误;
由时,,残差为,故C正确;
由回归方程说明随变化值的变化趋势,不能说变量每增加一个单位,的值一定增加个单位,故D错误.
故选:C
【变式2】(24-25高二下·辽宁·期末)(多选)为了解某种药物的疗效,患者服用该药物,短时间内血液中药物浓度达到峰值,研究员统计了血液中药物浓度(单位:)与代谢时间(单位:)的数据,如下表所示:
0
1
2
3
4
5
6
150
143
132
123
114
104
95
根据表中数据可得回归方程为,则下列说法正确的是( )
附:回归直线中斜率和截距的最小二乘估计公式分别为,,相关系数.
A.
B.当时,对应样本点的残差为0.32
C.若再增加一组数据,则关于的回归直线的斜率变大
D.若删去数据,则与的相关系数不变
【答案】ABD
【分析】求出的平均值,即可求出,判断A;根据残差的计算判断B;根据最小二乘估计公式以及相关系数公式可判断CD.
【详解】由题意知,
,
所以,A项正确;
由上可知,当时,,
则残差为,B项正确;
再增加一组数据后,,,所以的值不变,
的值也不变,故关于的回归直线的斜率不变,C项错误;
删去数据后,,,所以的值不变,
的值也不变,因此与的相关系数不变,D项正确.
故选:ABD
题型五 线性回归直线方程的计算
解|题|技|巧
纯计算题,通常给出数据或统计量(如 )。步骤:① 计算 ;② 代入公式求 ;③ 求 ;④ 写出方程。注意保留精度,有时需利用参考数据。若题目要求用最小二乘法,严格按公式计算。
【典例1】(24-25高二下·重庆·期末)近年来,中国的新能源汽车产业展现出迅猛的发展势头,已然跃升为全球最大的新能源汽车市场.该产业涵盖了电动汽车、插电式混合动力汽车以及燃料电池汽车等多种类型.在电池技术、电机和电控系统等领域,中国的新能源汽车产业取得了引人瞩目的成就.现有一汽车测评栏目为了评估某品牌纯电动汽车的实际续航能力,进行了一系列试验,并收集了相应的数据,详见下表.
速度
6
7
8
9
10
续航里程
4.4
4.2
4
3.9
3.5
(1)根据最小二乘法,计算y关于x的回归方程;
(2)根据你得到的一元线性回归模型,预测速度为时,该电动汽车的续航里程;
(3)计算5组数据的残差,并计算残差之和.
参考公式:线性回归方程中,的最小二乘法估计分别为,.
参考数据:,.
【答案】(1)
(2)
(3)残差见解析,残差和为0
【分析】(1)根据最小二乘法即可求解,
(2)代入回归方程中即可求解,
(3)根据残差的计算公式即可求解.
【详解】(1)由题意,,
,
,
故y关于x的线性回归方程为;
(2)根据(1)所求的回归方程,当时,,
所以电动汽车的续航里程为;
(3)由(1)可列表
速度
6
7
8
9
10
续航里程
4.4
4.2
4
3.9
3.5
预测值
4.42
4.21
4
3.79
3.58
残差
0
0.11
残差之和为.
【典例2】(24-25高二下·广西钦州·期末)某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
2
6
8
9
10
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益不少于14.6(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为
,,.
【答案】(1);是
(2);
【分析】根据表格中的数据,利用所给的公式,分别计算,可得答案.
【详解】(1)由表格中的数据可得,,
,
,,
所以,
由,则可以认为研发投入与产品收益具有较高的线性相关程度.
(2)由(1)可得,
,
所以,由,则.
所以回归直线方程为,令,则,解得,
所以需研发投入至少亿元.
【变式1】(24-25高二下·河南南阳·期末)为促进消费,助力经济发展,某市持续开展了共8期政府消费券发放活动,记第期活动发放的消费券总额为百万元,带动的消费为百万元,根据这8期活动的数据,可得,,且和的样本方差分别为,,用最小二乘法得到关于的线性回归方程为.
(1)求;
(2)若下一期活动政府计划发放10.8百万元的消费券,预计可以带动多少消费;
(3)求相关系数.(结果保留2位小数)
参考公式:相关系数,线性回归方程中,,.参考数据:.
【答案】(1)
(2)
(3)
【分析】(1)根据题意,求得,,将样本中心代入回归方程,即可求得的值;
(2)由(1)得到回归直线方程为,令时,即可得到预测值;
(3)由,,得到,结合回归系数的公式,求得,代入相关系数的公式,即可求解.
【详解】(1)解:由,,可得,,
所以数据的样本中心为,代入回归方程,
可得,解得.
(2)解:由(1)知:,所以回归直线方程为,
当时,可得百万元,
故预计可以带动消费百万元.
(3)解:由,,
可得
又由,可得,
解得,
所以.
【变式2】.(2025高二·全国·专题练习)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
112
61
44.5
35
30.5
28
25
24
根据以上数据绘制了散点图,如图所示.
由图可知,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型.分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本.
参考数据:(其中)
183.4
0.34
0.115
1.53
360
22385.5
61.4
0.135
【答案】(1)
(2)用反比例函数模型拟合效果更好,21元
【分析】(1)令,求出,求出,求出y关于x的回归方程;
(2)求出y与的相关系数,证明反比例函数模型拟合效果更好即可求解.
【详解】(1)令,则可转化为,
因为,所以,
则,
所以,所以y关于x的回归方程为;
(2)y与的相关系数,
因为,所以用反比例函数模型拟合效果更好,
当时(元),
所以当产量为10千件时,每件产品的非原料成本为21元.
题型六 卡方与线性回归直线方程结合
解|题|技|巧
综合题将独立性检验与回归分析结合。例如:先通过卡方检验判断两个分类变量是否相关;若相关,再对其中某一数量变量与另一连续变量做回归分析。解题时分别处理:先完成列联表计算卡方得出结论;再针对需要回归的数据计算回归方程。注意题目可能提供两部分数据,需区分变量类型(分类 vs 数值)。有时也会考察两种方法的适用条件对比。
【典例1】(24-25高二下·福建泉州·期末)2025年春节档一部国产动画电影《哪吒之魔童闹海》横空出世,迅速斩获各项票房冠军,截至3月20日,该电影已进入全球票房榜前五.经权威电影机构调查,得到其前5周的票房数据如下表:
周次
第1周
第2周
第3周
第4周
第5周
周次代码
l
2
3
4
5
票房总额/亿元
40
35
25
37
7
(1)求关于的线性回归方程;
(2)该电影机构为了解民众观影的喜欢程度,随机采访了90名观影人员,得到下表:
是否成年
是否喜欢
合计
不喜欢
喜欢
未成年人
40
50
成年人
10
40
合计
90
依据小概率值的独立性检验,能否认为喜欢电影《哪吒之魔童闹海》和是否成年有关?
附:①,,
在利用最小二乘法求得的线性回归方程中,,;
②,其中.
α
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)
(2)表格见解析,不能
【分析】(1)由前5周的票房数据,分别求得,利用回归系数的公式和样本点的坐标,求得,即可得到所求的线性回归方程;
(2)根据题意,得出列联表,利用公式求得,结合附表,即可得到结论.
【详解】(1)由前5周的票房,可得
,,
又,,
所以,
则,
故所求的线性回归方程为.
(2)由题意,未成年人总数为50,喜欢的有40人,则不喜欢的有10人;
成年人总数为40,不喜欢的有10人,则喜欢的有30人,
可得列联表如下:
是否成年
是否喜欢
合计
不喜欢
喜欢
未成年人
10
40
50
成年人
10
30
40
合计
20
70
90
所以
故依据小概率值的独立性检验,不能认为喜欢电影《哪吒之魔童闹海》和是否成年有关.
【典例2】随着移动互联网技术的发展,直播带货已经成为热门的销售方式,通过主播的详细介绍,使顾客对商品有更全面的了解.小张统计了某新手主播开启直播带货后从1月份到5月份每个月的销售量(万件)的数据,得到如图所示的散点图.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程?(给出判断即可,不必说明理由),并求出关于的回归方程(计算结果精确到0.01);
(2)随机调查了220名市民对直播带货的认可程度,得到的部分数据见下表:
认可
不认可
50岁以下市民
70
50
50岁以上市民
40
60
依据小概率值的独立性检验,分析市民对直播带货认可程度是否与年龄有关联.
参考公式与数据:,, ,,,其中.,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)模型②更适宜,
(2)认为市民对直播带货认可程度与年龄有关联
【分析】(1)由散点图接近于曲线,选择模型②,令,将非线性转化为线性,利用最小二乘法得出关于的回归方程;
(2)先假设市民对直播带货认可程度与年龄无关联,再计算卡方,进行独立性检验即可.
【详解】(1)由散点图可知增加幅度不一致,且散点图接近于曲线,非线性,
结合图象故选模型②
令得
可得,
,
则,
,
所以关于的回归方程为,
即关于的回归方程 ;
(2)零假设:市民对直播带货认可程度与年龄无关联;
因为,
依据小概率值的独立性检验,推断不成立,
所以认为市民对直播带货认可程度与年龄有关联.
【变式1】近年来,养宠物的人越来越多,在供需端及资本的共同推动下中国宠物经济产业迅速增长,数据显示,目前中国养宠户数在全国户数中占比为.
(1)随机抽取200名成年人,并调查这200名成年人养宠物的情况,统计后得到如下列联表:
成年男性
成年女性
合计
养宠物
38
60
98
不养宠物
62
40
102
合计
100
100
200
依据小概率值的独立性检验,判断能否认为养宠物与性别有关?
(2)记2018-2023年的年份代码x依次为中国宠物经济产业年规模为y(单位:亿元),由这6年中国宠物经济产业年规模数据求得y,关于x的回归方程为,且. 求相关系数r并判断该回归方程是否有价值.
参考公式及数据:,其中.
0.10
0.05
0.01
2.706
3.841
6.635
回归方程其中,相关系数;若, 则认为y与x有较强的相关性. 其中 .
【答案】(1)依据小概率值的独立性检验,可以认为养宠物与性别有关.
(2),所以与有较强的相关性,该回归方程有价值.
【分析】(1)利用卡方检验公式即可求出,与临界值比较,即即可求解.
(2)先利用给的数据求出和再利用回归方程的求出,代入到相关系数的公式中即可求解.
【详解】(1)零假设为:认为养宠物与性别无关;
,
依据小概率值的独立性检验,可以认为养宠物与性别有关.
(2)由的取值依次为得,
回归方程为,
,
,
,
,与有较强的相关性,该回归方程有价值.
【变式2】随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
【答案】(1)列联表见解析,有关联;
(2),,有价值;
【分析】(1)先补全列联表,再计算卡方,根据独立性检验原则即可判断;
(2)根据回归直线过样本点中心可求得,再根据相关系数公式求得,从而可判断.
【详解】(1)补全列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,推断不成立,
即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,可得,
因为经验回归方程为,可得,
则,求得,
所以,
所以,,
所以,
因为,所以该经验回归方程有价值.
题型七 非线性回归
解|题|技|巧
当散点图呈曲线形态(如指数、对数、幂函数)时,需进行非线性回归。常用方法:① 通过变量变换转化为线性回归。例如 取对数得 ,令 ,则化为线性; 取对数得 ,令 ;② 变换后计算新变量的回归方程;③ 还原为原变量关系,注意给出预测值时需反变换。解题关键:识别曲线类型,正确选择变换公式,并注意反变换时的常数处理。
【典例1】(24-25高二下·江苏南京·期末)用模型拟合一组数据时,为了求出非线性回归方程,设,其变换后得到线性回归方程为,则c等于( )
A. B. C.2 D.
【答案】B
【分析】由回归模型,两边取对数,得到,根据题意,得到,即可求解.
【详解】由回归模型,可得,即,
因为变换后得到线性回归方程为,可得,所以.
故选:B.
【典例2】(24-25高二下·湖南·阶段检测)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
【答案】(1)
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)
【分析】(1)由递推公式得到,进而判断为等差数列,即可求解;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)由得:
,
即,
所以,
即,
所以为等差数列,又,
所以公差为1,
所以,
(2)令,则,
由公式,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为.
【变式1】(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【答案】A
【分析】由题意得,求出,从而可求得线性回归方程,给两边取对数化简,对照回归方程可求得答案.
【详解】由题意得,解得,
因此,
由两边取对数,得,
又,所以,即.
故选:A.
【变式2】(24-25高二下·广东广州·期末)(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
【答案】AD
【分析】利用非线性转化为线性,即可求线性回归方程,通过系数对比即可得判断.
【详解】由两边取自然对数得:,
由变换后得到线性回归方程,
则,即,故AD正确,BC错误;
故选:AD.
【变式3】(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【答案】(1)
(2),
(3)指数函数模型拟合效果更好.
【分析】(1)方法一:设关于的回归直线方程为,由条件求,,,,再由公式求,,由此可得结论;
方法二:由条件可得,,结合关于的回归直线方程为,可求结论;
(2)由条件可得,设,,,则,利用公式求,由此可得结论;
(3)结合(1),(2)分别求当时,两个回归方程对应的残差,比较残差的大小判断结论.
【详解】(1)方法一:设关于的回归直线方程为,
由已知,,
,
,
所以,
,
所以关于的回归直线方程为,
方法二:因为关于的回归直线方程为,
因为,,
所以,,
则,
所以关于的回归直线方程为,
(2)若用指数型函数模型拟合与的关系,则有,
设,,,
则,
,
,
所以,
所以,
所以关于的回归方程为,
(3)由(1)关于的回归直线方程为,
所以时,,
残差为,
由(2)关于的指数函数模型的回归方程为,
所以时,,
残差为,
因为,所以指数函数模型拟合效果更好.
期末基础通关练(测试时间:10分钟)
1.(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
【答案】A
【分析】根据散点图中点的分布,即可判断答案.
【详解】由散点图可知,并且第一个图中的点更为集中,更贴近某条直线分布,
第三、四个图中的点的分布更为分散,
因此更接近于1,,的绝对值更接近于0,即最大的是.
故选:A
2.(25-26高二下·河南驻马店·期中)下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小
【答案】C
【详解】对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,A错误;
对于B,独立性检验并不能确定两个变量相关,B错误;
对于C,是指“抽烟”和“患肺病”存在关联的可能性大小,并非抽烟人中患肺病的发病率,
因此不可以说在100个吸烟的人中,有99人患肺病,C正确;
对于D,在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,D错误.
3.(25-26高二上·江西九江·期末)具有相关关系的变量与的一组样本数据如下,若已求得线性回归方程为,则下列选项错误的是( )
1
2
3
4
5
16
12
11
10
6
A.
B.与具有负相关关系
C.当时,的预测值为0
D.去掉其中某对样本数据,与的样本相关系数可能不变
【答案】C
【分析】由表格数据求出样本点的中心坐标,代入计算可判断A;由正负可判断B;代入计算可判断C;根据样本点的性质可判断D.
【详解】对于A,根据表中数据计算可得,,
代入线性回归方程得,得,故A正确;
对于B,因为,所以与具有负相关关系,故B正确;
对于C,当时,,故C错误;
对于D,样本点为样本中心点,去掉这个样本点,与的样本相关系数不变,故D正确.
故选:C
多选题
4.(25-26高二上·安徽淮北·期末)给出下列实际问题,其中用独立性检验可以解决的问题有( )
A.长寿是否与经常运动有关系
B.吸烟者得肺病的概率
C.吸烟是否与患肺癌有关系
D.某同学的数学成绩与物理成绩是否有关系
【答案】AC
【详解】独立性检验是判断两个分类变量是否有关系的方法,
A.长寿和经常运动是两个分类变量,独立性检验可以判断两者是否有关系,故A正确;
B.吸烟者得肺病的概率是单一变量的概率计算问题,故B错误;
C.吸烟和患肺癌是两个分类变量,独立性检验可以判断二者是否有关系,故C正确;
D.某同学的数学成绩和物理成绩是两个定量,不适用于独立性检验,故D错误.
5.(24-25高二下·黑龙江·期中)下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
【答案】BCD
【分析】对于A根据相关系数的性质分析判断;对于B根据决定系数的性质分析判断;对于C根据回归方程过样本中心点分析判断;对于D根据独立性检验思想分析判断.
【详解】因为相关系数绝对值越接近1两个变量的线性相关程度越强,故A选项错误.
因为决定系数越接近0,表示模型对数据的拟合效果越差,故B选项正确.
因为回归直线一定经过样本均值点,故C选项正确.
因为,则没有充分证据推断不成立,即认为与有无,故D选项正确.
故选:BCD
期末重难突破练(测试时间:20分钟)
6.(25-26高二下·广东·期末)通过随机询问某中学110名学生是否爱好跳绳,得到如下列联表.已知, ,根据小概率值的独立性检验,以下结论正确的是( )
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
A.爱好跳绳与性别有关
B.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001
C.爱好跳绳与性别无关
D.爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
【答案】C
【详解】假设:爱好跳绳与性别无关,
由列联表中数据可得,
根据小概率值的独立性检验,没有充分证据推断不成立,
故爱好跳绳与性别无关.
7.(25-26高三·全国·一轮复习)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
【答案】D
【分析】对于A,利用表中的数据分析即可求解;对于B,利用平均数的定义及样本中心,结合样本中心在回归直线上即可求解;对于C,利用回归方程即可求出预测值,对于D,利用预测值和残差的定义即可求解.
【详解】对于A,从数据看随的增加而增加,所以变量与正相关,故A正确;
对于B,由表中数据知,,,
可得样本中心点为,将样本中心点代入中,
得到,故B正确;
对于C,当时该商场5G手机销量约为(千只),故C正确;
对于D,经验回归方程为,所以,
则残差为,故D错误.
多选题
8.(2026·山东淄博·三模)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的若干种价格进行试销,统计了连续5个月的月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表所示.则( )
售价x(元/件)
10
11
12
13
14
月销售量y(千件)
10
9
9
7
5
参考公式:①;②;③.
参考数据:,,,.
A.y关于x的线性回归方程为:
B.相关系数(小数点后保留两位)
C.当售价为15元/件时,预测月销售量为3.4千件
D.在线性回归方程的估计下,样本点的残差为
【答案】ABD
【分析】由已知公式求得线性回归方程可判断ACD,由相关系数计算公式可判断B.
【详解】计算均值: , ,
选项A:根据公式,
,
线性回归方程为,A正确;
选项B:相关系数,B正确;
选项C:代入回归方程: ,预测月销售量为千件,不是千件,C错误;
选项D:时, ,残差 ,D正确.
9.(25-26高二下·黑龙江哈尔滨·期中)某学校开展阅读兴趣调查,随机采访男生、女生各人,每人从文学类书籍和科普类书籍中选择最喜欢的一类,喜欢文学类书籍的归为甲组,喜欢科普类书籍的归为乙组.调查发现:甲组成员共人,其中男生人.
(1)根据以上数据,填空下述列联表:
甲组
乙组
合计
男生
女生
合计
(2)依据小概率值的独立性检验,分析学生喜欢文学类还是科普类书籍是否与性别有关;
(3)现从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,记赠送书签的人在甲组中的人数为,求的分布列及数学期望.
参考公式:,.
参考数据:
【答案】(1)答案见解析
(2)认为学生喜欢文学类还是科普类书籍与性别有关.
(3)
.
【详解】【小题1】根据题中数据可得列联表如下:
甲组
乙组
合计
男生
女生
合计
【小题2】零假设学生喜欢文学类还是科普类书籍与性别无关,
,
根据小概率值的独立性检验,我们推断不成立,
即认为学生喜欢文学类还是科普类书籍与性别有关.
【小题3】从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,
这人中,甲组的人数为人,乙组的人数为人,
由题意可知,随机变量的可能取值有、、,
,,,
所以随机变量的分布列如下表所示:
所以.
10.(25-26高二下·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
【答案】(1),相关程度很强
(2),残差为百人
(3)
【分析】(1)求出、的值,利用公式求出相关系数的值,即可得出结论;
(2)利用最小二乘法公式求出、的值,可得出回归直线方程,将代入回归直线方程,结合残差的概念求解即可;
(3)记从通道入园的事件为,从通道离园的事件为,结合全概率公式求解即可.
【详解】(1)由表格中的数据可得,,
,
,
,
则,
由相关系数,可以推断入园游客量与活动开展第天相关程度很强.
(2),,
故经验回归方程为.
对于表中第个观测,入园游客量为(百人),
预测值为(百人),残差为(百人)
(3)记从通道入园的事件为,从通道离园的事件为,
由题意可得,,,,
.
期末综合拓展练(测试时间:20分钟)
多选题
11.(2026·广西崇左·一模)已知相关系数,y关于x的经验回归方程中斜率和截距的最小二乘估计公式分别为,,残差平方和为.已知变量x与变量y的部分数据,建立由最小二乘法得到的两个回归模型:以x为自变量,y为因变量,得出的经验回归方程为;以y为自变量,x为因变量,得出的经验回归方程为.若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量x的方差,则可知变量y的标准差
B.若不给定其他信息,则也可得知变量x与变量y各自的平均值
C.若不给定其他信息,则也可得知变量x与变量y的相关系数
D.若已知变量x的标准差,则可知以y为自变量的回归模型的残差平方和
【答案】ABC
【分析】A 选项通过推导可得,若已知变量x的方差,即可求得,进而代入前式求得,故正确;B 选项可通过联立两个回归方程的截距公式解出样本均值和,故正确;C 选项利用回归斜率乘积与相关系数的关系,结合斜率符号确定,故正确;D 选项因残差平方和需要原始数据或更多统计量,仅靠x的标准差无法计算,故错误。
【详解】对于C,由所给公式得,且回归系数为负数,故相关系数,C正确.
对于A,设变量x与变量y的标准差分别为,,
,,
标准差,
变形可得,
将其代入到得,
整理得,将其代入到,
整理得,代入已知数据得,
即,若已知变量x的方差,即可求得,进而代入上式求得,A正确.
对于B,经验回归直线经过样本中心点,
代入两个回归方程得与,解得,,
故不给定其他信息也可得知变量x与变量y各自的平均值,B正确.
对于D,设以y为自变量的经验回归方程为(其中),
则变量x的残差平方和为
,
由于样本量n未知,故无法算出残差平方和的具体数值,D错误.
12.(24-25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市
A
B
C
D
E
广告支出x
1
2
3
4
5
销售额W
4
9
14
18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
【答案】(1),相关性很强
(2),0.8
(3)满足一元线性回归模型的的假设,不满足一元线性回归模型的的假设.
【分析】(1)求出和,求出即可求解;
(2)根据销售额的方差52.4列方程求解,求出和,求出,求出销售量关于广告支出的回归直线方程即可求解;
(3)根据残差图的性质即可求解.
【详解】(1)由题知,
0
1
2
1
5
7
,
,
,
相关系数,
接近于1,可以推断两个变量正线性相关,且相关性很强;
(2)因为销售额的方差52.4,
即,
所以,
化为,
解得(舍去),
所以,
因为回归直线方程为经过样本中心点,
把代入得,
销售量关于广告支出的回归直线方程为,
当时,代入得预测值,
而观测值,所以广告支出为5(万元)时销售额度的残差:(万元);
(3)由残差图,模型误差满足一元线性回归模型的的假设,
不满足一元线性回归模型的的假设.
1 / 4
学科网(北京)股份有限公司
$
专题13 成对数据的统计分析全章7大题型
(期末复习讲义)
内 容 导 航
明·期末考清 把握命题趋势,明确备考路径
记·必备知识 梳理核心脉络,扫除知识盲区
破·重难题型 题型分类突破,方法技巧精讲
题型01 独立性检验的概念及辨析 题型02 卡方的计算与解决实际问题
题型03 散点图 题型04 线性回归直线方程的相关应用
题型05 线性回归直线方程的计算 题型06 卡方与线性回归直线方程结合
题型07 非线性回归
过·分层验收 阶梯实战演练,验收复习成效
核心考点
复习目标
考情规律
散点图与相关关系
能通过散点图判断两个变量的相关关系(正相关、负相关、线性相关、非线性相关),了解相关关系与函数关系的区别
基础考点,常以选择题或填空题出现,易错点在于混淆相关关系与因果关系
样本相关系数
能计算样本相关系数 ,并根据 的大小判断线性相关强度的强弱
中档考点,常与回归分析结合,易错点在于公式计算符号错误或对 意义的理解偏差
一元线性回归模型与最小二乘法
能理解回归模型 ,掌握最小二乘法求回归系数:,,会写出回归方程
高频核心考点,解答题必考,易错点在于公式中分母是 的离差平方和,以及计算准确性
回归方程的应用(预测与残差)
能利用回归方程进行预测(代值计算),会计算残差 ,并通过残差图判断模型拟合效果
中档应用考点,常出现在解答题第2问,易错点在于预测时自变量取值范围不能随意外推
非线性回归模型
能通过变量变换(如取对数、倒数、平方等)将非线性关系转化为线性关系,再使用线性回归模型求解
难度中上,新高考趋势题型,易错点在于变换后变量的对应关系及还原表达式
列联表与独立性检验
能完成列联表,计算卡方统计量 ,并与临界值比较,判断两个分类变量是否独立
高频考点,常以实际情境(如药物有效性、性别与喜好)出现,解答题或小题均可,易错点在于公式中 顺序、自由度判断及零假设表述
独立性检验的应用与结论
能根据卡方检验的结果给出合理结论(如“有99%的把握认为A与B有关”),理解显著性水平与临界值的关系
基础应用考点,常与列联表计算结合,易错点在于结论表述不规范(如不能说出“证明相关”,只能说“有把握认为”)
知识点01 一元线性回归模型及其应用
(1)一元线性回归模型
在研究两个变量线性相关时,我们常利用成对样本数据建立统计模型,并利用模型进行预测. ①我们称①式为Y关于x的_____________. 其中,Y称为_________或__________,x称为_________或_________;a和b为模型的未知参数,a称为_________,b称为_________;e是Y与bx+a之间的_________. 如果_________,那么Y与x之间的关系就可用一元线性函数模型来描述.
(2)一元线性回归模型参数的最小二乘估计回归直线方程过样本点的中心,是回归直线方程最常用的一个特征.
我们将称为关于的_________,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做_________,求得的叫做b,a的_________,其中
(3)回归分析
①残差:对于响应变量Y,通过观测得到的数据称为________,通过经验回归方程得到的称为预测值,观测值减去预测称为________.
②刻画回归效果的方式:一是残差图法,残差点比较均匀地落在水平的________中,说明选用的模型比较合适,带状区域的宽度________,说明模型拟合精度越高;二是残差平方和法,称为残差平方和,残差平方和________,模型的拟合效果越好;三是用决定系数R2比较,,R2越大,模型的拟合效果________,R2越小,模型的拟合效果________.
知识点02 列联表与独立性检验
(1)分类变量与列联表
①分类变量:为了表述的方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为________.
②列联表:一般地,假设两个分类变量和,它们的取值为,其样本频数列联表(也称为列联表)为
合计
___________
___________
合计
_______
___________
______________
(2)等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
(3)独立性检验
①计算公式:,其中.
②临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值________.
③独立性检验:,通常称为________或________.基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为________,读作“卡方独立性检验”,简称________.
④临界值表
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
题型一 独立性检验的概念及辨析
解|题|技|巧
独立性检验用于判断两个分类变量之间是否相互独立。基本思想:通过列联表计算观测频数与期望频数的差异,构造卡方统计量。关键概念:零假设 :两变量独立;备择假设 :两变量不独立。注意区分“相关”与“独立”的含义,以及样本量大小对检验结果的影响
【典例1】(24-25高二下·广东韶关·期末)为了检测某种药物对预防疾病的效果,进行了小动物试验,得到如下列联表:
药物
疾病
合计
未患病
患病
服用
18
7
25
未服用
12
8
20
合计
30
15
45
已知,.根据小概率值的独立性检验,则下列结论正确的是( )
A.药物对预防疾病有效果
B.药物对预防疾病有效果,这个结论犯错误的概率不超过0.05
C.药物对预防疾病无效果
D.药物对预防疾病无效果,这个结论犯错误的概率不超过0.05
【典例2】(24-25高二下·四川绵阳·期末)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表如表所示:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
附:,其中n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
则以下结论正确的是( )
A.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关
【变式1】(24-25高二下·四川乐山·期末)某课题组为调查“错题重练”是否有助于学生提高数学成绩,随机抽取300名高中生分为两组,实验组在每天的学习中有计划地开展“错题重练”,对照组学习方法不变.一个月后,对统计数据运用列联表进行独立性检验,计算得,则下列结论正确的是( )
0.1
0.01
0.001
2.706
6.635
10.828
A.认为“错题重练”与提高数学成绩有关
B.认为“错题重练”与提高数学成绩无关
C.认为“错题重练”与提高数学成绩有关,此推断犯错误的概率不大于0.01
D.认为“错题重练”与提高数学成绩有关,此推断犯错误的概率不大于0.001
【变式2】(24-25高二下·天津滨海新区·期末)从某学校获取了容量为100的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
数学成绩
语文成绩
合计
不优秀
优秀
不优秀
46
9
55
优秀
31
14
45
合计
77
23
100
经计算:
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考附表,得到的正确结论是( )
A.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”;
B.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”;
C.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀有关”;
D.根据小概率值的独立性检验,认为“该校学生数学成绩是否优秀与语文成绩是否优秀无关”.
题型二 卡方的计算与解决实际问题
解|题|技|巧
卡方公式:(对于 列联表)。计算步骤:① 整理列联表,标出实际频数 ;② 代入公式计算 值(注意 );③ 查临界值表,比较 与临界值;若 大于临界值,则拒绝 ,认为有显著关联。解决实际问题时需下结论:在犯错误概率不超过 的前提下认为两变量有关(或无关)。
【典例1】(24-25高二下·四川德阳·期末)近期,高中周末双休引起热议,为调查在校高中学生对国家双休政策的支持情况,某中学数学社团在校园内对学生展开随机调查,得到下表.(数据单位:人)
支持
不支持
成绩优秀
60
30
成绩不优秀
90
30
(1)根据该数学社团的调查结果判断,有无90%把握认为支持双休政策与学生成绩是否优秀有关?
0.1
0.05
0.01
2.706
3.841
6.635
附:.
(2)若该数学社团的调查结果可靠,某文学社团按相同方式在该校园内另随机调查了14位同学.其中成绩优秀且支持双休的人数为,请参考数学社团的调查数据,估算和;
(3)该校准备从数学社团调查的210名同学中用“按比例分层抽样”的方法抽取7位同学座谈、并准备在参与座谈的同学中选取5人组成新的调查小组.假设新的调查小组中支持双休但成绩不优秀的人数为,求的分布列.
【典例2】(24-25高二下·山东临沂·期末)为了普及安全教育,某学校随机抽取男生、女生各100名学生进行安全知识测试,根据200名同学的测试成绩得知,该校有的同学成绩超过90分,具体情况如下表格:
性别
了解安全知识的程度
得分不超过90分的人数
得分超过90分的人数
男生
10
女生
t
(1)求;
(2)根据小概率值的独立性检验,能否推断该校男生和女生了解安全知识的程度与性别有关?
附:
0.050
0.010
0.005
3.841
6.635
7.879
【变式1】(24-25高二下·河南周口·期末)随着全民健身热潮的兴起,各地积极举办各类体育活动.某市为了解居民参与体育运动的次数与性别是否有关,随机抽取了200名居民进行调查,其中男性、女性居民各100人.在男性居民中,每周参与体育运动至少3次的有30人;在女性居民中,每周参与体育运动少于3次的有40人.
(1)完成下列2×2列联表,并依据小概率值的独立性检验,分析居民每周参与体育运动的次数与性别是否有关;
性别
每周参与体育运动次数
合计
至少3次
少于3次
男
30
女
40
合计
(2)从每周参与体育运动至少3次的居民中,按男女人数比例用分层随机抽样的方法抽取6人,再从这6人中随机抽取3人做进一步调研,记抽取的3人中男性的人数为X,求X的分布列与数学期望.
附:,其中.
α
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【变式2】(24-25高二下·青海西宁·期末)西宁市第十四中学为高一、高二的学生开展了丰富的社团活动,共青团委员会的工作人员为研究学生的性别与喜欢烘焙社是否有关联.她随机从两个年级的男生和女生中各抽取了100名学生进行统计分析.并绘制了下列列联表.
喜欢烘焙社
不喜欢烘焙社
合计
男生
45
m
100
女生
n
35
100
合计
x
y
200
(1)求m,n,x,y的值;
(2)根据小概率值的独立性检验,能否认为喜欢烘焙社与性别有关联?
附:
0.15
0.10
0.05
0.025
0.010
0.005
2.072
2.706
3.841
5.024
6.635
7.879
.
题型三 散点图
解|题|技|巧
散点图用于直观展示两个变量之间的相关关系(正相关、负相关、线性、非线性、无相关)。绘制时以横轴为一个变量,纵轴为另一个变量。解题技巧:① 观察点的分布形态:若点大致在一条直线附近,则线性相关;若呈曲线状,则非线性相关;若杂乱无章,则无相关。② 识别异常点(离群点)。③ 通过散点图初步判断是否适合用线性回归模型。注意:散点图不能证明因果关系,仅显示相关性。
【典例1】(24-25高二下·北京丰台·期末)下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )
A. B.
C. D.
【典例2】(24-25高二下·北京东城·期末)对某种动物的三项指标,,进行调查研究.现有这种动物若干只,设每只动物的这三项指标为.若与的散点图如图1和图2所示,那么关于的散点图最合理的为( )
A. B.
C. D.
【变式1】(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
【变式2】(24-25高二下·河北·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
题型四 线性回归直线方程的相关应用
解|题|技|巧
线性回归方程 中,,。应用包括:① 预测:给定 值,计算 ;② 估计斜率与截距的实际意义(如 每增加一个单位, 平均增加 个单位);③ 判断拟合效果:计算相关系数 (越接近1或-1,线性相关越强)。注意回归直线必过点 。
【典例1】(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【典例2】(25-26高三上·福建福州·阶段检测)(多选)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如表:
A大学
B大学
C大学
D大学
毕业生人数x(千人)
3
4
5
m
自主创业人数y(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.y与x正相关
B.
C.当时,残差为
D.样本的相关系数r为负数
【变式1】(24-25高二下·四川绵阳·期末)已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
【变式2】(24-25高二下·辽宁·期末)(多选)为了解某种药物的疗效,患者服用该药物,短时间内血液中药物浓度达到峰值,研究员统计了血液中药物浓度(单位:)与代谢时间(单位:)的数据,如下表所示:
0
1
2
3
4
5
6
150
143
132
123
114
104
95
根据表中数据可得回归方程为,则下列说法正确的是( )
附:回归直线中斜率和截距的最小二乘估计公式分别为,,相关系数.
A.
B.当时,对应样本点的残差为0.32
C.若再增加一组数据,则关于的回归直线的斜率变大
D.若删去数据,则与的相关系数不变
题型五 线性回归直线方程的计算
解|题|技|巧
纯计算题,通常给出数据或统计量(如 )。步骤:① 计算 ;② 代入公式求 ;③ 求 ;④ 写出方程。注意保留精度,有时需利用参考数据。若题目要求用最小二乘法,严格按公式计算。
【典例1】(24-25高二下·重庆·期末)近年来,中国的新能源汽车产业展现出迅猛的发展势头,已然跃升为全球最大的新能源汽车市场.该产业涵盖了电动汽车、插电式混合动力汽车以及燃料电池汽车等多种类型.在电池技术、电机和电控系统等领域,中国的新能源汽车产业取得了引人瞩目的成就.现有一汽车测评栏目为了评估某品牌纯电动汽车的实际续航能力,进行了一系列试验,并收集了相应的数据,详见下表.
速度
6
7
8
9
10
续航里程
4.4
4.2
4
3.9
3.5
(1)根据最小二乘法,计算y关于x的回归方程;
(2)根据你得到的一元线性回归模型,预测速度为时,该电动汽车的续航里程;
(3)计算5组数据的残差,并计算残差之和.
参考公式:线性回归方程中,的最小二乘法估计分别为,.
参考数据:,.
【典例2】(24-25高二下·广西钦州·期末)某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
2
6
8
9
10
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益不少于14.6(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为
,,.
【变式1】(24-25高二下·河南南阳·期末)为促进消费,助力经济发展,某市持续开展了共8期政府消费券发放活动,记第期活动发放的消费券总额为百万元,带动的消费为百万元,根据这8期活动的数据,可得,,且和的样本方差分别为,,用最小二乘法得到关于的线性回归方程为.
(1)求;
(2)若下一期活动政府计划发放10.8百万元的消费券,预计可以带动多少消费;
(3)求相关系数.(结果保留2位小数)
参考公式:相关系数,线性回归方程中,,.参考数据:.
【变式2】.(2025高二·全国·专题练习)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
112
61
44.5
35
30.5
28
25
24
根据以上数据绘制了散点图,如图所示.
由图可知,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型.分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本.
参考数据:(其中)
183.4
0.34
0.115
1.53
360
22385.5
61.4
0.135
题型六 卡方与线性回归直线方程结合
解|题|技|巧
综合题将独立性检验与回归分析结合。例如:先通过卡方检验判断两个分类变量是否相关;若相关,再对其中某一数量变量与另一连续变量做回归分析。解题时分别处理:先完成列联表计算卡方得出结论;再针对需要回归的数据计算回归方程。注意题目可能提供两部分数据,需区分变量类型(分类 vs 数值)。有时也会考察两种方法的适用条件对比。
【典例1】(24-25高二下·福建泉州·期末)2025年春节档一部国产动画电影《哪吒之魔童闹海》横空出世,迅速斩获各项票房冠军,截至3月20日,该电影已进入全球票房榜前五.经权威电影机构调查,得到其前5周的票房数据如下表:
周次
第1周
第2周
第3周
第4周
第5周
周次代码
l
2
3
4
5
票房总额/亿元
40
35
25
37
7
(1)求关于的线性回归方程;
(2)该电影机构为了解民众观影的喜欢程度,随机采访了90名观影人员,得到下表:
是否成年
是否喜欢
合计
不喜欢
喜欢
未成年人
40
50
成年人
10
40
合计
90
依据小概率值的独立性检验,能否认为喜欢电影《哪吒之魔童闹海》和是否成年有关?
附:①,,
在利用最小二乘法求得的线性回归方程中,,;
②,其中.
α
0.1
0.05
0.01
2.706
3.841
6.635
【典例2】随着移动互联网技术的发展,直播带货已经成为热门的销售方式,通过主播的详细介绍,使顾客对商品有更全面的了解.小张统计了某新手主播开启直播带货后从1月份到5月份每个月的销售量(万件)的数据,得到如图所示的散点图.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程?(给出判断即可,不必说明理由),并求出关于的回归方程(计算结果精确到0.01);
(2)随机调查了220名市民对直播带货的认可程度,得到的部分数据见下表:
认可
不认可
50岁以下市民
70
50
50岁以上市民
40
60
依据小概率值的独立性检验,分析市民对直播带货认可程度是否与年龄有关联.
参考公式与数据:,, ,,,其中.,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式1】近年来,养宠物的人越来越多,在供需端及资本的共同推动下中国宠物经济产业迅速增长,数据显示,目前中国养宠户数在全国户数中占比为.
(1)随机抽取200名成年人,并调查这200名成年人养宠物的情况,统计后得到如下列联表:
成年男性
成年女性
合计
养宠物
38
60
98
不养宠物
62
40
102
合计
100
100
200
依据小概率值的独立性检验,判断能否认为养宠物与性别有关?
(2)记2018-2023年的年份代码x依次为中国宠物经济产业年规模为y(单位:亿元),由这6年中国宠物经济产业年规模数据求得y,关于x的回归方程为,且. 求相关系数r并判断该回归方程是否有价值.
参考公式及数据:,其中.
0.10
0.05
0.01
2.706
3.841
6.635
回归方程其中,相关系数;若, 则认为y与x有较强的相关性. 其中 .
【变式2】随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
题型七 非线性回归
解|题|技|巧
当散点图呈曲线形态(如指数、对数、幂函数)时,需进行非线性回归。常用方法:① 通过变量变换转化为线性回归。例如 取对数得 ,令 ,则化为线性; 取对数得 ,令 ;② 变换后计算新变量的回归方程;③ 还原为原变量关系,注意给出预测值时需反变换。解题关键:识别曲线类型,正确选择变换公式,并注意反变换时的常数处理。
【典例1】(24-25高二下·江苏南京·期末)用模型拟合一组数据时,为了求出非线性回归方程,设,其变换后得到线性回归方程为,则c等于( )
A. B. C.2 D.
【典例2】(24-25高二下·湖南·阶段检测)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
【变式1】(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【变式2】(24-25高二下·广东广州·期末)(多选)用模型去拟合一组数据,设,将其变换后得到线性回归方程,则( )
A. B. C. D.
【变式3】(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
期末基础通关练(测试时间:10分钟)
1.(24-25高二下·山西吕梁·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
2.(25-26高二下·河南驻马店·期中)下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小
3.(25-26高二上·江西九江·期末)具有相关关系的变量与的一组样本数据如下,若已求得线性回归方程为,则下列选项错误的是( )
1
2
3
4
5
16
12
11
10
6
A.
B.与具有负相关关系
C.当时,的预测值为0
D.去掉其中某对样本数据,与的样本相关系数可能不变
多选题
4.(25-26高二上·安徽淮北·期末)给出下列实际问题,其中用独立性检验可以解决的问题有( )
A.长寿是否与经常运动有关系
B.吸烟者得肺病的概率
C.吸烟是否与患肺癌有关系
D.某同学的数学成绩与物理成绩是否有关系
5.(24-25高二下·黑龙江·期中)下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
期末重难突破练(测试时间:20分钟)
6.(25-26高二下·广东·期末)通过随机询问某中学110名学生是否爱好跳绳,得到如下列联表.已知, ,根据小概率值的独立性检验,以下结论正确的是( )
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
A.爱好跳绳与性别有关
B.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001
C.爱好跳绳与性别无关
D.爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
7.(25-26高三·全国·一轮复习)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
若与线性相关,且经验回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关
B.在经验回归方程中
C.可以预测时该商场5G手机销量约为1.72千只
D.时,残差为
多选题
8.(2026·山东淄博·三模)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的若干种价格进行试销,统计了连续5个月的月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表所示.则( )
售价x(元/件)
10
11
12
13
14
月销售量y(千件)
10
9
9
7
5
参考公式:①;②;③.
参考数据:,,,.
A.y关于x的线性回归方程为:
B.相关系数(小数点后保留两位)
C.当售价为15元/件时,预测月销售量为3.4千件
D.在线性回归方程的估计下,样本点的残差为
9.(25-26高二下·黑龙江哈尔滨·期中)某学校开展阅读兴趣调查,随机采访男生、女生各人,每人从文学类书籍和科普类书籍中选择最喜欢的一类,喜欢文学类书籍的归为甲组,喜欢科普类书籍的归为乙组.调查发现:甲组成员共人,其中男生人.
(1)根据以上数据,填空下述列联表:
甲组
乙组
合计
男生
女生
合计
(2)依据小概率值的独立性检验,分析学生喜欢文学类还是科普类书籍是否与性别有关;
(3)现从调查的女生中,按分层抽样选出人,再从这人中随机抽取人赠送书签,记赠送书签的人在甲组中的人数为,求的分布列及数学期望.
参考公式:,.
参考数据:
10.(25-26高二下·上海·期末)某景区在五一劳动节期间开展“致敬最美劳动者”主题游园活动,天的入园游客量统计数据如下:
活动开展第天
入园游客量(百人)
(1)由数据看出,可用线性回归模型拟合与的关系,请计算相关系数(保留小数点后两位),并推断相关程度的强弱;
(2)求经验回归方程以及表中第个观测的残差;(观测值减去预测值称为残差)
(3)该景区在活动期间设置个打卡通道,记为通道①、通道②、通道③,游客入园时选择通道①、②、③的概率依次为、、;游客离园时,从原先入园通道离园的概率为,从另两个通道离园的概率均为,求游客从通道①离园的概率.
附:参考公式:相关系数;回归直线方程,其中,;;
期末综合拓展练(测试时间:20分钟)
多选题
11.(2026·广西崇左·一模)已知相关系数,y关于x的经验回归方程中斜率和截距的最小二乘估计公式分别为,,残差平方和为.已知变量x与变量y的部分数据,建立由最小二乘法得到的两个回归模型:以x为自变量,y为因变量,得出的经验回归方程为;以y为自变量,x为因变量,得出的经验回归方程为.若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量x的方差,则可知变量y的标准差
B.若不给定其他信息,则也可得知变量x与变量y各自的平均值
C.若不给定其他信息,则也可得知变量x与变量y的相关系数
D.若已知变量x的标准差,则可知以y为自变量的回归模型的残差平方和
12.(24-25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市
A
B
C
D
E
广告支出x
1
2
3
4
5
销售额W
4
9
14
18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
1 / 4
学科网(北京)股份有限公司
$