内容正文:
第九章
第48讲 成对数据的统计分析
统 计
第2课时 非线性回归模型与回归效果分析、列联表与独立性检验
1
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的E(e)=0的假设
C.不满足一元线性回归模型的D(e)=σ2的假设
D.不满足一元线性回归模型的E(e)=0和D(e)=σ2的假设
【解析】
【答案】C
2.(教材经典题)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为(附:x0.1=2.706,x0.05=3.841) ( )
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
【解析】
因为χ2=2.974<x0.05=3.841,所以变量x与y独立.又2.706<2.974<3.841,所以这个结论犯错误的概率不超过0.1.
C
3.(2025·石家庄二模)(多选)下列结论正确的是 ( )
A.当研究两个变量之间的关联程度时,若样本相关系数的绝对值|r|越接近于1,则两个变量的线性相关程度越弱
B.在评估模型拟合效果时,决定系数R2越接近1,表示模型对数据的拟合效果越好
D.设关于分类变量X与Y的独立性检验的原假设为H0:X与Y无关,根据分类变量X与Y的成对样本数据,计算得到χ2=4.172,依据α=0.05的独立性检验,没有充分证据推断H0不成立,即认为X与Y无关
【解析】
因为样本相关系数的绝对值越接近1两个变量的线性相关程度越强,故A错误;
因为决定系数R2越接近1,表示模型对数据的拟合效果越好,故B正确;
因为χ2=4.172>3.841,应拒绝原假设H0,即认为X与Y有关联,而非无关,故D错误.
【答案】BC
4.(教材经典题)调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:
单位:人
【解析】
性别 出生时间 合计
晚上 白天
女 24 31 55
男 8 26 34
合计 32 57 89
依据α=0.1的独立性检验,则在犯错误的概率不超过_______的前提下可以认为性别与出生时间有关联.(附:x0.1=2.706)
0.1
1.残差与决定系数
(1) 残差
观测值减去预测值所得的差
(2) 决定系数:R2=_________________,R2越______,模型拟合效果越好,反之,越差.
大
2.2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X Y 合计
Y=y1 Y=y2
X=x1 a b a+b
X=x2 c d c+d
合计 a+c b+d n=a+b+c+d
3.临界值
4.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,没有充分证据推断H0不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
目标
1
非线性经验回归方程
视角1 对数型经验回归方程
某电动车公司为了抢占更多的市场份额,计划加大广告投入,该公司近 5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)的关系如图所示.
1-1
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1) 请从样本相关系数的角度分析哪一个模型拟合程度更好;
【解答】
视角1 对数型经验回归方程
某电动车公司为了抢占更多的市场份额,计划加大广告投入,该公司近 5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)的关系如图所示.
1-1
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(2) 根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的经验回归方程,并预测年广告费为6百万元时电动车的年销售量.
【解答】
视角2 指数型经验回归方程
云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.从中国信息通信研究院发布的《云计算白皮书(2022年)》可知,我国2017年至2021年云计算市场规模数据统计表如下:
1-2
年份 2017年 2018年 2019年 2020年 2021年
年份代码x 1 2 3 4 5
云计算市场规模y/亿元 692 962 1 334 2 091 3 229
【解答】
求非线性经验回归方程的常见转化类型:
(1) 对数函数型y=bln x+a的处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据求线性经验回归模型的方法求出a,b.
(3) 幂函数型y=axb(a>0)可作变换Y=ln y,m=ln a,t=ln x,则有Y=m+bt.
(4) 指数函数型y=kabx(a>0且a≠1,k>0)可作变换Y=ln y,m=ln k,则有Y=m+(bln a)x.
目标
2
回归效果分析
视角1 残差分析
假定产品产量x(单位:千件)与单位成本y(单位:元/件)之间存在相关关系.统计数据如下:
【解答】
作出散点图如图所示.
2-1
x 2 3 4 3 4 5
y 73 72 71 73 69 68
(1) 以x为解释变量,y为预报变量,作出散点图;
假定产品产量x(单位:千件)与单位成本y(单位:元/件)之间存在相关关系.统计数据如下:
【解答】
2-1
x 2 3 4 3 4 5
y 73 72 71 73 69 68
(2) 求y与x之间的经验回归方程,当单位成本为70元/件时,预报产量为多少?
令y=70,则70=-1.82x+77.37,解得x≈4.05,所以当单位成本为70元/件时,预报产量约为4.05千件.
假定产品产量x(单位:千件)与单位成本y(单位:元/件)之间存在相关关系.统计数据如下:
【解答】
2-1
x 2 3 4 3 4 5
y 73 72 71 73 69 68
(3) 计算各组残差,并计算残差平方和.(保留两位小数)
视角2 决定系数
如图是某企业2019年至2025年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2019~2025.
(1) 由折线图看出,可用线性回归模型拟合y和t的关系,请建立y关于t的经验回归方程,并预测2028年该企业的污水净化量;
2-2
【解答】
如图是某企业2019年至2025年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2019~2025.
(2) 请用决定系数说明回归方程预报的效果.
2-2
【解析】
刻画回归效果的三种方法
(1) 残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(3) 决定系数法:R2越接近1,表明拟合效果越好.
目标
3
列联表与独立性检验
(2026·泉州期初)为比较A,B两种AI教学系统在提升教师备课效率方面的差异,研究人员在某地区随机招募了200名教师,并随机分配其中100名使用系统A,其余100名使用系统B.经过一个月的试用后,以“备课时间减少15%以上”作为备课效率显著提升的标准,经整理得到如下列联表:
3
(1) 记事件“该地区教师使用系统A后,备课效率显著提升”的概率为P,求P的估计值;
使用的教学系统 备课效率 合计
显著提升 没有显著提升
系统A 75 25 100
系统B 55 45 100
合计 130 70 200
【解答】
(2026·泉州期初)为比较A,B两种AI教学系统在提升教师备课效率方面的差异,研究人员在某地区随机招募了200名教师,并随机分配其中100名使用系统A,其余100名使用系统B.经过一个月的试用后,以“备课时间减少15%以上”作为备课效率显著提升的标准,经整理得到如下列联表:
3
(2) 根据小概率值α=0.005的独立性检验,分析这两种AI教学系统在显著提升教师备课效率方面是否存在差异.
附:x0.005=7.879.
使用的教学系统 备课效率 合计
显著提升 没有显著提升
系统A 75 25 100
系统B 55 45 100
合计 130 70 200
【解答】
独立性检验的方法:
(1) 构造2×2列联表;
(2) 计算χ2;
(3) 查表确定有多大的把握判定两个变量有关联.
注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的xα值与求得的χ2值相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.
变式3 (2024·全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1) 填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
附:x0.05=3.841,x0.01=6.635.
【解答】
(1) 由题目所给数据得到如下2×2列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
因为4.687 5>3.841=x0.05,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异.因为4.687 5<6.635=x0.01,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
变式3 (2024·全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
【解答】
【解析】
A
2.(2025·张家口二模)商品价格与销量之间往往存在某种关系,以下是某商品价格x(单位:元)与销量y(单位:万件)的调研数据:
商品价格x/元 10 15 20 25 30
销量y/万件 54 46 40 36 32
则下面回归方程中最适宜作为销量y与价格x的回归方程的是(参考数据:ln 2≈0.7,ln 3≈1.1,ln 5≈1.6) ( )
A.y=-1.4x+70 B.y=-0.7x+60
C.y=100-20ln x D.y=60-3ln x
【解析】
对于A,分别代入x=10,30,可得y=56,28,与实际值相差较大,不合题意,故A错误;
对于B,分别代入x=10,30,可得y=53,39,第五组数据与实际值相差较大,不合题意,故B错误;
对于C,分别代入x=10,15,20,25,30,求得y的估计值与实际值完全相同,应采用,故C正确;
对于D,代入x=10,可得y=60-3ln 10=60-3×(ln 2+ln 5)≈53.1,代入x=30,得y=60-3(ln 2+ln 3+ln 5)≈49.8,数据与实际值相差较大,不合题意,故D错误.
【答案】C
3.(2025·苏州期末)(多选)为比较甲、乙学校学生的数学水平,采取简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名学生数学成绩优秀;乙校45名学生中有7名学生数学成绩优秀.整理数据如下表:
学校 数学成绩 合计
不优秀 优秀
甲 33 10 43
乙 38 7 45
合计 71 17 88
则下列说法正确的有 ( )
A.甲校的数学抽测成绩优秀率一定比乙校的数学抽测成绩优秀率高
B.甲校的数学成绩优秀率一定比乙校的数学成绩优秀率高
C.甲校的数学成绩优秀人数可能比乙校的数学成绩优秀人数多
D.根据小概率值α=0.1的独立性检验,可以认为两校的数学成绩优秀率几乎没有差异
【解析】
对于B,抽测的样本的优秀率可能代表性差,不一定能真实反映两校的优秀率,故B错误;
对于C,甲校的数学优秀人数有可能比乙校的数学优秀人数多,故C正确;
【答案】ACD
图(1) 图(2)
【解析】
对于C,D,由题图可知,新数据的分布更集中,所以方差更小,决定系数更大,故C错误,D正确.
【答案】ABD
配套练习题
α 0.1 0.05 0.025 0.01 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
一、单项选择题
1.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验,则可以认为 ( )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
【解析】
零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.根据列联表中的数据,χ2≈4.881<7.879=x0.005,根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
C
x 3 4 6 7
z 2 2.5 4.5 7
A.-2 B.-1
C.e-2 D.e-1
【解析】
【答案】C
【解析】
【答案】A
【解析】
【答案】D
二、多项选择题
5.(2025·新余二模)某农科院研制出了一种防治玉米病虫害的新药.为了解该药的防治效果,科研人员选用了100粒玉米种子(其中一部分用该药做了处理)进行试验,从中任选1粒,发现此粒种子抗病虫害的概率为0.8.已知未填写完整的2×2列联表如下表所示,则 ( )
A.这100粒玉米种子中经过该药处理且不抗病虫害的有6粒
B.这100粒玉米种子中抗病虫害的有84粒
C.χ2的观测值约为13.428
D.根据小概率值α=0.001的独立性检验,可以认为该新药有效
抗病虫害 不抗病虫害 合计
种子经过该药处理 60
种子未经过该药处理 14
合计 100
【解析】
由题可将2×2列联表补充完整如下:
抗病虫害 不抗病虫害 合计
种子经过该药处理 60 6 66
种子未经过该药处理 20 14 34
合计 80 20 100
由上表可知A正确,B错误;
【答案】AD
6.(2025·湛江一模)已知A(1,6),B(2,4),C(3,4),D(4,2),E(5,4),5个数据的散点图如图所示,采用一元线性回归模型建立经验回归方程.经分析确定E(5,4)为“离群点”,故将其去掉,将数据E(5,4)去掉后,下列说法正确的有 ( )
A.样本相关系数r变大
B.残差平方和变小
C.决定系数R2变大
【解析】
对于A,由图可知,变量x与变量y是负相关,且将数据E(5,4)去掉后,样本相关系数r的绝对值变大,但r变小,故A错误;
对于B,C,将数据E(5,4)去掉后,变量x与变量y的相关性变强,所以残差平方和变小,决定系数R2变大,故B,C正确;
【答案】BCD
【解析】
【答案】CD
【解析】
0.3e-4
【解析】
设男性患者有x人,则女性患者有2x人,得 2×2列联表如下:
【答案】12
四、解答题
10.(2025·全国Ⅰ卷)为研究某疾病与超声检查结果的关系,从做过超声检查的人群中随机调查了1 000人,得到如下列联表:
超声检查结果 合计
正常 不正常
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1) 记超声检查结果不正常者患该疾病的概率为p,求p的估计值;
【解答】
10.(2025·全国Ⅰ卷)为研究某疾病与超声检查结果的关系,从做过超声检查的人群中随机调查了1 000人,得到如下列联表:
超声检查结果 合计
正常 不正常
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(2) 根据小概率值α=0.001的独立性检验,分析超声检查结果是否与患该疾病有关.
【解答】
11.近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2021年至2025年的利润(单位:亿元),得到如图所示的散点图.其中2021年至2025年对应的年份代码依次为1,2,3,4,5.
【解答】
11.近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2021年至2025年的利润(单位:亿元),得到如图所示的散点图.其中2021年至2025年对应的年份代码依次为1,2,3,4,5.
(2) 根据(1)中的判断结果,建立y关于x的经验回归方程;
【解答】
11.近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2021年至2025年的利润(单位:亿元),得到如图所示的散点图.其中2021年至2025年对应的年份代码依次为1,2,3,4,5.
(3) 根据(2)的结果,估计2026年的企业利润.
【解答】
y i
vi
(xi-)2
(yi-)2
44
4.8
10
40.3
(vi-)2
(xi-)(yi-)
(yi-)(vi-)
1.612
19.5
8.06
y i
vi
(xi-)2
(yi-)2
44
4.8
10
40.3
(vi-)2
(xi-)(yi-)
(yi-)(vi-)
1.612
19.5
8.06
(2) 已知升级改造前该工厂产品的优级品率为p=0.5.设 为升级改造后抽取的n件产品的优级品率.如果 >p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(附:≈12.247)
4.(2025·梅州质检)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为R=0.891 3和R=0.994 0,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为 ( )
参考数据:令ωi=ln yi.
(xi-)2
(xi-)·(yi-)
(xi-)·(ωi-)
3
2.5
0.5
10
12
6
A.=1.2x-1.1 B.=0.6x-1.3 C.=e1.2x-1.1 D.=e0.6x-1.3
设=ex+,两边取对数得ln =x+,又=ln,则=x+,因此===0.6,=-=0.5-0.6×3=-1.3,即ln =0.6x-1.3,=e0.6x-1.3,C错误,D正确.
7.(2025·福州四模)有一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn),设=i,=i,由这组数据得到新成对样本数据(x1+,y1+),(x2+,y2+),…,(xn+,yn+).利用一元线性回归模型,根据最小二乘法,下列结论一定正确的是( )
附:经验回归方程=+x中,=,=-.样本相关系数r=,决定系数R2=1-.
A.两条经验回归直线都过点(,) B.两条经验回归直线的截距相同
C.两组数据的样本相关系数相同 D.两组数据的决定系数相同
A型疾病
B型疾病
总计
男
x
女
2x
总计
3x
$