内容正文:
第八章 成对数据的统计分析
目录
题型1:变量间的相关关系 5
题型2:一元线性回归模型 10
题型3:非线性回归 12
题型4:列联表与独立性检验 19
题型5:误差分析 30
1.
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
提醒 相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2. 散点图
将成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(1) 正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
(2) 负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3. 样本相关系数
(1)
相关系数的计算
变量和变量的样本相关系数的计算公式:
.
(2)
相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为.
③当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
4. 线性回归方程
对于一组具有线性相关关系的数据,其回归方程的求法为
提醒 经验回归直线过样本点中心.
5. 残差分析
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1) 残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精确度越高,回归方程的预报精度越高.
(2) 残差平方和
残差平方和越小,模型的拟合效果越好.
(3)
决定系数(相关指数)
,越大 (越接近1), 表示残差平方和越小, 即模型的拟合效果越好; 越小(越接近0), 表示残差平方和越大, 即模型的拟合效果越差.
6. 非线性回归分析
研究两个变量的关系时,我们常常根据样本作出散点图,观察散点图中样本点的分布,从整体看,如果样本点没有在某一条直线附近,我们就称这两个变量之间不具有线性相关关系,即这两个变量是非线性相关关系.
解答非线性拟合问题,要先根据散点图选择合适的函数类型,通过对解释变量进行换元,将变量的非线性关系转化为线性关系.
常见函数模型的转化:
(1)
幂函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(2)
指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(3)
倒指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(4)
对数函数型:
处理方法:设原方程就转化为,然后根据一元线性回归模型求出.
7. 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,
提醒 (1)分类变量的不同取值仅表示个体所属的类别;(2)分类变量的取值一定是离散的;
(3)分类变量是大量存在的.
8.
22列联表
假设有两个分类变量和,它们的取值分别为和,其样本频数列联表(称为2×2列联表)为:
总计
总计
其中是样本容量.
9. 独立性检验
计算随机变量,其中.利用随机变量的取值来判断分类变量和是否独立的方法,称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
独立性检验中几个常用的小概率值和相应的临界值():
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
对于小概率值,我们有如下的具体检验规则:
①当时,我们推断(零假设或原假设)不成立,即认为和不独立,该推断犯错误的概率不超过0.05;
②当时,我们没有充分证据推断不成立,可以认为和独立.
题型1:变量间的相关关系
【例1.1.】
某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【答案】
【难度】0.65
【知识点】计算几个数的平均数、相关系数的计算
【分析】根据表中数据求出,进而得出的值,代入公式计算即可得出答案.
【详解】由已知可得,,
,
则,
,
所以,.
故答案为:.
【例1.2.】
在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则( )
A. B. C.1 D.3
【答案】A
【难度】0.85
【知识点】相关系数的意义及辨析
【分析】利用负相关性的定义求解即可.
【详解】由样本数据可知解释变量与响应变量之间具有负相关性,
所以
又因为对应的点均在直线上,
故,故A正确.
故选:A
【例1.3.】
已知变量X与Y相对应的一组数据为,,,,,变量U与V相对应的一组数据为,,,,.表示变量X与Y之间的线性相关系数,表示变量U与V之间的线性相关系数,则下列结论中正确的是( )
A. B. C. D.
【答案】C
【难度】0.94
【知识点】判断正、负相关、相关系数的意义及辨析
【分析】根据正负相关与相关系数的关系分析判断即可.
【详解】由变量X与Y相对应的一组数据,可得变量X与Y之间正相关,∴;
由变量U与V相对应的一组数据,可知变量U与V之间负相关,∴;
综上所述:与的大小关系是.
故选:C.
【例1.4.】
已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,且,,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【答案】A
【难度】0.85
【知识点】相关系数的意义及辨析
【详解】由题意可知,
所以,
因为,所以,则,
所以最大,根据相关系数概念可知,线性相关程度最强的是甲.
【例1.5.】
为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,其中为抽取的第个零件的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ii)请利用已经学过的方差公式:来证明方差第二公式.
(iii)在之外的数据称为离群值,试剔除离群值,并利用(ii)中公式估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本的相关系数,.
【答案】(1);可以认为零件的尺寸不随生产过程的进行而系统地变大或变小
(2)(i)从这一天抽检的结果看,需对当天的生产过程进行检查;(ii)证明见解析;(iii)均值;标准差
【难度】0.65
【知识点】计算几个数的平均数、计算几个数据的极差、方差、标准差、相关系数的计算
【分析】(1)根据数据和公式即可计算的值,根据的规则进行判断即可;
(2)(i)计算的值,根据13个零件的尺寸与区间的关系进行判断;(ii)根据已学公式进行变形即可证明;(iii)代入公式计算即可.
【详解】(1)由题可得,
,
所以,
则,所以可以认为零件的尺寸不随生产过程的进行而系统地变大或变小
(2)(i)由题可得,,
因为第13个零件的尺寸为,,
所以从这一天抽检的结果看,需对当天的生产过程进行检查;
(ii)由于
,证毕.
(iii)剔除离群值后,剩下的数据平均值为,
所以剔除离群值后,这条生产线当天生产的零件尺寸的均值的估计值为,
剔除离群值后,,
所以剔除离群值后,这条生产线当天生产的零件尺寸的标准差,
所以剔除离群值后,这条生产线当天生产的零件尺寸的标准差的估计值为.
题型2:一元线性回归模型
【例2.1.】
在线性回归分析中,已知,,则______.
【答案】5
【难度】0.85
【知识点】线性回归
【分析】展开结合平均值公式推导即可.
【详解】
,
将代入计算得到, ,解得.
故答案为:5.
【例2.2.】
已知变量与变量线性相关,与的样本相关系数为,且由观测数据算得样本平均数,,则由该观测数据算得经验回归方程可能是( )
A. B.
C. D.
【答案】D
【难度】0.85
【知识点】判断正、负相关、相关系数的意义及辨析、根据样本中心点求参数
【分析】根据相关系数的性质以及经验回归方程过样本中心点逐项分析判断.
【详解】因为与的样本相关系数为,可知与为负相关,故A,B错误;
又因为经验回归方程过样本中心点,
对于,则,故C错误;
对于,则,故D正确.
故选:D.
【例2.3.】
对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
【答案】B
【难度】0.85
【知识点】线性回归、计算样本的中心点、根据样本中心点求参数
【分析】根据回归直线过样本中心点列方程求解即可.
【详解】由可知
,.
因为回归直线过样本中心点,即,
将其坐标代入方程可得,解得,
故选:B.
【例2.4.】
(多选)研究变量x,y得到n组成对数据,,2,…,n,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.相关系数不变 B.变量x与y的相关性变强
C.线性回归方程不变 D.回归系数不变
【答案】ACD
【难度】0.65
【知识点】线性回归、相关系数的计算
【分析】设,,得到,,根据相关系数的计算公式,可得判定A正确,B错误;根据回归系数的计算公式,可得判定C和D正确,即可得到答案.
【详解】设,,则,,所以,.
对于A、B中,由,
,,
则相关系数,
可得相关系数不变,所以变量x与y的相关性不变,故A正确,B错误;
对于C、D中,因为,
且回归直线过点,所以均不变,所以线性回归方程不变,故C和D都正确.
故选:ACD.
题型3:非线性回归
【例3.1.】
某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【答案】A
【难度】0.85
【知识点】求回归直线方程、非线性回归
【分析】根据给定数据,利用最小二乘法求出关于的线性回归方程,进而求出关于的回归方程.
【详解】令,,由与呈线性相关关系,得线性回归方程,
则,,
因此,即,所以关于的回归方程为.
【例3.2.】
为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
【答案】C
【难度】0.75
【知识点】非线性回归、计算样本的中心点、根据样本中心点求参数
【分析】根据给定条件,求出样本中心点,进而求出,再还原模型即可.
【详解】依题意,,
由与的线性回归方程,得,则,
即,因此,所以.
【例3.3.】
芯片产业对于国家的科技安全与经济发展具有不可估量的战略意义,近些年来,国家和企业纷纷加大对芯片的投入力度.国内某芯片公司为制订下一年的研发投入计划,需了解年研发资金投入量x(单位:亿元,下同)对年销售额y(单位:亿元,下同)的影响,该公司收集了最近10年的年研发资金投入量和年销售额()的数据:已知第1年的研发资金投入量为2亿元,每年的年研发资金投入量比上一年增长4亿元,随着年研发资金投入量的增长,公司的年销售额也在增长.公司对数据进行了初步处理,得到如下数据(其中,);,,.公司甲、乙两个研究团队用年研发资金投入量x为解释变量,年销售额y为响应变量建立经验回归方程.已知甲研究团队用函数模型①(为常数,e为随机误差)得到的经验回归方程为乙研究团队用函数模型②(为常数,为随机误差).
(1)求乙研究团队建立的一元非线性经验回归方程;
(2)现已知第11年公司投入研发资金40亿元,公司的年销售收入为91亿元.根据以上信息,请你对这两个团队的模型优劣进行比较,并说明理由;
(3)研究发现,这两个模型均满足:对于每一个解释变量t,得到响应变量为u,且年研发资金投入为t亿元时,年销售额y服从正态分布,公司为了保证有97.725%的把握获得年销售额100亿,请你根据你得到的较好模型,问公司预计至少需要投入研发资金约为多少亿元?(保留到0.01)
参考公式与数据:
①成对数据()的经验回归直线方程为,其系数为,.②参考数据:假设,则,.③.④,,,.
【答案】(1);
(2)乙团队的模型更优,答案见解析
(3)(亿元).
【难度】0.51
【知识点】非线性回归、残差的计算、正态分布的实际应用
【详解】(1)已知是首项为2、公差为4的等差数列,,
则由等差数列前n项和公式得,
,
故,对于模型,
令,转化为线性回归.
根据线性回归系数公式:,,
因此,乙团队回归方程为;
(2)甲团队(线性模型):当时,,残差的绝对值;
乙团队(非线性模型):当时,,残差的绝对值,
因为乙团队模型预测值与实际值的残差的绝对值更小,
所以乙团队的模型更优,能更好地拟合数据,反映年研发资金投入量与年销售额的关系;
(3)已知,要保证97.725%把握(对应分位数),
需.代入乙模型,,
得:,解得,
即(亿元).
预计至少需要投入研发资金约为亿元.
【例3.4.】
学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【难度】0.65
【知识点】求回归直线方程、非线性回归
【分析】(1)利用函数①②③的性质及表中的数据,即可求解;
(2)先将非线性回归方程转化成线性回归方程,再根据题设条件,利用最小二乘法,即可求解.
【详解】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
【例3.5.】
为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【答案】(1)
(2).
(3)册
【难度】0.65
【知识点】求回归直线方程、非线性回归、根据回归方程进行数据估计
【分析】(1)因为散点图呈现的是非线性趋势,所以选择更合适;
(2)令,将转化为线性回归方程,利用最小二乘估计公式计算和,进而得到关于的回归方程;
(3)根据利润公式,结合回归方程列出不等式,求解不等式得到印刷数的取值范围,确定至少印刷的册数.
【详解】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
题型4:列联表与独立性检验
【例4.1.】 下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小
【答案】C
【难度】0.82
【知识点】独立性检验的概念及辨析、独立性检验的基本思想、独立性检验解决实际问题
【详解】对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,A错误;
对于B,独立性检验并不能确定两个变量相关,B错误;
对于C,是指“抽烟”和“患肺病”存在关联的可能性大小,并非抽烟人中患肺病的发病率,
因此不可以说在100个吸烟的人中,有99人患肺病,C正确;
对于D,在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,D错误.
【例4.2.】
为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________.
【答案】 /
【难度】0.72
【知识点】独立性检验的概念及辨析、利用全概率公式求概率
【详解】由,且,即有的把握认为二者存在关联,
由题设,则,
所以随机抽取一名学生,其成绩达标的概率为.
【例4.3.】
为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠在照射后天的结果如表所示:
电离辐射剂量
存活情况
合计
死亡
存活
第一种剂量
第二种剂量
合计
由表中数据算得:__________精确到 ,说明两种电离辐射剂量对小白鼠的致死作用__________填“相同”或“不相同”.(已知)
【答案】 . 不相同
【难度】0.85
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据给定的数表,求出的观测值,再与临界值表比对作答.
【详解】由列联表中数据,计算得,
所以在犯错误的概率不超过0.05的前提下认为小白鼠的死亡与使用的电离辐射剂量有关,
即两种电离辐射剂量对小白鼠的致死作用不相同.
【例4.4.】
为了解喜爱钓鱼是否与性别有关,某同学随机在人群中抽取了若干人进行调查,抽取男性人数与女性人数相同,男性喜爱钓鱼的人数占男性人数的,女性喜爱钓鱼的人数占女性人数的,若有的把握认为是否喜爱钓鱼与性别有关,则被调查的男性中不喜爱钓鱼的至少有( )
附:,其中.
A.人 B.人 C.人 D.人
【答案】C
【难度】0.65
【知识点】卡方的计算
【分析】设被调查的男性有人,则女性有人,列出列联表,根据独立性检验的基本思想可得出关于的不等式,结合可得出的值,即可得出被调查的男性中不喜爱钓鱼的人数至少为.
【详解】设被调查的男性有人,则女性有人,根据题意,可得列联表如下:
钓鱼
性别
男性
女性
总计
喜爱钓鱼
不喜爱钓鱼
总计
则,
本次调查得出“有的把握认为是否喜爱钓鱼与性别有关”的结论,
可得,解得,
又因为列联表中相关人数需为整数,则,
所以,被调查的男性中不喜爱钓鱼的至少有人.
【例4.5.】
我国清洁能源产业领跑全球,风电、光伏等发电规模稳居世界首位.如今我国率先开辟全新发展赛道,依托本土充沛低价绿电搭建智算中心,将电能转化为算力进而生成AI Token完成对外输出.我国自主生成的AI Token综合成本仅为欧美市场的,国产自研AI模型在全球算力服务时长中占比超,行业优势十分突出.为研究AI技术普及前后,电力企业依托Token出海模式的收益变化是否存在关联,调研人员抽取家电力企业开展统计,得到如下列联表:
收益显著提升
收益未明显提升
合计
AI技术推出前
AI技术推出后
合计
(1)根据小概率值的独立性检验,分析电力企业收益提升情况与AI技术推出是否有关联;
(2)利用分层抽样从全部家企业中抽取家企业,再从抽取到的企业里随机选取家,设这家企业中收益显著提升的企业数量为,求的分布列与数学期望.
附,其中,
【答案】(1)根据小概率值的独立性检验,认为电力企业收益提升情况与AI技术推出有关联
(2)的分布列为
.
【难度】0.6
【知识点】卡方的计算、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)先设零假设:收益提升与AI技术无关,再用卡方公式代入列联表数据计算统计量,与对应的临界值比较,判断是否拒绝,得出关联结论;
(2)先按抽样比分层抽取家企业,得到家收益显著提升、家未明显提升;再根据超几何分布定义,写出的可能取值,计算对应概率并列出分布列,最后用超几何分布期望公式或分布列直接计算.
【详解】(1)零假设:电力企业收益提升情况与AI技术推出无关联,
根据表中数据可得,,
因为,所以零假设不成立,
根据小概率值的独立性检验,认为电力企业收益提升情况与AI技术推出有关联.
(2)抽样比:,收益显著提升的企业共家,抽取数量:家,
收益未明显提升的企业共家,抽取数量:家,
抽取的家企业中,家 “收益显著提升”,家 “收益未明显提升”,
由题意,服从超几何分布:的可能取值为,
,,,
,,
所以的分布列为
.
【例4.6.】
(多选)某校高二年级某次数学周测成绩,且,现随机抽取100名学生的成绩,统计两个变量:①变量A指是否坚持课前预习(“是”与“否”各50人);②变量B指该次数学周测成绩是否在内.整理列联表,计算得,则参考临界值:( )
A.
B.
C.根据小概率值0.10的独立性检验,认为变量A与变量B不独立
D.根据小概率值0.05的独立性检验,认为变量A与变量B不独立
【答案】ABC
【难度】0.7
【知识点】独立性检验解决实际问题、正态曲线的性质、根据正态曲线的对称性求参数
【分析】根据已知及正态分布的对称性判断A、B,应用独立性检验基本思想判断C、D.
【详解】正态分布密度曲线关于直线对称,且,
所以,则,A、B正确.
因为,
在显著性水平为的独立性检验中,认为变量A与变量B不独立,
在显著性水平为的独立性检验中,认为变量A与变量B独立,
C正确,D错误.
【例4.7.】 随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.
(1)为了更好了解大众对新能源汽车的接受程度,某城市汽车行业协会依据年龄采用分层随机抽样的方式,从40岁以下和40岁及以上两个年龄层中各抽取100名市民进行调查,并对他们选择新能源汽车,还是选择传统汽车进行意向调查,得到了如下列联表:
选择新能源汽车
选择传统汽车
总计
40岁以下
70
30
100
40岁及以上
40
60
100
总计
110
90
200
(i)记选择新能源汽车者中年龄在40岁以下的概率为,求的估计值;
(ii)依据小概率值的独立性检验,分析选择新能源汽车是否与年龄有关.
(2)为了了解该地区新能源汽车的销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销售量(单位:万台)关于年份的线性回归方程,且销售量的方差为,年份的方差为.求与间的样本相关系数,并据此判断该地区新能源汽车销售量与年份的线性相关性强弱.
附:(i)在线性回归方程中,,;
(ii)样本相关系数,若,则可判断与线性相关性很强;
(iii),其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)(i)(ii)可以认为选择新能源汽车与年龄有关系
(2),与线性相关性很强
【难度】0.65
【知识点】独立性检验解决实际问题、卡方的计算、相关系数的计算、线性回归
【分析】(1)(i)根据古典概型计算公式计算求解;(ii)计算根据临界值表判断即可;
(2)根据最小二乘法结合题中参考公式计算求解即可判断.
【详解】(1)(i)由题可知,样本中选择新能源汽车者中年龄在40岁以下的频率为,
由样本估计总体可得选择新能源汽车者中年龄在40岁以下的概率.
(ii)零假设为:选择新能源汽车与年龄无关,
由列联表中数据代入计算得:,
所以依据小概率值的独立性检验,推断不成立,
即可以认为选择新能源汽车与年龄有关系,此推断犯错误的概率不超过.
(2)因为,,
所以,
故与线性相关性很强.
【例4.8.】 某车企计划在A 市优化无人快递车的投放量,为测试运行稳定性,并确定投放规模,进行如下调查.
(1)为了测试无人快递车的运行稳定性,随机抽取了200辆进行运行测试,得到部分数据,请完成2×2列联表,并回答:有99%的把握认为无人快递车故障与是否维保有关吗?
维保
未维保
合计
故障
12
40
未故障
合计
120
200
(2)对过去的投放量x (单位:百辆)与服务次数y (单位:万次)的数据进行了统计,得到如下表格:
x
1
2
3
4
5
6
7
y
5
13
32
79
200
501
1259
拟用函数模型或 对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量x与服务次数y的回归方程模型(给出判断即可,不必说明理由)?并求出y关于x的回归方程.
参考数据: ,
0.1
0.05
0.01
2.706
3.841
6.635
298.4
1.9
13262
64.4
2
【答案】(1)列联表见解析;有99%的把握认为无人快递车故障与是否维保有关
(2)选择更适宜,回归方程为
【难度】0.62
【知识点】求回归直线方程、非线性回归、完善列联表、卡方的计算
【分析】(1)根据题意完成列联表,利用独立性检验公式,计算的值可判断;
(2)根据题意应选指数函数模型,根据已知条件两边同时取对数,转化为关于与的一次函数模型,结合参考数据即可求解;
【详解】(1)由题意得:
维保
未维保
合计
故障
12
28
40
未故障
108
52
160
合计
120
80
200
所以,
所以有99%的把握认为无人快递车故障与是否维保有关;
(2)选择更适宜,
由,所以,
令,所以,
因为,
所以,
所以,
所以,即,所以,
所以关于的回归方程为:.
【例4.9.】
人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市120名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于4次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
60
超过45岁
c
60
合计
120
(1)已知从这60名年龄超过45岁的教师中随机抽取2人,2人都喜欢使用技术的概率为.据此完善上面的列联表(最终答案写出参数的取值即可,无需在答题卡上绘制表格),并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,从不超过45岁的样本中,按是否喜欢使用技术进行分层,利用分层随机抽样方法,从中抽取10人进行简单的问卷调查,再从这10人中随机抽取3人进行专访,记抽取的3人中喜欢使用技术的人数为,求的分布列以及数学期望.
(3)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取3人,求其中至少2人喜欢使用技术的条件下,3人年龄均不超过45岁的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表见解析,依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关.
(2)分布列见解析,,
(3)
【难度】0.52
【知识点】卡方的计算、写出简单离散型随机变量分布列、计算条件概率、求离散型随机变量的均值
【分析】(1)根据组合计数原理以及古典概型的概率公式可得出关于的方程,解出的值,可完善二列联表,利用独立性检验可得结论;
(2)根据超几何的概率公式即可求解分布列,
(3)求出、的值,利用条件概率公式可求得结果.
【详解】(1)设超过45岁的教师中喜欢使用技术的有人,
由题意可得,即,整理可得,
因为,解得.
补充列联表如下
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
54
6
60
超过45岁
36
24
60
合计
90
30
120
零假设该市教师喜欢使用技术与年龄无关,
.
依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关.
(2)根据表中数据可知:不超过45岁的人群中,喜欢和不喜欢使用技术的人数比为,
因此抽取的10人中,喜欢使用技术的有9人,不喜欢使用技术的有1人,
故可取2,3,
且,
故的分布列为
2
3
故
(3)记事件A为至少2人喜欢使用技术,事件B为3人年龄均不超过45岁.
全市某名中学教师喜欢使用技术的概率,
不超过45岁且喜欢使用的概率,
所以,
,
由条件概率公式可得.
题型5:误差分析
【例5.1.】
已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
【答案】D
【难度】0.72
【知识点】解释回归直线方程的意义、相关系数的意义及辨析、残差的计算、决定系数的计算及分析
【详解】对于①,残差图中,残差点所在水平带状区域越窄,说明残差波动越小,
即回归方程的预报精确度越高,残差点所在水平带状区域越宽,说明残差波动越大,
即回归方程的预报精确度越低,错误;
对于②,决定系数越接近1,说明模型对数据的拟合效果越好,故模型甲的拟合效果更好,错误;
对于③,回归直线过样本数据,,,的中心点,
并不一定过样本数据中的某一个点,错误;
对于④,在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强,正确.
【例5.2.】
(多选)已知,,,,,5个数据的散点图如图所示,采用一元线性回归模型建立经验回归方程.经分析确定为“离群点”,故将其去掉,将数据去掉后,下列说法正确的有( ).
A.样本相关系数r变大
B.残差平方和变小
C.决定系数变大
D.若经验回归直线过点,则其经验回归方程为
【答案】BCD
【难度】0.65
【知识点】求回归直线方程、相关系数的意义及辨析、残差的计算、决定系数的计算及分析
【分析】根据散点图的性质可知去掉E后相关性变强判断A选项;残差平方和以及决定系数判断BC选项;根据回归直线的性质判断D.
【详解】对于选项A:由图可知,变量x与变量y是负相关,
且将数据去掉后,样本相关系数r的绝对值变大,
所以r变小,故选项A错误;
对于选项B:将数据去掉后,变量x与变量y的相关性变强,
所以残差平方和变小,决定系数变大,故选项B,C正确;
对于选项D:设经验回归方程为,经计算得,
且,,可得,,
所以经验回归方程是,所以选项D正确.
故选:BCD.
【例5.3.】 为调查某企业年利润Y(单位:万元)和它的年研究费用x(单位:万元)的相关性,收集了5组成对数据(x,y),如表所示:
x
1
2
3
4
5
Y
50
60
70
80
100
由上表中数据求得Y关于x的经验回归方程为,据此计算出样本点处的残差为( )
A.4 B.5 C.-4 D.-5
【答案】C
【难度】0.82
【知识点】残差的计算、根据样本中心点求参数
【详解】依题意,,,
由回归方程必过样本中心,得,解得,
所以在样本点处的残差为.
【例5.4.】
(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【答案】BCD
【难度】0.68
【知识点】相关系数的意义及辨析、残差的计算、决定系数的计算及分析、根据回归方程进行数据估计
【分析】A选项,相关系数的正负决定正负相关,可根据线性回归方程的正负进行判断;
B选项,根据数据点与预测值的差判断残差;
C选项,可利用计算,代入线性回归方程计算平均建筑面积;
D选项,决定系数越接近1,拟合效果越好,比较两个决定系数大小判断拟合效果即可.
【详解】A选项,因为,故房屋的建筑面积和销售价格y呈正相关,相关系数为,A错误;
B选项,代入,可得的预测值:,残差为:,故B正确;
C选项,,因为线性回归方程恒过点,故,
解得:,C正确;
D选项,决定系数越接近1,拟合效果越好,因为,故甲机构选取的模型拟合效果更好,D正确.
【例5.5.】 (多选)如果散点图中所有的散点都落在一条斜率为非0的直线上,则( )
A.解释变量和响应变量是线性函数关系 B.解释变量和响应变量是线性相关关系
C.相关系数 D.决定系数
【答案】AD
【难度】0.94
【知识点】根据散点图判断是否线性相关、相关系数的计算、决定系数的计算及分析
【分析】根据散点图得这两个变量线性相关,由此逐项判断得解.
【详解】由散点图中所有的散点都落在一条斜率为非0的直线上,
得解释变量和响应变量是线性函数关系,不是线性相关关系,,,BC错误,AD正确.
故选:AD
【例5.6.】
(多选)为更好地促进同学们的动手能力,某学校拟开展物理实验周活动,组织同学们到实验室中开展物理实验.在某个实验中,某同学利用自己测量得出的实验数据(已知其中含1个异常样本点),利用最小二乘法进行计算得出了经验回归方程及决定系数.并利用计算机处理得到了以下的实验结果1,实验结果2为删除该异常样本点后利用最小二乘法进行计算得到的经验回归方程及决定系数,则( )
A.可认为该实验中的自变量与因变量符合线性回归模型
B.推测实验结果1中的异常样本点的自变量的值可能为0.33
C.由于,则实验结果1相较于实验结果2拟合更好
D.实验结果1的因变量的平均值大于实验结果2的因变量的平均值
【答案】AB
【难度】0.65
【知识点】线性回归、相关系数的意义及辨析
【分析】利用图即可判断AB,由决定系数的意义即可判断C,根据图象估计平均值即可判断D.
【详解】对于A:由散点图可知该实验中的自变量与因变量符合线性回归模型,故A正确;
对于B:根据实验结果1的图可知异常样本点的自变量的值可能为0.33,故B正确;
对于C:由于,则实验结果2相较于实验结果1拟合得更好,故C错误;
对于D:由于实验结果1包含了异常样本点对应的因变量值接近,比其他正常样本点对应的因变量值小得多,
故实验结果1的因变量的平均值小于实验结果2的因变量的平均值,即D错误.
故选:AB.
(
1
)
学科网(北京)股份有限公司
$
第八章 成对数据的统计分析
目录
题型1:变量间的相关关系 5
题型2:一元线性回归模型 7
题型3:非线性回归 8
题型4:列联表与独立性检验 11
题型5:误差分析 16
1.
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
提醒 相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2. 散点图
将成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(1) 正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
(2) 负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3. 样本相关系数
(1)
相关系数的计算
变量和变量的样本相关系数的计算公式:
.
(2)
相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为.
③当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
4. 线性回归方程
对于一组具有线性相关关系的数据,其回归方程的求法为
提醒 经验回归直线过样本点中心.
5. 残差分析
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1) 残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精确度越高,回归方程的预报精度越高.
(2) 残差平方和
残差平方和越小,模型的拟合效果越好.
(3)
决定系数(相关指数)
,越大 (越接近1), 表示残差平方和越小, 即模型的拟合效果越好; 越小(越接近0), 表示残差平方和越大, 即模型的拟合效果越差.
6. 非线性回归分析
研究两个变量的关系时,我们常常根据样本作出散点图,观察散点图中样本点的分布,从整体看,如果样本点没有在某一条直线附近,我们就称这两个变量之间不具有线性相关关系,即这两个变量是非线性相关关系.
解答非线性拟合问题,要先根据散点图选择合适的函数类型,通过对解释变量进行换元,将变量的非线性关系转化为线性关系.
常见函数模型的转化:
(1)
幂函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(2)
指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(3)
倒指数函数型:
处理方法:两边取对数,得,即,设则原方程变为.具体计算时,先将原数据点转化为,,再根据一元线性回归模型求出和.
(4)
对数函数型:
处理方法:设原方程就转化为,然后根据一元线性回归模型求出.
7. 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,
提醒 (1)分类变量的不同取值仅表示个体所属的类别;(2)分类变量的取值一定是离散的;
(3)分类变量是大量存在的.
8.
22列联表
假设有两个分类变量和,它们的取值分别为和,其样本频数列联表(称为2×2列联表)为:
总计
总计
其中是样本容量.
9. 独立性检验
计算随机变量,其中.利用随机变量的取值来判断分类变量和是否独立的方法,称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
独立性检验中几个常用的小概率值和相应的临界值():
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
对于小概率值,我们有如下的具体检验规则:
①当时,我们推断(零假设或原假设)不成立,即认为和不独立,该推断犯错误的概率不超过0.05;
②当时,我们没有充分证据推断不成立,可以认为和独立.
题型1:变量间的相关关系
【例1.1.】
某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【例1.2.】
在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则( )
A. B. C.1 D.3
【例1.3.】
已知变量X与Y相对应的一组数据为,,,,,变量U与V相对应的一组数据为,,,,.表示变量X与Y之间的线性相关系数,表示变量U与V之间的线性相关系数,则下列结论中正确的是( )
A. B. C. D.
【例1.4.】
已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,且,,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【例1.5.】
为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,其中为抽取的第个零件的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ii)请利用已经学过的方差公式:来证明方差第二公式.
(iii)在之外的数据称为离群值,试剔除离群值,并利用(ii)中公式估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本的相关系数,.
题型2:一元线性回归模型
【例2.1.】
在线性回归分析中,已知,,则______.
【例2.2.】
已知变量与变量线性相关,与的样本相关系数为,且由观测数据算得样本平均数,,则由该观测数据算得经验回归方程可能是( )
A. B.
C. D.
【例2.3.】
对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
【例2.4.】
(多选)研究变量x,y得到n组成对数据,,2,…,n,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.相关系数不变 B.变量x与y的相关性变强
C.线性回归方程不变 D.回归系数不变
题型3:非线性回归
【例3.1.】
某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【例3.2.】
为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
【例3.3.】
芯片产业对于国家的科技安全与经济发展具有不可估量的战略意义,近些年来,国家和企业纷纷加大对芯片的投入力度.国内某芯片公司为制订下一年的研发投入计划,需了解年研发资金投入量x(单位:亿元,下同)对年销售额y(单位:亿元,下同)的影响,该公司收集了最近10年的年研发资金投入量和年销售额()的数据:已知第1年的研发资金投入量为2亿元,每年的年研发资金投入量比上一年增长4亿元,随着年研发资金投入量的增长,公司的年销售额也在增长.公司对数据进行了初步处理,得到如下数据(其中,);,,.公司甲、乙两个研究团队用年研发资金投入量x为解释变量,年销售额y为响应变量建立经验回归方程.已知甲研究团队用函数模型①(为常数,e为随机误差)得到的经验回归方程为乙研究团队用函数模型②(为常数,为随机误差).
(1)求乙研究团队建立的一元非线性经验回归方程;
(2)现已知第11年公司投入研发资金40亿元,公司的年销售收入为91亿元.根据以上信息,请你对这两个团队的模型优劣进行比较,并说明理由;
(3)研究发现,这两个模型均满足:对于每一个解释变量t,得到响应变量为u,且年研发资金投入为t亿元时,年销售额y服从正态分布,公司为了保证有97.725%的把握获得年销售额100亿,请你根据你得到的较好模型,问公司预计至少需要投入研发资金约为多少亿元?(保留到0.01)
参考公式与数据:
①成对数据()的经验回归直线方程为,其系数为,.②参考数据:假设,则,.③.④,,,.
【例3.4.】
学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【例3.5.】
为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
题型4:列联表与独立性检验
【例4.1.】 下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以确定两个变量之间是否具有某种关系
C.利用独立性检验推断吸烟与患肺病的关联中,若有的把握认为吸烟与患肺病有关系时,我们不可以说在100个吸烟的人中,有99人患肺病
D.在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越小
【例4.2.】
为研究课后整理错题习惯与数学成绩达标之间的关联性,经独立性检验计算得,临界值,.记事件为“学生成绩达标”,事件为“学生坚持整理错题”;已知,,,则有________的把握认为二者存在关联;随机抽取一名学生,其成绩达标的概率为________.
【例4.3.】
为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠在照射后天的结果如表所示:
电离辐射剂量
存活情况
合计
死亡
存活
第一种剂量
第二种剂量
合计
由表中数据算得:__________精确到 ,说明两种电离辐射剂量对小白鼠的致死作用__________填“相同”或“不相同”.(已知)
【例4.4.】
为了解喜爱钓鱼是否与性别有关,某同学随机在人群中抽取了若干人进行调查,抽取男性人数与女性人数相同,男性喜爱钓鱼的人数占男性人数的,女性喜爱钓鱼的人数占女性人数的,若有的把握认为是否喜爱钓鱼与性别有关,则被调查的男性中不喜爱钓鱼的至少有( )
附:,其中.
A.人 B.人 C.人 D.人
【例4.5.】
我国清洁能源产业领跑全球,风电、光伏等发电规模稳居世界首位.如今我国率先开辟全新发展赛道,依托本土充沛低价绿电搭建智算中心,将电能转化为算力进而生成AI Token完成对外输出.我国自主生成的AI Token综合成本仅为欧美市场的,国产自研AI模型在全球算力服务时长中占比超,行业优势十分突出.为研究AI技术普及前后,电力企业依托Token出海模式的收益变化是否存在关联,调研人员抽取家电力企业开展统计,得到如下列联表:
收益显著提升
收益未明显提升
合计
AI技术推出前
AI技术推出后
合计
(1)根据小概率值的独立性检验,分析电力企业收益提升情况与AI技术推出是否有关联;
(2)利用分层抽样从全部家企业中抽取家企业,再从抽取到的企业里随机选取家,设这家企业中收益显著提升的企业数量为,求的分布列与数学期望.
附,其中,
【例4.6.】
(多选)某校高二年级某次数学周测成绩,且,现随机抽取100名学生的成绩,统计两个变量:①变量A指是否坚持课前预习(“是”与“否”各50人);②变量B指该次数学周测成绩是否在内.整理列联表,计算得,则参考临界值:( )
A.
B.
C.根据小概率值0.10的独立性检验,认为变量A与变量B不独立
D.根据小概率值0.05的独立性检验,认为变量A与变量B不独立
【例4.7.】 随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.
(1)为了更好了解大众对新能源汽车的接受程度,某城市汽车行业协会依据年龄采用分层随机抽样的方式,从40岁以下和40岁及以上两个年龄层中各抽取100名市民进行调查,并对他们选择新能源汽车,还是选择传统汽车进行意向调查,得到了如下列联表:
选择新能源汽车
选择传统汽车
总计
40岁以下
70
30
100
40岁及以上
40
60
100
总计
110
90
200
(i)记选择新能源汽车者中年龄在40岁以下的概率为,求的估计值;
(ii)依据小概率值的独立性检验,分析选择新能源汽车是否与年龄有关.
(2)为了了解该地区新能源汽车的销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销售量(单位:万台)关于年份的线性回归方程,且销售量的方差为,年份的方差为.求与间的样本相关系数,并据此判断该地区新能源汽车销售量与年份的线性相关性强弱.
附:(i)在线性回归方程中,,;
(ii)样本相关系数,若,则可判断与线性相关性很强;
(iii),其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【例4.8.】 某车企计划在A 市优化无人快递车的投放量,为测试运行稳定性,并确定投放规模,进行如下调查.
(1)为了测试无人快递车的运行稳定性,随机抽取了200辆进行运行测试,得到部分数据,请完成2×2列联表,并回答:有99%的把握认为无人快递车故障与是否维保有关吗?
维保
未维保
合计
故障
12
40
未故障
合计
120
200
(2)对过去的投放量x (单位:百辆)与服务次数y (单位:万次)的数据进行了统计,得到如下表格:
x
1
2
3
4
5
6
7
y
5
13
32
79
200
501
1259
拟用函数模型或 对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量x与服务次数y的回归方程模型(给出判断即可,不必说明理由)?并求出y关于x的回归方程.
参考数据: ,
0.1
0.05
0.01
2.706
3.841
6.635
298.4
1.9
13262
64.4
2
【例4.9.】
人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市120名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于4次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
60
超过45岁
c
60
合计
120
(1)已知从这60名年龄超过45岁的教师中随机抽取2人,2人都喜欢使用技术的概率为.据此完善上面的列联表(最终答案写出参数的取值即可,无需在答题卡上绘制表格),并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,从不超过45岁的样本中,按是否喜欢使用技术进行分层,利用分层随机抽样方法,从中抽取10人进行简单的问卷调查,再从这10人中随机抽取3人进行专访,记抽取的3人中喜欢使用技术的人数为,求的分布列以及数学期望.
(3)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取3人,求其中至少2人喜欢使用技术的条件下,3人年龄均不超过45岁的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
题型5:误差分析
【例5.1.】
已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
【例5.2.】
(多选)已知,,,,,5个数据的散点图如图所示,采用一元线性回归模型建立经验回归方程.经分析确定为“离群点”,故将其去掉,将数据去掉后,下列说法正确的有( ).
A.样本相关系数r变大
B.残差平方和变小
C.决定系数变大
D.若经验回归直线过点,则其经验回归方程为
【例5.3.】 为调查某企业年利润Y(单位:万元)和它的年研究费用x(单位:万元)的相关性,收集了5组成对数据(x,y),如表所示:
x
1
2
3
4
5
Y
50
60
70
80
100
由上表中数据求得Y关于x的经验回归方程为,据此计算出样本点处的残差为( )
A.4 B.5 C.-4 D.-5
【例5.4.】
(多选)为研究某城市二手房销售价格与建筑面积的关系,甲房产研究机构随机调查了80套该城市二手房的建筑面积(单位:平方米)和销售价格y(单位:万元)的数据,已知其中有一套房源的数据为点,且,根据数据求得的线性经验回归方程为,该线性回归方程对应的相关系数为r,对应的决定系数,则下列结论正确的是( )
A.
B.数据点P对应的残差的绝对值为5
C.该样本中二手房的平均建筑面积为95平方米
D.乙房产研究机构也对这组数据进行处理,得到非线性经验回归方程,其决定系数为,则甲机构选取的模型拟合效果更好
【例5.5.】 (多选)如果散点图中所有的散点都落在一条斜率为非0的直线上,则( )
A.解释变量和响应变量是线性函数关系 B.解释变量和响应变量是线性相关关系
C.相关系数 D.决定系数
【例5.6.】
(多选)为更好地促进同学们的动手能力,某学校拟开展物理实验周活动,组织同学们到实验室中开展物理实验.在某个实验中,某同学利用自己测量得出的实验数据(已知其中含1个异常样本点),利用最小二乘法进行计算得出了经验回归方程及决定系数.并利用计算机处理得到了以下的实验结果1,实验结果2为删除该异常样本点后利用最小二乘法进行计算得到的经验回归方程及决定系数,则( )
A.可认为该实验中的自变量与因变量符合线性回归模型
B.推测实验结果1中的异常样本点的自变量的值可能为0.33
C.由于,则实验结果1相较于实验结果2拟合更好
D.实验结果1的因变量的平均值大于实验结果2的因变量的平均值
(
1
)
学科网(北京)股份有限公司
$