内容正文:
专题01 成对数据的统计分析
目录
典例详解
类型一、两个变量的相关关系
类型二、一元线性回归模型及应用
类型三、一元非线性回归模型及应用
类型四、2×2列联表与独立性检验
压轴专练
类型一、两个变量的相关关系
1.相关关系
两个变量间的关系有函数关系,相关关系和不相关关系.两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4.散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
5.相关系数r的计算
若相应于变量的取值,变量的观测值为,则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
例1.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
变式1-1.(多选)某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
A. B. C. D.
变式1-2.某软件科技公司近8年的年利润额y与投入的年研发经费x(单位:千万元)如表所示.
x
3
4
5
6
6
7
8
9
y
根据散点图可以认为x与y之间存在线性相关关系,且相关系数,用最小二乘法求线性回归方程(,用分数表示), .(参考数据:,.)
变式1-3.维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度(单位:)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:
甲醛浓度
/()
18
20
22
24
26
28
30
缩醛化度
/克分子%
26.86
28.35
28.75
28.87
29.75
30.00
30.36
(1)画散点图;
(2)求线性回归方程;
(3)求相关系数.
类型二、一元线性回归模型及应用
1.一元线性回归模型
我们称,为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性回归方程与最小二乘法
回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征.
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
3.残差(偏差)的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法,残差平方和 (yi-i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果,决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
R2=1-,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
例2.(多选)假设变量与变量的对观测数据为,两个变量满足一元线性回归模型要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,若某汽车品牌从2020~2024年的年销量为(万辆),其中年份对应的代码为,如表,
年份代码
1
2
3
4
5
销量(万辆)
4
9
14
18
25
根据散点图和相关系数判断,它们之间具有较强的线性相关关系,可以用线性回归模型描述
令变量,且变量与变量满足一元线性回归模型则下列结论正确的有( )
A. B.
C. D.2025年的年销售量约为34.4万辆
变式2-1.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
第年
1
2
3
4
5
6
7
8
9
人数
3.54
3.42
3.29
3.15
3.02
2.88
2.79
2.74
2.70
变式2-2.已知我国2015年至2023年的乡村就业人员连续9年的人数如表(人数单位:亿人),其中第1年为2015年,第2年为2016年,依次类推:
计算得到相关数据:.
(1)判断年份与人数之间是否具有较强的线性相关性;
(2)某同学误将2019年的数据抄漏,其余均按照剩下的正确8组数据计算.(下列计算结果均保留两位小数)
①利用最小二乘法,求该同学得到的年份与人数之间的线性回归方程;
②证明:由该同学求得的线性回归模型的决定系数比由原数据求得的线性回归模型的决定系数大.
附:①样本相关系数,当时,认为两个变量有较强的线性相关性;
②利用最小二乘法计算回归直线,截距和斜率的估计公式为,;
③决定系数.
变式2-3.随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:千人),得到如下表格:
大学
A大学
B大学
C大学
D大学
2022年毕业人数x(千人)
7
6
5
4
2022年考研人数y(千人)
0.5
0.4
0.3
0.2
(1)已知y与x具有较强的线性相关关系,求:y关于x的线性回归方程;
(2)假设该省对选择考研的大学生每人发放0.5万元的补贴.
①若该省大学2022年毕业生人数为8千人,估计该省要发放补贴的总全额:
②若大学的毕业生中小浙、小江选择考研的概率分别为,,该省对小浙、小江两人的考研补贴总金额的期望不超过0.75万元,求的取值范围.
参考公式:,.
类型三、一元非线性回归模型及应用
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
2.非线性经验回归方程转化为线性经验回归方程常用方法:
例3.兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q元/千克)与上市时间t(单位:天)的数据如下表所示:
时间t/(单位:天)
10
20
70
销售价格Q(单位:元/千克)
100
50
100
根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q与上市时间t的变化关系:.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为( )
A.6月5日 B.6月15日 C.6月25日 D.7月5日
变式3-1.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
变式3-2.某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
变式3-3.经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
类型四、2×2列联表与独立性检验
1.2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
3.临界值与可信程度
χ2=
统计上已经证明:在变量A,B独立的前提下,当样本量很大时,χ2 近似服从一个已知的分布χ2 (1).当χ2 较大时,说明变量之间不独立.在统计中,用以下结果对变量的独立性进行判断.
(1)当χ2 ≤ 2.706时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当χ2 >2.706时,有90%的把握判断变量A,B有关联;
(3)当χ2 >3.841时,有95%的把握判断变量A,B有关联;
(4)当χ2 >6.635时,有99%的把握判断变量A,B有关联.
4.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
5.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
例4.为考察药物A对预防疾病B的效果,在两个不同规模的动物种群中分别进行了试验,根据种群一的试验结果得到如下列联表:
药物A
疾病B
合计
未患病
患病
未服用
28
22
50
服用
34
16
50
合计
62
38
100
计算得到.假设种群二试验结果对应的列联表中,每个单元格的数据都为上表对应单元格数据的5倍,则根据小概率值的独立性检验,( )
附:,
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
A.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过5%
B.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过10%
C.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过1%
D.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过0.5%
变式4-1.为落实五育并举,同时增强高中生的综合素质,某校领导计划利用课间时间开展足球社团活动,为了使该活动顺利开展,了解学生是否对足球感兴趣与性别的关系,现从某年级的学生中随机抽取了男、女同学各50名,整理得到下列列联表:
性别
兴趣爱好
感兴趣
不感兴趣
总计
男
50
女
50
总计
80
20
100
使得“有但没有的把握认为男、女同学对足球感兴趣有差异”的的一个值为 .
变式4-2.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人
0.050
0.010
0.001
3.841
6.635
10.828
参考数据及公式如下:参考公式:,其中.
变式4-3.石墨烯发热膜在生产生活中应用广泛.从石墨中分离石墨烯的一种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶.现在有A材料、B材料可供选择,研究人员对附着在A材料、B材料上的石墨各做了100次再结晶试验,得到如下等高堆积条形图.
(1)根据等高堆积条形图,填写如下列联表,并依据的独立性检验,分析试验结果与材料是否有关;
(单位:次)
A材料
B材料
合计
试验成功
试验失败
合计
(2)制作1吨石墨烯发热膜有甲、乙两个环节,其中甲环节生产合格的概率为,乙环节生产合格的概率为,且各生产环节相互独立.若生产不合格还需进行修复,甲环节的修复费用为3万元,乙环节修复费用均为2万元.设随机变量为制作石墨烯发热膜所产生的修复费用,求的分布列及数学期望.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
一、单选题
1.已知变量之间的线性回归方程为,且变量之间的一组相关数据如表所示,则下列说法错误的是( )
x
2
4
6
8
y
6
m
3
2
A.变量之间呈现负相关关系 B.变量之间的相关系数
C.m的值等于5 D.由表格数据知,该回归直线必过点
2.通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由计算得: 参照附表,则下列结论正确的是( )
A.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过
C.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过的前提下,我们认为爱好跳绳与性别无关
3.某校对学生记忆力和判断力进行统计分析,所得数据如表:
记忆力
2
5
6
8
9
判断力
7
8
10
12
18
则关于的线性回归方程为( )
A. B.
C. D.
4.如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
5.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份
2018年
2019年
2020年
2021年
2022年
年份代码x
1
2
3
4
5
云计算市场规模y/千万元
7.4
11
20
36.6
66.7
2
2.4
3
3.6
4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
6.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为( )
附:样本相关系数
A. B. C. D.1
二、多选题
7.下列说法正确的是( )
A.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越小
B.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是,3
C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其回归直线方程为,若其中一个散点坐标为,则
D.将两个具有相关关系的变量x,y的一组数据,,…,调整为,,,决定系数不变
8.研究变量,的相关关系时,得到了组成对数据,,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则第二次线性回归分析后( )
参考公式:①回归直线,,
②相关系数.
A.相关系数不变 B.变量与的相关性变强
C.线性回归方程不变 D.回归系数不变
三、填空题
9.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则 .
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
10.某校课外学习社对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男、女生人数相同,男生中有的学生喜欢网络游戏,女生中有的学生喜欢网络游戏,若有超过的把握但没有的把握认为是否喜欢网络游戏和性别有关,则被调查的学生中男生可能有 人.
附:,其中.
0.05
0.01
3.841
6.635
四、解答题
11.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
12.某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:(单位:人)
愿意参与管理
不愿意参与管理
合计
男性村民
150
50
女性村民
50
合计
(1)求出样本相关系数的大小,(精确到0.01)并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)依据的独立性检验,分析村民的性别与参与管理的意愿是否有关;
(3)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的数学期望.
参考公式:,其中.
临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考数据:.
1 / 10
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题01 成对数据的统计分析
目录
典例详解
类型一、两个变量的相关关系
类型二、一元线性回归模型及应用
类型三、一元非线性回归模型及应用
类型四、2×2列联表与独立性检验
压轴专练
类型一、两个变量的相关关系
1.相关关系
两个变量间的关系有函数关系,相关关系和不相关关系.两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4.散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
5.相关系数r的计算
若相应于变量的取值,变量的观测值为,则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
例1.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
【答案】A
【分析】由回归方程可得,设去掉数据后,新数据为,
注意到,结合相关系数计算公式可得答案.
【详解】由题可得原数据,因过点,
则,从而.
设去掉数据后,新数据为,则
,又因,,
则,,从而.
故选:A
变式1-1.(多选)某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
A. B. C. D.
【答案】ABD
【分析】根据给定条件,求出数据修正前后的相关量,再比较大小即得.
【详解】数据修正前:
,
,,
,
,,
数据修正后:
,
,,
,
,,
因此,,,而,则,ABD正确,C错误.
故选:ABD.
变式1-2.某软件科技公司近8年的年利润额y与投入的年研发经费x(单位:千万元)如表所示.
x
3
4
5
6
6
7
8
9
y
根据散点图可以认为x与y之间存在线性相关关系,且相关系数,用最小二乘法求线性回归方程(,用分数表示), .(参考数据:,.)
【答案】
【分析】首先计算和 ,再比较参考公式,即可求解.
【详解】,
,
由条件可知,
得,所以,
故答案为:.
变式1-3.维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度(单位:)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:
甲醛浓度
/()
18
20
22
24
26
28
30
缩醛化度
/克分子%
26.86
28.35
28.75
28.87
29.75
30.00
30.36
(1)画散点图;
(2)求线性回归方程;
(3)求相关系数.
【答案】(1)作图见解析;(2);(3)0.96
【分析】(1)根据表格作出图形即可;(2)列表计算相关的数据利用公式分别算出即可;(3)利用公式计算即可
【详解】(1)散点图如图:
(2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算
,
所以,
所以
∴线性回归方程为.
(3)由,
所以
.
类型二、一元线性回归模型及应用
1.一元线性回归模型
我们称,为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性回归方程与最小二乘法
回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征.
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
3.残差(偏差)的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法,残差平方和 (yi-i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果,决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
R2=1-,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
例2.(多选)假设变量与变量的对观测数据为,两个变量满足一元线性回归模型要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,若某汽车品牌从2020~2024年的年销量为(万辆),其中年份对应的代码为,如表,
年份代码
1
2
3
4
5
销量(万辆)
4
9
14
18
25
根据散点图和相关系数判断,它们之间具有较强的线性相关关系,可以用线性回归模型描述
令变量,且变量与变量满足一元线性回归模型则下列结论正确的有( )
A. B.
C. D.2025年的年销售量约为34.4万辆
【答案】AC
【分析】利用线性回归方程待定系数公式,再由变量的线性代换关系进行计算,最后恒过样本点,就可得到线性回归方程.
【详解】由可得:,
同理由,可得,
根据公式,故A正确;B错误;
由表格中数据可得:,
,
,
所以,
由于,所以与的回归方程必过原点,,
又由于,代入得:
,整理得:,故C正确;
当,即表示2025年,此时,
所以2025年的年销售量约为万辆,故D错误;
故选:AC.
变式2-1.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
【答案】B
【分析】根据线性回归和最小二乘法知识进行求解即可.
【详解】根据表中数据可求得:
,.
因为经验回归方程经过点,得.
解得,所以A正确;
所以经验回归方程为.
当时,,
所以残差为,所以B错误;
因为经验回归方程为,,所以正相关,所以C正确;
令,则,所以D正确.
故选:B.
第年
1
2
3
4
5
6
7
8
9
人数
3.54
3.42
3.29
3.15
3.02
2.88
2.79
2.74
2.70
变式2-2.已知我国2015年至2023年的乡村就业人员连续9年的人数如表(人数单位:亿人),其中第1年为2015年,第2年为2016年,依次类推:
计算得到相关数据:.
(1)判断年份与人数之间是否具有较强的线性相关性;
(2)某同学误将2019年的数据抄漏,其余均按照剩下的正确8组数据计算.(下列计算结果均保留两位小数)
①利用最小二乘法,求该同学得到的年份与人数之间的线性回归方程;
②证明:由该同学求得的线性回归模型的决定系数比由原数据求得的线性回归模型的决定系数大.
附:①样本相关系数,当时,认为两个变量有较强的线性相关性;
②利用最小二乘法计算回归直线,截距和斜率的估计公式为,;
③决定系数.
【答案】(1)有较强的线性相关性;(2)①;②证明见详解.
【分析】(1)对公式变形,直接代入值求相关系数,再对照比较判断即可;
(2)①根据数据求出回归方程即可;
②根据题意计算发现回归方程一样,决定系数的分母一样,所以只要比较分子即可.
【详解】(1),,
所以
,
即,所以年份与人数之间具有较强的线性相关性.
(2)①2019年对应第5组数据,
则剩余8组数据的,,
,
,
所以线性回归方程为.
②证明:,
该同学,
根据题意原数据的回归方程也为,
则时,,所以,
所以,又决定系数,
所以该同学求得的线性回归模型的决定系数比由原数据求得的线性回归模型的决定系数大.
变式2-3.随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:千人),得到如下表格:
大学
A大学
B大学
C大学
D大学
2022年毕业人数x(千人)
7
6
5
4
2022年考研人数y(千人)
0.5
0.4
0.3
0.2
(1)已知y与x具有较强的线性相关关系,求:y关于x的线性回归方程;
(2)假设该省对选择考研的大学生每人发放0.5万元的补贴.
①若该省大学2022年毕业生人数为8千人,估计该省要发放补贴的总全额:
②若大学的毕业生中小浙、小江选择考研的概率分别为,,该省对小浙、小江两人的考研补贴总金额的期望不超过0.75万元,求的取值范围.
参考公式:,.
【答案】(1);(2)① 300(万元);②
【分析】(1)利用参考公式分别求出与,代入即可求得;
(2)对于①,利用(1)中的代入估计得选择考研的人数,即可求得结果;
对于②,先设小浙与小江两人中选择考研的人数为X,求出其数学期望,进而求得考研补贴的数学期望,计算,结合即可求得结果.
【详解】(1)由题意得,,
又,∴
∵,∴,
∴,所以,
故得y关于x的线性回归方程为.
(2)①将代入,
估计该省要发放补贴的总金额为(万元)
②设小浙、小江两人中选择考研的人数为X,则X的所有可能值为0,1,2;
,
,
,
∴,
∴,解得,
又,∴,∴,
故p的取值范围为.
类型三、一元非线性回归模型及应用
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
2.非线性经验回归方程转化为线性经验回归方程常用方法:
例3.兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q元/千克)与上市时间t(单位:天)的数据如下表所示:
时间t/(单位:天)
10
20
70
销售价格Q(单位:元/千克)
100
50
100
根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q与上市时间t的变化关系:.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为( )
A.6月5日 B.6月15日 C.6月25日 D.7月5日
【答案】C
【分析】根据表中数据,描述杨梅销售价格Q与上市时间t的变化关系不可能是常数函数、也不可能是单调函数,应选取进行描述,将表中数据代入可得,利用配方法结合日期可得答案.
【详解】根据表中数据,描述杨梅销售价格Q与上市时间t的变化关系不可能是常数函数、也不可能是单调函数,
函数在时均为单调函数,这与表格中的数据不吻合,
所以应选取进行描述,
将表中数据代入可得
,解得,所以,
,所以当时杨梅销售价格最低,
而6月5日时,6月15日时,6月25日时,7月5日时,
所以时杨梅销售价格最低.
故选:C.
变式3-1.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
【答案】C
【分析】由题意把,代入线性回归方程,结合对数函数的性质可得.
【详解】已知,把,代入可得:
,即.
因为对数函数在上单调递增,且,所以,即有最大值为.
故选:C.
变式3-2.某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【答案】(1)选. (2);690
【分析】(1)观察散点图,结合散点图的特征选择合适的回归方程类型.
(2)由,得.再根据所给数据,结合线性回归方程的有关计算公式,可求回归方程,再令求值即可.
【详解】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,
所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.
(2)因为表示活动推出的天数,,则.
.
因为,所以.
所以,所以.
又,所以.
所以.
当时,.
所以预测活动推出第8天售楼部来访的人次为690.
变式3-3.经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1);(2)
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)设相应事件,可得相应概率,结合全概率公式计算概率运算求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,
所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
类型四、2×2列联表与独立性检验
1.2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
3.临界值与可信程度
χ2=
统计上已经证明:在变量A,B独立的前提下,当样本量很大时,χ2 近似服从一个已知的分布χ2 (1).当χ2 较大时,说明变量之间不独立.在统计中,用以下结果对变量的独立性进行判断.
(1)当χ2 ≤ 2.706时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当χ2 >2.706时,有90%的把握判断变量A,B有关联;
(3)当χ2 >3.841时,有95%的把握判断变量A,B有关联;
(4)当χ2 >6.635时,有99%的把握判断变量A,B有关联.
4.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
5.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
例4.为考察药物A对预防疾病B的效果,在两个不同规模的动物种群中分别进行了试验,根据种群一的试验结果得到如下列联表:
药物A
疾病B
合计
未患病
患病
未服用
28
22
50
服用
34
16
50
合计
62
38
100
计算得到.假设种群二试验结果对应的列联表中,每个单元格的数据都为上表对应单元格数据的5倍,则根据小概率值的独立性检验,( )
附:,
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
A.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过5%
B.当时,种群一中药物A对预防疾病B有效,该推断犯错误的概率不超过10%
C.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过1%
D.当时,种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过0.5%
【答案】C
【分析】设各项数据变为原来的5倍后,根据题意计算对应出的值,参考数据逐项分析即可得出答案.
【详解】对于A,B,因为,
所以当时,无法推断种群一中药物A对预防疾病B有效,故A,B错误;
对于C,由,将各项数据变为原来的5倍,
则,
所以当时,则种群二中药物A对预防疾病B有效,该推断犯错误的概率不超过.故C正确;
对于D,因为,
所以当时,无法推断种群二中药物A对预防疾病B有效,故D错误.
故选:C.
变式4-1.为落实五育并举,同时增强高中生的综合素质,某校领导计划利用课间时间开展足球社团活动,为了使该活动顺利开展,了解学生是否对足球感兴趣与性别的关系,现从某年级的学生中随机抽取了男、女同学各50名,整理得到下列列联表:
性别
兴趣爱好
感兴趣
不感兴趣
总计
男
50
女
50
总计
80
20
100
使得“有但没有的把握认为男、女同学对足球感兴趣有差异”的的一个值为 .
【答案】35(或36或44或45,答案不唯一)
【分析】由独立性检验公式可得,据此可得答案.
【详解】易知,依题意可知,
解得或,
又,,,
则,.
得或,故的可能取值为35,36,44,45.
故答案为:35(或36或44或45,答案不唯一)
变式4-2.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人
0.050
0.010
0.001
3.841
6.635
10.828
参考数据及公式如下:参考公式:,其中.
【答案】48
【分析】设男生人数为,依题意列出列联表,分析出根据小概率值的独立性检验,判断中学生追星与性别有关,则,再代入的公式求出的范围,再根据的实际意义即可求出男生的最少人数.
【详解】设男生人数为,依题意可得列联表为
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,
由,解得.
由题意知,应为6的整数倍,
所以若根据小概率值的独立性检验,
判断中学生追星与性别有关,则男生至少有48人.
故答案为:48.
变式4-3.石墨烯发热膜在生产生活中应用广泛.从石墨中分离石墨烯的一种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶.现在有A材料、B材料可供选择,研究人员对附着在A材料、B材料上的石墨各做了100次再结晶试验,得到如下等高堆积条形图.
(1)根据等高堆积条形图,填写如下列联表,并依据的独立性检验,分析试验结果与材料是否有关;
(单位:次)
A材料
B材料
合计
试验成功
试验失败
合计
(2)制作1吨石墨烯发热膜有甲、乙两个环节,其中甲环节生产合格的概率为,乙环节生产合格的概率为,且各生产环节相互独立.若生产不合格还需进行修复,甲环节的修复费用为3万元,乙环节修复费用均为2万元.设随机变量为制作石墨烯发热膜所产生的修复费用,求的分布列及数学期望.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表见解析,试验结果与材料有关;(2)分布列见解析,
【分析】(1)利用等高堆积条形图作出列联表,根据卡方公式及独立性检验思想计算即可;
(2)利用条件列出分布列计算期望即可.
【详解】(1)根据题中所给等高堆积条形图,得列联表如下:
零假设为:试验结果与材料无关.
计算可得,
依据的独立性检验,推断不成立,即认为试验结果与材料有关.
(2)的可能取值为0,2,3,5.
,,,,
则的分布列为
数学期望.
一、单选题
1.已知变量之间的线性回归方程为,且变量之间的一组相关数据如表所示,则下列说法错误的是( )
x
2
4
6
8
y
6
m
3
2
A.变量之间呈现负相关关系 B.变量之间的相关系数
C.m的值等于5 D.由表格数据知,该回归直线必过点
【答案】B
【分析】根据线性回归方程的概念,和经过样本中心的性质,计算出参数值,分别判断ACD三个选项的正误,根据相关系数公式,计算相关系数大小,判断B的正误.
【详解】由,可知,呈现负相关,所以A正确;
由题意可知,,样本中心点,
代入得,解得,所以C正确,
所以样本中心点为,所以D正确;
样本相关系数,
所以B不正确.
故选:B.
2.通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由计算得: 参照附表,则下列结论正确的是( )
A.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过
C.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过的前提下,我们认为爱好跳绳与性别无关
【答案】A
【分析】根据独立性检验的原理逐项判断可得答案.
【详解】零假设为:爱好跳绳与性别无关.
A.∵,
∴根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为爱好跳绳与性别无关.选项A正确.
B. ∵,
∴根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为爱好跳绳与性别无关,但无法判断这个结论犯错误的概率是否超过.选项B错误.
C.∵,
∴根据小概率值的独立性检验,我们认为爱好跳绳与性别有关.选项C错误.
D. ∵,
∴在犯错误的概率不超过的前提下,我们认为爱好跳绳与性别有关.选项D错误.
故选:A.
3.某校对学生记忆力和判断力进行统计分析,所得数据如表:
记忆力
2
5
6
8
9
判断力
7
8
10
12
18
则关于的线性回归方程为( )
A. B.
C. D.
【答案】B
【分析】方法一 由表中数据知,随着的增大增大,所以与正相关排除A,D,由回归直线过样本点的中心点可得答案;方法二 由表中数据求出关于的线性回归方程可得答案.
【详解】方法一 由表中数据知,随着的增大,增大,所以与正相关,排除A,D,
又,,
由回归直线过样本点的中心,代入验证知B正确.
方法二 ,,
,,
所以关于的线性回归方程为.
故选:B.
4.如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
【答案】C
【分析】由散点可判断出正相减,去掉离群点后,线性关系更强,由离群点的位置判断去掉离群点后回归方程的斜率变化.
【详解】共8个点且离群点P的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,故C正确
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,故D错误
有,,故AB错误.
故选:C.
5.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份
2018年
2019年
2020年
2021年
2022年
年份代码x
1
2
3
4
5
云计算市场规模y/千万元
7.4
11
20
36.6
66.7
2
2.4
3
3.6
4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
【答案】B
【分析】根据可得线性回归方程,再由回归方程求出2025年的预测值,代入即可得解.
【详解】因为,
所以,
即经验回归方程,
当时,,
所以,
即2025年该科技公司云计算市场规模y的估计值为,
故选:B
6.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为( )
附:样本相关系数
A. B. C. D.1
【答案】B
【分析】设,,,,,,与的夹角为,与的夹角为,再由相关系数可知,则与夹角的余弦值的最大值为,利用余弦差角公式求值即可.
【详解】设,,,
,,,
由样本相关系数公式可知,,
设与的夹角为,与的夹角为,则有,
易知均为锐角且,
与夹角的余弦值的最大值为,此时与样本相关系数最大,
,
故的样本相关系数的最大值为.
故选:B.
二、多选题
7.下列说法正确的是( )
A.对于独立性检验,随机变量的值越小,判定“两变量有关系”犯错误的概率越小
B.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是,3
C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其回归直线方程为,若其中一个散点坐标为,则
D.将两个具有相关关系的变量x,y的一组数据,,…,调整为,,,决定系数不变
【答案】BD
【分析】根据独立性检验的原理可判断A;对两边取对数,对照求解可判断B;由回归方程不一定过样本点可判断C,根据决定系数公式可判断D.
【详解】对A,由独立性检验的原理可知,的值越小,判定“两变量有关系”犯错误的概率越大,错误;
对B,对两边取对数得,即,
又,所以,即,正确;
对C,回归方程不一定过样本点,所以无法确定的值,错误;
对D,由决定系数公式可知,
当代换成时,和的值都没有发生变化,故决定系数不变,正确.
故选:BD
8.研究变量,的相关关系时,得到了组成对数据,,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则第二次线性回归分析后( )
参考公式:①回归直线,,
②相关系数.
A.相关系数不变 B.变量与的相关性变强
C.线性回归方程不变 D.回归系数不变
【答案】ACD
【分析】当添加新的数据点时,需要重新计算新的均值、斜率、截距及相关系数.通过分析新增点对这些统计量的影响,判断回归系数、相关系数和回归方程是否变化.
【详解】设,,
则,,所以,.
对于A,B,由,
,,
则相关系数,
可得相关系数不变,变量的相关性不变,故A正确,B错误;
对于C,D,因为,且回归直线过点,
所以,均不变,所以线性回归方程不变,故C和D均正确,
故选:ACD.
三、填空题
9.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归公式为.经计算可知:,,,则 .
x
1
2
3
5
7
10
11
20
25
30
y
9.02
5.27
4.06
3.03
2.59
2.28
2.21
1.89
1.80
1.75
【答案】
【分析】利用相关系数与回归系数的关系,结合已知数据计算.需要先求出,再通过求出分子,最后代入公式得到.
【详解】因为,,所以.
由,
解得,所以.
故答案为:
10.某校课外学习社对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男、女生人数相同,男生中有的学生喜欢网络游戏,女生中有的学生喜欢网络游戏,若有超过的把握但没有的把握认为是否喜欢网络游戏和性别有关,则被调查的学生中男生可能有 人.
附:,其中.
0.05
0.01
3.841
6.635
【答案】45,或50,或55,或60,或65
【分析】设男生有人,然后列出列联表,利用公式求出,则由题意可得,从而可求出.
【详解】设男生有人,则由题意可得列联表如下
则,
因为有超过的把握但没有的把握认为是否喜欢网络游戏和性别有关,
所以,得,
因为为5的整数倍,
所以可能取值为45,50,55,60,65,
即被调查的学生中男生可能有45,或50,或55,或60,或65人,
故答案为:45,或50,或55,或60,或65
四、解答题
11.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【分析】(1)计算相关系数,根据相关系数的绝对值大小得出结论;
(2)(i)两边取自然对数,转化为线性回归方程求解,再转化为指数式即可;
(ii)根据(i)的结论预测销售额y达到80亿元时研发投入即可得解.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
12.某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:(单位:人)
愿意参与管理
不愿意参与管理
合计
男性村民
150
50
女性村民
50
合计
(1)求出样本相关系数的大小,(精确到0.01)并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)依据的独立性检验,分析村民的性别与参与管理的意愿是否有关;
(3)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的数学期望.
参考公式:,其中.
临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考数据:.
【答案】(1)0.93,管理时间与土地使用面积线性相关;(2)有关;(3).
【分析】(1)根据条件,直接利用公式即可求解;
(2)根据条件,计算出值,即可求解;
(3)法一、由题知的可能取值为,再求出相应的概率,利用期望的计算公式,即可求解;法二、根据条件,可得,再利用二项分布的期望计算公式,即可求解.
【详解】(1)由题知,,,
,
,,
则
故管理时间与土地使用面积线性相关.
(2)依题意,列联表如下:(单位:人)
零假设为:村民的性别与参与管理的意愿无关.
计算可得.
依据的独立性检验,推断不成立,即认为村民的性别与参与管理的意愿有关.
(3)法一:依题意,的可能取值为,从该县中随机抽取一位村民,
取到不愿意参与管理的男性村民的概率为,
故,
故的分布列为
则数学期望.
法二:依题意,从该县中随机抽取一位村民,取到不愿意参与管理的男性村民的概率为,
由题易知,故.
1 / 10
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$