内容正文:
专题08 成对数据的统计分析十种考法
解题知识必备 1
压轴题型讲练 1
类型一、变量间的相关关系…………………………………………………………4
类型二、相关系数的计算……………………………………………………………6
类型三、相关系数与其他知识综合 7
类型四、由散点图画求近似回归方程 12
类型五、残差的计算 14
类型六、一元线性回归模型 15
类型七、非线性回归 28
类型八、列联表与独立性检验 22
类型九、误差分析 25
类型十、与其他章节的融合 27
压轴能力测评(10题) 31
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
4、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
5、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
6.非线性回归模型
要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为线性回归方程.
建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
7、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
8、独立性检验
计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
类型一、变量间的相关关系
例.(1)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
(2)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【变式训练1】对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【变式训练2】如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A. B. C. D.
类型二、相关系数的计算
例.一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,,,,,则y与x的相关系数r的绝对值为( )
A.0.6 B.0.5 C.0.4 D.0.3
【变式训练1】部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):
固定资产价值
3
3
5
6
6
7
8
9
9
10
工业增加值
15
17
25
28
30
36
37
42
40
45
根据上表数据计算的相关系数为( )
A.0 B.-0.8973 C.1.0228 D.0.9918
【变式训练2】根据统计, 某蔬菜基地西红柿亩产量的增加量 (百千克)与某种液体肥料每亩的使用量(千克)之间 的对应数据的散点图如图所示.
从散点图可以看出, 可用线性回归方程拟合 与的关系, 请计算样本相关系数并判断它们的相关程度;
附: .
类型三、相关系数与其他知识综合
例.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据,其中,和,分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得.
(1)求样本的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度;
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
附:相关系数
【变式训练1】台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
【变式训练2】某校20名学生的数学成绩和知识竞赛成绩如下表:
学生编号
1
2
3
4
5
6
7
8
9
10
数学成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号
11
12
13
14
15
16
17
18
19
20
数学成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到).
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:.
(ii)用(i)的公式求这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”(精确到).
(3)比较(1)和(2)(ii)的计算结果,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.;;.
类型四、由散点图画求近似回归方程
例.如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【变式训练1】变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【变式训练2】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
类型五、残差的计算
例.(1)对具有线性相关关系的变量x,y有一组观测数据,其经验回归方程为,且,,则相应于点的残差为______.
【变式训练1】根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为( )
A. B. C. D.
类型六、一元线性回归模型
例.(1)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 .
参考公式:.
(2)白术是常见的大宗药材,最早记载于《神龙本草经》,又叫于术、片术,具有补脾健胃,燥湿利水等功效.今年白术从1月份到5月份每公斤的平均价格(单位:元)的数据如下表:
月份
1
2
3
4
5
每公斤平均价格
77
109
137
168
199
根据上表可得回归方程,则实数的值为( )
A. 46 B. 47 C. 48 D. 49
(3)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量>(万辆)
0.40
0.70
1.10
1.50
1.80
①计算与的相关系数(保留三位小数);
②求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
【变式训练1】在研究变量与之间的关系时,进行实验后得到了一组样本数据利用此样本数据求得的经验回归方程为,现发现数据和误差较大,剔除这两对数据后,求得的经验回归方程为,且则( )
A. 8 B. 12 C. 16 D. 20
【变式训练2】(多选)为了探讨学生的物理成绩与数学成绩之间的关系,从某批学生中随机抽取10名学生的成绩,并已计算出,物理成绩关于数学成绩的线性回归方程为,下列说法正确的有( )
A.
B. 相关系数
C. 样本数据的残差为
D. 当某学生数学成绩为100时,物理成绩一定为92.5
【变式训练3】 由数据可得关于的线性回归方程为,若,则______.
类型七、非线性回归
例.(1)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模与年份代码的关系可以用模型(其中为自然对数的底数)拟合,设,得到数据统计表如下:
年份
2018年
2019年
2020年
2021年
2022年
年份代码
1
2
3
4
5
2
2.4
3
3.6
4
由上表可得经验回归方程,则2026年该科技公司云计算市场规模的估计值为( )
(参考公式:)
A. B. C. D.
(2)已知随机变量,的五组观测数据如下表:
1
2
3
4
5
由表中数据通过模型得到经验回归方程为,则实数值为______.
(3)(多选)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有( )
A. B.
C. D.
【变式训练1】已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则 .(参考数据:)
【变式训练2】红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
类型八、列联表与独立性检验
例.交通强国,铁路先行,每年我国铁路部门都会根据运输需求进行铁路调图,一铁路线l上有自东向西依次编号为1,2,…,21的21个车站.
(1)为调查乘客对调图的满意度,在编号为10和11两个站点多次乘坐列车P的旅客中,随机抽取100名旅客,得出数据(不完整)如下表所示:
车站编号
满意
不满意
合计
10
28
40
11
3
合计
85
完善表格数据并计算分析:依据小概率值的独立性检验,在这两个车站中,能否认为旅客满意程度与车站编号有关联?
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【变式训练1】某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
经计算得到,根据小概率值的独立性检验(已知独立性检验中),则可以认为( )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
【变式训练2】为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【变式训练3】针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.48 B.54 C.60 D.66
类型九、误差分析
例.设满足一元线性回归模型的两个变量的对样本数据为,下列统计量中不能刻画数据与直线的“整体接近程度”的是( )
A. B. C. D.
【变式训练1】现收集到变量的六组观测数据为:,用最小二乘法计算得其回归直线为,相关系数为;经过残差分析后发现为离群点(对应残差绝对值过大的点),剔除后,用剩下的五组数据计算得其回归直线为,相关系数为.则下列结论不正确的是( )
A. B.
C. D.去掉离群点后,残差平方和变小
【变式训练2】对于变量Y和变量x的成对样本观测数据,用一元线性回归模型得到经验回归模型,对应的残差如下图所示,模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
类型十、与其他章节的融合
例.为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读的时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长(的单位:小时),达标学生是“阅读之星”的概率为.
(1)从该校学生中随机选出1人,求达标的概率;
(2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关?
附:参考公式:,其中.
参考数据:
3.841
5.024
6.635
10.828
0.050
0.025
0.010
0.001
【变式训练1】某大型商场的所有饮料自动售卖机在一天中某种饮料的销售量(单位:瓶)与天气温度(单位:)有很强的相关关系,为能及时给饮料自动售卖机添加该种饮料,该商场对天气温度和饮料的销售量进行了数据收集,得到下面的表格:
10
15
20
25
30
35
40
4
16
64
256
2048
4096
8192
经分析,可以用作为关于的经验回归方程.
(1)根据表中数据,求关于的经验回归方程(结果保留两位小数);
(2)若饮料自动售卖机在一天中不需添加饮料的记1分,需添加饮料的记2分,每台饮料自动售卖机在一天中需添加饮料的概率均为,在商场的所有饮料自动售卖机中随机抽取3台,记总得分为随机变量,求的分布列与数学期望.
参考公式及数据:对于一组数据,经验回归方程的斜率和截距的最小二乘估计公式分别为
【变式训练2】“南澳牡蛎”是我国地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.2024年该基地考虑增加人工投入,现有以往的人工投入增量x(人)与年收益增量y(万元)的数据如下:
人工投入增量x(人)
2
3
4
6
8
10
13
年收益增量y(万元)
13
22
31
42
50
56
58
该基地为了预测人工投入增量为16人时的年收益增量,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得y与x的线性回归方程:;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量x做变换,令,则,且有,,,.
(1)(i)根据所给的统计量,求模型②中y关于x的回归方程(精确到0.1);
(ii)根据下列表格中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为16人时的年收益增量.
回归模型
模型①
模型②
回归方程
182.4
79.2
(2)根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买10只该基地的“南澳牡蛎”,会买到质量小于20g的牡蛎的可能性有多大?
附:若随机变量,则,;
样本的最小二乘估计公式为:,,.
1.已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
2.如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
3.江若已知是的两倍,是的1.2倍,则相关系数r的值为( )
A. B. C.0.92 D.0.65
4.对于数据组,如果由线性回归方程得到的自变量的估计值是,那么将称为样本点处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到表所示数据.若销量(单位:件)与单价(单位:元)之间的线性回归方程为,且样本点处的残差为3,则( )
单价/元
8.2
84
8.6
8.8
销量件
84
83
78
m
A. 65 B. 67 C. 73 D. 75
5.(多选)下列选项中叙述正确的有( )
A. 在施肥量不过量的情况下,施肥量与粮食产量之间具有正相关关系
B. 在公式中,变量与之间不具有相关关系
C. 相关系数时变量间的相关程度弱于时变量间的相关程度
D. 某小区所有家庭年收入(万元)与年支出(万元)具有相关关系,其线性回归方程为.若,,则.
6.(多选)已知由样本数据点集合,求得的回归直线方程为,且,现发现两个数据点和误差较大,去除这两点后重新求得的回归直线的斜率为1.2,则( )
A. 变量与具有正相关关系
B. 去除后的回归方程为
C. 重新求得的回归直线必过点
D. 去除后相应于样本点的残差为-0.05
7.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中,______研究的两个随机变量的线性相关程度最高.
8.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克)
2
4
5
6
8
(%)
30
50
70
60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为________.
9.2024年2月10日至17日(正月初一至初八),“2024•内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号
1
2
3
4
5
观众人数
0.7
0.8
1
12
1.3
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将列联表补充完整,并判断能否有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票
购买非A等票
总计
男性观众
50
女性观众
60
总计
100
200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,其中.
0.100
0.050
0.010
2.706
3.841
6.635
10.在国家积极推动美丽乡村建设的政策背景下,各地根据当地生态资源打造了众多特色纷呈的乡村旅游胜地.某人意图将自己位于乡村旅游胜地的房子改造成民宿用于出租,在旅游淡季随机选取100天,对当地已有的六间不同价位的民宿进行跟踪,统计其出租率,设民宿租金为(单位:元/日),得到如图的数据散点图.
(1)若用“出租率”近似估计旅游淡季民宿每天租出去的概率,求租金为388元的那间民宿在淡季内的3天中至少有2天闲置的概率.
(2)(i)根据散点图判断,与哪个更适合此模型(给出判断即可,不必说明理由)?根据判断结果求经验回归方程.
(ii)若该地一年中旅游淡季约为280天,在此期间无论民宿是否出租,每天都要付出的固定成本,若民宿出租,则每天需要再付出的日常支出成本.试用(i)中模型进行分析,旅游淡季民宿租金定为多少元时,该民宿在这280天的收益达到最大.
附:记,,,,,
,,,,,.
1 / 1
学科网(北京)股份有限公司
$$
专题08 成对数据的统计分析十种考法
解题知识必备 1
压轴题型讲练 1
类型一、变量间的相关关系…………………………………………………………4
类型二、相关系数的计算……………………………………………………………6
类型三、相关系数与其他知识综合 7
类型四、由散点图画求近似回归方程 12
类型五、残差的计算 14
类型六、一元线性回归模型 15
类型七、非线性回归 28
类型八、列联表与独立性检验 22
类型九、误差分析 25
类型十、与其他章节的融合 27
压轴能力测评(10题) 31
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
4、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
5、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
6.非线性回归模型
要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为线性回归方程.
建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
7、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
8、独立性检验
计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
类型一、变量间的相关关系
例.(1)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【解析】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,所以残差平方和变小,所以C错误,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
故选:B.
(2)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【答案】D
【解析】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.
故选:D
【变式训练1】对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【答案】C
【解析】由题意可知,变量的散点图中,随的增大而增大,所以变量与呈现正相关;
再分别观察两个散点图,图比图点更加集中,相关性更好,所以线性相关系数.
故选:C
【变式训练2】如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A. B. C. D.
【答案】D
【解析】由散点图可知,与负相关,与正相关,则,,故A、B错误;
且图形中点比更加集中在一条直线附近,
则,又,,得.
故C错误,D正确.
故选:D.
类型二、相关系数的计算
例.一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,,,,,则y与x的相关系数r的绝对值为( )
A.0.6 B.0.5 C.0.4 D.0.3
【答案】D
【解析】因为,,所以,
故选:D.
【变式训练1】部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):
固定资产价值
3
3
5
6
6
7
8
9
9
10
工业增加值
15
17
25
28
30
36
37
42
40
45
根据上表数据计算的相关系数为( )
A.0 B.-0.8973 C.1.0228 D.0.9918
【答案】D
【解析】由表中数据可得,,,
,,
,
故.
故选:D.
【变式训练2】根据统计, 某蔬菜基地西红柿亩产量的增加量 (百千克)与某种液体肥料每亩的使用量(千克)之间 的对应数据的散点图如图所示.
从散点图可以看出, 可用线性回归方程拟合 与的关系, 请计算样本相关系数并判断它们的相关程度;
附: .
【答案】答案见解析
【解析】由题知:
所以
所以
所以 与程正线性相关, 且相关程度很强.
类型三、相关系数与其他知识综合
例.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据,其中,和,分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得.
(1)求样本的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度;
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
附:相关系数
【答案】(1),相关性越强;(2)答案见解析
【解析】(1)样本,,2,, 的相关系数为
.
由于相关系数,,则相关性很强,的值越大,相关性越强.
故,故相关性越强.
(2)由题意得:的可能取值为0,1,2,
20个样区中有8个样区的这种野生动物数量低于样本平均数,有12个样区的这种野生动物数量不低于样本平均数,
所以,
,
,
所以的分布列为:
0
1
2
【变式训练1】台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好;(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆);(3)0.3
【解析】(1)设模型①和②的相关系数分别为,.
由题意可得:,
.
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,,
即该公司年净利润大于1000(百万元)的概率为0.3.
【变式训练2】某校20名学生的数学成绩和知识竞赛成绩如下表:
学生编号
1
2
3
4
5
6
7
8
9
10
数学成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号
11
12
13
14
15
16
17
18
19
20
数学成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到).
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:.
(ii)用(i)的公式求这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”(精确到).
(3)比较(1)和(2)(ii)的计算结果,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.;;.
【答案】(1);(2)(i)证明见解析;(3)答案见解析
【解析】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为
(2)(i)证明:因为和都是1,2,,的一个排列,所以
,
,
从而和的平均数都是.
因此,,
同理可得,
由于,
所以;
(ii)由题目数据,可写出与的值如下:
同学编号
1
2
3
4
5
6
7
8
9
10
数学成绩排名
1
2
3
4
5
6
7
8
9
10
知识竞赛成绩排名
1
5
3
4
9
8
7
6
10
2
同学编号
11
12
13
14
15
16
17
18
19
20
数学成绩排名
11
12
13
14
15
16
17
18
19
20
知识竞赛成绩排名
12
14
13
11
16
15
17
18
19
20
所以,并且.
因此这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是
(3)答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.
类型四、由散点图画求近似回归方程
例.如图是两个变量的散点图,y关于x的回归方程可能是( )
A. B. C. D.
【答案】C
【解析】由散点图可知,y与x负相关,故排除A,B,对于D:,点偏离较大,而点近似在曲线附近,所以 y关于x的回归方程是C的可能性大.
故选:C.
【变式训练1】变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【答案】B
【解析】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:
故选:B.
【变式训练2】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【答案】D
【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是.
故选:D.
类型五、残差的计算
例.(1)对具有线性相关关系的变量x,y有一组观测数据,其经验回归方程为,且,,则相应于点的残差为______.
【答案】
【解析】将,代入可得,
所以,
故当时,,
所以残差为,
故答案为:
【变式训练1】根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为( )
A. B. C. D.
【答案】B
【解析】把代入,得,
所以在样本点处的残差.
故选:B.
类型六、一元线性回归模型
例.(1)将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 .
参考公式:.
【答案】/1.875
【解析】因为,
所以,
由,
解得,
所以.
故答案为:
(2)白术是常见的大宗药材,最早记载于《神龙本草经》,又叫于术、片术,具有补脾健胃,燥湿利水等功效.今年白术从1月份到5月份每公斤的平均价格(单位:元)的数据如下表:
月份
1
2
3
4
5
每公斤平均价格
77
109
137
168
199
根据上表可得回归方程,则实数的值为( )
A. 46 B. 47 C. 48 D. 49
【答案】C
【解析】依题意,,
又回归直线方程必过样本中心点,
所以,解得.
故选:C
(3)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量>(万辆)
0.40
0.70
1.10
1.50
1.80
①计算与的相关系数(保留三位小数);
②求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
【答案】①; ②万辆
【解析】①,
,
所以;
②由(1)知,,
,
所以关于的线性回归方程是,
当时,(万辆),
该地区年新能源汽车购买数量约为万辆.
【变式训练1】在研究变量与之间的关系时,进行实验后得到了一组样本数据利用此样本数据求得的经验回归方程为,现发现数据和误差较大,剔除这两对数据后,求得的经验回归方程为,且则( )
A. 8 B. 12 C. 16 D. 20
【答案】C
【解析】设没剔除两对数据前的平均数分别为,,
剔除两对数据后的平均数分别为,,
因为,
所以,,
则,
所以,
又因为,
所以,
解得.
故选:C.
【变式训练2】(多选)为了探讨学生的物理成绩与数学成绩之间的关系,从某批学生中随机抽取10名学生的成绩,并已计算出,物理成绩关于数学成绩的线性回归方程为,下列说法正确的有( )
A.
B. 相关系数
C. 样本数据的残差为
D. 当某学生数学成绩为100时,物理成绩一定为92.5
【答案】ABC
【解析】对于选项A:因为线性回归方程必过样本中心点,
由题意可得:,故A正确;
对于选项B:因为,即线性回归方程为的图象是上升的,
可知与满足正相关,所以相关系数,故B正确;
对于选项C:令,可得,
所以样本数据的残差为,故C正确;
对于选项D:令,可得,
但回归方程只能用于预测结果,并不一定与实际结果完全相等,
所以预测物理成绩为92.5,故D错误;
故选:ABC.
【变式训练3】 由数据可得关于的线性回归方程为,若,则______.
【答案】50
【解析】依题意,设样本数据的中心点为,则,
由关于的线性回归方程为,得,而,
所以.
故答案为:50
类型七、非线性回归
例.(1)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模与年份代码的关系可以用模型(其中为自然对数的底数)拟合,设,得到数据统计表如下:
年份
2018年
2019年
2020年
2021年
2022年
年份代码
1
2
3
4
5
2
2.4
3
3.6
4
由上表可得经验回归方程,则2026年该科技公司云计算市场规模的估计值为( )
(参考公式:)
A. B. C. D.
【答案】C
【解析】因为
所以
即经验回归方程
当时,
所以
即2026年该科技公司云计算市场规模y的估计值为.
故选:C.
(2)已知随机变量,的五组观测数据如下表:
1
2
3
4
5
由表中数据通过模型得到经验回归方程为,则实数值为______.
【答案】
【解析】令,
则,
因为,所以,
所以,解得.
故答案为:.
(3)(多选)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有( )
A. B.
C. D.
【答案】ABC
【解析】对于选项A :,令 则;
对于选项B:
令;
对于选项 C:
即 令 则;
对于选项D: 令则
此时斜率为 ,与最小二乘法不符.
故选:ABC
【变式训练1】已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则 .(参考数据:)
【答案】0.3
【解析】由题意知,解得,
所以,
由,得,所以,
则.
故答案为:0.3
【变式训练2】红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)答案见解析;(2)
【解析】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
,
则关于的线性回归方程为,即,
产卵数y关于温度x的回归方程为.
类型八、列联表与独立性检验
例.交通强国,铁路先行,每年我国铁路部门都会根据运输需求进行铁路调图,一铁路线l上有自东向西依次编号为1,2,…,21的21个车站.
(1)为调查乘客对调图的满意度,在编号为10和11两个站点多次乘坐列车P的旅客中,随机抽取100名旅客,得出数据(不完整)如下表所示:
车站编号
满意
不满意
合计
10
28
40
11
3
合计
85
完善表格数据并计算分析:依据小概率值的独立性检验,在这两个车站中,能否认为旅客满意程度与车站编号有关联?
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)答案见解析;(2)答案见解析
【解析】补充列联表如下:
车站编号
满意
不满意
合计
10
28
12
40
11
57
3
60
合计
85
15
100
零假设为:旅客满意程度与车站编号无关,
则,
所以根据小概率值的独立性检验,推断不成立,
即认为旅客满意程度与车站编号有关联.
【变式训练1】某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
经计算得到,根据小概率值的独立性检验(已知独立性检验中),则可以认为( )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
【答案】C
【解析】零假设为:疗法与疗效独立,即两种疗法效果没有差异.
根据列联表中的数据,,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即认为两种疗法效果没有差异.
故选:C.
【变式训练2】为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【答案】
【解析】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
【变式训练3】针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.48 B.54 C.60 D.66
【答案】A
【解析】设男生人数为,因为被调查的男、女生人数相同,
所以女生人数也为,根据题意列出列联表:
男生
女生
合计
喜欢冰雪运动
不喜欢冰雪运动
合计
则,
因为依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,
所以,即,解得,又,
所以B、C、D正确,A错误.
故选:A
类型九、误差分析
例.设满足一元线性回归模型的两个变量的对样本数据为,下列统计量中不能刻画数据与直线的“整体接近程度”的是( )
A. B. C. D.
【答案】D
【解析】统计量和可以刻画数据点与直线的竖直距离,
进而可以刻画数据与直线的“整体接近程度”,AC选项不符合题意.
统计量可以刻画数据点与直线的距离,
也可以刻画数据与直线的“整体接近程度”,B选项不符合题意.
统计量的计算会出现直线两侧的数据点在代数上正负抵消的情况,
因此不能刻画数据与直线的“整体接近程度”,D选项符合题意.
故选:D.
【变式训练1】现收集到变量的六组观测数据为:,用最小二乘法计算得其回归直线为,相关系数为;经过残差分析后发现为离群点(对应残差绝对值过大的点),剔除后,用剩下的五组数据计算得其回归直线为,相关系数为.则下列结论不正确的是( )
A. B.
C. D.去掉离群点后,残差平方和变小
【答案】B
【解析】由数据得:,
,则,
剔除离群点后:
,
,则,
A. ,故正确;
B. ,故错误;
C. 剔除离群点后,相关程度越大,所以相关系数,故正确;
D.剔除离群点后,相关程度越大,所以残差平方和变小,故正确.
故选:B.
【变式训练2】对于变量Y和变量x的成对样本观测数据,用一元线性回归模型得到经验回归模型,对应的残差如下图所示,模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
【答案】C
【解析】用一元线性回归模型得到经验回归模型,根据对应的残差图,残差的均值可能成立,但明显残差的轴上方的数据更分散,不满足一元线性回归模型,正确的只有C.
故选:C.
类型十、与其他章节的融合
例.为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读的时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长(的单位:小时),达标学生是“阅读之星”的概率为.
(1)从该校学生中随机选出1人,求达标的概率;
(2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关?
附:参考公式:,其中.
参考数据:
3.841
5.024
6.635
10.828
0.050
0.025
0.010
0.001
【答案】(1) (2)有99%的把握认为不达标与性别有关.
【解析】(1)从该校学生随机选出1人,记其达标为事件,是“阅读之星”为事件.
则,.
因为,所以.
又因为达标学生是“阅读之星”的概率为,
所以,得,
即从该校学生中随机选出1人,达标的概率为.
(2)依题意,随机调查的90名学生中,男生人数为40,女生人数为50.
设这90名学生中,不达标学生人数为.
由(1)知,不达标的概率为,则.
所以数学期望,即不达标的人数为18.
因为不达标学生中有的是男生,所以不达标的男生人数为3,不达标的女生人数为15.
则达标的男生人数为37,达标的女生人数为35,得如下列联表.
男生
女生
合计
达标
37
35
72
不达标
3
15
18
合计
40
50
90
所以.
因为,所以有99%的把握认为不达标与性别有关.
【变式训练1】某大型商场的所有饮料自动售卖机在一天中某种饮料的销售量(单位:瓶)与天气温度(单位:)有很强的相关关系,为能及时给饮料自动售卖机添加该种饮料,该商场对天气温度和饮料的销售量进行了数据收集,得到下面的表格:
10
15
20
25
30
35
40
4
16
64
256
2048
4096
8192
经分析,可以用作为关于的经验回归方程.
(1)根据表中数据,求关于的经验回归方程(结果保留两位小数);
(2)若饮料自动售卖机在一天中不需添加饮料的记1分,需添加饮料的记2分,每台饮料自动售卖机在一天中需添加饮料的概率均为,在商场的所有饮料自动售卖机中随机抽取3台,记总得分为随机变量,求的分布列与数学期望.
参考公式及数据:对于一组数据,经验回归方程的斜率和截距的最小二乘估计公式分别为
【答案】(1);(2)答案见解析
【解析】(1)设,由,可得,
因为,,
,所以,
由表中的数据可得,
则,
所以,
则,可得,
所以关于的经验回归方程为.
(2)由题意,随机变量的可能取值为,
可得,,
,,
所以变量的分布列为
3
4
5
6
P
所以,期望为
【变式训练2】“南澳牡蛎”是我国地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.2024年该基地考虑增加人工投入,现有以往的人工投入增量x(人)与年收益增量y(万元)的数据如下:
人工投入增量x(人)
2
3
4
6
8
10
13
年收益增量y(万元)
13
22
31
42
50
56
58
该基地为了预测人工投入增量为16人时的年收益增量,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得y与x的线性回归方程:;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量x做变换,令,则,且有,,,.
(1)(i)根据所给的统计量,求模型②中y关于x的回归方程(精确到0.1);
(ii)根据下列表格中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为16人时的年收益增量.
回归模型
模型①
模型②
回归方程
182.4
79.2
(2)根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买10只该基地的“南澳牡蛎”,会买到质量小于20g的牡蛎的可能性有多大?
附:若随机变量,则,;
样本的最小二乘估计公式为:,,.
【答案】(1)(i);(ii)答案见解析(2)
【解析】(1)(i)由,
有,
且,
所以模型②中关于的回归方程为.
(ii)由表格中的数据,有,即,
模型①的小于模型②,说明回归模型②刻画的拟合效果更好.
当时,模型②的收益增量的预测值为
(万元),
这个结果比模型①的预测精度更高、更可靠.
(2)由已知单个“南澳牡蛎”质量,则,
由正态分布的对称性可知,
,
设购买10只该基地的“南澳牡蛎”,其中质量小于的牡蛎为只,
故,
所以,
所以这10只“南澳牡蛎”中,会买到质量小于的牡蛎的可能性仅为.
1.已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【答案】D
【解析】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.
故选:D
2.如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
【答案】C
【解析】共8个点且离群点P的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,故C正确
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,故D错误
有,,故AB错误.
故选:C.
3.江若已知是的两倍,是的1.2倍,则相关系数r的值为( )
A. B. C.0.92 D.0.65
【答案】B
【解析】
故选:B.
4.对于数据组,如果由线性回归方程得到的自变量的估计值是,那么将称为样本点处的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到表所示数据.若销量(单位:件)与单价(单位:元)之间的线性回归方程为,且样本点处的残差为3,则( )
单价/元
8.2
84
8.6
8.8
销量件
84
83
78
m
A. 65 B. 67 C. 73 D. 75
【答案】B
【解析】由条件知当时,,
代入,解得,于是,
又,所以,即,解得.
故选:B.
5.(多选)下列选项中叙述正确的有( )
A. 在施肥量不过量的情况下,施肥量与粮食产量之间具有正相关关系
B. 在公式中,变量与之间不具有相关关系
C. 相关系数时变量间的相关程度弱于时变量间的相关程度
D. 某小区所有家庭年收入(万元)与年支出(万元)具有相关关系,其线性回归方程为.若,,则.
【答案】ACD
【解析】对于A,在施肥量不过量的情况下,施肥量越大,粮食产量越高,
故两者之间具有正相关关系,故A正确.
对于B,变量与之间是函数关系,不是相关关系,故B错误.
对于C,因为,
故相关系数时变量间的相关程度弱于时变量间的相关程度,故C正确.
对于D,因回归直线过,故,故,故D正确.
故选:ACD.
6.(多选)已知由样本数据点集合,求得的回归直线方程为,且,现发现两个数据点和误差较大,去除这两点后重新求得的回归直线的斜率为1.2,则( )
A. 变量与具有正相关关系
B. 去除后的回归方程为
C. 重新求得的回归直线必过点
D. 去除后相应于样本点的残差为-0.05
【答案】ACD
【解析】对A,因为重新求得的回归方程的斜率为1.2,故变量与具有正相关关系,故选项正确;
对C,将代入回归直线方程为,解得,
则样本中心为,去掉两个数据点和后,
由于,
所以去掉后的,没有变化,故样本中心还是,
故去除这两个数据点后的回归直线过点,故选项C正确;
对B,又因为去除后重新求得的回归直线的斜率为1.2,
所以,解得,
所以去除后的回归方程为,故选项不正确;
对D,因为,
所以,故选项正确.
故选:.
7.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中,______研究的两个随机变量的线性相关程度最高.
【答案】乙
【解析】因为,所以这四人中,乙研究的两个随机变量的线性相关程度最高,
故答案为:乙.
8.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克)
2
4
5
6
8
(%)
30
50
70
60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为________.
【答案】40
【解析】由表中数据,计算可得,,
因为回归直线方程过样本中心点,所以有,解得.
故答案为:40.
9.2024年2月10日至17日(正月初一至初八),“2024•内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号
1
2
3
4
5
观众人数
0.7
0.8
1
12
1.3
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将列联表补充完整,并判断能否有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票
购买非A等票
总计
男性观众
50
女性观众
60
总计
100
200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,其中.
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1) (2)表格见解析,没有
【解析】(1)由表格可知,
,,所以,
则;
(2)根据数据补全表格如下:
购买A等票
购买非A等票
总计
男性观众
40
50
90
女性观众
60
50
110
总计
100
100
200
所以,
故没有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
10.在国家积极推动美丽乡村建设的政策背景下,各地根据当地生态资源打造了众多特色纷呈的乡村旅游胜地.某人意图将自己位于乡村旅游胜地的房子改造成民宿用于出租,在旅游淡季随机选取100天,对当地已有的六间不同价位的民宿进行跟踪,统计其出租率,设民宿租金为(单位:元/日),得到如图的数据散点图.
(1)若用“出租率”近似估计旅游淡季民宿每天租出去的概率,求租金为388元的那间民宿在淡季内的3天中至少有2天闲置的概率.
(2)(i)根据散点图判断,与哪个更适合此模型(给出判断即可,不必说明理由)?根据判断结果求经验回归方程.
(ii)若该地一年中旅游淡季约为280天,在此期间无论民宿是否出租,每天都要付出的固定成本,若民宿出租,则每天需要再付出的日常支出成本.试用(i)中模型进行分析,旅游淡季民宿租金定为多少元时,该民宿在这280天的收益达到最大.
附:记,,,,,
,,,,,.
【答案】(1) (2)答案见解析
【解析】(1)因为每天的出租率为0.2,所以每天闲置的概率为,
所以3天中至少有2天闲置的概率.
(2)(i)根据散点图的分布情况,各散点连线更贴近的图象,
故的拟合效果更好.
依题意,,,
所以,
所以,
所以经验回归方程为.
(ii)设旅游淡季民宿租金为,则淡季该民宿的出租率,
所以该民宿在这280天的收益为:
,
所以.
令,得,
所以,
且当时,,时,,
所以在上单调递增,在上单调递减,
所以当时,取得最大值.
所以旅游淡季民宿租金定为181元时,该民宿在这280天的收益达到最大.
1 / 1
学科网(北京)股份有限公司
$$