内容正文:
专题8.1 成对数据的统计相关性
教学目标
1.理解相关关系的含义,能区分函数关系与相关关系,会用散点图识别正/负/无相关。
2.掌握样本相关系数r的意义、取值范围([-1,1]),能通过r判断线性相关强弱,了解r与标准化向量夹角的关联。
3.会用散点图+相关系数分析成对数据,比较多组数据的相关性。
教学重难点
1.重点
能结合散点图与r值,对成对数据的相关性做完整分析。
2.难点
辨析相关关系与因果关系,纠正“相关即因果”的认知偏差。
知识点01 相关关系
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量 ;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量 .
3、 线性相关:
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量 .
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
【即学即练】
1.下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有线性相关关系的是( )
A. B.
C. D.
2.某研究调查了6个城市的医院病床数量与年人均看病次数,数据如下:
城市
病床数量 (万张)
年人均看病次数
A
0.8
3.1
B
1.2
4.0
C
1.5
4.6
D
2.0
5.9
E
2.5
6.7
F
3.0
7.8
散点图显示与呈明显正相关.学生丙认为:“增加医院病床数量会使人们更容易生病,导致看病次数增加.”问:学生丙说的对吗?
3.某食品科学家小张想研究一种新型固体饮料粉末()在冷水中的溶解速率(溶解所需时间,单位:秒)与水初始温度(,单位:)之间的关系.他初步进行了少量实验,收集了以下5组数据:
水温 ()
溶解时间 ()
5
120
10
90
15
105
20
60
25
110
小张观察这5个数据点,发现水温升高时,溶解时间并没有呈现出明显一致的下降趋势(例如时时间较长,时时间也较长).他初步判断:“水温对这款饮料的溶解速率似乎没有显著影响,或者影响规律不明显.”
问题:
(1)小张基于这5组数据得出的初步结论可能有什么问题?结合数据具体解释.
(2)为什么仅凭这5个数据点就下结论是危险的?请解释样本量不足在评估变量关系时可能导致什么错误.
(3)为了更准确地了解水温与溶解时间的真实关系,小张应该怎么做?如果他增加了样本量(例如再做20次严格控制的实验),可能会观察到什么不同的现象?
知识点02 相关系数
1、相关系数r的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),对数据作进一步的“标准化处理”处理,用sx=,sy=分别除xi-和yi- (i=1,2,…,n,和分别为x1,x2,…,xn和y1,y2,…,yn的均值),得,,…,,为简单起见,把上述“标准化”处理后的成对数据分别记为(x1′,y1′),(x2′,y2′),…,(xn′,yn′),则变量x和变量y的样本相关系数r的计算公式如下:
r=(x1′y1′+x2′y2′+…+xn′yn′)
=.
2、相关系数r的性质
(1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
(2)样本相关系数r的取值范围为 .
当|r|越接近1时,成对样本数据的线性相关程度 ;
当|r|越接近0时,成对样本数据的线性相关程度 .
3、样本相关系数与标准化数据向量夹角的关系
r=x′·y′=|x′||y′|cos θ=cos θ(其中x′=(x1′,x2′,…,xn′),y′=(y1′,y2′,…,yn′),|x′|=|y′|=,θ为向量x′和向量y′的夹角).
【即学即练】
1.通过随机抽样,得到变量和变量的7对数据,并绘制成散点图如图所示,已知变量和变量线性相关,且回归直线是图中直线,则下列说法正确的是( )
A.直线的斜率是负数
B.变量与变量正相关
C.相关系数
D.若去掉图中点后,剩余数据的相关系数变大
2.下列四个选项正确的有( )
A.样本相关系数越大,成对样本数据的线性相关性越强
B.一组样本数据47,48,48,49,50,51,52,60,该组数据的第60百分位数为50
C.决定系数越大,残差平方和越小,模型的拟合效果越好
D.若数据的方差为8,则数据的方差为2
3.为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
题型01 相关关系的理解
【典例1】物理实验中,测得变量x和变量y的几组数据,如下表:
x
0.50
0.99
2.01
3.98
y
-0.99
0.01
0.98
2.00
则下列选项中对x,y最适合的拟合函数是( )
A. B. C. D.
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系, 而相关关系不一定是因果关系,也可能是伴随关系.
【变式1】已知四组不同数据的两变量的线性相关系数如下:数据组①的相关系数;数据组②的相关系数;数据组③的相关系数;数据组④的相关系数.则下列说法正确的是( )
A.数据组①对应的数据点都在同一直线上
B.数据组②中的两变量线性相关性最强
C.数据组③中的两变量线性相关性最强
D.数据组④中的两变量线性相关性最弱
【变式2】近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示:
城市编号
1
2
3
4
5
指标
4
6
2
8
5
指标
4
4
3
5
4
指标
3
6
2
5
4
利用向量夹角来分析与之间及与之间的相关关系.
【变式3】如图是国家统计周公布的2020年下半年快递运输量情况,请根据图中信息选出错误的选项( )
A.2020年下半年,同城和异地快递量最高均出现在11月
B.2020年10月份异地快递增长率小于9月份的异地快递增长率(注.增长率指相对前一个月而言)
C.2020年下半年,异地快递量与月份呈正相关关系
D.2020年下半年,每个月的异地快递量都是同城快递量的6倍以上
题型02 散点图及其应用
【典例1】和的散点图如图所示,则下列说法中所有正确命题的序号为 .
①,是负相关关系;
②,之间不能建立线性回归方程;
③在该相关关系中,若用拟合时的相关指数为,用拟合时的相关指数为,则.
1、画散点图时应注意合理选择单位长度,避免图形过大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
2、在这里利用散点图直观感知事物的形态与变化,理解事物间的关联及变化规律,是数学核心素养直观想象的具体体现.
【变式1】某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线的方程:,相关系数为,相关指数为;经过残差分析确定点为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线的方程:,相关系数为,相关指数为.则以下结论中,不正确的是
A., B.,
C. D.
【变式2】某市实施二手房新政一年多以来,为了了解新政对居民的影响,房屋管理部门调查了2018年6月至2019年6月期间购买二手房情况,首先随机抽取了其中的400名购房者,并对其购房面积(单位:平方米,)讲行了一次统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年6月至2019年6月期间当月在售二手房的均价(单位:万元/平方米),制成了如图2所示的散点图(图中月份代码1-13分别对应2018年6月至2019年6月)
(1)试估计该市市民的平均购房面积(同一组中的数据用该组区间的中点值为代表);
(2)从该市2018年6月至2019年6月期间所有购买二手房的市民中任取3人,用频率估计概率,记这3人购房面积不低于100平方米的人数为,求的分布列与数学期望;
(3)根据散点图选择和两个模型讲行拟合,经过数据处理得到两个回归方程,分别为和,并得到一些统计量的值,如表所示:
0.005459
0.005886
0.006050
请利用相关系数判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测2019年8月份的二手房购房均价(精确到0.001).
参考数据:,,,,,
参考公式:
【变式3】2023年3月6日,中华人民共和国国务院新闻办公室举行“权威部门话开局”系列主题新闻发布会,介绍“加快推进新型工业化做强做优做大实体经济”有关情况.经综合研判,今年我国新能源汽车产业将保持良好的发展态势,生产和销售将实现稳定增长.据统计,去年10月至今年2月某品牌新能源汽车的市场销售量如下表.
月份
10月
11月
12月
1月
2月
销售量万辆
0.6
0.7
1.0
1.3
1.6
(1)根据数据作出散点图;
(2)判断与之间的相关关系.
题型03 线性相关性的检验
【典例1】2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【变式1】党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023 年1 ~5月份该企业的利润y(单位:百万)的统计.
月份
1 月
2 月
3 月
4 月
5 月
月份编号x
1
2
3
4
5
利润y(百万)
7
12
13
19
24
(1)根据统计表,求该企业的利润y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为y与x的线性相关性较强,,则认为y与x的线性相关性较弱.);
(2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为,试求的分布列与期望.
附:相关系数
【变式2】近年来,国内掀起了全民新中式热潮,新中式穿搭,新中式茶饮,新中式快餐,新中式烘焙等,以下为某纺织厂生产“新中式”面料近5个月的利润(y万元)的统计表.
月份
2023.11
2023.12
2024.01
2024.02
2024.03
月份编号x
1
2
3
4
5
利润(y万元)
27
23
20
17
13
(1)根据统计表,试求y与x之间的相关系数r(精确到0.001),并利用r说明y与x是否具有较强的线性相关关系:(若,则认为两个变量具有较强的线性相关性);
(2)从这5个月的利润中任选2个月的利润,分别记为m,n,求事件“m,n均不小于20万元”的概率.
附:参考数据:
相关系数.
【变式3】近年来,随着互联网的发展,诸如“滴滴打车”“神州专车”等网约车服务在我国各城市迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在M省的发展情况,M省某调查机构从该省抽取了5个城市,分别收集和分析了网约车的A,B两项指标数xi,yi(i=1,2,3,4,5),数据如下表所示:
城市1
城市2
城市3
城市4
城市5
A指标数x
2
4
5
6
8
B指标数y
3
4
4
4
5
经计算得,,
试求y与x之间的相关系数r,并利用r说明y与x是否具有较强的线性相关关系.
附:样本相关系数公式,参考数据:,.
题型04 判断线性相关的强弱
【典例1】已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,
A.当时,成对样本数据成线性正相关;
B.当越大时,成对样本数据的线性相关程度越强;
C.,时,成对样本数据的相关系数满足;
D.,时,成对样本数据的线性回归方程满足;
【变式1】为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【变式2】为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【变式3】比亚迪,这个中国品牌的乘用车,如今已经在全球汽车品牌销量前十中占据一席之地.这一成就是中国新能源汽车行业的里程碑,标志着中国已经在全球范围内成为了新能源汽车领域的强国.现统计了自上市以来截止到2023年8月的宋plus的月销量数据.
(1)通过调查研究发现,其他新能源汽车的崛起、购置税减免政策的颁布等,影响了该款汽车的月销量,现将残差过大的数据剔除掉,得到2022年8月至2023年8月部分月份月销量y(单位:万辆)和月份编号x的成对样本数据统计.
月份
2022年8月
2022年9月
2022年12月
2023年1月
2023年2月
2023年3月
2023年4月
2023年6月
2023年7月
2023年8月
月份编号
1
2
3
4
5
6
7
8
9
10
月销量(单位:万辆)
4.25
4.59
4.99
3.56
3.72
3.01
2.46
2.72
3.02
3.28
请用样本相关系数说明y与x之间的关系可否用一元线性回归模型拟合?若能,求出y关于x的经验回归方程;若不能,请说明理由.(运算过程及结果均精确到0.01,若,则线性相关程度很高,可用一元线性回归模型拟合)
(2)为迎接2024新春佳节,某地4S店特推出盲盒抽奖营销活动中,店家将从一批汽车模型中随机抽取50个装入盲盒用于抽奖,已知抽出的50个汽车模型的外观和内饰的颜色分布如下表所示.
红色外观
蓝色外观
棕色内饰
20
10
米色内饰
15
5
①从这50个模型中随机取1个,用A表示事件“取出的模型外观为红色”,用B表示事件“取出的模型内饰为米色”,求和,并判断事件A与B是否相互独立;
②活动规定:在一次抽奖中,每人可以一次性拿2个盲盒.对其中的模型给出以下假设:假设1:拿到的2个模型会出现3种结果,即外观和内饰均为同色、外观和内饰都异色以及仅外观或仅内饰同色.假设2:按结果的可能性大小,概率越小奖项越高.假设3:该抽奖活动的奖金额为一等奖3000元、二等奖2000元、三等奖1000元.请你分析奖项对应的结果,设X为奖金额,写出X的分布列并求出X的期望(精确到元).
参考公式:样本相关系数,
,.
参考数据:,.
1.下列说法中正确的是( )
A.若甲乙两组数据的相关系数分别为和,则甲的数据线性相关性更强
B.已知关于的回归方程为,则样本点的残差为
C.若随机变量,满足,若,则
D.随机变量服从二项分布,若方差,则
2.全面建成小康社会取得了伟大历史成就,决战脱贫攻坚取得了决定性胜利,某脱贫县实现脱贫奔小康的目标,该县经济委员会积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收.
(1)该县经济委员会为精准了解本地特产广告宣传的导向作用,在购买该县特产的客户中随机抽取300人进行广告宣传作用的调研,对因广告宣传导向而购买该县特产的客户统计结果是:客户群体中青年人约占15%,其中男性为20%;中年人约占50%,其中男性为35%;老年人约占35%,其中男性为55%.以样本估计总体,视频率为概率.
①在所有购买该县特产的客户中随机抽取一名客户,求抽取的客户是男性的概率;
②在所有购买该县特产的客户中随机抽取一名客户是男客户,求他是中年人的概率(精确到0.0001);
(2)该县经济委员会统计了某6至12月这7个月的月广告投入(单位:万元);(单位:万件)的数据如表所示:
月广告投入/万元
1
2
3
4
5
6
7
月销量/万件
28
32
35
45
49
52
60
请根据相关系数说明相关关系的强弱.(若,则认为两个变量有很强的线性相关性,值精确到0.001)
参考数据:.
参考公式:相关系数.
3.下列说法中正确的是( )
A.样本数据7,8,6,8,4,7,3,9的下四分位数为4
B.的展开式中所有项的系数和与二项式系数和相等
C.已知随机变量,若,则
D.成对样本数据的线性相关程度越强,则样本相关系数的值越接近于1
4.2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示.
万件
2.08
2.12
2.19
2.28
2.36
2.48
2.59
2.68
2.80
2.87
万元
42.5
43.7
44.0
45.5
46.4
47.5
49.2
50.3
51.4
52.6
(1)计算的值;
(2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度.
5.一组成对样本数据的散点位于一条直线附近,它的样本相关系数(其中),由最小二乘法求得经验回归方程(其中),则( )
A.若,则
B.若,则成对数据的样本相关系数等于
C.若,则成对数据的样本相关系数大于
D.若,则成对数据的经验回归方程
6.某校20名学生的数学成绩和知识竞赛成绩如下表:
学生编号i
1
2
3
4
5
6
7
8
9
10
数学成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号i
11
12
13
14
15
16
17
18
19
20
数学成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
;;.
7.规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,;
参考数据:,,(其中,).
8.【阅读材料1】
我们在研究两个变量之间的相关关系时,往往先选取若干个样本点(),(),……,(),将样本点画在平面直角坐标系内,就得到样本的散点图.观察散点图,如果所有样本点都落在某一条直线附近,变量之间就具有线性相关关系,如果所有的样本点都落在某一非线性函数图象附近,变量之间就有非线性相关关系.在统计学中经常选择线性或非线性(函数)回归模型来刻画相关关系,并且可以用适当的方法求出回归模型的方程,还常用相关指数R2来刻画回归的效果,相关指数R2的计算公式为:
当R2越大时,回归方程的拟合效果越好;当R2越小时,回归方程的拟合效果越差,R2是常用的选择模型的指标之一,在实际应用中应该尽量选择R2较大的回归模型.
【阅读材料2】
2021年6月17日9时22分,我国酒泉卫星发射中心用长征二号F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
15
22
27
40
48
54
60
68.5
68
67.5
66
65
当0<x≤13时,建立了与的两个回归模型:
模型①:;模型②:;
当x>13时,确定y与x满足的线性回归直线方程为.
根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当0<x≤13时模型①,②的相关指数R2的大小,并选择拟合效果更好的模型.
回归模型
模型①
模型②
回归方程
79.13
20.2
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.
附:①若最小二乘法求得回归直线方程为,则;
②
③,当时,.
9.2018年11月5日至10日,首届中国国际进口博览会在国家会展中心(上海)举行,吸引过来58个“一带一路”沿线国家的超过1000多家企业参展,成为共建“一带一路”的又一个重要支撑。某企业为了参加这次盛会,提升行业竞争力,加大了科技投入;该企业连续6年来得科技投入(百万元)与收益(百万元)的数据统计如下:
根据散点图的特点,甲认为样本点分布在指数曲线的周围,据此他对数据进行了一些初步处理,如下表:
其中,.
(1)()请根据表中数据,建立关于的回归方程(保留一位小数);
()根据所建立回归方程,若该企业想在下一年的收益达到2亿,则科技投入的费用至少要多少(其中)?
(2)乙认为样本点分布在二次曲线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲乙两位员工所建立的模型,谁的拟合效果更好.
附:对于一组数据,,……,其回归直线方程的斜率和截距的最小二乘估计分别为,,相关指数:.
2 / 20
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题8.1 成对数据的统计相关性
教学目标
1.理解相关关系的含义,能区分函数关系与相关关系,会用散点图识别正/负/无相关。
2.掌握样本相关系数r的意义、取值范围([-1,1]),能通过r判断线性相关强弱,了解r与标准化向量夹角的关联。
3.会用散点图+相关系数分析成对数据,比较多组数据的相关性。
教学重难点
1.重点
能结合散点图与r值,对成对数据的相关性做完整分析。
2.难点
辨析相关关系与因果关系,纠正“相关即因果”的认知偏差。
知识点01 相关关系
1、相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关.
3、 线性相关:
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
【即学即练】
1.下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有线性相关关系的是( )
A. B.
C. D.
【答案】BC
【分析】根据散点图的特征逐一验证即可得到答案.
【详解】由题意,
对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:呈正相关关系,分布在一条直线附近,具有线性相关关系;故B正确;
对于C:两个变量具有负相关关系,分布在一条直线附近,具有线性相关关系;故C正确;
对于D:两个变量具有相关性,但不是正相关,也不是负相关,故D错误.
故选:BC.
2.某研究调查了6个城市的医院病床数量与年人均看病次数,数据如下:
城市
病床数量 (万张)
年人均看病次数
A
0.8
3.1
B
1.2
4.0
C
1.5
4.6
D
2.0
5.9
E
2.5
6.7
F
3.0
7.8
散点图显示与呈明显正相关.学生丙认为:“增加医院病床数量会使人们更容易生病,导致看病次数增加.”问:学生丙说的对吗?
【答案】学生丙说的不对
【分析】1.混淆相关与因果:学生丙将统计关联直接解释为“病床增加→生病增多”的因果关系;
2.忽略混杂变量:实际存在隐藏变量——城市人口基数和老龄人口比例:人口多的城市需更多病床,同时因基数大导致人均看病次数统计值更高;老龄化严重的城市对病床需求高,且老年人看病频率天然更高;
3.因果倒置风险:病床增加常是应对医疗需求的结果(需求高→增病床),而非致病原因.
【详解】由题意,
对于相关性:表格中病床数量增加时,人均看病次数同步上升,存在统计正相关.
对于因果性:若人为在偏远小镇新建医院(增加),但人口少且年轻,不会显著上升. 若某城市突发传染病(剧增),病床数不会自动增加.
结论:病床数量与人均看病次数的正相关反映共同影响因素的存在(人口结构、医疗需求),但不能证明“病床增加导致生病”,决策者若据此减少病床,反而会加剧医疗资源短缺,故学生丙说的不对.
3.某食品科学家小张想研究一种新型固体饮料粉末()在冷水中的溶解速率(溶解所需时间,单位:秒)与水初始温度(,单位:)之间的关系.他初步进行了少量实验,收集了以下5组数据:
水温 ()
溶解时间 ()
5
120
10
90
15
105
20
60
25
110
小张观察这5个数据点,发现水温升高时,溶解时间并没有呈现出明显一致的下降趋势(例如时时间较长,时时间也较长).他初步判断:“水温对这款饮料的溶解速率似乎没有显著影响,或者影响规律不明显.”
问题:
(1)小张基于这5组数据得出的初步结论可能有什么问题?结合数据具体解释.
(2)为什么仅凭这5个数据点就下结论是危险的?请解释样本量不足在评估变量关系时可能导致什么错误.
(3)为了更准确地了解水温与溶解时间的真实关系,小张应该怎么做?如果他增加了样本量(例如再做20次严格控制的实验),可能会观察到什么不同的现象?
【答案】(1)样本数量太少、信息量有限、包含异常数据、随机波动掩盖趋势;
(2)易受极端值/异常值影响、统计功效低、无法捕捉潜在规律;
(3)显著增加样本量(),最好增至20-30组,可能观察到的现象见解析.
【分析】(1)从样本量少、信息量有限、包含异常数据、正确且有用信息未显示被掩盖等出发分析即可;
(2)根据变量的相关关系方面定义、数据特点、统计影响等方面出发分析即可;
(3)从统计的科学性角度出发即可得解.
【详解】由题意,
(1)样本量太小():只有5个数据点,信息量极其有限,数据点包含“异常”或“扰动”:
时溶解时间105秒偏长;时溶解时间110秒偏长.
随机波动掩盖趋势:在水温升高溶解时间减少存在的情况下,小样本中少数几个受干扰的数据点所产生
的随机波动,完全可能暂时掩盖掉潜在的真实趋势.
当前5个点看起来就是“高高低低”,没有明确规律.
(2)易受极端值/异常值影响:小样本中,任何一个异常数据点,如受干扰的和数据,
对整体数据模式的权重都会被不成比例地放大,扭曲对整体关系的判断.
统计功效低:即使存在真实的、中等强度的负相关,水温越高,时间越短,
小样本也可能因为随机波动而无法可靠地检测到这种关系,导致第二类错误,
误以为没有关系而实际上有关系.结果不稳定且不可靠,小样本得出的结论对特定抽到的几个数据点非常敏感,
再抽另外5个点,可能看起来像正相关、负相关或无相关.结论缺乏代表性和可重复性.
无法捕捉潜在规律:变量间的关系,尤其是非线性关系需要足够的数据点才能清晰地显现其模式,
5个点太少,难以区分是随机噪声还是真实模式.
(3)显著增加样本量():小张应该进行更多次、严格控制实验条件的实验,
例如:确保搅拌均匀、粉末完全分散、记录准确.
建议至少增加到个或更多不同水温下的数据点.
可能观察到的现象:随着样本量增加,实验过程中偶然的干扰,如一次搅拌失误、一次结块,对整体数据模式的影响会被稀释.
知识点02 相关系数
1、相关系数r的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),对数据作进一步的“标准化处理”处理,用sx=,sy=分别除xi-和yi- (i=1,2,…,n,和分别为x1,x2,…,xn和y1,y2,…,yn的均值),得,,…,,为简单起见,把上述“标准化”处理后的成对数据分别记为(x1′,y1′),(x2′,y2′),…,(xn′,yn′),则变量x和变量y的样本相关系数r的计算公式如下:
r=(x1′y1′+x2′y2′+…+xn′yn′)
=.
2、相关系数r的性质
(1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
(2)样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3、样本相关系数与标准化数据向量夹角的关系
r=x′·y′=|x′||y′|cos θ=cos θ(其中x′=(x1′,x2′,…,xn′),y′=(y1′,y2′,…,yn′),|x′|=|y′|=,θ为向量x′和向量y′的夹角).
【即学即练】
1.通过随机抽样,得到变量和变量的7对数据,并绘制成散点图如图所示,已知变量和变量线性相关,且回归直线是图中直线,则下列说法正确的是( )
A.直线的斜率是负数
B.变量与变量正相关
C.相关系数
D.若去掉图中点后,剩余数据的相关系数变大
【答案】AC
【分析】根据数据的散点图,结合相关性、相关系数的概念与定义,逐项判定,即可得解.
【详解】对于A、B、C:由图可知直线的斜率是负数,所以变量与变量负相关,相关系数,故A、C正确,B错误;
对于D:若去掉图中点后,剩余的数据会更集中,相关程度会更高,相关系数的绝对值变大,又,所以相关系数变小,故D错误.
故选:AC.
2.下列四个选项正确的有( )
A.样本相关系数越大,成对样本数据的线性相关性越强
B.一组样本数据47,48,48,49,50,51,52,60,该组数据的第60百分位数为50
C.决定系数越大,残差平方和越小,模型的拟合效果越好
D.若数据的方差为8,则数据的方差为2
【答案】BCD
【分析】逐一结合相关系数、百分位数、决定系数、方差的性质,分析各选项的正误.
【详解】A:样本相关系数的绝对值越接近1,成对样本数据的线性相关性越强,的数值大小不直接决定相关性强弱,故A错误.
B:样本量为8,第60百分位数的位置为,向上取整为5,对应数据为50,故B正确.
C:决定系数越大,残差平方和越小,模型对数据的拟合效果越好,故C正确.
D:由方差性质,新数据的方差为8,得,解得原数据方差为2,故D正确.
故选:BCD
3.为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
【答案】(1)可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
(2)需对当天的生产过程进行检查
(3)均值;标准差.
【分析】(1)由样本数据得相关系数,验证是否成立,然后得结论;
(2)由求得,即可得到得结论;
(3)剔除离群值,求剩下数据的平均值,即求得这条生产线当天生产的零件尺寸的均值的估计值.由得,即可求出剔除第13个数据,剩下数据的样本方差,即求得这条生产线当天生产的零件尺寸的标准差的估计值.
【详解】(1)由样本数据得相关系数:
.
,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)∵,,∴,,
抽取的第13个零件的尺寸在以外,
需对当天的生产过程进行检查.
(3)剔除离群值,即第13个数据,
剩下数据的平均数为,
即这条生产线当天生产的零件尺寸的均值的估计值为;
由得:,
剔除第13个数据,剩下数据的样本方差为,
样本标准差为,
即这条生产线当天生产的零件尺寸的标准差的估计值为.
题型01 相关关系的理解
【典例1】物理实验中,测得变量x和变量y的几组数据,如下表:
x
0.50
0.99
2.01
3.98
y
-0.99
0.01
0.98
2.00
则下列选项中对x,y最适合的拟合函数是( )
A. B. C. D.
【答案】D
【分析】由拟合函数的定义,分别代入数据检验,可得答案.
【详解】根据,,代入计算,可以排除选项A.
根据,,代入计算,可以排除选项B,C.
将各数据代入检验,函数最接近,可知选项D满足题意.故选:D.
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系, 而相关关系不一定是因果关系,也可能是伴随关系.
【变式1】已知四组不同数据的两变量的线性相关系数如下:数据组①的相关系数;数据组②的相关系数;数据组③的相关系数;数据组④的相关系数.则下列说法正确的是( )
A.数据组①对应的数据点都在同一直线上
B.数据组②中的两变量线性相关性最强
C.数据组③中的两变量线性相关性最强
D.数据组④中的两变量线性相关性最弱
【答案】B
【分析】根据线性相关系数的性质逐个判断即可
【详解】对A,数据组①的相关系数,故数据组①对应的数据点无线性关系,故A错误;
对BC,数据组②的相关系数为4组中绝对值的最大值,故数据组②中的两变量线性相关性最强,故B正确,C错误;
对D,数据组①的相关系数为4组中绝对值最小,故数据组①中的两变量线性相关性最弱,故D错误
故选:B
【变式2】近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示:
城市编号
1
2
3
4
5
指标
4
6
2
8
5
指标
4
4
3
5
4
指标
3
6
2
5
4
利用向量夹角来分析与之间及与之间的相关关系.
【答案】答案见解析
【分析】根据坐标运算得出向量,再结合夹角公式求出夹角余弦,进而判断相关性解正负相关.
【详解】由已知得,,
,
将题表中x,y,z的相关数据分别减去,
记,,
.
则,,.
于是
,
,
所以与,与正相关,又,则与之间的相关性比与之间的相关性强.
【变式3】如图是国家统计周公布的2020年下半年快递运输量情况,请根据图中信息选出错误的选项( )
A.2020年下半年,同城和异地快递量最高均出现在11月
B.2020年10月份异地快递增长率小于9月份的异地快递增长率(注.增长率指相对前一个月而言)
C.2020年下半年,异地快递量与月份呈正相关关系
D.2020年下半年,每个月的异地快递量都是同城快递量的6倍以上
【答案】D
【详解】对于A,由图可看出,同城和异地快递量最高都在11月份,故A正确;
对于B,因为,9月异地快递增长率明显高于10月异地快递增长率,故B正确;
对于C,由图可看出,除2020年12月异地快递量较11月略少,其余都有较明显增加,因此可以判断异地快递量与月份呈正相关关系,故C正确;
对于D,2020年7月的异地快递量为572812.9万件,同城快递量为105191.1万件,异地快递量不到同城快递量的6倍,故D不正确.故选:D.
题型02 散点图及其应用
【典例1】和的散点图如图所示,则下列说法中所有正确命题的序号为 .
①,是负相关关系;
②,之间不能建立线性回归方程;
③在该相关关系中,若用拟合时的相关指数为,用拟合时的相关指数为,则.
【答案】①③
【分析】由图可知,散点图呈整体下降趋势,据此判断①的正误;由试验数据得到的点将散布在某一直线周围,因此,可以认为关于的回归函数的类型为线性函数,据此判断②的正误;根据散点图比较两个方程的拟合效果,比较那个拟合效果更好,据此判断③;.
【详解】在散点图中,点散布在从左上角到右下角的区域,因此,是负相关关系,故①正确;
x,,y之间可以建立线性回归方程,但拟合效果不好,故②错误;
由散点图知用拟合比用拟合效果要好,则,故③正确.
故答案为:①③.
1、画散点图时应注意合理选择单位长度,避免图形过大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
2、在这里利用散点图直观感知事物的形态与变化,理解事物间的关联及变化规律,是数学核心素养直观想象的具体体现.
【变式1】某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线的方程:,相关系数为,相关指数为;经过残差分析确定点为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线的方程:,相关系数为,相关指数为.则以下结论中,不正确的是
A., B.,
C. D.
【答案】D
【详解】分析:利用回归方程的性质,利用相关系数和相关指数分析解答.
详解:从图形中可以看出,两个变量是正相关,所以选项A是正确的;从图形中可以看出,回归直线的纵截距是正数,所以选项B和C是正确的;因为其中=真实值-预报值=残差,值越大,说明残差的平方和越小,也就是说模型的拟合效果越好.所以选项D是错误的.故答案为D.
点睛:(1)本题主要考查回归方程的性质,考查相关系数和相关指数,意在考查学生对这些基础知识的掌握水平和分析推理能力.(2) 相关系数: ,表示两个变量正相关;,表示两个变量负相关;的绝对值越接近1,表明两个变量的线性相关性越强.的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,的绝对值大于0.75时,表明两个变量的线性相关性很强.
【变式2】某市实施二手房新政一年多以来,为了了解新政对居民的影响,房屋管理部门调查了2018年6月至2019年6月期间购买二手房情况,首先随机抽取了其中的400名购房者,并对其购房面积(单位:平方米,)讲行了一次统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年6月至2019年6月期间当月在售二手房的均价(单位:万元/平方米),制成了如图2所示的散点图(图中月份代码1-13分别对应2018年6月至2019年6月)
(1)试估计该市市民的平均购房面积(同一组中的数据用该组区间的中点值为代表);
(2)从该市2018年6月至2019年6月期间所有购买二手房的市民中任取3人,用频率估计概率,记这3人购房面积不低于100平方米的人数为,求的分布列与数学期望;
(3)根据散点图选择和两个模型讲行拟合,经过数据处理得到两个回归方程,分别为和,并得到一些统计量的值,如表所示:
0.005459
0.005886
0.006050
请利用相关系数判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测2019年8月份的二手房购房均价(精确到0.001).
参考数据:,,,,,
参考公式:
【答案】(1);(2)1.2;(3)模型的拟合效果更好,预测2019年8月份的二手房购房均价万元/平方米.
【分析】(1)求解每一段的组中值与频率的乘积,然后相加得出结果;(2)分析可知随机变量服从二项分布,利用二项分布的概率计算以及期望计算公式来解答;(3)根据相关系数的值来判断选用哪一个模型,并进行数据预测.
【详解】解:(1).
(2)每一位市民购房面积不低干100平方米的概率为,
∴,
∴,
,
,
,
,
∴的分布列为
0
1
2
3
0.216
0.432
0.288
0.064
∴.
(3)设模型和的相关系数分别为,
则,,
∴,
∴模型的拟合效果更好,
2019年8月份对应的,
∴万元/平方米.
【变式3】2023年3月6日,中华人民共和国国务院新闻办公室举行“权威部门话开局”系列主题新闻发布会,介绍“加快推进新型工业化做强做优做大实体经济”有关情况.经综合研判,今年我国新能源汽车产业将保持良好的发展态势,生产和销售将实现稳定增长.据统计,去年10月至今年2月某品牌新能源汽车的市场销售量如下表.
月份
10月
11月
12月
1月
2月
销售量万辆
0.6
0.7
1.0
1.3
1.6
(1)根据数据作出散点图;
(2)判断与之间的相关关系.
【答案】(1)作图见解析
(2)正相关关系
【分析】(1)根据表格中的数据即可作出散点图;
(2)由散点图即可判断与之间的相关关系.
【详解】(1)作出散点图如下:
(2)由散点图可知,5组样本数据呈正相关关系.
题型03 线性相关性的检验
【典例1】2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【答案】(1), 0.27秒,;
(2)成立,证明见解析.
【分析】(1)根据已知条件求得回归方程的系数,即可得回归方程,将代入回归方程,即可得到答案;
(2)结合题中数据进行计算,可求得步长的残差和,从而可得结论,结合回归方程系数的计算公式即可证明.。
【详解】(1),,
,,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是0.27秒.
(2)根据(1)得到,;
,;
,;
,;
,,
所以,即步长残差和为0.
对任意具有线性相关关系的两个变量都成立,证明如下:
.
【变式1】党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023 年1 ~5月份该企业的利润y(单位:百万)的统计.
月份
1 月
2 月
3 月
4 月
5 月
月份编号x
1
2
3
4
5
利润y(百万)
7
12
13
19
24
(1)根据统计表,求该企业的利润y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为y与x的线性相关性较强,,则认为y与x的线性相关性较弱.);
(2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为,试求的分布列与期望.
附:相关系数
【答案】(1);具有很强的线性相关性
(2)分布列见解析;
【分析】(1)根据公式求出相关系数的值,即可判断;
(2)根据题意可知可取的为,然后计算列出分布列,求出期望即可求解.
【详解】(1)由统计表数据可得:
所以
所以相关系数 ,
因此,两个变量具有很强的线性相关性.
(2)由题意知,的可能取值为
因为 ,
,
所以 的分布列为:
所以
【变式2】近年来,国内掀起了全民新中式热潮,新中式穿搭,新中式茶饮,新中式快餐,新中式烘焙等,以下为某纺织厂生产“新中式”面料近5个月的利润(y万元)的统计表.
月份
2023.11
2023.12
2024.01
2024.02
2024.03
月份编号x
1
2
3
4
5
利润(y万元)
27
23
20
17
13
(1)根据统计表,试求y与x之间的相关系数r(精确到0.001),并利用r说明y与x是否具有较强的线性相关关系:(若,则认为两个变量具有较强的线性相关性);
(2)从这5个月的利润中任选2个月的利润,分别记为m,n,求事件“m,n均不小于20万元”的概率.
附:参考数据:
相关系数.
【答案】(1),具有较强的线性相关关系
(2)
【分析】(1)计算相关系数中的量,代入相关系数公式,由计算结果得出结论;
(2)列出基本事件空间,根据古典概型计算概率.
【详解】(1),,
,
又,
所以可以判断与具有较强的线性相关关系.
(2)从5个月的利润中任选2个,不同的结果有:
(27,23), (27,20), (27,17), (27,13), (23,20), (23,17), (23,13), (20,17), (20,13), (17,13),
共10个基本事件,
记“m,n均不小于20万元”为事件A,则事件A包含的基本事件为(27, 23), (27,20), (23,20),共3个基本事件.
所以,即事件“m, n均不小于20万元"的概率为.
【变式3】近年来,随着互联网的发展,诸如“滴滴打车”“神州专车”等网约车服务在我国各城市迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在M省的发展情况,M省某调查机构从该省抽取了5个城市,分别收集和分析了网约车的A,B两项指标数xi,yi(i=1,2,3,4,5),数据如下表所示:
城市1
城市2
城市3
城市4
城市5
A指标数x
2
4
5
6
8
B指标数y
3
4
4
4
5
经计算得,,
试求y与x之间的相关系数r,并利用r说明y与x是否具有较强的线性相关关系.
附:样本相关系数公式,参考数据:,.
【答案】,y与x线性正相关,且具有较强的线性相关关系.
【分析】根据表格中的数据,利用公式求得相关系数的值,即可得到结论.
【详解】解:由表格中的数据,可得,
且
可得,
因为,所以可以推断y与x线性正相关,且具有较强的线性相关关系.
题型04 判断线性相关的强弱
【典例1】已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,
A.当时,成对样本数据成线性正相关;
B.当越大时,成对样本数据的线性相关程度越强;
C.,时,成对样本数据的相关系数满足;
D.,时,成对样本数据的线性回归方程满足;
【答案】ACD
【分析】根据相关系数的正负、绝对值大小与变量相关性之间关系可知AB正误;根据,,代入相关系数和最小二乘法公式中,可知CD正误.
【详解】对于A,当时,成对样本数据成线性正相关,A正确;
对于B,当越大时,成对样本数据的线性相关程度越强;
当,时,对应的样本数据的线性相关程度更强,B错误;
对于C,当,时,不变且,
,C正确;
对于D,当,时,不变且,
,D正确.
故选:ACD.
【变式1】为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【分析】先计算线性相关系数 ,再通过 ()的绝对值判断相关强度( 越接近1,线性相关程度越强).
【详解】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
【变式2】为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
【变式3】比亚迪,这个中国品牌的乘用车,如今已经在全球汽车品牌销量前十中占据一席之地.这一成就是中国新能源汽车行业的里程碑,标志着中国已经在全球范围内成为了新能源汽车领域的强国.现统计了自上市以来截止到2023年8月的宋plus的月销量数据.
(1)通过调查研究发现,其他新能源汽车的崛起、购置税减免政策的颁布等,影响了该款汽车的月销量,现将残差过大的数据剔除掉,得到2022年8月至2023年8月部分月份月销量y(单位:万辆)和月份编号x的成对样本数据统计.
月份
2022年8月
2022年9月
2022年12月
2023年1月
2023年2月
2023年3月
2023年4月
2023年6月
2023年7月
2023年8月
月份编号
1
2
3
4
5
6
7
8
9
10
月销量(单位:万辆)
4.25
4.59
4.99
3.56
3.72
3.01
2.46
2.72
3.02
3.28
请用样本相关系数说明y与x之间的关系可否用一元线性回归模型拟合?若能,求出y关于x的经验回归方程;若不能,请说明理由.(运算过程及结果均精确到0.01,若,则线性相关程度很高,可用一元线性回归模型拟合)
(2)为迎接2024新春佳节,某地4S店特推出盲盒抽奖营销活动中,店家将从一批汽车模型中随机抽取50个装入盲盒用于抽奖,已知抽出的50个汽车模型的外观和内饰的颜色分布如下表所示.
红色外观
蓝色外观
棕色内饰
20
10
米色内饰
15
5
①从这50个模型中随机取1个,用A表示事件“取出的模型外观为红色”,用B表示事件“取出的模型内饰为米色”,求和,并判断事件A与B是否相互独立;
②活动规定:在一次抽奖中,每人可以一次性拿2个盲盒.对其中的模型给出以下假设:假设1:拿到的2个模型会出现3种结果,即外观和内饰均为同色、外观和内饰都异色以及仅外观或仅内饰同色.假设2:按结果的可能性大小,概率越小奖项越高.假设3:该抽奖活动的奖金额为一等奖3000元、二等奖2000元、三等奖1000元.请你分析奖项对应的结果,设X为奖金额,写出X的分布列并求出X的期望(精确到元).
参考公式:样本相关系数,
,.
参考数据:,.
【答案】(1)可以使用一元线性回归模型拟合,
(2)①,,不独立;②分布列见解析,期望为1694
【分析】(1)根据数据和相关系数的公式求出相关系数,结合数值进行判断,利用公式可得回归直线方程;
(2)①利用古典概率和条件概率求解即可,结合独立事件的判断方法可知不独立.②确定的所有取值,求出分布列,结合期望公式可得期望.
【详解】(1),
,
,
因为,所以可以使用一元线性回归模型拟合.
,
,
所以回归方程为:.
(2)①模型内饰为米色的共有20个,所以,
红色外观的模型有35个,其中内饰为米色的共有15个,所以,
红色外观模型且内饰为米色的共有15个,所以,
,因为,所以不独立.
②设事件“取出的模型外观和内饰均为同色”, 事件“取出的模型外观和内饰都异色”, 事件“仅外观或仅内饰同色”,
,,
,
因为,所以获得一等奖的概率为,二等奖的概率为,三等奖的概率为.
其分布列为
3000
2000
1000
期望为.
1.下列说法中正确的是( )
A.若甲乙两组数据的相关系数分别为和,则甲的数据线性相关性更强
B.已知关于的回归方程为,则样本点的残差为
C.若随机变量,满足,若,则
D.随机变量服从二项分布,若方差,则
【答案】BD
【分析】根据线性相关系数的性质判断A;根据残差的定义判断B;根据方差的性质判断C;根据二项分布的方差求解的值,再求解的值即可判断D.
【详解】对于A,相关系数的绝对值越大数据线性相关性越强,若甲乙两组数据的相关系数分别为和,
因为,所以乙的数据线性相关性更强,故A错误;
对于B,因为关于的回归方程为,
当时,所以样本点的残差为,故B正确;
对于C,若随机变量满足,若,则,故C错误;
对于D,随机变量服从二项分布,则方差,解得,
所以,故D正确.
故选:BD.
2.全面建成小康社会取得了伟大历史成就,决战脱贫攻坚取得了决定性胜利,某脱贫县实现脱贫奔小康的目标,该县经济委员会积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收.
(1)该县经济委员会为精准了解本地特产广告宣传的导向作用,在购买该县特产的客户中随机抽取300人进行广告宣传作用的调研,对因广告宣传导向而购买该县特产的客户统计结果是:客户群体中青年人约占15%,其中男性为20%;中年人约占50%,其中男性为35%;老年人约占35%,其中男性为55%.以样本估计总体,视频率为概率.
①在所有购买该县特产的客户中随机抽取一名客户,求抽取的客户是男性的概率;
②在所有购买该县特产的客户中随机抽取一名客户是男客户,求他是中年人的概率(精确到0.0001);
(2)该县经济委员会统计了某6至12月这7个月的月广告投入(单位:万元);(单位:万件)的数据如表所示:
月广告投入/万元
1
2
3
4
5
6
7
月销量/万件
28
32
35
45
49
52
60
请根据相关系数说明相关关系的强弱.(若,则认为两个变量有很强的线性相关性,值精确到0.001)
参考数据:.
参考公式:相关系数.
【答案】(1)①0.3975;②0.4403
(2)与的线性相关程度相当高
【分析】(1)根据全概率公式即可得出①的答案,进而根据条件概率公式可得出②的答案;
(2)由已知可求得,,,然后代入相关系数公式即可求出相关系数的值,进而得出两个变量线性相关性的强弱.
【详解】(1)设事件“抽取的是男性客户” “青年客户”,
“中年客户”,“老年客户”,依题设,
,
①由全概率公式
②
(2)由题意,知,所以,
所以,
又,所以相关系数
,
显然与的线性相关程度相当高.
3.下列说法中正确的是( )
A.样本数据7,8,6,8,4,7,3,9的下四分位数为4
B.的展开式中所有项的系数和与二项式系数和相等
C.已知随机变量,若,则
D.成对样本数据的线性相关程度越强,则样本相关系数的值越接近于1
【答案】BC
【分析】A.从小到大排列,计算第25百分位即可;
B.令,得所有项的系数,与比较即可;
C.正态分布,找出对称轴,,计算即可;
D.套用线性相关系数结论即可.
【详解】选项A,排序数据:3,4,6,7,7,8,8,9;, ,下四分位数为:,A错误;
选项B,令,得得所有项的系数和为,二项式系数和为,B正确
选项C,,,
,,C正确.
选项D,样本相关系数的值越接近于-1,也是相关程度越强,D错误.
故选:BC
4.2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示.
万件
2.08
2.12
2.19
2.28
2.36
2.48
2.59
2.68
2.80
2.87
万元
42.5
43.7
44.0
45.5
46.4
47.5
49.2
50.3
51.4
52.6
(1)计算的值;
(2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度.
【答案】(1)
(2),与之间具有很强的相关性
【分析】(1)由平均数的计算公式得到和;
(2)由相关系数的计算公式计算,再由判断相关性.
【详解】(1)依题意,
(2)依题意,,,,
所以,
因为,所以与之间具有很强的相关性.
5.一组成对样本数据的散点位于一条直线附近,它的样本相关系数(其中),由最小二乘法求得经验回归方程(其中),则( )
A.若,则
B.若,则成对数据的样本相关系数等于
C.若,则成对数据的样本相关系数大于
D.若,则成对数据的经验回归方程
【答案】AB
【分析】根据相关系数的公式和的公式,以及相关系数的意义,即可判断选项.
【详解】A.若,变量正相关,所以,故A正确;
B.因为,所以成对数据对应点相当于把成对数据对应的点向下平移2个单位,不改变变量的相关性,故B正确;
C.因为,则成对数据的相关系数,若是负数,则,故C错误;
D.当,由可知,新的回归直线方程种斜率变为,,则成对数据的经验回归方程,故D错误.
故选:AB
6.某校20名学生的数学成绩和知识竞赛成绩如下表:
学生编号i
1
2
3
4
5
6
7
8
9
10
数学成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号i
11
12
13
14
15
16
17
18
19
20
数学成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
;;.
【答案】(1)证明见解析
(2)答案见解析
【分析】(1)利用相关系数的公式进行计算即可;
(2)(i)根据题意即相关系数的公式进行计算即可证明;(ii)只要能说出斯皮尔曼相关系数与一般的样本相关系数相比的优势即可.
【详解】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为
;
(2)(i)证明:因为和都是1,2,,的一个排列,所以
,
,
从而和的平均数都是.
因此,,
同理可得,
由于
,
所以.
(ii)这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是0.91,
答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.
7.规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,;
参考数据:,,(其中,).
【答案】(1)分布列见解析,数学期望为
(2)回归方程为,预测成功的总人数为465
(3)证明见解析
【分析】(1)结合相互独立、独立重复试验的概率计算公式,计算出分布列并求得数学期望.
(2)利用换元法,结合回归直线方程的计算公式,计算出关于的回归方程,并由求得预测值.
(3)通过求“在前轮没有成功的概率”大于,来求得“前轮就成功的概率”小于,从而证得不等式成立.
【详解】(1)由题知,的取值可能为1,2,3所以;
;;
所以的分布列为:
1
2
3
所以数学期望为.
(2)令,则,由题知:,,
所以,
所以,,
故所求的回归方程为:,
所以,估计时,;估计时,;估计时,;
预测成功的总人数为.
(3)由题知,在前轮就成功的概率为
又因为在前轮没有成功的概率为
,
故.
8.【阅读材料1】
我们在研究两个变量之间的相关关系时,往往先选取若干个样本点(),(),……,(),将样本点画在平面直角坐标系内,就得到样本的散点图.观察散点图,如果所有样本点都落在某一条直线附近,变量之间就具有线性相关关系,如果所有的样本点都落在某一非线性函数图象附近,变量之间就有非线性相关关系.在统计学中经常选择线性或非线性(函数)回归模型来刻画相关关系,并且可以用适当的方法求出回归模型的方程,还常用相关指数R2来刻画回归的效果,相关指数R2的计算公式为:
当R2越大时,回归方程的拟合效果越好;当R2越小时,回归方程的拟合效果越差,R2是常用的选择模型的指标之一,在实际应用中应该尽量选择R2较大的回归模型.
【阅读材料2】
2021年6月17日9时22分,我国酒泉卫星发射中心用长征二号F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
15
22
27
40
48
54
60
68.5
68
67.5
66
65
当0<x≤13时,建立了与的两个回归模型:
模型①:;模型②:;
当x>13时,确定y与x满足的线性回归直线方程为.
根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当0<x≤13时模型①,②的相关指数R2的大小,并选择拟合效果更好的模型.
回归模型
模型①
模型②
回归方程
79.13
20.2
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.
附:①若最小二乘法求得回归直线方程为,则;
②
③,当时,.
【答案】(1)模型②拟合效果更好
(2)69.1(亿元)
【分析】(1)分别求出两个模型的相关指数,在进行比较即可,
(2)利用最小二乘法求出回归方程,再求收益即可.
【详解】(1)对于模型①,
因为,故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合效果更好.
(2)当时,
后五组的,
由最小二乘法可得,
所以当时,确定y与x满足的线性回归直线方程为
故当投入20亿元时,预测公司的收益约为:(亿元).
9.2018年11月5日至10日,首届中国国际进口博览会在国家会展中心(上海)举行,吸引过来58个“一带一路”沿线国家的超过1000多家企业参展,成为共建“一带一路”的又一个重要支撑。某企业为了参加这次盛会,提升行业竞争力,加大了科技投入;该企业连续6年来得科技投入(百万元)与收益(百万元)的数据统计如下:
根据散点图的特点,甲认为样本点分布在指数曲线的周围,据此他对数据进行了一些初步处理,如下表:
其中,.
(1)()请根据表中数据,建立关于的回归方程(保留一位小数);
()根据所建立回归方程,若该企业想在下一年的收益达到2亿,则科技投入的费用至少要多少(其中)?
(2)乙认为样本点分布在二次曲线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲乙两位员工所建立的模型,谁的拟合效果更好.
附:对于一组数据,,……,其回归直线方程的斜率和截距的最小二乘估计分别为,,相关指数:.
【答案】(1)(i);(ii);(2)甲建立的回归模型拟合效果更好
【分析】(1)通过,将非线性回归问题,转化为线性回归问题,利用线性回归直线方程计算公式计算出线性回归直线,再还原为非线性回归方程.并由此列不等式,求得科技投入的费用至少需要的值.
(2)计算出模型甲残差平方和,由此计算出模型甲的相关指数,比较甲乙两个模型的相关指数,由此确定拟合效果较好的模型.
【详解】(1)(),令.
令,则,根据最小二乘估计可知.
从而,故回归方程为,也即.
()设,解得=>.
(2)先计算残差:
则,从而.
即甲建立的回归模型拟合效果更好.
2 / 20
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$