内容正文:
第八章 成对数据的统计分析 知识归纳与题型突破(八类题型清单)
01 思维导图
02 知识速记
一、成对数据、相关分析:我们把这样的两组数据叫做成对数据.研究成对数据相关性的方法称为相关分析.
二、线性拟合
以某商品的两个变量:“每千克的价格”与“年需求量”为例,绘制一项调查数据散点图:
从上面的散点图中可以看到,所有点都在一条直线附近波动,这说明两个变量之间具有一种线性关系.在本章的8.2节中我们会知道,这种情况下可以用一条直线来拟合这两组数据.需要注意的是,通常情况下,这两组数据并不构成函数关系.
三、相关系数
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
2.相关系数r
(1)
由上述计算公式得到的数值r称为变量x和变量y的线性相关系数,简称相关系数.
(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
两个变量的相关系数具有以下特点:
(1)相关系数描述的是两个变量之间线性关系的方向与强度,是一种定量分析的方法.
(2)相关系数的计算公式是关于x、y对称的,画散点图时,不论以哪个变量作为横轴(纵轴),得到的相关系数都一样.
(3)两个变量的相关系数与这两个变量的单位无关.例如,在计算身高与体重的相关系数时,身高单位不管取“米”还是“厘米”,结果都一样.
(4)与平均数和标准差一样,相关系数不仅会受到数据量多少的影响,也会受到少数异常值的较大影响.
(5)要用相关系数来描述两个随机变量的相关性,一般要求这两个变量满足正态分布.
3.一元线性回归模型
从上图可以看出,“年需求量”(y)与“每千克价格”(x)之间有一种线性相关性,或者说,图中的点都在一条直线附近.下面,我们考虑如何找到这条直线,使它“最贴近”这些点.
4.2×2列联表和χ2
(1).如果随机事件A与B的样本数据的2×2列联表如下.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则
χ2=.
(2) 表8-6中进行了两种分类,按是否吸烟进行分类和按是否患慢性气管炎进行分类,像这类变量称为分类变量.
(3) 要检验两个随机变量是否有关系,统计上一般先假设它们没有关系,再进行统计检验.这样的假设称为原假设(也称为零假设).例如,针对上述问题,我们提出的零假设是:
H。:慢性气管炎患病与吸烟没有关系,它们相互独立.
χ2值越大,说明观察值与预期值的总体偏差越大,原假设成立的可能性就越小.那么χ2多大时,我们才可以拒绝原假设呢?这涉及χ2分布.通过查χ2分布概率表,可以得到χ2值超过某些界限的概率.
03 题型归纳
题型一 概念辨析
例题
1.下列关系中是相关关系的是 (填序号)
①曲线上的点与该点的坐标之间的关系;
②苹果的产量与气候之间的关系;
③森林中同一种树木,其断面直径与高度之间的关系;
④学生与其学号之间的关系.
【答案】②③
【分析】根据相关关系是一种不确定的关系,是两个变量之间确实存在的关系,由此判断即可.
【解析】对于①,曲线上的点与该点的坐标之间的关系是一一对应关系,不是相关关系,是确定性关系;
对于②,苹果的产量与气候之间确实存在一定的关系,虽然变量的值不确定,但它们仍按某种规律在一定的范围内变化,属于相关关系;
对于③,森林中的同一种树木,其断面直径与高度之间确实存在一定的关系,虽然变量的值不确定,但它们仍按某种规律在一定的范围内变化,属于相关关系;
对于④,学生与他(她)的学号之间的关系是一种确定的对应关系,是映射,不是相关关系.
故答案为:②③
巩固训练
2.已知变量x和y满足关系,变量y与z负相关,则可以判断变量x与y ,x与z .(填写“正相关”或“负相关”)
【答案】 正相关 负相关
【分析】根据变量之间的关系式结合相关性的概念即得.
【解析】因为变量x和y满足关系,一次项系数,
所以变量x与y正相关,
又变量y与z负相关,设,则,,
所以变量x与负相关.
故答案为:正相关;负相关.
3.下列有关线性回归的说法中,正确的是 (填序号).
①相关关系的两个变量不是因果关系;
②散点图能直观反映数据的相关程度;
③回归直线最能代表线性相关的两个变量之间的关系;
④任意一组数据都有回归方程.
【答案】①②③
【分析】对于①,根据具有相关关系的两个变量不一定是因果关系,即可判断;对于②,根据散点图能直观的反映数据的相关程度,即可判断;对于③和④,根据回归直线最能代表线性相关的两个变量之间的关系,并不是任一组数据都有回归方程,即可判断.
【解析】具有相关关系的两个变量不一定是因果关系,故①正确;
散点图能直观的反应数据的相关程度,故②正确;
回归直线最能代表线性相关的两个变量之间的关系,故③正确;
并不是任一组数据都有回归方程,例如当一组数据的线性相关数很小时,这组数据就不会有回归方程,故④错误.
故答案为:①②③
4.在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【答案】③④
【分析】由独立性检验中观测值和临界值的意义,即可得出正确的答案.
【解析】在独立性检验中,由
表示的意义是:有的把握认为变量与变量没有关系,所以④正确;
即有的把握认为变量与变量有关系,所以③正确.
故答案为:③④
5.在下列各图中,两个变量具有线性相关关系的图是( )
A. B.
C. D.
【答案】C
【分析】根据题意结合线性相关关系的概念逐项分析判断.
【解析】对于选项A:两个变量为函数关系,不是线性相关关系,所以A错误;
对于选项B:所有点不是在一条直线附近波动,不是线性相关关系,故B错误;
对于选项C:对于两个变量x,y,y随着x的增加而减少,
且所有点都在一条直线附近波动,所以具有线性相关关系,故C正确;
对于选项D:两个变量不具有相关性,故D错误.
故选:C.
6.对变量x、y有观测数据(i=1,2,…,10),得散点图如图1所示;对变量u、v有观测数据(i=1,2,…,10),得散点图如图2所示.由这两个散点图函可以判断变量x与y ,u与v .(填写“正相关”或“负相关”)
【答案】 负相关 正相关
【分析】根据散点图及正相关,负相关的概念即得.
【解析】由图1可知点散布在从左上角到右下角的区域,所以变量x与y负相关,
由图2可知点散布在从左下角到右上角的区域,所以变量u与v正相关.
故答案为:负相关;正相关.
题型二 线性回归直线方程的有关概念、计算
例题
7.用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】根据最小二乘法的概念和求解过程,即可求解.
【解析】根据最小二乘法的概念和求解,可得回归方程是为了使得每个数据与估计值之间的差的平方和最小.
故选:D.
巩固训练
8.已知,则 .
【答案】
【分析】根据求和符号的意义,准确运算,即可求解.
【解析】由题意知,则:
.
故答案为:.
9.具有线性相关关系的变量、有一组观测数据(且),其回归直线方程是,且,则实数的值是 .
【答案】2
【分析】利用回归直线必过样本的中心点,代入计算即得.
【解析】由,得,于是,解得.
故答案为:2
题型三 线性回归直线方程的综合辨析
例题
10.设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论中正确的是( )
A.直线过点 B.和的相关系数为直线的斜率
C.和的相关系数在0到1之间 D.当为偶数时,分布在两侧的样本点的个数一定相同
【答案】A
【分析】根据回归方程过定点、相关系数的范围和回归直线斜率的关系、回归直线与样本点的关系判断各个选项;
【解析】对于A,线性回归直线一定过点,A正确;
对于B,和的相关系数和直线的斜率存在一定的关系,但并不是直线的斜率,B错误;
对于C.和的相关系数在到1之间,C错误;
对于D,当为偶数时,分布在两侧的样本点的个数没有直接关系,D错误;
故选:A.
巩固训练
11.有一散点图如图所示,在5个数据中去掉后,下列说法中正确的是( )
A.离差和变小 B.相关系数变小
C.拟合误差变小 D.解释变量与反应变量的相关性变弱
【答案】C
【分析】根据离差和、相关系数、拟合误差、解释变量与反应变量的相关性逐项判断可得答案.
【解析】对于A,离差和是每个数据点与均值差值平方后的累计和,
去掉一个点后离差平方和的变化取决于该点的具体数值及其与均值的差距,
如果该点与均值相差较大,去掉它可能会导致离差平方和显著减小,
如果相差较小,则可能对离差平方和的影响不大,
因此,无法说明去掉一个点后离差平方和一定会如何变化,故A错误;
对于B,因为点离其它点较远,去掉后,相关性变强,而且是正相关,所以相关系数变大,故B错误;
对于C,点离其它点较远,是一个异常值,拟合误差减小,故C正确
对于D,解释变量与反应变量的相关性变强,故D错误.
故选:C.
12.设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
【答案】C
【分析】利用与r的含义判断AB,根据r大于零时两变量正相关即可得一定大于零判断CD.
【解析】影响的是回归直线的斜率,r影响是两个变量之间的相关性,
所以与r之间数值大小没有关系,但符号有影响,故选项AB错误;
若r大于零,则说明两个变量之间成正相关,故一定大于零,故选项C正确,D错误.
故选:C
13.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A,进一步可得回归方程,由此即可验算B选项,由百分位数的概念即可判断C,由相关系数公式即可判断D.
【解析】,所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
对于B,当时,y的预测值为,故B错误;
对于C,样本数据y的第40百分位数为,故C错误;
对于D,由相关系数公式可知,去掉样本点后,x与y的样本相关系数r不会改变,故D正确.
故选:D.
题型四 线性回归直线方程的应用
例题
14.某产品的广告费投入与销售额的统计数据如下表所示(单位:万元):
广告费
4
2
3
5
销售额
49
26
39
54
根据上表建立线性回归方程中的为10,预测广告费为6万元时,销售额约为 万元.
【答案】67
【分析】样本中心代入回归方程,求出,得到回归方程,再由回归方程进行预测.
【解析】,,
把代入回归方程,有,得,
所以线性回归方程为,
当时,有.
故答案为:67
巩固训练
15.某蛋糕店对某新品种蛋糕进行试销,根据试销情况,得到销售单价(单位:元/个)与每天的销量(单位:个)的数据,如下表所示.已知该新品种蛋糕的销量关于销售单价的经验回归方程为,则 .
单价(元/个)
销量/个
【答案】
【分析】根据经验回归方程必过样本点中心,代入数值后,即可求解.
【解析】由题意可得,,
则.
故答案为:185
16.某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为 ℃.
【答案】
【分析】利用回归直线经过样本点的中心,先算出,然后令代入回归直线进行求解.
【解析】根据表格数据可得,,,根据回归直线性质,经过样本点中心,即,故,得,故回归直线为,当,.
故答案为:
17.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值()(万亿元)关于年份代号的回归方程为,则由回归方程预测我国在2035年底人均国内生产总值约为 万元.(保留一位小数)
【答案】
【分析】根据题意求出国内生产总值再除以人数即可.
【解析】根据题意,2035年对应年号,所以(万亿),
所以我国在2035年底人均国内生产总值约为万元.
故答案为:.
18.某设备的使用年数与所支出的维修总费用的统计数据如下表:
使用年数(单位:年)
2
3
4
5
6
维修总费用(单位:万元)
1.5
4.5
5.5
6.5
7.5
根据上表可得经验回归方程为.则处的预测值为 万元.
【答案】13.5/.
【分析】由表格可得,,后由回归直线方程过点可得,最后代入可得答案.
【解析】由表格,得,.
因为回归直线方程为,所以,即.则时,.
故答案为:13.5
19.某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为,其中,.
【答案】1384
【分析】计算出,故代入公式得到,,得到,代入,预测第五期的产量.
【解析】设父代产量为,子代产量为,
则,,
所以,
,
所以,.
则线性回归方程为,当时,,
所以预测第五期的产量为每亩1384公斤.
故答案为:1384
20.数学兴趣小组对具有线性相关的两个变量x和y进行了统计分析,得到了下表:
x
4
6
8
10
12
y
a
2
b
c
6
并由表中数据求得y关于x的回归方程为,若a,b,c成等差数列,则 .
【答案】3
【分析】求出,结合回归方程可求得,从而得出,结合a,b,c成等差数列,即可求得答案.
【解析】由题意得,代入回归方程得,
则,所以,
又,所以,
故答案为:3
21.某公司为了增加某商品的销售利润,调查了该商品投入的广告费用:(单位:万元)与销售利润(单位:万元)的相关数据,如表所示,根据表中数据,得到经验回归方程,则下列命题正确的是 (请填写序号)
广告费用
3
4
5
8
销售利润
4
5
7
8
①; ②;③直线必过点;④直线必过点
【答案】①②④
【分析】
根据平均数的求解可判断④③,利用最小二乘法求解系数即可判断①②.
【解析】
由表中数据可得,,,
则样本中心为,故直线必过点,故④正确,③错误,
,,
则,①②正确.
故答案为:①②④.
题型五 求相关系数
例题
22.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.无法确定
【答案】A
【分析】根据线性相关系数的定义直接得解.
【解析】由已知样本数据所对应的点均在直线上,
则,又,所以满足负相关,
即.
故选:A.
巩固训练
23.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .(精确到0.01,参考数据:,,)
【答案】0.99/
【分析】根据表中的数据结合公式直接求解即可.
【解析】由题意,知,
所以.
所以结合参考数据知:.
所以y与x的相关系数近似为0.99.
故答案为:
24.学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x
1
2
3
4
5
6
7
一次最多答对题数y
12
15
16
18
21
24
27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数 (结果保留两位小数).
【答案】0.99
【分析】根据题意,由相关系数的计算公式代入计算,即可得到结果.
【解析】由题意
.
故答案为:.
题型六 相关系数的大小比较
例题
25.近五年来某草原羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
若利用这五组数据得到的两变量间的相关系数为,去掉第一年数据后得到的相关系数为,则 (填,,,)
【答案】
【分析】根据散点图可知两个量呈负相关,且去掉数据后相关性变强,结合相关系数的概念判断即可.
【解析】根据散点图可知,羊只数量与草地植被指数呈负相关,则相关系数,,
当去掉第一年数据后,数据的线性相关性变强,所以,所以.
故答案为:
巩固训练
26.下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
【答案】C
【分析】根据折线图中各阶段的数据,计算其样本中心纵坐标、极差,并结合数据的变化趋势画出近似回归直线,即可确定回归方程参数之间的大小关系.
【解析】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,
∴由图知:2010年至2014年数据为;
2015年至2019年数据为;
2010年至2019年数据为;均成递减趋势.
又,,,且极差分别为6、51、65,
三条回归方程的直线大致图象,如下图示:
∴回归方程的斜率大小关系为,且截距.
故选:C.
27.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】B
【分析】根据散点图和相关系数的概念和性质辨析即可.
【解析】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离.
综上所得:.
故答案为:B.
题型七 2×2列联表 独立性检验
例题
28.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
.(结果保留3位小数)
【答案】4.514
【分析】完善列联表,直接根据卡方计算公式计算卡方即可得解.
【解析】由题意
性别
是否看电视
合计
不看电视
看电视
男
37
85
122
女
35
143
178
合计
72
228
300
故答案为:4.514.
巩固训练
29.已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍 .
【答案】4
【分析】分别将和代入公式求解即可.
【解析】因为,
所以.
故答案为:4.
30.为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【答案】
【分析】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【解析】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
31.为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
【答案】B
【分析】命题①,根据条件,利用古典概率公式,求出概率,即可判断命题①的正误;根据表中数据,求出,即可判断出命题②和③的正误,即可求解.
【解析】因为对主办方表示满意的男性运动员的人数为,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,
又因为,所以命题②错误,命题③正确,
故选:B.
32.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
根据表中数据,以下叙述正确的是( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
【答案】C
【分析】根据题意求出的值,再与临界值比较即可得出结论.
【解析】由题意可知,,
所以有的把握认为“吸烟与患肺癌有关”.
故选:C.
题型八 解答题
例题
33.向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展.如人工智能中的大语言模型DeepSeek(以下简称DeepSeek).为调查DeepSeek的应用是否会对相关从业人员的数量产生影响,某学校研究小组随机抽取了150名视频从业人员进行调查,结果如下表所示:
DeepSeek的应用情况
相关从业人员
合计
减少
未减少
应用
54
72
没有应用
42
合计
90
150
(1)根据所给数据完成上表,并判断是否有95%的把握认为的应用与相关从业人员的减少有关?
(2)某公司视频部现有员工100人,公司拟开展DeepSeek培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用DeepSeek.
(ⅰ)求员工经过培训能应用DeepSeek的概率.
(ⅱ)已知开展DeepSeek培训前,员工每人每年平均为公司创造利润6万元;开展DeepSeek培训后,能应用DeepSeek的员工每人每年平均为公司创造利润10万元;DeepSeek培训平均每人每年成本为1万元.根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后剩余员工开展DeepSeek培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?
附:其中,)
【答案】(1)表格见解析,有的把握认为的应用与视频从业人员的减少有关
(2)(i);(ii)人
【分析】(1)分析数据关系,完善列联表,提出零假设,计算,比较其与临界值大小,判断结论;
(2)(i)设“员工第轮获得优秀”, “员工经过培训能应用”,则,结合互斥事件概率加法公式,独立事件概率乘法公式求结论;
(ii)设视频部调人至其他部门,为培训后视频部能应用的人数,则,由条件列不等式可求结论.
【解析】(1)依题意,列联表如下:
DeepSeek的应用情况
视频从业人员
合计
减少
未减少
应用
没有应用
合计
零假设为:的应用与视频从业人员的减少独立,的应用前后视频从业人员无差异,
由列联表中数据得,.
根据小概率值的的独立性检验,推断不成立,
所以有的把握认为的应用与视频从业人员的减少有关.
(2)(i)设“员工第轮获得优秀”,且相互独立.
设“员工经过培训能应用”,则
,
所以员工经过培训能应用的概率是.
(ii)设视频部调人至其他部门,为培训后视频部能应用的人数,
则,因此,
调整后视频部的年利润为
(万元),
令,解得,又,所以.
所以视频部最多可以调人到其他部门.
巩固训练
34.向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展以人工智能的应用为例,人工智能中的文生视频模型Sora(以下简称Sora),能够根据用户的文本提示创建最长60秒的逼真视频.为调查Sora的应用是否会对视频从业人员的数量产生影响,某学校研究小组随机抽取了150名视频从业人员进行调查,结果如下表所示.
Sora的应用情况
视频从业人员
合计
减少
未减少
应用
54
18
72
没有应用
36
42
78
合计
90
60
150
0.010
0.005
0.001
6.635
7.879
10.828
(1)根据所给数据,判断是否有的把握认为Sora的应用与视频从业人员的减少有关?
(附:,其中.)
(2)某公司视频部拟开展Sora培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,,,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用Sora.
(i)求员工经过培训能应用Sora的概率;
(ii)已知开展Sora培训前,员工每人每年平均为公司创造利润6万元;开展Sora培训后,能应用Sora的员工每人每年平均为公司创造利润10万元;Sora培训平均每人每年成本为1万元.视频部现有员工100人,根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后对剩余员工开展Sora培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?
【答案】(1)有的把握认为Sora的应用与视频从业人员的减少有关,理由见解析;
(2)(i);(ii)人.
【分析】(1)先零假设,然后计算,根据小概率值的独立性检验即可判断;
(2)(i)设“员工经过培训能应用Sora”,结合互斥事件概率加法公式,独立事件概率乘法公式即可求解;
(ii)设视频部调人至其他部门,为培训后视频部能应用Sora的人数,则,由条件列不等式可求结论.
【解析】(1)零假设:Sora的应用与视频从业人员的减少无关,
,
根据小概率值的独立性检验,可以推断出不成立,
所以有的把握认为Sora的应用与视频从业人员的减少有关;
(2)(i)设“员工经过培训能应用Sora”,
所以,
所以员工经过培训能应用Sora的概率为;
(ii)设视频部调人至其他部门,,为培训后视频部能应用Sora的人数,
则,因此,
调整后视频部的期望年利润为:(万元),
令,解得,又,所以,
因此视频部最多可以调人到其他部门.
35.党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
【答案】(1),与具有较高的线性相关程度
(2)
【分析】(1)根据题意求得,利用相关系数公式求得相关系数,比较可得结论;
(2)利用回归方程的系数公式求得,继而求得,即可求得与的回归方程.
【解析】(1)由表数据可得的平均数,
所以,
所以相关系数,
由,所以与具有较高的线性相关程度;
(2)依题意可得,
,
,
所以,
所以关于的线性回归方程为.
36.为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
【答案】(1)600个
(2)
(3)个
【分析】(1)利用样本质量合格的频率估计总体的概率,求总体中质量合格的零件数量.
(2)根据给出的公式可求的值.
(3)根据期望的线性性质求解.
【解析】(1)因为在这100个零件中,合格的零件为60个,
故质量合格的零件所占样本比例为.
而在这1000个零件中,质量合格的零件数为:(个).
(2)由可得,,
又因为,,
因此可得:.
代入数据可得:.
(3)用表示抽查的结果,若第个零件与第个零件被选中,则记;
若结果是其余情况,则记,.
由线性期望的性质可得:
(个).
2 / 27
学科网(北京)股份有限公司
$$
第八章 成对数据的统计分析 知识归纳与题型突破(八类题型清单)
01 思维导图
02 知识速记
一、成对数据、相关分析:我们把这样的两组数据叫做成对数据.研究成对数据相关性的方法称为相关分析.
二、线性拟合
以某商品的两个变量:“每千克的价格”与“年需求量”为例,绘制一项调查数据散点图:
从上面的散点图中可以看到,所有点都在一条直线附近波动,这说明两个变量之间具有一种线性关系.在本章的8.2节中我们会知道,这种情况下可以用一条直线来拟合这两组数据.需要注意的是,通常情况下,这两组数据并不构成函数关系.
三、相关系数
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
2.相关系数r
(1)
由上述计算公式得到的数值r称为变量x和变量y的线性相关系数,简称相关系数.
(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
两个变量的相关系数具有以下特点:
(1)相关系数描述的是两个变量之间线性关系的方向与强度,是一种定量分析的方法.
(2)相关系数的计算公式是关于x、y对称的,画散点图时,不论以哪个变量作为横轴(纵轴),得到的相关系数都一样.
(3)两个变量的相关系数与这两个变量的单位无关.例如,在计算身高与体重的相关系数时,身高单位不管取“米”还是“厘米”,结果都一样.
(4)与平均数和标准差一样,相关系数不仅会受到数据量多少的影响,也会受到少数异常值的较大影响.
(5)要用相关系数来描述两个随机变量的相关性,一般要求这两个变量满足正态分布.
3.一元线性回归模型
从上图可以看出,“年需求量”(y)与“每千克价格”(x)之间有一种线性相关性,或者说,图中的点都在一条直线附近.下面,我们考虑如何找到这条直线,使它“最贴近”这些点.
4.2×2列联表和χ2
(1).如果随机事件A与B的样本数据的2×2列联表如下.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则
χ2=.
(2) 表8-6中进行了两种分类,按是否吸烟进行分类和按是否患慢性气管炎进行分类,像这类变量称为分类变量.
(3) 要检验两个随机变量是否有关系,统计上一般先假设它们没有关系,再进行统计检验.这样的假设称为原假设(也称为零假设).例如,针对上述问题,我们提出的零假设是:
H。:慢性气管炎患病与吸烟没有关系,它们相互独立.
χ2值越大,说明观察值与预期值的总体偏差越大,原假设成立的可能性就越小.那么χ2多大时,我们才可以拒绝原假设呢?这涉及χ2分布.通过查χ2分布概率表,可以得到χ2值超过某些界限的概率.
03 题型归纳
题型一 概念辨析
例题
1.下列关系中是相关关系的是 (填序号)
①曲线上的点与该点的坐标之间的关系;
②苹果的产量与气候之间的关系;
③森林中同一种树木,其断面直径与高度之间的关系;
④学生与其学号之间的关系.
巩固训练
2.
已知变量x和y满足关系,变量y与z负相关,则可以判断变量x与y ,x与z .(填写“正相关”或“负相关”)
3.下列有关线性回归的说法中,正确的是 (填序号).
①相关关系的两个变量不是因果关系;
②散点图能直观反映数据的相关程度;
③回归直线最能代表线性相关的两个变量之间的关系;
④任意一组数据都有回归方程.
4.在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
5.在下列各图中,两个变量具有线性相关关系的图是( )
A. B.
C. D.
6.对变量x、y有观测数据(i=1,2,…,10),得散点图如图1所示;对变量u、v有观测数据(i=1,2,…,10),得散点图如图2所示.由这两个散点图函可以判断变量x与y ,u与v .(填写“正相关”或“负相关”)
题型二 线性回归直线方程的有关概念、计算
例题
7.用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
巩固训练
8.已知,则 .
9.具有线性相关关系的变量、有一组观测数据(且),其回归直线方程是,且,则实数的值是 .
题型三 线性回归直线方程的综合辨析
例题
10.设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线,以下结论中正确的是( )
A.直线过点 B.和的相关系数为直线的斜率
C.和的相关系数在0到1之间 D.当为偶数时,分布在两侧的样本点的个数一定相同
巩固训练
11.有一散点图如图所示,在5个数据中去掉后,下列说法中正确的是( )
A.离差和变小 B.相关系数变小
C.拟合误差变小 D.解释变量与反应变量的相关性变弱
12.设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
13.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
若已求得一元线性回归方程为,则下列选项中正确的是( )
A.
B.当时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点后,x与y的样本相关系数r不会改变
题型四 线性回归直线方程的应用
例题
14.某产品的广告费投入与销售额的统计数据如下表所示(单位:万元):
广告费
4
2
3
5
销售额
49
26
39
54
根据上表建立线性回归方程中的为10,预测广告费为6万元时,销售额约为 万元.
巩固训练
15.某蛋糕店对某新品种蛋糕进行试销,根据试销情况,得到销售单价(单位:元/个)与每天的销量(单位:个)的数据,如下表所示.已知该新品种蛋糕的销量关于销售单价的经验回归方程为,则 .
单价(元/个)
销量/个
16.某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为 ℃.
17.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值()(万亿元)关于年份代号的回归方程为,则由回归方程预测我国在2035年底人均国内生产总值约为 万元.(保留一位小数)
18.某设备的使用年数与所支出的维修总费用的统计数据如下表:
使用年数(单位:年)
2
3
4
5
6
维修总费用(单位:万元)
1.5
4.5
5.5
6.5
7.5
根据上表可得经验回归方程为.则处的预测值为 万元.
19.某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为,其中,.
20.数学兴趣小组对具有线性相关的两个变量x和y进行了统计分析,得到了下表:
x
4
6
8
10
12
y
a
2
b
c
6
并由表中数据求得y关于x的回归方程为,若a,b,c成等差数列,则 .
21.某公司为了增加某商品的销售利润,调查了该商品投入的广告费用:(单位:万元)与销售利润(单位:万元)的相关数据,如表所示,根据表中数据,得到经验回归方程,则下列命题正确的是 (请填写序号)
广告费用
3
4
5
8
销售利润
4
5
7
8
①; ②;③直线必过点;④直线必过点
题型五 求相关系数
例题
22.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.无法确定
巩固训练
23.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .(精确到0.01,参考数据:,,)
24.学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x
1
2
3
4
5
6
7
一次最多答对题数y
12
15
16
18
21
24
27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数 (结果保留两位小数).
题型六 相关系数的大小比较
例题
25.近五年来某草原羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
若利用这五组数据得到的两变量间的相关系数为,去掉第一年数据后得到的相关系数为,则
(填,,,)
巩固训练
26.下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
27.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
题型七 2×2列联表 独立性检验
例题
28.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
.(结果保留3位小数)
29.已知某独立性检验中,由,计算出,若将列联表中的数据分别变成,计算出的,则是的多少倍 .
巩固训练
30.为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物
疾病
合计
未患病
患病
服用
50
未服用
50
合计
80
20
100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
31.为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
32.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
根据表中数据,以下叙述正确的是( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
题型八 解答题
例题
33.向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展.如人工智能中的大语言模型DeepSeek(以下简称DeepSeek).为调查DeepSeek的应用是否会对相关从业人员的数量产生影响,某学校研究小组随机抽取了150名视频从业人员进行调查,结果如下表所示:
DeepSeek的应用情况
相关从业人员
合计
减少
未减少
应用
54
72
没有应用
42
合计
90
150
(1)根据所给数据完成上表,并判断是否有95%的把握认为的应用与相关从业人员的减少有关?
(2)某公司视频部现有员工100人,公司拟开展DeepSeek培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用DeepSeek.
(ⅰ)求员工经过培训能应用DeepSeek的概率.
(ⅱ)已知开展DeepSeek培训前,员工每人每年平均为公司创造利润6万元;开展DeepSeek培训后,能应用DeepSeek的员工每人每年平均为公司创造利润10万元;DeepSeek培训平均每人每年成本为1万元.根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后剩余员工开展DeepSeek培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?
附:其中,)
巩固训练
34.向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展以人工智能的应用为例,人工智能中的文生视频模型Sora(以下简称Sora),能够根据用户的文本提示创建最长60秒的逼真视频.为调查Sora的应用是否会对视频从业人员的数量产生影响,某学校研究小组随机抽取了150名视频从业人员进行调查,结果如下表所示.
Sora的应用情况
视频从业人员
合计
减少
未减少
应用
54
18
72
没有应用
36
42
78
合计
90
60
150
0.010
0.005
0.001
6.635
7.879
10.828
(1)根据所给数据,判断是否有的把握认为Sora的应用与视频从业人员的减少有关?
(附:,其中.)
(2)某公司视频部拟开展Sora培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,,,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用Sora.
(i)求员工经过培训能应用Sora的概率;
(ii)已知开展Sora培训前,员工每人每年平均为公司创造利润6万元;开展Sora培训后,能应用Sora的员工每人每年平均为公司创造利润10万元;Sora培训平均每人每年成本为1万元.视频部现有员工100人,根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后对剩余员工开展Sora培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?
35.党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
36.为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
1 / 7
学科网(北京)股份有限公司
$$