内容正文:
第八章 成对数据的统计分析
1.成对数据的统计相关性
(1)散点图:将样本中n个数据点(i=1,2,…,n)描在平面直角坐标系中得到的统计图叫 .
(2)正相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,我们就称这两个变量正相关.
(3)负相关
当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量负相关.
(4)线性相关关系
如果两个变量的取值呈现正相关或负相关,而且散点 ,就称这两个变量线性相关.
(5)回归分析:由一个变量的变化去推测另一个变量的变化的方法.
(6)样本相关系数r
①r=
②当r>0时,表明成对样本数据 ;
当r<0时,表明成对样本数据 .
r的绝对值越接近1,表明成对样本数据的线性相关程度 ;r的绝对值越接近0,表明成对样本数据的线性相关程度 .
2.一元线性回归模型及应用
(1)最小二乘法求经验回归直线,使得样本数据点到经验回归直线的 的方法叫最小二乘法.
(2)经验回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的经验回归方程,其图形称为经验回归直线,其中,是待定参数.
称 为样本点的中心.
(3)残差分析
①作残差图:作图时纵坐标为 ,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为 ;②残差分析:残差比较均匀地分布在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(4)决定系数R2
用R2=1-来刻画回归的效果,对于已经获取的样本数据,R2表达式中的 (yi-)2与经验回归方程无关.因此R2越大,表示残差平方和 (yi-i)2 ,即模型的拟合效果 ;R2越小,表示残差平方和 ,即模型的拟合效果 .在经验回归模型中,表示解释变量对于响应变量变化的贡献率,越接近1,表示拟合的效果越好.
3.列联表与独立性检验
(1)分类变量:为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)列联表:列出两个分类变量的 ,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(称为2×2列联表)为
构造一个随机变量= ,其中n= 为样本容量.
(4)独立性检验的基本步骤
①提出零假设:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算的值,并与临界值比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
易错点1 混淆相关关系与函数关系,把预测值当作函数值
【例1】为了探究六年级学生每日自主阅读时间与语文成绩的关系,某研究小组随机调查了50名学生,得到成对样本数据,其中表示每日自主阅读时间(单位:小时),表示语文成绩(单位:分).经计算得回归直线方程为.下列说法正确的是( )
A.该样本数据的相关系数为5.2
B.当阅读时间每增加1小时,语文成绩平均增加5.2分
C.该样本数据中,至少有一个点在回归直线上
D.若某学生每日阅读时间为2小时,则他的语文成绩一定为分
【例2】已知学生每日有效学习时间和其数学成绩相关,且相关系数为正数,对此描述正确的是( )
A.每日学习时间长,数学成绩就一定高
B.每日学习时间长,数学成绩就一定低
C.随着每日学习时间由短到长,数学成绩呈上升趋势
D.随着每日学习时间由短到长,数学成绩呈下降趋势
【提醒】用回归直线方程求得的是预测值,而非真实值.
易错点2对相关系数理解不准确,误认为相关系数越大,相关性越强
【例3】甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性做试验,分别求得样本相关系数r,如下表:
甲
乙
丙
丁
r
则试验结果中x,y两变量有更强线性相关性的是( ).
A.甲 B.乙 C.丙 D.丁
【例4】(多选题)对于变量X,Y,经过随机抽样获得成对数据(,2,3,…,10),且,利用最小二乘法得到Y关于X的线性回归方程为,且X与Y的相关系数,则下列结论正确的是( )
A.r越大,X与Y的线性相关性越强
B.若,则
C.若,则
D.若样本点(,2,3,…,10)都在回归直线上,则
【提醒】越大相关性越强,不是越大相关性越强.
易错点3 不知道样本点在回归直线上
【例5】某产品在去年6月至10月的销量(单位:万件)如下表所示:
月份
6
7
8
9
10
销量
1.1
1.3
1.9
2.2
2.5
若与线性相关,且线性回归方程为,则( )
A.样本的相关系数为负数
B.
C.
D.当时,销量为3.28万件
【例6】已知变量和满足经验回归方程,且变量和之间的一组相关数据如下表所示,则下列说法正确的是( )
5
6
9
12
8
7
2.4
A. B.该经验回归直线必过点
C.变量和呈负相关 D.该经验回归直线必过点
【提醒】样本回归直线一定过点,此性质常用于求已知数据或回归方程中的参数
易错点4 对理解错误
【例7】统计学中,常用的显著性水平以及对应的分位数如下表所示.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.在犯错误的概率不超过1的前提下,可以认为与有关
B.在犯错误的概率不超过的前提下,可以认为与有关
C.有的把握认为与有关
D.有的把握认为与有关
【例8】春节期间,“厉行节约,反对浪费”之风悄然兴起,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
性别
“光盘”行动
合计
做不到“光盘”
能做到“光盘”
男
45
10
55
女
30
15
45
合计
75
25
100
附:
0.10
0.05
0.025
2.706
3.841
5.024
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有以上的把握认为”该市居民能否做到‘光盘’与性别无关”
【提醒】可以理解为把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过.
易错点5 统计案例解答题一般运算量较大,运算很容易出错
【例9】近年来某APP用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
【例10】钠离子电池是我国新能源储能领域的核心攻关方向之一,某科研团队为优化电池循环寿命,在传统电解液配方与新型复合电解液配方下各取20组电池进行加速寿命实验,记录每组电池循环寿命是否达到“长寿命”标准(循环次数次为长寿命,否则为短寿命),整理得到如下列联表:
长寿命(次)
短寿命(次)
合计
传统配方
9
11
20
新型配方
15
5
20
合计
24
16
40
根据小概率值的独立性检验,能否认为“电池‘长寿命’与电解液配方有关联”?
参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【提醒】求回归直线方程或运算量一般比较大,求解时运算要格外细心,防止运算失分,此外还要注意题中有无参考数据,防止重复运算.
1.以下结论错误的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系
B.在回归直线中,变量时,变量y的值一定是15
C.的值越大,两个事件的相关性的可能性就越大
D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
2.具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
3.为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,
则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.相关系数的绝对值越接近0,表示的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
4.近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
5.一款短视频手机应用最近在某校学生中流行起来,某校团委对“学生性别和喜欢该手机应用是否有关”做了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该手机应用的人数占男生人数的,女生喜欢该手机应用的人数占女生人数的,若有的把握认为是否喜欢该手机应用和性别有关,则被调查的男生人数至少为( )
0.05
0.01
3.841
6.635
A.12 B.6 C.10 D.18
6.随着人工智能技术的快速发展,AI图像识别在工业质检、安防监控等领域得到广泛应用.某科技公司为提升自主研发的AI图像识别模型的识别准确率,研发了一种基于国产算力优化的特征提取算法.为检验该算法的实际效果,研究人员随机选取了200个同批次的工业零件检测样本,随机分为两组,每组100个样本:第一组使用新优化算法进行识别,第二组使用传统算法进行识别,记录两组样本的识别成功与失败情况,得到如下列联表:
识别成功
识别失败
合计
新优化算法
85
15
100
传统算法
70
30
100
合计
155
45
200
附:统计量临界值表
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中,.
则下列说法正确的是( )
A.有99%的把握认为新优化算法对提升识别成功率有效
B.有95%的把握认为新优化算法对提升识别成功率有效
C.若将列联表中每个单元格的数据都扩大为原来的2倍,统计量的值保持不变
D.新优化算法的样本识别成功率比传统算法高15个百分点,因此新算法在所有工业检测场景中都优于传统算法
7.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
8.(多选题)某实验室为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,用以上两种检验方法对某种食品做了沙门氏菌检验,结果得到列联表如下:
阳性
阴性
合计
荧光抗体法
常规培养法
合计
参考公式:,其中.
附:下列表述正确的是( )
A.,
B.零假设:在沙门氏菌检验中荧光抗体法与常规培养法有差异
C.依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异
D.常规培养法检测沙门氏菌阳性的频率为
9.(多选题)下列说法正确的是( )
A.样本数据2,3,3,4,7,8,10,18的第80百分位数为10
B.样本数据的正线性相关程度越强,则样本相关系数的值越大
C.根据分类变量与的成对数据,计算得到,依据的独立性检验,结论为变量与不独立
D.一元线性回归模型的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内
10.(多选题)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌车商随机调查了甲、乙两地各200名消费者,得出统计图如下,根据此统计图,下列结论正确的是( )
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
A.在所调查的甲地购车者中,购买燃油车的人数比新能源车的多20人
B.在所调查的乙地购车者中,若用分层随机抽样抽取20人,则其中新能源车主有12人
C.根据小概率值的独立性检验,消费者的购车类型与地域有关
D.从所调查消费者中随机选一人,在已知其为新能源车主的条件下,其来自甲地的概率为0.4
11.(多选题)某儿童医院用甲、乙两种疗法治疗小儿消化不良.为分析两种疗法效果是否有差异,采取有放回的简单随机抽样的方法对治疗情况进行检查,得到如下数据:
疗法
疗效
未治愈
治愈
甲
15
52
乙
6
63
附常用小概率值及其相应的临界值表为:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
计算得.则下列说法正确的是:( )
A.以频率估计概率,有
B.以频率估计概率,有
C.若取,可以认为疗效与疗法独立
D.若取,可以认为疗效与疗法独立
12.(多选题)为研究需要,统计了两个变量,的数据情况如下表:
…
…
其中数据和数据的平均数分别为和,并且计算相关系数,回归方程为,如下结论正确的为( )
A.将以上数据的每个数据都加一个相同的常数后,方差不变
B.变量的相关性强
C.当时,必有
D.
13.在某次草地音乐节上,为了解音乐节的体验情况,从观众中随机选取了100人进行问卷调查.
(1)根据观众的性别以及是否购买乐队官方周边,得到如下数据:
男性
女性
总计
购买周边
21
49
70
不购买周边
15
15
30
总计
36
64
100
根据以上信息,是否有的把握认为观众购买乐队官方周边与观众的性别有关?
参考公式:,其中;参考数据:.
(2)根据调查数据,该音乐节观众的排队安检时间(单位:分钟)服从正态分布.从观众中随机抽取1人,若其排队安检时间超过10分钟,求其排队安检时间超过12分钟的概率.(结果精确到)参考数据:,其中为标准正态分布函数.
14.已知变量的组观测值为.
(1)若变量具有线性相关关系,且样本均值,样本方差,样本相关系数为,其中均为已知常数
(i)比较经验回归直线的斜率与的大小,并说明理由;
(ii)求关于的经验回归方程,并证明:对于任意给定的观测值,当时,其回归预测值满足.
(2)若变量存在线性相关关系,且二者的样本均值均为,方差相等.对于自变量的任意两个取值,利用得到的经验回归方程,记其对应的原变量的预测值分别为.证明:当时,,并简述该结论在数据预测中的意义.
附:样本相关系数;
样本方差;经验回归方程中斜率和截距的最小二乘估计公式分别为.
2 / 2
学科网(北京)股份有限公司
$
第八章 成对数据的统计分析
1.成对数据的统计相关性
(1)散点图:将样本中n个数据点(i=1,2,…,n)描在平面直角坐标系中得到的统计图叫散点图.
(2)正相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
(3)负相关
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(4)线性相关关系
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.
(5)回归分析:由一个变量的变化去推测另一个变量的变化的方法.
(6)样本相关系数r
①r=
②当r>0时,表明成对样本数据正相关;
当r<0时,表明成对样本数据负相关.
r的绝对值越接近1,表明成对样本数据的线性相关程度越强;r的绝对值越接近0,表明成对样本数据的线性相关程度越弱.
2.一元线性回归模型及应用
(1)最小二乘法求经验回归直线,使得样本数据点到经验回归直线的竖直距离平方和最小的方法叫最小二乘法.
(2)经验回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的经验回归方程,其图形称为经验回归直线,其中,是待定参数.
称为样本点的中心.
(3)残差分析
①作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;②残差分析:残差比较均匀地分布在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(4)决定系数R2
用R2=1-来刻画回归的效果,对于已经获取的样本数据,R2表达式中的 (yi-)2与经验回归方程无关.因此R2越大,表示残差平方和 (yi-i)2越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.在经验回归模型中,表示解释变量对于响应变量变化的贡献率,越接近1,表示拟合的效果越好.
3.列联表与独立性检验
(1)分类变量:为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(称为2×2列联表)为
构造一个随机变量= ,其中n=为样本容量.
(4)独立性检验的基本步骤
①提出零假设:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算的值,并与临界值比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
易错点1 混淆相关关系与函数关系,把预测值当作函数值
【例1】为了探究六年级学生每日自主阅读时间与语文成绩的关系,某研究小组随机调查了50名学生,得到成对样本数据,其中表示每日自主阅读时间(单位:小时),表示语文成绩(单位:分).经计算得回归直线方程为.下列说法正确的是( )
A.该样本数据的相关系数为5.2
B.当阅读时间每增加1小时,语文成绩平均增加5.2分
C.该样本数据中,至少有一个点在回归直线上
D.若某学生每日阅读时间为2小时,则他的语文成绩一定为分
【错解展示】误选D,错误原因是把预测值当作确定值.
【答案】B
【解析】对于A,相关系数取值范围是,故错误;对于B,回归系数的含义是:当自变量每增加1个单位时,因变量平均增加的量.这里表示每日自主阅读时间(小时),表示语文成绩(分),所以当阅读时间每增加1小时,语文成绩平均增加5.2分,故正确;对于C,回归直线是对样本的拟合直线,不一定经过样本点,故错误;对于D,当时,,为预测值,不是确定值,故错误.
【例2】已知学生每日有效学习时间和其数学成绩相关,且相关系数为正数,对此描述正确的是( )
A.每日学习时间长,数学成绩就一定高
B.每日学习时间长,数学成绩就一定低
C.随着每日学习时间由短到长,数学成绩呈上升趋势
D.随着每日学习时间由短到长,数学成绩呈下降趋势
【错解展示】误选A,错误原因是混淆相关关系与函数关系,误认为学习时间长,数学成绩必然提高.
【答案】C
【解析】对于AB,当每日学习时间长,数学成绩变高变低不确定,故AB错误.对于CD,因为相关系数为正,故随着每日学习时间由短到长,数学成绩呈上升趋势,故C正确,D错误.故选C.
【提醒】用回归直线方程求得的是预测值,而非真实值.
易错点2对相关系数理解不准确,误认为相关系数越大,相关性越强
【例3】甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性做试验,分别求得样本相关系数r,如下表:
甲
乙
丙
丁
r
则试验结果中x,y两变量有更强线性相关性的是( ).
A.甲 B.乙 C.丙 D.丁
【错解展示】误选D,错误原因是误认为相关系数越小,相关性越弱.
【答案】C
【解析】由已知,丙的相关系数的绝对值为,是四人中最大的且最接近1,
因此丙同学的试验结果中x,y两变量有更强的线性相关性.故选C.
【例4】(多选题)对于变量X,Y,经过随机抽样获得成对数据(,2,3,…,10),且,利用最小二乘法得到Y关于X的线性回归方程为,且X与Y的相关系数,则下列结论正确的是( )
A.r越大,X与Y的线性相关性越强
B.若,则
C.若,则
D.若样本点(,2,3,…,10)都在回归直线上,则
【错解展示】忽略,误认为A错误
【答案】AD
【解析】由于可得,则,对于A, r的绝对值越接近1,由于,故的值越大,X与Y的线性相关性越强,故A正确,对于C,当时,,则,故C错误,对于D, 若样本点(,2,3,…,10)都在回归直线上,且,则,D正确,
对于B, 当时,无法确定的值,B错误,
【提醒】越大相关性越强,不是越大相关性越强.
易错点3 不知道样本点在回归直线上
【例5】某产品在去年6月至10月的销量(单位:万件)如下表所示:
月份
6
7
8
9
10
销量
1.1
1.3
1.9
2.2
2.5
若与线性相关,且线性回归方程为,则( )
A.样本的相关系数为负数
B.
C.
D.当时,销量为3.28万件
【错解展示】不会根据点在回归直线上求的值
【答案】B
【解析】对于A,根据表格数据知,销量随月份的增大而增大,所以两个变量呈正相关,相关系数为正数,故A错误;对于B,C,根据题表数据,可得,,
所以样本中心为,将样本中心代入线性回归方程得,解得,
所以线性回归方程为,故B正确,C错误;对于D,当时,得,所以预测销量约为3.28万件,所得数据为销量的预测值,并非实际销量,故D错误.故选B.
【例6】已知变量和满足经验回归方程,且变量和之间的一组相关数据如下表所示,则下列说法正确的是( )
5
6
9
12
8
7
2.4
A. B.该经验回归直线必过点
C.变量和呈负相关 D.该经验回归直线必过点
【错解展示】误认为D错误,错误原因是忽略是样本中心点.
【答案】ACD
【解析】选项A:因为变量和满足经验回归方程,又,,所以,解得,故A正确; 选项C:因为变量和满足经验回归方程,,所以变量和呈负相关,故C正确;选项BD:由选项A知,,,该经验回归直线必过点,不一定过样本点,B错误,D正确.故选ACD.
【提醒】样本回归直线一定过点,此性质常用于求已知数据或回归方程中的参数
易错点4 对理解错误
【例7】统计学中,常用的显著性水平以及对应的分位数如下表所示.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.在犯错误的概率不超过1的前提下,可以认为与有关
B.在犯错误的概率不超过的前提下,可以认为与有关
C.有的把握认为与有关
D.有的把握认为与有关
【错解展示】不能根据临界值表确定正确选项
【答案】C
【解析】因为,所以,所以在犯错误的概率不超过的前提下,
可以认为与有关或有的把握认为与有关.
【例8】春节期间,“厉行节约,反对浪费”之风悄然兴起,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
性别
“光盘”行动
合计
做不到“光盘”
能做到“光盘”
男
45
10
55
女
30
15
45
合计
75
25
100
附:
0.10
0.05
0.025
2.706
3.841
5.024
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有以上的把握认为”该市居民能否做到‘光盘’与性别无关”
【错解展示】对理解错误,误选C.
【答案】C
【解析】由统计表格中的数据,可得,所以有以上的把握认为“该市居民能否做到‘光盘’与性别有关”.故选C.
【提醒】可以理解为把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过.
易错点5 统计案例解答题一般运算量较大,运算很容易出错
【例9】近年来某APP用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
【错解展示】运算能力不过关,求计算错误.
【解析】(1)由题意,,,
则,
由,
同理,
则,
则,
由接近1且为正,故变量x与y之间有很强的线性正相关关系.
(2)由题意,X的可能取值为80、150、210,
则,,
,
故X的分布列为:
X
80
150
210
P
则.
【例10】钠离子电池是我国新能源储能领域的核心攻关方向之一,某科研团队为优化电池循环寿命,在传统电解液配方与新型复合电解液配方下各取20组电池进行加速寿命实验,记录每组电池循环寿命是否达到“长寿命”标准(循环次数次为长寿命,否则为短寿命),整理得到如下列联表:
长寿命(次)
短寿命(次)
合计
传统配方
9
11
20
新型配方
15
5
20
合计
24
16
40
根据小概率值的独立性检验,能否认为“电池‘长寿命’与电解液配方有关联”?
参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.001
2.072
2.706
3.841
5.024
6.635
10.828
【错解展示】运算能力不过关,求运算错误.
【解析】零假设:认为“电池‘长寿命’与电解液配方有关联”,
,
又,根据小概率值的独立性检验,不能认为“电池‘长寿命’与电解液配方有关联”
【提醒】求回归直线方程或运算量一般比较大,求解时运算要格外细心,防止运算失分,此外还要注意题中有无参考数据,防止重复运算.
1.以下结论错误的是( )
A.根据列联表中的数据计算得出,而,则根据小概率值的独立性检验,认为两个分类变量有关系
B.在回归直线中,变量时,变量y的值一定是15
C.的值越大,两个事件的相关性的可能性就越大
D.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
【答案】B
【解析】对于选项A:,故根据小概率值的独立性检验,认为两个分类变量有关系,即A正确:x=200时,的值平均是15,不能说一定是15,故B错误;对于选项C:越大,“与有关系”可信程度越大,即相关性的可能性就越大,即C正确;对于选项D:在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好,即D正确.
2.具有相关关系的变量x与y的一组样本数据如下,若已求得线性回归方程为,则去掉其中某对样本数据,样本相关系数r不会发生改变的是( )
(参考公式:相关系数
x
1
2
3
4
5
y
6
10
11
12
16
A. B. C. D.
【答案】C
【解析】由题知,,所以数据的样本中心点为
所以去掉其中样本数据,样本相关系数r不会发生改变.
3.为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,
则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.相关系数的绝对值越接近0,表示的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
【答案】D
【解析】对于选项A,由题知,
,故选项A正确;
对于选项B,由图表可得散点图如下,由散点图知变量和正相关,所以选项B正确;
对于选项C,相关系数的绝对值越接近0,表示的线性相关程度越弱,故选项C正确;对于选项D,因为样本中心点为,又,所以不是关于的线性回归直线方程,故选项D不正确.故选D.
4.近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌汽车商随机调查了甲、乙两地各200名消费者,并用等高堆积条形图直观地展示调查结果如下图所示,经计算得到.
车型与地区
下表是独立性检验中几个常用的小概率值和相应的临界值.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
下列说法正确的是( )
A.在所调查的甲地购车者中,若按比例分层随机抽样抽取20人,则新能源车主有8人
B.在所调查的乙地购车者中,购买燃油车的人数比新能源车的多20人
C.依据的独立性检验,即消费者的购车类型与地域有关联,此推断犯错误的概率不大于0.001
D.依据的独立性检验,即消费者的购车类型与地域无关联,此推断犯错误的概率不大于0.001
【答案】C
【解析】对A:,故新能源车主有人,故A错误;对B:购买燃油车的人数为,
购买新能源车的人数为,则购买燃油车的人数比新能源车的多人,故B错误;
对C、D:依据的独立性检验,即消费者的购车类型与地域有关联,由,故此推断犯错误的概率不大于,故C正确、D错误.
5.一款短视频手机应用最近在某校学生中流行起来,某校团委对“学生性别和喜欢该手机应用是否有关”做了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该手机应用的人数占男生人数的,女生喜欢该手机应用的人数占女生人数的,若有的把握认为是否喜欢该手机应用和性别有关,则被调查的男生人数至少为( )
0.05
0.01
3.841
6.635
A.12 B.6 C.10 D.18
【答案】A
【解析】设被调查的男生人数为,则女生人数为,可得列联表如下:
喜欢
不喜欢
合计
男生
女生
合计
由公式算得,因为有的把握认为是否喜欢该手机应用和性别有关,所以,则.而都是整数,所以的值至少为12.故选A.
6.随着人工智能技术的快速发展,AI图像识别在工业质检、安防监控等领域得到广泛应用.某科技公司为提升自主研发的AI图像识别模型的识别准确率,研发了一种基于国产算力优化的特征提取算法.为检验该算法的实际效果,研究人员随机选取了200个同批次的工业零件检测样本,随机分为两组,每组100个样本:第一组使用新优化算法进行识别,第二组使用传统算法进行识别,记录两组样本的识别成功与失败情况,得到如下列联表:
识别成功
识别失败
合计
新优化算法
85
15
100
传统算法
70
30
100
合计
155
45
200
附:统计量临界值表
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中,.
则下列说法正确的是( )
A.有99%的把握认为新优化算法对提升识别成功率有效
B.有95%的把握认为新优化算法对提升识别成功率有效
C.若将列联表中每个单元格的数据都扩大为原来的2倍,统计量的值保持不变
D.新优化算法的样本识别成功率比传统算法高15个百分点,因此新算法在所有工业检测场景中都优于传统算法
【答案】B
【解析】由题意,,所以有95%的把握认为新优化算法对提升识别成功率有效,故A错误,B正确;若将列联表中每个单元格的数据都扩大为原来的2倍,
则,所以统计量的值扩大2倍,故C错误;样本的成功率高15个百分点,不能直接推广到所有工业检测场景中,属于过度推断,故D错误.
7.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
【答案】D
【解析】由题意可知:,,
则样本中心点为.对于选项A:因回归方程斜率为正值,则变量与正相关,故A正确;
对于选项B:因为线性回归方程过样本中心点,则,解得,故B正确;
对于选项C:由选项B可知:,当时,的预估值为,故C正确;对于选项D:由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,故D错误.故选D.
8.(多选题)某实验室为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,用以上两种检验方法对某种食品做了沙门氏菌检验,结果得到列联表如下:
阳性
阴性
合计
荧光抗体法
常规培养法
合计
参考公式:,其中.
附:下列表述正确的是( )
A.,
B.零假设:在沙门氏菌检验中荧光抗体法与常规培养法有差异
C.依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异
D.常规培养法检测沙门氏菌阳性的频率为
【答案】AC
【解析】对于A,根据表格数据可知:,,A正确;对于B,为了研究荧光抗体法与常规培养法在沙门氏菌检验结果中是否存在差异,零假设:在沙门氏菌检验中荧光抗体法与常规培养法无差异,B错误;对于C,由题意得,
零假设不成立,依据小概率值的独立性检验,认为荧光抗体法与常规培养法在沙门氏菌检验中有差异,C正确;对于D,由表格数据知,常规培养法检测沙门氏菌阳性的频率为,D错误.
9.(多选题)下列说法正确的是( )
A.样本数据2,3,3,4,7,8,10,18的第80百分位数为10
B.样本数据的正线性相关程度越强,则样本相关系数的值越大
C.根据分类变量与的成对数据,计算得到,依据的独立性检验,结论为变量与不独立
D.一元线性回归模型的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内
【答案】ABD
【解析】选项A:将样本数据从小到大排列:2,3,3,4,7,8,10,18,则,所以第80百分位数为第7个数字,即,故A正确.选项B:样本正相关系数的取值范围是,越接近1,随机变量之间的线性相关程度越强.故正线性相关程度越强,则样本相关系数越接近1,故B正确.选项C:在独立性检验中,当时,没有充分证据推断原假设不成立,应认为变量与独立,故C错误.
选项D:残差均匀分布在0附近的水平带状区域,则模型拟合效果好,故D正确.
10.(多选题)近年中国新能源汽车进入高速发展时期,为了了解消费者的购车类型与地域是否具有相关性,某品牌车商随机调查了甲、乙两地各200名消费者,得出统计图如下,根据此统计图,下列结论正确的是( )
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
A.在所调查的甲地购车者中,购买燃油车的人数比新能源车的多20人
B.在所调查的乙地购车者中,若用分层随机抽样抽取20人,则其中新能源车主有12人
C.根据小概率值的独立性检验,消费者的购车类型与地域有关
D.从所调查消费者中随机选一人,在已知其为新能源车主的条件下,其来自甲地的概率为0.4
【答案】BCD
【解析】A:甲地购买燃油车人数为,购买新能源车人数为,故购买燃油车的人数比新能源车的多人,A错误.B:乙地购买新能源车比例为,故用分层随机抽样抽取20人时,新能源车主有人,B正确.C:列出列联表:
甲地
乙地
总计
燃油车
120
80
200
新能源车
80
120
200
总计
200
200
400
则.
小概率值时,.因为,所以根据小概率值的独立性检验,消费者的购车类型与地域有关,C正确.D:所调查的新能源车主共有人,其中甲地80人,在已知其为新能源车主的条件下,其来自甲地的概率为,D正确.
11.(多选题)某儿童医院用甲、乙两种疗法治疗小儿消化不良.为分析两种疗法效果是否有差异,采取有放回的简单随机抽样的方法对治疗情况进行检查,得到如下数据:
疗法
疗效
未治愈
治愈
甲
15
52
乙
6
63
附常用小概率值及其相应的临界值表为:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
计算得.则下列说法正确的是:( )
A.以频率估计概率,有
B.以频率估计概率,有
C.若取,可以认为疗效与疗法独立
D.若取,可以认为疗效与疗法独立
【答案】ABD
【解析】由题设求出表格
疗法
疗效
总数
未治愈
治愈
甲
15
52
67
乙
6
63
69
总数
21
115
136
以频率估计概率,有,故A正确;以频率估计概率,有,故B正确;零假设:认为疗效与疗法独立,由题且,所以若取小概率值,则零假设不成立,即不可以认为疗效与疗法独立;若取小概率值,则没有充分的证据推翻零假设,故可以认为疗效与疗法独立,故C错误,D正确.故选ABD
12.(多选题)为研究需要,统计了两个变量,的数据情况如下表:
…
…
其中数据和数据的平均数分别为和,并且计算相关系数,回归方程为,如下结论正确的为( )
A.将以上数据的每个数据都加一个相同的常数后,方差不变
B.变量的相关性强
C.当时,必有
D.
【答案】ABD
【解析】对于A.因为方差是表示数据波动大小的量,将一组数据的每个数都加一个相同的常数后,方差不变,所以A正确;对于B.相关系数,变量的相关性强,所以B正确;对于C.当时,不一定有,因此C错误;对于D.因为,是负相关,所以,故D正确.故选ABD.
13.在某次草地音乐节上,为了解音乐节的体验情况,从观众中随机选取了100人进行问卷调查.
(1)根据观众的性别以及是否购买乐队官方周边,得到如下数据:
男性
女性
总计
购买周边
21
49
70
不购买周边
15
15
30
总计
36
64
100
根据以上信息,是否有的把握认为观众购买乐队官方周边与观众的性别有关?
参考公式:,其中;参考数据:.
(2)根据调查数据,该音乐节观众的排队安检时间(单位:分钟)服从正态分布.从观众中随机抽取1人,若其排队安检时间超过10分钟,求其排队安检时间超过12分钟的概率.(结果精确到)参考数据:,其中为标准正态分布函数.
【解析】(1)假设:观众购买乐队官方周边与观众的性别无关.
根据公式,
因为,所以不拒绝原假设,
即没有的把握认为观众购买乐队官方周边与观众的性别有关.
(2)因为(单位:分钟)服从正态分布,
所以.
.
所以所求的概率为.
14.已知变量的组观测值为.
(1)若变量具有线性相关关系,且样本均值,样本方差,样本相关系数为,其中均为已知常数
(i)比较经验回归直线的斜率与的大小,并说明理由;
(ii)求关于的经验回归方程,并证明:对于任意给定的观测值,当时,其回归预测值满足.
(2)若变量存在线性相关关系,且二者的样本均值均为,方差相等.对于自变量的任意两个取值,利用得到的经验回归方程,记其对应的原变量的预测值分别为.证明:当时,,并简述该结论在数据预测中的意义.
附:样本相关系数;
样本方差;经验回归方程中斜率和截距的最小二乘估计公式分别为.
【解析】(1)(i)由经验回归方程斜率和相关系数公式可知,,
且,故,
又,故必有,所以,即与相等;
(ii)设经验回归方程为由经验回归方程性质,
样本中心点必在经验回归方程上,
故将斜率和代入得,解得,
故经验回归方程为,
对于观测值,预测值为,
则,
因为且,所以,即,
又,
因为且,所以,即,
综上,,得证;
(2)令,
已知两变量存在线性相关关系且样本均值均为,方差相等,
设样本相关系数为,
故等价于变量具有线性相关关系,
且样本均值相等,样本方差相等,满足(1)中条件,
则由(1)(ii),可得经验回归方程为,
也即,等价于,
已知,设,即证,
若,则恒成立,此时,原不等式成立;
若,
因且恒成立,
故在单调递增,
由知,则,原不等式成立;
若,由(1)(ii)同理可得:当,即时,,即,
此时,且,
故在单调递增;
当,即时,,即,
此时,
对于观测值,因,对其位置分类讨论如下:
①若,则,
而,故,
此时必有,即;
②若,则,
由在单调递增可知,,
综上可知,当时,恒有,即.
实际意义:在该非线性回归模型中,数据预测时,若自变量的增量大于某阈值时,模型所预测的因变量增量必然不大于自变量的增量,即该模型对于大跨度的数据增加具有保守性,预测结果不会随自变量的迅速增长而相应迅速增长.
2 / 2
学科网(北京)股份有限公司
$