内容正文:
专题01 线性回归分析与独立性检验
目录
类型一、相关系数的定义与应用
类型二、决定系数与残差的相关应用
类型三、回归直线方程的相关应用
类型四、非线性回归的应用问题
类型五、回归分析与概率综合
类型六、独立性检验中的最值问题
类型七、独立性检验与概率的综合
压轴专练
类型一、相关系数的定义与应用
解题技巧:
(1)
当时,称成对样本数据正相关;当时,称成对样本数据负相关.
(2)样本相关系数的取值范围为.
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
例1-1.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为( )
附:样本相关系数
A. B. C. D.1
【答案】B
【分析】设,,,,,,与的夹角为,与的夹角为,再由相关系数可知,则与夹角的余弦值的最大值为,利用余弦差角公式求值即可.
【详解】设,,,
,,,
由样本相关系数公式可知,,
设与的夹角为,与的夹角为,则有,
易知均为锐角且,
与夹角的余弦值的最大值为,此时与样本相关系数最大,
,
故的样本相关系数的最大值为.
故选:B.
例1-2.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,为此该公司统计了2024年前5个月的带货金额如下表(金额y/万元):
月份
1月
2月
3月
4月
5月
月份编号x
1
2
3
4
5
金额y/万元
7
12
13
19
24
并计算得,,.
(1)求该公司带货金额的平均值;
(2)求该公司带货金额y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有较强的线性相关关系(若,则线性相关性较强,否则认为线性相关性较弱).
附:相关系数,.
【答案】(1)15
(2),与具有较强的线性相关性
【分析】(1)由均值公式直接计算;
(2)由相关系数公式计算后可得结论.
【详解】(1)由数据可得,
(2)由于,,,所以相关系数,
因此与具有较强的线性相关性.
变式1-1.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
变式1-2.为了研究变量与的线性相关关系,收集了5组样本数据(如下表),若去掉样本点后,则样本的相关系数( )
1
2
3
4
5
0.5
0.8
1
1.2
1.5
A.变大 B.变小 C.不变 D.不能确定
【答案】C
【分析】根据相关系数公式计算得解.
【详解】因为相关系数为,,,
5组样本数据的,,相关系数为:
,
去掉样本中心点后,四组数据的,,相关系数为:,
所以相关系数r不变.
故选:C
变式1-3.(多选)某小组探究变量x,y的关系,经统计得到了成对数据的7个样本:,,,,,,.记这组数据中变量x,y的均值分别为,,方差分别为,,样本相关系数为r;删去数据后,x,y的均值分别为,,方差分别为,,样本相关系数为.下面说法正确的是( )
附:样本相关系数
A. B.
C. D.变量x和y的相关性很弱
【答案】AC
【分析】根据平均数、方差、相关系数的计算公式,以及相关系数的意义判断即可.
【详解】对于A,依题意,,,
删去数据后,,,
所以,故A正确;
对于B,
,
,所以,故B错误;
对于C,
其中,
所以,
,
所以,所以,故C正确;
对于D,因为,变量x和y的线性相关性很弱,但观察数据可知,所有数据均在函数的图象上,
即变量x和y存在函数关系,其相关性最强,故D错误,
故选:AC.
变式1-4.近年来,“双11”网购的观念逐渐深入人心,某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:
年份
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
交易额y/百亿元
9
12
17
21
26
请根据表中提供的数据,画出散点图,推断两个变量是否线性相关,并用样本相关系数r说明y与x的线性相关程度(结果保留三位小数).附:.
【答案】散点图见解析,相关,,相关性很强.
【分析】作出散点图,计算相关系数并确定相关程度.
【详解】画出散点图如下:
由图知,交易额y与年份代码x线性相关,
由表中数据,计算得,,
则,
,
,
所以,
所以变量y与x的线性相关程度很强.
类型二、决定系数与残差的相关应用
解题技巧:
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
例2-1.已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为( )(残差=观察值-估计值)
A.2 B. C. D.
【答案】B
【分析】先计算新的数据的平均值,后得到经验回归方程,再结合残差概念计算即可.
【详解】∵,
∴增加两个样本点后的平均数为;
∵,∴,
∴增加两个样本点后y的平均数为,
∴,解得,
∴新的经验回归方程为,则当时,,
∴样本点的残差为
故选:B.
例2-2.(多选)已知,,,,,5个数据的散点图如图所示,采用一元线性回归模型建立经验回归方程.经分析确定为“离群点”,故将其去掉,将数据去掉后,下列说法正确的有( ).
A.样本相关系数r变大
B.残差平方和变小
C.决定系数变大
D.若经验回归直线过点,则其经验回归方程为
【答案】BCD
【分析】根据散点图的性质可知去掉E后相关性变强判断A选项;残差平方和以及决定系数判断BC选项;根据回归直线的性质判断D.
【详解】对于选项A:由图可知,变量x与变量y是负相关,
且将数据去掉后,样本相关系数r的绝对值变大,
所以r变小,故选项A错误;
对于选项B:将数据去掉后,变量x与变量y的相关性变强,
所以残差平方和变小,决定系数变大,故选项B,C正确;
对于选项D:设经验回归方程为,经计算得,
且,,可得,,
所以经验回归方程是,所以选项D正确.
故选:BCD.
变式2-1.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【答案】D
【分析】利用回归方程过样本点,可求参数,然后再根残差概念即可求解.
【详解】由表格中数据可求得:,
,
根据关于的经验回归方程必过点得:
,故经验回归方程为,
当时,预报值,
所以在样本点处的残差为,
故选:D.
变式2-2.已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
【答案】D
【分析】先计算新数据的平均值,然后计算新数据的回归方程,进而根据残差定义计算.
【详解】因为过点,将代入得.
增加两个样本点后x的平均数为,,.
所以新的经验回归方程为,当时,.
所以样本的残差是,解得.
故选:D.
变式2-3.(多选)生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关.有人调查了10名男大学生的身高(单位:)及其父亲身高(单位:)的数据,已知其中一组数据为,且,求得经验回归方程为,并绘制了如下残差图(残差观测值预测值),则
A.这10名男大学生的身高的平均值为176.75
B.由残差图可判定儿子身高与父亲身高的关系不符合上述回归模型
C.数据对应的残差为3.7
D.去掉数据后,重新求得的回归直线的决定系数变小
【答案】AC
【分析】由线性回归分析的相关知识逐一判断各个选项即可求解.
【详解】满足经验回归方程,代入,计算可得,故A正确;
从残差图中可以看到残差比较均匀地分布在以均值为0,横轴为对称轴的水平带状区域内,满足上述回归模型,故B错误;
代入,得,因此残差为,故C正确;
由残差图可知是一个极端数据,去掉后重新求得的回归直线拟合程度会变好,决定系数变大,D错误.
故选:AC.
变式2-4.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【分析】(1)根据经验回归方程过样本中心点,先由经验回归方程和的平均数,求出的平均数,再根据平均数的定义求出;然后根据残差定义计算8月份的残差.
(2)先求出残差平方和,再代入公式计算,最后与非线性回归模型的比较大小,即可判断.
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
类型三、回归直线方程的相关应用
解题技巧:
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
例3-1.已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
【答案】B
【分析】先根据条件求出样本点中心为,再将其代入经验回归方程中即可.
【详解】根据题意可得,,,
则5对样本数据的样本点中心为,
将其代入方程中得,,则.
故选:B.
例3-2.缅甸的电信诈骗事件给很多家庭带来了痛苦,也给我们敲响了安全的警钟.某市组织宣传人员对市区主要场所进行“电诈安全教育”,并对普及的有效回访人数进行了统计并得到下表:
第 天
2
4
6
8
10
12
14
16
有效回访人数
65
85
110
130
165
175
190
200
(1)从这8天的数据中任选3天的数据,用表示每天有效回访人数不少于 160 的天数,求的分布列和数学期望;
(2)试用上表数据求出每天有效回访的人数关于天数的线性回归方程,并预测第29天的有效回访人数.( 精确到0.1,人数取整数)
参考公式:线性回归方程中,,
参考数据:
【答案】(1)分布列见解析;;
(2);
【分析】(1)根据超几何分布求出分布列以及期望;
(2)根据线性回归方程的计算公式得出,再代入求函数值.
【详解】(1)这8天的数据有天有效回访人数不少于 160,
则的可能取值为,
则,,
,,
则的分布列为
则数学期望.
(2),
,
,
则,,
则线性回归方程为,
故第29天的有效回访人数大约为人.
变式3-1.已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【分析】利用回归直线方程必过样本中心点,可判断出A和D的正误;对B,代入回归方程,即可求解;对C,利用回归方程的系数的正负,即可判断正误.
【详解】对于A,因为变量和满足经验回归方程,
又,,所以,
解得,所以A正确;
对于B,因为变量和满足经验回归方程,
当时,,所以B正确;
对于C,因为变量和满足经验回归方程,
,所以变量和呈负相关,所以C正确;
对于D,由选项A知,,,该经验回归直线必过点,所以D错误.
故选:D.
变式3-2.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则__________.
【答案】/
【分析】根据回归直线性质计算求解.
【详解】令,
所以,
由,解得.
故答案为:
变式3-3.(多选)某单位在定点帮扶贫困村A村的过程中,因地制宜,优化产业结构,使得该村人均年纯收入逐年提高.村村民年这四年的人均年纯收入(单位:万元)与年份代号之间的一组数据如表所示.若与线性相关,且求得其线性回归方程为,则下列说法正确的是( )
年份
2021
2022
2024
2025
年份代号
4
5
7
8
人均年纯收入
2.1
5.9
A.
B.2030年村人均年纯收入约为7万元
C.预估从2025年起,每经过1年,村民人均年纯收入约增加1万元
D.2025年的人均年纯收入残差值为0.1
【答案】AC
【分析】求出样本中心代入回归方程求参数判断A,将代入回归方程估计2030年村人均年纯收入判断B,由回归直线斜率的实际意义判断C,由残差的求法判断D.
【详解】由表中数据可知,,
线性回归方程为,则,解得,故A正确;
由2030年对应,故2030年村人均年纯收入约为万元,故B错误;
线性回归方程为,直线的斜率为1,则从2025年起,预估每经过1年,村民人均年纯收入约增加1万元,故C正确;
2025年的人均年纯收入残差值为,故D错误.
故选:AC
变式3-4.某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
【答案】(1);
(2);
(3).
【分析】(1)由得到,再由平均数的求法列方程,即可得;
(2)根据已知可得、,结合(1)及已知得,再应用最小二乘法求回归直线方程;
(3)由(2)所得方程估计,对应数据,再由残差的求法求残差,即可得.
【详解】(1),可得,
所以,则,即;
(2)由,且,
所以,可得,结合,,,所以,
则,
,
所以,则,
所以回归直线为;
(3)当,,则,
当,,则,
所以.
类型四、非线性回归的应用问题
解题技巧:
(1)当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
(2)建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
例4-1.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【分析】(1)计算相关系数,根据相关系数的绝对值大小得出结论;
(2)(i)两边取自然对数,转化为线性回归方程求解,再转化为指数式即可;
(ii)根据(i)的结论预测销售额y达到80亿元时研发投入即可得解.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
例4-2.当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身体健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
关卡
1
2
3
4
5
6
平均过关时间(单位:秒)
50
78
124
121
137
352
计算得到一些统计量的值为:,,其中,.
(1)若用模型拟合与的关系,根据提供的数据,求出关于的经验回归方程;
(2)甲参加一场闯关游戏,比赛共有5局,甲每局比赛获胜的概率为,且每局比赛相互独立,记甲恰好获胜3次的概率为,求的最大值,并求出相应的概率.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)
(2),
【分析】(1)先对两边分别取对数得到,再根据题目中的数据代入公式去求即可;
(2)依题意,利用导数求出函数的最大值,即可得解.
【详解】(1)因为两边取对数可得,即,
令,所以,由,
,.
所以,
又,即,
所以,所以.
所以关于的经验回归方程为.
(2)甲每局比赛获胜的概率为,则甲每局比赛失败的概率为,
依题意可得,
则,
所以当时,当时,
所以在上单调递增,在上单调递减,
所以,此时;
变式4-1.某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1)
(2).
【分析】(1)16年中有4年居民存款余额超过100万亿元,根据组合知识求解概率;
(2)两边取对数,再根据公式求出,,从而,故.
【详解】(1)由题意,16年中有4年居民存款余额超过100万亿元,
故所求概率为.
(2),
由题知,,
,
,
,故.
变式4-2.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)①;
(2)
【分析】(1)根据残差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
变式4-3.近期,某市公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据以上数据,绘制了散点图.
(1)根据散点图判断,在推广期内,与(均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的经验回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次.
[参考数据:,,,,,其中,]
【答案】(1)适宜
(2),347十人次
【分析】(1)根据散点图判断即可.
(2)对两边同时取常用对数,得,进而转化为线性关系,再根据已知数据计算回归方程,并代入数据检验即可.
【详解】(1)由散点图,得适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)由,两边同时取常用对数,得,
设,则,由,,
得,,
因此,即,则,
当时,得,
所以y关于x的回归方程为,活动推出第8天使用扫码支付的人次为347十人次.
变式4-4.蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:℃)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合.
根据收集到的数据,计算得到如下值:
24
2.9
646
179
422688
62.65
70308
表中;
(1)根据散点图,比较模型①、②的拟合效果,模型___________比较合适?(无需说明理由)
根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:
【答案】(1)模型②,
(2)①;②,.
【分析】(1)利用散点图的特征确定所选模型,再利用给定数据求出回归方程.
(2)①求出,再利用导数求出最大值对应;②由①的结论求出每年需要人工防治的概率,再利用二项分布的期望、方差公式计算即可.
【详解】(1)由散点图知,卵数随温度的变化是按指数形式变化,而非线性变化,因此模型②更合适,
令,则,由所给参考数据得,,
,因此关于的线性回归方程为,
所以产卵数关于温度的回归方程为.
(2)①依题意,,
求导得
令,得,当时,,当时,,
函数在上单调递增,在上单调递减,
所以取得最大值时对应的概率;
②由①知,当时,取最大值,当时,,
每年需要人工防治的概率,且服从二项分布,
所以,.
类型五、回归分析与概率综合
解题技巧:
(1)基于回归预测值的概率
①构建回归模型,得到预测表达式;
②确定预测值范围与目标事件;
③用古典概型(离散值)/几何概型(连续值)计算概率。
(2)样本数据的回归+概率
①用样本求回归方程,得拟合值
②筛选满足某条件的样本;
③计算此类样本在总样本中的占比(条件概率)
例5-1.近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
【答案】(1),千辆;
(2)预计最多可调整人去其他部门.
【分析】(1)根据所给数据计算,即可得到关于的线性回归方程,由此可得结果.
(2)根据条件可得培训后能使用人工智能工具的人数,计算,根据宣传部门员工创造的年净利润不低于调整前可得结果.
【详解】(1)由题意得,
,
所以,,
所以关于的线性回归方程为,
由题意得,年月份的月份代码为,当时,,
所以估计该地区新能源汽车在年月份的销量为千辆.
(2)记事件为“员工经过培训后,能使用人工智能工具”,
则,
设宣传部门调至其他部门人数为,则参加培训的人数为,
设为培训后能使用人工智能工具的人数,
则,故,
调整后年净利润预计为:万元,
由题意得,
解得,
所以预计最多可调整人去其他部门.
例5-2.规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
(3)证明
附:参考数据:,,(其中,).
【答案】(1)分布列见解析;期望为
(2),
(3)证明见解析
【分析】(1)结合相互独立、独立重复试验的概率计算公式,计算出分布列并求得数学期望;
(2)利用换元法,结合回归直线方程的计算公式,计算出关于的回归方程,并由求得预测值;
(3)通过求“在前轮没有成功的概率”大于,来求得“前轮就成功的概率”小于,从而证得不等式成立.
【详解】(1)由题知,的取值可能为1,2,3,所以;
;;
所以的分布列为:
1
2
3
所以数学期望为.
(2)令,则,
由题知:,
,
所以,
所以,,
故所求的回归方程为:,
所以,估计时,;估计时,;估计时,;
预测成功的总人数为.
(3)由题知,在前轮就成功的概率为
,
又因为在前轮没有成功的概率为
,
故.
变式5-1.某商场为了解月投放消费券x(单位:千元)和月利润y(单位:万元)的关系,进行了数据收集整理,得到下面的表格:
月投放消费券x/千元
25
64
100
144
196
289
月利润y/万元
591
595
600
604
607
615
(1)根据表中数据,通过作散点图分析,可把作为y关于x的经验回归方程,试求出该经验回归方程;
(2)该商场为进一步提高利润,推出了“购物达千元,玩游戏,送消费券”的活动.在商场游戏活动点放置甲、乙两个袋子,甲袋中放有3个相同的小盒,其中有两个小盒中放有“奖”字条,另一个是空盒,乙袋中也放有3个与甲袋中相同的小盒,都是空盒.游戏活动参加者先从甲、乙两袋中各任取一个小盒交换后再放回袋子中,重复n()次这样的操作后,记甲袋中恰有2个小盒放有“奖”字条的概率为,恰有1个小盒放有“奖”字条的概率为.若甲袋中恰有2个小盒放有“奖”字条,参加者可得200元消费券;恰有1个小盒放有“奖”字条,参加者可得100元消费券;没有小盒放有“奖”字条,参加者可得50元消费券.
(ⅰ)求,;
(ⅱ)记一个游戏活动参加者参加一次活动获得消费券总数为,当时,求的数学期望,并判断游戏活动参加者所得奖券的平均值能否超过100元.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别,.
【答案】(1)
(2)(i),;
(ii),可以
【分析】(1)根据线性回归方程计算;
(2)(i)利用全概率公式计算;
(ii)计算概率,写出分布列,计算数学期望判断即可.
【详解】(1)设,则,,,,,,
所以,,
所以
,
而,
所以,,
所以关于的经验回归方程为.
(2)(i)由题意得,,
由全概率公式得,
;
(ii)由题意得,,
则时,参加者得到50元消费券的概率为,
所以的分布列为:
,
所以游戏活动参加者所得奖券的平均值可以超过100元.
变式5-2.电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元)
20
30
40
50
60
70
游客满意度评分(分)
60
65
70
78
80
85
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为,.
①若甲以获胜的概率为,求的最大值;
②在①中,若,以作为的值,设甲、乙比赛的局数为,求的分布列和期望.
参考公式:相关系数,,
参考数据:.
【答案】(1)可以,
(2)①;②分布列见解析,
【分析】(1)根据题意,利用公式求得,得到用线性回归模型拟合与的关系,求得回归系数,进而得到回归直线方程;
(2)①根据题意,求得, 求得,得到函数得到单调性和最大值,即可求解;
②由①得到,随机变量,求得相应的概率,列出分布列,结合期望的公式,求得期望值.
【详解】(1)解:由已知得,,
可得,
,
,
所以,
因为,可以推断与正两个变量正线性相关,且相关程度很强,
可用线性回归模型拟合与的关系,
则,所以,
所以关于的线性回归方程为:.
(2)解:①若甲以获胜,则前四局中甲、乙各胜两局,且第五局甲获胜,
所以,
所以,
令,可得,当时,;
当时,,
所以在上单调递增,在上单调递减;
所以当时,取得最大值,
②由①知,,随机变量,
可得;;
,
所以随机变量的分布列为
3
4
5
所以.
变式5-3.在一个不透明的袋子里初始装有红球和白球各一个,每次有放回地从中任取一个,连续取两次,以上过程记为一轮.如果每一轮两次取到的都是红球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则往袋子里再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球实验时,最多进行三轮,即使第三轮不成功,也停止抽球.记其进行抽球试验的轮次数为X,求X的分布列和数学期望;
(2)为验证抽球实验成功的概率不超过,有1000名志愿者独立地进行该抽球实验,用t表示成功时抽球的轮次数,y表示对应的人数,以下是部分统计数据:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测当时y的值;
(3)若在前n轮就成功的概率为,证明:.
附:回归方程系数:;
参考数据:(其中,)
【答案】(1)分布列见解析,
(2),10.8
(3)证明见解析
【分析】(1)依题意,确定X的取值可能为1,2,3,分别求出其对应的概率,列出分布列,利用数学期望公式计算即可;
(2)利用将y关于t的回归方程化成线性方程,将相关数据代入公式依次计算,即得回归方程,并进行计算预测;
(3)根据(1)的分析总结,得出在前n轮就成功的概率为,利用累乘法化简求解得,即可证得,即得.
【详解】(1)由题意知,X的取值可能为1,2,3,
,,
所以X的分布列为
X
1
2
3
P
则X的数学期望.
(2)令,则.由题意知,,,.
则,则,则有,
故回归方程为.当时,,故预测y的值约为10.8.
(3)由题意知在前n轮就成功的概率为
.
则在前n轮没有成功的概率为
,
即,所以.故.
变式5-4.在一个足够大的不透明袋中进行一个轮摸球试验,规则如下:每一轮试验时,袋中均有红、黑、白三种颜色的球,从中随机摸出一个球(摸出的球不再放回),若摸出红球,则试验成功;若摸出白球,则试验失败;若摸出黑球,则进入判定环节:判定时,向袋中放入两个黑球并取出一个白球,再从中随机摸出一个球,若为白球则试验失败,否则试验成功.若试验成功,则结束试验,若试验失败,则进行下一轮试验,直至成功或轮试验进行完.已知第轮试验开始时,袋中有1个红球,个黑球,个白球.
(1)求第1轮试验成功的概率;
(2)某团队对这个试验进行了一定的研究,请若干志愿者进行了5轮试验,并记录了第轮试验成功志愿者的比例,记,发现与线性相关,求关于的经验回归方程,并预测试验轮数足够大时,试验成功志愿者的比例;
(3)记试验结束时,试验成功的概率为,证明:.
参考数据:,,,.
【答案】(1)
(2),0.782.
(3)证明见解析
【分析】(1)分两种成功情况分别计算概率后相加;
(2)利用最小二乘公式求回归方程参数;
(3)通过分析失败概率乘积构造递推关系,结合代数变形证明不等式.
【详解】(1)第1轮试验中有1个红球,1个黑球,2个白球,
摸出红球,即试验成功的概率为.
摸出黑球且试验成功的概率为,
所以第1轮试验成功的概率为.
(2),
所以,则所求经验回归方程为.
当试验轮数足够大,即足够大时,接近于0,则接近于0.782,
故预测成功志愿者的比例为0.782.
(3)依题意,轮试验失败的概率为,设第轮试验失败的概率为,
则,发生有两种可能,
第一种可能为直接摸出白球,概率为,
第二种可能为摸出黑球后再摸出白球,
概率为,
所以,
则,
因此.
类型六、独立性检验中的最值问题
解题技巧:
(1)核心解题步骤
①关联列联表与变量,明确各量关系
②代入卡方公式,结合临界值建不等式
③化简不等式,确定变量取值范围
④结合目标量与变量的关系,求最值
(2)关键技巧总结
①列联表与变量的绑定:先将所有频数用同一变量表示,避免多个变量混淆;
②卡方公式的简化运算:优先化简(ad−bc)部分,减少复杂计算量;
③约束条件的结合:解不等式后,必须结合题目中变量的取值范围(整数、区间)筛选可行值,避免脱离实际的代数解;
④目标量与变量的关联:明确目标量的表达式,通过变量的最值直接推导目标量的最值
例6-1.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若我们推断不成立,此推断犯错误率不超过,则的最小值为( )
附:,附表:
0.05
0.01
3.841
6.635
A.7 B.8 C.9 D.10
【答案】C
【分析】根据题意可得列联表,由已知数据计算,根据独立性检验的结论,列不等式求的取值范围,得最小值.
【详解】根据题意,不妨设男生中喜欢短视频的人数为人,男生中不喜欢短视频的人数为人,女生中喜欢短视频的人数为人,女生中不喜欢短视频的人数为人.
所以可得列联表如下:
喜欢短视频人数
不喜欢短视频人数
合计
男生人数
女生人数
合计
于是,
由于推断不成立,此推断犯错误率不超过,
所以依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,且,于是最小值为.
故选:C
例6-2.某研究性学习小组针对“使用大绿书的用户是否存在性别差异”,向个人进行调查.用表示所有调查对象构成的集合.以为样本空间建立古典概型,并定义一对分类变量和如下:对于中的每一名学生,,现得到下表:
是大绿书的用户
不是大绿书的用户
男性
女性
若根据的独立性检验认为(其中),则的最小值为__________.(参考公式:,其中)
【答案】3
【分析】根据题意,由的公式代入计算,列出不等式,即可得到结果.
【详解】因为用大绿书APP的用户存在性别差异,
所以,
即,所以的最小值为3.
故答案为:
变式6-1.某校对“学生性别和喜欢刷视频是否有关”作了一次调查,得到如下列联表:
不喜欢刷视频
喜欢刷视频
总计
男生
女生
总计
若通过计算,可得根据小概率值的独立性检验,认为学生是否喜欢刷视频与性别有关联,则正整数的最小值为( )
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
A.80 B.100 C.120 D.150
【答案】B
【分析】完成列联表,计算,即可求出正整数的最小值.
【详解】完成列联表如下:
不喜欢刷视频
喜欢刷视频
总计
男生
女生
总计
则,解得.
又为正整数,且是5的倍数,可得的最小值为100.
故选:B.
变式6-2.2025年7月22日是二十四节气中的第十二个节气——大暑.受今年气候等多因素的影响,全国各地高温天气持续不断.某校以“预防中暑,防止脱水”为主题举行活动.为了解男女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理成如下列联表.
性别
兴趣程度
合计
感兴趣
不感兴趣
男生
女生
合计
(1)当m足够大时,估计从该校任选一名对该活动不感兴趣的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,求正整数m的最小值.
附:,其中.
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)
(2)10
【分析】(1)根据频率估计概率,结合古典概型公式,即可得答案.
(2)先求得,由题意可得,分析计算,即可得答案.
【详解】(1)由调查数据可知当m足够大时,以频率估计概率可知,
从该校任选一名对该活动不感兴趣的学生是男生的概率为.
(2)由题意可得,
若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,
则,解得
因为m为正整数,
所以m的最小值为10.
变式6-3.某种疾病分为甲、乙两种类型,为研究该疾病的类型与患者性别是否有关,随机抽取了名患者进行调查,得到如下列联表:
性别
疾病类型
合计
甲型病
乙型病
男
女
合计
(1)根据小概率值的独立性检验,得出了“所患疾病的类型与性别有关”的结论,求的最小值;
(2)现对部分人群接种预防甲型疾病的疫苗,要求每人至多安排2个周期接种疫苗,每人每周期必须接种3次,每次接种后,产生抗体的概率为0.8.如果一个周期内至少2次产生抗体,那么该周期结束后终止接种,否则进入第二个周期.已知每人每周期接种费用为30元,试估计1000人接种疫苗总费用的期望.附,
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1)18;
(2)33120.
【分析】(1)根据列联表中的数据求得的值,根据小概率值的独立性检验可得,求解得答案;
(2)设每人接种疫苗的费用为,其可能的取值为,求出取值对应的概率,分布列,得到每人接种疫苗的费用的均值,进而求得1000人接种疫苗总费用的期望.
【详解】(1)根据列联表中的数据,得到,
因为根据小概率值的独立性检验,认为“所患疾病的类型与性别”有关,
所以,解得,
因为,结合列联表中各式均为整数,
所以的最小整数值为18.
(2)设每人接种疫苗的费用为,其可能的取值为,
所以,,
所以的分布列为
30
60
所以的期望,
估计1000人接种疫苗总费用的期望为元.
变式6-4.2025年是中国人民抗日战争暨世界反法西斯战争胜利80周年,某校以“铭记历史、缅怀先烈、珍视和平、开创未来”为主题举行纪念活动.为了解男、女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理为如下列联表,其中为正整数.
参加
不参加
合计
男生
女生
合计
(1)若根据小概率值的独立性检验,认为是否参加该活动与性别有关,求的最小值;
(2)若,从参与调查且参加活动的同学中每次随机不放回地选1人,直到选中女生为止,求总选取次数的分布列和数学期望.
附:,.
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)10
(2)分布列见解析,
【分析】(1)根据小概率值的独立性检验得到即可得出答案;
(2)确定X的可能的取值,求出每个值相应的概率,根据数学期望的计算公式,即可得答案.
【详解】(1)零假设为:是否参加活动与性别无关.
由题意可得
若根据小概率值的独立性检验,认为是否参加该活动与性别有关,即不成立,
则,解得.
因为为正整数,所以的最小值为10.
(2)当时,参与调查且参加活动的同学中共有男生3名,女生8名,
故总选取次数的可能取值有1,2,3,4.
,,
,,
故的分布列为
1
2
3
4
所以.
类型七、独立性检验与概率分布的综合
解题技巧:
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
③先完成独立性检验的列联表、卡方计算,再以检验中的样本数据为依据,结合对应概型(古典/几何/条件概率)分析后续事件的概率,注意数据的对应关系(如用列联表中的频数计算频率,近似替代概率)
例7-1.有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,男生、女生各取100人.设事件“学生愿意报名参加答题活动”,“学生为男生”,据统计.
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关?
性别
男生
女生
合计
不愿报名参加答题活动
愿意报名参加答题活动
合计
200
(2)网络答题规则:假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
(i)若答题活动设置且道题,甲仅答对其中10道题的概率最大,求的值.
(ii)若答题活动设置4道题,且答题规则如下:每次答一题,一旦答对,则结束答题;答错则继续答题,直到4道题答完.已知甲同学报名参加答题活动,用表示在本次答题的题目数量,求的分布列和期望.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,认为学生报名参加答题活动与性别有关联
(2)(i);(ii)的分布列见解析,
【分析】(1)根据题设,结合条件概率的定义求出数据,进而完成列联表,再计算出的值判断即可;
(2)(i)设随机变量Y为甲答对题目的个数,则,根据二项分布的概率性质建立不等式组即可求解;(ii)写出的所有可能取值,结合独立事件的概率特征求出对应的概率,从而可写出的分布列及期望.
【详解】(1)因为,所以愿意报名参加答题活动人数为,
又因为,所以愿意报名参加答题活动的男生人数为,愿意报名参加答题活动的女生人数为,则可得到列联表为:
性别
男生
女生
合计
不愿报名参加答题活动
20
60
80
愿意报名参加答题活动
80
40
120
合计
100
100
200
零假设为:学生报名参加答题活动与性别无关,
则,
依据小概率值的独立性检验,我们推断不成立,
即认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.001;
(2)(i)设随机变量Y为甲答对题目的个数,则.
则,
假设最有可能答对题目的数量是10次,则
即:
解得,又,则;
(ii)的所有可能取值为:1,2,3,4,
,,,
,
所以的分布列为:
X
1
2
3
4
P
故.
例7-2.目前,AI赋能语音识别技术已从实验室的“概念验证”发展为改变人类生活的基础设施,随着大模型和多模态技术的融合,英文识别将不再是单一功能,也是智能系统理解世界的“耳朵”和“眼睛”,推动人机交互从“命令执行”向“自然对话”演进.现甲、乙两名同学通过英文指令与某AI智能体人机交互共生成200篇文章.若生成的文章达到专业要求,不用进一步改良,视为合格.现已知甲同学生成的文章有80篇合格,占甲同学生成文章总数的,乙同学生成的文章有一半合格.
(1)请根据以上数据填写下面的列联表,并推断能否有95%的把握认为生成的文章是否合格与甲、乙(不同的)同学给出的指令有关?
生成的文章合格
生成的文章不合格
总计
甲同学
80
乙同学
总计
200
(2)经试验,若给出的指令够准确具体,该智能体生成文章合格的概率为,则在此条件下从该智能体生成的一批文章中随机调取3篇,请写出其中合格的篇数的分布列,并算出期望.
附:,其中(结果精确到0.001).
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,有95%的把握;
(2)分布列见解析,
【分析】(1)根据题意,得出列联表,求得的值,结合附表,即可得到结论;
(2)根据题意,得到的可能取值,得出服从二项分布,求得相应的概率,得出分布列,求得数学期望.
【详解】(1)由题意得
生成文章合格
生成文章不合格
总计
甲同学
80
40
120
乙同学
40
40
80
总计
120
80
200
零假设生成的文章是否合格与甲、乙同学给出的指令无关,
,
∵,所以我们推断不成立,
所以有95%的把握认为生成文章是否合格与甲、乙(不同的)同学给出的指令有关;
(2)合格的篇数的所有可能取值为,,,
由题意, ,
故的分布列为
0
1
2
3
故期望.
变式7-1.某电商平台在用户选购家电时,要求每位用户先从冰箱和洗衣机这两类大家电中选定一类,再从微波炉、烤箱、扫地机器人、空气净化器这四类小家电中任选两类.选购结束后,为了解用户的选购情况,随机抽取了部分用户作为样本,对他们的选购情况统计后得到下表:
微波炉
烤箱
扫地机器人
空气净化器
冰箱类
100
120
200
180
洗衣机类
120
140
60
80
(1)利用上述样本数据填写以下列联表,并依据小概率值的独立性检验,分析以上两类大家电对空气净化器的选法是否存在差异.
类别
空气净化器选法
选
不选
合计
冰箱类
洗衣机类
合计
(2)假设该平台所有选购家电的用户中有的用户选择了冰箱类,其余的用户都选择了洗衣机类,且在冰箱类的用户中两个小家电选择的是烤箱和扫地机器人的概率为,而在洗衣机类的用户中两小家电选择的是烤箱和扫地机器人的概率为.若从该平台所有用户中随机抽取100名用户,用表示这100名用户中同时选择了烤箱和扫地机器人的人数,求随机变量的均值.
附:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,存在
(2)16
【分析】(1)根据题意完善列联表,根据表中数据求,并与临界值对比分析;
(2)根据全概率公式求,可得,再根据二项分布求.
【详解】(1)由题意可得:选择冰箱类的总人数有300,其中选择空气净化器的人数为180,不选择空气净化器的人数为120;选择洗衣机类的总人数有200,其中选择空气净化器的人数为80,不选择空气净化器的人数为120;据此完善列联表
类别
空气净化器选法
选
不选
合计
冰箱类
180
120
300
洗衣机类
80
120
200
合计
260
240
500
零假设:两类大家电对空气净化器的选法没有差异,
可得,
由于,根据小概率值可知假设不成立,
故可以认为两类大家电对空气净化器的选法存在差异,且犯错误的概率不大于.
(2)记“选择冰箱类”为事件M,“选择洗衣机类”为事件N,“同时选择烤箱和扫地机器人”为事件C,
则,
故,
由题意可得,则,
故随机变量的均值.
变式7-2.贵州“村超”以及江苏“苏超”的成功充分说明了足球是一项大众喜爱的运动.
(1)为了解喜爱足球运动是否与性别有关,现随机抽取了男性和女性各100名观众进行调查,得到列联表如下:
喜爱足球运动
不喜爱足球运动
合计
男性
60
40
100
女性
20
80
100
合计
80
120
200
依据小概率值的独立性检验,能否认为喜爱足球运动与性别有关?
(2)某足球队中的甲、乙、丙、丁四名球员将进行传球训练,第1次由甲将球传出,每次传球时、传球者都等可能地将球传给另外三个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传球的人为第1次触球者,第n次触球者是甲的概率记为,即.
①求,;
②证明:数列为等比数列,并判断第19次与第20次触球者是甲的概率的大小.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:,.
【答案】(1)能认为喜爱足球运动与性别有关
(2)①, ②证明见解析;第19次触球者是甲的概率大于第20次触球者是甲的概率.
【分析】(1)计算,依据小概率值的独立性检验作出判断;
(2)①根据古典概型公式计算即可;②根据等比数列的定义证明数列为等比数列,并求得数列的通项公式,进而求得,比较与的大小即可.
【详解】(1)零假设:
:喜爱足球运动与性别独立,即喜爱足球运动与性别无关.
,
根据小概率值的独立性检验,我们推断不成立,即认为喜爱足球运动与性别有关,此推断犯错误的概率不超过0.001.
(2) ①由题意得:第二次触球者为乙,丙,丁中的一个,所以第二次触球者是甲的概率记为;
第二次触球者必不是甲,第三次传给包括甲的三人中的一人,故传给甲的概率为,故.
②因为第n次触球者是甲的概率记为,
所以当时,第次触球者是甲的概率为,则第次触球者不是甲的概率为.
所以,所以,
因为,所以数列为首项是,公比是的等比数列。
所以,所以.
所以,,
所以,即第19次触球者是甲的概率大于第20次触球者是甲的概率.
变式7-3.某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60 名学生的短跑成绩合格.这100名学生中有45名学生每周自主锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周自主锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周自主锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周自主锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率估计概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训.依据小概率值的独立性检验,零假设为:学生短跑成绩合格与每周自主锻炼时间相互独立.
(1)先填写列联表,再依据小概率值的独立性检验,判断是否能认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关;
每周自主锻炼时间超过5小时
每周自主锻炼时间不超过5小时
合计
短跑成绩合格
短跑成绩不合格
合计
100
(2)求学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率;
(3)为提高学生锻炼的积极性,学校偶尔会在田径运动场举办锻炼有奖活动,记表示事件“田径运动场举办锻炼有奖的抽奖活动”,表示事件“小明去田径运动场锻炼”,.已知小明在田径运动场举办锻炼有奖的抽奖活动的情况下去运动场锻炼的概率,比不举办抽奖活动的情况下去运动场锻炼的概率大.证明:.
参考公式与数据:,其中,.
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1)列联表详见解析,,根据小概率值的独立性检验,可以认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关.
(2).
(3)证明详见解析.
【分析】(1)根据题意先完成列联表,根据表格中的数据计算即可进行独立性检验.
(2)综合条件概率公式、全概率公式、贝叶斯公式求解.
(3)根据条件概率公式与对立事件的概率公式化简求证.
【详解】(1)根据题意完善列联表如下:
每周自主锻炼时间超过5小时
每周自主锻炼时间不超过5小时
合计
短跑成绩合格
35
25
60
短跑成绩不合格
10
30
40
合计
45
55
100
根据列联表中的数据,计算得到
,
根据小概率值的独立性检验,我们推断不成立,即认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关.
(2)由(1)中的列联表知,短跑成绩不合格的学生有40人,其中每周自主锻炼时间超过5小时的有10人,每周自主锻炼时间不超过5小时的有30人.
记事件“甲在培训后短跑成绩合格”,事件“甲每周自主锻炼时间超过5小时”,则事件 “甲每周自主锻炼时间不超过5小时”,
用频率估计概率知 ,,
由题意知,,
由全概率公式知.
由贝叶斯公式知,即学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率为.
(3)由题意知,
所以,
因为,所以,
所以,
整理得,
所以,
即,
因为,所以,
所以,即.
变式7-4.某高校拟与某网络平台合作组织学生参加与知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,在全体学生中抽取人调查,得到如下列联表:
活动 性别
男生
女生
合计
未报名参加答题活动
40
70
110
报名参加答题活动
60
30
90
合计
100
100
200
(1)根据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关联?
(2)网络答题规则:答题活动不限时间,不限轮次,答多少轮由选手自行确定:每轮均设置道试题,选手参与该轮答题,一旦答对一题,则其本轮答题结束,答错则继续答题,直到第道试题答完,本轮答题结束已知甲同学报名参加答题活动,假设甲每道试题回答是否正确相互独立,且每次答对的概率均为.
(i)当时,求甲同学在一轮答题过程中答题数量的数学期望;
(ii)假设甲同学每轮答题至少答对前两题中的一道,本轮答题得分,否则得分记甲答题累计得分为的概率为,求数列的通项公式.
附:,其中.
【答案】(1)该校学生报名参加答题活动与性别有关联;
(2)(i);(ii).
【分析】(1)根据题设给出的列联表,计算的值并与临界值比较即可,
(2)(i)首先列出的概率表达式,然后用数学期望公式将它的数学期望表达式列出来,即可求解;
(ii)根据题意可得,,时,,再利用构造法求出.
【详解】(1)零假设为:学生报名参加答题活动与性别无关,
则,
依据小概率值的独立性检验,我们推断不成立,
即认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.001.
(2)(i)设甲完成一轮答题,答题数量为随机变量,则的所有可能取值为,
其中,,
因此.
(ii)每轮比赛甲得1分的概率为,得2分的概率为,
依题意,,,当时,则,
显然,且,
则数列是首项为,公比为的等比数列,,
又,则数列是常数列,即,
因此,解得,
所以数列的通项公式是.
压轴专练
1.某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的 若有的把握认为喜欢短视频和性别相关联,则的最小值为( )
(附,其中.)
A. B. C. D.
【答案】B
【分析】根据题意先列出列联表计算值,再根据计算出的最小值.
【详解】根据题意,列联表如下:
喜欢
不喜欢
合计
男
女
合计
;
∵有的把握认为喜欢短视频和性别相关联,即,
,,又,
则的最小值为.
故选:B.
2.下列说法不正确的是( )
A.对具有线性相关关系的变量,,且回归方程为,若样本点的中心为,则实数的值是
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.一组数据10,10,11,12,12,14,16,19,21,21的第80百分位数为19
【答案】D
【分析】对选项A,根据线性相关的回归方程对应的直线过中心点求出的值;对选项B,根据正态分布的特点求出对应的概率;对选项C,相关系数越接近,两个变量的线性相关程度越高;对选项D,可根据定义求出其第百分位数进行判断.
【详解】对于选项A,线性相关的回归方程对应的直线过点,即,解得,选项A正确;
对于选项B,根据正态分布的性质,,,则,选项B正确;
对于选项C,相关系数的绝对值越接近,则两个变量的线性相关程度越高,选项C正确;
对于选项D,共有个按从小到大排列的数据,,根据定义第百分位数为第项和第项的平均数,选项D错误.
故答案为:D
3.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
【答案】D
【分析】对于A:根据回归方程结合正相关的概念分析判断即可;对于B:根据线性回归方程过样本中心点运算求解;对于C:代入运算即可;对于D:根据相关系数的公式分析判断即可.
【详解】由题意可知:,,
则样本中心点为.
对于选项A:因回归方程斜率为正值,则变量与正相关,故A正确;
对于选项B:因为线性回归方程过样本中心点,
则,解得,故B正确;
对于选项C:由选项B可知:,
当时,的预估值为,故C正确;
对于选项D:由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,故D错误.
故选:D.
4.某试验田种植一批水稻,对其进行种植实验.在右表中记录了5组水稻的“播种面积”与“总产量”的相关数据并预测序号6的实验数据,若发现实验序号5的实验数据有误需剔除,则下列说法正确的是( ).
实验序号
1
2
3
4
5
6
播种面积
(单位:千公顷)
60.9
71.8
72.9
73.6
75.8
80.0
总产量
(单位:万吨)
37.8
37.4
38.9
40.1
37.3
未知
A.实验样本的相关系数将变小. B.实验样本的相关系数将不变.
C.实验序号6的预测结果将变大. D.实验序号6的预测结果将变小.
【答案】C
【分析】根据相关性的性质即可求解AB,根据回归方程的斜率变化,即可求解CD.
【详解】根据表中数据可知:1-4号的数据中,播种面积逐渐增发,总产量整体呈现上升趋势,呈现正相关,但5号数据,播种面积在增大,但产量低,偏离了正相关趋势,当剔除5号数据后,相关性会变强,故AB错误,
由于5号数据削弱了正相关性,导致回归直线的斜率变小,因此剔除后,回归直线的斜率会变大,所以对于试验6号,预测的结果将变大,故C正确,D错误.
故选:C
5.已知两个具有线性相关关系的变量的一组数据,,…,,下列说法错误的是( )
A.相关系数越接近1,变量x,y相关性越强
B.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
C.决定系数越小,残差平方和越大,即模型的拟合效果越差
D.回归方程为时,变量x与y负线性相关
【答案】B
【分析】由线性回归方程的相关知识即可逐一判断求解.
【详解】对于A,相关系数越接近1,变量x,y相关性越强,故A正确;
对于B,回归直线方程拟合效果是由相关系数决定,故B错误;
对于C,决定系数越小,残差平方和越大,即模型的拟合效果越差,故C正确;
对于D,回归方程为时,变量x与y负线性相关,故D正确.
故选:B.
6.将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是( )
A. B.
C. D.
【答案】D
【分析】利用回归方程的性质,利用相关系数和相关指数分析判断即可.
【详解】从散点图可以看出,两个变量是正相关,故A正确;
从散点图可以看出,回归直线的斜率是正数,且的斜率大于的斜率,故 B和C正确;
从散点图可以看出,去掉“离群点”后,相关性更强,拟合的效果更好,
值越大,模型的拟合效果越好,所以,故D错误;
故选:D.
7.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
【答案】C
【分析】由条件先求原数据的变量的平均值,再求除去杂点数据后的新数据组的,再由样本中心点在回归直线上求修正后的回归方程,再结合残差定义求解.
【详解】由题意可得回归方程为,所以,
因为,所以,所以,
若减少一个杂点数据后,剩余样本数量为10,
修正后的,,
又修正后的回归方程的纵截距为,
设修正后的回归方程为,
可得,
所以修正后回归方程为,
当时,,
所以数据的残差为.
故选:C
8.(多选)两个具有相关关系的变量,的一组数据为,,,,其经验回归方程为,记,,相关系数为;若将数据调整为,,,,其经验回归方程为,记,相关系数为,则( )
附:,
A. B.
C. D.
【答案】BD
【分析】根据给定条件,可得,再结合最小二乘法、经验回归方程、相关系数计算判断即可.
【详解】对于A,,A错误;
对于B,,B正确;
对于C,,则,C错误;
对于D,,D正确.
故选:BD
9.(多选)下列命题正确的有( )
A.回归直线过样本点的中心,有可能不过一个样本点
B.两个变量相关性越强,则相关系数越接近1
C.将一组数据中的每一个数据都加上同一个正数,则其方差不变
D.将9个数的一组数去掉一个最小和一个最大数,则中位数不变
【答案】ACD
【分析】由回归直线的性质可判断A;由相关系数的性质可判断B;由方差的性质可判断C;由中位数的算法可判断D.
【详解】对于A:回归直线恒过样本点的中心,可以不过一个样本点,故A正确;
对于B:两个变量的相关性越强,则相关系数的绝对值就越接近1,故B错误;
对于C:将一组数据的每个数据都加一个相同的常数后,数据的波动性不变,方差不变,故C正确;
对于D:由中位数的算法可知,将9个数的一组数去掉一个最小和一个最大数,则中位数不变,故D正确.
故答案为:ACD.
10.(多选)为研究某种树的树高和胸径的关系,甲学习小组随机测量了100棵该品种树的胸径x(单位:cm)和树高y(单位:m)的数据,已知其中一组数据为点,且,求得线性经验回归方程为,其决定系数,并绘制了如下残差图.该小组研究发现,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则下列结论正确的是( )
A.乙学习小组对这组数据进行分析,得到非线性经验回归方程,其决定系数为,则甲小组选取的模型拟合效果更好
B.数据点P对应的残差为0.9
C.该样本中树的平均树高为22.29m
D.删除数据点P后,重新求得的回归直线的斜率变小
【答案】AC
【分析】根据决定系数的含义、残差的定义、平均值以及回归方程等知识逐项计算判断即可.
【详解】对于A:决定系数越大,模型的拟合效果越好,,选项A正确;
对于B:计算数据对应的残差,当时,,
所以残差为,选项B错误;
对于C:已知,则样本中心点的横坐标:,
将代入回归方程,可得y=0.25×29.16+15=7.29+15=22.29,
所以样本中树的平均树高为,选项C正确;
对于D:删除数据后,
因为38.4大于样本中心点的横坐标29.16,且23.7小于通过回归方程计算出的38.4对应的预测值24.6,
所以删除该点后,剩下的数据整体上可能使得树高与胸径的正相关变强,
即重新求得的回归直线的斜率变大,选项D错误.
故选:AC.
11.(多选)某人工智能公司近5年的利润情况如下表所示:
第年
1
2
3
4
5
利润/亿元
2
3
4
5
7
已知变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )
A. B.变量与之间的线性相关系数
C.预测该人工智能公司第6年的利润约为7.8亿元 D.残差绝对值的最大值为0.4
【答案】ACD
【分析】首先求出、,根据回归直线方程必过,即可求出,即可判断A;从而得到回归直线方程,根据与成正相关,即可得到相关系数,即可判断B;再令求出,即可预测第6年的利润,即可判断C,最后根据残差的定义求解判断D.
【详解】依题意,,
因为回归直线方程为必过样本中心点,
则,解得,故A正确;
回归直线方程为,则与成正相关,即相关系数,故B错误;
当时,,即该人工智能公司第6年的利润约为7.8亿元,故C正确;
当时,,残差绝对值为,
当时,,残差绝对值为,
当时,,残差绝对值为,
当时,,残差绝对值为,
当时,,残差绝对值为,
所以残差绝对值的最大值为0.4,故D正确;
故选:ACD.
12.已知某个样本点中的变量x、y线性相关,相关系数,则在以为坐标原点的坐标系下的散点图中,大多数的点都落在第________象限.
【答案】二、四
【分析】利用相关系数公式,结合已知有大多数点与异号,即可得答案.
【详解】由,则,
所以,大多数点与异号,又为坐标原点,
故大多数的点都落在第二、四象限.
故答案为:二、四
13.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为__________.
【答案】
【分析】根据残差求得时的预测值,从而求得,再根据样本中心一定在回归直线上即可得到答案.
【详解】由题意可得时的预测值为,
所以,解得,即经验回归方程为,
又因为,,
所以,解得,
故答案为:
14.已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时,________.
【答案】7
【分析】利用回归直线方程过样本中心点,可求得样本中心点为,又根据除去两组成对样本数据后的经验回归直线的斜率估计值为,可求得经验回归直线方程,进而代入数据可求得的估计值.
【详解】由样本数据点集求得的经验回归方程为,且,
所以,故数据的样本中心点为,
去掉,,
重新求得的经验回归直线的斜率估计值为,
经验回归方程设为,代入,求得,
所以经验回归直线的方程为:,将代入经验回归方程,求得的估计值为.
故答案为:7.
15.某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】
【分析】由表中数据,根据独立性检验的解题思想,可得答案.
【详解】由题干数据即可得到:,
因为依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,
故,又因为m为正整数,故,
故答案为:
16.某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.若从该班级中随机抽取1名学生,设“抽取的学生期末统考中的数学成绩不及格”,“抽取的学生建立了个性化错题本”,且,,.
(1)求和.
(2)若该班级共有36名学生,请完成列联表,并讨论能否在犯错误的概率不超过0.005的前提下认为学生期末统考中的数学成绩与建立个性化错题本有关.
个性化错题本
期末统考中的数学成绩
合计
及格
不及格
建立
未建立
合计
(3)为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的k倍,且新列联表中的数据都为整数),若要使得在犯错误的概率不超过0.001的前提下可以肯定(2)中的判断,试确定k的最小值.
参考公式及数据:,.
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1),
(2)表格见解析,能
(3).
【分析】(1)利用条件概率和全概率公式即可求得和.
(2)先求得的值,再利用该值和表格值进行对比即可判断二者是否有关;
(3)先依据题给条件列出关于k的不等式,解之即可求得k的范围,再结合新列联表中的数据都为整数,进而求得k的最小值.
【详解】(1)因为,,,
所以,,.
由,
解得,所以.
则,解得.
(2)
个性化错题本
期末统考中的数学成绩
合计
及格
不及格
建立
20
4
24
未建立
4
8
12
合计
24
12
36
根据列联表中的数据,经计算得到.
所以在犯错误的概率不超过0.005的前提下认为学生期末统考中的数学成绩与建立个性化错题本有关.
(3)
,解得.
要使新列联表中的数据都为整数,则需.
又因为,所以4k的最小值为5,故的最小值是.
17.某工厂每日生产一种产品吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额y(万元)
5
12
16
19
21
(1)请判断与中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程中,.
参考数据:令,,,.
【答案】(1)更适合,理由见解析
(2),日销售额为23(万元)
【分析】(1)由题可知数据呈现增长趋势,但增长速度逐渐减慢,故符合;
(2)通过令将关于的非线性经验回归方程转化为关于的线性经验回归方程,根据表中数据求出该经验回归方程后再转化为关于的经验回归方程,代入即可求出预报值.
【详解】(1)更适合刻画,之间的关系.理由:由题表中的数据可知,的值每增加1,函数值的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故更适合刻画,之间的关系.
(2)令,由题意得,
所以,
,
所以关于的回归方程为.
当时,日销售额为(万元).
18.当下,大量的青少年沉迷于各种网络游戏,不利于青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益智游戏,某游戏公司开发了一款益智游戏,在内测时收集了玩家过每一关的平均时间,如下表:
关卡
1
2
3
4
5
6
平均过关时间(单位:秒)
50
78
124
121
137
352
计算得到一些统计量的值为,,其中.
(1)若用模型拟合与的关系,根据提供的数据,求出与的回归方程;
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2分并进入下一关,否则获得分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为,若甲玩一轮这款益智游戏,求“甲获得的积分”的分布列和数学期望.
【答案】(1)
(2)分布列见解析,
【分析】(1)先对两边分别取对数得到,再根据题目中的数据代入公式去求即可;
(2)利用乘法公式求出概率,得到分布列,再根据期望的计算方法计算期望即可.
【详解】(1)将两边取自然对数可得,即.
令,则,又,
,,
所以,
又,即,所以,所以,
所以关于的回归方程为.
(2)由题意知,甲获得的积分的所有可能取值为5,7,9,12,
所以,,
,,
所以的分布列为
5
7
9
12
所以.
19.某人工智能研发公司为了开拓新产品市场,从最新研发的经典A型和卓越型两款机器人中(卓越型是A型的优化版),随机各抽取30台进行越野驾驶性能对比测试,测试在同等环境中进行,评定结果分为优秀和良好两种.得到了如下数据:经典A型优秀为7台,卓越型优秀为20台.
(1)完成下面2×2列联表,并根据小概率值α=0.001的独立性检验,分析两款机器人的测试结果是否与越野驾驶性能优化有关.
款类
测试结果
总计
优秀
良好
型
20
30
A型
7
30
总计
(2)该公司为了进一步测试卓越型机器人的汉语智能性能,组织机器人队与人类队(母语为汉语)进行诗词抢答赛,每局比赛只有胜和负两种情况(无平局),每局人类战胜机器人的概率为胜者记2分,负者记1分.每个挑战者只能挑战一局,每局胜负不受其他因素的影响.
(i)求三局比赛中,人类队累计得分X的分布列和数学期望;
(ii)若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为;若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为,比较与的大小,并说明其统计意义.
参考公式:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,认为测试结果与越野驾驶性能有关联
(2)(i)分布列见解析,4;(ii)答案见解析
【分析】(1)依题意列出2×2列联表,计算进行判断;
(2)(i)X的所有可能取值为3,4,5,6,分别求其对应概率得到分布列;(ii)设“赛满局人类队获胜”为事件C,有事件:第一阶段赛满局人类队胜,事件:第一阶段赛满局人类队负,由求解.
【详解】(1)依题意,列出2×2列联表如下:
款类
测试结果
总计
优秀
良好
型
20
10
30
A型
7
23
30
总计
27
33
60
零假设为:测试结果与越野驾驶性能优化无关.根据表中数据可得:
,
根据小概率值的独立性检验,我们推断不成立,
即认为测试结果与越野驾驶性能有关联,此推断犯错误的概率不大于0.001.
(2)(i)X的所有可能取值为3,4,5,6,
,,
,.
∴X的分布列为
3
4
5
6
∴数学期望.
(ii)设“赛满局人类队获胜”为事件C,要使事件C发生,有两种情况:第一阶段赛满局人类队胜,记为事件,和第一阶段赛满局人类队负,记为事件,
∴,,
①若第一阶段人类队胜,则人类队在前局至少胜局,分为人类队至少胜局和人类队恰好胜局,
(a)若人类队至少胜局,无论后面两局结果如何,最终人类队获胜;
(b)若人类队恰好胜局,且后面两局中人类队均负的概率为,
∴(其中).
②若第一阶段赛满局人类队负,即前局人类胜局数,要使总赛满局后人类获胜,需满足:前局胜局,且后局全胜,
前局胜局的概率为,后局全胜的概率为,
因此
所以
代入,化简得,
所以
统计意义:对于单局胜率小于的挑战者,增加比赛总场次会降低其最终获胜的概率.
20.近年来,全球数字化进程持续加速,人工智能(Artificial Intelligence,简称AI)已然成为科技变革的核心驱动力.有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,用比例分配的分层随机抽样方法在全体学生中抽取100人,设事件“学生报名参加答题活动”,“学生为男生”,据统计,.
性别活动
男生
女生
合计
未报名参加答题活动
报名参加答题活动
合计
100
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关联?
(2)网络答题规则:答题活动不限时间,不限轮次,答多少轮由选手自行确定:每轮均设置道题,选手参与该轮答题,则至少答一道题,一旦答对一题,则其本轮答题结束,答错则继续答题,直到第m道题答完,本轮答题结束.已知甲同学报名参加答题活动,假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
①当时,求甲在一轮答题过程中答题数量的数学期望;
②假设甲同学每轮答题答对前两题中的一道,本轮答题得2分,否则得1分.记甲答题累计得分为n的概率为,求.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,能;
(2)①;②.
【分析】(1)根据题设,结合条件概率的定义求出数据,进而完成列联表,再计算出的值判断即可.
(2)①首先列出的概率表达式,然后用数学期望公式将它的数学期望表达式列出来,即可求解;②根据题意可得,,时,,再利用构造法求出.
【详解】(1)由,得报名参加答题活动人数为,
由,得报名参加答题活动的男生人数为,
报名参加答题活动的女生人数为,
又,由样本中男生人数为,女生人数为50,
得到列联表为:
性别
男生
女生
合计
未报名参加答题活动
20
35
55
报名参加答题活动
30
15
45
合计
50
50
100
零假设为:学生报名参加答题活动与性别无关,
则,
依据小概率值的独立性检验,我们推断不成立,
即认为学生报名参加答题活动与性别有关联,此推断犯错误的概率不大于0.005.
(2)①设甲完成一轮答题,答题数量为随机变量,则的所有可能取值为,
其中,,
因此.
②每轮比赛甲得1分的概率为,得2分的概率为,
依题意,,,当时,则,
因为,且,
则数列是首项为,公比为的等比数列,
于是,又,且,
则数列是各项均为1的常数列,即,
于是,解得.
21.高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)42人
(2)(ⅰ)分布列见解析,(ⅱ)证明见解析,.
【分析】(1)根据所给的公式,结合代入法进行求解即可;
(2)(ⅰ)根据古典概型运算公式,结合数学期望进行求解即可;
(ⅱ)根据题意列出数列的递推公式,结合等比数列的定义和通项公式、已知定义进行求解即可.
【详解】(1)由已知可得,
.
又因为,
,
所以,
所以,
所以,
当时,,
所以预测第6季度血压明显降低(或治愈)的大约有42人.
(2)(ⅰ)由题知的所有可能取值为0,1,2,
;
;
,
所以的分布列为
0
1
2
所以.
(ⅱ)设经过次挑战后,挑战权在乙、丙组的概率分别为,,
则当时,,,,
由后两个等式相加,得. ①
因为,所以,,
代入①式得,
即,
所以.
因为,,
所以,
所以,
所以数列是首项为,公比为的等比数列,
所以,
即,
所以由,得,即,
所以对任意给定的正数(不论它多么小),总存在正整数(表示不超过的最大整数),使得当时,,
所以数列为“聚点数列”,聚点的值为.
1 / 10
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题01 线性回归分析与独立性检验
目录
类型一、相关系数的定义与应用
类型二、决定系数与残差的相关应用
类型三、回归直线方程的相关应用
类型四、非线性回归的应用问题
类型五、回归分析与概率综合
类型六、独立性检验中的最值问题
类型七、独立性检验与概率的综合
压轴专练
类型一、相关系数的定义与应用
解题技巧:
(1)
当时,称成对样本数据正相关;当时,称成对样本数据负相关.
(2)样本相关系数的取值范围为.
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
例1-1.研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量.若的样本相关系数为,的样本相关系数为,则的样本相关系数的最大值为( )
附:样本相关系数
A. B. C. D.1
例1-2.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,为此该公司统计了2024年前5个月的带货金额如下表(金额y/万元):
月份
1月
2月
3月
4月
5月
月份编号x
1
2
3
4
5
金额y/万元
7
12
13
19
24
并计算得,,.
(1)求该公司带货金额的平均值;
(2)求该公司带货金额y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有较强的线性相关关系(若,则线性相关性较强,否则认为线性相关性较弱).
附:相关系数,.
变式1-1.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
变式1-2.为了研究变量与的线性相关关系,收集了5组样本数据(如下表),若去掉样本点后,则样本的相关系数( )
1
2
3
4
5
0.5
0.8
1
1.2
1.5
A.变大 B.变小 C.不变 D.不能确定
变式1-3.(多选)某小组探究变量x,y的关系,经统计得到了成对数据的7个样本:,,,,,,.记这组数据中变量x,y的均值分别为,,方差分别为,,样本相关系数为r;删去数据后,x,y的均值分别为,,方差分别为,,样本相关系数为.下面说法正确的是( )
附:样本相关系数
A. B.
C. D.变量x和y的相关性很弱
变式1-4.近年来,“双11”网购的观念逐渐深入人心,某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:
年份
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
交易额y/百亿元
9
12
17
21
26
请根据表中提供的数据,画出散点图,推断两个变量是否线性相关,并用样本相关系数r说明y与x的线性相关程度(结果保留三位小数).附:.
类型二、决定系数与残差的相关应用
解题技巧:
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
例2-1.已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为( )(残差=观察值-估计值)
A.2 B. C. D.
例2-2.(多选)已知,,,,,5个数据的散点图如图所示,采用一元线性回归模型建立经验回归方程.经分析确定为“离群点”,故将其去掉,将数据去掉后,下列说法正确的有( ).
A.样本相关系数r变大
B.残差平方和变小
C.决定系数变大
D.若经验回归直线过点,则其经验回归方程为
变式2-1.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
变式2-2.已知变量x和变量y的一组成对样本数据,其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15 B.1.75 C.2.35 D.1.95
变式2-3.(多选)生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关.有人调查了10名男大学生的身高(单位:)及其父亲身高(单位:)的数据,已知其中一组数据为,且,求得经验回归方程为,并绘制了如下残差图(残差观测值预测值),则
A.这10名男大学生的身高的平均值为176.75
B.由残差图可判定儿子身高与父亲身高的关系不符合上述回归模型
C.数据对应的残差为3.7
D.去掉数据后,重新求得的回归直线的决定系数变小
变式2-4.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
类型三、回归直线方程的相关应用
解题技巧:
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
例3-1.已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
例3-2.缅甸的电信诈骗事件给很多家庭带来了痛苦,也给我们敲响了安全的警钟.某市组织宣传人员对市区主要场所进行“电诈安全教育”,并对普及的有效回访人数进行了统计并得到下表:
第 天
2
4
6
8
10
12
14
16
有效回访人数
65
85
110
130
165
175
190
200
(1)从这8天的数据中任选3天的数据,用表示每天有效回访人数不少于 160 的天数,求的分布列和数学期望;
(2)试用上表数据求出每天有效回访的人数关于天数的线性回归方程,并预测第29天的有效回访人数.( 精确到0.1,人数取整数)
参考公式:线性回归方程中,,
参考数据:
变式3-1.已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
变式3-2.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则__________.
变式3-3.(多选)某单位在定点帮扶贫困村A村的过程中,因地制宜,优化产业结构,使得该村人均年纯收入逐年提高.村村民年这四年的人均年纯收入(单位:万元)与年份代号之间的一组数据如表所示.若与线性相关,且求得其线性回归方程为,则下列说法正确的是( )
年份
2021
2022
2024
2025
年份代号
4
5
7
8
人均年纯收入
2.1
5.9
A.
B.2030年村人均年纯收入约为7万元
C.预估从2025年起,每经过1年,村民人均年纯收入约增加1万元
D.2025年的人均年纯收入残差值为0.1
变式3-4.某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
类型四、非线性回归的应用问题
解题技巧:
(1)当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
(2)建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
例4-1.某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
例4-2.当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身体健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
关卡
1
2
3
4
5
6
平均过关时间(单位:秒)
50
78
124
121
137
352
计算得到一些统计量的值为:,,其中,.
(1)若用模型拟合与的关系,根据提供的数据,求出关于的经验回归方程;
(2)甲参加一场闯关游戏,比赛共有5局,甲每局比赛获胜的概率为,且每局比赛相互独立,记甲恰好获胜3次的概率为,求的最大值,并求出相应的概率.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为,.
变式4-1.某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
变式4-2.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
变式4-3.近期,某市公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据以上数据,绘制了散点图.
(1)根据散点图判断,在推广期内,与(均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的经验回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次.
[参考数据:,,,,,其中,]
变式4-4.蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:℃)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合.
根据收集到的数据,计算得到如下值:
24
2.9
646
179
422688
62.65
70308
表中;
(1)根据散点图,比较模型①、②的拟合效果,模型___________比较合适?(无需说明理由)
根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:
类型五、回归分析与概率综合
解题技巧:
(1)基于回归预测值的概率
①构建回归模型,得到预测表达式;
②确定预测值范围与目标事件;
③用古典概型(离散值)/几何概型(连续值)计算概率。
(2)样本数据的回归+概率
①用样本求回归方程,得拟合值
②筛选满足某条件的样本;
③计算此类样本在总样本中的占比(条件概率)
例5-1.近年来,中国新能源汽车产业,不仅技术水平持续提升,市场规模也持续扩大,取得了令人瞩目的成就,国产新能源汽车正逐步引领全球新能源汽车的发展潮流.某新能源汽车制造企业对某地区新能源汽车的销售情况进行了调研,数据如下:
时间
年月
年月
年月
年月
年月
月份代码
销量千辆
(1)若与线性相关,求关于的线性回归方程,并估计该地区新能源汽车在年1月份的销量;
(2)该企业为加强新能源汽车宣传推广,计划引进入工智能工具,并对宣传部门员工进行人工智能工具使用培训.为节约培训成本,需要将宣传部门部分员工调整至其他部门,剩余宣传部门员工全部参加培训.培训分为四期,每期培训的结果是否“优秀”相互独立,且每期培训中员工达到“优秀”标准的概率均为,员工至少两期培训达到“优秀”标准,才能使用人工智能工具.该企业宣传部门现有员工人,开展培训前,员工每人每年平均为企业创造净利润万元,开展培训后,能使用人工智能工具的员工预计每人每年平均为企业创造净利润万元,本次培训费每人1万元(计入年度部门成本).若要确保调整后第一年,宣传部门员工创造的年净利润不低于调整前,请应用概率知识进行决策,预计最多可调整多少人去其他部门?
参考公式:.
例5-2.规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
(3)证明
附:参考数据:,,(其中,).
1
2
3
变式5-1.某商场为了解月投放消费券x(单位:千元)和月利润y(单位:万元)的关系,进行了数据收集整理,得到下面的表格:
月投放消费券x/千元
25
64
100
144
196
289
月利润y/万元
591
595
600
604
607
615
(1)根据表中数据,通过作散点图分析,可把作为y关于x的经验回归方程,试求出该经验回归方程;
(2)该商场为进一步提高利润,推出了“购物达千元,玩游戏,送消费券”的活动.在商场游戏活动点放置甲、乙两个袋子,甲袋中放有3个相同的小盒,其中有两个小盒中放有“奖”字条,另一个是空盒,乙袋中也放有3个与甲袋中相同的小盒,都是空盒.游戏活动参加者先从甲、乙两袋中各任取一个小盒交换后再放回袋子中,重复n()次这样的操作后,记甲袋中恰有2个小盒放有“奖”字条的概率为,恰有1个小盒放有“奖”字条的概率为.若甲袋中恰有2个小盒放有“奖”字条,参加者可得200元消费券;恰有1个小盒放有“奖”字条,参加者可得100元消费券;没有小盒放有“奖”字条,参加者可得50元消费券.
(ⅰ)求,;
(ⅱ)记一个游戏活动参加者参加一次活动获得消费券总数为,当时,求的数学期望,并判断游戏活动参加者所得奖券的平均值能否超过100元.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别,.
变式5-2.电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元)
20
30
40
50
60
70
游客满意度评分(分)
60
65
70
78
80
85
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为,.
①若甲以获胜的概率为,求的最大值;
②在①中,若,以作为的值,设甲、乙比赛的局数为,求的分布列和期望.
参考公式:相关系数,,
参考数据:.
变式5-3.在一个不透明的袋子里初始装有红球和白球各一个,每次有放回地从中任取一个,连续取两次,以上过程记为一轮.如果每一轮两次取到的都是红球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则往袋子里再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球实验时,最多进行三轮,即使第三轮不成功,也停止抽球.记其进行抽球试验的轮次数为X,求X的分布列和数学期望;
(2)为验证抽球实验成功的概率不超过,有1000名志愿者独立地进行该抽球实验,用t表示成功时抽球的轮次数,y表示对应的人数,以下是部分统计数据:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测当时y的值;
(3)若在前n轮就成功的概率为,证明:.
附:回归方程系数:;
参考数据:(其中,)
变式5-4.在一个足够大的不透明袋中进行一个轮摸球试验,规则如下:每一轮试验时,袋中均有红、黑、白三种颜色的球,从中随机摸出一个球(摸出的球不再放回),若摸出红球,则试验成功;若摸出白球,则试验失败;若摸出黑球,则进入判定环节:判定时,向袋中放入两个黑球并取出一个白球,再从中随机摸出一个球,若为白球则试验失败,否则试验成功.若试验成功,则结束试验,若试验失败,则进行下一轮试验,直至成功或轮试验进行完.已知第轮试验开始时,袋中有1个红球,个黑球,个白球.
(1)求第1轮试验成功的概率;
(2)某团队对这个试验进行了一定的研究,请若干志愿者进行了5轮试验,并记录了第轮试验成功志愿者的比例,记,发现与线性相关,求关于的经验回归方程,并预测试验轮数足够大时,试验成功志愿者的比例;
(3)记试验结束时,试验成功的概率为,证明:.
参考数据:,,,.
类型六、独立性检验中的最值问题
解题技巧:
(1)核心解题步骤
①关联列联表与变量,明确各量关系
②代入卡方公式,结合临界值建不等式
③化简不等式,确定变量取值范围
④结合目标量与变量的关系,求最值
(2)关键技巧总结
①列联表与变量的绑定:先将所有频数用同一变量表示,避免多个变量混淆;
②卡方公式的简化运算:优先化简(ad−bc)部分,减少复杂计算量;
③约束条件的结合:解不等式后,必须结合题目中变量的取值范围(整数、区间)筛选可行值,避免脱离实际的代数解;
④目标量与变量的关联:明确目标量的表达式,通过变量的最值直接推导目标量的最值
例6-1.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若我们推断不成立,此推断犯错误率不超过,则的最小值为( )
附:,附表:
0.05
0.01
3.841
6.635
A.7 B.8 C.9 D.10
喜欢短视频人数
不喜欢短视频人数
合计
男生人数
女生人数
合计
例6-2.某研究性学习小组针对“使用大绿书的用户是否存在性别差异”,向个人进行调查.用表示所有调查对象构成的集合.以为样本空间建立古典概型,并定义一对分类变量和如下:对于中的每一名学生,,现得到下表:
是大绿书的用户
不是大绿书的用户
男性
女性
若根据的独立性检验认为(其中),则的最小值为__________.(参考公式:,其中)
变式6-1.某校对“学生性别和喜欢刷视频是否有关”作了一次调查,得到如下列联表:
不喜欢刷视频
喜欢刷视频
总计
男生
女生
总计
若通过计算,可得根据小概率值的独立性检验,认为学生是否喜欢刷视频与性别有关联,则正整数的最小值为( )
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
A.80 B.100 C.120 D.150
变式6-2.2025年7月22日是二十四节气中的第十二个节气——大暑.受今年气候等多因素的影响,全国各地高温天气持续不断.某校以“预防中暑,防止脱水”为主题举行活动.为了解男女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理成如下列联表.
性别
兴趣程度
合计
感兴趣
不感兴趣
男生
女生
合计
(1)当m足够大时,估计从该校任选一名对该活动不感兴趣的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,求正整数m的最小值.
附:,其中.
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
变式6-3.某种疾病分为甲、乙两种类型,为研究该疾病的类型与患者性别是否有关,随机抽取了名患者进行调查,得到如下列联表:
性别
疾病类型
合计
甲型病
乙型病
男
女
合计
(1)根据小概率值的独立性检验,得出了“所患疾病的类型与性别有关”的结论,求的最小值;
(2)现对部分人群接种预防甲型疾病的疫苗,要求每人至多安排2个周期接种疫苗,每人每周期必须接种3次,每次接种后,产生抗体的概率为0.8.如果一个周期内至少2次产生抗体,那么该周期结束后终止接种,否则进入第二个周期.已知每人每周期接种费用为30元,试估计1000人接种疫苗总费用的期望.附,
0.01
0.005
0.001
6.635
7.879
10.828
变式6-4.2025年是中国人民抗日战争暨世界反法西斯战争胜利80周年,某校以“铭记历史、缅怀先烈、珍视和平、开创未来”为主题举行纪念活动.为了解男、女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理为如下列联表,其中为正整数.
参加
不参加
合计
男生
女生
合计
(1)若根据小概率值的独立性检验,认为是否参加该活动与性别有关,求的最小值;
(2)若,从参与调查且参加活动的同学中每次随机不放回地选1人,直到选中女生为止,求总选取次数的分布列和数学期望.
附:,.
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
类型七、独立性检验与概率分布的综合
解题技巧:
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
③先完成独立性检验的列联表、卡方计算,再以检验中的样本数据为依据,结合对应概型(古典/几何/条件概率)分析后续事件的概率,注意数据的对应关系(如用列联表中的频数计算频率,近似替代概率)
例7-1.有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,男生、女生各取100人.设事件“学生愿意报名参加答题活动”,“学生为男生”,据统计.
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关?
性别
男生
女生
合计
不愿报名参加答题活动
愿意报名参加答题活动
合计
200
(2)网络答题规则:假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
(i)若答题活动设置且道题,甲仅答对其中10道题的概率最大,求的值.
(ii)若答题活动设置4道题,且答题规则如下:每次答一题,一旦答对,则结束答题;答错则继续答题,直到4道题答完.已知甲同学报名参加答题活动,用表示在本次答题的题目数量,求的分布列和期望.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
例7-2.目前,AI赋能语音识别技术已从实验室的“概念验证”发展为改变人类生活的基础设施,随着大模型和多模态技术的融合,英文识别将不再是单一功能,也是智能系统理解世界的“耳朵”和“眼睛”,推动人机交互从“命令执行”向“自然对话”演进.现甲、乙两名同学通过英文指令与某AI智能体人机交互共生成200篇文章.若生成的文章达到专业要求,不用进一步改良,视为合格.现已知甲同学生成的文章有80篇合格,占甲同学生成文章总数的,乙同学生成的文章有一半合格.
(1)请根据以上数据填写下面的列联表,并推断能否有95%的把握认为生成的文章是否合格与甲、乙(不同的)同学给出的指令有关?
生成的文章合格
生成的文章不合格
总计
甲同学
80
乙同学
总计
200
(2)经试验,若给出的指令够准确具体,该智能体生成文章合格的概率为,则在此条件下从该智能体生成的一批文章中随机调取3篇,请写出其中合格的篇数的分布列,并算出期望.
附:,其中(结果精确到0.001).
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
生成文章合格
生成文章不合格
总计
甲同学
80
40
120
乙同学
40
40
80
总计
120
80
200
变式7-1.某电商平台在用户选购家电时,要求每位用户先从冰箱和洗衣机这两类大家电中选定一类,再从微波炉、烤箱、扫地机器人、空气净化器这四类小家电中任选两类.选购结束后,为了解用户的选购情况,随机抽取了部分用户作为样本,对他们的选购情况统计后得到下表:
微波炉
烤箱
扫地机器人
空气净化器
冰箱类
100
120
200
180
洗衣机类
120
140
60
80
(1)利用上述样本数据填写以下列联表,并依据小概率值的独立性检验,分析以上两类大家电对空气净化器的选法是否存在差异.
类别
空气净化器选法
选
不选
合计
冰箱类
洗衣机类
合计
(2)假设该平台所有选购家电的用户中有的用户选择了冰箱类,其余的用户都选择了洗衣机类,且在冰箱类的用户中两个小家电选择的是烤箱和扫地机器人的概率为,而在洗衣机类的用户中两小家电选择的是烤箱和扫地机器人的概率为.若从该平台所有用户中随机抽取100名用户,用表示这100名用户中同时选择了烤箱和扫地机器人的人数,求随机变量的均值.
附:
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
变式7-2.贵州“村超”以及江苏“苏超”的成功充分说明了足球是一项大众喜爱的运动.
(1)为了解喜爱足球运动是否与性别有关,现随机抽取了男性和女性各100名观众进行调查,得到列联表如下:
喜爱足球运动
不喜爱足球运动
合计
男性
60
40
100
女性
20
80
100
合计
80
120
200
依据小概率值的独立性检验,能否认为喜爱足球运动与性别有关?
(2)某足球队中的甲、乙、丙、丁四名球员将进行传球训练,第1次由甲将球传出,每次传球时、传球者都等可能地将球传给另外三个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传球的人为第1次触球者,第n次触球者是甲的概率记为,即.
①求,;
②证明:数列为等比数列,并判断第19次与第20次触球者是甲的概率的大小.
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:,.
变式7-3.某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60 名学生的短跑成绩合格.这100名学生中有45名学生每周自主锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周自主锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周自主锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周自主锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率估计概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训.依据小概率值的独立性检验,零假设为:学生短跑成绩合格与每周自主锻炼时间相互独立.
(1)先填写列联表,再依据小概率值的独立性检验,判断是否能认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关;
每周自主锻炼时间超过5小时
每周自主锻炼时间不超过5小时
合计
短跑成绩合格
短跑成绩不合格
合计
100
(2)求学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率;
(3)为提高学生锻炼的积极性,学校偶尔会在田径运动场举办锻炼有奖活动,记表示事件“田径运动场举办锻炼有奖的抽奖活动”,表示事件“小明去田径运动场锻炼”,.已知小明在田径运动场举办锻炼有奖的抽奖活动的情况下去运动场锻炼的概率,比不举办抽奖活动的情况下去运动场锻炼的概率大.证明:.
参考公式与数据:,其中,.
0.01
0.005
0.001
6.635
7.879
10.828
变式7-4.某高校拟与某网络平台合作组织学生参加与知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,在全体学生中抽取人调查,得到如下列联表:
活动 性别
男生
女生
合计
未报名参加答题活动
40
70
110
报名参加答题活动
60
30
90
合计
100
100
200
(1)根据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关联?
(2)网络答题规则:答题活动不限时间,不限轮次,答多少轮由选手自行确定:每轮均设置道试题,选手参与该轮答题,一旦答对一题,则其本轮答题结束,答错则继续答题,直到第道试题答完,本轮答题结束已知甲同学报名参加答题活动,假设甲每道试题回答是否正确相互独立,且每次答对的概率均为.
(i)当时,求甲同学在一轮答题过程中答题数量的数学期望;
(ii)假设甲同学每轮答题至少答对前两题中的一道,本轮答题得分,否则得分记甲答题累计得分为的概率为,求数列的通项公式.
附:,其中.
压轴专练
1.某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的 若有的把握认为喜欢短视频和性别相关联,则的最小值为( )
(附,其中.)
A. B. C. D.
2.下列说法不正确的是( )
A.对具有线性相关关系的变量,,且回归方程为,若样本点的中心为,则实数的值是
B.若随机变量服从正态分布,且,则
C.若线性相关系数越接近1,则两个变量的线性相关程度越高
D.一组数据10,10,11,12,12,14,16,19,21,21的第80百分位数为19
3.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
4.某试验田种植一批水稻,对其进行种植实验.在右表中记录了5组水稻的“播种面积”与“总产量”的相关数据并预测序号6的实验数据,若发现实验序号5的实验数据有误需剔除,则下列说法正确的是( ).
实验序号
1
2
3
4
5
6
播种面积
(单位:千公顷)
60.9
71.8
72.9
73.6
75.8
80.0
总产量
(单位:万吨)
37.8
37.4
38.9
40.1
37.3
未知
A.实验样本的相关系数将变小. B.实验样本的相关系数将不变.
C.实验序号6的预测结果将变大. D.实验序号6的预测结果将变小.
5.已知两个具有线性相关关系的变量的一组数据,,…,,下列说法错误的是( )
A.相关系数越接近1,变量x,y相关性越强
B.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
C.决定系数越小,残差平方和越大,即模型的拟合效果越差
D.回归方程为时,变量x与y负线性相关
6.将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是( )
A. B.
C. D.
7.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
8.(多选)两个具有相关关系的变量,的一组数据为,,,,其经验回归方程为,记,,相关系数为;若将数据调整为,,,,其经验回归方程为,记,相关系数为,则( )
附:,
A. B.
C. D.
9.(多选)下列命题正确的有( )
A.回归直线过样本点的中心,有可能不过一个样本点
B.两个变量相关性越强,则相关系数越接近1
C.将一组数据中的每一个数据都加上同一个正数,则其方差不变
D.将9个数的一组数去掉一个最小和一个最大数,则中位数不变
10.(多选)为研究某种树的树高和胸径的关系,甲学习小组随机测量了100棵该品种树的胸径x(单位:cm)和树高y(单位:m)的数据,已知其中一组数据为点,且,求得线性经验回归方程为,其决定系数,并绘制了如下残差图.该小组研究发现,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则下列结论正确的是( )
A.乙学习小组对这组数据进行分析,得到非线性经验回归方程,其决定系数为,则甲小组选取的模型拟合效果更好
B.数据点P对应的残差为0.9
C.该样本中树的平均树高为22.29m
D.删除数据点P后,重新求得的回归直线的斜率变小
11.(多选)某人工智能公司近5年的利润情况如下表所示:
第年
1
2
3
4
5
利润/亿元
2
3
4
5
7
已知变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )
A. B.变量与之间的线性相关系数
C.预测该人工智能公司第6年的利润约为7.8亿元 D.残差绝对值的最大值为0.4
12.已知某个样本点中的变量x、y线性相关,相关系数,则在以为坐标原点的坐标系下的散点图中,大多数的点都落在第________象限.
13.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为__________.
14.已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时,________.
15.某社区居民计划暑假去海南或厦门旅游,经统计得到如下列联表:
去海南旅游
去厦门旅游
合计
老年人
2m
3m
5m
中年人
3m
2m
5m
合计
5m
5m
10m
若依据小概率值的独立性检验认为去海南还是厦门旅游与年龄有关,则正整数的最小值为_____________.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
16.某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.若从该班级中随机抽取1名学生,设“抽取的学生期末统考中的数学成绩不及格”,“抽取的学生建立了个性化错题本”,且,,.
(1)求和.
(2)若该班级共有36名学生,请完成列联表,并讨论能否在犯错误的概率不超过0.005的前提下认为学生期末统考中的数学成绩与建立个性化错题本有关.
个性化错题本
期末统考中的数学成绩
合计
及格
不及格
建立
未建立
合计
(3)为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的k倍,且新列联表中的数据都为整数),若要使得在犯错误的概率不超过0.001的前提下可以肯定(2)中的判断,试确定k的最小值.
参考公式及数据:,.
0.01
0.005
0.001
6.635
7.879
10.828
17.某工厂每日生产一种产品吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额y(万元)
5
12
16
19
21
(1)请判断与中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程中,.
参考数据:令,,,.
18.当下,大量的青少年沉迷于各种网络游戏,不利于青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益智游戏,某游戏公司开发了一款益智游戏,在内测时收集了玩家过每一关的平均时间,如下表:
关卡
1
2
3
4
5
6
平均过关时间(单位:秒)
50
78
124
121
137
352
计算得到一些统计量的值为,,其中.
(1)若用模型拟合与的关系,根据提供的数据,求出与的回归方程;
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2分并进入下一关,否则获得分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为,若甲玩一轮这款益智游戏,求“甲获得的积分”的分布列和数学期望.
19.某人工智能研发公司为了开拓新产品市场,从最新研发的经典A型和卓越型两款机器人中(卓越型是A型的优化版),随机各抽取30台进行越野驾驶性能对比测试,测试在同等环境中进行,评定结果分为优秀和良好两种.得到了如下数据:经典A型优秀为7台,卓越型优秀为20台.
(1)完成下面2×2列联表,并根据小概率值α=0.001的独立性检验,分析两款机器人的测试结果是否与越野驾驶性能优化有关.
款类
测试结果
总计
优秀
良好
型
20
30
A型
7
30
总计
(2)该公司为了进一步测试卓越型机器人的汉语智能性能,组织机器人队与人类队(母语为汉语)进行诗词抢答赛,每局比赛只有胜和负两种情况(无平局),每局人类战胜机器人的概率为胜者记2分,负者记1分.每个挑战者只能挑战一局,每局胜负不受其他因素的影响.
(i)求三局比赛中,人类队累计得分X的分布列和数学期望;
(ii)若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为;若采用“比赛赛满局,胜方至少获得局胜利”的赛制,人类队取胜的概率为,比较与的大小,并说明其统计意义.
参考公式:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
20.近年来,全球数字化进程持续加速,人工智能(Artificial Intelligence,简称AI)已然成为科技变革的核心驱动力.有媒体称DeepSeek开启了我国AI新纪元.某高校拟与某网络平台合作组织学生参加与AI知识有关的网络答题活动,为了解男女学生参与答题意愿的差异,用比例分配的分层随机抽样方法在全体学生中抽取100人,设事件“学生报名参加答题活动”,“学生为男生”,据统计,.
性别活动
男生
女生
合计
未报名参加答题活动
报名参加答题活动
合计
100
(1)根据已知条件,完成下列列联表,并依据小概率值的独立性检验,能否推断该校学生报名参加答题活动与性别有关联?
(2)网络答题规则:答题活动不限时间,不限轮次,答多少轮由选手自行确定:每轮均设置道题,选手参与该轮答题,则至少答一道题,一旦答对一题,则其本轮答题结束,答错则继续答题,直到第m道题答完,本轮答题结束.已知甲同学报名参加答题活动,假设甲每道题回答是否正确相互独立,且每次答对的概率均为.
①当时,求甲在一轮答题过程中答题数量的数学期望;
②假设甲同学每轮答题答对前两题中的一道,本轮答题得2分,否则得1分.记甲答题累计得分为n的概率为,求.
参考公式与数据:,其中.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
21.高血压(也称血压升高),是血液在流动时对血管壁造成的压力值持续高于正常范围的现象,典型症状包括头痛、疲倦或不安、心律失常、心悸耳鸣等.最新的调查显示,中国成人高血压的患病率为,大概每三位成人中就有一位是高血压患者.改善生活方式和药物治疗是最常用的治疗方式,同时适当锻炼可以使血压水平下降,高血压发病率降低,控制高血压的发展.
(1)某社区为鼓励和引导辖区居民积极参加体育健身活动,养成良好的锻炼习惯,开展“低碳万步走,健康在脚下”徒步走活动.下表为开展活动后近5个季度社区高血压患者的血压情况统计.
季度
1
2
3
4
5
血压明显降低
(或治愈)人数
320
270
210
150
100
若血压明显降低(或治愈)人数与季度变量(季度变量依次为)具有线性相关关系,请预测第6季度血压明显降低(或治愈)的大约有多少人?
(2)社区将参加徒步走活动的队员分成了甲、乙、丙三组进行挑战赛,其规则:挑战权在任何一组,该组都可向另外两组发起挑战,首先由甲组先发起挑战,挑战乙组、丙组的概率均为,若甲组挑战乙组,则下次挑战权在乙组.若挑战权在乙组,则挑战甲组、丙组的概率分别为,;若挑战权在丙组,则挑战甲组、乙组的概率分别为,.
(ⅰ)经过3次挑战,求挑战权在乙组的次数的分布列与数学期望;
(ⅱ)定义:已知数列,若对于任意给定的正数(不论它多么小),总存在正整数,使得当时,(是一个确定的实数),则称数列为“聚点数列”,称为数列的聚点.经过次挑战后,挑战权在甲组的概率为,证明数列为“聚点数列”,并求出聚点的值.
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
0
1
2
1 / 10
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$