内容正文:
第四章 概率与统计知识归纳与题型突破(题型清单)
知识点1:条件概率
1.条件概率的概念
条件概率揭示了P(A),P(AB),P(B|A)三者之间“知二求一”的关系
一般地,设A,B为两个随机事件,且P(A)>0,我们称P(B|A)=为在事件A发生的条件下,事件B发生的条件概率,简称条件概率.
2.概率的乘法公式
由条件概率的定义,对任意两个事件A与B,若P(A)>0,则P(AB)=P(A)P(B|A).我们称上式为概率的乘法公式.
3.条件概率的性质
设P(A)>0,则
(1)P(Ω|A)=1;
(2)如果B与C是两个互斥事件,则P((B∪C)|A)=P(B|A)+P(C|A);
(3)设和B互为对立事件,则P( )=1-P(B).
4.全概率公式
在全概率的实际问题中我们经常会碰到一些较为复杂的概率计算,这时,我们可以用 “化整为零”的思想将它们分解为一些较为容易的情况分别进行考虑
一般地,设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意的事件B⊆Ω,有P(B)=P(Ai)P(B.
我们称上面的公式为全概率公式,全概率公式是概率论中最基本的公式之一.
5.贝叶斯公式
设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意事件B⊆Ω,P(B)>0,
有P(Ai==i=1,2,…,n.
6.在贝叶斯公式中,P(Ai)和P(Ai |B)分别称为先验概率和后验概率.
知识点2:二项分布
1.n重伯努利试验的概念
只包含两个可能结果的试验叫做伯努利试验,将一个伯努利试验独立地重复进行n次所组成的随机试验称为n重伯努利试验.
2.n重伯努利试验具有如下共同特征
(1)同一个伯努利试验重复做n次;
(2)各次试验的结果相互独立.
3.二项分布(若有件产品,其中件是次品,有放回地任意抽取件,则其中恰有的次品件数是服从二项分布的)
一般地,在n重伯努利试验中,设每次试验中事件A发生的概率为p(0<p<1),用X表示事件A发生的次数,则X的分布列为:
如果随机变量X的分布列具有上式的形式,则称随机变量X服从二项分布,记作X~B(n,p).
4.一般地,可以证明:如果X~B(n,p),那么E(X)=np,D(X)=np(1-p).
知识点3:两点分布
两点分布:是很简单的一种概率分布,其实验结果只有两种可能,且概率和为1;两点分布列又称分布列或佰努利分布列;两点分布能清晰的反映出事件的正反两面.两点分布的应用十分广泛,如抽取的彩票是否中奖,买回的意见产品是否为正品,新生儿的鉴定,投篮是否命中等.(想象成扔硬币问题)
知识点4:超几何分布
超几何分布:一般地,在含有件次品的件产品中,任取件,其中恰有件次品数,则事件发生的概率为,其中,且.称分布列
0
1
…
…
为超几何分布列.如果随机变量 的分布列为超几何分布列,则称随机变量 服从超几何分布.
注意:若有件产品,其中件为次品,无放回地任意抽取件,则其中恰有的次品件数是服出超几何分布.
知识点5:正态分布
1.正态曲线及其性质
(1)正态曲线:
函数,,其中实数μ,σ(σ>0)为参数,我们称φμ,σ(x)的图象为正态分布密度曲线,简称正态曲线.
(2)正态曲线的性质:
①曲线位于x轴上方,与x轴不相交;
②曲线是单峰的,它关于直线x=μ对称;
③曲线在x=μ处达到峰值;
④曲线与x轴之间的面积为1;
⑤当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x轴平移,如图甲所示;
⑥当μ一定时,曲线的形状由σ确定,σ越大,曲线越“矮胖”,总体分布越分散;σ越小.曲线越“瘦高”.总体分布越集中,如图乙所示:
甲 乙
2.正态分布
一般地,如果对于任何实数a,b(a<b),随机变量X满足P(a<X≤b)=,则称随机变量X服从正态分布(normal distribution).正态分布完全由参数μ和σ确定,因此正态分布常记作N(μ,σ2).如果随机变量X服从正态分布,则记为X~N(μ,σ2).
3.正态总体三个特殊区间内取值的概率值
①P(μ-σ<X≤μ+σ)=0.6826;
②P(μ-2σ<X≤μ+2σ)=0.9544;
③P(μ-3σ<X≤μ+3σ)=0.9974.
4.3σ原则
通常服从正态分布N(μ,σ2)的随机变量X只取(μ-3σ,μ+3σ)之间的值.
【规律方法】
1.求正态曲线的两个方法
(1)图解法:明确顶点坐标即可,横坐标为样本的均值μ,纵坐标为.
(2)待定系数法:求出μ,σ便可.
2.正态分布下2类常见的概率计算
(1)利用正态分布密度曲线的对称性研究相关概率问题,涉及的知识主要是正态曲线关于直线x=μ对称,曲线与x轴之间的面积为1.
(2)利用3σ原则求概率问题时,要注意把给出的区间或范围与正态变量的μ,σ进行对比联系,确定它们属于(μ-σ,μ+σ),(μ-2σ,μ+2σ),(μ-3σ,μ+3σ)中的哪一个.
3.正态总体在某个区间内取值概率的求解策略
(1)充分利用正态曲线对称性和曲线与x轴之间面积为1.
(2)熟记P(μ-σ<X≤μ+σ),P(μ-2σ<X≤μ+2σ),P(μ-3σ<X≤μ+3σ)的值.
(3)注意概率值的求解转化:
①P(X<a)=1-P(X≥a);
②P(X<μ-a)=P(X≥μ+a);
③若b<μ,则P(X<b)=.
特别提醒:正态曲线,并非都关于y轴对称,只有标准正态分布曲线才关于y轴对称.
知识点6:离散型随机变量的均值与方差
Ⅰ:随机变量的数字特征
1.离散型随机变量的均值的概念
一般地,若离散型随机变量X的分布列为
X
x1
x2
…
xi
…
xn
P
p1
p2
…
pi
…
pn
则称E(X)=x1p1+x2p2+…+xipi+…+xnpn=为随机变量X的均值或数学期望.
2.离散型随机变量的均值的意义
均值是随机变量可能取值关于取值概率的加权平均数,它综合了随机变量的取值和取值的概率,反映了随机变量取值的平均水平.
3.离散型随机变量的均值的性质
若Y=aX+b,其中a,b均是常数(X是随机变量),则Y也是随机变量,且有E(aX+b)=aE(X)+b.
证明如下:如果Y=aX+b,其中a,b为常数,X是随机变量,那么Y也是随机变量.因此P(Y=axi+b)=P(X=xi),i=1,2,3,…,n,所以Y的分布列为
Y
ax1+b
ax2+b
…
axi+b
…
axn+b
P
p1
p2
…
pi
…
pn
于是有E(Y)=(ax1+b)p1+(ax2+b)p2+…+(axi+b)pi+…+(axn+b)pn=a(x1p1+x2p2+…+xipi+…+xnpn)+b(p1+p2+…+pi+…+pn)=aE(X)+b,即E(aX+b)=aE(X)+b.
方差:.称为随机变量的方差,它反映了离散型随机变量相对于期望的平均波动大小(或说离散程度),其算术平方根为随机变量的标准差,记作,方差(或标准差)越小表明的取值相对于期望越集中,否则越分散.
Ⅱ: 均值与方差的性质
(1).
(2)(为常数).(3)
两点分布、二项分布、超几何分布的期望、方差
(1)若X服从两点分布,则,.
(2)若X服从二项分布,即,则.
(3)若X服从超几何分布,即时,
.
方法总结: 求离散型随机变量的均值、方差的基本步骤:
第一步:判断取值:先根据随机变量的意义,确定随机变量可以取哪些值;
第二步:探求概率:利用排列组合、枚举法、概率公式(常见的有古典概型公式、几何概型公式、互斥事件的概率和公式、独立事件的概率积公式,以及对立事件的概率公式)等,求出随机变量取每个值时的概率;
第三步:写分布列:按规范形式写出分布列,并注意用分布列的性质(概率总和为1)检验所求的分布列是否正确;
第四步:求期望值和方差:利用数学期望和方差的公式分别求期望和方差的值.对于有些实际问题中的随机变量,如果能够断定它服从某常见的典型分布(如二项分布X~B(n,p)),则此随机变量的期望可直接利用这种典型分布的期望公式(E(X)=np)求得.因此,应熟记常见的典型分布的期望与方差公式,可加快解题速度.
知识点7:二项分布之概率最值问题
Ⅰ:如果,其中,求最大值对应的值.
一般是考察与的大小关系.
因为
所以要使,则.故有
⑴如果,则时取得最大值.
⑵如果,是不超过的正整数,则当和时,取得最大值.
(3)如果是不超过的非整数,则当(注意表示不超过的最大整数)时取得最大值.
Ⅱ:方法二
知识点8:回归分析(线性回归)
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1) 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关;
(2) 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关;
(3) 如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程:
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:,其回归方程为,则注意:线性回归直线经过定点.
(3)相关系数:
.
【技能方法】
(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
(2)利用相关系数判定,当越趋近于1相关性越强.当残差平方和越小,相关指数越大,相关性越强.
(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
(4)正确运用计算的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线过样本点的中心进行求值.
【易错指导】
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
知识点9:回归分析(非线性回归)
当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
知识点10:2×2列联表及独立性检验
Ⅰ:分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
Ⅱ:2×2列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b +d
a+b+c+d
这样的表格称为2×2列联表。
Ⅲ:卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(为样本容量)。
Ⅳ:独立性检验
独立性检验
通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
变量独立性的判断
通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果≤3.841时,认为事件A与B是无关的。
②如果>3.841时,有95%的把握说事件A与事件B有关;
③如果>6.635时,有99%的把握说事件A与事件B有关;
Ⅴ:独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:,计算出的值;
(5)统计推断:当>3.841时,有95%的把握说事件A与B有关;
当>6.635时,有99%的把握说事件A与B有关;
当>10.828时,有99.9%的把握说事件A与B有关;
当≤3.841时,认为事件A与B是无关的.
备注:临界值表
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
知识点11:一类求总体均值和方差题目的秒杀
高端结论:
推导过程:设总样本量为n分为2层:
第1层:样本量为样本数据为
第2层:样本量为,样本数据为,
则:总样本平均数
总样本方差,
∵ ,
同理,
∴总样本方差 ,证毕。
形如:
题型一:条件概率的求算
1.从20以内的质数中不放回地依次取2个数,记事件A为“第一次取到的数是奇数”,事件B为“两次取出的数之和是奇数”,则( )
A. B. C. D.
【答案】D
【分析】先明确20以内的质数个数,接着求出和即可由条件概率公式得解.
【详解】20以内的质数有2,3,5,7,11,13,17,19,共8个,
由题意得,,
所以.
故选:D.
2.在一个不透明箱子中装有10个大小、质地完全相同的球,其中白球7个,黑球3个.现从中不放回地依次随机摸出两个球,已知第二次摸出的是黑球,则第一次摸出的是白球的概率为( )
A. B. C. D.
【答案】B
【分析】由条件概率的计算公式,先求出条件事件的概率,由公式即可得出答案.
【详解】设第一次摸出白球为事件,第二次摸出黑球为事件,则第一次摸出黑球为事件.
∵,
∴.
故选:B.
巩固训练
3.已知盒子中有6个大小相同的球,分别标有数字1,2,3,4,5,6,从中不放回地随机取两球,每次取一球,记第一次取出的球的数字是,第二次取出的球的数字是.若事件“为偶数”,事件“,中有偶数”,则( )
A. B. C. D.
【答案】C
【分析】先根据题意求出,然后利用条件概率公式求解即可.
【详解】由题意得,
所以.
故选:C
4.某校有7名同学获省数学竞赛一等奖,其中男生4名,女生3名.现随机选取2名学生作“我爱数学”主题演讲.假设事件为“选取的两名学生性别相同”,事件为“选取的两名学生为女生”,则( )
A. B. C. D.
【答案】C
【分析】利用条件概率公式计算即可.
【详解】由题意得,事件包含的样本点数,
事件和包含的样本点数,所以.
故选:C
题型二:条件概率性质的妙用
1.已知,,则( )
A. B. C. D.
【答案】C
【分析】由条件概率的计算公式求解即可.
【详解】由题意,知.
故选:C.
2.下列说法正确的是( )
A. B.是可能的
C. D.
【答案】B
【分析】利用条件概率公式及概率的性质判断各项的正误.
【详解】由,当,则,A错误;
当A或B为不可能事件时,,C错误;
B:要使,即,当恰好为A的子事件成立,正确;
D:由,故错误.
故选:B
巩固训练
3.若,则P(A)=( )
A. B. C. D.
【答案】C
【分析】根据条件概率公式即可求解.
【详解】依题意得,所以,
解得.
故选:C.
4.已知,分别为随机事件A,B的对立事件,,,则下列说法正确的是( )
A.
B.若,则 A,B对立
C.若A,B独立,则
D.若A,B互斥,则
【答案】C
【分析】利用条件概率的概率公式以及独立事件与对立事件的概率公式,对四个选项进行分析判断,即可得到答案;
【详解】对A,,故A错误;
对B,若A,B对立,则,反之不成立,故B错误;
对C,根据独立事件定义,故C正确;
对D,若A,B互斥,则,故D错误;
故选:C
题型三:利用贝叶斯公式求概率
1.托马斯·贝叶斯(ThomasBayes)在研究“逆向概率"的问题中得到了一个公式:.这个定理在实际生活中有着重要的应用价值.假设某种疾病在所有人群中的感染率是,医院现有的技术对于该疾病检测准确率为,即已知患病情况下,的可能性可以检查出阳性,正常人的可能性检查为正常.如果从人群中随机抽一个人去检测,经计算检测结果为阳性的全概率为0.01098,请你用这个公式估计在医院给出的检测结果为阳性的条件下这个人得病的概率( )
A. B. C. D.
【答案】C
【分析】记一个人得病为事件A,检测结果为阳性为事件B,得,从而计算求出得到答案.
【详解】记一个人得病为事件A,检测结果为阳性为事件B,
则,,,
所以,
所以在医院给出的检测结果为阳性的条件下这个人得病的概率为,
故选:C.
2.假设甲袋中有3个白球和3个红球,乙袋中有2个白球和2个红球.现从甲袋中任取2个球放入乙袋,再从乙袋中任取2个球.已知从乙袋中取出的是2个红球,则从甲袋中取出的也是2个红球的概率为( )
A. B. C. D.
【答案】C
【分析】利用全概率公式及贝叶斯公式计算可得.
【详解】设从甲中取出个球,其中红球的个数为个的事件为,事件的概率为,
从乙中取出个球,其中红球的个数为个的事件为,事件的概率为,由题意:
①,;
②,;
③,;
所以
所以,
即已知从乙袋中取出的是个红球,则从甲袋中取出的也是个红球的概率为.
故选:C.
巩固训练
3.现有编号为1,2,3的三个口袋,其中1号口袋内装有两个1号球,一个2号球和一个3号球;2号口袋内装有两个1号球,一个3号球;3号口袋内装有三个1号球,两个2号球;第一次先从1号口袋内随机抽取1个球,将取出的球放入与球同编号的口袋中,第二次从该口袋中任取一个球,下列说法不正确的是( )
A.在第一次抽到3号球的条件下,第二次抽到1号球的概率是
B.第二次取到1号球的概率
C.如果第二次取到1号球,则它来自1号口袋的概率最大
D.如果将5个不同小球放入这3个口袋内,每个口袋至少放1个,则不同的分配方法有150种
【答案】B
【分析】对于A选项利用条件概率公式求解;对于B选项利用全概率公式求解,对于C选项利用贝叶斯公式求解,对于D选项,不同元素的分配问题,先分类再分配即可求解.
【详解】对于A选项,记事件分别表示第一次、第二次取到号球, ,
则第一次抽到号球的条件下,第二次抽到号球的概率,故A正确;
对于B选项,记事件分别表示第一次、第二次取到号球, ,
依题意 两两互斥, 其和为, 并且,
,
,
,
应用全概率公式, 有,
故B错误;
对于C选项,依题设知, 第二次的球取自口袋的编号与第一次取的球上的号数相同,
则,
,
,
故在第二次取到1号球的条件下, 它取自编号为的口袋的概率最大,故C正确;
对于D选项,先将5个不同的小球分成1,1,3或2,2,1三份,
再放入三个不同的口袋,
则不同的分配方法有,故D正确.
故选:B.
4.某学校高中部有自由、青华两个校区,数学教研组每周选择其中一个校区开例会,第一周例会选择青华校区的概率是,如果第一周例会选择自由校区,那么第二周去自由校区的概率为;如果第一周去青华校区,那么第二周去自由校区的概率为;已知数学教研组第二周去自由校区开会,则第一周去自由校区开会的概率为( )
A. B. C. D.
【答案】A
【分析】根据题意,利用全概率公式与贝叶斯公式即可得解.
【详解】依题意,设第一周去自由校区开会为事件,第二周去自由校区开会为事件,
则,,
所以,
则.
故选:A.
题型四 : 独立事件的乘法公式
1.某乒乓球队在长春训练基地进行封闭式集训,甲、乙两位队员进行对抗赛,每局依次轮流发球,连续赢2个球者获胜,通过分析甲、乙过去对抗赛的数据知,甲发球甲赢的概率为,乙发球甲赢的概率为,不同球的结果互不影响,已知某局甲先发球.则该局打4个球甲赢的概率为( )
A. B. C. D.
【答案】C
【分析】由于连胜两局者赢,则可写出四局的结果,计算即可.
【详解】由于连胜两局者赢,甲先发球可分为:
该局:第一个球甲赢、第二个球乙赢、第三个球甲赢、第四个球甲赢,
则概率为;
故选:C.
2.某同学参加社团面试,已知其第一次通过面试的概率为,第二次面试通过的概率为,若第一次未通过,仍可进行第二次面试,若两次均未通过,则面试失败,否则视为面试通过,则该同学通过面试的概率为( )
A. B. C. D.
【答案】C
【分析】由题意两次都没通过的概率,应用对立事件的概率求法可得答案.
【详解】因为第一次通过面试的概率为,第二次面试通过的概率为,
所以两次面试都没有通过的概率为:,
所以该同学通过面试的概率为:.
故选:C.
巩固训练
3.对于一个古典概型的样本空间和事件,若,,,则下列结论错误的是( )
A.事件A与事件互斥 B.
C.事件与事件相互独立 D.
【答案】A
【分析】根据已知条件计算,判断B选项,再根据判断C选项,通过计算D选项,通过判断A选项.
【详解】因为,,,
所以,又,则,所以,B正确;
因为,所以事件与事件相互独立,C正确;
所以,D正确;
因为,所以事件与事件不是互斥事件,A错误.
故选:A
4.下列说法正确的是( )
A.若,则事件与事件是对立事件
B.事件与事件中至少有一个发生的概率一定比与中恰有一个发生的概率大
C.从长度为1,3,5,7,9的5条线段中任取3条,则这三条线段能构成一个三角形的概率为
D.若,,则事件,相互独立与,互斥不能同时成立
【答案】D
【分析】根据题意举反例判断A、B即可,根据古典概型求概率的方法可判断C,根据事件相互独立的概念以及事件互斥的概念即可判断D.
【详解】对于A,举例事件:掷一枚骰子,掷得点数为奇数为事件,则;
所掷点数大于为事件,则,,
但事件与事件不是对立事件,故A错误;
对于B,举例事件:抛一枚硬币,正面向上为事件,反面向上为事件,
事件与事件中至少有一个发生的概率为,与中恰有一个发生的概率也为,故B错误;
对于C,从长度为1,3,5,7,9的5条线段中任取3条,
共有,,,,,,
,,种情况,
其中能构成三角形的有,,三种情况,
所以从长度为1,3,5,7,9的5条线段中任取3条,
则这三条线段能构成一个三角形的概率为,故C错误;
对于D,若事件,相互独立,则有,
又,,所以有;
若,互斥,则,
所以若,,则事件,相互独立与,互斥不能同时成立,故D正确.故选:D
题型五:根据独立重复试验求概率
1.随着电商的兴起,物流快递的工作越来越重要了,早在周代,我国便已出现快递制度,据《周礼·秋官》记载,周王朝的官职中设置了主管邮驿,物流的官员“行夫”,其职责要求是“虽道有难,而不时必达”.现某机构对国内排名前五的家快递公司的某项指标进行了轮测试(每轮测试的客观条件视为相同),每轮测试结束后都要根据该轮测试的成绩对这家快递公司进行排名,那么跟测试之前的排名比较,这轮测试中恰好有1轮测试结果出现家公司排名不变的概率为( ).
A. B. C. D.
【答案】C
【分析】根据题意,先求得一轮测试中出现2家公司排名不变的概率为,结合独立重复试验的概率计算公式,即可求解.
【详解】由题意,在一轮测试5家快递公式进行排名与测试之前的排名比较出现2家公司排名不变的概率为,
其次,3轮测试每次发生上述情形的概率均为,
所以,这3轮测试中恰好有1轮测试结果都出现2家公式排名不变的概率为:
.
故选:C.
2.小王开了两家店铺,每个店铺招收了两名员工,若某节假日每位员工的休假概率均为,且是否休假互不影响,若一家店铺的员工全部休假,而另一家无人休假,则调剂1人到该店铺,使得该店铺能够正常营业,否则该店就停业.则两家店铺该节假日能正常开业的概率为( )
A. B. C. D.
【答案】C
【分析】设两家店铺都不能正常营业为事件,然后由题意求出4人休假的概率和3人休假的概率,从而可求出,再根据对立事件的概率公式可求得答案
【详解】设两家店铺至少有一家不能正常营业为事件,
由题意可知有4人休假的概率为,有3人休假的概率为,
所以,
所以两家店铺该节假日能正常营业的概率为.
故选:C.
巩固训练
3.甲、乙两名乒乓球运动员进行一场比赛,采用7局4胜制(先胜4局者胜,比赛结束).已知每局比赛甲获胜的概率均为,则甲以4比2获胜的概率为( )
A. B. C. D.
【答案】C
【分析】根据题意只需前5场甲赢3场,再利用独立事件的乘法公式求解.
【详解】根据题意,甲运动员前5场内需要赢3场,第6场甲胜,
则甲以4比2获胜的概率为.
故选:C.
4.乒乓球是我国的国球,乒乓球运动在我国十分普及,深受国人喜爱,在民间经常开展各种乒乓球比赛.现有甲乙二人争夺某次乒乓球比赛的冠军,根据以往比赛记录统计的数据,可以认为在每局比赛中甲胜乙的概率为,若比赛为“五局三胜”制,各局比赛结果相互独立且没有平局,则在甲获得冠军的情况下,比赛进行了四局的概率为( )
A. B. C. D.
【答案】D
【分析】设甲获得冠军为事件A,比赛进行了四局为事件B,求出和,根据条件概率的计算公式,即可求得答案.
【详解】由题意可设甲获得冠军为事件A,比赛进行了四局为事件B,
则,
,
故,
故选:D
题型六:由随机变量的分布列求概率
1.随机变量的分布列如下表所示,且,则( )
0
1
2
3
0.1
0.1
A.-0.2 B.0.4 C.0.2 D.0
【答案】D
【分析】根据分布列的性质即可求解.
【详解】由分布列的性质可得,,即,,
故选:D.
2.设随机变量的概率分布列是,,其中C为常数,则=( )
A. B. C. D.
【答案】B
【分析】由分布列中各个变量的概率之和等于1,求出C的值,由,代入求值即可.
【详解】随机变量的概率分布列是,=1,2,3,4,5,6,
,解得,
∴.
故选:B.
巩固训练
3.设是一个离散型随机变量,其分布列为:
0
1
则( )
A. B.
C. D.
【答案】D
【分析】由已知可得,可求,进而由可求结论.
【详解】由,解得(舍去),
所以.
故选:D.
4.随机变量的分布列为
1
3
P
m
则( )
A. B. C. D.
【答案】A
【分析】根据概率之和为1即可求解.
【详解】由题意可得,解得,
故选:A
题型七:求两点分布分布列及期望与方差
1.已知随机变量服从两点分布,且,设,那么( )
A.0.2 B.0.3 C.0.4 D.0.6
【答案】D
【分析】根据两点分布得基本性质即可求解.
【详解】由题意可知,当时,即,解得,
又因为随机变量服从两点分布,且,
所以.
故选:D.
2.已知随机变量服从两点分布,且.设,那么等于( )
A.0.6 B.0.3 C.0.2 D.0.4
【答案】D
【分析】根据变量间的关系,转化为,由两点分步求解.
【详解】当时,由,
所以.
故选:D
巩固训练
3.已知离散型随机变量的分布列服从两点分布,且,则( )
A. B. C. D.
【答案】A
【分析】根据两点分布得,与条件联立解得结果.
【详解】因为的分布列服从两点分布,所以,
又,所以,
所以,所以.
故选:A.
4.随机变量服从两点分布,且,令,则( )
A. B. C. D.
【答案】D
【分析】根据两点分布的性质求出,则.
【详解】因为随机变量服从两点分布,且,
所以,
由,所以.
故选:D
题型八:服从二项分布的随机变量概率最大问题
1.某人在次射击中击中目标的次数为,其中,击中偶数次为事件A,则( )
A.若,则取最大值时 B.当时,取得最小值
C.当时,随着的增大而减小 D.当的,随着的增大而减小
【答案】D
【分析】对于A,根据直接写出,然后根据取最大值列式计算即可判断;对于B,根据,直接写出即可判断;对于CD,由题意把表示出来,然后利用单调性分析即可.
【详解】A:在10次射击中击中目标的次数,
当时对应的概率,
因为取最大值,所以,
即,
即,解得,
因为且,所以,即时概率最大.故A错误;
B:,当时,取得最大值,故B错误;
C、D:,
,
,
,
当时,,为正负交替的摆动数列,所以不会随着的增大而减小,故C错误;
当时,为正项且单调递减的数列,所以随着的增大而减小,故D正确;
故选:D.
2.在数字通信中,信号是由数字“”和“”组成的序列.现连续发射信号次,每次发射信号“”的概率均为.记发射信号“1”的次数为,记为奇数的概率为,为偶数的概率为,则下列说法中不正确的有( )
A.当,时,
B.时,有
C.当,时,当且仅当时概率最大
D.时,随着的增大而增大
【答案】A
【分析】根据题意可得发射信号“”的次数为和概率符合二项分布,利用二项分布概率公式计算可得A错误;若时,为奇数的概率和为偶数的概率相等,B正确;利用二项式最大项求法可得当时概率最大,C项正确;由可知当概率一定时,越大则的值越大,也增大,D正确.
【详解】由题意得发射信号“”的次数为和概率符合二项分布,
对于A:当,可取,
所以,
因为,所以,,
所以,故A项错误;
对于B:当时,即每次发射信号“”和发射信号“”的概率相等,所以为奇数的概率和为偶数的概率相等,即,故B正确;
对于C:当,,此时,,
当取得概率最大时,即,
即,解得,故C项正确;
对于D:由题知当,发射信号“”的次数为和概率符合二项分布,
由二项式的均值公式,
当概率一定时,越大则的值越大,所以能够出现奇数的概率也增大,故D正确.
故选:A.
巩固训练
3.已知随机变量,则概率最大时,的取值为( )
A. B. C.或 D.或
【答案】C
【分析】根据二项分布的随机变量取值的概率公式建立不等关系,可得最大值时的.
【详解】依题意,
由,
即,解得或.
故选:C.
4.某人在19次射击中击中目标的次数为X,若,若最大,则( )
A.14或15 B.15 C.15或16 D.16
【答案】C
【分析】由二项分布的概率计算公式及计算即可.
【详解】因为在19次射击中击中目标的次数为X,,
所以,且.
若最大,则.
,即
解得:,
因为且,所以当或时,最大.
故选:C.
题型九:二项分布方差与均值的关系
1.已知某种疾病的某种疗法的治愈率为80%.若有100位该病患者采取了这种疗法,且每位患者治愈与否相互独立,设其中被治愈的人数为X,则下列选项中不正确的是( )
A. B.
C. D.存在,使得成立
【答案】D
【分析】根据二项分布的概率公式、期望与方差公式计算即可逐一判定.
【详解】由题意可得,由二项分布的概率公式得,即B正确;
若,则,与条件矛盾,即D错误;
由二项分布的期望与方差公式得:,即A、C正确;
故选:D
2.已知离散型随机变量服从二项分布,且,,则的最小值为( )
A. B. C.3 D.4
【答案】B
【分析】根据二项分布的均值与方差公式,可得的等量关系.利用“1”的代换,结合基本不等式即可求得的最小值.
【详解】离散型随机变量服从二项分布,且,
由二项分布的均值与方差公式可得,
化简可得,即
由基本不等式化简可得
即的最小值为
故选:B
巩固训练
3.已知随机变量X服从二项分布.若,,则( )
A. B. C. D.
【答案】C
【分析】由随机变量X服从二项分布B(n,p),结合期望及方差的公式运算即可得解.
【详解】由随机变量X服从二项分布B(n,p).
又E(X)=2, ,
所以np=2,np(1−p)= ,
解得:p=,
故选:C.
4.从装有除颜色外完全相同的3个白球和个黑球的布袋中随机摸取一球,有放回的摸取5次,设摸得白球数为,已知,则
A. B. C. D.
【答案】B
【解析】由题意知,,由,知,由此能求出.
【详解】由题意知,,
,解得,
,
.
故选:B.
题型十:利用正态分布3σ原则求概率
1.巴黎奥运会期间,旅客人数(万人)为随机变量,且.记一天中旅客人数不少于26万人的概率为,则的值约为( )
(参考数据:若,有,,)
A.0.977 B.0.9725 C.0.954 D.0.683
【答案】A
【分析】根据正态分布对称性求得答案.
【详解】因为,所以,,
,
根据正态曲线的对称性可得,
.
故选:A.
2.已知某工厂生产的某批产品的质量指标服从正态分布,质量指标大于或等于20的产品为优等品,且优等品出现的概率为,现从该批产品中随机抽取6件,用表示这6件产品的质量指标不在区间的产品件数,则( )
A.0.96 B.0.48 C.1.2 D.2.4
【答案】A
【分析】根据正态分布的对称性求出质量指标不在区间的概率,得随机变量服从二项分布,根据二项分布的方差公式求解即可.
【详解】由正态分布的性质得质量指标在区间的概率为,
则1件产品的质量指标不在区间的概率为,
所以,故.
故选:A.
巩固训练
3.随机变量服从若
则下列选项一定正确的是( )
A. B.
C. D.
【答案】C
【分析】由正态分布的性质逐项判定即可.
【详解】因为
由正态分布的对称性,可得,正态分布方差无法判断,
,,
所以ABD错误.
故选::C
4.某网反随机选取了某自媒体平台10位自媒体人,得到其粉丝数据(单位:万人):.若该平台自媒体人的粉丝数(其中和分别为上述样本的平均数和标准差),根据上述数据,则下列说法中正确的个数是( )
(1)这10位自媒体人粉丝数据的平均数为2.0;
(2)这10位自媒体人粉丝数据的标准差为0.04;
(3)这10位自媒体人粉丝数据的第25百分位数为1.8;
(4)用样本估计总体,该平台自媒体人的粉丝数不超过2.2万的概率约为0.84135.
(附:若随机变量服从正态分布,则,)
A.1 B.2 C.3 D.4
【答案】B
【分析】对于(1),利用平均数的公式计算即可;对于(2),先计算出方差,开方得到标准差;对于(3),对数据从小到大排列,利用百分位数的定义进行求解;对于(4),计算出,利用正态分布的对称性得到相应的概率
【详解】对于(1),,正确;
对于(2),方差为,
故标准差为,错误;
对于(3),从小到大排序为,
,故从小到大,选择第3个数作为第25百分位数,即1.9,错误;
对于(4),,又,
故用样本估计总体,该平台自媒体人的粉丝数不超过2.2万的概率约为,正确.
故选:B
题型十一:利用全概率公式求概率
1.某工厂生产一种零件,该零件的质量分为三种等级:一等品、二等品和次品.根据历史数据,该工厂生产一等品、二等品和次品的概率分别为0.7,0.2和0.1.现对一批刚生产出来的零件进行质量检测,检测方式分为两种:自动检测和人工抽检,自动检测能将一等品全部正确识别,但有5%的概率将二等品误判为次品,有15%的概率将二等品误判为一等品,也有10%的概率将次品误判为二等品.
(1)求在自动检测下,一个被判断为次品的零件实际上就是次品的概率
(2)假设零件先经过自动检测,若判断为一等品,则进行人工抽检;若判断为二等品或次品,则直接淘汰.求人工抽检一个零件,该零件恰好是一等品的概率.
【答案】(1)(2)
【分析】(1)先由互斥事件和的概率与条件概率计算,再由条件概率计算即可;
(2)根据条件概率公式求解即可.
【详解】(1)设事件表示“零件是次品”,表示“自动检测判断零件为次品”,事件分别表示零件是一等品、二等品,
则
,
则.
所以在自动检测下,一个被判断为次品的零件实际上就是次品的概率为.
(2)设事件表示“零件需要进行人工抽检”,表示“人工抽检的零件为一等品”
,,
所以人工抽检一个零件,该零件恰好是一等品的概率为.
2.放行准点率是衡量机场运行效率和服务质量的重要指标之一.已知年该机场飞往地,地及其他地区(不包含,两地)航班放行准点率的估计值分别为和,年该机场飞往地,地及其他地区的航班比例分别为,和.
试解决一下问题:
(1)现在从年在该机场起飞的航班中随机抽取一个,求该航班准点放行的概率;
(2)若年某航班在该机场准点放行,判断该航班飞往地,地、其他地区等三种情况中的哪种情况的可能性最大,说明你的理由.
【答案】(1)(2)该航班飞往其他地区的可能性最大.
【分析】(1)首先设"该航班飞往地", "该航班飞往地", "该航班飞往其他地区","该航班准点放行",根据题中信息把相关事件的概率表示清楚,然后利用全概率公式求即可;
(2)利用贝叶斯公式求解,,,再比较大小,即可判断航班飞往哪种情况的可能性最大.
【详解】(1)设"该航班飞往地", "该航班飞往地", "该航班飞往其他地区","该航班准点放行",
则,,,
,,,
由全概率公式得,
,
所以该航班准点放行的概率为.
(2),
,
,
因为,所以该航班飞往其他地区的可能性最大.
巩固训练
3.某国甲、乙、丙三个地区新冠肺炎疫情比较严重,这三个地区分别有的人是阳性患者,已知这三个地区的人口数之比为,现从这三个地区中任选一人.
(1)求这个人是阳性患者的概率(结果用百分数表示);
(2)若此人是阳性患者,求此人不是选自甲地区的概率.
【答案】(1)(2)
【分析】(1)根据题意,利用全概率公式,即可求解;
(2)根据题意,结合对立事件的概率公式,即可求解.
【详解】(1)解:由题意,从这三个地区人选一人,设事件“该人从甲地区选出”,
事件“该人从乙地区选出”,事件“该人从丙地区选出”,
事件“选出的人为阳性患者”,
则
.
(2)解:若此人是阳性患者,此人不是选自甲地区的概率:.
4.夏日天气炎热,学校为高三备考的同学准备了绿豆汤和银耳羹两种凉饮,某同学每天都会在两种凉饮中选择一种,已知该同学第1天选择绿豆汤的概率是,若在前一天选择绿豆汤的条件下,后一天继续选择绿豆汤的概率为,而在前一天选择银耳羹的条件下,后一天继续选择银耳羹的概率为,如此往复.(提示:设表示第天选择绿豆汤)
(1)求该同学第一天和第二天都选择绿豆汤的概率
(2)求该同学第2天选择绿豆汤的概率;
(3)记该同学第天选择绿豆汤的概率为,求出的通项公式.
【答案】(1)(2)(3)答案见解析
【分析】(1)利用独立事件同时发生的概率公式计算即可;
(2)利用条件概率公式计算即得;
(3)利用全概率公式列式,再利用构造法证明即得.
【详解】(1)该同学第一天和第二天都选择绿豆汤的概率为;
(2)设表示第1天选择绿豆汤,表示第2天选择绿豆汤,则表示第1天选择银耳羹,
根据题意得,,
所以.
(3)设表示第天选择绿豆汤,则,
根据题意得,,
由全概率公式得,,
即,整理得,,又,
所以是以为首项,为公比的等比数列.
所以,所以..
题型十二:求二项分布分布列及期望与方差
1.如图,在研究某种粒子的实验装置中,粒子从腔室出发,到达腔室,粒子从室经过号门进入室后,等可能的变为上旋或下旋状态,粒子从室经过号门进入室后,粒子的旋转状态发生改变的概率为.粒子间的旋转状态相互独立.现有两个粒子从室出发.
(1)求两粒子进入室都为上旋状态的概率;
(2)若实验装置出现故障,两个粒子进入室后,共裂变为个粒子,裂变后的每个粒子再经过号门返回室的概率为,各粒子返回室相互独立.
①时,写出返回室的粒子个数的分布列、期望、方差;
②时,记有个粒子返回室的概率为,则为何值时,取最大值.
【答案】(1)
(2)①分布列见详解,期望,方差;
②
【分析】(1)根据全概率公式以及条件概率计算公式求得正确答案;
(2)①根据独立事件概率计算求得的分布列,并求得数学期望和方差;
②根据二项式定理即可求得最大项.
【详解】(1)设“两个粒子通过号门后处于上旋状态粒子个数为个”,,
“两个粒子通过号门后进入室都为上旋状态”,
则,,
则.
(2)①返回室的粒子个数的可能性为,,,,
服从二项分布:
,,
,,
,
所以期望,方差;
②的可能取值为,此时,
个粒子返回室的概率为,
则,
所以,
当时,取最大值.
2.已知某计算机网络的服务器有三台设备,只要有一台能正常工作,计算机网络就不会断掉.如果三台设备各自能正常工作的概率都为0.8,它们之间互相不影响.设能正常工作的设备数为.
(1)求的分布列;
(2)求和;
(3)求计算机网络不会断掉的概率.
【答案】(1)分布列见解析(2),(3)0.992
【分析】(1)的可能取值为0,1,2,3,结合二项分布的概率即可求解;
(2)根据二项分布的期望和方差公式计算即可;
(3)要使得计算机网络不会断掉,也就是要求能正常工作的设备至少有一台,结合(1)及对立事件求解即可.
【详解】(1)由题意得的可能取值为0,1,2,3,且,
,
,
,
,
所以的分布列如下.
0
1
2
3
0.008
0.096
0.384
0.512
(2)因为,所以,.
(3)要使得计算机网络不会断掉,也就是要求能正常工作的设备至少有一台,即,
因此所求概率为.
巩固训练
3.我国是全球制造业大国,制造业增加值自2010年起连续12年位居世界第一,主要产品产量稳居世界前列.为深入推进传统制造业改造提升,全面提高传统制造业核心竞争力,某设备生产企业对现有生产设备进行技术攻坚突破.设备生产的零件的直径为X(单位:nm).
(1)现有旧设备生产的零件共7个,其中直径大于10nm的有4个.现从这7个零件中随机抽取3个.记ξ表示取出的零件中直径大于10nm的零件的个数,求ξ的分布列及数学期望.
(2)技术攻坚突破后设备生产的零件的合格率为,每个零件是否合格相互独立.现任取6个零件进行检测,若合格的零件数η超过半数,则可认为技术攻坚成功.求技术攻坚成功的概率及η的方差;
【答案】(1)分布列见解答,;(2),;
【分析】(1)由题意可知的可能取值为0,1,2,3,利用超几何分布的概率公式求出相应的概率,得到的分布列,再结合期望公式求解;
(2)由题意可知,服从二项分布,再利用二项分布的概率公式和方差公式求解;
【详解】(1)由题意,可知可取0,1,2,3.
则有;;;.
所以的分布列为:
0
1
2
3
因此的数学期望;
(2)由题意,可取的值为0,1,2,3,4,5,6.
则有;;.
技术攻坚成功的概率.
,的方差;
4.甲、乙两个工厂加工一批同一型号的零件,甲工厂加工的次品率为,乙工厂加工的次品率为,现将加工出来的零件混放在一起,其次品率为;
(1)求混放在一起的零件中来自甲工厂的零件个数的占比;
(2)从混放在一起的零件中有放回地抽5个作为样本,记样本中来自甲工厂的零件个数为.
(i)求的分布列和数学期望:
(ii)若用样本中来自甲工厂的零件个数的占比,估计总体中来自甲工厂的零件个数的占比,求误差的绝对值不超过0.1的概率.
【答案】(1)0.25(2)(i)分布列见解析,期望为(ii)
【分析】(1)根据条件,结合全概率公式求解即可;
(2)随机变量服从二项分布,根据二项分布求相应的概率可得分布列及期望,再通过可估计总体中甲工厂零件个数占比.
【详解】(1)设混放在一起的零件中来自甲工厂的零件个数的占比为,
记“混放在一起的零件中任取一个为次品”
“零件来自甲工厂”,“零件来自乙工厂”,
则,且、互斥,
,,,
由全概率公式得:
则,
求得:.
(2)(i)从混放在一起的零件中有放回地抽5个作为样本,
则每个零件中来自甲工厂的概率为0.25,
且各自试验之间的结果是独立的,
故,,
其分布列为:
0
1
2
3
4
5
其数学期望为.
(ii)样本中来自甲工厂的零件个数占比是一个随机变量,
误差不超过0.1的概率
.
题型十三:求超几何分布分布列及期望与方差
1.某校为了提高教师身心健康号召教师利用空余时间参加阳光体育活动.现有4名男教师,2名女教师报名,本周随机选取2人参加.
(1)求在有女教师参加活动的条件下,恰有一名女教师参加活动的概率;
(2)记参加活动的女教师人数为X,求X的分布列及期望;
(3)若本次活动有慢跑、游泳、瑜伽三个可选项目,每名女教师至多从中选择参加2项活动,且选择参加1项或2项的可能性均为,每名男教师至少从中选择参加2项活动,且选择参加2项或3项的可能性也均为,每人每参加1项活动可获得“体育明星”积分3分,选择参加几项活动彼此互不影响,记随机选取的两人得分之和为Y,求Y的期望.
【答案】(1)(2)分布列及期望见解析.(3)
【分析】(1)由条件概率的计算公式即可求解;
(2)参加活动的女教师人数为,则服从超几何分布,即可写出的分布列及期望.
(3)根据一名女教师和一名男教师参加活动获得分数的期望,即可得,即可求得.
【详解】(1)设“有女教师参加活动”为事件,“恰有一名女教师参加活动”为事件,
则,,所以.
(2)依题意知服从超几何分布,且
,,,
所以的分布列为:
0
1
2
.
(3)设一名女教师参加活动可获得分数为,一名男教师参加活动可获得分数为,则的所有可能取值为3,6,的所有可能取值为6,9,
,,
,,
有名女教师参加活动,则男教师有名参加活动,,所以.
即两个教师得分之和的期望为分.
2.端午节吃粽子是我国的传统习俗.设一盘中装有10个粽子,其中豆沙粽2个,肉粽3个,白粽5个,这三种粽子的外观完全相同.从中任意选取3个.
(1)求三种粽子各取到1个的概率;
(2)设表示取到的豆沙粽个数,求的分布列;
(3)设表示取到的粽子的种类,求的分布列.
【答案】(1)(2)答案见解析(3)答案见解析
【分析】(1)根据组合数公式和古典概型概率公式,即可求解;
(2)根据超几何概率公式,列式求解;
(3)根据题意,结合互斥事件,对立事件概率公式,即可求解.
【详解】(1)令表示事件“三种粽子各取到1个”,则;
(2)的所有可能值为,
且
综上知,的分布列为
1
2
3
(3)由题意知的所有可能值为,且,.
综上知,的分布列为
1
2
3
巩固训练
3.某高中高二年级1班和2班的学生组队参加数学竞赛,1班推荐了2名男生1名女生,2班推荐了3名男生2名女生.由于他们的水平相当,最终从中随机抽取4名学生组成代表队.
(1)求1班至少有1名学生入选代表队的概率;
(2)设表示代表队中男生的人数,求的分布列.
【答案】(1)(2)分布列见解析
【分析】(1)求解1班没有入选学生的概率,即可利用对立事件的概率求解,
(2)根据超几何的概率公式求解概率即可求解.
【详解】(1)设1班至少有1名学生入选代表为事件,则;
(2)的所有可能取值为.
.
因此的分布列为:
1
2
3
4
4.假设某市大约有800万网络购物者,某电子商务公司对该地区n名网络购物者某年度上半年前6个月内的消费情况进行统计,发现消费金额(单位:万元)都在区间内,其频率分布直方图如图所示,若频率分布直方图中的a,b,c,d满足,且从左到右6个小矩形依次对应第一至六小组,第五小组的频数为2400.
(1)求a,b,c,d的值;
(2)现用分层抽样方法从前4组中选出18人进行网络购物爱好调查,
①求在各组应该抽取的人数;
②在前2组所抽取的人中,再随机抽取3人,记这3人来自第一组的人数为X,求随机变量X的分布列与数学期望.
【答案】(1),,,
(2)①各组应该抽取的人数分别为3,4,5,6;②分布列见解析,数学期望为
【分析】(1)结合题意及频数与频率,频率之和为1等知识建立方程组,计算即可;
(2)根据分层抽样的定义即可求得各组应该抽取的人数;根据古典概型概率公式结合组合数可求得分布列,进一步求得数学期望.
【详解】(1)根据频率分布直方图可知,第五小组的频率为,又因为第五小组的频数为2400,所以样本容量.
因为第六小组的频率为,所以第六小组的频数是.
由频率之和为1,得,所以.
因为频率分布直方图中的满足,
所以.
所以代入中,得,
得,解得.所以.
(2)①因为前4组的频率之比为,
且现从前4组中选出18人进行网络购物爱好调查,
所以在应该抽取的人数分别是
.
②由题意,随机变量的所有可能取值是.则
故随机变量的分布列为
0
1
2
3
故随机变量的数学期望为.
题型十四:线性回归方程所有考点
1.2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【答案】(1), 0.27秒,;(2)成立,证明见解析.
【分析】(1)根据已知条件求得回归方程的系数,即可得回归方程,将代入回归方程,即可得到答案;
(2)结合题中数据进行计算,可求得步长的残差和,从而可得结论,结合回归方程系数的计算公式即可证明.。
【详解】(1),,
,,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是0.27秒.
(2)根据(1)得到,;
,;
,;
,;
,,
所以,即步长残差和为0.
对任意具有线性相关关系的两个变量都成立,证明如下:
.
2.市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x
1
2
3
4
5
6
净利润y(万元)
1.0
1.4
1.7
2.0
2.2
2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若时,则线性相关程度较高,,则线性相关程度一般,计算时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据,其回归直线的斜率
,.相关系数.
参考数据:,,,,,.
【答案】(1)可以,理由见解析(2),3.32万元
【分析】(1)计算出相关数据,利用相关系数公式计算即可;
(2)根据线性回归方程公式计算即可.
【详解】(1)由条件则,
,
.
根据相关系数公式则
.
因此可以用线性回归模型拟合x与y的关系.
(2)根据(1)则变量x,y线性相关,设所求的线性回归方程为.
根据回归方程的回归系数公式则
.
又因为.
从而可得变量x,y线性回归方程为
当时,
因此预测9月份的利润为3.32万元.
巩固训练
3.如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
【答案】(1)相关系数,可用线性回归模型拟合y与x的关系(2),吨
【分析】(1)代入数据,算出相关系数r,将其绝对值与比较,即可判断可用线性回归模型拟合y与x的关系.
(2)先求出回归方程,求出当时的值,即为预测值.
【详解】(1)由折线图得如下数据计算得:
,,,
所以相关系数,
因为,所以可用线性回归模型拟合y与x的关系
(2)
,
所以回归方程为,
当时,,
所以预测年产量为10吨时的污水排放量为吨
4.2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
年度
2016—2017
2017—2018
2018—2019
2019—2020
2020—2021
2021—2022
年度代号t
1
2
3
4
5
6
旅游人次y
1.7
1.97
2.24
0.94
2.54
3.15
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1),线性相关性不强(2),亿
【分析】(1)由已知数据结合相关系数公式求出相关系数,再进行判断即可,
(2)由已知数据结合回归方程公式计算y关于t的线性回归方程,再将代入回归方程可求出2019—2020年度冰雪旅游人次的估计值
【详解】(1)由参考数据计算得
所以,
因为,所以线性相关性不强.
(2)五组数据的均值分别为,
,
关于的线性回归方程为
令,则,
因此,在没有疫情情况下,2019-2020年度冰雪旅游人次的估计值为亿.
题型十五:非线性回归的处理技巧
1.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【答案】(1)模型②的拟合程度更好(2),13(百万辆)
【分析】(1)分别求出两种模型的相关系数,再根据相关系数的几何意义即可得出结论;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解.
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
2.网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
【答案】(1);(2)乙建立的回归模型拟合效果更好.
【分析】(1)对两边取对数得,令,利用最小二乘法可求得,由此可得回归方程;
(2)根据公式计算可得相关指数,由此可得结论;
【详解】(1)将两边取对数得:,
令,则,
因为,
所以根据最小二乘估计可知:,
所以,
所以回归方程为,即.
(2)甲建立的回归模型的.
所以乙建立的回归模型拟合效果更好.
巩固训练
3.一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度
21
23
24
27
29
32
产卵数个
6
11
20
27
57
77
经计算得:线性回归模型的残差平方和,其中分别为观测数据中的温差和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且相关指数0.9522.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为;相关指数.
【答案】(1)(2)(i)非线性回归模型拟合效果更好;(ii);
【分析】(1)求出、后代入公式直接计算得、,即可得解;
(2)(i)求出线性回归模型的相关指数,与比较即可得解;
(ii)直接把代入,计算即可得解.
【详解】(1)由题意,则,,
,,
y关于x的线性回归方程为.
(2)(i)对于线性回归模型,,,
相关指数为,
因为,所以用非线性回归模型拟合效果更好.
(ii)当,时(个)
所以温度为时,该种药用昆虫的产卵数估计为190个.
4.设某幼苗从观察之日起,第天的高度为,测得的一些数据如下表所示:
第天
1
4
9
16
25
36
49
高度
0
4
7
9
11
12
13
作出这组数据的散点图发现:与(天)之间近似满足关系式,其中,均为大于0的常数.
(1)试借助一元线性回归模型,根据所给数据,用最小二乘法对,作出估计,并求出关于的经验回归方程;
(2)在作出的这组数据的散点图中,甲同学随机圈取了其中的4个点,记这4个点中幼苗的高度大于的点的个数为,其中为表格中所给的幼苗高度的平均数,试求随机变量的分布列和数学期望.
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.
【答案】(1)(2)分布列见详解;
【分析】(1)令,则,变为线型回归问题,先根据已知数据得到的对应数据表,计算样本中心,然后利用最小二乘估计公式依次计算b和a的估计值,求得关于的线性回归方程,进而得到y关于x的回归方程;
(2)利用超几何分布概率公式计算,求得随机变量的分布列,并根据分布列,利用数学期望计算求得期望值.
【详解】(1)令,则,根据已知数据表得到如下表:
x
y
则,,
可得,
,
通过上表计算可得:,
因为回归直线过点,则,
所以y关于的回归方程.
(2)由题意可知:7天中幼苗高度大于的有4天,小于等于8的有3天,
从散点图中任取4个点,即从这7天中任取4天,
所以这4个点中幼苗的高度大于的点的个数的取值为1,2,3,4,则有:
;;
;;
所以随机变量的分布列为:
1
2
3
4
随机变量的期望值.
题型十六:独立性检验(列联表)
1.为了研究高三年级学生的性别和身高是否大于170cm的关联性,随机调查了某中学部分高三年级的学生,整理得到如下列联表(单位:人):
性别
身高
合计
低于170cm
不低于170cm
女
19
5
24
男
6
10
16
合计
25
15
40
(1)依据的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?
(2)从身高不低于170cm的15名学生中随机抽取三名学生,设抽取的三名学生中女生人数为,求的分布列及期望.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)可以认为该中学高三年级学生的性别与身高有关联(2)分布列见解析,
【分析】(1)根据给定数表,求出的观测值,再与临界值表比对即可作答.
(2)根据题意得到X的可能值及对应的概率,列出分布列、计算期望作答.
【详解】(1)零假设为:该中学高三年级学生的性别与身高无关联,
根据列联表中的数据,经计算得到
,
根据小概率值的独立性检验,推断不成立,
即认为该中学高三年级学生的性别与身高有关联,此推断犯错误的概率不大于0.01.
(2)依题意,X的取值可能为0,1,2,3,
则,,
,.
则X的分布列为
X
0
1
2
3
P
故.
2.为研究“眼睛近视是否与长时间看电子产品有关”的问题,对某班同学的近视情况和看电子产品的时间进行了统计,得到如下的列联表:
近视情况
每天看电子产品的时间
合计
超过一小时
一小时内
近视
10人
5人
15人
不近视
10人
25人
35人
合计
20人
30人
50人
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
.
(1)根据小概率值的独立性检验,判断眼睛近视是否与长时间看电子产品有关;
(2)在该班近视的同学中随机抽取3人,则至少有两人每天看电子产品超过一小时的概率是多少?
(3)以频率估计概率,在该班所在学校随机抽取2人,记其中近视的人数为X,每天看电子产品超过一小时的人数为Y,求的值.
【答案】(1)认为患近视与长时间使用电子产品的习惯有关;(2);(3).
【分析】(1)假设为:学生眼睛近视与长时间使用电子产品无关,求得,再根据小概率值判断;
(2)根据给定条件,利用组合计数问题及互斥事件的概率公式计算即得.
(3)分别求得,,,再将概率相加即可求解.
【详解】(1)零假设为:学生眼睛近视与长时间使用电子产品无关.
计算可得,,
根据小概率值的独立性检验,我们推断不成立,即认为眼睛近视与长时间使用电子产品有关.
(2)每天看电子产品超过一小时的人数为,
则,
所以在该班近视的同学中随机抽取3人,则至少有两人每天看电子产品超过一小时的概率是.
(3)依题意,,,
事件包含两种情况:
①其中一人每天看电子产品超过一小时且近视,另一人既不近视,每天看电子产品也没超过一小时;
②其中一人每天看电子产品超过一小时且不近视,另一人近视且每天看电子产品没超过一小时,
于是,
所以.
巩固训练
3.2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
总计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
总计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层抽样方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
附:
参考公式:,其中.
【答案】(1)应在A组抽取人,应在B组抽取人.
(2)能认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005
【分析】(1)根据分层抽样列式计算即可;
(2)根据表格数据求出的值,然后与临界值比较即可判断.
【详解】(1)应在A组抽取人,应在B组抽取人.
(2)零假设为:选报奥数延时课与喜欢奥数无关联,
根据列联表中的数据,经计算可得,
根据小概率值的独立性检验,我们推断零假设不成立,
即认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005.
4.据国家权威机构统计,中国有3000万青少年具有不同程度的心理障碍,中小学生心理障碍患病率高达21.6%-42%,心理治疗专家表示,现在很多家庭只关注孩子的文化课学习,却往往忽略了青少年时期最重要的人格形成因子-------心理健康的培养和矫正.现随机调查了200名青少年是否参加过心理健康培训及其心理健康问题得到如下结果
参加过培训
未参过培训
合计
心理健康
64
36
100
有心理障碍
46
54
100
合计
110
90
200
(1)从未参加过培训的90人中按心理是否健康分层抽样抽取5人,再从这5人中任选3人做一次心理疏导,求3人中心理健康人数X的分布列和期望.
(2)判断是否有95%的把握认为心理健康与参与培训有关.
附
0.150
0.100
0.050
0.010
2.072
2.706
3.841
6.635
【答案】(1)分布列见解析,期望为
(2)有95%的把握认为心理健康与参与培训有关,理由见解析
【分析】(1)计算出心理健康和有心理障碍的人数,得到X的可能取值和对应的概率,得到分布列,计算出期望;
(2)计算出卡方,与3.841比较后得到结论.
【详解】(1)未参加过培训的90人中, 心理健康和有心理障碍的人数之比为,
故分层抽样抽取的5人中,心理健康和有心理障碍的人数分别为和,
X的可能取值为0,1,2,
,,,
故分布列为
0
1
2
数学期望为;
(2),
故有95%的把握认为心理健康与参与培训有关.
原创精品资源学科网独家享有版权,侵权必究! 8
原创精品资源学科网独家享有版权,侵权必究! 8
学科网(北京)股份有限公司
$$
第四章 概率与统计知识归纳与题型突破(题型清单)
知识点1:条件概率
1.条件概率的概念
条件概率揭示了P(A),P(AB),P(B|A)三者之间“知二求一”的关系
一般地,设A,B为两个随机事件,且P(A)>0,我们称P(B|A)=为在事件A发生的条件下,事件B发生的条件概率,简称条件概率.
2.概率的乘法公式
由条件概率的定义,对任意两个事件A与B,若P(A)>0,则P(AB)=P(A)P(B|A).我们称上式为概率的乘法公式.
3.条件概率的性质
设P(A)>0,则
(1)P(Ω|A)=1;
(2)如果B与C是两个互斥事件,则P((B∪C)|A)=P(B|A)+P(C|A);
(3)设和B互为对立事件,则P( )=1-P(B).
4.全概率公式
在全概率的实际问题中我们经常会碰到一些较为复杂的概率计算,这时,我们可以用 “化整为零”的思想将它们分解为一些较为容易的情况分别进行考虑
一般地,设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意的事件B⊆Ω,有P(B)=P(Ai)P(B.
我们称上面的公式为全概率公式,全概率公式是概率论中最基本的公式之一.
5.贝叶斯公式
设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意事件B⊆Ω,P(B)>0,
有P(Ai==i=1,2,…,n.
6.在贝叶斯公式中,P(Ai)和P(Ai |B)分别称为先验概率和后验概率.
知识点2:二项分布
1.n重伯努利试验的概念
只包含两个可能结果的试验叫做伯努利试验,将一个伯努利试验独立地重复进行n次所组成的随机试验称为n重伯努利试验.
2.n重伯努利试验具有如下共同特征
(1)同一个伯努利试验重复做n次;
(2)各次试验的结果相互独立.
3.二项分布(若有件产品,其中件是次品,有放回地任意抽取件,则其中恰有的次品件数是服从二项分布的)
一般地,在n重伯努利试验中,设每次试验中事件A发生的概率为p(0<p<1),用X表示事件A发生的次数,则X的分布列为:
如果随机变量X的分布列具有上式的形式,则称随机变量X服从二项分布,记作X~B(n,p).
4.一般地,可以证明:如果X~B(n,p),那么E(X)=np,D(X)=np(1-p).
知识点3:两点分布
两点分布:是很简单的一种概率分布,其实验结果只有两种可能,且概率和为1;两点分布列又称分布列或佰努利分布列;两点分布能清晰的反映出事件的正反两面.两点分布的应用十分广泛,如抽取的彩票是否中奖,买回的意见产品是否为正品,新生儿的鉴定,投篮是否命中等.(想象成扔硬币问题)
知识点4:超几何分布
超几何分布:一般地,在含有件次品的件产品中,任取件,其中恰有件次品数,则事件发生的概率为,其中,且.称分布列
0
1
…
…
为超几何分布列.如果随机变量 的分布列为超几何分布列,则称随机变量 服从超几何分布.
注意:若有件产品,其中件为次品,无放回地任意抽取件,则其中恰有的次品件数是服出超几何分布.
知识点5:正态分布
1.正态曲线及其性质
(1)正态曲线:
函数,,其中实数μ,σ(σ>0)为参数,我们称φμ,σ(x)的图象为正态分布密度曲线,简称正态曲线.
(2)正态曲线的性质:
①曲线位于x轴上方,与x轴不相交;
②曲线是单峰的,它关于直线x=μ对称;
③曲线在x=μ处达到峰值;
④曲线与x轴之间的面积为1;
⑤当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x轴平移,如图甲所示;
⑥当μ一定时,曲线的形状由σ确定,σ越大,曲线越“矮胖”,总体分布越分散;σ越小.曲线越“瘦高”.总体分布越集中,如图乙所示:
甲 乙
2.正态分布
一般地,如果对于任何实数a,b(a<b),随机变量X满足P(a<X≤b)=,则称随机变量X服从正态分布(normal distribution).正态分布完全由参数μ和σ确定,因此正态分布常记作N(μ,σ2).如果随机变量X服从正态分布,则记为X~N(μ,σ2).
3.正态总体三个特殊区间内取值的概率值
①P(μ-σ<X≤μ+σ)=0.6826;
②P(μ-2σ<X≤μ+2σ)=0.9544;
③P(μ-3σ<X≤μ+3σ)=0.9974.
4.3σ原则
通常服从正态分布N(μ,σ2)的随机变量X只取(μ-3σ,μ+3σ)之间的值.
【规律方法】
1.求正态曲线的两个方法
(1)图解法:明确顶点坐标即可,横坐标为样本的均值μ,纵坐标为.
(2)待定系数法:求出μ,σ便可.
2.正态分布下2类常见的概率计算
(1)利用正态分布密度曲线的对称性研究相关概率问题,涉及的知识主要是正态曲线关于直线x=μ对称,曲线与x轴之间的面积为1.
(2)利用3σ原则求概率问题时,要注意把给出的区间或范围与正态变量的μ,σ进行对比联系,确定它们属于(μ-σ,μ+σ),(μ-2σ,μ+2σ),(μ-3σ,μ+3σ)中的哪一个.
3.正态总体在某个区间内取值概率的求解策略
(1)充分利用正态曲线对称性和曲线与x轴之间面积为1.
(2)熟记P(μ-σ<X≤μ+σ),P(μ-2σ<X≤μ+2σ),P(μ-3σ<X≤μ+3σ)的值.
(3)注意概率值的求解转化:
①P(X<a)=1-P(X≥a);
②P(X<μ-a)=P(X≥μ+a);
③若b<μ,则P(X<b)=.
特别提醒:正态曲线,并非都关于y轴对称,只有标准正态分布曲线才关于y轴对称.
知识点6:离散型随机变量的均值与方差
Ⅰ:随机变量的数字特征
1.离散型随机变量的均值的概念
一般地,若离散型随机变量X的分布列为
X
x1
x2
…
xi
…
xn
P
p1
p2
…
pi
…
pn
则称E(X)=x1p1+x2p2+…+xipi+…+xnpn=为随机变量X的均值或数学期望.
2.离散型随机变量的均值的意义
均值是随机变量可能取值关于取值概率的加权平均数,它综合了随机变量的取值和取值的概率,反映了随机变量取值的平均水平.
3.离散型随机变量的均值的性质
若Y=aX+b,其中a,b均是常数(X是随机变量),则Y也是随机变量,且有E(aX+b)=aE(X)+b.
证明如下:如果Y=aX+b,其中a,b为常数,X是随机变量,那么Y也是随机变量.因此P(Y=axi+b)=P(X=xi),i=1,2,3,…,n,所以Y的分布列为
Y
ax1+b
ax2+b
…
axi+b
…
axn+b
P
p1
p2
…
pi
…
pn
于是有E(Y)=(ax1+b)p1+(ax2+b)p2+…+(axi+b)pi+…+(axn+b)pn=a(x1p1+x2p2+…+xipi+…+xnpn)+b(p1+p2+…+pi+…+pn)=aE(X)+b,即E(aX+b)=aE(X)+b.
方差:.称为随机变量的方差,它反映了离散型随机变量相对于期望的平均波动大小(或说离散程度),其算术平方根为随机变量的标准差,记作,方差(或标准差)越小表明的取值相对于期望越集中,否则越分散.
Ⅱ: 均值与方差的性质
(1).
(2)(为常数).(3)
两点分布、二项分布、超几何分布的期望、方差
(1)若X服从两点分布,则,.
(2)若X服从二项分布,即,则.
(3)若X服从超几何分布,即时,
.
方法总结: 求离散型随机变量的均值、方差的基本步骤:
第一步:判断取值:先根据随机变量的意义,确定随机变量可以取哪些值;
第二步:探求概率:利用排列组合、枚举法、概率公式(常见的有古典概型公式、几何概型公式、互斥事件的概率和公式、独立事件的概率积公式,以及对立事件的概率公式)等,求出随机变量取每个值时的概率;
第三步:写分布列:按规范形式写出分布列,并注意用分布列的性质(概率总和为1)检验所求的分布列是否正确;
第四步:求期望值和方差:利用数学期望和方差的公式分别求期望和方差的值.对于有些实际问题中的随机变量,如果能够断定它服从某常见的典型分布(如二项分布X~B(n,p)),则此随机变量的期望可直接利用这种典型分布的期望公式(E(X)=np)求得.因此,应熟记常见的典型分布的期望与方差公式,可加快解题速度.
知识点7:二项分布之概率最值问题
Ⅰ:如果,其中,求最大值对应的值.
一般是考察与的大小关系.
因为
所以要使,则.故有
⑴如果,则时取得最大值.
⑵如果,是不超过的正整数,则当和时,取得最大值.
(3)如果是不超过的非整数,则当(注意表示不超过的最大整数)时取得最大值.
Ⅱ:方法二
知识点8:回归分析(线性回归)
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1) 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关;
(2) 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关;
(3) 如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程:
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:,其回归方程为,则注意:线性回归直线经过定点.
(3)相关系数:
.
【技能方法】
(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
(2)利用相关系数判定,当越趋近于1相关性越强.当残差平方和越小,相关指数越大,相关性越强.
(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
(4)正确运用计算的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线过样本点的中心进行求值.
【易错指导】
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
知识点9:回归分析(非线性回归)
当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
知识点10:2×2列联表及独立性检验
Ⅰ:分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
Ⅱ:2×2列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b +d
a+b+c+d
这样的表格称为2×2列联表。
Ⅲ:卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(为样本容量)。
Ⅳ:独立性检验
独立性检验
通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
变量独立性的判断
通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果≤3.841时,认为事件A与B是无关的。
②如果>3.841时,有95%的把握说事件A与事件B有关;
③如果>6.635时,有99%的把握说事件A与事件B有关;
Ⅴ:独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:,计算出的值;
(5)统计推断:当>3.841时,有95%的把握说事件A与B有关;
当>6.635时,有99%的把握说事件A与B有关;
当>10.828时,有99.9%的把握说事件A与B有关;
当≤3.841时,认为事件A与B是无关的.
备注:临界值表
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
知识点11:一类求总体均值和方差题目的秒杀
高端结论:
推导过程:设总样本量为n分为2层:
第1层:样本量为样本数据为
第2层:样本量为,样本数据为,
则:总样本平均数
总样本方差,
∵ ,
同理,
∴总样本方差 ,证毕。
形如:
题型一:条件概率的求算
1.从20以内的质数中不放回地依次取2个数,记事件A为“第一次取到的数是奇数”,事件B为“两次取出的数之和是奇数”,则( )
A. B. C. D.
2.在一个不透明箱子中装有10个大小、质地完全相同的球,其中白球7个,黑球3个.现从中不放回地依次随机摸出两个球,已知第二次摸出的是黑球,则第一次摸出的是白球的概率为( )
A. B. C. D.
巩固训练
3.已知盒子中有6个大小相同的球,分别标有数字1,2,3,4,5,6,从中不放回地随机取两球,每次取一球,记第一次取出的球的数字是,第二次取出的球的数字是.若事件“为偶数”,事件“,中有偶数”,则( )
A. B. C. D.
4.某校有7名同学获省数学竞赛一等奖,其中男生4名,女生3名.现随机选取2名学生作“我爱数学”主题演讲.假设事件为“选取的两名学生性别相同”,事件为“选取的两名学生为女生”,则( )
A. B. C. D.
题型二:条件概率性质的妙用
1.已知,,则( )
A. B. C. D.
2.下列说法正确的是( )
A. B.是可能的
C. D.
巩固训练
3.若,则P(A)=( )
A. B. C. D.
4.已知,分别为随机事件A,B的对立事件,,,则下列说法正确的是( )
A.
B.若,则 A,B对立
C.若A,B独立,则
D.若A,B互斥,则
题型三:利用贝叶斯公式求概率
1.托马斯·贝叶斯(ThomasBayes)在研究“逆向概率"的问题中得到了一个公式:.这个定理在实际生活中有着重要的应用价值.假设某种疾病在所有人群中的感染率是,医院现有的技术对于该疾病检测准确率为,即已知患病情况下,的可能性可以检查出阳性,正常人的可能性检查为正常.如果从人群中随机抽一个人去检测,经计算检测结果为阳性的全概率为0.01098,请你用这个公式估计在医院给出的检测结果为阳性的条件下这个人得病的概率( )
A. B. C. D.
2.假设甲袋中有3个白球和3个红球,乙袋中有2个白球和2个红球.现从甲袋中任取2个球放入乙袋,再从乙袋中任取2个球.已知从乙袋中取出的是2个红球,则从甲袋中取出的也是2个红球的概率为( )
A. B. C. D.
巩固训练
3.现有编号为1,2,3的三个口袋,其中1号口袋内装有两个1号球,一个2号球和一个3号球;2号口袋内装有两个1号球,一个3号球;3号口袋内装有三个1号球,两个2号球;第一次先从1号口袋内随机抽取1个球,将取出的球放入与球同编号的口袋中,第二次从该口袋中任取一个球,下列说法不正确的是( )
A.在第一次抽到3号球的条件下,第二次抽到1号球的概率是
B.第二次取到1号球的概率
C.如果第二次取到1号球,则它来自1号口袋的概率最大
D.如果将5个不同小球放入这3个口袋内,每个口袋至少放1个,则不同的分配方法有150种
4.某学校高中部有自由、青华两个校区,数学教研组每周选择其中一个校区开例会,第一周例会选择青华校区的概率是,如果第一周例会选择自由校区,那么第二周去自由校区的概率为;如果第一周去青华校区,那么第二周去自由校区的概率为;已知数学教研组第二周去自由校区开会,则第一周去自由校区开会的概率为( )
A. B. C. D.
题型四 : 独立事件的乘法公式
1.某乒乓球队在长春训练基地进行封闭式集训,甲、乙两位队员进行对抗赛,每局依次轮流发球,连续赢2个球者获胜,通过分析甲、乙过去对抗赛的数据知,甲发球甲赢的概率为,乙发球甲赢的概率为,不同球的结果互不影响,已知某局甲先发球.则该局打4个球甲赢的概率为( )
A. B. C. D.
2.某同学参加社团面试,已知其第一次通过面试的概率为,第二次面试通过的概率为,若第一次未通过,仍可进行第二次面试,若两次均未通过,则面试失败,否则视为面试通过,则该同学通过面试的概率为( )
A. B. C. D.
巩固训练
3.对于一个古典概型的样本空间和事件,若,,,则下列结论错误的是( )
A.事件A与事件互斥 B.
C.事件与事件相互独立 D.
4.下列说法正确的是( )
A.若,则事件与事件是对立事件
B.事件与事件中至少有一个发生的概率一定比与中恰有一个发生的概率大
C.从长度为1,3,5,7,9的5条线段中任取3条,则这三条线段能构成一个三角形的概率为
D.若,,则事件,相互独立与,互斥不能同时成立
题型五:根据独立重复试验求概率
1.随着电商的兴起,物流快递的工作越来越重要了,早在周代,我国便已出现快递制度,据《周礼·秋官》记载,周王朝的官职中设置了主管邮驿,物流的官员“行夫”,其职责要求是“虽道有难,而不时必达”.现某机构对国内排名前五的家快递公司的某项指标进行了轮测试(每轮测试的客观条件视为相同),每轮测试结束后都要根据该轮测试的成绩对这家快递公司进行排名,那么跟测试之前的排名比较,这轮测试中恰好有1轮测试结果出现家公司排名不变的概率为( ).
A. B. C. D.
2.小王开了两家店铺,每个店铺招收了两名员工,若某节假日每位员工的休假概率均为,且是否休假互不影响,若一家店铺的员工全部休假,而另一家无人休假,则调剂1人到该店铺,使得该店铺能够正常营业,否则该店就停业.则两家店铺该节假日能正常开业的概率为( )
A. B. C. D.
巩固训练
3.甲、乙两名乒乓球运动员进行一场比赛,采用7局4胜制(先胜4局者胜,比赛结束).已知每局比赛甲获胜的概率均为,则甲以4比2获胜的概率为( )
A. B. C. D.
4.乒乓球是我国的国球,乒乓球运动在我国十分普及,深受国人喜爱,在民间经常开展各种乒乓球比赛.现有甲乙二人争夺某次乒乓球比赛的冠军,根据以往比赛记录统计的数据,可以认为在每局比赛中甲胜乙的概率为,若比赛为“五局三胜”制,各局比赛结果相互独立且没有平局,则在甲获得冠军的情况下,比赛进行了四局的概率为( )
A. B. C. D.
题型六:由随机变量的分布列求概率
1.随机变量的分布列如下表所示,且,则( )
0
1
2
3
0.1
0.1
A.-0.2 B.0.4 C.0.2 D.0
2.设随机变量的概率分布列是,,其中C为常数,则=( )
A. B. C. D.
巩固训练
3.设是一个离散型随机变量,其分布列为:
0
1
则( )
A. B.
C. D.
4.随机变量的分布列为
1
3
P
m
则( )
A. B. C. D.
题型七:求两点分布分布列及期望与方差
1.已知随机变量服从两点分布,且,设,那么( )
A.0.2 B.0.3 C.0.4 D.0.6
2.已知随机变量服从两点分布,且.设,那么等于( )
A.0.6 B.0.3 C.0.2 D.0.4
巩固训练
3.已知离散型随机变量的分布列服从两点分布,且,则( )
A. B. C. D.
4.随机变量服从两点分布,且,令,则( )
A. B. C. D.
题型八:服从二项分布的随机变量概率最大问题
1.某人在次射击中击中目标的次数为,其中,击中偶数次为事件A,则( )
A.若,则取最大值时 B.当时,取得最小值
C.当时,随着的增大而减小 D.当的,随着的增大而减小
2.在数字通信中,信号是由数字“”和“”组成的序列.现连续发射信号次,每次发射信号“”的概率均为.记发射信号“1”的次数为,记为奇数的概率为,为偶数的概率为,则下列说法中不正确的有( )
A.当,时,
B.时,有
C.当,时,当且仅当时概率最大
D.时,随着的增大而增大
巩固训练
3.已知随机变量,则概率最大时,的取值为( )
A. B. C.或 D.或
4.某人在19次射击中击中目标的次数为X,若,若最大,则( )
A.14或15 B.15 C.15或16 D.16
题型九:二项分布方差与均值的关系
1.已知某种疾病的某种疗法的治愈率为80%.若有100位该病患者采取了这种疗法,且每位患者治愈与否相互独立,设其中被治愈的人数为X,则下列选项中不正确的是( )
A. B.
C. D.存在,使得成立
2.已知离散型随机变量服从二项分布,且,,则的最小值为( )
A. B. C.3 D.4
巩固训练
3.已知随机变量X服从二项分布.若,,则( )
A. B. C. D.
4.从装有除颜色外完全相同的3个白球和个黑球的布袋中随机摸取一球,有放回的摸取5次,设摸得白球数为,已知,则
A. B. C. D.
题型十:利用正态分布3σ原则求概率
1.巴黎奥运会期间,旅客人数(万人)为随机变量,且.记一天中旅客人数不少于26万人的概率为,则的值约为( )
(参考数据:若,有,,)
A.0.977 B.0.9725 C.0.954 D.0.683
2.已知某工厂生产的某批产品的质量指标服从正态分布,质量指标大于或等于20的产品为优等品,且优等品出现的概率为,现从该批产品中随机抽取6件,用表示这6件产品的质量指标不在区间的产品件数,则( )
A.0.96 B.0.48 C.1.2 D.2.4
巩固训练
3.随机变量服从若
则下列选项一定正确的是( )
A. B.
C. D.
4.某网反随机选取了某自媒体平台10位自媒体人,得到其粉丝数据(单位:万人):.若该平台自媒体人的粉丝数(其中和分别为上述样本的平均数和标准差),根据上述数据,则下列说法中正确的个数是( )
(1)这10位自媒体人粉丝数据的平均数为2.0;
(2)这10位自媒体人粉丝数据的标准差为0.04;
(3)这10位自媒体人粉丝数据的第25百分位数为1.8;
(4)用样本估计总体,该平台自媒体人的粉丝数不超过2.2万的概率约为0.84135.
(附:若随机变量服从正态分布,则,)
A.1 B.2 C.3 D.4
题型十一:利用全概率公式求概率
1.某工厂生产一种零件,该零件的质量分为三种等级:一等品、二等品和次品.根据历史数据,该工厂生产一等品、二等品和次品的概率分别为0.7,0.2和0.1.现对一批刚生产出来的零件进行质量检测,检测方式分为两种:自动检测和人工抽检,自动检测能将一等品全部正确识别,但有5%的概率将二等品误判为次品,有15%的概率将二等品误判为一等品,也有10%的概率将次品误判为二等品.
(1)求在自动检测下,一个被判断为次品的零件实际上就是次品的概率
(2)假设零件先经过自动检测,若判断为一等品,则进行人工抽检;若判断为二等品或次品,则直接淘汰.求人工抽检一个零件,该零件恰好是一等品的概率.
2.放行准点率是衡量机场运行效率和服务质量的重要指标之一.已知年该机场飞往地,地及其他地区(不包含,两地)航班放行准点率的估计值分别为和,年该机场飞往地,地及其他地区的航班比例分别为,和.
试解决一下问题:
(1)现在从年在该机场起飞的航班中随机抽取一个,求该航班准点放行的概率;
(2)若年某航班在该机场准点放行,判断该航班飞往地,地、其他地区等三种情况中的哪种情况的可能性最大,说明你的理由.
巩固训练
3.某国甲、乙、丙三个地区新冠肺炎疫情比较严重,这三个地区分别有的人是阳性患者,已知这三个地区的人口数之比为,现从这三个地区中任选一人.
(1)求这个人是阳性患者的概率(结果用百分数表示);
(2)若此人是阳性患者,求此人不是选自甲地区的概率.
4.夏日天气炎热,学校为高三备考的同学准备了绿豆汤和银耳羹两种凉饮,某同学每天都会在两种凉饮中选择一种,已知该同学第1天选择绿豆汤的概率是,若在前一天选择绿豆汤的条件下,后一天继续选择绿豆汤的概率为,而在前一天选择银耳羹的条件下,后一天继续选择银耳羹的概率为,如此往复.(提示:设表示第天选择绿豆汤)
(1)求该同学第一天和第二天都选择绿豆汤的概率
(2)求该同学第2天选择绿豆汤的概率;
(3)记该同学第天选择绿豆汤的概率为,求出的通项公式.
题型十二:求二项分布分布列及期望与方差
1.如图,在研究某种粒子的实验装置中,粒子从腔室出发,到达腔室,粒子从室经过号门进入室后,等可能的变为上旋或下旋状态,粒子从室经过号门进入室后,粒子的旋转状态发生改变的概率为.粒子间的旋转状态相互独立.现有两个粒子从室出发.
(1)求两粒子进入室都为上旋状态的概率;
(2)若实验装置出现故障,两个粒子进入室后,共裂变为个粒子,裂变后的每个粒子再经过号门返回室的概率为,各粒子返回室相互独立.
①时,写出返回室的粒子个数的分布列、期望、方差;
②时,记有个粒子返回室的概率为,则为何值时,取最大值.
2.已知某计算机网络的服务器有三台设备,只要有一台能正常工作,计算机网络就不会断掉.如果三台设备各自能正常工作的概率都为0.8,它们之间互相不影响.设能正常工作的设备数为.
(1)求的分布列;
(2)求和;
(3)求计算机网络不会断掉的概率.
巩固训练
3.我国是全球制造业大国,制造业增加值自2010年起连续12年位居世界第一,主要产品产量稳居世界前列.为深入推进传统制造业改造提升,全面提高传统制造业核心竞争力,某设备生产企业对现有生产设备进行技术攻坚突破.设备生产的零件的直径为X(单位:nm).
(1)现有旧设备生产的零件共7个,其中直径大于10nm的有4个.现从这7个零件中随机抽取3个.记ξ表示取出的零件中直径大于10nm的零件的个数,求ξ的分布列及数学期望.
(2)技术攻坚突破后设备生产的零件的合格率为,每个零件是否合格相互独立.现任取6个零件进行检测,若合格的零件数η超过半数,则可认为技术攻坚成功.求技术攻坚成功的概率及η的方差;
4.甲、乙两个工厂加工一批同一型号的零件,甲工厂加工的次品率为,乙工厂加工的次品率为,现将加工出来的零件混放在一起,其次品率为;
(1)求混放在一起的零件中来自甲工厂的零件个数的占比;
(2)从混放在一起的零件中有放回地抽5个作为样本,记样本中来自甲工厂的零件个数为.
(i)求的分布列和数学期望:
(ii)若用样本中来自甲工厂的零件个数的占比,估计总体中来自甲工厂的零件个数的占比,求误差的绝对值不超过0.1的概率.
题型十三:求超几何分布分布列及期望与方差
1.某校为了提高教师身心健康号召教师利用空余时间参加阳光体育活动.现有4名男教师,2名女教师报名,本周随机选取2人参加.
(1)求在有女教师参加活动的条件下,恰有一名女教师参加活动的概率;
(2)记参加活动的女教师人数为X,求X的分布列及期望;
(3)若本次活动有慢跑、游泳、瑜伽三个可选项目,每名女教师至多从中选择参加2项活动,且选择参加1项或2项的可能性均为,每名男教师至少从中选择参加2项活动,且选择参加2项或3项的可能性也均为,每人每参加1项活动可获得“体育明星”积分3分,选择参加几项活动彼此互不影响,记随机选取的两人得分之和为Y,求Y的期望.
2.端午节吃粽子是我国的传统习俗.设一盘中装有10个粽子,其中豆沙粽2个,肉粽3个,白粽5个,这三种粽子的外观完全相同.从中任意选取3个.
(1)求三种粽子各取到1个的概率;
(2)设表示取到的豆沙粽个数,求的分布列;
(3)设表示取到的粽子的种类,求的分布列.
巩固训练
3.某高中高二年级1班和2班的学生组队参加数学竞赛,1班推荐了2名男生1名女生,2班推荐了3名男生2名女生.由于他们的水平相当,最终从中随机抽取4名学生组成代表队.
(1)求1班至少有1名学生入选代表队的概率;
(2)设表示代表队中男生的人数,求的分布列.
4.假设某市大约有800万网络购物者,某电子商务公司对该地区n名网络购物者某年度上半年前6个月内的消费情况进行统计,发现消费金额(单位:万元)都在区间内,其频率分布直方图如图所示,若频率分布直方图中的a,b,c,d满足,且从左到右6个小矩形依次对应第一至六小组,第五小组的频数为2400.
(1)求a,b,c,d的值;
(2)现用分层抽样方法从前4组中选出18人进行网络购物爱好调查,
①求在各组应该抽取的人数;
②在前2组所抽取的人中,再随机抽取3人,记这3人来自第一组的人数为X,求随机变量X的分布列与数学期望.
题型十四:线性回归方程所有考点
1.2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
2.市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x
1
2
3
4
5
6
净利润y(万元)
1.0
1.4
1.7
2.0
2.2
2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若时,则线性相关程度较高,,则线性相关程度一般,计算时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据,其回归直线的斜率
,.相关系数.
参考数据:,,,,,.
巩固训练
3.如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
4.2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
年度
2016—2017
2017—2018
2018—2019
2019—2020
2020—2021
2021—2022
年度代号t
1
2
3
4
5
6
旅游人次y
1.7
1.97
2.24
0.94
2.54
3.15
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
题型十五:非线性回归的处理技巧
1.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
2.网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:
直播周期数x
1
2
3
4
5
产品销售额y(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
3.7
55
382
65
978
101
其中
(1)请根据表中数据,建立y关于x的回归方程;
(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.
巩固训练
3.一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度
21
23
24
27
29
32
产卵数个
6
11
20
27
57
77
经计算得:线性回归模型的残差平方和,其中分别为观测数据中的温差和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且相关指数0.9522.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为;相关指数.
4.设某幼苗从观察之日起,第天的高度为,测得的一些数据如下表所示:
第天
1
4
9
16
25
36
49
高度
0
4
7
9
11
12
13
作出这组数据的散点图发现:与(天)之间近似满足关系式,其中,均为大于0的常数.
(1)试借助一元线性回归模型,根据所给数据,用最小二乘法对,作出估计,并求出关于的经验回归方程;
(2)在作出的这组数据的散点图中,甲同学随机圈取了其中的4个点,记这4个点中幼苗的高度大于的点的个数为,其中为表格中所给的幼苗高度的平均数,试求随机变量的分布列和数学期望.
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.
题型十六:独立性检验(列联表)
1.为了研究高三年级学生的性别和身高是否大于170cm的关联性,随机调查了某中学部分高三年级的学生,整理得到如下列联表(单位:人):
性别
身高
合计
低于170cm
不低于170cm
女
19
5
24
男
6
10
16
合计
25
15
40
(1)依据的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?
(2)从身高不低于170cm的15名学生中随机抽取三名学生,设抽取的三名学生中女生人数为,求的分布列及期望.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
2.为研究“眼睛近视是否与长时间看电子产品有关”的问题,对某班同学的近视情况和看电子产品的时间进行了统计,得到如下的列联表:
近视情况
每天看电子产品的时间
合计
超过一小时
一小时内
近视
10人
5人
15人
不近视
10人
25人
35人
合计
20人
30人
50人
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
.
(1)根据小概率值的独立性检验,判断眼睛近视是否与长时间看电子产品有关;
(2)在该班近视的同学中随机抽取3人,则至少有两人每天看电子产品超过一小时的概率是多少?
(3)以频率估计概率,在该班所在学校随机抽取2人,记其中近视的人数为X,每天看电子产品超过一小时的人数为Y,求的值.
巩固训练
3.2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:
喜欢奥数
不喜欢奥数
总计
已选奥数课(A组)
150
50
200
未选奥数课(B组)
90
110
200
总计
240
160
400
(1)若从样本内喜欢奥数的240人中用分层抽样方法随机抽取32人,则应在A组、B组各抽取多少人?
(2)依据小概率值的独立性检验,能否认为选报奥数延时课与喜欢奥数有关?
附:
参考公式:,其中.
4.据国家权威机构统计,中国有3000万青少年具有不同程度的心理障碍,中小学生心理障碍患病率高达21.6%-42%,心理治疗专家表示,现在很多家庭只关注孩子的文化课学习,却往往忽略了青少年时期最重要的人格形成因子-------心理健康的培养和矫正.现随机调查了200名青少年是否参加过心理健康培训及其心理健康问题得到如下结果
参加过培训
未参过培训
合计
心理健康
64
36
100
有心理障碍
46
54
100
合计
110
90
200
(1)从未参加过培训的90人中按心理是否健康分层抽样抽取5人,再从这5人中任选3人做一次心理疏导,求3人中心理健康人数X的分布列和期望.
(2)判断是否有95%的把握认为心理健康与参与培训有关.
附
0.150
0.100
0.050
0.010
2.072
2.706
3.841
6.635
0
1
2
原创精品资源学科网独家享有版权,侵权必究! 8
原创精品资源学科网独家享有版权,侵权必究! 8
学科网(北京)股份有限公司
$$