内容正文:
第四章 概率与统计
知识点
具体内容
条
件
概
率
与
事
件
的
独
立
性
1.条件概率
①条件概率的概念:一般地,设A,B为两个随机事件,且P(A)>0,我们称为在事件A发生的条件下,事件B发生的条件概率.
②条件概率的解法
方法
公式或步骤
定义法
基本事件法
缩小样本空间法
去掉第一次抽到的情况,只研究剩下的情况,用古典概型求解
③乘法公式:对任意两个事件A与B,若P(A)>0,则
2.全概率公式
一般地,设是一组两两互斥的事件,,且,则对任意的事件,有
图示:
3.贝叶斯公式
①概念:设是一组两两互斥的事件,,且,则对任意的事件,,有
②作用:贝叶斯公式充分体现了,,,,,之间的转化关系,即,,之间的内在联系.
4.相互独立
对任意两个事件与,如果成立,则称事件A与事件B相互独立,简称为独立.
如果与相互独立,则与,与,与也相互独立.
随机变量及分布列
1.随机变量
随着试验结果变化而变化的变量称为随机变量,常用字母,…表示.
离散型随机变量:所有取值可以一一列出的随机变量,称为离散型随机变量
2.离散型随机变量分布列的概念及性质
①离散型随机变量的分布列的概念
设离散型随机变量X可能取的不同值为,,…,,X取每一个值 ()的概率,则下表称为随机变量X的概率分布,简称为X的分布列.
X
…
…
P
…
…
有时也用等式表示X的分布列.
②离散型随机变量的分布列的性质
(1)(i=1,2,…,n);(2).
三大分布
1.两点分布的分布列
若随机变量的分布列为两点分布列,就称服从两点分布或分布,并称为成功概率.
2.二项分布
定义:在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A发生的概率是p,此时称随机变量X服从二项分布,记作,并称p为成功概率.
在n次独立重复试验中,事件A恰好发生k次的概率为
3.超几何分布
①定义:在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则,
k=0,1,2,…,m,其中m=min{M,n},且n,M,N∈N*,即如果随机变量X的分布列具有下表形式
X
0
1
…
m
P
…
则称随机变量X服从超几何分布.
4.二项分布和超几何分布区别和联系
二项分布
超几何分布
二项分布是放回抽样问题,在每次试验中某一事件发生的概率是相同的
超几何分布是不放回抽样问题,在每次试验中某一事件发生的概率是不相同的
不需要知道总体的容量
需要知道总体的容量
当总体的容量非常大时,超几何分布近似于二项分布
随机变量的均值与方差
1.离散型随机变量的均值与方差
一般地,若离散型随机变量X的分布列为:
X
…
…
P
…
…
(1)称为随机变量X的均值或数学期望,它反映了离散型随机变量取值的平均水平.
(2)称为随机变量X的方差,它刻画了随机变量X与其均值E(X)的平均偏离程度,其算术平方根为随机变量X的标准差.
方差的变形:
2.均值与方差的性质
若Y=aX+b,其中a,b为常数,则Y也是随机变量,
则
3.特殊分布的均值与方差
(1)两点分布
若,则;
(2)二项分布
若,则;
(3)超几何分布
若离散型随机变量x服从超几何分布,则有若,则
正态分布
1.正态分布
①正态曲线:称其中为参数,为正态密度函数,称其图象为正态分布密度曲线(其中μ是正态分布的期望,σ是正态分布的标准差)
②正态分布的定义
若随机变量X的概率密度函数为f(x),则称随机变量X服从正态分布,记为.特别地,当时,称随机变量X服从标准正态分布.
2.正态曲线的性质
对,它的图象在轴的上方
曲线与轴之间的面积为1
曲线是单峰的,它关于直线对称
曲线在处达到峰值
当无限增大时,曲线无限接近x轴
当一定时,曲线的位置由确定,曲线随着的变化而沿x轴平移
当一定时,曲线的形状由确定,较小时曲线“瘦高”,表示随机变量X的分布比较集中;较大时,曲线“矮胖”,表示随机变量的分布比较分散,
3.三个特殊区间内取值的概率值及3σ原则
①;;
.
②原则:尽管正态变量的取值范围是,但在一次试验中,X的取值几乎总是落在区间内,而在此区间以外取值的概率大约只有0.0027,通常认为这种情况在一次试验中几乎不可能发生.所以在实际应用中,通常认为服从于正态分布的随机变量X只取中的值
线性回归方程
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
3.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
4.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
5.建立非线性回归模型的基本步骤:
①确定研究对象,明确哪个是解释变量,哪个是预报变量;
②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
③由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、指数函数、对数函数模型等);
④通过换元,将非线性回归方程模型转化为线性回归方程模型;
⑤按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
⑥消去新元,得到非线性回归方程;
⑦得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
常见的非线性回归方程的转化:
曲线方程
变换公式
变换后的线性关系式
独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
易错01 误判事件的相互独立性,凭主观判断而非公式验证
注意:①严格用公式验证独立性,拒绝主观臆断;②若与独立,直接推导与、与、与均独立,无需重复验证。
1.(多选)投掷一枚正四面体骰子,其各面的数字分别为1,2,3,4,记其投出后落地与水平面接触的数字为点数,连续投出两次,第一次得到的点数为,第二次得到的点数为,记事件“为偶数”,事件“为奇数”,事件“为偶数”,则下列正确的有( )
A.与互斥 B.与相互独立 C.与相互独立 D.
【答案】AD
【详解】对于A选项,显然,不会同时发生,故二者互斥,A正确;
对于B选项,此时,B错误;
对于C选项,事件:,,,,,,,,故,
事件:,,,,故,
而事件:,,,,
所以,C错误;
对于D选项,若为奇数,显然,一奇一偶,此时为偶数,显然,D正确.
故选:AD.
2.(多选)某省开展慈善文化进机关、进企业、进乡村、进社区、进家庭活动,通过讲座、公益市集、志愿服务等形式,重点帮扶特殊困难群体.现有,,共3场慈善知识竞赛和慰问活动需要安排志愿者,小林从右图中四张同样大小的卡片中随机抽取一张,卡片上的字母代表小林参加的活动场次,例如抽到写有字母的卡片代表小林参加场活动,若抽到写有3个字母的卡片代表小林参加3场活动,则( )
A.“小林参加场活动”与“小林参加场活动”互斥
B.“小林参加场活动”与“小林参加场活动”相互独立
C.“小林不参加场活动”与“小林不参加场活动”相互独立
D.“小林不参加场活动”与“小林参加场或场活动”相互独立
【答案】BC
【详解】若选到第一张卡片,则小林同时参加3场活动,故A错误.
“小林参加A场活动”的概率为,“小林参加B场活动”的概率为,
“小林同时参加A场和B场活动”的概率为,因为,
所以“小林参加场活动”与“小林参加场活动”相互独立,故B正确.
“小林不参加A场活动”的概率为,“小林不参加B场活动”的概率为,
“小林同时不参加A场与B场活动”的概率为,因为,
所以“小林不参加场活动”与“小林不参加场活动”相互独立,C正确.
“小林参加场或场活动”的概率为,“小林不参加场活动,参加场或场活动”的概率为,
因为,所以“小林不参加场活动”与“小林参加场或场活动”不相互独立,
故D错误.
故选:BC.
3.(多选)有6个相同的球,分别编号,从中先不放回的随机取两次,再将球全部放回随机取一次,记事件甲:第一次取球编号数字大于4;乙:第二次取球编号数字为奇数;丙:第三次取球编号为3;丁:前两次取球编号数字和为6;戊:第一、三次取球编号数字至少有一个5.则下列事件与甲事件独立的是:( )
A.乙 B.丙 C.丁 D.戊
【答案】AB
【详解】根据题意,,,,,,
对于A,,故A正确;
对于B,,故B正确;
对于C,,故错误;
对于D,,故D错误.
故选:AB.
4.(多选)一个正八面体,八个面分别标以数字1到8,任意抛掷一次这个正八面体,等它停止后,观察它与地面接触的面上的数字,得到样本空间为,记事件,则下列说法正确的是( )
A.相互独立 B.相互独立
C.相互独立 D.
【答案】BCD
【详解】由题设,且,,,,
所以,
所以,
综上,不相互独立,、分别相互独立,A错,B、C、D对,
故选:BCD
5.一个盒子中装有4张卡片,卡片上分别写有数字1、2、3、4.现从盒子中随机抽取卡片.
(1)若第一次抽取1张卡片,放回后再抽取1张卡片,事件B表示“两次抽取的卡片上数字之和大于”,求;
(2)若一次抽取2张卡片,事件表示“2张卡片上数字之和是3的倍数”,事件表示“2张卡片上数字之积是4的倍数”.判断事件C与D是否独立,并证明.
【答案】(1)
(2)相互独立,证明见解析
【分析】
【详解】(1)因为每次抽取都有4种可能,两次抽取相互独立,
共包含个基本事件
其中事件包含3个基本事件.
所以;
(2)一次抽取两张共包含6个基本事件,
事件,所以..
事件所以.
事件所以,
因为,所以事件C和D相互独立.
易错02 离散型随机变量分布列,忽略性质验证(概率和为1、单概率非负)
注意:①求完分布列后,必做两步验证:所有概率≥0、概率之和为1;②若计算中出现概率为负,立即检查取值范围或公式使用是否错误。
6.有6个相同的球,分别标有数字1,2,3,4,5,6,从中不放回地随机取球,若存在为整数,使得标有数字和的球均已被取出,则停止取球.记为取出的球的个数,则的数学期望 .
【答案】//
【详解】当,;当时,;当时,;
由题,则当标有数字或者或者的球均已被取出,则停止取球,
所以的可能取值是,
;;;
所以的分布列为
.
故答案为:.
7.“村BA”正盛行,它不仅是一场体育赛事,也是一场文化盛宴,更是一台经济引擎.某校为激发学生对篮球、足球、排球运动的兴趣,举行了一次有关三大球类运动的知识竞赛,海量题库中篮球、足球、排球三类相关知识题量占比分别为.甲同学回答篮球、足球、排球这三类问题中每个题的正确率分别为.
(1)若甲同学在该题库中任选一题作答,求他回答正确的概率;
(2)若甲同学从这三类题中各任选一题作答,每回答正确一题得3分,回答错误得-1分.设该同学回答三题后的总得分为X分,求X的分布列及数学期望;
【答案】(1)
(2)分布列见解析,
【分析】
【详解】(1)设B=“甲同学所选的题目回答正确”,
“所选的题目为篮球、足球、排球相关知识的题目”(i=1,2,3),
根据题意得,
;
所以
(2)由题意可知,X的可能取值为,
则,
,
,
,
所以X的分布列为:
X
1
5
9
P
所以.
8.(黑龙江省龙东十校联盟2025-2026学年高二下学期开学考试数学试题)甲、乙两个袋子中,各放有大小和形状相同的小球若干.每个袋子中标号为0的小球有1个,标号为1的有3个,标号为2的有个.从一个袋子中任取两个球,取到的标号都是2的概率是.
(1)求的值;
(2)从甲袋中任取两个球,已知其中一个的标号是1,求另一个标号也是1的概率;
(3)从两个袋子中各取一个小球,用表示这两个小球的标号之和,求的分布列和期望.
【答案】(1)
(2)
(3)分布列见解析,
【分析】
【详解】(1)从一个袋子中任取两个球的总组合数为,取到两个标号为2的球的组合数为.
则取到的标号都是2的概率是,
整理得,解得或(舍去).
(2)设事件表示“其中一个标号是1”,事件表示“另一个标号也是1”.
因为,,
所以.
(3)的可能取值为,
因为从袋子中取个球,编号为的概率分别为,
所以,,
,,
.
所以的分布列为:
0
1
2
3
4
所以.
9.乒乓球比赛规则规定:在双方打成10平后,领先两分者获胜,比赛结束.在某校组织的乒乓球比赛中,甲、乙两名同学已经打成了10平.已知下一球甲同学得分的概率为,且对以后的每一球,若甲同学在本球中得分,则他在下一球的得分概率为,若甲同学在本球中未得分,则他在下一球的得分概率为.
(1)求在继续打了两个球后比赛结束的条件下,乙同学获胜的概率;
(2)求再打两个球甲新增的得分的分布列和期望.
【答案】(1)
(2)分布列见解析,
【分析】
【详解】(1)打了两个球后结束,则甲连胜两球或乙连胜两球,
设事件为“打两球后结束”,事件为“乙赢得比赛”,
则,,
故.
(2)依题意的可能取值是,
所以,,
,
所以的分布列为:
0
1
2
所以.
10.某校高三年级拟派出甲、乙、丙三人去参加校运动会100m跑项目.比赛分为初赛和决赛,其中初赛有两轮,只有两轮都获胜才能进入决赛.已知甲在每轮比赛中获胜的概率均为;乙在第一轮和第二轮比赛中获胜的概率分别为和;丙在第一轮和第二轮获胜的概率分别为和,其中
(1)甲、乙、丙三人中,谁进入决赛的可能性最大;
(2)若甲、乙、丙三人均未进入决赛的概率为,设进入决赛的人数为,求的分布列.
【答案】(1)甲;
(2)分布列见解析.
【分析】
【详解】(1)甲进入决赛的概率为,
乙进入决赛的概率为,
丙进入决赛的概率为,而,则,
所以甲进入决赛的可能性最大.
(2)甲、乙、丙三人均未进入决赛的概率,
整理可得,解得或,而,所以.
则,
所以甲、乙、丙进入决赛的概率分别为,
随机变量的可能取值有0,1,2,3,
所以,
,
,
,
所以随机变量的分布列为:
0
1
2
3
易错03 混淆超几何分布与二项分布
注意:(1)超几何分布的特点是:①整体一般由两部分组成,比如“男生、女生”“正品、次品”等;②总体一般是有限个.
(2)超几何分布主要应用于抽查产品,摸不同类型的小球等模型
(3)注意特殊背景下的“超几何分布”被转化为“二项分布”,如从两类对象中不放回地抽取个元素,当两类对象的总数量很大时,超几何分布近似于二项分布.
11.(多选)已知盒子中有12个样品,6个不同的正品和6个不同的次品,现从中逐个抽取5个样品.方案一:有放回地抽样,记取得次品个数为X;方案二:不放回地抽样,记取得次品个数为Y,则( )
A.
B.当或3时,最大
C.
D.两种方案中第三次抽到次品的概率均为
【答案】BCD
【详解】方案一中,有放回地抽样,则取得次品个数,
,,
方案二中,不放回地抽样,则取得次品个数Y服从超几何分布,
则,.
选项A,,,,A错误;
选项B,,由于,故或3时,最大,B正确;
选项C,由二项分布及超几何分布期望公式,,C正确;
选项D,方案一中,每次抽到次品的概率均为,
方案二,第三次抽到次品的情况有四种,“正正次”、“正次次”、“次正次”、“次次次”,
其中“正正次”的概率为,“正次次”的概率为,
“次正次”的概率为,“次次次”的概率为,
故第三次抽到次品的概率为,D正确.
故选:BCD.
12.某食盐厂为了检查一条自动流水线的生产情况,随机抽取该流水线上的100袋食盐称出它们的质量(单位:克)作为样本数据,质量的分组区间为.由此得到样本的频率分布直方图如图:
(1)求的值;
(2)从该流水线上任取2袋食盐,设为质量超过的食盐数量,求随机变量的分布列;
(3)在上述抽取的100袋食盐中任取2袋,设为质量超过的食盐数量,求随机变量的分布列.
【答案】(1)
(2)分布列见解析
(3)分布列见解析
【分析】
【详解】(1)由题意可得:,
解得.
(2)根据样本估计总体的思想,取一袋食盐,
该食盐的质量超过的概率为.
从流水线上任取2袋食盐互不影响,该问题可以看成2次独立重复试验,
质量超过的袋数X的所有可能取值为,
且服从二项分布,
.
,
,
,
随机变量的分布列为:
0
1
2
0.49
0.42
0.09
(3)质量超过的食盐数量为袋,
随机变量的所有可能取值为,且服从超几何分布.
,,
,
随机变量的分布列为:
0
1
2
13.巴东一中组织庆五一教职工篮球活动,我们年级有10名教职工参加,其中有6名理科教师、4名文科教师,为活动的需要,要从这10名教师中随机抽取3名教职工去买比赛服装.
(1)已知10名教师中有2名班主任,求抽取的3名中至少有1名班主任的概率;
(2)设表示抽取的3名教师中文科教师的人数,求的分布列及数学期望.
【答案】(1)
(2)分布列见解析,期望为
【分析】
【详解】(1)由于10名教师中有2名班主任,则10名教师中有8名不是班主任,
若抽取的3名中没有班主任,则有种抽法,从10名教师中随机抽取3名教职工的方法有种,
故抽取的3名中至少有1名班主任的概率为
(2)的所有可能取值有:0,1,2,3,
故的分布列为:
0
1
2
3
故期望为:
14.为激发学习数学的兴趣,高二年级举行数学知识竞赛,赛制规定:共进行5轮比赛,每轮比赛每个班可以从、两个题库中任选1题作答,在前两轮比赛中每个班的题目必须来自同一题库,后三轮比赛中每个班的题目必须来自同一题库,题库每题20分,题库每题30分,一班能正确回答、题库每题的概率分别为、,且每轮答题结果互不影响.
(1)若一班前两轮选题库,后三轮选题库,求其总分不少于100分的概率;
(2)若一班在前两轮比赛中选了题库,而且两轮得分60分,后三轮换成题库,设一班最后的总分为,求的分布、期望及方差.
【答案】(1)
(2)分布列见解析,,
【分析】
【详解】(1)由条件知,若一班在前两轮得分,后三轮得分,总分为分,
其概率为,
若一班在前两轮得分,后三轮得分或分,总分为或分,
其概率为,
于是一班总分不少于分的概率为 .
(2)依题意随机变量的可能取值为,,,,
所以,,
,.
所以的分布列为:
60
80
100
120
所以,
.
15.有2台车床加工同一型号的零件,第一台加工的合格品率为,第二台加工的合格品率为;若将这两批零件混合放在一起,则合格品率为.
(1)设第一台车床加工的零件有件,第二台车床加工的零件有件,求证:;
(2)从混合放在一起的零件中随机抽取4个零件,用频率估计概率,记这4个零件中来自第二台车床的个数为,求的分布列、数学期望和方差.
【答案】(1)证明见解析
(2)分布列见解析,,
【分析】
【详解】(1)已知第一台车床加工的零件有件,合格品有件,
第二台车床加工的零件有件,合格品有件,
混合后的合格率为,解得.
(2)由可知,一个零件来自第二台车床概率为,
随机变量可能取值有,来自第二台车床零件的个数服从二项分布,
则,
可得,
,
,
,
,
随机变量分布列为:
0
1
2
3
4
根据二项分布,,
易错04 计算随机变量均值/方差,忽略线性变换的公式易错点
注意:对,误记公式为,遗漏常数项或方差系数平方。
①熟记核心公式:;②计算前先标注公式,避免系数和常数项的错误处理。
16.(多选)已知随机变量的分布列如下,则( )
0
1
2
A. B.
C. D.
【答案】AD
【详解】对于A,由分布列的性质可知:,解得,故A正确;
对于B,,故B错误;
对于C,,
,故C错误;
对于D,,故D正确.
故选:AD.
17.已知随机变量的分布列为
1
2
3
且,若,则 , .
【答案】
【详解】由均值公式得,
因为,所以.解得.
故答案为:;
18.一个袋中装有个白球和个黑球,甲从袋中有放回的随机取次球,每次取个球,取到次白球得分,取到次黑球得分.记甲取球总得分为,则 .
【答案】
【详解】依题意,得甲每次取到白球的概率为,
设甲3次取球取到的白球数为,则,
所以,
又甲取球总得分满足,
所以.
故答案为:.
19.已知离散型随机变量的分布列如下表,且.
0
2
(1)求的值;
(2)求的值;
(3)若,求的值.
【答案】(1)
(2)
(3)
【分析】
【详解】(1)由题意知,解得,
因为,所以,
则,解得.
(2)方法一:
.
方法二:,
.
(3)因为,
所以.
20.2025年,某生物研究所为了庆祝在基因编辑技术研究方面取得的重大突破,准备举办一次有奖奖励活动,每位参与研究的科研人员都抽一次奖,规则如下:一个不透明的盒子中装有50个质地均匀且大小相同的小球,其中20个红球,30个白球,搅拌均匀后,抽奖人员从中随机抽取一个球,并有放回地连续抽取3次.研究所设计了两种奖励方案.
方案一:若抽到红球,则科研人员获得40元的奖金,若抽到白球,则获得10元的奖金.
方案二:若抽到红球,则科研人员获得60元的奖金,若抽到白球,则没有奖金.
(1)若按方案一抽奖,求最终获得60元奖金的概率;
(2)为了激励科研人员,让科研人员获得更多奖金,试通过比较两种抽奖方案最终获得奖金的数学期望,给出该研究所应选择哪种抽奖方案的建议?
【答案】(1)
(2)选择第二种抽奖方案,理由见详解
【分析】
【详解】(1)若选择方案一,则每一次摸到红球的概率为, 每一次摸到白球的概率为,
设“最终获得60元奖金”为事件,所以.
(2)因为每一次摸到红球的概率为,每一次摸到白球的概率为,
设三次摸球的过程中,摸到红球的次数为,则,可得,
若按方案一抽奖,设最终获得奖金为元,则,
所以;
若按方案二抽奖,设最终获得奖金为元,则,
所以;
因为,所以应选择第二种抽奖方案.
21.某校为了提高教师身心健康号召教师利用空余时间参加阳光体育活动.现有4名男教师,2名女教师报名,本周随机选取2人参加.
(1)记参加活动的女教师人数为X,求X的分布列及期望;
(2)若本次活动有慢跑、游泳、瑜伽三个可选项目,每名女教师至多从中选择参加2项活动,且选择参加1项或2项的可能性均为,每名男教师至少从中选择参加2项活动,且选择参加2项或3项的可能性也均为,每人每参加1项活动可获得“体育明星”积分3分,选择参加几项活动彼此互不影响,记随机选取的两人得分之和为Y,求Y的期望.
【答案】(1)分布列见解析,
(2)
【分析】
【详解】(1)依题意,X的可能值为0,1,2,服从超几何分布,,
,,,
所以X的分布列为:
X
0
1
2
P
(2)设一名女教师参加活动可获得分数为,一名男教师参加活动可获得分数为,
则的所有可能取值为3,6,的所有可能取值为6,9,
,,
,,
有X名女教师参加活动,则男教师有名参加活动,,
所以.
即两个教师得分之和的期望为13分.
易错05 混淆相关系数和决定系数
注意:相关系数:|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱;
决定系数:越接近于1,表示回归的效果越好
22.为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,
则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.相关系数的绝对值越接近0,表示的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
【答案】D
【详解】对于选项A,由题知,
,故选项A正确;
对于选项B,由图表可得散点图如下,由散点图知变量和正相关,所以选项B正确;
对于选项C,相关系数的绝对值越接近0,表示的线性相关程度越弱,故选项C正确;
对于选项D,因为样本中心点为,又,
所以不是关于的线性回归直线方程,故选项D不正确.
故选:D
23.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
【答案】D
【详解】由题意可知:,,
则样本中心点为.
对于选项A:因回归方程斜率为正值,则变量与正相关,故A正确;
对于选项B:因为线性回归方程过样本中心点,
则,解得,故B正确;
对于选项C:由选项B可知:,
当时,的预估值为,故C正确;
对于选项D:由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,故D错误.
故选:D.
24.下列说法正确的是( )
A.一组数据1,1,2,3,5,8,13,21的第60百分位数为4
B.设且,则
C.两个随机变量的线性相关程度越强,则样本相关系数越接近于1
D.在回归分析模型中,若决定系数越小,则残差平方和越大,模型的拟合效果越差
【答案】D
【详解】对于A,因为,所以数据的第60百分位数为5,故A错误;
对于B,因为且,则,
所以,故B错误;
对于C,两个随机变量的线性相关程度越强,则样本相关系数的绝对值越接近于1,故C错误;
对于D,在回归分析模型中,若决定系数越小,则残差平方和越大,模型的拟合效果越差,故D正确.
故选:D.
25.2024年12月26日,Deep Seek—V3首个版本正式上线,截至2025年2月9日,Deep Seek APP的累计下载量已超1.1亿次,AI成为当下的热门话题.立德中学高中数学社团以16至40岁人群使用Deep Seek频率为课题,分小组自主选题进行调查研究,下列说法正确的是( )
A.甲小组开展了Deep Seek每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到Deep Seek每周使用频次y关于年龄x的经验回归方程为,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响Deep Seek使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的Deep Seek使用频次没有差异
【答案】C
【详解】对于A,由的绝对值越接近1,相关性越强可得A错误,故A错误;
对于B,回归方程为给出的是预测值,实际值会有随机误差,所以年龄为30岁的群体每周使用频次不一定为17次,故B错误;
对于C,表示模型对因变量的解释比例,大说明经验回归方程②的刻画效果比经验回归方程①的好很多,故C正确;
对于D,,可以认为不同性别的Deep Seek使用频次有差异,故D错误.
故选:C
26.某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C
27.如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
【答案】C
【详解】共8个点且离群点P的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,故C正确
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,故D错误
有,,故AB错误.
故选:C.
易错06 求回归直线方程计算错误
注意:要明白,而且要懂得先约分,再计算
28.近些年来,短视频社交软件日益受到追捧,用户可以通过软件选择歌曲,拍摄音乐短视频,创作自己的作品.某用户对自己发布的视频个数x与收到的点赞个数之和y之间的关系进行了分析研究,得到如下数据:
x
3
4
5
6
7
y
45
50
60
65
70
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为发布的视频个数与收到的点赞数之和的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.
参考公式:,,.参考数据:,.
【答案】(1),可以认为发布的视频个数与收到的点赞数之和的相关性很强
(2)
【分析】
【详解】(1)因为,,
所以,.
因为,所以
所以,
由此可以认为发布的视频个数与收到的点赞数之和的相关性很强.
(2)由(1)知,,
所以.
因为,
所以y关于x的线性回归方程为.
29.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量(单位:万件)的统计表:
月份代码
1
2
3
4
5
6
7
销售量/万件
但其中数据污损不清,经查证.
(1)请用相关系数说明销售量与月份代码之间有很强的线性相关关系(当时认为两个变量有很强的线性相关关系);
(2)求关于的回归直线方程(结果中保留两位小数);
(3)公司经营期间的广告宣传费(单位:万元),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由(毛利润=销售金额-广告宣传费).
参考数据:,.
【答案】(1)答案见解析;(2);(3)不能,理由见解析
【分析】
【详解】由题意,得,,
..
,
销售量与月份代码之间有很强的线性相关关系。
(2),
,
关于的回归直线方程为.
(3)当时,,而,
第8个月的毛利润约为14.48万元
又,
第8个月的毛利润不能突破15万元
30.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
附:回归直线的斜率和截距的最小二乘法估计公式分别为.
【答案】(1);(2)5.9万元.
【分析】
【详解】解(1)设所求的线性回归方程为,
,,
所以,
.
所以年推销金额y关于工作年限x的线性回归方程为.
(2)当时,(万元).
所以可以估计第6名推销员的年推销金额为5.9万元
31.哈三中高二数学备课组对学生的记忆力和判断力进行统计分析,所得数据如下表所示:
4
6
8
10
2
3
5
6
(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测记忆力为9的学生的判断力.
(参考公式:,)
【答案】(1);(2)判断力为5.4.
【分析】
【详解】解:(1)由表中数据可得,
,
,
所以,
所以,
所以关于的线性回归方程为,
(2)当时,,
所以记忆力为9的学生的判断力约为5.4
32.已知关于的一组有序数对分别为,,,,,,,对应的散点图如下.
(1)根据散点图,判断(,)和(,)中哪个模型的拟合效果更好;
(2)请用你在(1)中选出的模型对变量,的关系进行拟合,求出关于的回归方程.
参考数据:,,,.
参考公式:在线性回归方程中,,.
【答案】(1)(,)的拟合效果更好;(2).
【分析】
【详解】解:(1)根据散点图判断,用(,)的拟合效果更好.
(2)根据进行拟合,
两边同时取对数得,
故,则.
因为,,,,
所以.
把代入,得,
所以,,
则,
即关于的回归方程为.
易错07 线性回归分析,误将 “样本点中心”排除在回归直线外
注意:用最小二乘法求回归方程时,计算出错,忽略回归直线必过样本点中心。
处理策略:①求回归方程的核心步骤:先算,再算,最后用计算截距;②算完后验证是否满足回归方程,快速检验正误。
33.某投资公司2020-2024年的投资与收益情况如下表所示:(单位:千万元)
投资
2.3
2.5
3.9
5.4
5.9
收益
0.3
1.4
1.9
2.6
3.8
根据表中数据利用最小二乘法,可得回归直线方程为,由此估计如果2025年该公司的投资为8千万元时,它的收益为( )
A.5.1千万元 B.5.2千万元 C.5.3千万元 D.5.4千万元
【答案】B
【详解】由表格中的统计数据,可得:
,,
即样本中心为,代入回归直线方程,可得,解得,
所以回归直线方程为,
当时,可得,即收益为千万元.
故选:B.
34.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
【答案】A
【详解】,则样本中心点为,
对于A,由,得,A正确;
对于B,由,得与的样本是正相关,B错误;
对于C,当时,的预估值为,C错误;
对于D,由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,D错误.
故选:A
35.(多选)某车间为了解加工的零件数x(单位:个)与加工时间y(单位:min)的关系,收集到5组观测数据(如下表所示):
零件数x/个
10
20
30
40
50
加工时间y/min
67
74
80
86
93
假设加工时间与加工的零件数满足的经验回归方程为,则( )
A.
B.当时,的预测值为102
C.加工时间的5个观测数据的分位数为80
D.当加工的零件数时,加工时间的残差为0.2
【答案】AD
【详解】由题意,,
,
因为经验回归直线必过点,即点,
则,解得,即,故A正确;
当时,,故B错误;
将加工时间的5个观测数据从小到大排列为:,
由于,则分位数为,故C错误;
当时,,
则残差为,故D正确.
故选:AD
36.已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时, .
【答案】7
【详解】由样本数据点集求得的经验回归方程为,且,
所以,故数据的样本中心点为,
去掉,,
重新求得的经验回归直线的斜率估计值为,
经验回归方程设为,代入,求得,
所以经验回归直线的方程为:,将代入经验回归方程,求得的估计值为.
故答案为:7.
易错08 求解独立性检验问题对的值理解不准确
注意:①计算时,代入列联表数据出错;②把 “”理解为“两个变量有关系的概率为”,混淆推断结论。
处理策略:①熟记公式,代入列联表数据时标注对应位置,分步计算避免出错;②明确推断规则:→推断不成立,犯错误的概率不超过,而非 “两个变量有关系的概率为”。
37.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是( )
日落云里走夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
参考公式:
临界值参照表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
【答案】D
【详解】选项A:根据列联表可知:100天中有50天下雨,50天未下雨,
因此夜晚下雨的概率约为,故选项A正确;
选项B:未出现“日落云里走”,夜晚下雨的概率约为,故选项B正确;
选项C:因为 ,所以据小概率值的独立性检验,
可以认为“日落云里走”是否出现与夜晚天气有关,故选项C正确;
选项D:依据小概率值的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.01,但不代表一定会下雨,故选项D错误.
故选:D
38.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取100名学生.通过测验得到如下的列联表:
单位:人
学校
数学成绩
合计
不优秀
优秀
甲
40
10
50
乙
30
20
50
合计
70
30
100
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
下列结论正确的是( )
A.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率无差异
B.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
C.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
D.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
【答案】B
【详解】零假设为:两校学生的数学成绩优秀率无差异,
A,若,因为,故有充分的证据推断不成立,
即两校学生的数学成绩优秀率有差异,故A错误;
B,若,因为,故有充分的证据推断不成立,
即两校学生的数学成绩优秀率有差异,故B正确;
C,若,因为,故没有充分的证据推断不成立,
即两校学生的数学成绩优秀率无差异,故C错误;
D,若,因为,故没有充分的证据推断不成立,
即两校学生的数学成绩优秀率无差异,故D错误.
故选:B
39.某班主任对全班50名学生进行了作业量的调查,数据如下表:
性别
作业量
大
不大
总计
男
18
9
27
女
8
15
23
总计
26
24
50
则推断“学生的性别与认为作业量大有关”的把握为( )
附表:
A. B. C. D.
【答案】A
【详解】由独立性检验公式得,
所以推断“学生的性别与认为作业量大有关”的把握为.
故选:A
40.目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别
对汽车的偏好
体验流
技术流
总计
男
30
50
女
40
总计
100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
【答案】D
【详解】对于A,由题意,补充完整的列联表如下:
性别
对汽车的偏好
体验流
技术流
总计
男
20
30
50
女
40
10
50
总计
60
40
100
则在样本中的女性中,按分层随机抽样的方法再抽取10人,应从“体验流”中抽取(人).故A错误;
对于BCD,对于成员甲有,
故小组成员甲有99%的把握认为对汽车的偏好与性别有关;
对于成员乙有,
故小组成员乙认为对汽车的偏好与性别无关.
综上,小组成员甲、乙计算出的值不同,他们得出的结论也不同.故B错误,C错误,D正确.
故选:D
41.(多选)根据分类变量x与y的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:
A.零假设为:分类变量x与y独立
B.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1
C.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
D.若所有样本数据都扩大为原来的10倍,根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
【答案】ABD
【详解】对A:零假设:分类变量x与y独立.是正确的,故A正确;
对B:因为,所以根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1,故B正确;
对C:因为,根据小概率值的独立性检验,我们不能拒绝零假设,即可以认为x与y独立.故C错误;
对D:根据,当所有样本数据都扩大为原来的10倍,的值夜变成原来的10倍,且,所以根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01,故D正确.故选:ABD
1.已知离散型随机变量的分布列如下表:
2
4
8
若,则( )
A. B.
C. D.
【答案】ACD
【详解】由分布列性质,得,解得,故选项A正确;
由数学期望公式,得,解得,故选项C正确;
因,故选项B错误;
因为,,
所以,故选项D正确.
故选:ACD.
2.如图是一块高尔顿板示意图:在一块木板上钉着若干排互相平行但相互错开的圆柱形小木块,小木块之间留有适当的空隙作为通道,小球从上方的通道口落下后,将与层层小木块碰撞,最后掉入下方的某一个球槽内.若小球下落过程中每次与小木块碰撞后,向左、向右落下的机会均等,则小球最终落入③号球槽和⑥号球槽的概率之和为( )
A. B. C. D.
【答案】B
【详解】下落过程中,需要经过6次碰撞,每次向左、向右落下的概率均为,
落入③号球槽需向左4次,向右2次,则,
落入⑥号球槽需向左1次,向右5次,则,
则小球最终落入③号球槽和⑥号球槽的概率之和为.
故选:B
3.从一个装有3个白球和5个黑球的袋子中无放回地取球2次,每次取球1个,记为取得白球的次数,则 .
【答案】/0.75
【详解】因为为取得白球的次数,所以的可能的值为,且随机变量服从超几何分布.
,,.
所以的分布列为:
0
1
2
P
所以.
故答案为:.
4.一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为. ,分布如图所示,且,则下列说法错误的是( )
A.样本负相关 B.
C. D.处理后的决定系数变大
【答案】C
【详解】对于A,经验回归方程中斜率,则样本负相关,A正确;
对于B,原样本均值:,
由,得,B正确:
对于C,由图1的数据波动较大可得比更集中,则,C错误;
对于D,由图1的残差平方和较图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.
故选:C.
5.已知具有线性相关的两个变量之间的一组数据如表:
0
1
2
3
4
2.5
4.0
4.3
4.2
且回归直线方程是,则( )
A.6.2 B.6.3 C.6.4 D.6.5
【答案】D
【详解】由数据表,得,
依题意,回归直线过点,则,
所以.
故选:D
6.春节期间,“厉行节约,反对浪费”之风悄然兴起,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
性别
“光盘”行动
合计
做不到“光盘”
能做到“光盘”
男
45
10
55
女
30
15
45
合计
75
25
100
附:
0.10
0.05
0.025
2.706
3.841
5.024
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有以上的把握认为”该市居民能否做到‘光盘’与性别无关”
【答案】C
【详解】由统计表格中的数据,可得,
所以有以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
故选:C.
7.为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班级随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,,该班某生的脚长为25,据此估计其身高为 ;
【答案】厘米
【详解】因为,,
所以,,,
代入中,得,
即,某生的脚长为25,
所以,
因此据此估计其身高为厘米.
故答案为:厘米
8.(多选)某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60名学生的短跑成绩合格.这100名学生中有45名学生每周的锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周的锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周的锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周的锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率代替概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训,依据小概率的独立性检验,零假设为:学生短跑成绩合格与每周锻炼时间相互独立,则下列结论正确的是( )
参考公式与数据:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
A.可以推断成立,即认为学生短跑成绩合格与每周锻炼时间超过5小时无关
B.可以推断不成立,即认为学生短跑成绩合格与每周锻炼时间超过5小时有关
C.学生甲参加培训后短跑成绩合格的概率为
D.学生甲参加培训后短跑成绩合格的概率为
【答案】BC
【详解】表格如下:
单位:人
每周的锻炼时间
短跑成绩
合计
短跑成绩合格
短跑成绩不合格
每周的锻炼时间超过5小时
35
10
45
每周的锻炼时间不超过5小时
25
30
55
合计
60
40
100
零假设为:学生短跑成绩合格与每周锻炼时间相互独立.
根据表中的数据,可得,
根据小概率值的独立性检验,可以推断不成立,
即认为学生短跑成绩合格与每周的锻炼时间超过5小时有关.
设事件“学生甲参加跑步技巧培训后短跑成绩合格”,
事件“学生甲每周的锻炼时间超过5小时,短跑成绩不合格”,
“学生甲每周的锻炼时间不超过5小时,短跑成绩不合格”,
则,,,
所以,
所以从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训后,学生甲短跑成绩合格的概率为.
故选:BC
9.有4个相同的球,分别标有数字1,2,3,4,从中不放回的随机取两次,每次取1个球.甲表示事件“第一次取出的球的数字是1”,乙表示事件“第二次取出的球的数字是2”,丙表示事件“两次取出的球的数字之和是5”,丁表示事件“两次取出的球的数字之和是4”,则下列选项不正确的是( )
A.甲与丙相互独立 B.甲与乙相互独立
C.丙与丁互斥 D.乙与丁互斥
【答案】B
【详解】由题意可得两次取球所有可能情况为,,,,,,,,,,,共种情况;
第一次取出的球的数字是1,所有可能为,,共3种情况;
第二次取出的球的数字是2,所有可能为,,共3种情况;
则两次取出球的数字之和为的所有可能为,,,共种情况;
两次取出球的数字之和为的所有可能为,共种情况;
记“第一次取出的球的数字是1”为,“第二次取出的球的数字是2”为,
“两次取出的球的数字之和是5”为,“两次取出的球的数字之和是4”为,
则,,,.
A:当甲丙同时发生时,取出的恰是,此时,
故甲丙相互独立,故A正确;
B:当甲乙同时发生时,取出的恰是,此时,,
故甲乙不相互独立,故B错误;
C:由不可能同时发生,故丙与丁互斥,故C正确;
D:当第二次取出的球的数字是2时,第一次不可能取2,即两次取出的数字之和不能为4,故乙丁不能同时发生,则乙与丁互斥,故D正确;
故选:B.
10.从甲地到乙地要经过3个十字路口,设各路口信号灯工作相互独立,且在各路口遇到红灯的概率分别为,,.设X 表示一辆车从甲地到乙地遇到红灯的个数,则随机变量X 的数学期望为 .
【答案】
【详解】随机变量X的所有可能取值为0,1,2,3,则:
,
,
,
.
所以随机变量X的分布列为
X
0
1
2
3
P
随机变量X的数学期望.
故答案为:.
11.判断下列各对事件是不是相互独立事件.
(1)甲组有3名男生,2名女生,乙组有2名男生,3名女生,现从甲、乙两组中各选1名同学参加演讲比赛,“从甲组中选出1名男生”与“从乙组中选出1名女生”;
(2)一筐内有6个苹果和3个梨,“从中任意取出1个,取出的是苹果”与“把取出的水果放回筐内,再从筐内任意取出1个,取出的是梨”;
(3)一个布袋里有大小完全相同的3个白球,2个红球,“从中任意取1个球是白球”与“取出的球不放回,再从中任意取1个球是红球”.
【答案】(1)是相互独立事件
(2)是相互独立事件.
(3)不是相互独立事件.
【详解】(1)“从甲组中选出1名男生”这一事件是否发生对“从乙组中选出1名女生”这一事件发生的概率没有影响,
所以二者是相互独立事件.
(2)由于把取出的水果又放回筐内,故“从中任意取出1个,
取出的是苹果”这一事件是否发生对“再从筐内任意取出1个,
取出的是梨”这一事件发生的概率没有影响,所以二者是相互独立事件.
(3)不放回地取球,前者的发生影响后者发生的概率,所以二者不是相互独立事件.
12.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种疫苗的情况,得如下统计表:
第天
1
2
3
4
5
新接种人数
10
15
19
23
28
(1)建立关于的线性回归方程;
(2)预测该村居民接种新冠疫苗需要几天?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为: ,.
【答案】(1);(2).
【分析】
【详解】(1),,
则,,
故关于的线性回归方程.
(2),
设,数列的前项和为,易知数列是等差数列,
则,
因为,,
所以预测该村居民接种新冠疫苗需要天.
【点睛】关键点点睛:本题考查线性回归方程的求法以及实际应用,能否根据表中数据求出、是 解决本题的关键,考查等差数列求和公式的应用,考查计算能力,是中档题.
13.某研究机构对高三学生的记忆力和判断力进行统计分析,得下表数据:
6
8
10
12
2
3
5
6
若与具有线性相关关系,求经验回归方程.
【答案】
【详解】应用已知得,
,,
,
,
,
故经验回归方程为.
14.某工厂购进6台车床,其中4台是合格品,2台是次品,需要修理后才能使用.由于车床外表没有区别,技术员要找出2台次品修理,只能逐台检查.若找出2台次品,或找出4台合格品,就结束查找.
(1)求第1次查找到的是合格品的概率;
(2)记为查找结束时的查找次数,求的分布列和数学期望.
【答案】(1)
(2)分布列见解析,
【分析】
【详解】(1)因为6台中有4台合格品,所以第1次查找的是合格品的概率;
(2)的可能取值为2,3,4,5,
其中表示表示第二次检查时结束,可能的原因是:检查的两台均为次品,则;
表示表示第四次查找时结束,可能的原因是:最后一台检查为次品,前两次检查找到次品和合格品各一台,
则,
表示第四次检查时结束,可能的原因是:最后一件为次品且前三次中有一个次品,或者四件均为合格品,
则,
则,
所以的分布列为:
2
3
4
5
1 / 6
学科网(北京)股份有限公司
$
第四章 概率与统计
知识点
具体内容
条
件
概
率
与
事
件
的
独
立
性
1.条件概率
①条件概率的概念:一般地,设A,B为两个随机事件,且P(A)>0,我们称为在事件_______发生的条件下,事件_______发生的条件概率.
②条件概率的解法
方法
公式或步骤
定义法
基本事件法
缩小样本空间法
_______第一次抽到的情况,只研究剩下的情况,用古典概型求解
③乘法公式:对任意两个事件A与B,若P(A)>0,则_______
2.全概率公式
一般地,设是一组两两_______的事件,,且,则对任意的事件,有
图示:
3.贝叶斯公式
①概念:设是一组两两_______的事件,,且,则对任意的事件,,有_______
②作用:贝叶斯公式充分体现了,,,,,之间的转化关系,即,_______,之间的内在联系.
4.相互独立
对任意两个事件与,如果_______成立,则称事件A与事件B相互独立,简称为独立.
如果与相互独立,则与,与,与也相互独立.
随机变量及分布列
1.随机变量
随着试验结果变化而变化的变量称为随机变量,常用字母,…表示.
离散型随机变量:所有取值可以一一_______的随机变量,称为离散型随机变量
2.离散型随机变量分布列的概念及性质
①离散型随机变量的分布列的概念
设离散型随机变量X可能取的不同值为,,…,,X取每一个值 ()的概率,则下表称为随机变量X的概率分布,简称为X的分布列.
X
…
…
P
…
…
有时也用等式表示X的分布列.
②离散型随机变量的分布列的性质
(1)(i=1,2,…,n);(2)_______.
三大分布
1.两点分布的分布列
_______
若随机变量的分布列为两点分布列,就称服从两点分布或分布,并称为成功概率.
2.二项分布
定义:在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A发生的概率是p,此时称随机变量X服从_______,记作,并称p为成功概率.
在n次独立重复试验中,事件A恰好发生k次的概率为_______
3.超几何分布
①定义:在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则_______,
k=0,1,2,…,m,其中m=min{M,n},且n,M,N∈N*,即如果随机变量X的分布列具有下表形式
X
0
1
…
m
P
…
则称随机变量X服从超几何分布.
4.二项分布和超几何分布区别和联系
二项分布
超几何分布
二项分布是_______抽样问题,在每次试验中某一事件发生的概率是_______的
超几何分布是_______抽样问题,在每次试验中某一事件发生的概率是_______的
不需要知道总体的容量
需要知道_______的容量
当总体的容量_______时,超几何分布近似于二项分布
随机变量的均值与方差
1.离散型随机变量的均值与方差
一般地,若离散型随机变量X的分布列为:
X
…
…
P
…
…
(1)称_______为随机变量X的均值或数学期望,它反映了离散型随机变量取值的平均水平.
(2)称_______为随机变量X的方差,它刻画了随机变量X与其均值E(X)的平均偏离程度,其算术平方根为随机变量X的标准差.
方差的变形:
2.均值与方差的性质
若Y=aX+b,其中a,b为常数,则Y也是随机变量,
则______________
3.特殊分布的均值与方差
(1)两点分布
若,则;
(2)二项分布
若,则;______________
(3)超几何分布
若离散型随机变量x服从超几何分布,则有若,则_______
正态分布
1.正态分布
①正态曲线:称其中为参数,为正态密度函数,称其图象为正态分布密度曲线(其中μ是正态分布的_______,σ是正态分布的_______)
②正态分布的定义
若随机变量X的概率密度函数为f(x),则称随机变量X服从正态分布,记为_______.特别地,当时,称随机变量X服从_______正态分布.
2.正态曲线的性质
对,它的图象在轴的上方
曲线与轴之间的面积为_______
曲线是单峰的,它关于直线_______对称
曲线在处达到峰值
当无限增大时,曲线无限接近_______
当一定时,曲线的位置由确定,曲线随着的变化而沿x轴平移
当一定时,曲线的形状由确定,较小时曲线“_______”,表示随机变量X的分布比较集中;较大时,曲线“_______”,表示随机变量的分布比较分散,
3.三个特殊区间内取值的概率值及3σ原则
①;;
.
②原则:尽管正态变量的取值范围是,但在一次试验中,X的取值几乎总是落在区间_______内,而在此区间以外取值的概率大约只有0.0027,通常认为这种情况在一次试验中几乎不可能发生.所以在实际应用中,通常认为服从于正态分布的随机变量X只取中的值
线性回归方程
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量_______;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量_______
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条_______附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量_______
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
_______
当r>0时,表明两个变量_______;当r<0时,表明两个变量_______
|r|越接近于1,表明两个变量的线性相关性越_______;|r|越接近于0,表明两个变量的线性相关性越_______
通常|r|大于_______时,认为两个变量有很强的线性相关关系
3.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的_______最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中______________,_______称为样本点的中心.
②线性回归模型,其中称为随机_______,自变量称为解释变量,因变量称为预报变量
4.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于_______,表示回归的效果越好
残差点比较_______地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越_______,说明模型拟合精确度越高.
残差平方和越_______,模型的拟合效果越好
5.建立非线性回归模型的基本步骤:
①确定研究对象,明确哪个是解释变量,哪个是预报变量;
②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
③由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、指数函数、对数函数模型等);
④通过_______,将非线性回归方程模型转化为_______回归方程模型;
⑤按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
⑥消去_______,得到非线性回归方程;
⑦得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
常见的非线性回归方程的转化:
曲线方程
变换公式
变换后的线性关系式
_______
_______
独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
易错01 误判事件的相互独立性,凭主观判断而非公式验证
注意:①严格用公式验证独立性,拒绝主观臆断;②若与独立,直接推导与、与、与均独立,无需重复验证。
1.(多选)投掷一枚正四面体骰子,其各面的数字分别为1,2,3,4,记其投出后落地与水平面接触的数字为点数,连续投出两次,第一次得到的点数为,第二次得到的点数为,记事件“为偶数”,事件“为奇数”,事件“为偶数”,则下列正确的有( )
A.与互斥 B.与相互独立 C.与相互独立 D.
2.(多选)某省开展慈善文化进机关、进企业、进乡村、进社区、进家庭活动,通过讲座、公益市集、志愿服务等形式,重点帮扶特殊困难群体.现有,,共3场慈善知识竞赛和慰问活动需要安排志愿者,小林从右图中四张同样大小的卡片中随机抽取一张,卡片上的字母代表小林参加的活动场次,例如抽到写有字母的卡片代表小林参加场活动,若抽到写有3个字母的卡片代表小林参加3场活动,则( )
A.“小林参加场活动”与“小林参加场活动”互斥
B.“小林参加场活动”与“小林参加场活动”相互独立
C.“小林不参加场活动”与“小林不参加场活动”相互独立
D.“小林不参加场活动”与“小林参加场或场活动”相互独立
3.(多选)有6个相同的球,分别编号,从中先不放回的随机取两次,再将球全部放回随机取一次,记事件甲:第一次取球编号数字大于4;乙:第二次取球编号数字为奇数;丙:第三次取球编号为3;丁:前两次取球编号数字和为6;戊:第一、三次取球编号数字至少有一个5.则下列事件与甲事件独立的是:( )
A.乙 B.丙 C.丁 D.戊
4.(多选)一个正八面体,八个面分别标以数字1到8,任意抛掷一次这个正八面体,等它停止后,观察它与地面接触的面上的数字,得到样本空间为,记事件,则下列说法正确的是( )
A.相互独立 B.相互独立
C.相互独立 D.
5.一个盒子中装有4张卡片,卡片上分别写有数字1、2、3、4.现从盒子中随机抽取卡片.
(1)若第一次抽取1张卡片,放回后再抽取1张卡片,事件B表示“两次抽取的卡片上数字之和大于”,求;
(2)若一次抽取2张卡片,事件表示“2张卡片上数字之和是3的倍数”,事件表示“2张卡片上数字之积是4的倍数”.判断事件C与D是否独立,并证明.
易错02 离散型随机变量分布列,忽略性质验证(概率和为1、单概率非负)
注意:①求完分布列后,必做两步验证:所有概率≥0、概率之和为1;②若计算中出现概率为负,立即检查取值范围或公式使用是否错误。
6.有6个相同的球,分别标有数字1,2,3,4,5,6,从中不放回地随机取球,若存在为整数,使得标有数字和的球均已被取出,则停止取球.记为取出的球的个数,则的数学期望 .
7.“村BA”正盛行,它不仅是一场体育赛事,也是一场文化盛宴,更是一台经济引擎.某校为激发学生对篮球、足球、排球运动的兴趣,举行了一次有关三大球类运动的知识竞赛,海量题库中篮球、足球、排球三类相关知识题量占比分别为.甲同学回答篮球、足球、排球这三类问题中每个题的正确率分别为.
(1)若甲同学在该题库中任选一题作答,求他回答正确的概率;
(2)若甲同学从这三类题中各任选一题作答,每回答正确一题得3分,回答错误得-1分.设该同学回答三题后的总得分为X分,求X的分布列及数学期望;
9.乒乓球比赛规则规定:在双方打成10平后,领先两分者获胜,比赛结束.在某校组织的乒乓球比赛中,甲、乙两名同学已经打成了10平.已知下一球甲同学得分的概率为,且对以后的每一球,若甲同学在本球中得分,则他在下一球的得分概率为,若甲同学在本球中未得分,则他在下一球的得分概率为.
(1)求在继续打了两个球后比赛结束的条件下,乙同学获胜的概率;
(2)求再打两个球甲新增的得分的分布列和期望.
10.某校高三年级拟派出甲、乙、丙三人去参加校运动会100m跑项目.比赛分为初赛和决赛,其中初赛有两轮,只有两轮都获胜才能进入决赛.已知甲在每轮比赛中获胜的概率均为;乙在第一轮和第二轮比赛中获胜的概率分别为和;丙在第一轮和第二轮获胜的概率分别为和,其中
(1)甲、乙、丙三人中,谁进入决赛的可能性最大;
(2)若甲、乙、丙三人均未进入决赛的概率为,设进入决赛的人数为,求的分布列.
易错03 混淆超几何分布与二项分布
注意:(1)超几何分布的特点是:①整体一般由两部分组成,比如“男生、女生”“正品、次品”等;②总体一般是有限个.
(2)超几何分布主要应用于抽查产品,摸不同类型的小球等模型
(3)注意特殊背景下的“超几何分布”被转化为“二项分布”,如从两类对象中不放回地抽取个元素,当两类对象的总数量很大时,超几何分布近似于二项分布.
11.(多选)已知盒子中有12个样品,6个不同的正品和6个不同的次品,现从中逐个抽取5个样品.方案一:有放回地抽样,记取得次品个数为X;方案二:不放回地抽样,记取得次品个数为Y,则( )
A.
B.当或3时,最大
C.
D.两种方案中第三次抽到次品的概率均为
12.某食盐厂为了检查一条自动流水线的生产情况,随机抽取该流水线上的100袋食盐称出它们的质量(单位:克)作为样本数据,质量的分组区间为.由此得到样本的频率分布直方图如图:
(1)求的值;
(2)从该流水线上任取2袋食盐,设为质量超过的食盐数量,求随机变量的分布列;
(3)在上述抽取的100袋食盐中任取2袋,设为质量超过的食盐数量,求随机变量的分布列.
13.巴东一中组织庆五一教职工篮球活动,我们年级有10名教职工参加,其中有6名理科教师、4名文科教师,为活动的需要,要从这10名教师中随机抽取3名教职工去买比赛服装.
(1)已知10名教师中有2名班主任,求抽取的3名中至少有1名班主任的概率;
(2)设表示抽取的3名教师中文科教师的人数,求的分布列及数学期望.
14.为激发学习数学的兴趣,高二年级举行数学知识竞赛,赛制规定:共进行5轮比赛,每轮比赛每个班可以从、两个题库中任选1题作答,在前两轮比赛中每个班的题目必须来自同一题库,后三轮比赛中每个班的题目必须来自同一题库,题库每题20分,题库每题30分,一班能正确回答、题库每题的概率分别为、,且每轮答题结果互不影响.
(1)若一班前两轮选题库,后三轮选题库,求其总分不少于100分的概率;
(2)若一班在前两轮比赛中选了题库,而且两轮得分60分,后三轮换成题库,设一班最后的总分为,求的分布、期望及方差.
15.有2台车床加工同一型号的零件,第一台加工的合格品率为,第二台加工的合格品率为;若将这两批零件混合放在一起,则合格品率为.
(1)设第一台车床加工的零件有件,第二台车床加工的零件有件,求证:;
(2)从混合放在一起的零件中随机抽取4个零件,用频率估计概率,记这4个零件中来自第二台车床的个数为,求的分布列、数学期望和方差.
易错04 计算随机变量均值/方差,忽略线性变换的公式易错点
注意:对,误记公式为,遗漏常数项或方差系数平方。
①熟记核心公式:;②计算前先标注公式,避免系数和常数项的错误处理。
16.(多选)已知随机变量的分布列如下,则( )
0
1
2
A. B.
C. D.
17.已知随机变量的分布列为
1
2
3
且,若,则 , .
18.一个袋中装有个白球和个黑球,甲从袋中有放回的随机取次球,每次取个球,取到次白球得分,取到次黑球得分.记甲取球总得分为,则 .
19.已知离散型随机变量的分布列如下表,且.
0
2
(1)求的值;
(2)求的值;
(3)若,求的值.
20.2025年,某生物研究所为了庆祝在基因编辑技术研究方面取得的重大突破,准备举办一次有奖奖励活动,每位参与研究的科研人员都抽一次奖,规则如下:一个不透明的盒子中装有50个质地均匀且大小相同的小球,其中20个红球,30个白球,搅拌均匀后,抽奖人员从中随机抽取一个球,并有放回地连续抽取3次.研究所设计了两种奖励方案.
方案一:若抽到红球,则科研人员获得40元的奖金,若抽到白球,则获得10元的奖金.
方案二:若抽到红球,则科研人员获得60元的奖金,若抽到白球,则没有奖金.
(1)若按方案一抽奖,求最终获得60元奖金的概率;
(2)为了激励科研人员,让科研人员获得更多奖金,试通过比较两种抽奖方案最终获得奖金的数学期望,给出该研究所应选择哪种抽奖方案的建议?
21.某校为了提高教师身心健康号召教师利用空余时间参加阳光体育活动.现有4名男教师,2名女教师报名,本周随机选取2人参加.
(1)记参加活动的女教师人数为X,求X的分布列及期望;
(2)若本次活动有慢跑、游泳、瑜伽三个可选项目,每名女教师至多从中选择参加2项活动,且选择参加1项或2项的可能性均为,每名男教师至少从中选择参加2项活动,且选择参加2项或3项的可能性也均为,每人每参加1项活动可获得“体育明星”积分3分,选择参加几项活动彼此互不影响,记随机选取的两人得分之和为Y,求Y的期望.
易错05 混淆相关系数和决定系数
注意:相关系数:|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱;
决定系数:越接近于1,表示回归的效果越好
22.为了更好地适应市场需求,某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:,
则下列选项不正确的是( )
A.
B.由散点图知变量和正相关
C.相关系数的绝对值越接近0,表示的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
23.为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
24.下列说法正确的是( )
A.一组数据1,1,2,3,5,8,13,21的第60百分位数为4
B.设且,则
C.两个随机变量的线性相关程度越强,则样本相关系数越接近于1
D.在回归分析模型中,若决定系数越小,则残差平方和越大,模型的拟合效果越差
25.2024年12月26日,Deep Seek—V3首个版本正式上线,截至2025年2月9日,Deep Seek APP的累计下载量已超1.1亿次,AI成为当下的热门话题.立德中学高中数学社团以16至40岁人群使用Deep Seek频率为课题,分小组自主选题进行调查研究,下列说法正确的是( )
A.甲小组开展了Deep Seek每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到Deep Seek每周使用频次y关于年龄x的经验回归方程为,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响Deep Seek使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的Deep Seek使用频次没有差异
26.某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
27.如图,为某组数据的散点图,由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为.若经过残差分析后去掉点P,剩余的点重新计算得到回归直线的方程为,相关系数为,决定系数为.则下列结论一定正确的是( )
A. B. C. D.,
易错06 求回归直线方程计算错误
注意:要明白,而且要懂得先约分,再计算
28.近些年来,短视频社交软件日益受到追捧,用户可以通过软件选择歌曲,拍摄音乐短视频,创作自己的作品.某用户对自己发布的视频个数x与收到的点赞个数之和y之间的关系进行了分析研究,得到如下数据:
x
3
4
5
6
7
y
45
50
60
65
70
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为发布的视频个数与收到的点赞数之和的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.
参考公式:,,.参考数据:,.
29.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量(单位:万件)的统计表:
月份代码
1
2
3
4
5
6
7
销售量/万件
但其中数据污损不清,经查证.
(1)请用相关系数说明销售量与月份代码之间有很强的线性相关关系(当时认为两个变量有很强的线性相关关系);
(2)求关于的回归直线方程(结果中保留两位小数);
(3)公司经营期间的广告宣传费(单位:万元),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由(毛利润=销售金额-广告宣传费).
参考数据:,.
30.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
附:回归直线的斜率和截距的最小二乘法估计公式分别为.
31.哈三中高二数学备课组对学生的记忆力和判断力进行统计分析,所得数据如下表所示:
4
6
8
10
2
3
5
6
(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测记忆力为9的学生的判断力.
(参考公式:,)
32.已知关于的一组有序数对分别为,,,,,,,对应的散点图如下.
(1)根据散点图,判断(,)和(,)中哪个模型的拟合效果更好;
(2)请用你在(1)中选出的模型对变量,的关系进行拟合,求出关于的回归方程.
参考数据:,,,.
参考公式:在线性回归方程中,,.
易错07 线性回归分析,误将 “样本点中心”排除在回归直线外
注意:用最小二乘法求回归方程时,计算出错,忽略回归直线必过样本点中心。
处理策略:①求回归方程的核心步骤:先算,再算,最后用计算截距;②算完后验证是否满足回归方程,快速检验正误。
33.某投资公司2020-2024年的投资与收益情况如下表所示:(单位:千万元)
投资
2.3
2.5
3.9
5.4
5.9
收益
0.3
1.4
1.9
2.6
3.8
根据表中数据利用最小二乘法,可得回归直线方程为,由此估计如果2025年该公司的投资为8千万元时,它的收益为( )
A.5.1千万元 B.5.2千万元 C.5.3千万元 D.5.4千万元
34.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
A.
B.x与y的样本是负相关
C.当时,y的预估值为2.2
D.去掉样本点后,x与y的样本相关系数r必会改变
35.(多选)某车间为了解加工的零件数x(单位:个)与加工时间y(单位:min)的关系,收集到5组观测数据(如下表所示):
零件数x/个
10
20
30
40
50
加工时间y/min
67
74
80
86
93
假设加工时间与加工的零件数满足的经验回归方程为,则( )
A.
B.当时,的预测值为102
C.加工时间的5个观测数据的分位数为80
D.当加工的零件数时,加工时间的残差为0.2
36.已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时, .
易错08 求解独立性检验问题对的值理解不准确
注意:①计算时,代入列联表数据出错;②把 “”理解为“两个变量有关系的概率为”,混淆推断结论。
处理策略:①熟记公式,代入列联表数据时标注对应位置,分步计算避免出错;②明确推断规则:→推断不成立,犯错误的概率不超过,而非 “两个变量有关系的概率为”。
37.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是( )
日落云里走夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
参考公式:
临界值参照表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
38.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取100名学生.通过测验得到如下的列联表:
单位:人
学校
数学成绩
合计
不优秀
优秀
甲
40
10
50
乙
30
20
50
合计
70
30
100
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
下列结论正确的是( )
A.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率无差异
B.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
C.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
D.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异
39.某班主任对全班50名学生进行了作业量的调查,数据如下表:
性别
作业量
大
不大
总计
男
18
9
27
女
8
15
23
总计
26
24
50
则推断“学生的性别与认为作业量大有关”的把握为( )
附表:
A. B. C. D.
40.目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别
对汽车的偏好
体验流
技术流
总计
男
30
50
女
40
总计
100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
41.(多选)根据分类变量x与y的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:
A.零假设为:分类变量x与y独立
B.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1
C.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
D.若所有样本数据都扩大为原来的10倍,根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
1.已知离散型随机变量的分布列如下表:
2
4
8
若,则( )
A. B.
C. D.
2.如图是一块高尔顿板示意图:在一块木板上钉着若干排互相平行但相互错开的圆柱形小木块,小木块之间留有适当的空隙作为通道,小球从上方的通道口落下后,将与层层小木块碰撞,最后掉入下方的某一个球槽内.若小球下落过程中每次与小木块碰撞后,向左、向右落下的机会均等,则小球最终落入③号球槽和⑥号球槽的概率之和为( )
A. B. C. D.
3.从一个装有3个白球和5个黑球的袋子中无放回地取球2次,每次取球1个,记为取得白球的次数,则 .
4.一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为. ,分布如图所示,且,则下列说法错误的是( )
A.样本负相关 B.
C. D.处理后的决定系数变大
5.已知具有线性相关的两个变量之间的一组数据如表:
0
1
2
3
4
2.5
4.0
4.3
4.2
且回归直线方程是,则( )
A.6.2 B.6.3 C.6.4 D.6.5
6.春节期间,“厉行节约,反对浪费”之风悄然兴起,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
性别
“光盘”行动
合计
做不到“光盘”
能做到“光盘”
男
45
10
55
女
30
15
45
合计
75
25
100
附:
0.10
0.05
0.025
2.706
3.841
5.024
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有以上的把握认为”该市居民能否做到‘光盘’与性别无关”
7.为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班级随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,,该班某生的脚长为25,据此估计其身高为 ;
8.(多选)某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60名学生的短跑成绩合格.这100名学生中有45名学生每周的锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周的锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周的锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周的锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率代替概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训,依据小概率的独立性检验,零假设为:学生短跑成绩合格与每周锻炼时间相互独立,则下列结论正确的是( )
参考公式与数据:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
A.可以推断成立,即认为学生短跑成绩合格与每周锻炼时间超过5小时无关
B.可以推断不成立,即认为学生短跑成绩合格与每周锻炼时间超过5小时有关
C.学生甲参加培训后短跑成绩合格的概率为
D.学生甲参加培训后短跑成绩合格的概率为
9.有4个相同的球,分别标有数字1,2,3,4,从中不放回的随机取两次,每次取1个球.甲表示事件“第一次取出的球的数字是1”,乙表示事件“第二次取出的球的数字是2”,丙表示事件“两次取出的球的数字之和是5”,丁表示事件“两次取出的球的数字之和是4”,则下列选项不正确的是( )
A.甲与丙相互独立 B.甲与乙相互独立
C.丙与丁互斥 D.乙与丁互斥
10.从甲地到乙地要经过3个十字路口,设各路口信号灯工作相互独立,且在各路口遇到红灯的概率分别为,,.设X 表示一辆车从甲地到乙地遇到红灯的个数,则随机变量X 的数学期望为 .
11.判断下列各对事件是不是相互独立事件.
(1)甲组有3名男生,2名女生,乙组有2名男生,3名女生,现从甲、乙两组中各选1名同学参加演讲比赛,“从甲组中选出1名男生”与“从乙组中选出1名女生”;
(2)一筐内有6个苹果和3个梨,“从中任意取出1个,取出的是苹果”与“把取出的水果放回筐内,再从筐内任意取出1个,取出的是梨”;
(3)一个布袋里有大小完全相同的3个白球,2个红球,“从中任意取1个球是白球”与“取出的球不放回,再从中任意取1个球是红球”.
12.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种疫苗的情况,得如下统计表:
第天
1
2
3
4
5
新接种人数
10
15
19
23
28
(1)建立关于的线性回归方程;
(2)预测该村居民接种新冠疫苗需要几天?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为: ,.
13.某研究机构对高三学生的记忆力和判断力进行统计分析,得下表数据:
6
8
10
12
2
3
5
6
若与具有线性相关关系,求经验回归方程.
14.某工厂购进6台车床,其中4台是合格品,2台是次品,需要修理后才能使用.由于车床外表没有区别,技术员要找出2台次品修理,只能逐台检查.若找出2台次品,或找出4台合格品,就结束查找.
(1)求第1次查找到的是合格品的概率;
(2)记为查找结束时的查找次数,求的分布列和数学期望.
1 / 6
学科网(北京)股份有限公司
$