培优04 概率统计的新定义问题3种重难题型(专项训练)数学人教A版选择性必修第三册
2026-05-16
|
2份
|
40页
|
42人阅读
|
0人下载
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 小结 |
| 类型 | 题集-专项训练 |
| 知识点 | 计数原理与概率统计 |
| 使用场景 | 同步教学-单元练习 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 3.48 MB |
| 发布时间 | 2026-05-16 |
| 更新时间 | 2026-05-16 |
| 作者 | math教育店铺 |
| 品牌系列 | 上好课·上好课 |
| 审核时间 | 2026-05-16 |
| 下载链接 | https://m.zxxk.com/soft/57894014.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
**基本信息**
聚焦概率统计新定义问题,通过计数原理、概率、统计三大模块,以新定义情境整合核心概念,考查数学抽象与逻辑推理能力。
**专项设计**
|模块|题量/典例|题型特征|知识逻辑|
|----|-----------|----------|----------|
|计数原理新定义|8题(含多选、填空)|涉及模同余、圆排列、Euler数等新定义|以排列组合为基础,通过新定义拓展计数场景,构建概念与应用的逻辑链|
|概率新定义|7题(含解答题)|包含权值、条件期望、信息熵等新定义|结合古典概型、随机变量,通过新定义深化概率模型理解,体现实际应用价值|
|统计新定义|7题(含解答题)|涉及性能偏离度、斯皮尔曼相关系数等新定义|基于回归分析、独立性检验,通过新定义提升数据处理与分析能力,强化统计思维|
内容正文:
培优04 概率统计的新定义问题3种重难题型
题型1 计数原理中的新定义问题
1.定义:给定一个正整数,如果两个整数满足能够被整除,就称整数对模同余,记作.若,,则的一组值可能为( )
A., B.,
C., D.,
2.已知全集,集合,,是全集的三个子集,定义:表示集合中元素的个数,若,,则所有的有序子集列有( )
A.360个 B.640个 C.960个 D.1920个
3.(多选)对于一个方格图,定义“连续完美分割”:当且仅当方格图可被互不重叠且连通的四个形状相同的区域完全分割,且每个区域恰含有1个M和1个N.给出下列方格图,可“连续完美分割”的是( )
A. B. C. D.
4.(多选)定义“圆排列”:从个不同元素中选个元素围成一个圆形,称为圆排列,所有圆排列的方法数计为.圆排列是排列的一种,区别于通常的“直线排列”,既无“头”也无“尾”,所以.现有个女生个男生共名同学围坐成一圈,做击鼓传花的游戏,则( )
A.共有种排法
B.若两名女生相邻,则有种排法
C.若男生甲位置固定,则有种排法
D.若两名女生不相邻,共有种排法
5.(多选)对于,,…,的全部排列,定义Euler数(其中,,1,…,n)表示其中恰有次升高的排列的个数(注:次升高是指在排列中有k处,,…,).例如:1,2,3的排列共有:123,132,213,231,312,321六个,恰有1处升高的排列有如下四个:132,213,231,312,因此:.则下列结论正确的有( )
A. B.
C. D.
6.(多选)设是非零实数,定义“数”,“阶乘”,规定,“组合数”.则下列说法正确的有( )
A. B.
C. D.
7.定义:在等式中,把,,,…,,叫做三项式的次系数列(如三项式的1次系数列是1,1,1).
(1)填空:三项式的2次系数列是________;
(2)由杨辉三角数阵表可以得到二项式系数的性质,类似可用三项式次系数列中的系数表示,则的值为________.
8.数学家欧拉把“哥尼斯堡七桥问题(如图①,如何才能走过这七座桥,且每座桥都只能经过一次,最后又回到原来的出发点?)”转化为能否一笔画出图②的问题.定义若以某一点为端点的线有偶数条,则称该点为偶点,否则称为奇点.连通图可以一笔画出的充要条件是:奇点的数目不是0个就是2个(要想一笔画成,若有奇点,起点和终点只能在奇点),因此“哥尼斯堡七桥问题”是无解的.借助上述内容一笔画完成图③的不同路径方法有__________种.
题型2 概率中的新定义问题
9.为测试一种新研发药物的有效性,研究人员对某种动物种群进行试验,从该试验种群中随机抽查了100只,得到如下数据(单位:只):
发病
未发病
合计
使用药物
5
45
50
未使用药物
25
25
50
合计
30
70
100
从该动物种群中任取1只,记事件表示此动物发病,事件表示此动物使用药物,定义的权值,在发生的条件下的权值,则()
A.的估值为,的估值为 B.的估值为,的估值为
C.可化为 D.可化为
10.(多选)已知互不相等的正实数,,,,是,,,的任意顺序的一个排列,定义随机变量,满足则( )
A. B.
C. D.
11.定义:设X,Y是离散型随机变量,则X在给定事件条件下的k阶矩定义为,其中为X的所有可能取值集合,表示事件“”与事件“”都发生的概率.某射击运动爱好者进行射击训练,每次射击击中目标的概率均为,击中目标两次时停止射击.设表示第一次击中目标时的射击次数,表示第二次击中目标时的射击次数,则________,________.
12.口袋中有2个白球和2个红球,这些球除颜色外完全相同.现有两种游戏方案:
游戏一:从袋中有放回地摸球2次,记摸到白球的次数为;
游戏二:从袋中无放回地摸球2次,记摸到白球的次数为.两种游戏的结果相互独立.
(1)分别求两种游戏中第二次摸到白球的概率;
(2)求;
(3)对于随机变量,定义信息熵,它量化了一个随机系统所包含的“不确定性”程度,熵值越大,表明该系统的“不确定性”越高,比较与的大小,并判断哪种游戏的“不确定性”更高.
13.为传承中华优秀传统文化,丰富校园文化生活,哈三中举办“非遗文化进校园”主题活动,现有来自剪纸、皮影、刺绣、泥塑4个非遗项目的传承人各1名,安排到剪纸、皮影、刺绣、泥塑4个非遗体验工坊进行授课,要求每个工坊安排1名传承人,每名传承人仅在一个工坊授课.
(1)求在剪纸项目的传承人在剪纸工坊授课的条件下,皮影项目的传承人不在皮影工坊授课的概率;
(2)在概率论和统计学中,常用协方差来描述两个随机变量之间的线性相关程度,给定离散型随机变量X,Y,定义协方差为.如果协方差为正,说明两个随机变量具有正相关关系;如果协方差为负,说明两个随机变量具有负相关关系;如果协方差为零,说明两个随机变量在线性关系上不相关.在参与授课的4名传承人中,记在对应项目工坊授课的传承人数为,不在对应项目工坊授课的传承人数为.
(ⅰ)求随机变量的分布列;
(ⅱ)求,并说明X,Y之间的线性相关关系.
14.现将红色、黄色、蓝色的3个小球随机放入甲、乙、丙、丁四个盒子中(每个盒子容纳球数不限).
(1)记甲盒中小球个数为,求的分布列和;
(2)对于两个不相互独立的事件,,,.
①若,则称事件与正相关(的发生会“促进”的发生);若,则称事件与负相关(的发生会“抑制”的发生);
②定义为与的相关系数.
(ⅰ)若,求证:与正相关;
(ⅱ)定义事件“甲盒中恰有一个小球”,事件“甲盒中含有红球”.求,并判断事件与的相关情况.
15.某种微生物群体可以通过自身繁殖的方式不断生存下来,且每个个体繁殖后自身消亡.假设开始时有一个该微生物个体,称为第0代,经过一次繁殖后产生第1代,第1代经过一次繁殖后产生第2代,…,每个该微生物个体繁殖产生下一代个数为1和2的概率均为,假设每个个体繁殖过程相互独立,记随机变量为繁殖产生的第代的个体总数.
(1)若,求的分布列和期望;
(2)证明:;
(3)定义:的条件下,随机变量的期望称为条件期望,记作,且.求.参考公式:
题型3 统计中的新定义问题
16.如图的列联表中,定义,易知越大越有利于结论“与有关系”.若当值大于常数时,有的把握认为与有关系,那么的值为( )
(已知,其中,)
总计
总计
A. B.
C. D.
17.某研究性学习小组针对“使用大绿书的用户是否存在性别差异”,向个人进行调查.用表示所有调查对象构成的集合.以为样本空间建立古典概型,并定义一对分类变量和如下:对于中的每一名学生,,现得到下表:
是大绿书的用户
不是大绿书的用户
男性
女性
若根据的独立性检验认为(其中),则的最小值为__________.(参考公式:,其中)
18.某国产芯片企业测试了10款自研芯片的单线程运算性能得分(得分越高,性能越好),芯片发布编号记为,性能得分记为,对应情况如下表:
1
2
3
4
5
6
7
8
9
10
21
26
34
40
49
56
61
68
77
83
(1)从这10个性能得分中随机抽取3个,求抽取的3个数据中,恰有两个数据不低于这组数据的第65百分位数的概率;
(2)若性能得分关于芯片发布编号的线性回归方程为,求该回归方程;
(3)为评估芯片性能的“实际表现水平”,企业定义了“性能偏离度”.对于第款芯片,其性能偏离度为(其中为实际性能得分,为第(2)问中回归方程的预测性能得分),并规定性能偏离度不超过2%的芯片为“表现稳定款”,假设第11款发布的芯片为“表现稳定款”,求其实际性能得分应保持的范围.
参考公式和数据:,,,,
19.近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
20.某社交平台对用户行为进行分析,收集了每位用户每日的活跃时间(单位:小时)和发布内容数量(单位:条).为分析两变量间的相关性,需对数据进行标准化处理.现随机抽取名用户,得到数据,定义标准化变量与的相关系数为.
(1)证明:且.
(2)基于历史数据,用户活跃时间,设平台服务成本为随机变量,当时,,当时,,当时,,若在变化,且0.9544,求的期望的取值范围.
(3)设维向量与的数量积定义为,模长定义为与的夹角满足.设x,y标准化变量对应的向量分别为为向量与的夹角.该平台还记录了每位用户的好友数量(单位:人),其标准化变量对应的向量,).已知活跃时间与发布内容数量的相关系数为,发布内容数量与好友数量的相关系数为,设与的夹角为与的夹角为,且,求活跃时间与好友数量的相关系数的取值范围.
附相关公式:与的相关系数.
21.某兴趣学习小组为研究物理成绩与知识竞赛成绩之间的相关关系,通过对随机抽样出来的20组数据的物理成绩和知识竞赛成绩数据如下表:
学生编号
1
2
3
4
5
6
7
8
9
10
物理成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号
11
12
13
14
15
16
17
18
19
20
物理成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
一些统计量的值:
75
90
6464
149450
21650
(1)求这组学生的物理成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设为正整数,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记.证明:;
(ii)用(i)的公式求这组学生的物理成绩和知识竞赛成绩的“斯皮尔曼相关系数”,并简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
【附参考公式及参考数据:对于一组成对数据,其相关系数】
22.北京冬奥会助推户外冰雪运动发展持续升温,近年来越来越多的青年学生喜爱这一运动,为了研究性别与青年学生是否喜爱冰雪运动之间的关系,从某高校的男、女生中各随机抽取200名进行问卷调查,得到如下列联表.
喜爱
不喜爱
合计
男生
200
女生
200
合计
280
120
400
(1)当时,从样本中喜爱冰雪运动的学生中,按性别采用按比例分配的分层随机抽样方法抽取7人,再从这7人中随机抽取4人调研喜爱的原因,记这4人中男生的人数为,求的分布列与数学期望.
(2)定义,其中为列联表中第行第列的实际数据,为列联表中第行与第列的总频率之积再乘列联表的总额数得到的理论频数,如,.基于小概率值的检验规则:首先提出零假设(变量相互独立),然后计算的值,当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过;否则,我们没有充分证据推断不成立,可以认为和独立.根据的计算公式,求解下面问题:
①当时,依据小概率值的独立性检验,分析性别与青年学生是否喜爱冰雪运动有关?
②当时,依据小概率值的独立性检验,若认为性别与青年学生是否喜爱冰雪运动有关,则至少有多少名男生喜爱冰雪运动?
附:
0.1
0.025
0.005
2.706
5.024
7.879
学科网(北京)股份有限公司1 / 17
学科网(北京)股份有限公司
$
培优04 概率统计的新定义问题3种重难题型
题型1 计数原理中的新定义问题
1.定义:给定一个正整数,如果两个整数满足能够被整除,就称整数对模同余,记作.若,,则的一组值可能为( )
A., B.,
C., D.,
【答案】D
【详解】依题意得能够被5整除.
而
,
所以能够被5整除.
对于A,,,则,不能被5整除,A不正确.
对于B,,,则,显然不能被5整除,B不正确.
对于C,,,则
,
不能被5整除,C不正确.
对于D,,,则
,能被5整除,
故选:D.
2.已知全集,集合,,是全集的三个子集,定义:表示集合中元素的个数,若,,则所有的有序子集列有( )
A.360个 B.640个 C.960个 D.1920个
【答案】C
【详解】由,得从全集中选择3个元素分别作为中的元素,不同方法种数是,
余下的两个元素中的每一个元素只能是属于中的一个或都不属于这3个集合,
因此余下的两个元素中的每一个元素都有4种不同的选择方法,
所以所有的有序子集列有个.
故选:C
3.(多选)对于一个方格图,定义“连续完美分割”:当且仅当方格图可被互不重叠且连通的四个形状相同的区域完全分割,且每个区域恰含有1个M和1个N.给出下列方格图,可“连续完美分割”的是( )
A. B. C. D.
【答案】ACD
【详解】A,C,D可“连续完美分割”如图:
对于B,对于4×4的方格,其可行的“连续完美分割”,仅有以下5种情形或其旋转图形,
经验证,符合条件的分割方式不存在.
4.(多选)定义“圆排列”:从个不同元素中选个元素围成一个圆形,称为圆排列,所有圆排列的方法数计为.圆排列是排列的一种,区别于通常的“直线排列”,既无“头”也无“尾”,所以.现有个女生个男生共名同学围坐成一圈,做击鼓传花的游戏,则( )
A.共有种排法
B.若两名女生相邻,则有种排法
C.若男生甲位置固定,则有种排法
D.若两名女生不相邻,共有种排法
【答案】ABD
【详解】对于A,根据圆排列公式可知名学生围坐成一圈,共有种排法,A正确;
对于B,将两名女生看作一个整体,有种排列方式;与名男生一起围成圆圈,则共有种排法,B正确;
对于C,若男生甲位置固定,考虑以甲为基准的顺逆时针排列,则有种排法,C错误;
对于D,先将名男生围坐成一圈,再在个空位中任选个,安排两名女生,则共有种排法,D正确.
故选:ABD.
5.(多选)对于,,…,的全部排列,定义Euler数(其中,,1,…,n)表示其中恰有次升高的排列的个数(注:次升高是指在排列中有k处,,…,).例如:1,2,3的排列共有:123,132,213,231,312,321六个,恰有1处升高的排列有如下四个:132,213,231,312,因此:.则下列结论正确的有( )
A. B.
C. D.
【答案】AC
【详解】选项A,将、、、全部排列,恰有1次升高的排列为,
1排首位时,共有1432,共1个排列符合恰有1次升高;
2排首位时,共有2431,2143,共2个排列符合恰有1次升高;
3排首位时,共有3142,3214,3241,3421共4个排列符合恰有1次升高;
4排首位时,共有4132,4213,4231,4312共4个排列符合恰有1次升高;
故,故正确;
选项,将、、、全部排列,恰有2次升高,排列个数可以如下考虑:
1排首位时,共有1324,1423,1342,1243共4个排列符合恰有2次升高;
2排首位时,共有2134,2341,2314,2413共4个排列符合恰有2次升高;
3排首位时,共有3124,3412共2个排列符合恰有2次升高;
4排首位时,共有4123共1个排列符合恰有2次升高;
故,故B错误;
选项C,举例当,,,
当由选项、知,,该对称性普遍成立,
故.故C正确;
选项D,不妨取,则,而,,则,即,故,故D错误;
故选:.
6.(多选)设是非零实数,定义“数”,“阶乘”,规定,“组合数”.则下列说法正确的有( )
A. B.
C. D.
【答案】AC
【详解】对于A,,,,,
,,
,故A正确;
对于B,由定义知,故,故B错误;
对于C,,,
所以,
因为,即,故C正确;
对于D,由上述,代入D并不成立,故D错误.
故选:AC.
7.定义:在等式中,把,,,…,,叫做三项式的次系数列(如三项式的1次系数列是1,1,1).
(1)填空:三项式的2次系数列是________;
(2)由杨辉三角数阵表可以得到二项式系数的性质,类似可用三项式次系数列中的系数表示,则的值为________.
【答案】 50
【分析】
【详解】空一:由,
所以三项式的次系数列是
空二:由题意表示展开式中的系数,
所以.
故答案为:;50
8.数学家欧拉把“哥尼斯堡七桥问题(如图①,如何才能走过这七座桥,且每座桥都只能经过一次,最后又回到原来的出发点?)”转化为能否一笔画出图②的问题.定义若以某一点为端点的线有偶数条,则称该点为偶点,否则称为奇点.连通图可以一笔画出的充要条件是:奇点的数目不是0个就是2个(要想一笔画成,若有奇点,起点和终点只能在奇点),因此“哥尼斯堡七桥问题”是无解的.借助上述内容一笔画完成图③的不同路径方法有__________种.
【答案】
【详解】如图,两个奇点和分别做起点,有两种情况,
与之间有三种途径:①,②,③,
其中一笔完成有种画法:,
,
,
若做起点,从出发有三种不同的路径能到达,从返回有两种不同的路径,
所以不同路径方法有种.
故答案为:.
【点睛】易错点点睛:求解分类、分步计数原理需要注意以下几点:
(1)处理计数问题,应扣紧两个原理,根据具体问题首先弄清楚是“分类”还是“分步”,要搞清楚“分类”或“分步”的具体标准;
(2)分类时要满足要满足两个条件:①类与类之间要互斥(保证不重复);②总数要完备(保证不遗漏),也就是要确定一个合理的分类标准;
(3)分步时应按事件发生的连贯过程进行分析,必须做到步与步之间互相独立,互不干扰,并确保连续型.
题型2 概率中的新定义问题
9.为测试一种新研发药物的有效性,研究人员对某种动物种群进行试验,从该试验种群中随机抽查了100只,得到如下数据(单位:只):
发病
未发病
合计
使用药物
5
45
50
未使用药物
25
25
50
合计
30
70
100
从该动物种群中任取1只,记事件表示此动物发病,事件表示此动物使用药物,定义的权值,在发生的条件下的权值,则()
A.的估值为,的估值为 B.的估值为,的估值为
C.可化为 D.可化为
【答案】AC
【详解】对AB,根据表格和频率估计概率:事件为动物发病,总样本数为,发病共只,
因此,。由定义
事件为此动物使用药物,发生条件下,用药共只,其中发病只,
因此,。由定义.因此选项A正确,选项B错误.
对CD,利用贝叶斯公式展开推导:根据条件概率公式:,
代入得:
又,因此:,选项C正确,选项D错误
10.(多选)已知互不相等的正实数,,,,是,,,的任意顺序的一个排列,定义随机变量,满足则( )
A. B.
C. D.
【答案】ACD
【详解】依题意,,,的全排列有种,
因为随机变量,满足,
所以当或时,,;
当或时,,;
当或时,,;
又当或时,,,
即满足的排列有,,,,,,,共种;
所以,故A正确,B错误;
同理当或时,,,满足,即;
当或时,,,满足,即;
综上可得,故C正确;
因为当时,当时时,所以满足,
所以,故D正确.
故选:ACD
11.定义:设X,Y是离散型随机变量,则X在给定事件条件下的k阶矩定义为,其中为X的所有可能取值集合,表示事件“”与事件“”都发生的概率.某射击运动爱好者进行射击训练,每次射击击中目标的概率均为,击中目标两次时停止射击.设表示第一次击中目标时的射击次数,表示第二次击中目标时的射击次数,则________,________.
【答案】 /
【详解】由题意,,
当,则,而,所以,
由题设,.
故答案为:,
12.口袋中有2个白球和2个红球,这些球除颜色外完全相同.现有两种游戏方案:
游戏一:从袋中有放回地摸球2次,记摸到白球的次数为;
游戏二:从袋中无放回地摸球2次,记摸到白球的次数为.两种游戏的结果相互独立.
(1)分别求两种游戏中第二次摸到白球的概率;
(2)求;
(3)对于随机变量,定义信息熵,它量化了一个随机系统所包含的“不确定性”程度,熵值越大,表明该系统的“不确定性”越高,比较与的大小,并判断哪种游戏的“不确定性”更高.
【答案】(1)两种游戏中第二次摸到白球的概率均为;
(2);
(3),游戏一的“不确定性”更高.
【分析】
【详解】(1)对于游戏一,设“第二次摸到白球”,则;
对于游戏二,设“第一次摸到白球”,“第二次摸到白球”,则;
(2)对于游戏一,的可能取值为0,1,2,的分布列为:
,,,
对于游戏二,的可能取值为0,1,2,的分布列为:
,,,
因为游戏一与游戏二的结果相互独立,
所以
;
(3)由(2)知,
;
同理
.
因为,
所以,故游戏一的“不确定性”更高.
13.为传承中华优秀传统文化,丰富校园文化生活,哈三中举办“非遗文化进校园”主题活动,现有来自剪纸、皮影、刺绣、泥塑4个非遗项目的传承人各1名,安排到剪纸、皮影、刺绣、泥塑4个非遗体验工坊进行授课,要求每个工坊安排1名传承人,每名传承人仅在一个工坊授课.
(1)求在剪纸项目的传承人在剪纸工坊授课的条件下,皮影项目的传承人不在皮影工坊授课的概率;
(2)在概率论和统计学中,常用协方差来描述两个随机变量之间的线性相关程度,给定离散型随机变量X,Y,定义协方差为.如果协方差为正,说明两个随机变量具有正相关关系;如果协方差为负,说明两个随机变量具有负相关关系;如果协方差为零,说明两个随机变量在线性关系上不相关.在参与授课的4名传承人中,记在对应项目工坊授课的传承人数为,不在对应项目工坊授课的传承人数为.
(ⅰ)求随机变量的分布列;
(ⅱ)求,并说明X,Y之间的线性相关关系.
【答案】(1)
(2)(ⅰ)
0
1
2
4
(ⅱ),与之间具有负相关关系
【分析】
【详解】(1)设“剪纸项目的传承人在剪纸工坊授课”为事件A,
“皮影项目的传承人不在皮影工坊授课”为事件B,
剪纸项目的传承人在剪纸工坊,剩下3人全排列,即,
皮影项目的传承人只能在除剪纸项目与皮影项目剩下的2个项目中选1个,即,
剩下2人全排列,即,所以,
所以.
(2)(ⅰ)由题意得总分配方案数为,设4人为1,2,3,4,对应的工坊为,
当时,4人都在自己对应的工坊,只有1种情况,
即,
当时,从4人中选2人在对应工坊,有种选法,
剩下两人都不在对应工坊,只有1种排法,共有种排法,
即,
当时,从4个人中选1人在对应工坊,有种选法,
剩下三人必须不在对应的工坊,不妨设剩下的3人为,
1不在,只能在中选,有种选法,
只能调换位置,有1种排法,共种排法,
即,
则,
随机变量的分布列如下:
0
1
2
4
(ⅱ)由题意得,
由上可得,
,
则,
,
则
因为协方差为负数,由题意得随机变量与之间具有负相关关系.
14.现将红色、黄色、蓝色的3个小球随机放入甲、乙、丙、丁四个盒子中(每个盒子容纳球数不限).
(1)记甲盒中小球个数为,求的分布列和;
(2)对于两个不相互独立的事件,,,.
①若,则称事件与正相关(的发生会“促进”的发生);若,则称事件与负相关(的发生会“抑制”的发生);
②定义为与的相关系数.
(ⅰ)若,求证:与正相关;
(ⅱ)定义事件“甲盒中恰有一个小球”,事件“甲盒中含有红球”.求,并判断事件与的相关情况.
【答案】(1)分布列见解析,期望为;
(2)(i)证明见解析;(ii),与正相关.
【分析】
【详解】(1)由题意,的可能取值为,且每个小球都有4种放法,故3个小球共有种放法,
,,,,
所以的分布列如下,
0
1
2
3
所以;
(2)(i)由,则,
所以,故与正相关,得证;
(ii)由题意,,,
所以,
结合(i)结论,故与正相关.
15.某种微生物群体可以通过自身繁殖的方式不断生存下来,且每个个体繁殖后自身消亡.假设开始时有一个该微生物个体,称为第0代,经过一次繁殖后产生第1代,第1代经过一次繁殖后产生第2代,…,每个该微生物个体繁殖产生下一代个数为1和2的概率均为,假设每个个体繁殖过程相互独立,记随机变量为繁殖产生的第代的个体总数.
(1)若,求的分布列和期望;
(2)证明:;
(3)定义:的条件下,随机变量的期望称为条件期望,记作,且.求.参考公式:
【答案】(1)分布列见解析,数学期望为3;
(2)证明见解析;
(3)
【分析】
【详解】(1)由题意得,的所有可能取值为2,3,4,
,
,
,
所以的分布列为:
2
3
4
.
(2)由题意可知,事件表示在前代繁殖过程中只有一次繁殖为2个微生物个体,
且之前与之后都繁殖为1个微生物个体,
记事件表示"第代繁殖为两个微生物"(即第代开始为2个微生物),
则两两互斥,
且,
而,
因此
,
所以.
(3)在的条件下,的可能取值为,
则,
,
故由条件期望公式可得
.
题型3 统计中的新定义问题
16.如图的列联表中,定义,易知越大越有利于结论“与有关系”.若当值大于常数时,有的把握认为与有关系,那么的值为( )
(已知,其中,)
总计
总计
A. B.
C. D.
【答案】A
【详解】当有的把握认为与有关系,则,故,
此时临界条件为,此时对应的刚好为,
即此时,即,
故,则,
故,
故选:A
17.某研究性学习小组针对“使用大绿书的用户是否存在性别差异”,向个人进行调查.用表示所有调查对象构成的集合.以为样本空间建立古典概型,并定义一对分类变量和如下:对于中的每一名学生,,现得到下表:
是大绿书的用户
不是大绿书的用户
男性
女性
若根据的独立性检验认为(其中),则的最小值为__________.(参考公式:,其中)
【答案】3
【详解】因为用大绿书APP的用户存在性别差异,
所以,
即,所以的最小值为3.
故答案为:
18.某国产芯片企业测试了10款自研芯片的单线程运算性能得分(得分越高,性能越好),芯片发布编号记为,性能得分记为,对应情况如下表:
1
2
3
4
5
6
7
8
9
10
21
26
34
40
49
56
61
68
77
83
(1)从这10个性能得分中随机抽取3个,求抽取的3个数据中,恰有两个数据不低于这组数据的第65百分位数的概率;
(2)若性能得分关于芯片发布编号的线性回归方程为,求该回归方程;
(3)为评估芯片性能的“实际表现水平”,企业定义了“性能偏离度”.对于第款芯片,其性能偏离度为(其中为实际性能得分,为第(2)问中回归方程的预测性能得分),并规定性能偏离度不超过2%的芯片为“表现稳定款”,假设第11款发布的芯片为“表现稳定款”,求其实际性能得分应保持的范围.
参考公式和数据:,,,,
【答案】(1)
(2)
(3)
【详解】(1)第65百分位数的位置:
向上取整为第7个数,即第65百分位数为61
不低于61的数据为61,68,77,83共4个,低于61的数据有6个
从10个数据中抽3个,恰有两个不低于61的概率为
(2)由题意得
,
所以回归方程为
(3)第11款芯片编号为,预测得分:
由已知性能偏离度
即,解得
所以,解得
所以第11款芯片的实际性能得分应保持在区间
19.近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
【答案】(1)
(2)(i);(ii)该款大模型更有可能是语言模型.
【详解】(1)由2025年的数据可知,随机抽取了14款大模型,其中多模态模型有6款,用频率估计概率,多模态模型的频率为,所以该区域2026发布的大模型是多模态模型的概率为.
(2)(i) 因为,,,
表示2025年1月份,表示2025年6月份,所以
所以,
所以,根据,
所以y关于t的线性回归方程为:
(ii) 已知2026年4月,则,计算多模态模型的预测值和残差,,残差为:,
所以.再计算语言模型的预测值和残差,,残差为:,,所以,所以根据值越小的大模型发生的可能性越大,所以该款大模型更有可能是语言模型.
20.某社交平台对用户行为进行分析,收集了每位用户每日的活跃时间(单位:小时)和发布内容数量(单位:条).为分析两变量间的相关性,需对数据进行标准化处理.现随机抽取名用户,得到数据,定义标准化变量与的相关系数为.
(1)证明:且.
(2)基于历史数据,用户活跃时间,设平台服务成本为随机变量,当时,,当时,,当时,,若在变化,且0.9544,求的期望的取值范围.
(3)设维向量与的数量积定义为,模长定义为与的夹角满足.设x,y标准化变量对应的向量分别为为向量与的夹角.该平台还记录了每位用户的好友数量(单位:人),其标准化变量对应的向量,).已知活跃时间与发布内容数量的相关系数为,发布内容数量与好友数量的相关系数为,设与的夹角为与的夹角为,且,求活跃时间与好友数量的相关系数的取值范围.
附相关公式:与的相关系数.
【答案】(1)证明见解析
(2)
(3)
【分析】
【详解】(1)证明:由,得,
将代入上式,得,同理得,
由,及相关系数,
得
因为,所以.
(2)设,则.
因为,所以,
则.
因为,所以,故的取值范围是.
(3)由(1)知,
,则,故.
因为,所以,
且均为锐角,则.
由及余弦函数在上单调递减,
可得,
即
则,即.
故活跃时间与好友数量的相关系数的取值范围是.
21.某兴趣学习小组为研究物理成绩与知识竞赛成绩之间的相关关系,通过对随机抽样出来的20组数据的物理成绩和知识竞赛成绩数据如下表:
学生编号
1
2
3
4
5
6
7
8
9
10
物理成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号
11
12
13
14
15
16
17
18
19
20
物理成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
一些统计量的值:
75
90
6464
149450
21650
(1)求这组学生的物理成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设为正整数,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记.证明:;
(ii)用(i)的公式求这组学生的物理成绩和知识竞赛成绩的“斯皮尔曼相关系数”,并简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
【附参考公式及参考数据:对于一组成对数据,其相关系数】
【答案】(1)
(2)(2)(i)证明见解析;(ii),答案见解析
【分析】
【详解】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为
(2)(i)证明:因为和都是1,2,,的一个排列,
所以,,
从而和的平均数都是.
因此,,
同理可得,
由于
,
所以;
(ii)由题目数据,可写出与的值如下:
同学编号
1
2
3
4
5
6
7
8
9
10
数学成绩排名
1
2
3
4
5
6
7
8
9
10
知识竞赛成绩排名
1
5
3
4
9
8
7
6
10
2
同学编号
11
12
13
14
15
16
17
18
19
20
数学成绩排名
11
12
13
14
15
16
17
18
19
20
知识竞赛成绩排名
12
14
13
11
16
15
17
18
19
20
所以,并且.
因此这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是
答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.
22.北京冬奥会助推户外冰雪运动发展持续升温,近年来越来越多的青年学生喜爱这一运动,为了研究性别与青年学生是否喜爱冰雪运动之间的关系,从某高校的男、女生中各随机抽取200名进行问卷调查,得到如下列联表.
喜爱
不喜爱
合计
男生
200
女生
200
合计
280
120
400
(1)当时,从样本中喜爱冰雪运动的学生中,按性别采用按比例分配的分层随机抽样方法抽取7人,再从这7人中随机抽取4人调研喜爱的原因,记这4人中男生的人数为,求的分布列与数学期望.
(2)定义,其中为列联表中第行第列的实际数据,为列联表中第行与第列的总频率之积再乘列联表的总额数得到的理论频数,如,.基于小概率值的检验规则:首先提出零假设(变量相互独立),然后计算的值,当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过;否则,我们没有充分证据推断不成立,可以认为和独立.根据的计算公式,求解下面问题:
①当时,依据小概率值的独立性检验,分析性别与青年学生是否喜爱冰雪运动有关?
②当时,依据小概率值的独立性检验,若认为性别与青年学生是否喜爱冰雪运动有关,则至少有多少名男生喜爱冰雪运动?
附:
0.1
0.025
0.005
2.706
5.024
7.879
【答案】(1)分布列见解析,
(2)①无关联;②151名
【分析】
【详解】(1)当时,样本中喜爱冰雪运动的学生中男生有160人,女生有120人,
则采用按比例分配的分层随机抽样方法抽取的7人中,男生有4人,女生有3人.
由题意可知,的所有可能取值为1,2,3,4,
,,
,,
的分布列为
1
2
3
4
故.
(2)零假设为:性别与青年学生是否喜爱冰雪运动独立,
即性别与青年学生是否喜爱冰雪运动无关联.
当时,列联表如下:
喜爱
不喜爱
合计
男生
150
50
200
女生
130
70
200
合计
280
120
400
,,,,,,,,
.
,根据小概率值的独立性检验,我们推断成立,
即认为性别与青年学生是否喜爱冰雪运动无关联.
,
由题意可知,,整理得.又,,
,的最大值为9.
又,至少有151名男生喜爱冰雪运动.
学科网(北京)股份有限公司1 / 17
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。