内容正文:
专题04 五大类概率与统计题型-2026年高考数学大题秒杀技巧及专项训练
【题型1 独立性检验问题】
【题型2 线性回归及非线性回归问题】
【题型3 超几何分布问题】
【题型4 二项分布问题】
【题型5 正态分布问题】
【题型1:独立性检验问题】
一、题型核心考法
频率分布直方图求各组频数 → 补全2×2列联表 → 计算卡方χ² → 独立性检验下结论
高考必考解答题,步骤固定、套路极强。
二、频率分布直方图核心公式
1、每组频率 = 组距 × 矩形高
2、样本总数 n = 频数 ÷ 该组频率
3、每组频数 = 样本总量 × 对应频率
4、所有矩形面积之和 = 1
三、2×2列联表必备公式
,其中为样本容量
四、卡方临界值标准
K2≤2.706:无充分证据认为两变量有关联
2.706<K2≤3.841:有90%把握有关联
3.841<K2≤6.635:有95%把握有关联
6.635<K2≤7.879:有99%把握有关联
K2>10.828:有99.9%把握有关联
五、标准解题满分步骤
1、根据直方图组距、纵坐标,计算各组频率
2、用总样本数×频率,算出对应各组频数
3、按照题目分类,整理填入2×2列联表
4、准确计算卡方统计量K2
5、对比临界值,用规范语言书写结论
六、高频考点总结
1、由直方图估算中位数、平均数、众数
2、分层抽样与直方图结合求各类人数
3、用频率估计概率,计算两类事件人数
4、列联表配对分类:合格/不合格、优秀/一般、男/女
5、独立性检验判断两类变量是否相关
七、答题规范标准答案句式
1、根据频率分布直方图可得各组频率与频数
2、完善2×2列联表,计算得K2=……
3、因为K2>3.841,故有95%的把握认为两个分类变量有关系
4、因为K2<2.706,故没有充分证据认为两变量有关系
八、高频易错扣分点
1、忘记×组距,直接用高当频率计算
2、频数算错,导致列联表a、b、c、d全部错误
3、(ad-bc)忘记平方,卡方计算崩盘
4、总样本n搞错,分子少乘n
5、临界值记混,95%对应3.841,99%对应6.635
6、混淆相关关系与因果关系
7、结论口语化,不用高考标准话术丢分
九、速记口诀
直方面积算频率,总数相乘得频数
分清两类填表格,套入卡方求数值
对比临界下结论,九五九九记清晰
相关并非是因果,步骤规范不丢分
(多选)某医学研究团队为探究新型降压药的疗效与患者年龄的关联,将120名高血压患者按年龄分为“中青年组(<60岁)”和“老年组(岁)”,记录用药后的疗效(“有效”“无效”),得到如下列联表:
患者
疗效
总计
有效
无效
中青年组
10
40
50
老年组
40
30
70
总计
50
70
120
附:,其中.
0.10
0.05
0.025
0.01
2.706
3.841
5.024
6.635
则下列说法中正确的有( )
A.若在“老年组”中按疗效分层抽样抽取7人,再从这7人中随机抽取2人,则至少抽到1名“无效”患者的概率为
B.从所有患者中随机抽取1人,设事件“该人在中青年组”,事件“该药对此人有效”,则事件A与B相互独立
C.根据小概率值的独立性检验,认为“降压药疗效与患者年龄有关”,且该推断犯错误的概率不超过
D.若将列联表中“中青年组有效”的人数改为15,“中青年组无效”的人数改为35,则所得值比原值大
人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
(1)已知从这名年龄超过岁的教师中随机抽取人,人都喜欢使用技术的概率为.据此完善上面的列联表,并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取人,求其中至少人喜欢使用技术的条件下,人年龄均不超过岁的概率.
附:,其中.
随着科技的进步,人工智能(AI)工具在职场中的应用日益广泛,像豆包、DeepSeek等常见的AI工具,已被证明能有效提升员工的工作效率和准确率.某公司为了解员工使用这类AI工具的熟练度,进行了一次内部统计,统计结果如下表:
能够熟练使用AI工具
不能够熟练使用AI工具
男员工
30
15
女员工
16
9
(1)根据的独立性检验,能否认为性别与使用AI工具的熟练度具有相关性?
(2)现按熟练度采用分层抽样的方法从该公司的男员工中随机抽取12人,再从这12人中随机抽取3人,记其中不能够熟练使用AI工具的人数为,求的分布列以及数学期望.
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
1.(多选)下列说法正确的是( )
A.在独立性检验中,零假设必须是“分类变量与独立”,不能是“分类变量与有关”
B.已知关于的回归方程为,则样本点的残差为2.2
C.设为两个随机事件,,若,则事件与事件相互独立
D.将总体划分为两层,通过分层抽样,得到两层的样本平均数和样本方差分别为和,若,则总体方差
2.为深入落实“健康第一”的教育理念,某高中为了解高三学生每天运动时间,从2000名学生中随机抽取了100名学生进行调查,得到的数据如表所示
日均运动时间(小时)
男生人数
5
20
20
10
女生人数
15
20
6
4
(1)该校高三2000名学生中,日均运动时间不足1小时的学生约为多少人?
(2)估计该校高三学生日均运动时间的平均数;
(3)根据小概率值的独立性检验,能否认为“该校高三学生日均运动时间不小于1.5小时”与“性别”有关联?
附,其中.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
3.在脑机接口技术实验中,研究人员为验证不同思维任务下,两个大脑的信号同步性是否独立,研究人员选取了200组观测数据,聚焦于“逻辑推理”与“创造性想象”两类任务,记录了两位受试者脑电信号的同步情况,得到了如下列联表:
思维任务类型
信号同步性
合计
信号同步
信号不同步
逻辑推理
42
58
100
创造性想象
28
72
100
合计
70
130
200
(1)分别计算两类任务中信号同步的频率,根据频率,你认为思维任务类型与信号同步性有关吗?简述理由.
(2)根据小概率值的独立性检验,分析思维任务类型与信号同步性有关吗?
附:,
0.050
0.010
0.001
3.841
6.635
10.828
4.针对近年兴起的人工智能应用热,某高中准备开设人工智能应用学习班,在全校范围内采用简单随机抽样的方法,分别抽取了男生和女生各100名作为样本,调查学生是否喜欢人工智能应用,经统计得到了如图所示的等高堆积条形图.
(1)根据等高堆积条形图,填写下列列联表,并依据的独立性检验,推断是否可以认为该校学生的性别与是否喜欢人工智能应用有关联;
性别
是否喜欢人工智能应用
合计
是
否
男生
女生
合计
(2)已知该校男生女生人数之比为4:5,将样本的频率视为概率,现从全校学生中随机抽取1名学生,已知该生喜欢人工智能应用,求该生为女生的概率.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
5.2026年马年春晚是大模型与节目结合最多的一场春晚,其中大模型“豆包”贯穿整场晚会.为了了解人们对大模型“豆包”应用的关注程度,现随机抽取不同年龄段的1000人进行调查统计,得到如下列联表:
年龄
“豆包”应用
合计
不关注
关注
不超过50岁
400
600
超过50岁
300
合计
1000
(1)完成列联表,并依据小概率值的独立性检验,判断人们对大模型“豆包”应用的关注程度是否与年龄有关联;
(2)从不超过50岁的调查者中按比例分配的分层随机抽样抽取6人,从这6人中随机抽取2人做进一步的访谈,记抽到的2人中关注“豆包”应用的人数为X,求X的分布列和数学期望.
附:,其中.
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
6.为考察某种国产芯片和进口芯片的质量,随机抽取了500颗同规格芯片,对两种芯片的良品、次品进行对比,得到如下不完整的列联表:
项目
良品
次品
合计
国产芯片
10
250
进口芯片
230
合计
470
30
500
(1)完成上面的表格中的空缺部分填空,以频率估计概率,估计国产芯片的次品率;
(2)根据小概率值的独立性检验,能否判断国产芯片与进口芯片质量有差异?
0.05
0.01
0.001
3.841
6.635
10.828
附:,其中为样本容量.
7.重庆城市足球超级联赛(简称 “渝超”)引发了广泛关注. 某地区随机抽取了部分市民,调查他们对赛事的关注情况, 得到如下表格:
性别
不关注赛事
关注赛事
男性
女性
(1)根据小概率值 的独立性检验,能否认为关注 “渝超” 赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取 3 名市民参加 “渝超” 赛事知识问答. 已知男性、女性市民顺利完成知识问答的概率分别为 , 每个人是否顺利完成相互独立.求3人中顺利完成知识问答的总人数的分布列及其期望.
附:.
【题型2:线性回归及非线性回归问题】
一、线性回归方程
1、回归直线方程:
b:回归斜率,a:截距
b>0,正相关;b<0,负相关
2、核心公式
3、必考性质
其中,,,(,)称为样本点的中心,回归直线一定经过样本中心点(x̄,ȳ)
x̄:自变量平均值,ȳ:因变量平均值
二、相关系数r(判断线性相关强弱)
1、r∈[-1,1]
2、r>0正相关,r<0负相关
3、|r|越接近1,线性相关性越强
4、|r|越接近0,线性相关性越弱
高考结论:|r|>0.75,高度线性相关
三、残差与拟合效果好坏
1、残差 = 真实值y − 预报值
2、残差平方和越小,模型拟合效果越好
3、相关指数R²越大,拟合效果越好,R²越接近1越好
四、非线性回归(高考必考换元法)
1、指数模型 y=a·e bx
两边取对数:lny=lna+bx
令z=lny,c=lna
转化为线性:z = bx + c
2、幂函数模型 y=a·xb
两边取对数:lny=lna+blnx
令z=lny,t=lnx,c=lna
转化为线性:z = bt + c
3、反比例模型
令
转化为线性:y = a + bt
五、标准解题步骤
1、计算x平均值x̄,y平均值ȳ
2、代入公式求斜率b
3、代入a=ȳ−bx̄求截距a
4、写出线性回归方程
5、代入x值,预测y估计值
6、非线性:先换元→算线性方程→还原原式
六、高频易错点
1、混淆相关系数r与回归系数b
2、忘记回归直线必过样本中心点(x̄,ȳ)
3、非线性取对数公式记错、漏项
4、预测值是估计值,不是真实准确值
5、残差顺序搞反:真实减预报
6、指数、幂函数换元字母写错
7、正负相关判断颠倒
七、答题规范话术
1、由b>0可知,x与y正线性相关
2、由|r|接近1,可知两个变量高度线性相关
3、残差平方和较小,说明回归模型拟合效果良好
八、速记口诀
样本中心必过线,正升负降看斜率
相关系数看强弱,越近一线越紧密
非线性式巧换元,化作线性来解题
残差越小拟合好,预测只是估计值
(多选)如图所示,有一散点图在5个数据中去掉后,下列说法中错误的是( )
A.残差平方和变大 B.相关系数变小
C.决定系数变小 D.解释变量与响应变量的相关性变强
某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
1.近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
2.某研究小组为了探究变量x与y之间的线性相关关系,收集了5组数据,(),并绘制成如图所示的散点图(点A,B,C,D,E).经计算,这5组数据的样本相关系数为r.若去掉点后,剩余4组数据的样本相关系数为,则下列结论正确的是( )
A. B. C. D.
3.下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆):
月份
1
2
3
4
5
6
销售量
5.1
6.6
7.0
7.6
9.8
若关于的经验回归方程为,且相关系数.
(1)求的值(精确到0.01);
(2)求的值(精确到0.1).
附:,相关系数.
参考数据:,.
4.2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
5.某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
6.“明数理”数学兴趣小组通过调查,整理出天津市三月份每日最高气温与最低气温的数据,绘制了气温与日期关系的散点图(如图),并进行统计学分析,下列说法正确的是( )
A.小明根据散点图判断气温与日期无相关关系
B.小华利用最小二乘法计算最高气温与日期的经验回归方程为,其中x为日期(3月1日为,3月31日为)
C.小红计算出最低气温与日期的相关系数为0.9397,以此判断两者的相关程度很弱
D.小强判断无论是最高气温与日期,还是最低气温与日期都正线性相关
7.(多选)为了研究某款新上市智能手环的直播间展示时长(单位:分钟)与即时下单量(单位:件)之间的关系,某电商平台随机记录了5场直播带货的数据,如下表所示:
直播间展示时长
1
2
3
4
5
即时下单量
12
18
25
30
34
若与的经验回归方程为,样本相关系数为,则( )
A.
B.回归直线过点
C.
D.当直播间展示时长为10分钟时,即时下单量的值估计为63
【题型3:超几何分布问题】
一、定义
总体共N件,其中含有M件次品,从中不放回抽取n件,抽到次品数X服从超几何分布
二、概率公式
,,1,2,…,,其中
三、分布特点
1、不放回抽取
2、总体数量有限
3、两类物品:正品、次品
四、期望公式
E(X) = n × M / N
五、超几何分布 VS 二项分布
1、超几何:不放回,总体有限
2、二项分布:有放回,独立重复试验
3、当N很大,n很小时,超几何近似等于二项分布
六、解题步骤
1、判断不放回抽样,确定N、M、n
2、写出X所有可能取值
3、组合数公式计算对应概率
4、列出分布列
5、直接套公式求数学期望
七、高频易错点
1、混淆放回/不放回,乱用二项分布
2、组合上下标写错,分子分母颠倒
3、X取值范围写错,漏掉0或最大值
4、忘记分布列概率之和=1
5、大题不写组合公式直接扣分
八、答题规范话术
由题意可知,随机变量X服从超几何分布,
再依次计算P(X=0)、P(X=1)……,列出分布列,求出期望。
九、速记口诀
有限总体不放回,两类物品超几何
组合相乘比总数,期望nM比N多
量大次数比较小,近似二项不用磨
某企业生产的智能机器人需要用到一种高精度零件,现收到一批零件共有个,其中不合格的零件占总数的,从中随机抽取个零件,设抽到的不合格的零件数为.
(1)求的值.小明的求解过程如下:因为不合格的零件占总数的,所以,故.请问以上解答过程是否正确?如果正确,请说明解题依据;如果不正确,请写出正确的解答过程;
(2)若抽到的个零件中至少有个为不合格零件,求恰好有个为不合格零件的概率;
(3)对抽取的个零件进行检测,每个零件的检测费用为元,每发现个不合格品,需额外支出元的处理费用.设本次检测的总费用为元,求随机变量的分布列与数学期望.
一个袋子中有3个红球,个绿球,已知从中一次摸出的2个球都是红球的概率为.
(1)求的值;
(2)从袋中依次随机摸出2个球作为样本(一次只摸出一个球),设采用有放回和不放回摸球得到的样本中绿球的个数分别为.
(i)求的分布列与数学期望;
(ii)分别就有放回摸球和不放回摸球,用样本中绿球比例估计总体中的绿球比例,求误差的绝对值不超过0.2的概率,并比较所求两概率的大小,说明其实际意义.
为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房、体育中心)和社区公共运动场(如小区健身点、街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年
中老年
合计
商业健身场馆
60
社区公共运动场
50
合计
80
170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
1.某电商对旗下100名客服人员 “双十一”当天的订单处理量(单位:千件)进行统计,将所得数据按 分成4组,制成如图所示的频率分布直方图.
(1)求图中的值及订单处理量的第75百分位数;
(2)假设订单处理量在的客服中有2名女性,现从该区间的客服中随机抽取3人进行奖励,记为抽取的女性人数.求X的分布列和数学期望.
2.某市施行“垃圾分类”后,为了解该市某区居民对“垃圾分类”政策的支持度与年龄的关系,随机抽取该区100名居民进行调查,得到如下列联表:
支持
不支持
合计
18-40岁(青年)
35
15
50
41岁及以上(中老年)
25
25
50
合计
60
40
100
(1)根据小概率值的独立性检验,分析该区居民对“垃圾分类”政策的支持度是否与年龄有关;
(2)按“支持”和“不支持”分层,采用比例分配的分层随机抽样方法从上述100名居民中抽取10人,再从这10人中随机抽取3人进行进一步访谈,记抽取的3人中支持“垃圾分类”的人数为,求的分布列.
参考公式:,其中.
参考数据:
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
3.已知甲盒中有2个红球,4个白球,乙盒中有3个红球,5个白球,这些球除了颜色外完全相同.
(1)从甲盒中有放回地取球,每次取1个,共取3次,记这3次中取出红球的次数为随机变量,求的数学期望和方差;
(2)从甲、乙两盒中各任取2个球,记取出的4个球中红球的个数为随机变量,求的分布列.
4.随着新能源产业的发展,我市近年来新能源汽车保有量快速增长,为了研究我市充电桩建设的情况,能源部门收集到了2021年到2025年充电桩数量(单位:万个),为方便研究,年份代码用表示(如:表示2021年),具体参考数据如下表:
统计量
数值
55
72.6
21
(1)请根据表中数据,建立关于的回归直线方程;
(2)现对该市某区域现有的9个充电桩进行检查,其中4个为快充桩,随机抽取3个充电桩进行检查,记抽到的快充桩个数为,求的分布列及均值.
(参考公式:)
5.某地区从高一年级的物理测试中随机抽取了100名学生的物理成绩,整理得到如图所示的频率分布直方图.
(1)该地区某学校建议此次物理测试成绩在本地区前的学生选科报物理方向,试估计报物理方向的学生本次成绩不低于多少分?(结果保留整数)
(2)从成绩位于区间和的答卷中,采用分层抽样随机抽取7份,再从这7份中随机抽取3份,设成绩在的答卷份数为随机变量,求的分布列及数学期望.
6.(多选)下列说法正确的是( )
A.数据2,3,4,5,6,7,8,9的第25百分位数为3
B.若随机变量,,则
C.某校在对高一(2)班学生的数学成绩调查中,随机抽取10名男生的数学成绩,其平均数为105,方差为24,随机抽取5名女生的数学成绩,其平均数为102,方差为21,则这15名学生的数学成绩的方差为25
D.一箱12罐的饮料中4罐有奖券,每张奖券奖励饮料一罐,从中任意抽取2罐,则这2罐中有奖券的概率为
7.AI幻觉,是指AI模型生成看似合理但实际不正确或毫无事实依据的信息的现象,AI幻觉率是指AI模型产生AI幻觉的概率.现抽取了某公司研发的14个使用率较高的AI模型,其幻觉率如下表所示:
AI模型
1
2
3
4
5
6
7
8
9
10
11
12
13
14
幻觉率
1.3%
1.8%
2.9%
1.5%
1.9%
2.9%
0.7%
0.9%
1.6%
2.4%
0.8%
1.6%
2.4%
2.8%
(1)从表中提供的AI模型中任取一个,求该模型幻觉率小于2%的概率;
(2)从表中提供的幻觉率小于的AI模型中任取3个,用随机变量表示其中幻觉率小于的模型个数,求随机变量的分布列和数学期望.
【题型4:二项分布问题】
一、定义
n次独立重复试验,每次试验只有两种结果:成功、失败
每次成功概率均为p,失败概率q=1-p
随机变量X服从二项分布,记作:X ~ B(n,p)
二、概率公式
P(X=k) = C(n,k)·pk·(1-p)n-k
k = 0,1,2,……,n
三、期望与方差(必考必背)
期望 E(X) = np
方差 D(X) = np(1-p)
四、核心特点
1、有放回抽取,相互独立
2、每次概率不变
3、每次结果只有两种对立情况
五、二项分布 VS 超几何分布
1、二项分布:有放回、独立、总体无限
2、超几何分布:不放回、有限总体
3、总体很大、抽取很少时,超几何≈二项分布
六、标准解题步骤
1、判断独立重复试验,确定n、p
2、写出X所有可能取值
3、套公式算对应概率
4、列出分布列
5、直接用公式算期望、方差
七、高频易错点
1、混淆放回/不放回,乱用二项、超几何
2、指数写错,p与1-p次数搞反
3、组合数C(n,k)漏掉不写
4、分布列所有概率相加必须等于1
5、期望方差公式记混
八、答题规范话术
由题意可知,各次试验相互独立,随机变量X服从二项分布X~B(n,p)
九、速记口诀
独立重复两结果,二项分布记心窝
n次试验p概率,组合乘方算结果
期望n乘p就好,方差np乘一减p
(多选)“暮春时节,兰亭雅集再现,文人雅士围坐庭中,以投壶为乐”,某同学进行投壶游戏,每次投壶的命中率为,且投壶结果互不影响,如果出现连续次命中,那么停止投壶,游戏结束,则下列选项中正确的是( )
A.当时,投壶2次游戏结束的概率为
B.当时,投壶3次游戏结束的概率大于投壶4次游戏结束的概率
C.当时,游戏结束时投壶总次数的数学期望为
D.设游戏结束时投壶总次数的数学期望为,则
某种微生物的繁殖规则如下:初始时刻有1个该微生物,每经过1个单位时间,每个现存的微生物独立地发生三种变化之一:①死亡,概率为;②保持1个,不繁殖也不死亡,概率为;③分裂为2个微生物,概率为.当微生物的数量为0时,繁殖过程终止.设为经过个单位时间后,该微生物处于繁殖过程终止的概率.
(1)求的值;
(2)令,证明:;
(3)在(2)的条件下,证明:对任意正整数,都有.
对于随机事件、,,“”是“、互相独立”的( )条件.
A.充分非必要 B.必要非充分 C.充要 D.非充分非必要
1.某校举办了一场以“新质生产力·青春创未来”为主题的知识与能力挑战赛.比赛题库中有选择题和填空题两种题型,且数目相同,每次答题从中随机抽取1题进行作答,每次答题(无论对错)后,该题都会被移除,系统会补充1道同题型的新题,使比赛题库中的选择题和填空题的数目始终保持相同.答对1道选择题可获得1分,答对1道填空题可获得2分,若答对,继续从补充题目后的比赛题库中随机抽取1题进行作答;若答错,立即停止答题,比赛结束.已知甲同学答对每道选择题的概率均为,答对每道填空题的概率均为,且每道题答对与否互不影响.
(1)记甲同学进行1次答题后的得分为,求的分布列及数学期望;
(2)比赛结束前,记甲同学累计得分达到的概率为.
(i)求;
(ii)求.(用含的式子表达)
2.为响应“书香校园”建设,某校图书馆引入了一套智慧自助借还系统M,该系统内置个智能识别模块.每个模块在日常使用环境下正常工作的概率为,各模块工作状态相互独立.
(1)该图书馆从某批次智能识别模块中随机抽取了100个,在“日常校园环境”和“高温潮湿仓库环境”下测试其工作状态,得到如下列联表:
正常工作
故障
合计
日常校园环境
50
5
55
高温潮湿仓库环境
35
10
45
合计
85
15
100
请根据小概率值独立性检验,能否认为模块工作状态与测试环境有关联?
附:,.
0.05
0.01
0.001
k
3.841
6.635
10.828
(2)当时,系统M中正常工作的模块个数为随机变量X,回答以下问题:
(i)求X的分布列及数学期望;
(ii)若有超过一半的模块正常工作,则系统正常工作,系统正常工作的概率称为系统的可靠性.为改善时系统M的可靠性,能否通过增加一个智能识别模块(即)提高系统M的可靠性?请给出你的结论并证明.
3.二项分布又称为重伯努利分布,其可视作将次两点分布叠加所得,现对其中的两点分布进行调整,记原两点分布的发生概率为(发生概率即所得结果为1的概率),定义变化后总试验次数为时的发生概率,其中表示总试验次数.现进行一类关于随机变量的二项分布的调整.若当变化后总试验次数为时的发生概率为,总试验次数为时的发生概率为,则在原二项分布中,的最大值为________(用数字解答).
4.在一次元宵节三角函数公式竞答决赛活动中,甲、乙两人角逐冠军.规则如下:①共5次竞答机会,每次竞答两人均从A,B两个箱子中选择一个公式回答,答完放回;②甲答对A、B箱中一个公式的概率分别为,;乙答对A、B箱中一个公式的概率均为;③每答对A箱中一个公式得20分,每答对B箱中一个公式得30分;④5次竞答后总得分最高者获得冠军.
(1)规定甲前两次都从A箱中选择,后三次都从B箱中选择,五次竞答完成后,求甲总分得分至少110分的概率.
(2)若前两次甲、乙均从B箱中选择公式,两次竞答后甲得总分60分,乙得总分30分.后三次竞答在即,深思熟虑后甲决定后三次都在A箱子中选择公式竞答,乙决定后三次仍然都在B箱子中选择公式竞答,请问最终冠军最有可能是谁?
5.某中学开展劳动教育实践活动,学生进行某种蔬菜种植实验,实验分为育苗、定植、收获三个阶段.已知每株蔬菜育苗成功的概率为,各株蔬菜苗是否成功相互独立;只有育苗成功的蔬菜才能进入定植阶段,定植后进入收获阶段的蔬菜,单株产量X(单位:kg)服从正态分布,市场上该品种蔬菜的售价为6元/kg,单株蔬菜从育苗到收获的平均种植成本为18元.
(1)若对10株蔬菜进行育苗实验,记育苗成功的株数为Y,求至少有9株蔬菜苗育成功的概率与(结果用p表示);
(2)从进入收获阶段的蔬菜中随机抽取1株,估计其单株利润为正的概率.
附:若随机变量,则,,.
6.2025年政府工作报告明确提出持续推进“人工智能+”行动.上海某人工智能实验室的多模态大模型在某次数学测评中表现特别突出,所有测评试题能得1分的可能性为,能得2分的可能性为,假设每道试题得分情况相互独立.
(1)从所有测评试题中随机抽取4道试题,记这4道题得分总数为,求的分布列和数学期望;
(2)从所有测评试题中随机抽取n道试题,记这n道题得分总数为的概率为,求的值;
7.教育部最新文件指出,要确保中小学生每天校内校外综合体育活动时间不少于2小时.为了提升学生体质,养成运动习惯,某中学对学生进行了周末两天运动时长的问卷调查,将运动时长不少于4小时的学生视为“运动达标”,运动时长不足4小时的学生视为“运动不达标”.现随机抽取200名学生的问卷,获得数据如下表:
男生(人)
女生(人)
合计(人)
运动达标
80
40
120
运动不达标
20
60
80
合计
100
100
200
用频率估计概率.
(1)从该校的男生中任选两人,求这两人均为“运动不达标”的概率;
(2)从该校男生和女生中各随机抽取一人,设为“运动达标”的人数,求的分布列和数学期望;
(3)从该校随机抽取20名学生,记其中“运动达标”的人数为.求使概率取得最大值时的的值.(直接写出结论)
【题型5:正态分布问题】
一、正态曲线与解析式
正态分布记作:X~
μ:均值,对称轴
σ:标准差,σ>0
正态曲线:钟形单峰,左右对称
二、核心性质(必考)
1、曲线关于直线 x=μ 对称
2、曲线在x=μ处达到最高点
3、曲线与x轴围成总面积=1
4、μ越大,曲线整体向右平移
5、σ越小,曲线越瘦高,集中稳定;σ越大,曲线越矮胖,分散不稳定
三、3σ原则(高考必背数值)
1、P(μ−σ<X<μ+σ)≈0.6827
2、P(μ−2σ<X<μ+2σ)≈0.9545
3、P(μ−3σ<X<μ+3σ)≈0.9973
几乎所有数据都落在(μ−3σ,μ+3σ)内,超出视为异常
四、对称概率计算(大题万能)
1、P(X<μ)=P(X>μ)=0.5
2、P(X<μ−a)=P(X>μ+a)
3、左右对称区间概率相等
五、正态分布期望与方差
若 X~N(μ,σ²)
期望 E(X)=μ
方差 D(X)=σ²
六、正态分布标准化
~标准正态分布,对称轴x=0
七、常考题型
1、根据对称轴求概率
2、利用对称性补全区间概率
3、3σ原则判断异常值
4、结合分层抽样、概率综合小题
八、高频易错点
1、混淆μ和σ的意义,对称轴记成σ
2、σ大小和曲线胖瘦搞反
3、区间概率加减出错,不会对称转化
4、忘记总面积恒等于1
5、期望方差写错:E=μ,D=σ²,不是σ
九、速记口诀
正态曲线钟形状,对称轴是x等于μ
σ小瘦高很集中,σ大矮胖很分散
左右对称概率等,三倍西格几乎全
(多选)下列说法正确的是( )
A.若随机变量,则
B.若事件相互独立,则
C.对具有线性相关关系的变量,其经验回归方程为,若样本数据的中心点为,则实数的值是4
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断变量与不独立
已知随机变量服从正态分布,若,其中,则的最小值为( )
A. B. C. D.
已知随机变量服从正态分布,,则( )
A.0.7 B.0.6 C.0.5 D.0.3
1.已知某市10000名高一学生的某次数学测试得分(单位:分)服从正态分布,若,则得分高于50分的人数约为_________.
2.已知随机变量,且,则下列结论正确的是( )
A. B.
C. D.
3.(多选)某水果店店长记录了过去30天苹果的日销售量数据(单位:):
销量
频数
1
0
4
11
8
4
2
店长假设日销售量X近似服从正态分布,,,根据上述数据,下列说法正确的有( )
A.可以估计约为
B.日销售量在范围内的天数约为20天
C.若日销售量超过的概率为p,则
D.若未来连续3天的日销售量都超过,则说明日销售量不服从正态分布
4.班主任小明查阅了某大学发表的一项本市高三学生手机使用情况的研究报告.报告指出,高三学生每周手机使用时长(单位:小时)总体上服从正态分布.
(1)小明老师将自己所带班级(共50名学生)视为从本市高三学生总体中随机抽取的一个样本,能以此正态分布模型估算出全班每周平均手机使用时长超过16小时的人数,在此估算基础上若在全班任选3位同学,则至少有2位同学的每周手机使用时长超过16小时的概率是多少?(结果用最简分数表示)
参考数据:若,则.
(2)小明老师发现小虹同学每周手机使用时长超过16小时,对其进行疏导劝解,并跟进统计出之后5周小虹每周手机使用时长与该周数学练习得分(每周练习的难度相同且满分均为150分),制成表1.以这5组数据建立回归方程.请求出实数的值
表1
第1周
第2周
第3周
第4周
第5周
手机使用时长
20
18
22
16
14
练习得分
80
88
73
92
m
(3)受到鼓励的小虹制定了寒假复习计划表递交给小明老师,严格控制手机使用时长.小明老师统计发现该计划表中若第n天能复习时长超过5小时(记为“高效复习”),则第天也能“高效复习”的概率为;若第天不能“高效复习”,则第天还能“高效复习”的概率为.设(,为正整数)表示第天能“高效复习”的概率,,若表示复习计划表第天有效.求证:数列是等比数列,并说明小虹的该复习计划表是否在寒假每一天均有效.
5.(多选)已知连续型随机变量Y服从正态分布,记函数,,则( ).(注:若,则,)
A. B.
C.的图象关于直线对称 D.的图象关于点对称
6.(多选)某高端茶饮品牌推出一款新品冷泡茶,为优化产品配方,品牌对该款茶的“最佳饮用时长”x(单位:小时,指冲泡后风味最佳的时长区间)进行市场调研.从全国门店随机抽取了100名消费者进行试饮测试,统计结果如下表:
最佳饮用时长x(小时)
消费者人数y
2
38
a
b
6
已知最佳饮用时长x的平均值(同一组中的数据用该组区间的中点值代表),根据调研数据可认为x近似服从正态分布,用样本平均值作为的值,样本标准差s作为的值.则下列说法正确的是( ).
(参考数据:若随机变量,则,,)
A.,
B.饮用时长在小时内的消费者占比估计值为13.59%
C.饮用时长超过5.5小时的消费者占比估计值为2.275%
D.若规定概率低于0.27%的事件为小概率事件,则本次调研中未发生小概率事件,即该款茶的最佳饮用时长符合品牌预设标准
7.为探索“五育融合”育人项目,某市在中小学全面开展志愿服务实践课程,并建立了学生志愿服务日参与情况的常态化统计机制.下表是课程开设后前5个月的数据,其中表示月份编号,表示该月份日平均参与志愿服务的学生人数(单位:万人).
月份编号
1
2
3
4
5
平均参与人数(单位:万人)
0.5
0.7
1
1.3
1.5
(1)已知与之间线性相关,求关于的经验回归方程,并预测第6个月的日平均参与志愿服务的学生人数;
(2)假设第6个月(按30天计)的日参与人数(单位:万人)服从正态分布,并视(1)所求第6个月的日平均参与人数的预测值为的值,预测该月份日参与人数超过1.75万人的天数是否不少于25天.
附:①对于一组数据,其回归直线的斜率
.②若,则
17 / 28
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题04 五大类概率与统计题型-2026年高考数学大题秒杀技巧及专项训练
【题型1 独立性检验问题】
【题型2 线性回归及非线性回归问题】
【题型3 超几何分布问题】
【题型4 二项分布问题】
【题型5 正态分布问题】
【题型1:独立性检验问题】
一、题型核心考法
频率分布直方图求各组频数 → 补全2×2列联表 → 计算卡方χ² → 独立性检验下结论
高考必考解答题,步骤固定、套路极强。
二、频率分布直方图核心公式
1、每组频率 = 组距 × 矩形高
2、样本总数 n = 频数 ÷ 该组频率
3、每组频数 = 样本总量 × 对应频率
4、所有矩形面积之和 = 1
三、2×2列联表必备公式
,其中为样本容量
四、卡方临界值标准
K2≤2.706:无充分证据认为两变量有关联
2.706<K2≤3.841:有90%把握有关联
3.841<K2≤6.635:有95%把握有关联
6.635<K2≤7.879:有99%把握有关联
K2>10.828:有99.9%把握有关联
五、标准解题满分步骤
1、根据直方图组距、纵坐标,计算各组频率
2、用总样本数×频率,算出对应各组频数
3、按照题目分类,整理填入2×2列联表
4、准确计算卡方统计量K2
5、对比临界值,用规范语言书写结论
六、高频考点总结
1、由直方图估算中位数、平均数、众数
2、分层抽样与直方图结合求各类人数
3、用频率估计概率,计算两类事件人数
4、列联表配对分类:合格/不合格、优秀/一般、男/女
5、独立性检验判断两类变量是否相关
七、答题规范标准答案句式
1、根据频率分布直方图可得各组频率与频数
2、完善2×2列联表,计算得K2=……
3、因为K2>3.841,故有95%的把握认为两个分类变量有关系
4、因为K2<2.706,故没有充分证据认为两变量有关系
八、高频易错扣分点
1、忘记×组距,直接用高当频率计算
2、频数算错,导致列联表a、b、c、d全部错误
3、(ad-bc)忘记平方,卡方计算崩盘
4、总样本n搞错,分子少乘n
5、临界值记混,95%对应3.841,99%对应6.635
6、混淆相关关系与因果关系
7、结论口语化,不用高考标准话术丢分
九、速记口诀
直方面积算频率,总数相乘得频数
分清两类填表格,套入卡方求数值
对比临界下结论,九五九九记清晰
相关并非是因果,步骤规范不丢分
(多选)某医学研究团队为探究新型降压药的疗效与患者年龄的关联,将120名高血压患者按年龄分为“中青年组(<60岁)”和“老年组(岁)”,记录用药后的疗效(“有效”“无效”),得到如下列联表:
患者
疗效
总计
有效
无效
中青年组
10
40
50
老年组
40
30
70
总计
50
70
120
附:,其中.
0.10
0.05
0.025
0.01
2.706
3.841
5.024
6.635
则下列说法中正确的有( )
A.若在“老年组”中按疗效分层抽样抽取7人,再从这7人中随机抽取2人,则至少抽到1名“无效”患者的概率为
B.从所有患者中随机抽取1人,设事件“该人在中青年组”,事件“该药对此人有效”,则事件A与B相互独立
C.根据小概率值的独立性检验,认为“降压药疗效与患者年龄有关”,且该推断犯错误的概率不超过
D.若将列联表中“中青年组有效”的人数改为15,“中青年组无效”的人数改为35,则所得值比原值大
【答案】AC
【详解】选项A,老年组中有效与无效的人数比为
按疗效分层抽样抽取7人,则应抽到:4人有效,3人无效,
再从这 7 人中随机抽取 2 人,至少抽到 1 名无效患者的概率为所以 A 正确;
选项B,设事件:表示“该人在中青年组”,事件:表示“该药对此人有效”,
则而
若相互独立,则应有
显然所以事件与不相互独立,B 错误;
选项C,由题中列联表,
所以
即
因为所以根据小概率值的独立性检验,
可以认为“降压药疗效与患者年龄有关”,且该推断犯错误的概率不超过,所以C正确;
选项D,若将“中青年组有效”改为 15,“中青年组无效”改为 35,
则新列联表中
此时
即,而原来的
所以修改后的值比原来的小,D 错误.
人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
(1)已知从这名年龄超过岁的教师中随机抽取人,人都喜欢使用技术的概率为.据此完善上面的列联表,并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取人,求其中至少人喜欢使用技术的条件下,人年龄均不超过岁的概率.
附:,其中.
【答案】(1)
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
有关
(2)
【详解】(1)设超过岁的教师中喜欢使用技术的有人,
由题意可得,即,整理可得,
因为,解得.
补充列联表如下
年龄
是否喜欢使用技术
合计
是
否
不超过岁
超过岁
合计
零假设该市教师喜欢使用技术与年龄无关,
.
依据小概率值的独立性检验,判断该校教师是否喜欢使用技术与年龄有关.
(2)记事件为至少人喜欢使用技术,事件为人年龄均不超过岁.
全市某名中学教师喜欢使用技术的概率,
不超过岁且喜欢使用的概率,
所以,
,
由条件概率公式可得.
随着科技的进步,人工智能(AI)工具在职场中的应用日益广泛,像豆包、DeepSeek等常见的AI工具,已被证明能有效提升员工的工作效率和准确率.某公司为了解员工使用这类AI工具的熟练度,进行了一次内部统计,统计结果如下表:
能够熟练使用AI工具
不能够熟练使用AI工具
男员工
30
15
女员工
16
9
(1)根据的独立性检验,能否认为性别与使用AI工具的熟练度具有相关性?
(2)现按熟练度采用分层抽样的方法从该公司的男员工中随机抽取12人,再从这12人中随机抽取3人,记其中不能够熟练使用AI工具的人数为,求的分布列以及数学期望.
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)性别与使用AI工具的熟练度无关;
(2)
0
1
2
3
数学期望为1.
【详解】(1)设零假设:性别与使用AI工具的熟练度无关,
由统计表得,
则,
根据小概率值的独立性检验,没有充分证据推断不成立,
所以可以认为成立,即认为性别与使用AI工具的熟练度无关.
(2)男员工中能够熟练与不能够熟练使用AI的人数比为,
按分层抽样抽12人,抽取的能够熟练使用的人数为,抽取的不能够熟练使用的人数为4,
因此的可能取值为,
,
,
所以的分布列为:
0
1
2
3
数学期望.
1.(多选)下列说法正确的是( )
A.在独立性检验中,零假设必须是“分类变量与独立”,不能是“分类变量与有关”
B.已知关于的回归方程为,则样本点的残差为2.2
C.设为两个随机事件,,若,则事件与事件相互独立
D.将总体划分为两层,通过分层抽样,得到两层的样本平均数和样本方差分别为和,若,则总体方差
【答案】AC
【详解】对于A,在独立性检验中,将“分类变量与独立”作为零假设,是因为在此假设下可以计算出期望频数,从而构造检验统计量进行检验,故A正确.
对于B,残差定义为观测值(实际值)减去预测值,即,对于样本点,预测值,所以其残差为,故B错误;
对于C,因为,所以,所以事件与事件相互独立,故C正确;
对于D,不妨设两层数据分别为,
因为,所以总体平均数,
则
所以总体方差为
,
则,
只有,或时才有,否则,故D错误.
2.为深入落实“健康第一”的教育理念,某高中为了解高三学生每天运动时间,从2000名学生中随机抽取了100名学生进行调查,得到的数据如表所示
日均运动时间(小时)
男生人数
5
20
20
10
女生人数
15
20
6
4
(1)该校高三2000名学生中,日均运动时间不足1小时的学生约为多少人?
(2)估计该校高三学生日均运动时间的平均数;
(3)根据小概率值的独立性检验,能否认为“该校高三学生日均运动时间不小于1.5小时”与“性别”有关联?
附,其中.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)人
(2)小时
(3)根据小概率值的独立性检验,能认为“日均运动时间不小于1.5小时”与“性别”有关联
【详解】(1)因为抽取的100人中日均运动时间不足1小时的人数占比为,
所以该校2000名学生中日均运动时间不足1小时人数约为人;
(2)该校名学生日均运动时间的平均数约为
,
所以该校高三学生日均运动时间的平均数为小时;
(3)作出列联表如表所示
日均运动时间
合计
男
25
30
55
女
35
10
45
合计
60
40
100
零假设:“日均运动时间不小于1.5小时”与“性别”无关联,
,
根据小概率值的独立性检验,推断不成立,即认为“日均运动时间不小于1.5小时”与“性别”有关联,此推断犯错误的概率不大于0.005.
3.在脑机接口技术实验中,研究人员为验证不同思维任务下,两个大脑的信号同步性是否独立,研究人员选取了200组观测数据,聚焦于“逻辑推理”与“创造性想象”两类任务,记录了两位受试者脑电信号的同步情况,得到了如下列联表:
思维任务类型
信号同步性
合计
信号同步
信号不同步
逻辑推理
42
58
100
创造性想象
28
72
100
合计
70
130
200
(1)分别计算两类任务中信号同步的频率,根据频率,你认为思维任务类型与信号同步性有关吗?简述理由.
(2)根据小概率值的独立性检验,分析思维任务类型与信号同步性有关吗?
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)有关,理由见解析
(2)无关
【详解】(1)逻辑推理任务中信号同步的频率,创造性想象任务中信号同步的频率,
思维任务类型与信号同步性有关,因为两类任务的同步频率存在明显差异,即;
(2)零假设:思维任务类型与信号同步性无关,
根据表中数据可得,
根据小概率值的独立性检验,没有充分证据推断不成立,
因此可以认为成立,即思维任务类型与信号同步性无关.
4.针对近年兴起的人工智能应用热,某高中准备开设人工智能应用学习班,在全校范围内采用简单随机抽样的方法,分别抽取了男生和女生各100名作为样本,调查学生是否喜欢人工智能应用,经统计得到了如图所示的等高堆积条形图.
(1)根据等高堆积条形图,填写下列列联表,并依据的独立性检验,推断是否可以认为该校学生的性别与是否喜欢人工智能应用有关联;
性别
是否喜欢人工智能应用
合计
是
否
男生
女生
合计
(2)已知该校男生女生人数之比为4:5,将样本的频率视为概率,现从全校学生中随机抽取1名学生,已知该生喜欢人工智能应用,求该生为女生的概率.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【答案】(1)填表见解析;能认为该校学生喜欢人工智能应用与性别有关联
(2)
【详解】(1)由题意,根据等高堆积条形图,完成列联表如下:
性别
是否喜欢人工智能应用
合计
是
否
男生
75
25
100
女生
55
45
100
合计
130
70
200
零假设为:该校学生的性别与是否喜欢人工智能应用没有关联.
,
∴依据小概率值的独立性检验,
我们推断不成立,即能认为该校学生喜欢人工智能应用与性别有关联.
(2)设事件A为“抽取的学生喜欢人工智能应用”,
事件B为“抽取的学生为女生”,则为“抽取的学生为男生”,
将样本的频率视为概率,则,
,
由全概率公式得,
再根据贝叶斯公式得.
所以已知该生喜欢人工智能应用,则该生为女生的概率为.
5.2026年马年春晚是大模型与节目结合最多的一场春晚,其中大模型“豆包”贯穿整场晚会.为了了解人们对大模型“豆包”应用的关注程度,现随机抽取不同年龄段的1000人进行调查统计,得到如下列联表:
年龄
“豆包”应用
合计
不关注
关注
不超过50岁
400
600
超过50岁
300
合计
1000
(1)完成列联表,并依据小概率值的独立性检验,判断人们对大模型“豆包”应用的关注程度是否与年龄有关联;
(2)从不超过50岁的调查者中按比例分配的分层随机抽样抽取6人,从这6人中随机抽取2人做进一步的访谈,记抽到的2人中关注“豆包”应用的人数为X,求X的分布列和数学期望.
附:,其中.
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,依据小概率值的独立性检验,可判断人们对大模型“豆包”应用的关注程度与年龄有关联.
(2)分布列见解析;
【详解】(1)(1)补全的列联表如下:
年龄
“豆包”应用
合计
不关注
关注
不超过50岁
200
400
600
超过50岁
300
100
400
合计
500
500
1000
零假设为:人们对大模型“豆包”应用的关注程度与年龄无关.
根据表中数据,计算得到.
根据小概率值的独立性检验,没有充分证据推断成立,
即认为人们对大模型“豆包”应用的关注程度与年龄有关,该推断犯错误的概率不超过0.001.
(2)从不超过50岁的调查者中按比例分配的分层随机抽样抽取6人,
则关注“豆包”应用的有人,不关注“豆包”应用的有人,
则的所有可能取值为0,1,2,
的分布列为
0
1
2
的数学期望.
6.为考察某种国产芯片和进口芯片的质量,随机抽取了500颗同规格芯片,对两种芯片的良品、次品进行对比,得到如下不完整的列联表:
项目
良品
次品
合计
国产芯片
10
250
进口芯片
230
合计
470
30
500
(1)完成上面的表格中的空缺部分填空,以频率估计概率,估计国产芯片的次品率;
(2)根据小概率值的独立性检验,能否判断国产芯片与进口芯片质量有差异?
0.05
0.01
0.001
3.841
6.635
10.828
附:,其中为样本容量.
【答案】(1)
项目
良品
次品
合计
国产芯片
240
10
250
进口芯片
230
20
250
合计
470
30
500
,
(2)没有充分证据表明国产芯片与进口芯片质量有差异
【详解】(1)表格中的空缺部分填空如下表,
项目
良品
次品
合计
国产芯片
240
10
250
进口芯片
230
20
250
合计
470
30
500
样本中国产芯片次品的频率为 ,
由此估计国产芯片的次品率为 ;
(2)假设:国产芯片与进口芯片质量无差异,
因为 ,
由,
所以没有充分证据表明国产芯片与进口芯片质量有差异.
7.重庆城市足球超级联赛(简称 “渝超”)引发了广泛关注. 某地区随机抽取了部分市民,调查他们对赛事的关注情况, 得到如下表格:
性别
不关注赛事
关注赛事
男性
女性
(1)根据小概率值 的独立性检验,能否认为关注 “渝超” 赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取 3 名市民参加 “渝超” 赛事知识问答. 已知男性、女性市民顺利完成知识问答的概率分别为 , 每个人是否顺利完成相互独立.求3人中顺利完成知识问答的总人数的分布列及其期望.
附:.
【答案】(1)认为关注 “渝超” 赛事与性别有关
(2)
0
1
2
3
【详解】(1)整理列联表数据如下:
性别
不关注赛事
关注赛事
合计
男性
女性
合计
根据卡方公式:
,
已知小概率值,对应临界值,
,
根据的独立性检验,认为关注 “渝超” 赛事与性别有关.
(2)关注赛事的市民中,男性人,女性人,性别比例,则抽取3人时,男性2人,女性1人;
表示顺利完成问答总人数,取值为:,
已知男性完成概率,未完成概率,女性完成概率,未完成概率,且相互独立;
则;
;
;
;
0
1
2
3
数学期望为:
.
【题型2:线性回归及非线性回归问题】
一、线性回归方程
1、回归直线方程:
b:回归斜率,a:截距
b>0,正相关;b<0,负相关
2、核心公式
3、必考性质
其中,,,(,)称为样本点的中心,回归直线一定经过样本中心点(x̄,ȳ)
x̄:自变量平均值,ȳ:因变量平均值
二、相关系数r(判断线性相关强弱)
1、r∈[-1,1]
2、r>0正相关,r<0负相关
3、|r|越接近1,线性相关性越强
4、|r|越接近0,线性相关性越弱
高考结论:|r|>0.75,高度线性相关
三、残差与拟合效果好坏
1、残差 = 真实值y − 预报值
2、残差平方和越小,模型拟合效果越好
3、相关指数R²越大,拟合效果越好,R²越接近1越好
四、非线性回归(高考必考换元法)
1、指数模型 y=a·e bx
两边取对数:lny=lna+bx
令z=lny,c=lna
转化为线性:z = bx + c
2、幂函数模型 y=a·xb
两边取对数:lny=lna+blnx
令z=lny,t=lnx,c=lna
转化为线性:z = bt + c
3、反比例模型
令
转化为线性:y = a + bt
五、标准解题步骤
1、计算x平均值x̄,y平均值ȳ
2、代入公式求斜率b
3、代入a=ȳ−bx̄求截距a
4、写出线性回归方程
5、代入x值,预测y估计值
6、非线性:先换元→算线性方程→还原原式
六、高频易错点
1、混淆相关系数r与回归系数b
2、忘记回归直线必过样本中心点(x̄,ȳ)
3、非线性取对数公式记错、漏项
4、预测值是估计值,不是真实准确值
5、残差顺序搞反:真实减预报
6、指数、幂函数换元字母写错
7、正负相关判断颠倒
七、答题规范话术
1、由b>0可知,x与y正线性相关
2、由|r|接近1,可知两个变量高度线性相关
3、残差平方和较小,说明回归模型拟合效果良好
八、速记口诀
样本中心必过线,正升负降看斜率
相关系数看强弱,越近一线越紧密
非线性式巧换元,化作线性来解题
残差越小拟合好,预测只是估计值
(多选)如图所示,有一散点图在5个数据中去掉后,下列说法中错误的是( )
A.残差平方和变大 B.相关系数变小
C.决定系数变小 D.解释变量与响应变量的相关性变强
【答案】ABC
【详解】从散点图可分析出,若去掉点,则解释变量与响应变量的线性相关性变强,
且是正相关,所以相关系数变大,决定系数变大,残差平方和变小,
故A、B、C错误,D正确.
某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【答案】(1);变量x与y之间具有很强的线性相关关系
(2)分布列见解析;期望:1.8
【详解】(1),,
,
,
,
样本相关系数:
,
因为非常接近1,所以变量x与y之间具有很强的线性相关关系.
(2)5天中取件人数小于100的天数有3天,
从这5天中随机选取3天,的可能取值为1,2,3.
,
,
,
所以的分布列为:
1
2
3
的数学期望
某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)模型一的拟合效果更好,理由见解析
(2)(ⅰ)点,理由见解析;(ⅱ)
【详解】(1)模型一的拟合效果更好,理由如下:
模型一残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型二的带状宽度窄,所以模型一的拟合精度更高,经验回归方程的预报精度相应就越高.
(2)(ⅰ)点,理由如下:
因为模型一的拟合效果更好,经验回归方程为,
所以该方程相应于点的残差为,故选点;
(ⅱ)由题可知,,
所以,
由,,
所以
.
1.近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
【答案】(1)
(2)(i);(ii)该款大模型更有可能是语言模型.
【详解】(1)由2025年的数据可知,随机抽取了14款大模型,其中多模态模型有6款,用频率估计概率,多模态模型的频率为,所以该区域2026发布的大模型是多模态模型的概率为.
(2)(i) 因为,,,
表示2025年1月份,表示2025年6月份,所以
所以,
所以,根据,
所以y关于t的线性回归方程为:
(ii) 已知2026年4月,则,计算多模态模型的预测值和残差,,残差为:,
所以.再计算语言模型的预测值和残差,,残差为:,,所以,所以根据值越小的大模型发生的可能性越大,所以该款大模型更有可能是语言模型.
2.某研究小组为了探究变量x与y之间的线性相关关系,收集了5组数据,(),并绘制成如图所示的散点图(点A,B,C,D,E).经计算,这5组数据的样本相关系数为r.若去掉点后,剩余4组数据的样本相关系数为,则下列结论正确的是( )
A. B. C. D.
【答案】A
【详解】从散点图中可知,样本数据的两变量是正相关,
由于点较其他点偏离程度大,删除点后,回归效果更好,
从而相关系数的绝对值更接近于1,所以
3.下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆):
月份
1
2
3
4
5
6
销售量
5.1
6.6
7.0
7.6
9.8
若关于的经验回归方程为,且相关系数.
(1)求的值(精确到0.01);
(2)求的值(精确到0.1).
附:,相关系数.
参考数据:,.
【答案】(1)0.86
(2)8.6
【详解】(1)由题意得,
,
所以,
所以,
所以.
(2)由(1)知,关于的经验回归方程为,
,,
因为在回归直线上,所以,
所以.
4.2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
【答案】(1),可用线性回归模型拟合与的关系
(2),(万亿千瓦时)
【详解】(1)因为,
所以,
所以
,
故可用线性回归模型拟合与的关系;
(2),
则,
则经验回归方程为,
令,则,
故预估2026年我国全口径发电量为(万亿千瓦时)
5.某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)更适合,
(2)不能
【详解】(1)由图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型,
由,得到,因为,则,
则,所以,则.
(2)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
,
根据小概率值的独立性检验,我们没有理由认为不成立,即认为市民佩戴头盔与性别没有关联.
6.“明数理”数学兴趣小组通过调查,整理出天津市三月份每日最高气温与最低气温的数据,绘制了气温与日期关系的散点图(如图),并进行统计学分析,下列说法正确的是( )
A.小明根据散点图判断气温与日期无相关关系
B.小华利用最小二乘法计算最高气温与日期的经验回归方程为,其中x为日期(3月1日为,3月31日为)
C.小红计算出最低气温与日期的相关系数为0.9397,以此判断两者的相关程度很弱
D.小强判断无论是最高气温与日期,还是最低气温与日期都正线性相关
【答案】D
【详解】对于A,观察散点图,横轴代表日期,纵轴代表气温,图中的散点分布并不是杂乱无章的,而是呈现出一种带状分布,
且整体趋势是随着日期的增加,气温也在逐渐升高,这种趋势表明气温与日期之间存在密切的联系,即存在相关关系,故A错误;
对于B,回归直线方程中,斜率反映了变量随的变化趋势,
若表示变量随的增大而增大,为正相关,若表示变量随的增大而减小,为负相关;
由散点图可知,气温随日期的增大而升高,属于正相关,所以回归方程的斜率应为正数,
而小华计算最高气温与日期的经验回归方程斜率为,故B错误;
对于C,的值越大,相关性越强,小红计算出最低气温与日期的相关系数为0.9397,以此判断两者的相关程度很强,故C错误;
对于D,由散点图可知,无论是最高气温还是最低气温,其数据点都呈现出随日期增加而上升的趋势,为正线性相关,故D正确.
7.(多选)为了研究某款新上市智能手环的直播间展示时长(单位:分钟)与即时下单量(单位:件)之间的关系,某电商平台随机记录了5场直播带货的数据,如下表所示:
直播间展示时长
1
2
3
4
5
即时下单量
12
18
25
30
34
若与的经验回归方程为,样本相关系数为,则( )
A.
B.回归直线过点
C.
D.当直播间展示时长为10分钟时,即时下单量的值估计为63
【答案】ACD
【详解】对于A,由数据可知,即时下单量随着直播间展示时长的增大而增大,
因此直播间展示时长与即时下单量为正相关,即样本相关系数,故A正确;
对于B,由数据可知,,,
则回归直线过中心点,不过点,故B错误;
对于C,将点代入,可得,解得,故C正确;
对于D,由C知,与的经验回归方程为,
则时,,故D正确.
【题型3:超几何分布问题】
一、定义
总体共N件,其中含有M件次品,从中不放回抽取n件,抽到次品数X服从超几何分布
二、概率公式
,,1,2,…,,其中
三、分布特点
1、不放回抽取
2、总体数量有限
3、两类物品:正品、次品
四、期望公式
E(X) = n × M / N
五、超几何分布 VS 二项分布
1、超几何:不放回,总体有限
2、二项分布:有放回,独立重复试验
3、当N很大,n很小时,超几何近似等于二项分布
六、解题步骤
1、判断不放回抽样,确定N、M、n
2、写出X所有可能取值
3、组合数公式计算对应概率
4、列出分布列
5、直接套公式求数学期望
七、高频易错点
1、混淆放回/不放回,乱用二项分布
2、组合上下标写错,分子分母颠倒
3、X取值范围写错,漏掉0或最大值
4、忘记分布列概率之和=1
5、大题不写组合公式直接扣分
八、答题规范话术
由题意可知,随机变量X服从超几何分布,
再依次计算P(X=0)、P(X=1)……,列出分布列,求出期望。
九、速记口诀
有限总体不放回,两类物品超几何
组合相乘比总数,期望nM比N多
量大次数比较小,近似二项不用磨
某企业生产的智能机器人需要用到一种高精度零件,现收到一批零件共有个,其中不合格的零件占总数的,从中随机抽取个零件,设抽到的不合格的零件数为.
(1)求的值.小明的求解过程如下:因为不合格的零件占总数的,所以,故.请问以上解答过程是否正确?如果正确,请说明解题依据;如果不正确,请写出正确的解答过程;
(2)若抽到的个零件中至少有个为不合格零件,求恰好有个为不合格零件的概率;
(3)对抽取的个零件进行检测,每个零件的检测费用为元,每发现个不合格品,需额外支出元的处理费用.设本次检测的总费用为元,求随机变量的分布列与数学期望.
【答案】(1)
(2)
(3)随机变量的分布列如下表所示:
Y
30
55
80
P
数学期望为.
【详解】(1)小明的解答不正确,正确的解答过程如下:
根据题意,这个零件中是有个不合格零件,个合格零件,
则从这个零件中抽到个不合格零件,个合格零件的组合数是种,
因此.
(2)设事件为“抽到的个零件中至少有个为不合格零件”,事件为“抽到的个零件中恰好有个为不合格零件”,
由于事件是事件的子事件,所以,
而,,
根据条件概率公式,即恰好有个为不合格零件的概率为.
(3)由于随机变量表示抽到的不合格的零件数,可能取值为,而对于每个的值,总费用,
因此随机变量的可能取值为,,,
由于,,,
因此,,,
所以随机变量的分布列为:
数学期望为,即随机变量的数学期望为.
一个袋子中有3个红球,个绿球,已知从中一次摸出的2个球都是红球的概率为.
(1)求的值;
(2)从袋中依次随机摸出2个球作为样本(一次只摸出一个球),设采用有放回和不放回摸球得到的样本中绿球的个数分别为.
(i)求的分布列与数学期望;
(ii)分别就有放回摸球和不放回摸球,用样本中绿球比例估计总体中的绿球比例,求误差的绝对值不超过0.2的概率,并比较所求两概率的大小,说明其实际意义.
【答案】(1)3
(2)(i)分布列:
0
1
2
;
(ii)有放回摸球对应概率为,不放回摸球对应概率为,不放回摸球的概率更大,说明相同样本量下,不放回抽样的估计精度更高,更适合用于总体参数估计.
【详解】(1)∵ 袋子中共有个球,一次摸出2个球的总情况数为,摸出2个红球的情况数为.
由古典概型概率公式得.
代入,,得,整理得.
即,解得或.
又,故.
(2)(i)由(1)得袋子中共有6个球,其中绿球3个,故每次有放回摸球时,摸到绿球的概率为.
的可能取值为0,1,2,且.
∵ ,
,
,
故的分布列为:
0
1
2
数学期望.
(ii)总体中绿球的比例为,样本中绿球比例为(为摸出的绿球个数),误差的绝对值不超过0.2等价于.
解不等式得,又为整数,故.
① 有放回摸球时,所求概率为.
② 不放回摸球时,服从超几何分布,,故所求概率为.
∵ ,故不放回摸球时误差绝对值不超过0.2的概率更大.
实际意义:相同样本量下,不放回抽样对总体比例的估计精度更高,更适合用于抽样调查中估计总体参数.
为落实《全民健身条例》,某区体育局对本区居民的健身场所选择偏好进行调研.数据显示,居民主要选择商业健身场馆(如健身房、体育中心)和社区公共运动场(如小区健身点、街心公园)两类场所.为了解年龄因素是否影响健身场所的选择,研究人员将成年居民分为青壮年组(岁且岁)和中老年组(岁),从该区随机抽取170名成年居民进行调查,得到如下不完整的列联表:
青壮年
中老年
合计
商业健身场馆
60
社区公共运动场
50
合计
80
170
(1)请补充列联表,并根据表中数据判断能否有的把握认为年龄与居民健身场所的选择有关;
(2)用分层抽样的方式从选择社区公共运动场的居民中抽取14个人,再从14个人中随机抽取7个人,用随机变量表示这7个人中中老年与青壮年人数之差的绝对值,求的分布和数学期望.
参考公式及数据:,其中.
0.1
0.05
0.025
0.01
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,有95%的把握认为年龄与健身场所选择有关
(2)的分布见解析,数学期望为(或约)
【详解】(1)根据已知数据计算空缺值,得到完整列联表如下:
青壮年
中老年
合计
商业健身场馆
60
40
100
社区公共运动场
20
50
70
合计
80
90
170
因为,
因此有95%的把握认为年龄与居民健身场所的选择有关.
(2)选择社区公共运动场的居民共70人,其中青壮年20人、中老年50人,抽样比为,
因此抽取的样本中青壮年人数:,中老年人数:.
设抽取的7人中中老年人数为,则青壮年人数为,.
因为青壮年共4人,故,解得,又,
因此,对应的可能取值为.
总情况数为,
(对应或)时,,
(对应)时,,
(对应)时,,
(对应)时,,
因此,的分布列为:
1
3
5
7
所以
1.某电商对旗下100名客服人员 “双十一”当天的订单处理量(单位:千件)进行统计,将所得数据按 分成4组,制成如图所示的频率分布直方图.
(1)求图中的值及订单处理量的第75百分位数;
(2)假设订单处理量在的客服中有2名女性,现从该区间的客服中随机抽取3人进行奖励,记为抽取的女性人数.求X的分布列和数学期望.
【答案】(1)180
(2)
【详解】(1)由题意得,
设订单处理量的第75百分位数为,前两组频率之和为0.6,前三组频率之和为0.9,
则,,解得,
订单处理量的第75百分位数为180.
(2)订单处理量在中的客服人数为,其中女性2人,男性8人,
表示抽取的女性人数,的可能取值为
,
,
,
的分布列:
计算期望:.
2.某市施行“垃圾分类”后,为了解该市某区居民对“垃圾分类”政策的支持度与年龄的关系,随机抽取该区100名居民进行调查,得到如下列联表:
支持
不支持
合计
18-40岁(青年)
35
15
50
41岁及以上(中老年)
25
25
50
合计
60
40
100
(1)根据小概率值的独立性检验,分析该区居民对“垃圾分类”政策的支持度是否与年龄有关;
(2)按“支持”和“不支持”分层,采用比例分配的分层随机抽样方法从上述100名居民中抽取10人,再从这10人中随机抽取3人进行进一步访谈,记抽取的3人中支持“垃圾分类”的人数为,求的分布列.
参考公式:,其中.
参考数据:
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)认为居民对“垃圾分类”政策的支持度与年龄有关
(2)的分布列为
【详解】(1)零假设居民对“垃圾分类”政策的支持度与年龄无关,
则,
根据小概率值的独立性检验,推断不成立,
即认为居民对“垃圾分类”政策的支持度与年龄有关.
(2)“支持”和“不支持”的人数比为,
则抽取的10人中“支持”和“不支持”的人数分别为,
则的可能取值为,
则,
,
则的分布列为
3.已知甲盒中有2个红球,4个白球,乙盒中有3个红球,5个白球,这些球除了颜色外完全相同.
(1)从甲盒中有放回地取球,每次取1个,共取3次,记这3次中取出红球的次数为随机变量,求的数学期望和方差;
(2)从甲、乙两盒中各任取2个球,记取出的4个球中红球的个数为随机变量,求的分布列.
【答案】(1),;
(2)
0
1
2
3
4
【详解】(1)由题意知,
所以,
(2)由题意知的所有可能取值为0,1,2,3,4,
所以的分布列为:
0
1
2
3
4
4.随着新能源产业的发展,我市近年来新能源汽车保有量快速增长,为了研究我市充电桩建设的情况,能源部门收集到了2021年到2025年充电桩数量(单位:万个),为方便研究,年份代码用表示(如:表示2021年),具体参考数据如下表:
统计量
数值
55
72.6
21
(1)请根据表中数据,建立关于的回归直线方程;
(2)现对该市某区域现有的9个充电桩进行检查,其中4个为快充桩,随机抽取3个充电桩进行检查,记抽到的快充桩个数为,求的分布列及均值.
(参考公式:)
【答案】(1)
(2)
X
0
1
2
3
P
.
【详解】(1),
,
.所以,回归直线方程为.
(2)由题意知随机变量的可能取值为,则:
,
,
,
,
X
0
1
2
3
P
故均值.
5.某地区从高一年级的物理测试中随机抽取了100名学生的物理成绩,整理得到如图所示的频率分布直方图.
(1)该地区某学校建议此次物理测试成绩在本地区前的学生选科报物理方向,试估计报物理方向的学生本次成绩不低于多少分?(结果保留整数)
(2)从成绩位于区间和的答卷中,采用分层抽样随机抽取7份,再从这7份中随机抽取3份,设成绩在的答卷份数为随机变量,求的分布列及数学期望.
【答案】(1)72分
(2)分布列见解析,
【详解】(1)由题意,解得,
成绩在的频率为0.1,在的频率为0.25,在的频率为0.3,
因为,
所以选报物理方向的最低分在内,则,
解得,所以估计报物理方向的学生本次成绩不低于72分.
(2)由题可知,成绩在区间的频数为,
成绩在区间的频数为,
利用分层抽样,从中抽取7份,成绩在的频数为,
成绩在的频数为,
再从这7份答卷中随机抽取3份,的所有可能取值为,
,
故的分布列为:
0
1
2
所以的数学期望为:.
6.(多选)下列说法正确的是( )
A.数据2,3,4,5,6,7,8,9的第25百分位数为3
B.若随机变量,,则
C.某校在对高一(2)班学生的数学成绩调查中,随机抽取10名男生的数学成绩,其平均数为105,方差为24,随机抽取5名女生的数学成绩,其平均数为102,方差为21,则这15名学生的数学成绩的方差为25
D.一箱12罐的饮料中4罐有奖券,每张奖券奖励饮料一罐,从中任意抽取2罐,则这2罐中有奖券的概率为
【答案】BC
【详解】A选项,,故从小到大选取第2和第3个数的平均数作为第25百分位数,
即,故数据2,3,4,5,6,7,8,9的第25百分位数为3.5,A错误;
B选项,随机变量,,即,解得,
所以则,B正确;
C选项,这15名学生的数学成绩的平均数为,
故这15名学生的数学成绩的方差为,C正确;
D选项,2罐中有奖券的概率为,D错误.
7.AI幻觉,是指AI模型生成看似合理但实际不正确或毫无事实依据的信息的现象,AI幻觉率是指AI模型产生AI幻觉的概率.现抽取了某公司研发的14个使用率较高的AI模型,其幻觉率如下表所示:
AI模型
1
2
3
4
5
6
7
8
9
10
11
12
13
14
幻觉率
1.3%
1.8%
2.9%
1.5%
1.9%
2.9%
0.7%
0.9%
1.6%
2.4%
0.8%
1.6%
2.4%
2.8%
(1)从表中提供的AI模型中任取一个,求该模型幻觉率小于2%的概率;
(2)从表中提供的幻觉率小于的AI模型中任取3个,用随机变量表示其中幻觉率小于的模型个数,求随机变量的分布列和数学期望.
【答案】(1)
(2)分布列见解析,1
【详解】(1)14个AI模型,幻觉率高于2%的有2.9%,2.9%,2.4%,2.4%,2.8%,共有5个,
所以幻觉率低于的概率为.
(2)幻觉率低于2%的AI模型中共9个,其中低于1.3%的模型有3个,故
, ,
, ,
故分布列为
0
1
2
3
故.
【题型4:二项分布问题】
一、定义
n次独立重复试验,每次试验只有两种结果:成功、失败
每次成功概率均为p,失败概率q=1-p
随机变量X服从二项分布,记作:X ~ B(n,p)
二、概率公式
P(X=k) = C(n,k)·pk·(1-p)n-k
k = 0,1,2,……,n
三、期望与方差(必考必背)
期望 E(X) = np
方差 D(X) = np(1-p)
四、核心特点
1、有放回抽取,相互独立
2、每次概率不变
3、每次结果只有两种对立情况
五、二项分布 VS 超几何分布
1、二项分布:有放回、独立、总体无限
2、超几何分布:不放回、有限总体
3、总体很大、抽取很少时,超几何≈二项分布
六、标准解题步骤
1、判断独立重复试验,确定n、p
2、写出X所有可能取值
3、套公式算对应概率
4、列出分布列
5、直接用公式算期望、方差
七、高频易错点
1、混淆放回/不放回,乱用二项、超几何
2、指数写错,p与1-p次数搞反
3、组合数C(n,k)漏掉不写
4、分布列所有概率相加必须等于1
5、期望方差公式记混
八、答题规范话术
由题意可知,各次试验相互独立,随机变量X服从二项分布X~B(n,p)
九、速记口诀
独立重复两结果,二项分布记心窝
n次试验p概率,组合乘方算结果
期望n乘p就好,方差np乘一减p
(多选)“暮春时节,兰亭雅集再现,文人雅士围坐庭中,以投壶为乐”,某同学进行投壶游戏,每次投壶的命中率为,且投壶结果互不影响,如果出现连续次命中,那么停止投壶,游戏结束,则下列选项中正确的是( )
A.当时,投壶2次游戏结束的概率为
B.当时,投壶3次游戏结束的概率大于投壶4次游戏结束的概率
C.当时,游戏结束时投壶总次数的数学期望为
D.设游戏结束时投壶总次数的数学期望为,则
【答案】ACD
【详解】对于A,投壶2次均命中即游戏结束,概率为,A正确;
对于B,投壶3次游戏结束的事件为“第2,3次命中,第1次不中”,概率为,
投壶4次结束的事件为“第3,4次必须命中,
且第2次必须不中(否则游戏在第3次或第2次就已结束),第1次投壶结果不影响”,
概率为,两者概率相等,B错误;
对于C,当时,即出现连续2次命中,那么停止投壶,游戏结束,
设投壶的总次数的数学期望为,考虑第一次投壶的结果:
①第一次命中,
若第一次命中,第二次也命中(概率为),则投壶总次数为2;
若第一次命中,第二次未命中(概率为),则游戏重置,投壶的总次数可看作;
②第一次未命中(概率为),则游戏重置,投壶的总次数可看作;
则,解得,C正确;
对于D,由题意,设为出现连续次命中,则停止投壶,游戏结束时投壶总次数的数学期望,
在连续次命中,停止投壶的游戏中,考虑首次达到出现连续命中次的时刻,
此时当前投壶的总次数期望为,即出现连续次都投壶命中,那么现在从此状态开始,
游戏还需要进行直至停止(即连续次命中),则考虑下一次投壶的结果:
①若下一次投壶命中(概率为),则出现连续次命中,停止投壶,游戏结束,
即投壶的总次数可看作次;
②若下一次投壶不中(概率为),则游戏重置,还需再进行次投壶,
游戏才能结束,即投壶的总次数可看作次;
综上,故,整理得,,D正确.
某种微生物的繁殖规则如下:初始时刻有1个该微生物,每经过1个单位时间,每个现存的微生物独立地发生三种变化之一:①死亡,概率为;②保持1个,不繁殖也不死亡,概率为;③分裂为2个微生物,概率为.当微生物的数量为0时,繁殖过程终止.设为经过个单位时间后,该微生物处于繁殖过程终止的概率.
(1)求的值;
(2)令,证明:;
(3)在(2)的条件下,证明:对任意正整数,都有.
【答案】(1);
(2)证明见详解;
(3)证明见详解.
【详解】(1)由题知,
经过个单位时间后,该微生物处于繁殖过程终止有三种互斥情况:
经过1个单位时间后生物直接死亡,概率为;
经过1个单位时间后生物保持一个后,再经过1个单位时间繁殖过程终止,概率为;
经过1个单位时间后分裂为2个微生物,再经过1个单位时间繁殖过程终止,概率为.
所以.
(2)经过个单位时间后,该微生物处于繁殖过程终止有三种互斥情况:
经过1个单位时间后生物直接死亡,概率为;
经过1个单位时间后生物保持一个,再经过个单位时间繁殖过程终止,概率为;
经过1个单位时间后分裂为2个微生物,再经过个单位时间繁殖过程终止,概率为.
所以,
因为,所以,
整理即得.
(3)当时,,此时,不等式成立;
假设时,成立.
证右边:
设函数,易知在上单调递增,
因为,所以,
即,
因为,所以,
所以,右边成立;
证左边:
因为,所以,
即,
因为,
所以,所以,
综上,当时,不等式成立.
所以对任意正整数,都有.
对于随机事件、,,“”是“、互相独立”的( )条件.
A.充分非必要 B.必要非充分 C.充要 D.非充分非必要
【答案】C
【详解】因为,又,所以,
从而有,所以、互相独立,充分性成立;
当、互相独立时,则,所以,必要性成立.
综上,“”是“、互相独立”的充要条件.
1.某校举办了一场以“新质生产力·青春创未来”为主题的知识与能力挑战赛.比赛题库中有选择题和填空题两种题型,且数目相同,每次答题从中随机抽取1题进行作答,每次答题(无论对错)后,该题都会被移除,系统会补充1道同题型的新题,使比赛题库中的选择题和填空题的数目始终保持相同.答对1道选择题可获得1分,答对1道填空题可获得2分,若答对,继续从补充题目后的比赛题库中随机抽取1题进行作答;若答错,立即停止答题,比赛结束.已知甲同学答对每道选择题的概率均为,答对每道填空题的概率均为,且每道题答对与否互不影响.
(1)记甲同学进行1次答题后的得分为,求的分布列及数学期望;
(2)比赛结束前,记甲同学累计得分达到的概率为.
(i)求;
(ii)求.(用含的式子表达)
【答案】(1)的分布列为
0
1
2
,.
(2)(i).(ii).
【详解】(1)每次抽到选择题和填空题的概率均为.若答错,则得分为0,所以.
若答对选择题,则得1分,所以;若答对填空题,则得2分,所以.
因此的分布列为
0
1
2
所以.
(2)记为从开始答题到比赛停止前,累计得分曾经达到的概率.
先求初始两项.要累计得分达到,第一次答题必须抽到并答对选择题,所以.
要累计得分达到,有两种互斥情况:第一次抽到并答对填空题,
或前两次均抽到并答对选择题,第一种情况的概率为,第二种情况的概率为,所以.
当时,若最后一次由分达到分,则最后一次需抽到并答对选择题,这一步发生的概率为;
若最后一次由分达到分,则最后一次需抽到并答对填空题,这一步发生的概率为.
因此.
由递推式得.再由递推式得.
下面用构造法求.由,得.
设,则.
又,所以,即.
设,则.又,所以.
用等比数列求和得,所以.
而也满足此式,因此.
2.为响应“书香校园”建设,某校图书馆引入了一套智慧自助借还系统M,该系统内置个智能识别模块.每个模块在日常使用环境下正常工作的概率为,各模块工作状态相互独立.
(1)该图书馆从某批次智能识别模块中随机抽取了100个,在“日常校园环境”和“高温潮湿仓库环境”下测试其工作状态,得到如下列联表:
正常工作
故障
合计
日常校园环境
50
5
55
高温潮湿仓库环境
35
10
45
合计
85
15
100
请根据小概率值独立性检验,能否认为模块工作状态与测试环境有关联?
附:,.
0.05
0.01
0.001
k
3.841
6.635
10.828
(2)当时,系统M中正常工作的模块个数为随机变量X,回答以下问题:
(i)求X的分布列及数学期望;
(ii)若有超过一半的模块正常工作,则系统正常工作,系统正常工作的概率称为系统的可靠性.为改善时系统M的可靠性,能否通过增加一个智能识别模块(即)提高系统M的可靠性?请给出你的结论并证明.
【答案】(1)不能认为有关联
(2)(i)分布列见解析,3(ii)能,证明见解析
【详解】(1)零假设为:模块工作状态与测试环境无关联.
根据列联表中数据,得,
所以依据小概率值的独立性检验,我们推断成立,可以认为模块工作状态与测试环境无关联.
(2)①由题意可知,
(法一)的分布列为,
.
(法二),
,
,
,
,
则的分布列如下:
0
1
2
3
4
.
②当时记系统中正常工作的模块数为随机变量,则,
记时系统的可靠性为,记时系统的可靠性为.
故,
,
故,
故增加一个模块即,能提高系统的可靠性.
3.二项分布又称为重伯努利分布,其可视作将次两点分布叠加所得,现对其中的两点分布进行调整,记原两点分布的发生概率为(发生概率即所得结果为1的概率),定义变化后总试验次数为时的发生概率,其中表示总试验次数.现进行一类关于随机变量的二项分布的调整.若当变化后总试验次数为时的发生概率为,总试验次数为时的发生概率为,则在原二项分布中,的最大值为________(用数字解答).
【答案】
【详解】由题意知,可知,解得,故,
,,,
,,,,可知的最大值为.
4.在一次元宵节三角函数公式竞答决赛活动中,甲、乙两人角逐冠军.规则如下:①共5次竞答机会,每次竞答两人均从A,B两个箱子中选择一个公式回答,答完放回;②甲答对A、B箱中一个公式的概率分别为,;乙答对A、B箱中一个公式的概率均为;③每答对A箱中一个公式得20分,每答对B箱中一个公式得30分;④5次竞答后总得分最高者获得冠军.
(1)规定甲前两次都从A箱中选择,后三次都从B箱中选择,五次竞答完成后,求甲总分得分至少110分的概率.
(2)若前两次甲、乙均从B箱中选择公式,两次竞答后甲得总分60分,乙得总分30分.后三次竞答在即,深思熟虑后甲决定后三次都在A箱子中选择公式竞答,乙决定后三次仍然都在B箱子中选择公式竞答,请问最终冠军最有可能是谁?
【答案】(1)
(2)甲获得冠军的可能性更大
【详解】(1)甲至少110分有两种情况:前两次甲得40分,后三次甲得90分;前两次甲得20分,后三次甲得90分;
故概率为.
(2)后三次甲选A箱,甲五次总得分X可能为60、80、100、120,
,,
,,
随机变量X的分布列为:
60
80
100
120
分.
后三次乙选B箱,乙五次总得分Y可能为30、60、90、120,
,,
,,
随机变量Y的分布列为:
30
60
90
120
分,
所以,故甲获得冠军的可能性更大.
5.某中学开展劳动教育实践活动,学生进行某种蔬菜种植实验,实验分为育苗、定植、收获三个阶段.已知每株蔬菜育苗成功的概率为,各株蔬菜苗是否成功相互独立;只有育苗成功的蔬菜才能进入定植阶段,定植后进入收获阶段的蔬菜,单株产量X(单位:kg)服从正态分布,市场上该品种蔬菜的售价为6元/kg,单株蔬菜从育苗到收获的平均种植成本为18元.
(1)若对10株蔬菜进行育苗实验,记育苗成功的株数为Y,求至少有9株蔬菜苗育成功的概率与(结果用p表示);
(2)从进入收获阶段的蔬菜中随机抽取1株,估计其单株利润为正的概率.
附:若随机变量,则,,.
【答案】(1)概率为,;
(2).
【详解】(1)依题意,,则,
,
所以至少有9株蔬菜苗育成功的概率,.
(2)由单株产量X(单位:kg)服从正态分布,得,
单株利润为,由单株利润为正,得,解得,
依题意,,
则,
所以单株利润为正的概率约为.
6.2025年政府工作报告明确提出持续推进“人工智能+”行动.上海某人工智能实验室的多模态大模型在某次数学测评中表现特别突出,所有测评试题能得1分的可能性为,能得2分的可能性为,假设每道试题得分情况相互独立.
(1)从所有测评试题中随机抽取4道试题,记这4道题得分总数为,求的分布列和数学期望;
(2)从所有测评试题中随机抽取n道试题,记这n道题得分总数为的概率为,求的值;
【答案】(1)分布列见解析,
(2)
【详解】(1)由题意知得分总数的所有可能取值为4,5,6,7,8,
其中,,
,,
,
所以的分布列为
4
5
6
7
8
.
(2)因为n道题得分总数为,所以其中只有1道题得到2分,
所以,
则,
所以,
两式相减得
,
所以.
7.教育部最新文件指出,要确保中小学生每天校内校外综合体育活动时间不少于2小时.为了提升学生体质,养成运动习惯,某中学对学生进行了周末两天运动时长的问卷调查,将运动时长不少于4小时的学生视为“运动达标”,运动时长不足4小时的学生视为“运动不达标”.现随机抽取200名学生的问卷,获得数据如下表:
男生(人)
女生(人)
合计(人)
运动达标
80
40
120
运动不达标
20
60
80
合计
100
100
200
用频率估计概率.
(1)从该校的男生中任选两人,求这两人均为“运动不达标”的概率;
(2)从该校男生和女生中各随机抽取一人,设为“运动达标”的人数,求的分布列和数学期望;
(3)从该校随机抽取20名学生,记其中“运动达标”的人数为.求使概率取得最大值时的的值.(直接写出结论)
【答案】(1)
(2)的分布列为
数学期望
(3)
【详解】(1)由题意,可估计从该校的男生中任选一人,“运动不达标”的概率为,
设“从该校的男生中任选两人,这两人均为运动不达标”为事件,
则;
(2)由表可知,从男生中抽取一人“运动达标” 的概率为,
从女生中抽取一人“运动达标” 的概率为,
随机变量的可能取值为,
,
,
,
所以的分布列为
数学期望.
(3)由题意知从该校随机抽取一名学生,“运动达标”的概率为,
服从二项分布,
则要使得使概率取得最大值需且,
则且,
解得,
为整数,所以,
使概率取得最大值时的值为.
【题型5:正态分布问题】
一、正态曲线与解析式
正态分布记作:X~
μ:均值,对称轴
σ:标准差,σ>0
正态曲线:钟形单峰,左右对称
二、核心性质(必考)
1、曲线关于直线 x=μ 对称
2、曲线在x=μ处达到最高点
3、曲线与x轴围成总面积=1
4、μ越大,曲线整体向右平移
5、σ越小,曲线越瘦高,集中稳定;σ越大,曲线越矮胖,分散不稳定
三、3σ原则(高考必背数值)
1、P(μ−σ<X<μ+σ)≈0.6827
2、P(μ−2σ<X<μ+2σ)≈0.9545
3、P(μ−3σ<X<μ+3σ)≈0.9973
几乎所有数据都落在(μ−3σ,μ+3σ)内,超出视为异常
四、对称概率计算(大题万能)
1、P(X<μ)=P(X>μ)=0.5
2、P(X<μ−a)=P(X>μ+a)
3、左右对称区间概率相等
五、正态分布期望与方差
若 X~N(μ,σ²)
期望 E(X)=μ
方差 D(X)=σ²
六、正态分布标准化
~标准正态分布,对称轴x=0
七、常考题型
1、根据对称轴求概率
2、利用对称性补全区间概率
3、3σ原则判断异常值
4、结合分层抽样、概率综合小题
八、高频易错点
1、混淆μ和σ的意义,对称轴记成σ
2、σ大小和曲线胖瘦搞反
3、区间概率加减出错,不会对称转化
4、忘记总面积恒等于1
5、期望方差写错:E=μ,D=σ²,不是σ
九、速记口诀
正态曲线钟形状,对称轴是x等于μ
σ小瘦高很集中,σ大矮胖很分散
左右对称概率等,三倍西格几乎全
(多选)下列说法正确的是( )
A.若随机变量,则
B.若事件相互独立,则
C.对具有线性相关关系的变量,其经验回归方程为,若样本数据的中心点为,则实数的值是4
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断变量与不独立
【答案】AD
【详解】对于A,随机变量,可得,即正态分布曲线关于对称,
因为,所以,所以A正确;
对于B,若事件相互独立,可得,
只有事件和事件互斥时,满足,所以B不正确;
对于C,对具有线性相关关系的变量,其经验回归方程为,
若样本数据的中心点为,可得,解得,所以C错误;
对于D,根据分类变量与的成对样本数据,计算得到,
依据的独立性检验,可得,
此时拒绝“与的独立”的原假设,可判断变量与不独立,所以D正确.
已知随机变量服从正态分布,若,其中,则的最小值为( )
A. B. C. D.
【答案】C
【详解】,,
由正态分布的对称性可知,故,
因为,所以,即,
所以,
当且仅当,即时,等号成立,
所以的最小值为.
已知随机变量服从正态分布,,则( )
A.0.7 B.0.6 C.0.5 D.0.3
【答案】D
【详解】因为,所以,
又因为,且,
所以
1.已知某市10000名高一学生的某次数学测试得分(单位:分)服从正态分布,若,则得分高于50分的人数约为_________.
【答案】7500
【详解】在正态分布中,,由,得,
所以得分高于50分的人数约为.
2.已知随机变量,且,则下列结论正确的是( )
A. B.
C. D.
【答案】C
【详解】因为,
所以由正态分布的对称性知,
所以,不能判断,故A错误;
由知,,故B错误;
因为,所以,故C正确;
因为大小未知,所以不能判断,故D错误.
3.(多选)某水果店店长记录了过去30天苹果的日销售量数据(单位:):
销量
频数
1
0
4
11
8
4
2
店长假设日销售量X近似服从正态分布,,,根据上述数据,下列说法正确的有( )
A.可以估计约为
B.日销售量在范围内的天数约为20天
C.若日销售量超过的概率为p,则
D.若未来连续3天的日销售量都超过,则说明日销售量不服从正态分布
【答案】ABC
【详解】日销售量的平均值为,
所以可以估计约为,故A正确;
因为日销售量X近似服从正态分布,所以,
所以,
所以日销售量在范围内的天数约为天,故B正确;
可得,
所以,故C正确;
若未来连续3天的日销售量都超过,这不能说明日销售量不服从正态分布,
在正态分布下它也是可能发生的,只是发生的可能性极小,故D错误.
4.班主任小明查阅了某大学发表的一项本市高三学生手机使用情况的研究报告.报告指出,高三学生每周手机使用时长(单位:小时)总体上服从正态分布.
(1)小明老师将自己所带班级(共50名学生)视为从本市高三学生总体中随机抽取的一个样本,能以此正态分布模型估算出全班每周平均手机使用时长超过16小时的人数,在此估算基础上若在全班任选3位同学,则至少有2位同学的每周手机使用时长超过16小时的概率是多少?(结果用最简分数表示)
参考数据:若,则.
(2)小明老师发现小虹同学每周手机使用时长超过16小时,对其进行疏导劝解,并跟进统计出之后5周小虹每周手机使用时长与该周数学练习得分(每周练习的难度相同且满分均为150分),制成表1.以这5组数据建立回归方程.请求出实数的值
表1
第1周
第2周
第3周
第4周
第5周
手机使用时长
20
18
22
16
14
练习得分
80
88
73
92
m
(3)受到鼓励的小虹制定了寒假复习计划表递交给小明老师,严格控制手机使用时长.小明老师统计发现该计划表中若第n天能复习时长超过5小时(记为“高效复习”),则第天也能“高效复习”的概率为;若第天不能“高效复习”,则第天还能“高效复习”的概率为.设(,为正整数)表示第天能“高效复习”的概率,,若表示复习计划表第天有效.求证:数列是等比数列,并说明小虹的该复习计划表是否在寒假每一天均有效.
【答案】(1)
(2)100
(3)答案见解析
【详解】(1)由题意知,因为.
所以任取1人使用手机超过16小时的概率为,
50名同学中有位超过16小时,
那么至少2位同学使用手机超过16小时的概率为.
(2)由题意得,.
代入回归方程有,解得.
(3)证明:由题意知,
所以
所以是以为公比的等比数列.
所以.
因为时,恒成立,所以.
所以小虹的该复习计划表在寒假每一天均有效.
5.(多选)已知连续型随机变量Y服从正态分布,记函数,,则( ).(注:若,则,)
A. B.
C.的图象关于直线对称 D.的图象关于点对称
【答案】AC
【详解】因为,所以连续型随机变量服从正态分布,且均值,标准差,
A选项, ,而,
代入、,得,由正态分布的性质得:,
所以,所以A选项正确;
B选项,,由解析A可知:,
由正态分布的对称性可知:,
又,
所以,解得:,因此,所以B选项错误;
对于C,,则,
,
而Y服从正态分布,区间和关于直线对称,
故,即的图象关于直线对称,C选项正确;
对于D,,若的图象关于点对称,则,
即,
而Y服从正态分布,则,,
故,
当时,,
即的图象不关于点对称,D错误.
6.(多选)某高端茶饮品牌推出一款新品冷泡茶,为优化产品配方,品牌对该款茶的“最佳饮用时长”x(单位:小时,指冲泡后风味最佳的时长区间)进行市场调研.从全国门店随机抽取了100名消费者进行试饮测试,统计结果如下表:
最佳饮用时长x(小时)
消费者人数y
2
38
a
b
6
已知最佳饮用时长x的平均值(同一组中的数据用该组区间的中点值代表),根据调研数据可认为x近似服从正态分布,用样本平均值作为的值,样本标准差s作为的值.则下列说法正确的是( ).
(参考数据:若随机变量,则,,)
A.,
B.饮用时长在小时内的消费者占比估计值为13.59%
C.饮用时长超过5.5小时的消费者占比估计值为2.275%
D.若规定概率低于0.27%的事件为小概率事件,则本次调研中未发生小概率事件,即该款茶的最佳饮用时长符合品牌预设标准
【答案】ABD
【详解】对于A,由题可得,
,
解得:,故A正确;
对于B,由题可得,则,
由正态分布知识,,
则,故B正确;
对于C,因,则,故C错误;
对于D,由题可得,
从而或 ,
因小概率事件范围与题目所涉及范围无交集,
则该调查中未发生小概率事件,故D正确.
7.为探索“五育融合”育人项目,某市在中小学全面开展志愿服务实践课程,并建立了学生志愿服务日参与情况的常态化统计机制.下表是课程开设后前5个月的数据,其中表示月份编号,表示该月份日平均参与志愿服务的学生人数(单位:万人).
月份编号
1
2
3
4
5
平均参与人数(单位:万人)
0.5
0.7
1
1.3
1.5
(1)已知与之间线性相关,求关于的经验回归方程,并预测第6个月的日平均参与志愿服务的学生人数;
(2)假设第6个月(按30天计)的日参与人数(单位:万人)服从正态分布,并视(1)所求第6个月的日平均参与人数的预测值为的值,预测该月份日参与人数超过1.75万人的天数是否不少于25天.
附:①对于一组数据,其回归直线的斜率
.②若,则
【答案】(1),(万人)
(2)该月日参与人数超过1.75万人的天数不少于25天.
【详解】(1)设所求的线性回归方程为,
由题意,
,
所以,
所以
所以.
当时,(万人).
(2)当时,,则,
由正态分布性质,可知.
因为,
所以.
因为,
所以该月日参与人数超过1.75万人的天数不少于25天.
学科网(北京)股份有限公司2 / 62
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$