摘要:
**基本信息**
以四大核心题型构建概率统计知识网络,通过36道模拟题实现从基础概念到实际应用的逻辑进阶,突出数学建模与数据分析素养。
**专项设计**
|模块|题量/典例|题型特征|知识逻辑|
|----|-----------|----------|----------|
|随机变量及其分布|8题|结合生活场景考查分布列与期望|从离散型变量定义过渡到复杂情境下的概率计算|
|三大分布|13题|超几何/二项分布的辨别与正态分布应用|通过实际案例对比不同分布的适用条件|
|回归分析|7题|线性与非线性回归模型的建立与预测|体现数据收集-模型选择-参数估计-应用的完整流程|
|独立性检验|8题|2×2列联表与卡方检验的实际应用|从分类数据关联性分析提升统计推断能力|
内容正文:
专题04 概率与统计(基础+中档)
题型1:随机变量及其分布
题型2:超几何分布、二项分布、正态分布
题型3:回归分析
题型4:独立性检验
题型1:随机变量及其分布
1.(2026·山西运城·二模)小张、小李、小王、小周周日都喜欢打球,这4人只打羽毛球或乒乓球,不打其他球,同一天中每人最多打一种球,且小张和小李两种球都会打,小王只打羽毛球,小周只打乒乓球.在雨天的情况下,小张、小李、小周打乒乓球的概率均为0.3,小张、小李、小王打羽毛球的概率均为0.3;在晴天或阴天的情况下,小张、小李、小周打乒乓球的概率均为0.4,小张、小李、小王打羽毛球的概率均为0.5;在其他天气这4人不打球.已知周日出现晴天或阴天的概率为0.5,出现雨天的概率为0.1.假设这4人打球的选择相互独立、互不影响.
(1)求小张周日打羽毛球的概率;
(2)若某个周日是晴天或阴天,求当天这4人中打乒乓球的人数不少于2的概率;
(3)若某个周日是雨天,设小李、小王、小周这3人中当天打球的人数为,求的数学期望.
2.(2026·山西朔州·二模)某芯片公司生产两种芯片,一种是用于人工智能计算的甲类芯片,另一种是用于基础信号传输的乙类芯片.现将4个甲类芯片和2个乙类芯片混合放置在一个容器中,这些芯片外观完全相同.
(1)质检员从中随机抽取2个芯片进行破坏性测试,求至少抽到1个乙类芯片的概率;
(2)自动化测试机随机逐个对芯片进行性能检测,检测过的芯片不再放回,直到甲类芯片或乙类芯片被全部检测完毕时停止,记停止时检测的芯片总数为,求的分布列与数学期望.
3.(2026·江苏镇江·二模)甲、乙、丙三人进行羽毛球比赛,规定:第一局由甲、乙对打,丙轮空;每局的比赛的胜者与轮空者进行下一局对打,负者下一局轮空,如此循环.设甲对乙、丙的胜率均为,乙、丙之间的胜率互为.
(1)求甲连续打前四局比赛的概率;
(2)前四局中,求在第二局乙获胜的条件下甲轮空两局的概率;
(3)如果甲胜一局得2分,输一局不得分,记打完前三局后甲的得分为,求的分布列和期望.
4.(2026·重庆·模拟预测)某乒乓球比赛采用“三局两胜制”.现有甲、乙两位选手参加比赛,假设每局比赛结果相互独立.已知每局比赛甲获胜的概率为,乙获胜的概率为.
(1)求甲最终赢得比赛的概率;
(2)若已知比赛进行了三局才结束,求甲是最终获胜者的概率;
(3)比赛中有“赛点”概念:当某位选手再赢一局即可获得整场比赛胜利时,称该选手拥有“赛点”.据统计,当选手拥有“赛点”时,由于其心理压力等因素,其在该局获胜的概率会比其常规单局获胜概率下降10个百分点(例如,若常规胜率为60%,则拥有“赛点”时胜率为50%).考虑“赛点”效应时,记为比赛的总局数,求的分布列及数学期望.并简要分析此“赛点”效应使得相比于不考虑“赛点”效应时是增大还是减小.
5.(2026·河北保定·二模)某AI大模型想象力引擎处理用户问题分为“深度思考”模式,“联网搜索”模式和“兼用”模式(即同时使用“深度思考”和“联网搜索”)三种模式,用户可根据需求在提问时自由选择.不同模式处理问题的时间(单位:秒)可以大致分为三组:,,一般情况下,使用三种模式处理用户问题所需时间比例统计如下图所示.
某企业想对三种模式进行测评,若每种模式处理问题的时间在,,,分别记测评得分为2分,1分,0分,假设每种模式的测评相互独立,用频率估计概率.
(1)若不考虑其它因素,仅从测评得分的均值考虑,哪种处理模式的测评得分最高?请说明理由;
(2)在测评过程中,使用“深度思考”模式处理的所有问题中随机选取3个,记这3个问题中的测评得分相等的问题的个数为,求的分布列.
6.(2026·云南昆明·模拟预测)某健身俱乐部周末开展促销活动,促销期间俱乐部的收费标准如下表:
健身时间(小时)
收费标准
免费
50元/人
100元/人
现有甲、乙两人相互独立地来该俱乐部健身,已知甲、乙不超过1小时离开的概率分别为小时以上且不超过2小时离开的概率分别为;两人健身的时间都不会超过3小时.
(1)求甲、乙两人所付的健身费用相同的概率;
(2)设甲、乙两人所付的健身费用之和为随机变量,求的分布列和数学期望.
7.(2026·广东惠州·二模)某企业生产的智能机器人需要用到一种高精度零件,现收到一批零件共有个,其中不合格的零件占总数的,从中随机抽取个零件,设抽到的不合格的零件数为.
(1)求的值.小明的求解过程如下:因为不合格的零件占总数的,所以,故.请问以上解答过程是否正确?如果正确,请说明解题依据;如果不正确,请写出正确的解答过程;
(2)若抽到的个零件中至少有个为不合格零件,求恰好有个为不合格零件的概率;
(3)对抽取的个零件进行检测,每个零件的检测费用为元,每发现个不合格品,需额外支出元的处理费用.设本次检测的总费用为元,求随机变量的分布列与数学期望.
8.(2026·湖北·二模)某篮球运动员在训练中进行投篮练习.已知其2分球的命中率为0.8,3分球的命中率为0.5,且每次投篮结果相互独立.在每次投篮前,他可以根据场上情况选择投2分球或3分球.
(1)若该运动员等可能地选择投2分球或3分球,求他投一次篮命中的概率:
(2)现该运动员拥有连续2次投篮的机会,他制定了如下策略:
若第一次命中,则第二次继续选择同一类型的投篮;若第一次未命中,则第二次更换为另一种类型的投篮,求该策略下,这名运动员第一次投篮应该怎么选择可以使得两次投篮总得分的期望最大.
题型2:超几何分布、二项分布、正态分布
9.(2026·广西南宁·三模)为提升图书盘点效率,某中学图书馆引入AI智能图书盘点机器人.现对该机器人的图书识别准确率进行标准化测试,测试样本集有6本图书,分为两类:4本标签完好,是机器人应正确识别的有效馆藏图书;2本标签破损,是机器人应正确排除的无效图书.两类样本共同用于机器人识别性能测试,现从这6本图书中不放回地随机抽取2本,逐本开展测试.
(1)已知第一次抽取到有效馆藏图书,求第二次也抽取到有效馆藏图书的概率;
(2)记抽取的2本图书中,有效馆藏图书的数量为X,求X的分布列及数学期望.
10.(2026·广东清远·二模)一个袋子中有3个红球,个绿球,已知从中一次摸出的2个球都是红球的概率为.
(1)求的值;
(2)从袋中依次随机摸出2个球作为样本(一次只摸出一个球),设采用有放回和不放回摸球得到的样本中绿球的个数分别为.
(i)求的分布列与数学期望;
(ii)分别就有放回摸球和不放回摸球,用样本中绿球比例估计总体中的绿球比例,求误差的绝对值不超过0.2的概率,并比较所求两概率的大小,说明其实际意义.
11.(2026·重庆·模拟预测)某电商对旗下100名客服人员 “双十一”当天的订单处理量(单位:千件)进行统计,将所得数据按 分成4组,制成如图所示的频率分布直方图.
(1)求图中的值及订单处理量的第75百分位数;
(2)假设订单处理量在的客服中有2名女性,现从该区间的客服中随机抽取3人进行奖励,记为抽取的女性人数.求X的分布列和数学期望.
12.(2026·黑龙江哈尔滨·二模)在统计调查中,问卷的设计是一门很大的学问.对一些敏感性问题,更要精心设计问卷及调查方法,设法消除被调查者的顾虑,使他们能够如实回答问题,否则,被调查者往往会拒绝回答,或不提供真实情况.某地区的公共卫生部门为了调查本地区中学生的吸烟情况,对随机抽出的80名初中生和120名高中生进行了调查.调查者设计了一个随机化装置,这是一个装有大小、形状和质量完全一样的10个白球和20个黑球的袋子.每个被调查者随机从袋中摸取1个球(摸出的球再放回袋中),摸到白球的学生若吸烟,则写下①,若不吸烟,则写下②;摸到黑球的学生若吸烟,则写下②,若不吸烟,则写下①.由于问题的答案只有①和②,而且摸到的是白球还是黑球也是别人不知道的,因此被调查者可以毫无顾虑地给出符合实际情况的答案.设事件“被调查者吸烟”,“被调查者写下①”.
(1)为了进一步了解学生的吸烟情况,从被调查的初中生和高中生中用比例分配的分层随机抽样的方法抽取10名学生,再从这10名学生中随机抽取3名学生进行问卷调查,记抽取的3名学生中初中生的人数为,求的分布列和数学期望;
(2)用频率估计概率,若200名学生中有130人写下①,试估计的值;
(3)若,求的最小值并求出此时的值.
13.(2026·甘肃金昌·三模)甲、乙两人参加射击比赛,甲击中目标的概率为0.9,乙击中目标的概率为0.8,甲、乙射击比赛得分规则是:一次击中目标得1分,未击中目标得0分且对方得1分.甲、乙同时射击,且是否击中目标,互不影响.
(1)甲、乙同时射击1次,求甲得1分的概率;
(2)甲、乙同时射击2次,记甲的得分为,求的分布列和数学期望;
(3)甲、乙同时射击次,甲的总得分与乙的总得分相等,求证:甲、乙两人击中目标的次数相等.
14.(2026·江西·三模)某科技企业研发的新一代人形机器人在量产前进行性能测试,其中行走稳定性是核心指标,测试分为平地行走和斜坡行走两个项目,规定:两个项目均达标,则机器人性能合格;否则机器人性能不合格.已知该型号机器人平地行走达标的概率为,斜坡行走达标的概率为,且两个项目是否达标相互独立.
(1)随机抽取1台该机器人进行测试,求这台机器人性能合格的概率;
(2)随机抽取3台该机器人进行独立测试,设表示这3台机器人中性能合格的台数,求随机变量的分布列和数学期望;
(3)该企业对机器人进行技术升级后,重新测试,升级后每台机器人性能合格的概率提升至,若随机抽取4台机器人测试,至少有1台性能合格的概率不低于,求实数的取值范围.
15.(2026·广东揭阳·二模)某商城为了回馈广大顾客,设计了一个抽奖活动,在抽奖箱中放8个大小相同的小球,其中4个为红色,4个为白色.抽奖方式为:每名顾客进行两次抽奖,每次抽奖从抽奖箱中一次性摸出两个小球,规定第一次抽奖后不将球放回抽奖箱,直接进行第二次抽奖,如果每次抽奖摸出的两个小球颜色相同即为中奖,两个小球颜色不同即为不中奖.
(1)求中奖次数X的分布列和数学期望;
(2)求第二次中奖的概率;
(3)已知有位顾客进行抽奖,则其中中奖2次的人数为多少的概率最大?
16.(2026·四川泸州·模拟预测)2025年政府工作报告明确提出持续推进“人工智能+”行动.上海某人工智能实验室的多模态大模型在某次数学测评中表现特别突出,所有测评试题能得1分的可能性为,能得2分的可能性为,假设每道试题得分情况相互独立.
(1)从所有测评试题中随机抽取4道试题,记这4道题得分总数为,求的分布列和数学期望;
(2)从所有测评试题中随机抽取n道试题,记这n道题得分总数为的概率为,求的值;
17.(2026·北京昌平·一模)教育部最新文件指出,要确保中小学生每天校内校外综合体育活动时间不少于2小时.为了提升学生体质,养成运动习惯,某中学对学生进行了周末两天运动时长的问卷调查,将运动时长不少于4小时的学生视为“运动达标”,运动时长不足4小时的学生视为“运动不达标”.现随机抽取200名学生的问卷,获得数据如下表:
男生(人)
女生(人)
合计(人)
运动达标
80
40
120
运动不达标
20
60
80
合计
100
100
200
用频率估计概率.
(1)从该校的男生中任选两人,求这两人均为“运动不达标”的概率;
(2)从该校男生和女生中各随机抽取一人,设为“运动达标”的人数,求的分布列和数学期望;
(3)从该校随机抽取20名学生,记其中“运动达标”的人数为.求使概率取得最大值时的的值.(直接写出结论)
18.(2026·河南开封·二模)某中学开展劳动教育实践活动,学生进行某种蔬菜种植实验,实验分为育苗、定植、收获三个阶段.已知每株蔬菜育苗成功的概率为,各株蔬菜苗是否成功相互独立;只有育苗成功的蔬菜才能进入定植阶段,定植后进入收获阶段的蔬菜,单株产量X(单位:kg)服从正态分布,市场上该品种蔬菜的售价为6元/kg,单株蔬菜从育苗到收获的平均种植成本为18元.
(1)若对10株蔬菜进行育苗实验,记育苗成功的株数为Y,求至少有9株蔬菜苗育成功的概率与(结果用p表示);
(2)从进入收获阶段的蔬菜中随机抽取1株,估计其单株利润为正的概率.
附:若随机变量,则,,.
19.(2026·上海·二模)班主任小明查阅了某大学发表的一项本市高三学生手机使用情况的研究报告.报告指出,高三学生每周手机使用时长(单位:小时)总体上服从正态分布.
(1)小明老师将自己所带班级(共50名学生)视为从本市高三学生总体中随机抽取的一个样本,能以此正态分布模型估算出全班每周平均手机使用时长超过16小时的人数,在此估算基础上若在全班任选3位同学,则至少有2位同学的每周手机使用时长超过16小时的概率是多少?(结果用最简分数表示)
参考数据:若,则.
(2)小明老师发现小虹同学每周手机使用时长超过16小时,对其进行疏导劝解,并跟进统计出之后5周小虹每周手机使用时长与该周数学练习得分(每周练习的难度相同且满分均为150分),制成表1.以这5组数据建立回归方程.请求出实数的值
表1
第1周
第2周
第3周
第4周
第5周
手机使用时长
20
18
22
16
14
练习得分
80
88
73
92
m
(3)受到鼓励的小虹制定了寒假复习计划表递交给小明老师,严格控制手机使用时长.小明老师统计发现该计划表中若第n天能复习时长超过5小时(记为“高效复习”),则第天也能“高效复习”的概率为;若第天不能“高效复习”,则第天还能“高效复习”的概率为.设(,为正整数)表示第天能“高效复习”的概率,,若表示复习计划表第天有效.求证:数列是等比数列,并说明小虹的该复习计划表是否在寒假每一天均有效.
20.(2025·江西萍乡·二模)某企业产品质检员随机从一条生产线分两次共抽取50件样品进行误差检测,统计数据如下表:
抽取次数
抽取件数
平均误差
第一次
30
0.3
第二次
20
(1)已知这条生产线的产品误差X服从正态分布,若以这50件样品的平均误差作为的估计值,且误差落在区间内的产品为“特等品”,试估计这条生产线生产的10000件产品中“特等品”的件数;
(2)已知这条生产线的“特等品”在某项测试任务中的达标率为80%,现随机抽取4件“特等品”进行该项测试任务,记其中达标的件数为随机变量Y,求Y的分布列及其数学期望.
附:若,则,;.
21.(2026·江西上饶·二模)泊松分布(Poisson Distribution)是一种重要的离散型分布,用于描述稀有事件的发生情况.如果随机变量X的所有可能取值为0,1,2,…,且,,其中,e为自然对数的底数,则称X服从泊松分布,记作.
(1)当时,泊松分布近似于正态分布,且满足,若,求的近似值;
(2)已知当,时,可以用泊松分布近似二项分布,即对于,,当k不太大时,有.已知某快递公司共有30000个包裹待配送,每个包裹有0.0001的概率出现配送延迟.试估计某天出现至少3起配送延迟的概率;(保留两位有效数字)
(3)若,且,求的取值范围.
参考数据:若,,则有,,.
22.(2026·辽宁沈阳·二模)某科技公司研发的AI智能体在进行图象分类任务时,单次分类的准确率X(单位:分)服从正态分布.
(1)求正常情况下,该AI单次分类的准确率大于99分的概率;
(2)某天测试人员随机抽取了该AI的两次分类结果,发现两次的准确率得分均大于99分.测试人员根据这两次测试结果,判断该AI智能体出现了异常波动,要求立即暂停研发更新并进行算法排查.请问测试人员的判断是否合理?请说明理由.
附:若,则,,.
题型3:回归分析
23.(2026·陕西榆林·三模)下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆):
月份
1
2
3
4
5
6
销售量
5.1
6.6
7.0
7.6
9.8
若关于的经验回归方程为,且相关系数.
(1)求的值(精确到0.01);
(2)求的值(精确到0.1).
附:,相关系数.
参考数据:,.
24.(2026·四川泸州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
25.(2026·辽宁沈阳·三模)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
26.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
27.(2026·湖南长沙·一模)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
28.(2026·广东佛山·二模)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
29.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
题型4:独立性检验
30.(2026·重庆北碚·模拟预测) 某高校为调查人们对 AI 知识掌握的熟悉程度与学历是否有关,组织了相关的答题活动, 满分 100 分. 答题完成后, 工作人员从中随机抽取 200 人作为样本,得到如下数据.
人数分数 学历
本科及以下
37
33
12
10
5
3
本科以上
20
20
10
10
30
10
(1)若得分不小于 60 分,则认为对 AI 知识掌握的程度为熟悉,否则为不熟悉;
熟悉程度
学历
合计
本科及以下
本科以上
熟悉
不熟悉
合计
根据样本数据补全上面的 列联表,并依据小概率值 的独立性检验,能否认为熟悉AI程度与参与人员学历有关系.
(2)从样本里学历为本科以上的人群中,采用按比例分层随机抽样的方法抽取 10 个人,再从这 10 人中随机抽出 3 人进行访谈,记这 3 人中分数在 的人数为 ,求 的分布列及数学期望.
附:, .
0.05
0.01
0.001
3.841
6.635
10.828
31.(2026·河北·二模)人工智能大模型已成为新一代数字技术核心,某企业自主研发了人工智能大模型,为了比较其与传统人工智能模型的文本生成效果,随机抽取两种模型各次文本生成效果,已知每次文本生成效果分为有效生成与无效生成两种情况,且部分统计数据如下表.
有效生成
无效生成
合计
模型
模型
合计
(1)完成列联表,并以样本估计总体,频率估计概率,若利用模型随机生成次文本,求该文本生成效果为有效生成的概率;
(2)根据小概率值的独立性检验,判断文本生成效果与模型类型是否有关.
附
32.(2026·河北保定·一模)某市体育局为调研市民体育锻炼情况与健康水平的关联性,随机抽取了120名18岁~60岁市民进行调查.将每周锻炼不少于3次的市民归为“高频锻炼组”,不足3次的归为“低频锻炼组”;体质检测达到《国民体质测定标准》优秀和良好等级的定为“体质达标”,否则为“体质不达标”.调查结果整理为如下不完整的列联表.
体质达标
体质不达标
合计
高频锻炼组
m
15
60
低频锻炼组
25
v
u
合计
s
t
120
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
(1)请根据列联表中的数据,写出m,v,s,t,u的值;
(2)依据小概率值的独立性检验,分析该市市民体育锻炼频次是否与体质达标有关联;
(3)该市计划从抽到的120人中体质不达标市民中抽取部分人员开展“科学健身指导”活动,现按高频锻炼组和低频锻炼组分层,通过分层抽样抽取10人展开指导活动,再从这10人中随机抽取3人进行专项访谈,求抽取的3人中至多有1人来自高频锻炼组的概率.
33.(2026·陕西咸阳·三模)咸阳文旅部门统计了某景点在2025年2月至6月的旅游收入(单位:万元),得到以下数据:
月份
2
3
4
5
6
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数判断,是否可用线性回归模型拟合与的关系?(当时,认为线性相关性较强),若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了100名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该景点与性别有关联”.
喜欢
不喜欢
总计
男
50
女
30
总计
60
参考公式:相关系数,参考数据:.
线性回归方程:,其中
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
34.(2026·山西晋城·模拟预测)某校共有名高一学生,其中男生人.为了解该校高一学生的数学学习水平,采取按性别分层、比例分配的分层随机抽样方法,随机抽取了名学生进行调查,分数分布在分之间.将分数不低于分的学生称为“优等生”.根据调查的结果绘制的学生分数频率分布直方图如图.
(1)求实数的值,并估计该样本中“优等生”的人数;
(2)若样本中属于“优等生”的男生有人,完成下列列联表;根据小概率值的独立性检验,能否认为这次成绩是否优秀(分数不低于分)与性别有关?
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
附:.
35.(23-24高二下·安徽六安·期末)某工厂生产某款电池,在满电状态下能够持续放电时间不低于小时的为合格品,工程师选择某台生产电池的机器进行参数调试,在调试前后,分别在其产品中随机抽取样本数据进行统计,制作了如下的列联表:
产品
合格
不合格
合计
调试前
45
15
60
调试后
35
5
40
合计
80
20
100
(1)根据表中数据,依据显著性水平的独立性检验,能否认为参数调试与产品质量有关联;
(2)现从调试前的样本中按合格和不合格,用分层随机抽样法抽取8件产品重新做参数调试,再从这8件产品中随机抽取3件做对比分析.记抽取的3件中合格的件数为X,求 X的分布列和期望;
(3)用样本分布的频率估计总体分布的概率,若现在随机抽取调试后的产品1000件,记其中合格的件数为Y, 求使事件“”的概率最大时k的取值.参考公式及数据: 其中.
0.05
0.025
0.01
0.005
0.001
3.841
5.024
6.635
7.879
10.828
36.(2026·山东济宁·二模)随着量子计算技术的突破,传统密码的安全性受到挑战.某实验室为研究“量子算力等级”与“密码破译成功率”的关系,进行了模拟测试,统计数据如下:
量子算力等级
密码破译成功
密码破译失败
合计
高算力量子机
64
16
80
低算力量子机
36
24
60
合计
100
40
140
(1)依据小概率值的独立性检验,即认为密码破译成功率是否与量子算力等级有关;
(2)该实验室使用两台不同算力的量子机(记高算力量子机为A机、低算力量子机为B机)对同一套传统密码进行破译测试,已知A机单次破译成功的概率为,失败的概率为;B机单次破译成功的概率为,失败的概率为;两台机器的破译过程相互独立.测试方案:先随机选择一台机器进行第一次破译,选中A机的概率为,选中B机的概率为;若第一次破译成功则停止测试;若第一次破译失败,则换用另一台机器进行第二次破译,无论第二次破译是否成功都停止测试,求破译成功的概率.
附:,
0.050
0.010
0.001
3.841
6.635
10.828
1 / 1
学科网(北京)股份有限公司
$
专题04 概率与统计(基础+中档)
题型1:随机变量及其分布
题型2:超几何分布、二项分布、正态分布
题型3:回归分析
题型4:独立性检验
题型1:随机变量及其分布
1.(2026·山西运城·二模)小张、小李、小王、小周周日都喜欢打球,这4人只打羽毛球或乒乓球,不打其他球,同一天中每人最多打一种球,且小张和小李两种球都会打,小王只打羽毛球,小周只打乒乓球.在雨天的情况下,小张、小李、小周打乒乓球的概率均为0.3,小张、小李、小王打羽毛球的概率均为0.3;在晴天或阴天的情况下,小张、小李、小周打乒乓球的概率均为0.4,小张、小李、小王打羽毛球的概率均为0.5;在其他天气这4人不打球.已知周日出现晴天或阴天的概率为0.5,出现雨天的概率为0.1.假设这4人打球的选择相互独立、互不影响.
(1)求小张周日打羽毛球的概率;
(2)若某个周日是晴天或阴天,求当天这4人中打乒乓球的人数不少于2的概率;
(3)若某个周日是雨天,设小李、小王、小周这3人中当天打球的人数为,求的数学期望.
【答案】(1)0.28
(2)0.352
(3)1.2.
【详解】(1)设小张周日打羽毛球为事件,
根据题目可知,周日下雨的概率为, 周日晴天或阴天的概率为,小张在雨天打羽毛球的概率为,小张在晴天或阴天打羽毛球的概率为,
由全概率公式可得.
(2)设晴天或阴天打乒乓球的人数为,
根据题目可知,小张晴天或阴天打乒乓球的概率为,小李晴天或阴天打乒乓球的概率为,小王晴天或阴天打乒乓球的概率为,小周晴天或阴天打乒乓球的概率为,
,
,
,
故.
(3)根据题目可知,因为同一天中每人最多打一种球,所以小李打羽毛球和打乒乓球是互斥事件,所以在雨天的情况下,小李打球的概率为,
小王雨天打球的概率为,小周雨天打球的概率为,
可能的取值为0,1,2,3,
则,
,
,
,
则.
2.(2026·山西朔州·二模)某芯片公司生产两种芯片,一种是用于人工智能计算的甲类芯片,另一种是用于基础信号传输的乙类芯片.现将4个甲类芯片和2个乙类芯片混合放置在一个容器中,这些芯片外观完全相同.
(1)质检员从中随机抽取2个芯片进行破坏性测试,求至少抽到1个乙类芯片的概率;
(2)自动化测试机随机逐个对芯片进行性能检测,检测过的芯片不再放回,直到甲类芯片或乙类芯片被全部检测完毕时停止,记停止时检测的芯片总数为,求的分布列与数学期望.
【答案】(1)
(2)
2
3
4
5
.
【分析】(1)用对立事件处理,即“至少抽到1个乙类芯片”的对立事件是“抽到的2个芯片均为甲类芯片”;
(2)把6个芯片的检测顺序看作随机排列,停止时间由2个乙类芯片的位置决定:若前2个均为乙类则,若第2个乙类出现在第3位则,若第2个乙类出现在第4位或前4个均为甲类则,其余情况为.分别计数即可得到分布列,再由数学期望公式求出.
【详解】(1)(1)设“至少抽到1个乙类芯片”为事件,则表示事件“抽取的两个芯片都是甲类芯片”,
则.
(2)由题意知的所有可能取值为2,3,4,5.
,,
,,
所以的分布列为
2
3
4
5
.
3.(2026·江苏镇江·二模)甲、乙、丙三人进行羽毛球比赛,规定:第一局由甲、乙对打,丙轮空;每局的比赛的胜者与轮空者进行下一局对打,负者下一局轮空,如此循环.设甲对乙、丙的胜率均为,乙、丙之间的胜率互为.
(1)求甲连续打前四局比赛的概率;
(2)前四局中,求在第二局乙获胜的条件下甲轮空两局的概率;
(3)如果甲胜一局得2分,输一局不得分,记打完前三局后甲的得分为,求的分布列和期望.
【答案】(1)
(2)
(3)
【分析】(1)分析甲连续打前四局比赛的情形,利用乘法求出概率即可;
(2)利用条件概率求解即可;
(3)先分析得分的情况,然后求出对应的概率,列出分布列计算数学期望即可.
【详解】(1)由甲连续打前四局比赛,说明甲在前3局都获胜,
第一局:甲、乙对打,甲胜,概率为,
第二局:甲、丙对打,甲胜,概率为,
第三局:甲、乙对打,甲胜,概率为,
所以甲连续打前四局比赛的概率为:.
(2)设事件:前四局中第二局乙获胜,事件:第二局乙获胜,前四局中甲轮空两局,
对于前四局中第二局乙获胜:
即第一局:甲、乙对打,乙胜,概率为,
第二局:乙、丙对打,乙胜,概率为,
所以,
在第二局乙获胜的前提下,甲要轮空两局,只能是第4局甲轮空
第三局:乙、甲对打,乙胜,概率为,
第四局:乙、丙对打,概率为,
所以,
根据条件概率知:.
(3)由题意知得分的可能值为:,
,
,
,
,
所以的分布列为:
6
所以得分的数学期望为:.
4.(2026·重庆·模拟预测)某乒乓球比赛采用“三局两胜制”.现有甲、乙两位选手参加比赛,假设每局比赛结果相互独立.已知每局比赛甲获胜的概率为,乙获胜的概率为.
(1)求甲最终赢得比赛的概率;
(2)若已知比赛进行了三局才结束,求甲是最终获胜者的概率;
(3)比赛中有“赛点”概念:当某位选手再赢一局即可获得整场比赛胜利时,称该选手拥有“赛点”.据统计,当选手拥有“赛点”时,由于其心理压力等因素,其在该局获胜的概率会比其常规单局获胜概率下降10个百分点(例如,若常规胜率为60%,则拥有“赛点”时胜率为50%).考虑“赛点”效应时,记为比赛的总局数,求的分布列及数学期望.并简要分析此“赛点”效应使得相比于不考虑“赛点”效应时是增大还是减小.
【答案】(1)
(2)
(3)分布列见解析,,“赛点”效应使得相比于不考虑“赛点”效应时是增大.
【分析】设表示第局甲赢,表示比赛进行了两局,表示比赛进行了三局,表示最终甲赢得比赛.
(1)由题设可得,据此可得答案;
(2)由题设及条件概率公式可得答案;
(3)若考虑“赛点”,记比赛总局数为,则可能值为2或3,据此可得对应分布列及期望;若不考虑“赛点”,记比赛总局数为,类似可得对应分布列及期望,比较后可得答案.
【详解】(1)设表示第局甲胜,表示比赛进行了两局,表示比赛进行了三局,表示最终甲赢得比赛.有,
所以;
(2),,
所以;
(3)若考虑“赛点”,记比赛总局数为,
则,
,
所以的分布列为
2
3
故,
若不考虑“赛点”,记比赛总局数为,
则,,
所以,
则有,
所以“赛点”效应使得相比于不考虑“赛点”效应时是增大.
5.(2026·河北保定·二模)某AI大模型想象力引擎处理用户问题分为“深度思考”模式,“联网搜索”模式和“兼用”模式(即同时使用“深度思考”和“联网搜索”)三种模式,用户可根据需求在提问时自由选择.不同模式处理问题的时间(单位:秒)可以大致分为三组:,,一般情况下,使用三种模式处理用户问题所需时间比例统计如下图所示.
某企业想对三种模式进行测评,若每种模式处理问题的时间在,,,分别记测评得分为2分,1分,0分,假设每种模式的测评相互独立,用频率估计概率.
(1)若不考虑其它因素,仅从测评得分的均值考虑,哪种处理模式的测评得分最高?请说明理由;
(2)在测评过程中,使用“深度思考”模式处理的所有问题中随机选取3个,记这3个问题中的测评得分相等的问题的个数为,求的分布列.
【答案】(1)“联网搜索”模式的测评得分最高,理由见解析
(2)
0
2
3
0.108
0.648
0.244
【分析】(1)根据题中统计表,结合均值的定义进行求解即可;
(2)根据独立事件的概率公式进行求解即可.
【详解】(1)设“深度思考”模式,“联网搜索”模式和“兼用”模式的测评得分的均值分别为,
,
因为,所以“联网搜索”模式的测评得分最高.
(2)三个问题中测评得分相等的问题的个数可能的取值为0,2,3
,
,
,
所以三个问题中测评得分相等的问题的个数的分布列为:
0
2
3
0.108
0.648
0.244
6.(2026·云南昆明·模拟预测)某健身俱乐部周末开展促销活动,促销期间俱乐部的收费标准如下表:
健身时间(小时)
收费标准
免费
50元/人
100元/人
现有甲、乙两人相互独立地来该俱乐部健身,已知甲、乙不超过1小时离开的概率分别为小时以上且不超过2小时离开的概率分别为;两人健身的时间都不会超过3小时.
(1)求甲、乙两人所付的健身费用相同的概率;
(2)设甲、乙两人所付的健身费用之和为随机变量,求的分布列和数学期望.
【答案】(1)
(2)分布列见解析,
【分析】(1)按“两人费用均为0元、均为50元、均为100元”三类情况分类,利用独立事件概率乘法公式计算每类概率,再求和得到费用相同的概率.
(2)先确定随机变量(两人健身费用之和)的所有可能取值,再结合两人不同费用的组合情况,用独立事件概率公式计算各取值的概率,列出分布列后,通过数学期望公式计算.
【详解】(1)依题意,两人都付0元的概率;
两人都付50元的概率;
两人都付100元的概率,
则甲、乙两人所付的健身费用相同的概率为.
(2)由题意知,的所有可能取值为0,50,100,150,200,
,
,
所以的分布列为
0
50
100
150
200
的数学期望(元).
7.(2026·广东惠州·二模)某企业生产的智能机器人需要用到一种高精度零件,现收到一批零件共有个,其中不合格的零件占总数的,从中随机抽取个零件,设抽到的不合格的零件数为.
(1)求的值.小明的求解过程如下:因为不合格的零件占总数的,所以,故.请问以上解答过程是否正确?如果正确,请说明解题依据;如果不正确,请写出正确的解答过程;
(2)若抽到的个零件中至少有个为不合格零件,求恰好有个为不合格零件的概率;
(3)对抽取的个零件进行检测,每个零件的检测费用为元,每发现个不合格品,需额外支出元的处理费用.设本次检测的总费用为元,求随机变量的分布列与数学期望.
【答案】(1)
(2)
(3)随机变量的分布列如下表所示:
Y
30
55
80
P
数学期望为.
【分析】(1)根据题意得出这个零件中不合格零件数,利用随机变量服从超几何分布即可求解;
(2)通过条件概率公式即可求解;
(3)根据题意得出随机变量与随机变量的关系,从而得到随机变量的取值范围和对应概率,即可求出分布列,再根据期望公式计算即可.
【详解】(1)小明的解答不正确,正确的解答过程如下:
根据题意,这个零件中是有个不合格零件,个合格零件,
则从这个零件中抽到个不合格零件,个合格零件的组合数是种,
因此.
(2)设事件为“抽到的个零件中至少有个为不合格零件”,事件为“抽到的个零件中恰好有个为不合格零件”,
由于事件是事件的子事件,所以,
而,,
根据条件概率公式,即恰好有个为不合格零件的概率为.
(3)由于随机变量表示抽到的不合格的零件数,可能取值为,而对于每个的值,总费用,
因此随机变量的可能取值为,,,
由于,,,
因此,,,
所以随机变量的分布列为:
数学期望为,即随机变量的数学期望为.
8.(2026·湖北·二模)某篮球运动员在训练中进行投篮练习.已知其2分球的命中率为0.8,3分球的命中率为0.5,且每次投篮结果相互独立.在每次投篮前,他可以根据场上情况选择投2分球或3分球.
(1)若该运动员等可能地选择投2分球或3分球,求他投一次篮命中的概率:
(2)现该运动员拥有连续2次投篮的机会,他制定了如下策略:
若第一次命中,则第二次继续选择同一类型的投篮;若第一次未命中,则第二次更换为另一种类型的投篮,求该策略下,这名运动员第一次投篮应该怎么选择可以使得两次投篮总得分的期望最大.
【答案】(1)
(2)该运动员第一次选择2分球可以使得两次投篮总得分的期望最大
【分析】(1)记选择2分球为事件,选择3分球为事件,投一次篮命中为事件,结合全概率公式,即可求解;
(2)当该运动员第一次选择2分球时,得到变量可取值有,求得相应的概率,列出分布列,求得期望值;当该运动员第一次选择3分球时,得到变量可取值有,求得相应的概率,列出分布列,求得期望值,结合,即可求解.
【详解】(1)解:记选择2分球为事件,选择3分球为事件,投一次篮命中为事件,
则
所以.
(2)解:当该运动员第一次选择2分球时,记他两次投篮的得分为,可取值有,
可得,,
,,
所以随机变量的分布列为:
0
2
3
4
0.1
0.16
0.1
0.64
所以
当该运动员第一次选择3分球时,记他两次投篮的得分为,可取值有,
可得,
,,
所以随机变量的分布列为:
0
2
3
6
0.1
0.4
0.25
0.25
所以,
因为,即,
所以该运动员第一次选择2分球可以使得两次投篮总得分的期望最大.
题型2:超几何分布、二项分布、正态分布
9.(2026·广西南宁·三模)为提升图书盘点效率,某中学图书馆引入AI智能图书盘点机器人.现对该机器人的图书识别准确率进行标准化测试,测试样本集有6本图书,分为两类:4本标签完好,是机器人应正确识别的有效馆藏图书;2本标签破损,是机器人应正确排除的无效图书.两类样本共同用于机器人识别性能测试,现从这6本图书中不放回地随机抽取2本,逐本开展测试.
(1)已知第一次抽取到有效馆藏图书,求第二次也抽取到有效馆藏图书的概率;
(2)记抽取的2本图书中,有效馆藏图书的数量为X,求X的分布列及数学期望.
【答案】(1)
(2)X的分布列见解析,
【分析】(1)利用条件概率公式计算即可求解;
(2)利用超几何分布求解即可.
【详解】(1)记第一次抽取到有效馆藏图书为事件,第二次抽取到有效馆藏图书为事件,
则,,所以,
所以第二次也抽取到有效馆藏图书的概率;
(2)随机变量的值为,
则,,,
所以的分布列为:
0
1
2
所以.
10.(2026·广东清远·二模)一个袋子中有3个红球,个绿球,已知从中一次摸出的2个球都是红球的概率为.
(1)求的值;
(2)从袋中依次随机摸出2个球作为样本(一次只摸出一个球),设采用有放回和不放回摸球得到的样本中绿球的个数分别为.
(i)求的分布列与数学期望;
(ii)分别就有放回摸球和不放回摸球,用样本中绿球比例估计总体中的绿球比例,求误差的绝对值不超过0.2的概率,并比较所求两概率的大小,说明其实际意义.
【答案】(1)3
(2)(i)分布列:
0
1
2
;
(ii)有放回摸球对应概率为,不放回摸球对应概率为,不放回摸球的概率更大,说明相同样本量下,不放回抽样的估计精度更高,更适合用于总体参数估计.
【分析】(1)结合古典概型概率公式与组合数运算构造关于的方程,求解得到的值.
(2)(i)判断有放回摸球时服从二项分布,计算各取值对应概率得到分布列,代入二项分布期望公式求期望.
(ii)将误差条件转化为绿球个数的取值范围,分别计算有放回、不放回摸球时对应概率,比较大小并说明实际意义.
【详解】(1)∵ 袋子中共有个球,一次摸出2个球的总情况数为,摸出2个红球的情况数为.
由古典概型概率公式得.
代入,,得,整理得.
即,解得或.
又,故.
(2)(i)
由(1)得袋子中共有6个球,其中绿球3个,故每次有放回摸球时,摸到绿球的概率为.
的可能取值为0,1,2,且.
∵ ,
,
,
故的分布列为:
0
1
2
数学期望.
(ii)
总体中绿球的比例为,样本中绿球比例为(为摸出的绿球个数),误差的绝对值不超过0.2等价于.
解不等式得,又为整数,故.
① 有放回摸球时,所求概率为.
② 不放回摸球时,服从超几何分布,,故所求概率为.
∵ ,故不放回摸球时误差绝对值不超过0.2的概率更大.
实际意义:相同样本量下,不放回抽样对总体比例的估计精度更高,更适合用于抽样调查中估计总体参数.
【点睛】方法归纳:求解抽样相关的概率问题时,先准确判断抽样类型对应分布:有放回抽样对应二项分布,不放回抽样对应超几何分布,再结合题设条件转化为随机变量的取值问题,代入对应概率公式计算即可.
易错归纳:转化误差条件时注意样本比例与随机变量的对应关系,避免取值范围求解错误导致概率计算偏差.
11.(2026·重庆·模拟预测)某电商对旗下100名客服人员 “双十一”当天的订单处理量(单位:千件)进行统计,将所得数据按 分成4组,制成如图所示的频率分布直方图.
(1)求图中的值及订单处理量的第75百分位数;
(2)假设订单处理量在的客服中有2名女性,现从该区间的客服中随机抽取3人进行奖励,记为抽取的女性人数.求X的分布列和数学期望.
【答案】(1)180
(2)
【分析】(1)根据频率分布直方图的性质即可求得a的值,结合百分位数的含义即可求得第75百分位数;
(2)求出订单处理量在中的客服人数,根据超几何分布的概率计算可求 的分布列和数学期望 .
【详解】(1)由题意得,
设订单处理量的第75百分位数为,前两组频率之和为0.6,前三组频率之和为0.9,
则,,解得,
订单处理量的第75百分位数为180.
(2)订单处理量在中的客服人数为,其中女性2人,男性8人,
表示抽取的女性人数,的可能取值为
,
,
,
的分布列:
计算期望:.
12.(2026·黑龙江哈尔滨·二模)在统计调查中,问卷的设计是一门很大的学问.对一些敏感性问题,更要精心设计问卷及调查方法,设法消除被调查者的顾虑,使他们能够如实回答问题,否则,被调查者往往会拒绝回答,或不提供真实情况.某地区的公共卫生部门为了调查本地区中学生的吸烟情况,对随机抽出的80名初中生和120名高中生进行了调查.调查者设计了一个随机化装置,这是一个装有大小、形状和质量完全一样的10个白球和20个黑球的袋子.每个被调查者随机从袋中摸取1个球(摸出的球再放回袋中),摸到白球的学生若吸烟,则写下①,若不吸烟,则写下②;摸到黑球的学生若吸烟,则写下②,若不吸烟,则写下①.由于问题的答案只有①和②,而且摸到的是白球还是黑球也是别人不知道的,因此被调查者可以毫无顾虑地给出符合实际情况的答案.设事件“被调查者吸烟”,“被调查者写下①”.
(1)为了进一步了解学生的吸烟情况,从被调查的初中生和高中生中用比例分配的分层随机抽样的方法抽取10名学生,再从这10名学生中随机抽取3名学生进行问卷调查,记抽取的3名学生中初中生的人数为,求的分布列和数学期望;
(2)用频率估计概率,若200名学生中有130人写下①,试估计的值;
(3)若,求的最小值并求出此时的值.
【答案】(1)分布列见解析,
(2)
(3),
【分析】(1)先根据初中生和高中生的总人数比例,计算抽取的10名学生中初中生和高中生的人数,判断X服从超几何分布,再根据超几何分布的相关公式求解分布列和数学期望;
(2)利用全概率公式,结合已知的写下①的人数对应的频率作为,建立关于的方程,进而求解;
(3)首先利用条件概率公式,分别表示出和,再将它们相加化简得到关于的表达式,再利用函数求最值的方法进行求解,同时结合的条件确定此时的值.
【详解】(1)抽取的10名学生中有4名初中生,6名高中生
的可能取值为0,1,2,3.
,,
,.
的分布列为
0
1
2
3
;
(2)设事件“被调查者摸到白球”
,
当时,
(3),
,
当时,的最小值为.
13.(2026·甘肃金昌·三模)甲、乙两人参加射击比赛,甲击中目标的概率为0.9,乙击中目标的概率为0.8,甲、乙射击比赛得分规则是:一次击中目标得1分,未击中目标得0分且对方得1分.甲、乙同时射击,且是否击中目标,互不影响.
(1)甲、乙同时射击1次,求甲得1分的概率;
(2)甲、乙同时射击2次,记甲的得分为,求的分布列和数学期望;
(3)甲、乙同时射击次,甲的总得分与乙的总得分相等,求证:甲、乙两人击中目标的次数相等.
【答案】(1)0.74
(2)
0
1
2
3
4
0.0064
0.1184
0.5764
0.2664
0.0324
.
(3)证明见解析
【分析】(1)由概率加法公式和乘法公式进行求解;
(2)甲、乙同时射击2次,甲的得分的可能取值为,结合甲、乙击中次数服从二项分布进行求解;
(3)设次射击中,甲击中目标的次数为,乙击中目标的次数为,则甲、乙同时射击次,甲的总得分为,乙的总得分为,进行求解.
【详解】(1)根据得分规则甲、乙同时射击1次,甲得1分的情况是甲、乙都击中目标或甲、乙都未击中目标,
所以甲得1分的概率.
(2)甲、乙同时射击2次,甲的得分的可能取值为,
,
,
,
,
,
所以的分布列为
0
1
2
3
4
0.0064
0.1184
0.5764
0.2664
0.0324
.
(3)设次射击中,甲击中目标的次数为,乙击中目标的次数为,
因为甲、乙射击比赛得分规则是:击中目标得1分,未击中目标得0分且对方得1分,
所以甲击中目标次,甲得分,乙得分;乙击中目标次,甲得分,乙得分,
所以甲、乙同时射击次,甲的总得分为,乙的总得分为,
因为甲的总得分与乙的总得分相等,所以,所以,即两人击中目标的次数相等.
14.(2026·江西·三模)某科技企业研发的新一代人形机器人在量产前进行性能测试,其中行走稳定性是核心指标,测试分为平地行走和斜坡行走两个项目,规定:两个项目均达标,则机器人性能合格;否则机器人性能不合格.已知该型号机器人平地行走达标的概率为,斜坡行走达标的概率为,且两个项目是否达标相互独立.
(1)随机抽取1台该机器人进行测试,求这台机器人性能合格的概率;
(2)随机抽取3台该机器人进行独立测试,设表示这3台机器人中性能合格的台数,求随机变量的分布列和数学期望;
(3)该企业对机器人进行技术升级后,重新测试,升级后每台机器人性能合格的概率提升至,若随机抽取4台机器人测试,至少有1台性能合格的概率不低于,求实数的取值范围.
【答案】(1)
(2)
0
1
2
3
期望
(3)
【分析】(1)根据独立事件概率乘法公式计算求解;
(2)由题意可得服从二项分布,根据二项分布求解分布列和数学期望;
(3)根据二项分布的概率计算公式结合题意列不等式计算求解.
【详解】(1)设事件:机器人平地行走达标,;设事件:机器人斜坡行走达标,;
由题意,事件与相互独立,则性能合格为事件.
根据独立事件概率乘法公式:.
(2)由题意,服从二项分布:的可能取值为.
根据二项分布概率公式,;
的分布列为:
0
1
2
3
的数学期望.
(3)设升级后,4台机器人中性能合格的台数为,则.
“至少有1台合格”的对立事件为“4台均不合格”,其概率为.
由题意:,
整理得:,又,解得:,
故实数的取值范围为.
15.(2026·广东揭阳·二模)某商城为了回馈广大顾客,设计了一个抽奖活动,在抽奖箱中放8个大小相同的小球,其中4个为红色,4个为白色.抽奖方式为:每名顾客进行两次抽奖,每次抽奖从抽奖箱中一次性摸出两个小球,规定第一次抽奖后不将球放回抽奖箱,直接进行第二次抽奖,如果每次抽奖摸出的两个小球颜色相同即为中奖,两个小球颜色不同即为不中奖.
(1)求中奖次数X的分布列和数学期望;
(2)求第二次中奖的概率;
(3)已知有位顾客进行抽奖,则其中中奖2次的人数为多少的概率最大?
【答案】(1)的分布列为
0
1
2
.
(2)
(3)中奖2次的人数为时的概率最大.
【分析】(1)根据题意分析随机变量的可能取值,求出各个值对应的概率可得分布列及期望;
(2)根据(1)的计算数据可求第二次中奖的概率;
(3)设位顾客中中奖2次的人数为,则,故可不等式组的整数解确定中奖2次的人数为何值时对应的概率最大.
【详解】(1)若第一次抽奖后不将球放回抽奖箱,直接进行第二次抽奖,
则中奖次数的可能取值为,
则,
,
,
则的分布列为
0
1
2
所以的期望为.
(2)设为“第二次中奖”,
则.
(3)设位顾客中中奖2次的人数为,由(1)的分布列可得,
故,其中,
令,
所以,
化简得,故,
故中奖2次的人数为的概率最大.
16.(2026·四川泸州·模拟预测)2025年政府工作报告明确提出持续推进“人工智能+”行动.上海某人工智能实验室的多模态大模型在某次数学测评中表现特别突出,所有测评试题能得1分的可能性为,能得2分的可能性为,假设每道试题得分情况相互独立.
(1)从所有测评试题中随机抽取4道试题,记这4道题得分总数为,求的分布列和数学期望;
(2)从所有测评试题中随机抽取n道试题,记这n道题得分总数为的概率为,求的值;
【答案】(1)分布列见解析,
(2)
【分析】(1)列出的所有可能取值,利用二项分布的概率公式求出分布列,再根据分布列求数学期望即可;
(2)由题意可得n道试题中只有1道得到2分,所以,利用错位相减法求和即可;
【详解】(1)由题意知得分总数的所有可能取值为4,5,6,7,8,
其中,,
,,
,
所以的分布列为
4
5
6
7
8
.
(2)因为n道题得分总数为,所以其中只有1道题得到2分,
所以,
则,
所以,
两式相减得
,
所以.
17.(2026·北京昌平·一模)教育部最新文件指出,要确保中小学生每天校内校外综合体育活动时间不少于2小时.为了提升学生体质,养成运动习惯,某中学对学生进行了周末两天运动时长的问卷调查,将运动时长不少于4小时的学生视为“运动达标”,运动时长不足4小时的学生视为“运动不达标”.现随机抽取200名学生的问卷,获得数据如下表:
男生(人)
女生(人)
合计(人)
运动达标
80
40
120
运动不达标
20
60
80
合计
100
100
200
用频率估计概率.
(1)从该校的男生中任选两人,求这两人均为“运动不达标”的概率;
(2)从该校男生和女生中各随机抽取一人,设为“运动达标”的人数,求的分布列和数学期望;
(3)从该校随机抽取20名学生,记其中“运动达标”的人数为.求使概率取得最大值时的的值.(直接写出结论)
【答案】(1)
(2)的分布列为
数学期望
(3)
【分析】(1)根据频率估计概率,再由独立事件的乘法公式即可求解;
(2)先算出男生和女生中各随机抽取一人“运动达标”的概率,确定随机变量的可能取值并计算概率,进而得出分布列及数学期望;
(3)先确定服从的二项分布,由二项分布的性质确定概率最大时的值.
【详解】(1)由题意,可估计从该校的男生中任选一人,“运动不达标”的概率为,
设“从该校的男生中任选两人,这两人均为运动不达标”为事件,
则;
(2)由表可知,从男生中抽取一人“运动达标” 的概率为,
从女生中抽取一人“运动达标” 的概率为,
随机变量的可能取值为,
,
,
,
所以的分布列为
数学期望.
(3)由题意知从该校随机抽取一名学生,“运动达标”的概率为,
服从二项分布,
则要使得使概率取得最大值需且,
则且,
解得,
为整数,所以,
使概率取得最大值时的值为.
18.(2026·河南开封·二模)某中学开展劳动教育实践活动,学生进行某种蔬菜种植实验,实验分为育苗、定植、收获三个阶段.已知每株蔬菜育苗成功的概率为,各株蔬菜苗是否成功相互独立;只有育苗成功的蔬菜才能进入定植阶段,定植后进入收获阶段的蔬菜,单株产量X(单位:kg)服从正态分布,市场上该品种蔬菜的售价为6元/kg,单株蔬菜从育苗到收获的平均种植成本为18元.
(1)若对10株蔬菜进行育苗实验,记育苗成功的株数为Y,求至少有9株蔬菜苗育成功的概率与(结果用p表示);
(2)从进入收获阶段的蔬菜中随机抽取1株,估计其单株利润为正的概率.
附:若随机变量,则,,.
【答案】(1)概率为,;
(2).
【分析】(1)根据给定条件,利用二项分布的概率公式列式求出概率,再利用二项分布的期望公式求出期望.
(2)利用正态分布的对称性求出单株利润为正的概率.
【详解】(1)依题意,,则,
,
所以至少有9株蔬菜苗育成功的概率,.
(2)由单株产量X(单位:kg)服从正态分布,得,
单株利润为,由单株利润为正,得,解得,
依题意,,
则,
所以单株利润为正的概率约为.
19.(2026·上海·二模)班主任小明查阅了某大学发表的一项本市高三学生手机使用情况的研究报告.报告指出,高三学生每周手机使用时长(单位:小时)总体上服从正态分布.
(1)小明老师将自己所带班级(共50名学生)视为从本市高三学生总体中随机抽取的一个样本,能以此正态分布模型估算出全班每周平均手机使用时长超过16小时的人数,在此估算基础上若在全班任选3位同学,则至少有2位同学的每周手机使用时长超过16小时的概率是多少?(结果用最简分数表示)
参考数据:若,则.
(2)小明老师发现小虹同学每周手机使用时长超过16小时,对其进行疏导劝解,并跟进统计出之后5周小虹每周手机使用时长与该周数学练习得分(每周练习的难度相同且满分均为150分),制成表1.以这5组数据建立回归方程.请求出实数的值
表1
第1周
第2周
第3周
第4周
第5周
手机使用时长
20
18
22
16
14
练习得分
80
88
73
92
m
(3)受到鼓励的小虹制定了寒假复习计划表递交给小明老师,严格控制手机使用时长.小明老师统计发现该计划表中若第n天能复习时长超过5小时(记为“高效复习”),则第天也能“高效复习”的概率为;若第天不能“高效复习”,则第天还能“高效复习”的概率为.设(,为正整数)表示第天能“高效复习”的概率,,若表示复习计划表第天有效.求证:数列是等比数列,并说明小虹的该复习计划表是否在寒假每一天均有效.
【答案】(1)
(2)100
(3)答案见解析
【分析】(1)根据正态分布的性质和概率相关知识计算即可.
(2)先求出的平均值,然后代入回归方程即可求出结果.
(3)先根据题意列出递推式,然后证明数列是以为公比的等比数列,进而可根据等比数列的通项公式求出,并根据的范围证明结论即可.
【详解】(1)由题意知,因为.
所以任取1人使用手机超过16小时的概率为,
50名同学中有位超过16小时,
那么至少2位同学使用手机超过16小时的概率为.
(2)由题意得,.
代入回归方程有,解得.
(3)证明:由题意知,
所以
所以是以为公比的等比数列.
所以.
因为时,恒成立,所以.
所以小虹的该复习计划表在寒假每一天均有效.
20.(2025·江西萍乡·二模)某企业产品质检员随机从一条生产线分两次共抽取50件样品进行误差检测,统计数据如下表:
抽取次数
抽取件数
平均误差
第一次
30
0.3
第二次
20
(1)已知这条生产线的产品误差X服从正态分布,若以这50件样品的平均误差作为的估计值,且误差落在区间内的产品为“特等品”,试估计这条生产线生产的10000件产品中“特等品”的件数;
(2)已知这条生产线的“特等品”在某项测试任务中的达标率为80%,现随机抽取4件“特等品”进行该项测试任务,记其中达标的件数为随机变量Y,求Y的分布列及其数学期望.
附:若,则,;.
【答案】(1)9545件
(2)
Y
0
1
2
3
4
P
.
【分析】(1)结合题意先确定,再结合正态分布的性质求出特等品的概率,最后结合题意求解估计值即可.
(2)先确定变量服从二项分布,再利用二项分布的概率公式求解概率写出分布列,最后结合二项分布的期望公式求解期望即可.
【详解】(1)设这50件样品平均误差为,则,即,而,
故为“特等品”,即“特等品”的概率为,
故这条生产线生产的10000件产品中“特等品”件数约为件;
(2)由题意得:,
则,,
,,
,
则Y的分布列如下:
Y
0
1
2
3
4
P
其数学期望.
21.(2026·江西上饶·二模)泊松分布(Poisson Distribution)是一种重要的离散型分布,用于描述稀有事件的发生情况.如果随机变量X的所有可能取值为0,1,2,…,且,,其中,e为自然对数的底数,则称X服从泊松分布,记作.
(1)当时,泊松分布近似于正态分布,且满足,若,求的近似值;
(2)已知当,时,可以用泊松分布近似二项分布,即对于,,当k不太大时,有.已知某快递公司共有30000个包裹待配送,每个包裹有0.0001的概率出现配送延迟.试估计某天出现至少3起配送延迟的概率;(保留两位有效数字)
(3)若,且,求的取值范围.
参考数据:若,,则有,,.
【答案】(1)0.6827
(2)0.58
(3)
【分析】(1)由时,泊松分布近似于正态分布求解;
(2)设为配送延迟包裹数,由,根据,,得到,由求解;
(3)由,得到,再根据泊松分布的概率公式求解.
【详解】(1)当时,泊松分布近似于正态分布,且满足,若,
当时,泊松分布近似于正态分布,
即,,要计算,
根据正态分布的性质,,
.
(2)当,时,可以用泊松分布近似二项分布,
即对于,,
设为配送延迟包裹数,则,,
,,
,
,
那么,某天至少3起配送延迟的概率约为:
.
(3)由,得,
根据泊松分布的概率公式:,,得.
设(),
由,知在上为减函数.
,,
,即,
的取值范围为.
22.(2026·辽宁沈阳·二模)某科技公司研发的AI智能体在进行图象分类任务时,单次分类的准确率X(单位:分)服从正态分布.
(1)求正常情况下,该AI单次分类的准确率大于99分的概率;
(2)某天测试人员随机抽取了该AI的两次分类结果,发现两次的准确率得分均大于99分.测试人员根据这两次测试结果,判断该AI智能体出现了异常波动,要求立即暂停研发更新并进行算法排查.请问测试人员的判断是否合理?请说明理由.
附:若,则,,.
【答案】(1)
(2)合理,理由见解析.
【分析】(1)考察正态分布的对称性及其性质,重点在于理解正态分布密度曲线的对称性,利用给定区间概率计算概率.
(2)理解小概率事件在统计决策中的含义.
【详解】(1)因为,即,
又因为,
所以
所以正常情况下,该AI单次分类的准确率得分大于99分的概率为
(2)测试人员的判断是合理的,理由如下:
设“AI单次分类的准确率得分大于99分的概率”为事件,则,
设 “两次分类准确率得分均大于99分”为事件,则两次测试相互独立,
因为是一个极小概率,根据小概率原理,小概率事件在一次实验中几乎不可能发生.
现在该事件发生了,说明“AI智能体运行正常”这一假设不成立,即出现了异常波动.
所以,测试人员的判断是合理的.
题型3:回归分析
23.(2026·陕西榆林·三模)下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆):
月份
1
2
3
4
5
6
销售量
5.1
6.6
7.0
7.6
9.8
若关于的经验回归方程为,且相关系数.
(1)求的值(精确到0.01);
(2)求的值(精确到0.1).
附:,相关系数.
参考数据:,.
【答案】(1)0.86
(2)8.6
【分析】(1)根据相关系数公式、的求解公式,结合题中数据进行求解即可;
(2)根据在回归直线上进行求解即可.
【详解】(1)由题意得,
,
所以,
所以,
所以.
(2)由(1)知,关于的经验回归方程为,
,,
因为在回归直线上,所以,
所以.
24.(2026·四川泸州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程.
(2)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)更适合,
(2)不能
【分析】(1)根据图形,即可作出判断,再将非线性回归方程转化成线性回归方程,再结合条件,求出,即可求解;
(2)根据条件,求出的值,结合条件,即可求解.
【详解】(1)由图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型,
由,得到,因为,则,
则,所以,则.
(2)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
,
根据小概率值的独立性检验,我们没有理由认为不成立,即认为市民佩戴头盔与性别没有关联.
25.(2026·辽宁沈阳·三模)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【答案】(1),实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩
(2)当施肥量为10kg/亩时利润最大
【分析】(1)根据题意,利用回归系数的公式,求得,进而得出回归直线方程,结合的值,得出的实际意义;
(2)由利润为,结合基本不等式,即可求解.
【详解】(1)根据题意,可得,
又由,
所以产量y关于施肥量x的回归方程为,
其中的实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩.
(2)设利润为元/亩,
当且仅当kg/亩时取等,即当施肥量为10kg/亩时利润最大.
26.(2026·湖南岳阳·二模)某高校快递站统计了某年度新学期前5天的取件人数y(单位:人),得到如下样本数据:
天数(序号)x
1
2
3
4
5
每日取件人数
120
100
80
70
55
(1)计算样本相关系数r,并据此判断变量x与y之间线性相关关系的强弱(结果保留两位小数);
(2)从这5天中随机选取3天,记X为所选日期中取件人数小于100的天数,求X的分布列与数学期望.
注: (1)样本的相关系数
(2)参考数据:
【答案】(1);变量x与y之间具有很强的线性相关关系
(2)分布列见解析;期望:1.8
【分析】(1)使用相关系数计算公式求相关系数,根据求解结果判断线性相关关系的强弱;
(2)结合超几何分布的概率公式求分布列,再由期望公式求期望.
【详解】(1),,
,
,
,
样本相关系数:
,
因为非常接近1,所以变量x与y之间具有很强的线性相关关系.
(2)5天中取件人数小于100的天数有3天,
从这5天中随机选取3天,的可能取值为1,2,3.
,
,
,
所以的分布列为:
1
2
3
的数学期望
27.(2026·湖南长沙·一模)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)模型一的拟合效果更好,理由见解析
(2)(ⅰ)点,理由见解析;(ⅱ)
【分析】(1)根据残差图,比较带状区域的宽度即可得出判断;
(2)(ⅰ)计算出残差即可求解;(ⅱ)根据相关系数公式及经验回归方程计算即可.
【详解】(1)模型一的拟合效果更好,理由如下:
模型一残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型二的带状宽度窄,所以模型一的拟合精度更高,经验回归方程的预报精度相应就越高.
(2)(ⅰ)点,理由如下:
因为模型一的拟合效果更好,经验回归方程为,
所以该方程相应于点的残差为,故选点;
(ⅱ)由题可知,,
所以,
由,,
所以
.
28.(2026·广东佛山·二模)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对2025年某区域的企业发布的所有大模型中随机抽取了14款进行标准化测试,由测试数据得到下面的散点图:
(1)用频率估计概率,根据2025年该区域的企业发布大模型的分布情况,估计该区域2026发布的大模型是多模态模型的概率;
(2)若t为时间变量,y为分数,根据多模态模型数据(,2,3,4,5,6,表示2025年1月份,表示2025年6月份,…),计算得,,.
(i)建立y关于t的线性回归方程;
(ii)根据语言模型的数据建立的回归方程为,该区域的某家企业在2026年4月发布了1款标准化测试得分为68分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
【答案】(1)
(2)(i);(ii)该款大模型更有可能是语言模型.
【分析】(1)依据图示可以得到多模态模型的个数与总数作比值;(2) (i)根据线性回归模型的计算公式代入数据;(ii)分别计算两款模型的值,比较即可;
【详解】(1)由2025年的数据可知,随机抽取了14款大模型,其中多模态模型有6款,用频率估计概率,多模态模型的频率为,所以该区域2026发布的大模型是多模态模型的概率为.
(2)(i) 因为,,,
表示2025年1月份,表示2025年6月份,所以
所以,
所以,根据,
所以y关于t的线性回归方程为:
(ii) 已知2026年4月,则,计算多模态模型的预测值和残差,,残差为:,
所以.再计算语言模型的预测值和残差,,残差为:,,所以,所以根据值越小的大模型发生的可能性越大,所以该款大模型更有可能是语言模型.
29.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适宜
(2)
(3)347
【分析】(1)根据散点图的特征确定回归方程类型.
(2)利用非线性回归及最小二乘法求出回归方程.
(3)利用(2)的结论进行数据估计.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
题型4:独立性检验
30.(2026·重庆北碚·模拟预测) 某高校为调查人们对 AI 知识掌握的熟悉程度与学历是否有关,组织了相关的答题活动, 满分 100 分. 答题完成后, 工作人员从中随机抽取 200 人作为样本,得到如下数据.
人数分数 学历
本科及以下
37
33
12
10
5
3
本科以上
20
20
10
10
30
10
(1)若得分不小于 60 分,则认为对 AI 知识掌握的程度为熟悉,否则为不熟悉;
熟悉程度
学历
合计
本科及以下
本科以上
熟悉
不熟悉
合计
根据样本数据补全上面的 列联表,并依据小概率值 的独立性检验,能否认为熟悉AI程度与参与人员学历有关系.
(2)从样本里学历为本科以上的人群中,采用按比例分层随机抽样的方法抽取 10 个人,再从这 10 人中随机抽出 3 人进行访谈,记这 3 人中分数在 的人数为 ,求 的分布列及数学期望.
附:, .
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)列联表见解析;熟悉AI程度与参与人员学历有关联;
(2)分布列见解析;.
【分析】(1)先根据题意列出列联表,再计算,并判断;
(2)先确定的可能取值,再分别求概率,列出分布列,最后求期望.
【详解】(1)
熟悉程度
学历
合计
本科及以下
本科以上
熟悉
30
60
90
不熟悉
70
40
110
合计
100
100
200
零假设为:熟悉AI程度与参与人员学历互相独立,即熟悉AI程度与参与人员学历无关联.
根据列联表中的数据,经计算得
根据小概率值的独立性检验,我们推断不成立,即认为熟悉AI程度与参与人员学历有关联,此推断犯错误的概率不大于0.001.
根据表中数据,熟悉AI的参与人员中,本科及以下和本科以上的频率分别为和,
不熟悉AI的参与人员中,本科及以下和本科以上的频率分别为和,
由可见,在被调查者中,熟悉AI的人中,本科以上学历是本科及以下学历的频率的将近2倍,于是,根据频率稳定于概率的原理,我们可以认为本科以上学历熟悉AI的概率明显大于本科及以下学历熟悉AI的概率,即本科以上学历更容易熟悉AI.
(2)从样本里学历为本科以上的人群中,采用按比例分层随机抽样的方法抽取10个人,这10人中,分数在的人数为3,则可取0,1,2,3;
,
,
,
,
的分布列为
0
1
2
3
.
31.(2026·河北·二模)人工智能大模型已成为新一代数字技术核心,某企业自主研发了人工智能大模型,为了比较其与传统人工智能模型的文本生成效果,随机抽取两种模型各次文本生成效果,已知每次文本生成效果分为有效生成与无效生成两种情况,且部分统计数据如下表.
有效生成
无效生成
合计
模型
模型
合计
(1)完成列联表,并以样本估计总体,频率估计概率,若利用模型随机生成次文本,求该文本生成效果为有效生成的概率;
(2)根据小概率值的独立性检验,判断文本生成效果与模型类型是否有关.
附
【答案】(1)
有效生成
无效生成
合计
模型
模型
合计
(2)文本生成效果与模型类型有关.
【分析】(1)先计算随机生成次为有效生成的频率,再由频率估计概率可;
(2)直接由独立性检验计算可得.
【详解】(1)首先补全列联表:
有效生成
无效生成
合计
模型
模型
合计
根据频率估计概率,模型共生成次,其中有效生成次,
因此随机生成次为有效生成的频率为,
根据频率估计概率,利用模型随机生成次文本,该文本生成效果为有效生成的概率.
(2)零假设:文本生成效果与模型类型无关.
代入卡方公式计算,令,
因为小概率值对应的临界值,由于,因此不成立.
结论:依据的独立性检验,认为文本生成效果与模型类型有关.
32.(2026·河北保定·一模)某市体育局为调研市民体育锻炼情况与健康水平的关联性,随机抽取了120名18岁~60岁市民进行调查.将每周锻炼不少于3次的市民归为“高频锻炼组”,不足3次的归为“低频锻炼组”;体质检测达到《国民体质测定标准》优秀和良好等级的定为“体质达标”,否则为“体质不达标”.调查结果整理为如下不完整的列联表.
体质达标
体质不达标
合计
高频锻炼组
m
15
60
低频锻炼组
25
v
u
合计
s
t
120
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
(1)请根据列联表中的数据,写出m,v,s,t,u的值;
(2)依据小概率值的独立性检验,分析该市市民体育锻炼频次是否与体质达标有关联;
(3)该市计划从抽到的120人中体质不达标市民中抽取部分人员开展“科学健身指导”活动,现按高频锻炼组和低频锻炼组分层,通过分层抽样抽取10人展开指导活动,再从这10人中随机抽取3人进行专项访谈,求抽取的3人中至多有1人来自高频锻炼组的概率.
【答案】(1),,,,.
(2)认为该市市民体育锻炼频次与体质达标有关联
(3).
【分析】(1)利用列联表中行和、列和与总数之间的关系,通过简单的加减法运算求出的值.
(2)根据第(1)问求出的数据,代入卡方公式计算的观测值,并与给定的临界值进行比较,从而判断两个分类变量是否有关联.
(3)先求出高频锻炼组和低频锻炼组人数,然后根据分层抽样求出每组应抽取的人数,然后计算抽取的3人中至多有1人来自高频锻炼组的概率.
【详解】(1)由列联表数据关系可知,,,,,,综上,,,,,.
(2)零假设:市民体育锻炼频次与体质达标无关联.
根据列联表数据,计算
由于,根据小概率值的独立性检验,判断不成立,
因此,认为该市市民体育锻炼频次与体质达标有关联.
(3)体质不达标者,高频锻炼组15人,低频锻炼组35人,按分层抽样抽取10人,则高频锻炼组抽取人数为3人,低频锻炼组抽取人数为7人.
从这10人中随机抽取3人进行专项访谈,事件总数有种,
设“抽取的3人中至多有1人来自高频锻炼组”为事件A,则事件A包含“0人来自高频组”和“一人来自高频组”两种情况.
则.
所以抽取的3人中至多有1人来自高频锻炼组的概率为.
33.(2026·陕西咸阳·三模)咸阳文旅部门统计了某景点在2025年2月至6月的旅游收入(单位:万元),得到以下数据:
月份
2
3
4
5
6
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数判断,是否可用线性回归模型拟合与的关系?(当时,认为线性相关性较强),若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了100名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该景点与性别有关联”.
喜欢
不喜欢
总计
男
50
女
30
总计
60
参考公式:相关系数,参考数据:.
线性回归方程:,其中
,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)可用,线性回归方程为;
(2)
喜欢
不喜欢
总计
男
40
10
50
女
20
30
50
总计
60
40
100
能认为“游客是否喜欢该景点与性别有关联”.
【分析】(1)利用表格中数据求出并判断,再利用最小二乘法求出回归直线方程.
(2)完善列联表,求出的观测值,与临界值比对作答.
【详解】(1)由表格中数据,得,
,
,
因此相关系数,
所以与的线性相关性较强,可用线性回归模型拟合与的关系;
,
所以关于之间的线性回归方程为.
(2)依题意,列联表为:
喜欢
不喜欢
总计
男
40
10
50
女
20
30
50
总计
60
40
100
零假设:认为“游客是否喜欢该景点与性别无关联”,
由表格中数据经计算,
依据小概率的独立性检验,推断不成立,
即能认为“游客是否喜欢该景点与性别有关联”,此推断犯错误的概率不大于0.001.
34.(2026·山西晋城·模拟预测)某校共有名高一学生,其中男生人.为了解该校高一学生的数学学习水平,采取按性别分层、比例分配的分层随机抽样方法,随机抽取了名学生进行调查,分数分布在分之间.将分数不低于分的学生称为“优等生”.根据调查的结果绘制的学生分数频率分布直方图如图.
(1)求实数的值,并估计该样本中“优等生”的人数;
(2)若样本中属于“优等生”的男生有人,完成下列列联表;根据小概率值的独立性检验,能否认为这次成绩是否优秀(分数不低于分)与性别有关?
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
附:.
【答案】(1),人
(2)表格如下:
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
不能认为这次成绩是否优秀与性别有关.
【详解】(1)由各组频率之和为,得,解得,
则属于“优等生”的有 人.
(2)由题意,样本中男生有人,则女生有人.
属于“优等生”的男生有人,则属于“优等生”的女生有人.
不属于“优等生”的男生有人,不属于“优等生”的女生有人.
所以得到列联表如下:
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
零假设:这次成绩是否优秀与性别无关.
根据表中数据,计算得.
根据小概率值的独立性检验,推断成立.所以不能认为这次成绩是否优秀与性别有关.
35.(23-24高二下·安徽六安·期末)某工厂生产某款电池,在满电状态下能够持续放电时间不低于小时的为合格品,工程师选择某台生产电池的机器进行参数调试,在调试前后,分别在其产品中随机抽取样本数据进行统计,制作了如下的列联表:
产品
合格
不合格
合计
调试前
45
15
60
调试后
35
5
40
合计
80
20
100
(1)根据表中数据,依据显著性水平的独立性检验,能否认为参数调试与产品质量有关联;
(2)现从调试前的样本中按合格和不合格,用分层随机抽样法抽取8件产品重新做参数调试,再从这8件产品中随机抽取3件做对比分析.记抽取的3件中合格的件数为X,求 X的分布列和期望;
(3)用样本分布的频率估计总体分布的概率,若现在随机抽取调试后的产品1000件,记其中合格的件数为Y, 求使事件“”的概率最大时k的取值.参考公式及数据: 其中.
0.05
0.025
0.01
0.005
0.001
3.841
5.024
6.635
7.879
10.828
【答案】(1)无关联
(2)分布列见解析,
(3)875
【分析】(1)计算的值,将其与对应的小概率值比较即得;
(2)先算出抽取的8件产品中的合格品与不合格品的数目,再从中抽取3件,根据合格品件数的可能值运用超几何分布概率计算出概率,列出分布列计算数学期望即得;
(3)分析得出,利用二项分布概率公式得出再利用作商法分析得时,事件“”的概率最大.
【详解】(1)零假设为:假设依据的独立性检验,认为参数调试与产品质量无关联;
则,
故依据的独立性检验,没有充分证据说明零假设不成立,
因此可认为成立,即认为参数调试与产品质量无关联;
(2)依题意,用分层随机抽样法抽取的8件产品中,
合格产品有件,不合格产品有2件,
而从这8件产品中随机抽取3件,其中的合格品件数的可能值有1,2,3.
则,,,
故的分布为:
1
2
3
则;
(3)依题意,因随机抽取调试后的产品的合格率为,
故,则,
由,
故由可解得,
因,故当时,;
故由可解得,
即当时,;
故当事件“”的概率最大时,.
36.(2026·山东济宁·二模)随着量子计算技术的突破,传统密码的安全性受到挑战.某实验室为研究“量子算力等级”与“密码破译成功率”的关系,进行了模拟测试,统计数据如下:
量子算力等级
密码破译成功
密码破译失败
合计
高算力量子机
64
16
80
低算力量子机
36
24
60
合计
100
40
140
(1)依据小概率值的独立性检验,即认为密码破译成功率是否与量子算力等级有关;
(2)该实验室使用两台不同算力的量子机(记高算力量子机为A机、低算力量子机为B机)对同一套传统密码进行破译测试,已知A机单次破译成功的概率为,失败的概率为;B机单次破译成功的概率为,失败的概率为;两台机器的破译过程相互独立.测试方案:先随机选择一台机器进行第一次破译,选中A机的概率为,选中B机的概率为;若第一次破译成功则停止测试;若第一次破译失败,则换用另一台机器进行第二次破译,无论第二次破译是否成功都停止测试,求破译成功的概率.
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)见解析
(2)
【分析】(1)根据独立性检验判断即可;
(2)根据独立事件乘法公式计算.
【详解】(1)零假设密码破译成功率与量子算力等级无关,
,
所以,依据小概率值的独立性检验,推断不成立,
即认为分析密码破译成功率与量子算力等级有关;
(2)记“破译成功”为事件,A机单次破译成功为事件,A机单次未破译成功为事件,
B机单次破译成功为事件,B机单次未破译成功为事件,
选中A机为事件,选中B机为事件,
则
,
故破译成功的概率为.
1 / 1
学科网(北京)股份有限公司
$