内容正文:
第11讲 统计综合应用
目录
01 题型归纳目录 2
02 知识点梳理 3
知识点1:回归方程 3
知识点2:独立性检验 4
03 重难点题型 5
题型一:线性回归模型的识别与分析问题 5
题型二:相关系数的计算与相关性判定问题 6
题型三:残差的计算与残差分析应用问题 7
题型四:线性回归方程的求解与应用问题 8
题型五:非线性回归方程的转化与计算问题 10
题型六:独立性检验 13
04 过关检测 17
知识点1:回归方程
1、两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2、回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
3、当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
知识点2:独立性检验
1、列联表
设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
总计
2、独立性检验
基于小概率值的检验规则是:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3、应用独立性检验解决实际问题的大致步骤
(1)提出零假设:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算的值,并与临界值比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
题型一:线性回归模型的识别与分析问题
例1.(2026·高二·浙江绍兴·期中)在下列两个量之间的关系中,属于相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.一块农田的小麦产量与施肥量 D.正n边形的边数与内角度数之和
例2.(2026·高二·天津滨海新区·期中)对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
例3.(2026·高二·河北·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
变式1.(河北邢台市质检联盟2025-2026学年高二6月测评数学试题)已知某旗舰店近五年“十一”黄金周期间的成交额如下表:
年份
年份代号
成交额万元
根据表中数据可知具有较强的线性相关关系,其经验回归方程为,则下列结论正确的是( )
A.年“十一”黄金周期间该旗舰店的成交额一定为万元
B.
C.当时,残差为
D.点一定在经验回归直线上
题型二:相关系数的计算与相关性判定问题
例4.(2026·高二·河北衡水·阶段检测)某教育研究小组收集了10名高中生每周用于数学复习的时间x(小时)与其数学测试成绩y(百分制)的数据.经计算得,,,,,其中,分别为数学复习的时间与数学测试成绩的标准差,r为相关系数.若用经验回归方程预测成绩,则方程应为( )
参考公式:样本相关系数
经验回归方程中斜率的最小二乘估计公式
A. B.
C. D.
例5.(2026·高二·天津武清·期中)已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
例6.调查候鸟和温度的关系,在不同温度下统计候鸟的数量,所得数据如图所示,其中相关系数,根据最小二乘法算得:,下列说法正确的是( )
A.与负相关 B.当时,一定为1359
C.当时,一定小于1359 D.两变量无线性关系
变式2.(多选题)(2026·山东淄博·三模)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的若干种价格进行试销,统计了连续5个月的月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表所示.则( )
售价x(元/件)
10
11
12
13
14
月销售量y(千件)
10
9
9
7
5
参考公式:①;②;③.
参考数据:,,,.
A.y关于x的线性回归方程为:
B.相关系数(小数点后保留两位)
C.当售价为15元/件时,预测月销售量为3.4千件
D.在线性回归方程的估计下,样本点的残差为
题型三:残差的计算与残差分析应用问题
例7.(2026·高二·四川宜宾·期末)由样本数据(),求得回归直线方程为,且,,则相应于样本点的残差值为______.
例8.(2026·高二·天津·期中)已知,取值如下表:
0
1
3
4
2.2
4.3
4.8
6.7
若,具有线性相关关系,且回归方程为,则当时的残差为( )
A. B. C. D.
例9.(多选题)(2026·云南·三模)在2026年央视春节联欢晚会上,宇树科技旗下UnitreeG1机器人带来的表演节目《武Bot》凭借精彩表现赢得全国观众广泛赞誉.宇树科技是一家专注于高性能四足机器人研发与生产的中国科技企业,UnitreeG1机器人具备轻量化、高敏捷性与高爆发力等特性.现对该机器人在某地区2025年2月至6月期间的销售量统计数据整理如下表所示:
月份
2
3
4
5
6
销量
42
53
66
109
用最小二乘法得到UnitreeG1的销售量(单位:台)关于月份的经验回归方程为,则( )
A.
B.经验回归方程经过点
C.预测机器人UnitreeG1产品9月份的销量约为151台
D.5月销售量的残差6.1
题型四:线性回归方程的求解与应用问题
例10.(2026·山西忻州·模拟预测)某校为了解学生每周自主运动时间与体能测试成绩提升值的关系,随机抽取6名学生,得到如下数据:
(小时)
1
2
3
4
5
6
(分)
2
3
5
6
8
9
已知经验回归方程为,其中,.
(1)求经验回归方程;
(2)若将“体能测试成绩提升值不低于10分”记为训练效果明显,按该模型估计每周自主运动时间至少应为多少整数小时?
例11.(2026·山西忻州·模拟预测)某校为研究学生每周体育锻炼时间(单位:小时)与体测成绩提高分的关系,随机抽取5名学生,得到如下数据.已知经验回归方程为,其中,.
1
2
3
4
5
2
6
6
7
9
(1)求经验回归方程;
(2)根据该回归方程,估计每周锻炼6小时时体测成绩的提高分;若把“体测成绩提高分不少于10”记为训练效果明显,按该模型估计每周锻炼时间至少应为多少整数小时?
例12.(2026·高二·山东德州·阶段检测)某县博物馆国庆期间统计连续5天进入该博物馆参观的游客人数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.3
3.1
4.3
4.6
5.7
(1)由上表数据看出,可用线性回归模型拟合与的关系,求出关于的线性回归方程;
(2)国庆五天假期博物馆开放1号门、2号门和3号门供游客出入,游客从1号门、2号门和3号门进入博物馆的概率分别为,且出馆与进馆选择相同门的概率为,选择与进馆不同两门的概率各为.假设游客从1号门、2号门、3号门出入博物馆互不影响,现有甲、乙、丙、丁4名游客于10月2日进馆参观,设为4人中从2号门出馆的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
变式3.(2026·高二·重庆·阶段检测)2026年春节期间,电影《飞驰人生3》、《镖人》持续火爆,现对电影《镖人》从正月初一到正月初六的单日票房统计如下表:(由于统计原因,本题的数据与实际情形可能存在误差,以题目给出的数据为准).
日期
初一
初二
初三
初四
初五
初六
上映第x天
1
2
3
4
5
6
票房y(单位:亿元)
0.9
1.2
1.3
1.5
1.3
1.6
(1)根据数据建立单日票房y关于上映天数x的线性回归方程,并预测第七日的票房收入(计算结果均保留一位小数);
(2)在某天放映结束后,随机抽取6名观众,发现其中有4人看过《镖人》,3人看过《飞驰人生3》,只有1人两部电影均没看过,现从这6人中随机抽取3人,记X为抽取的3人中两部电影都看过的人数,求X的分布列及方差,参考数据及公式如下:
参考数据:,,,.
参考公式:,.
题型五:非线性回归方程的转化与计算问题
例13.(2026·福建泉州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
29.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程;
(2)小张每天上班选择骑电动车或自行车,每月第一天他选择骑电动车或自行车的概率均为,从第二天起,若前一天选择骑电动车,则后一天选择骑自行车的概率为,若前一天选择骑自行车,则后一天选择骑电动车的概率为,每个月按照20个工作日计算,设他在某个月的第个工作日骑自行车上班的概率为.
(i)求数列的通项公式;
(ii)若,都是离散型随机变量,则,若小张该月累计骑自行车上班的次数为,求,保留到小数点后一位.
附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:
,.
例14.(2026·山东青岛·一模)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
(3)证明
附:参考数据:,,(其中,).
例15.(2026·黑龙江哈尔滨·模拟预测)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一.从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图.
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(,,,均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.5
165
204
22
42
4
6448.3
2060
其中,.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占25%,存活天数为1的样本在全体样本中占20%.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:,
变式4.(2026·广东·模拟预测)某应用平台为了优化成本,统计了其模型推理任务中,单批请求量(单位:千次)与单请求平均算力成本(单位:元/次)之间的关系,对近10组任务数据进行了统计分析,得到如下散点图:
(1)根据散点图判断,与哪一个更适宜作为单批请求量关于单请求平均算力成本的回归方程类型?(给出判断即可,不需说明理由),并根据判断结果及表中数据,建立关于的回归方程;
(2)利用(1)中的结果回答问题:已知该平台的单批推理总收入预报值为(单位:千元),当单批请求量为何值时,平台单批推理的总收入预报值最大?(总收入预报值=单批请求量单请求平均算力成本)
参考公式及部分参考数据:
①对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.
②参考数据:
22.725
5.5
2.25
7655.2
20.625
注:表中,
题型六:独立性检验
例16.(2026·高三·贵州遵义·阶段检测)年月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于小时”.某中学为了解政策落实情况及其对学生视力的影响,从全校学生中随机抽取了名学生进行调查,统计了他们每天综合体育活动时间与视力情况,得到如下列联表.
未患近视
患近视
合计
每天综合体育活动时间小时(未达标)
每天综合体育活动时间小时(达标)
合计
完成上表,并根据完成的表格解决下列问题:
(1)根据小概率值的独立性检验,分析患近视是否与每天综合体育活动时间有关;
(2)从未患近视的学生调查者中按分层抽样的方法随机抽取人,再从这人中随机抽取人做进一步的访谈,记抽到的人中“每天综合体育活动时间小时(未达标)”的人数为,求的分布列和数学期望.
附:,其中.
例17.(2026·高二·湖南长沙·期中)为响应国家自主研发创新的号召,国内某工厂开发了一种新型机床产品,为评估新型机床的生产能力,现从新型国产机床和原有的进口机床所生产的产品中各抽取了250件,对两台机床的产品进行检验,得到如下列联表:
机床类型
产品质量
合计
良品
次品
新型国产机床
175
75
250
原有进口机床
150
100
250
合计
325
175
500
(1)以频率估计概率,估计新型国产机床的次品率;
(2)根据小概率值的独立性检验,能否判断产品的质量与使用机床的类型有关.
附:,其中.
0.05
0.01
0.001
3.841
6.635
10.828
例18.(2026·山东日照·模拟预测)机器人技术的迅猛发展,已成为我国现代科技发展的标志性成就,现对100名青年(男青年50名,女青年50名)进行调研.统计结果显示:有60%的男青年希望拥有一个机器人助手,有30%的女青年希望拥有一个机器人助手,整理得到如下列联表.
拥有一个机器人助手意愿
性别
合计
男青年
女青年
希望拥有一个机器人助手
不希望拥有一个机器人助手
合计
50
50
100
(1)求,的值;
(2)根据小概率值的独立性检验,分析拥有一个机器人助手的意愿是否与性别有关.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
变式5.(2026·高二·吉林长春·期中)为深入落实“健康第一”的教育理念,某高中为了解高三学生每天运动时间,从2000名学生中随机抽取了100名学生进行调查,得到的数据如表所示
日均运动时间(小时)
男生人数
5
20
20
10
女生人数
15
20
6
4
(1)该校高三2000名学生中,日均运动时间不足1小时的学生约为多少人?
(2)填写下面列联表,并根据小概率值的独立性检验,分析能否认为“该校高三学生日均运动时间不小于1.5小时”与“性别”有关联?
日均运动时间
合计
男
女
合计
附:,其中.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
1.(2026·高二·江苏南京·阶段检测)已知具有线性相关的两个变量,之间的一组数据如表:
且回归直线方程是,则( )
A. B. C. D.
2.(2026·江苏连云港·模拟预测)某冷饮店日盈利(单位:百元)与当天气温(单位:℃)之间有如下数据:
15
20
25
30
35
y/百元
1
2
2
4
5
已知与之间具有线性相关关系,则与的线性回归方程是( )
A. B. C. D.
3.(多选题)(2026·高二·吉林长春·期中)下列说法正确的是( )
A.若回归方程为,则变量x与y正相关
B.运用最小二乘法求得的经验回归直线方程一定经过样本中心点
C.若散点图中所有点都在直线上,则相关系数
D.若决定系数的值越接近于1,表示回归模型的拟合效果越好
4.(多选题)(2026·高二·河北承德·期中)对于维向量,,,,二者夹角的余弦值现有一组点,设,,记,,已知这组点由最小二乘法所得的经验回归方程为和,若,称这组点的线性相关性弱,反之则称这组点的线性相关性强,则( )
附:,,,.
A. B.在上的投影向量为
C. D.这组点的线性相关性弱
5.(多选题)(2026·高二·重庆·阶段检测)下列命题中正确的是( )
A.决定系数越大,残差平方和越小,模型拟合效果越好
B.若,两组成对数据的样本相关系数分别为,,则组数据比组数据的线性相关性强
C.在经验回归方程中,若,,则变量与正相关
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验(),可认为与有关
6.(2026·高二·天津·期中)下列说法正确的是____________.
①某项测量结果服从正态分布,若,则;
②若样本数据,,,的方差为,则数据,,,的方差为;
③在回归分析中,决定系数越大,说明残差平方和越小,回归效果越好;
④根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验(),可判断与有关联,此推断犯错误的概率不大于.
7.某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数______.
8.(2026·高二·福建厦门·期中)某产品的广告投入x(万元)与销售额y(万元)的统计数据如下图所示:
x
2
3
5
6
y
20
35
50
55
若y关于x的线性回归方程为,则__________.
9.(2026·山东日照·模拟预测)一名数学教师想要探究学生的数学成绩是否对物理成绩存在影响,该教师随机选取了最近一次考试中某班级10名学生的数学和物理成绩(单位:分),绘制了如下图所示的散点图,该教师通过分析,得到这些数据满足一元线性回归模型,设这10名学生的数学成绩为,,…,,物理成绩为,,…,.
(1)建立数学成绩为解释变量,物理成绩为响应变量的经验回归方程,并估计当某学生的数学成绩为75分时,其物理成绩为多少分?
(2)10名学生中有4名物理成绩超过70分,现从这10名学生中随机抽取3名,记这3名学生中物理成绩超过70分的人数为,求的分布列和数学期望.
参考数据:,,,;经验回归方程,,.
10.(2026·高三·湖南衡阳·阶段检测)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对年某区域的企业发布的所有大模型中随机抽取了款进行标准化测试,由测试数据得到下面的散点图:
若t为时间变量,y为分数,根据多模态模型数据(,表示
年1月份,表示年6月份,…),计算得,,
.
(1)由最小二乘法建立y关于t的线性回归方程;
(2)根据语言模型的数据建立的回归方程为,该区域的某家企业在年4月发布了1款标准化测试得分为分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由;
(3)现从该区域年已经发布的大模型中随机抽取3款,假设各款模型类型相互独立,根据年大模型的分布情况,用频率估计概率,求抽取的3款大模型中恰有2款是多模态模型的概率.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
11.(2026·重庆·模拟预测)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出(单位:万元)和销售量(单位:万台)的数据如下:
年份
2014
2015
2016
2017
2018
2019
2020
广告费支出
1
2
4
6
11
13
19
销售量
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合与的关系,求出关于的线性回归方程;
(2)若用模型拟合与的关系,可得回归方程,经计算线性回归模型和该模型的分别约为0.75和0.88,请根据的值,判断选择哪个回归模型更好.
参考数据:,.附:,.
12.(2026·高二·新疆乌鲁木齐·阶段检测)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x (千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
56
31.5
22.75
17.8
15.95
14.5
13
12.5
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用指数函数模型和反比例函数模型 分别对两个变量的关系进行拟合.
已求得用指数函数模型拟合的回归方程为 与x的相关系数
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好,并用其估计产量为10千件时,每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布 ,用样本平均数作为的估计值,用样本标准差s作为的估计值,若非原料成本y在( )之外,说明该成本异常,并称落在之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因?
参考数据(其中
0.34
0.1156
1.53.
184
5752.56
92.82
30.33
13.79
参考公式:对于一组数据, 其回归直线 的斜率和截距的最小二乘估计公式分别为: 相关系数
13.(2026·高二·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
14.(2026·高三·广东汕尾·阶段检测)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:℃)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合.
根据收集到的数据,计算得到如下值:
24
2.9
646
179
422688
62.65
70308
表中;
(1)根据散点图,比较模型①、②的拟合效果,模型___________比较合适?(无需说明理由)
根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:
15.(2026·高二·河北保定·阶段检测)某环境监测站对一款水质检测设备进行算法优化,规定检测误差率低于3%的检测结果为合格.技术人员分别采集该设备优化前、优化后对同一批水样的检测数据并加以统计,得到如下列联表:
单位:份
设备
检测结果
合计
合格
不合格
优化前
82
18
100
优化后
98
2
100
合计
180
20
200
(1)根据表中数据,依据小概率值的独立性检验,能否认为该设备算法优化与检测结果的准确性有关联?
(2)用样本分布的频率估计总体分布的概率,若现在随机抽取该设备算法优化后的水样1000份,记其中检测结果为合格的份数为,求使事件“”的概率最大时的值.
参考公式及数据:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
36.828
16.(河北邢台市质检联盟2025-2026学年高二6月测评数学试题)中国民间传统文化蕴含着老百姓代代相传的生活智慧和风俗习惯,其内容丰富多彩,涵盖了生活的方方面面,从节庆习俗、民间艺术到传统技艺和民间文学等.某文化公司在某地开展中国民间传统文化宣传活动,并于活动期间调查了参加活动的市民对中国民间传统文化的了解情况,数据如下:
年龄段
对中国民间传统文化的了解情况
合计
不了解
了解
老年
40
70
110
青年
60
30
90
合计
100
100
200
(1)依据小概率值的独立性检验,能否认为了解中国民间传统文化与年龄段有关?
(2)利用分层随机抽样的方法从了解中国民间传统文化的100人中抽取10人,再从这10人中抽取3人进行文化宣传,记X表示这3人中青年的人数,若Y服从两点分布,且,X与Y相互独立,求.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
17.(2026·高二·天津河东·阶段检测)某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60名学生的短跑成绩合格.这100名学生中有45名学生每周的锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周的锻炼时间超过5小时.
(1)根据所给数据,完成以下表格;
(2)计算,并依据小概率值的独立性检验,是否可以推断学生短跑成绩合格与每周的锻炼时间超过5小时有关?(结果保留小数点后三位)
单位:人
每周的锻炼时间
短跑成绩
合计
短跑成绩合格
短跑成绩不合格
每周的锻炼时间超过5小时
每周的锻炼时间不超过5小时
合计
(3)正确的跑步姿势和起跑技巧等都可以让跑步者更好地发挥自己的能力.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周的锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周的锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率代替概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训,求学生甲参加培训后短跑成绩合格的概率.
参考公式与数据:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
2 / 2
学科网(北京)股份有限公司
$
第11讲 统计综合应用
目录
01 题型归纳目录 2
02 知识点梳理 3
知识点1:回归方程 3
知识点2:独立性检验 4
03 重难点题型 5
题型一:线性回归模型的识别与分析问题 5
题型二:相关系数的计算与相关性判定问题 6
题型三:残差的计算与残差分析应用问题 9
题型四:线性回归方程的求解与应用问题 11
题型五:非线性回归方程的转化与计算问题 15
题型六:独立性检验 21
04 过关检测 26
知识点1:回归方程
1、两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2、回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
3、当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
知识点2:独立性检验
1、列联表
设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
总计
2、独立性检验
基于小概率值的检验规则是:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3、应用独立性检验解决实际问题的大致步骤
(1)提出零假设:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算的值,并与临界值比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
题型一:线性回归模型的识别与分析问题
例1.(2026·高二·浙江绍兴·期中)在下列两个量之间的关系中,属于相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.一块农田的小麦产量与施肥量 D.正n边形的边数与内角度数之和
【答案】C
【解析】A、D是函数关系;B是不相关关系,也不是函数关系;
C是相关关系,一般来说,农田的施肥量越大,小麦产量一般会越多.
例2.(2026·高二·天津滨海新区·期中)对两组数据进行统计后得到如图所示的散点图,若图1与图2的相关系数分别为,则下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1的数据正相关,图2的数据负相关
C.图1的相关系数小于图2的相关系数
D.图1的相关系数的绝对值小于图2的相关系数的绝对值
【答案】C
【解析】两个图的散点都大致分布在直线附近,因此两组数据都具有线性相关关系,故A正确;
图1中,整体随增大而增大,是正相关,即;图2中,整体随增大而减小,是负相关,即,故B正确;
因为,,正数一定大于负数,因此,故C不正确;
相关系数的绝对值越接近1,线性相关性越强,散点越贴近直线. 图2的散点比图1更贴近直线,因此,故D正确.
例3.(2026·高二·河北·期末)对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】C
【解析】对于BD,散点图分布总体是斜向上,故BD中对应的两个变量之间是正相关;
对于AC,散点图分布总体是斜向下,但C中散点分布较为集中,
而A中散点分布较为分散,故C中对应的两个变量相关性较强且为负相关.
变式1.(河北邢台市质检联盟2025-2026学年高二6月测评数学试题)已知某旗舰店近五年“十一”黄金周期间的成交额如下表:
年份
年份代号
成交额万元
根据表中数据可知具有较强的线性相关关系,其经验回归方程为,则下列结论正确的是( )
A.年“十一”黄金周期间该旗舰店的成交额一定为万元
B.
C.当时,残差为
D.点一定在经验回归直线上
【答案】C
【解析】因为必过样本中心点,则有,解得.
对于A:年对应,代入得,但该预测值不是确定值,故A错误;
对于B:计算得,故B错误;
对于C:当时,实际值,预测值,残差,故C正确;
对于D:时,点为即,代入回归方程得,
故点不在回归直线上,故D错误.
题型二:相关系数的计算与相关性判定问题
例4.(2026·高二·河北衡水·阶段检测)某教育研究小组收集了10名高中生每周用于数学复习的时间x(小时)与其数学测试成绩y(百分制)的数据.经计算得,,,,,其中,分别为数学复习的时间与数学测试成绩的标准差,r为相关系数.若用经验回归方程预测成绩,则方程应为( )
参考公式:样本相关系数
经验回归方程中斜率的最小二乘估计公式
A. B.
C. D.
【答案】D
【解析】根据方差定义可知:,,
结合题意可知:,,,
所以,
再根据样本相关系数,,
可得:,
则,
根据回归直线过样本中心点,已知,,
则,
因此经验回归方程为.
例5.(2026·高二·天津武清·期中)已知下列四个命题:①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②甲、乙两个模型的决定系数分别约为0.88和0.80,则模型乙的拟合效果更好;③回归直线恒过点,且至少过一个样本点;④在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强.其中真命题的个数是( )
A.4 B.3 C.2 D.1
【答案】D
【解析】对于①,残差图中,残差点所在水平带状区域越窄,说明残差波动越小,
即回归方程的预报精确度越高,残差点所在水平带状区域越宽,说明残差波动越大,
即回归方程的预报精确度越低,错误;
对于②,决定系数越接近1,说明模型对数据的拟合效果越好,故模型甲的拟合效果更好,错误;
对于③,回归直线过样本数据,,,的中心点,
并不一定过样本数据中的某一个点,错误;
对于④,在线性回归分析中,样本相关系数r的绝对值越接近1时,成对样本数据的线性相关程度越强,正确.
例6.调查候鸟和温度的关系,在不同温度下统计候鸟的数量,所得数据如图所示,其中相关系数,根据最小二乘法算得:,下列说法正确的是( )
A.与负相关 B.当时,一定为1359
C.当时,一定小于1359 D.两变量无线性关系
【答案】A
【解析】因为相关系数,且散点图从左到右呈现下降趋势,且整体分布在较窄的带状区域,
所以y与x负相关,所以A正确,D错误;
当时,,所以约为,
所以B,C错误.
变式2.(多选题)(2026·山东淄博·三模)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的若干种价格进行试销,统计了连续5个月的月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表所示.则( )
售价x(元/件)
10
11
12
13
14
月销售量y(千件)
10
9
9
7
5
参考公式:①;②;③.
参考数据:,,,.
A.y关于x的线性回归方程为:
B.相关系数(小数点后保留两位)
C.当售价为15元/件时,预测月销售量为3.4千件
D.在线性回归方程的估计下,样本点的残差为
【答案】ABD
【解析】计算均值: , ,
选项A:根据公式,
,
线性回归方程为,A正确;
选项B:相关系数,B正确;
选项C:代入回归方程: ,预测月销售量为千件,不是千件,C错误;
选项D:时, ,残差 ,D正确.
题型三:残差的计算与残差分析应用问题
例7.(2026·高二·四川宜宾·期末)由样本数据(),求得回归直线方程为,且,,则相应于样本点的残差值为______.
【答案】1
【解析】将点代入回归直线方程为,得,
得,
得,
则样本点的残差值为:.
例8.(2026·高二·天津·期中)已知,取值如下表:
0
1
3
4
2.2
4.3
4.8
6.7
若,具有线性相关关系,且回归方程为,则当时的残差为( )
A. B. C. D.
【答案】B
【解析】先计算样本中心点的坐标:
由于回归直线必过样本中心点 ,代入得
解得 ,
当 时,代入回归方程得预测值:,
根据残差的定义,残差为实际观测值减去预测值,即
例9.(多选题)(2026·云南·三模)在2026年央视春节联欢晚会上,宇树科技旗下UnitreeG1机器人带来的表演节目《武Bot》凭借精彩表现赢得全国观众广泛赞誉.宇树科技是一家专注于高性能四足机器人研发与生产的中国科技企业,UnitreeG1机器人具备轻量化、高敏捷性与高爆发力等特性.现对该机器人在某地区2025年2月至6月期间的销售量统计数据整理如下表所示:
月份
2
3
4
5
6
销量
42
53
66
109
用最小二乘法得到UnitreeG1的销售量(单位:台)关于月份的经验回归方程为,则( )
A.
B.经验回归方程经过点
C.预测机器人UnitreeG1产品9月份的销量约为151台
D.5月销售量的残差6.1
【答案】AC
【解析】对于A,,
由回归直线方程,且,则,解得,故A正确;
对于B,由数据可知:,
经验回归方程经过点,即经验回归方程过点,故B错误;
对于C,当时,,
故预测机器人UnitreeG1产品9月份的销量约为151台,故C正确;
对于D,对于回归直线方程,令,可得,所以5月销售量的残差,故D错误.
题型四:线性回归方程的求解与应用问题
例10.(2026·山西忻州·模拟预测)某校为了解学生每周自主运动时间与体能测试成绩提升值的关系,随机抽取6名学生,得到如下数据:
(小时)
1
2
3
4
5
6
(分)
2
3
5
6
8
9
已知经验回归方程为,其中,.
(1)求经验回归方程;
(2)若将“体能测试成绩提升值不低于10分”记为训练效果明显,按该模型估计每周自主运动时间至少应为多少整数小时?
【解析】(1)由数据得,.
于是
又,,,,,,
,,,,,,
所以
因此.
又.
故经验回归方程为.
(2)由题意,需要.
即.
解得.
因为,所以每周自主运动时间至少应为7小时.
例11.(2026·山西忻州·模拟预测)某校为研究学生每周体育锻炼时间(单位:小时)与体测成绩提高分的关系,随机抽取5名学生,得到如下数据.已知经验回归方程为,其中,.
1
2
3
4
5
2
6
6
7
9
(1)求经验回归方程;
(2)根据该回归方程,估计每周锻炼6小时时体测成绩的提高分;若把“体测成绩提高分不少于10”记为训练效果明显,按该模型估计每周锻炼时间至少应为多少整数小时?
【解析】(1)由数据得,.
于是.
又.
所以.
从而.
故经验回归方程为.
(2)当时,.
所以估计每周锻炼6小时时体测成绩提高分为10.5.
若训练效果明显,则,由,解得.
由于每周锻炼时间按整数小时估计,所以至少应为6小时.
例12.(2026·高二·山东德州·阶段检测)某县博物馆国庆期间统计连续5天进入该博物馆参观的游客人数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.3
3.1
4.3
4.6
5.7
(1)由上表数据看出,可用线性回归模型拟合与的关系,求出关于的线性回归方程;
(2)国庆五天假期博物馆开放1号门、2号门和3号门供游客出入,游客从1号门、2号门和3号门进入博物馆的概率分别为,且出馆与进馆选择相同门的概率为,选择与进馆不同两门的概率各为.假设游客从1号门、2号门、3号门出入博物馆互不影响,现有甲、乙、丙、丁4名游客于10月2日进馆参观,设为4人中从2号门出馆的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
【解析】(1)依题意,,而,,,
所以,,
因此,线性回归方程为.
(2)记“甲从2号门出馆”为事件,“甲从1号门进馆”为事件,
“甲从2号门进馆”为事件,“甲从3号门进馆”为事件,
由题意可得,,,,.
由全概率公式得:
.
同理乙、丙、丁从号门出馆的概率也为,
因为为人中从号门出馆的人数,则,
所以,,
,,
,
故的分布列为:
,.
变式3.(2026·高二·重庆·阶段检测)2026年春节期间,电影《飞驰人生3》、《镖人》持续火爆,现对电影《镖人》从正月初一到正月初六的单日票房统计如下表:(由于统计原因,本题的数据与实际情形可能存在误差,以题目给出的数据为准).
日期
初一
初二
初三
初四
初五
初六
上映第x天
1
2
3
4
5
6
票房y(单位:亿元)
0.9
1.2
1.3
1.5
1.3
1.6
(1)根据数据建立单日票房y关于上映天数x的线性回归方程,并预测第七日的票房收入(计算结果均保留一位小数);
(2)在某天放映结束后,随机抽取6名观众,发现其中有4人看过《镖人》,3人看过《飞驰人生3》,只有1人两部电影均没看过,现从这6人中随机抽取3人,记X为抽取的3人中两部电影都看过的人数,求X的分布列及方差,参考数据及公式如下:
参考数据:,,,.
参考公式:,.
【解析】(1)因为,,
所以,
,
所以回归方程为:,当时,亿元,
正月初七,预计《镖人》的票房为亿元.
(2)由题意可知,人中同时看过两部电影的只有人,
所以的可能取值为,
则,,,
所以的分布列为:
数学期望为.
则.
题型五:非线性回归方程的转化与计算问题
例13.(2026·福建泉州·模拟预测)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5
8.7
1.9
301
385
29.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由),并求出所选类型的回归方程;
(2)小张每天上班选择骑电动车或自行车,每月第一天他选择骑电动车或自行车的概率均为,从第二天起,若前一天选择骑电动车,则后一天选择骑自行车的概率为,若前一天选择骑自行车,则后一天选择骑电动车的概率为,每个月按照20个工作日计算,设他在某个月的第个工作日骑自行车上班的概率为.
(i)求数列的通项公式;
(ii)若,都是离散型随机变量,则,若小张该月累计骑自行车上班的次数为,求,保留到小数点后一位.
附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:
,.
【解析】(1)由图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型,
由,得到, 因为,
则,
则,
所以,则.
(2)(i)设他在每个月的第个工作日骑自行车上班为事件,
则,,,
由全概率公式可得,
即,则,
且,可知数列是以为首项,公比为的等比数列,
则,所以;
(ii)记为第天小张骑自行车上班,为第天小张骑电动车上班,
则,则,
又,
所以.
例14.(2026·山东青岛·一模)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记表示成功时抽球试验的轮次数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
98
60
40
20
求关于的回归方程,并预测成功的总人数(精确到1);
(3)证明
附:参考数据:,,(其中,).
【解析】(1)由题知,的取值可能为1,2,3,所以;
;;
所以的分布列为:
1
2
3
所以数学期望为.
(2)令,则,
由题知:,
,
所以,
所以,,
故所求的回归方程为:,
所以,估计时,;估计时,;估计时,;
预测成功的总人数为.
(3)略
例15.(2026·黑龙江哈尔滨·模拟预测)云南花卉产业作为云南全力打造世界一流“绿色食品牌”的重点产业之一.从起步发展至今仅四十多年的时间,取得了令人瞩目的成绩.目前云南已成为全球公认的三大最适宜鲜切花种植的区域之一,鲜切花种植面积和产量位居全球第一,全省花卉种植面积稳定在190万亩左右.近8年云南省花卉种植面积统计数据及散点图如图.
(1)经计算得下表中数据,根据散点图,在模型①:与模型②:,(,,,均为常数)中,选择一个更适合作为云南省花卉种植面积关于年份代码的回归方程类型,求出关于的回归方程;
1.5
165
204
22
42
4
6448.3
2060
其中,.
(2)运输过程中,为保证鲜切花质量,需对其存活天数进行研究.一品种鲜切花存活天数为随机变量,且最多只能存活天,研究人员发现,存活天数为的样本在存活天数超过的样本里占25%,存活天数为1的样本在全体样本中占20%.
①求;
②用表示该品种鲜切花存活天数的数学期望.
附:,
【解析】(1)由散点图可知,更适合作为云南省花卉种植面积关于年份代码的回归方程类型,
令,所以,
因为,,,,
所以,
所以,
所以;
(2)①由题可得,,
当时,,
又,即,
同理可得,当时,,
两式相减得,
即,,
因为,
所以当时,是以为首项,为公比的等比数列,
当时,,
所以;
②
,
令,
则,
两式相减得,
,
所以,
则.
变式4.(2026·广东·模拟预测)某应用平台为了优化成本,统计了其模型推理任务中,单批请求量(单位:千次)与单请求平均算力成本(单位:元/次)之间的关系,对近10组任务数据进行了统计分析,得到如下散点图:
(1)根据散点图判断,与哪一个更适宜作为单批请求量关于单请求平均算力成本的回归方程类型?(给出判断即可,不需说明理由),并根据判断结果及表中数据,建立关于的回归方程;
(2)利用(1)中的结果回答问题:已知该平台的单批推理总收入预报值为(单位:千元),当单批请求量为何值时,平台单批推理的总收入预报值最大?(总收入预报值=单批请求量单请求平均算力成本)
参考公式及部分参考数据:
①对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.
②参考数据:
22.725
5.5
2.25
7655.2
20.625
注:表中,
【解析】(1)根据散点图判断更适宜作为单批请求量关于单请求平均算力成本的回归方程类型.
令,先建立关于的线性回归方程,
由于, ,
所以关于的线性回归方程为 ,因此关于的回归方程为 .
(2)依题意得: ,.
令,即 ,解得 ,所以,
当时 ,,在上单调递增,
当 时,,在上单调递减,
故当,即单批请求量 (千次)时,平台单批推理的总收入预报值最大.
题型六:独立性检验
例16.(2026·高三·贵州遵义·阶段检测)年月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于小时”.某中学为了解政策落实情况及其对学生视力的影响,从全校学生中随机抽取了名学生进行调查,统计了他们每天综合体育活动时间与视力情况,得到如下列联表.
未患近视
患近视
合计
每天综合体育活动时间小时(未达标)
每天综合体育活动时间小时(达标)
合计
完成上表,并根据完成的表格解决下列问题:
(1)根据小概率值的独立性检验,分析患近视是否与每天综合体育活动时间有关;
(2)从未患近视的学生调查者中按分层抽样的方法随机抽取人,再从这人中随机抽取人做进一步的访谈,记抽到的人中“每天综合体育活动时间小时(未达标)”的人数为,求的分布列和数学期望.
附:,其中.
【解析】(1)根据题意,补全列联表:
未患近视
患近视
合计
每天综合体育活动时间小时(未达标)
每天综合体育活动时间小时(达标)
合计
零假设:患近视与每天综合体育活动时间无关,
,
因为,所以零假设不成立,
所以根据小概率值的独立性检验,推断患近视与每天综合体育活动时间有关;
(2)从未患近视的人中分层抽样抽取人,抽取未达标人数为,抽取达标人数为,
的所有可能取值为,
,,,
所以的分布列为
.
例17.(2026·高二·湖南长沙·期中)为响应国家自主研发创新的号召,国内某工厂开发了一种新型机床产品,为评估新型机床的生产能力,现从新型国产机床和原有的进口机床所生产的产品中各抽取了250件,对两台机床的产品进行检验,得到如下列联表:
机床类型
产品质量
合计
良品
次品
新型国产机床
175
75
250
原有进口机床
150
100
250
合计
325
175
500
(1)以频率估计概率,估计新型国产机床的次品率;
(2)根据小概率值的独立性检验,能否判断产品的质量与使用机床的类型有关.
附:,其中.
0.05
0.01
0.001
3.841
6.635
10.828
【解析】(1)样品中,新型国产机床的次品频率为,
利用样本估计总体,得新型国产机床的次品率约为.
(2)零假设为:产品的质量与使用机床的类型无关.
由列联表可得,,
依据的独立性检验,推断不成立,
即认为产品的质量与使用机床的类型有关.
例18.(2026·山东日照·模拟预测)机器人技术的迅猛发展,已成为我国现代科技发展的标志性成就,现对100名青年(男青年50名,女青年50名)进行调研.统计结果显示:有60%的男青年希望拥有一个机器人助手,有30%的女青年希望拥有一个机器人助手,整理得到如下列联表.
拥有一个机器人助手意愿
性别
合计
男青年
女青年
希望拥有一个机器人助手
不希望拥有一个机器人助手
合计
50
50
100
(1)求,的值;
(2)根据小概率值的独立性检验,分析拥有一个机器人助手的意愿是否与性别有关.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【解析】(1)因为有60%的男青年希望拥有一个机器人助手,
所以,.
因为有30%的女青年希望拥有一个机器人助手,
所以,.
所以 , ,如图,
(2)由题意完成列联表:
拥有一个机器人助手意愿
性别
合计
男青年
女青年
希望拥有一个机器人助手
30
15
45
不希望拥有一个机器人助手
20
35
55
合计
50
50
100
零假设为:拥有一个机器人助手的意愿与性别无关.
由(1)可得,,,,.
根据列联表中的数据,经计算得到
.
根据小概率值的独立性检验,可以推断不成立,即认为拥有一个机器人助手的意愿与性别有关.
变式5.(2026·高二·吉林长春·期中)为深入落实“健康第一”的教育理念,某高中为了解高三学生每天运动时间,从2000名学生中随机抽取了100名学生进行调查,得到的数据如表所示
日均运动时间(小时)
男生人数
5
20
20
10
女生人数
15
20
6
4
(1)该校高三2000名学生中,日均运动时间不足1小时的学生约为多少人?
(2)填写下面列联表,并根据小概率值的独立性检验,分析能否认为“该校高三学生日均运动时间不小于1.5小时”与“性别”有关联?
日均运动时间
合计
男
女
合计
附:,其中.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【解析】(1)因为抽取的100人中日均运动时间不足1小时的人数占比为,
所以该校2000名学生中日均运动时间不足1小时人数约为人;
(2)作出列联表如表所示
日均运动时间
合计
男
25
30
55
女
35
10
45
合计
60
40
100
零假设:“日均运动时间不小于1.5小时”与“性别”无关联,
,
根据小概率值的独立性检验,推断不成立,
即认为“日均运动时间不小于1.5小时”与“性别”有关联,此推断犯错误的概率不大于0.005.
1.(2026·高二·江苏南京·阶段检测)已知具有线性相关的两个变量,之间的一组数据如表:
且回归直线方程是,则( )
A. B. C. D.
【答案】D
【解析】由题可知取值为,共个样本,则,
因为线性回归直线一定过样本中心点,
将代入回归直线方程,得:,
,整理得:.
2.(2026·江苏连云港·模拟预测)某冷饮店日盈利(单位:百元)与当天气温(单位:℃)之间有如下数据:
15
20
25
30
35
y/百元
1
2
2
4
5
已知与之间具有线性相关关系,则与的线性回归方程是( )
A. B. C. D.
【答案】B
【解析】由题目可得,,
故这组数据的样本中心为,将代入每个选项的方程中,
对于A,,不经过样本中心;
对于B,,经过样本中心;
对于C,,不经过样本中心;
对于D,,不经过样本中心;
3.(多选题)(2026·高二·吉林长春·期中)下列说法正确的是( )
A.若回归方程为,则变量x与y正相关
B.运用最小二乘法求得的经验回归直线方程一定经过样本中心点
C.若散点图中所有点都在直线上,则相关系数
D.若决定系数的值越接近于1,表示回归模型的拟合效果越好
【答案】BD
【解析】选项A:回归方程的斜率为,所以变量与负相关,A错误.
选项B:根据经验回归直线的性质,回归直线一定经过样本点中心,B正确.
选项C:若散点图中所有点都在斜率为正的直线上,则两个变量完全正相关,相关系数,C错误.
选项D:决定系数的取值越接近1,则残差平方和越小,回归模型对样本数据的拟合效果越好,D正确.
4.(多选题)(2026·高二·河北承德·期中)对于维向量,,,,二者夹角的余弦值现有一组点,设,,记,,已知这组点由最小二乘法所得的经验回归方程为和,若,称这组点的线性相关性弱,反之则称这组点的线性相关性强,则( )
附:,,,.
A. B.在上的投影向量为
C. D.这组点的线性相关性弱
【答案】AC
【解析】已知经验回归方程为和,
设,
,解得,则,故A正确;
在上的投影向量为,
,
,
而回归方程中,中,二者不相等,
因此投影向量为,B错误;
相关系数,
,
所以 ,C正确;
由回归方程中,中,,
, ,
所以这组点的线性相关性强,D错误.
5.(多选题)(2026·高二·重庆·阶段检测)下列命题中正确的是( )
A.决定系数越大,残差平方和越小,模型拟合效果越好
B.若,两组成对数据的样本相关系数分别为,,则组数据比组数据的线性相关性强
C.在经验回归方程中,若,,则变量与正相关
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验(),可认为与有关
【答案】ACD
【解析】根据决定系数越大,模型拟合效果越好,残差的平方和越小,故A正确,
根据样本相关系数越接近1,线性相关性越强,因为,
故组数据比组数据的线性相关性强,故B错误;
根据经验回归方程必然过点,代入可得,解得,
故变量与正相关,故C正确;
根据独立性检验,,故根据小概率值的独立性检验,可认为与有关.
6.(2026·高二·天津·期中)下列说法正确的是____________.
①某项测量结果服从正态分布,若,则;
②若样本数据,,,的方差为,则数据,,,的方差为;
③在回归分析中,决定系数越大,说明残差平方和越小,回归效果越好;
④根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验(),可判断与有关联,此推断犯错误的概率不大于.
【答案】
①③④
【解析】已知,正态分布曲线的对称轴为,
和关于对称轴对称,
根据正态分布的对称性,有,
已知,且总概率为,
所以 ,
因此,,①正确;
设原数据的方差为,新数据为,
根据方差的性质,
新数据的方差,
题目中称方差为,与计算结果不符,②错误;
决定系数的计算公式为,
对于给定的样本数据,总平方和是一个定值,
因此,的值越大,意味着的值越小,即残差平方和越小,
残差平方和越小,说明观测值与回归模型的拟合程度越高,回归效果越好,③正确;
已知,临界值,因为,
所以在小概率值的水平上拒绝零假设(即认为与独立),
从而判断 与有关联(基于),则错误地拒绝它的概率不超过 ,
即推断与有关联时,犯错误的概率不大于,④正确.
7.某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数______.
【答案】/
【解析】由题意可得,假设甲输入的为,
则,则,
且,则,
则改为正确数据时,,即,
,即,
所以正确的样本中心点为,
将点代入回归直线方程,得.
8.(2026·高二·福建厦门·期中)某产品的广告投入x(万元)与销售额y(万元)的统计数据如下图所示:
x
2
3
5
6
y
20
35
50
55
若y关于x的线性回归方程为,则__________.
【答案】6
【解析】将,,
代入中可得,解得.
9.(2026·山东日照·模拟预测)一名数学教师想要探究学生的数学成绩是否对物理成绩存在影响,该教师随机选取了最近一次考试中某班级10名学生的数学和物理成绩(单位:分),绘制了如下图所示的散点图,该教师通过分析,得到这些数据满足一元线性回归模型,设这10名学生的数学成绩为,,…,,物理成绩为,,…,.
(1)建立数学成绩为解释变量,物理成绩为响应变量的经验回归方程,并估计当某学生的数学成绩为75分时,其物理成绩为多少分?
(2)10名学生中有4名物理成绩超过70分,现从这10名学生中随机抽取3名,记这3名学生中物理成绩超过70分的人数为,求的分布列和数学期望.
参考数据:,,,;经验回归方程,,.
【解析】(1)由,
,
且,,得,.
所以,
则 .
所以与之间的经验回归方程为 .
当时, ,
即当某学生的数学成绩为75分时,估计其物理成绩是46.5分.
(2)由题意可知随机变量的所有可能取值为0,1,2,3.
所以,,
,.
所以的分布列为
0
1
2
3
故.
10.(2026·高三·湖南衡阳·阶段检测)近年我国人工智能大模型发展迅猛,其中语言模型(处理、理解和生成人类语言)和多模态模型(处理、理解和生成文本、图像、音视频等)是其中两个重要的领域,某研究机构对年某区域的企业发布的所有大模型中随机抽取了款进行标准化测试,由测试数据得到下面的散点图:
若t为时间变量,y为分数,根据多模态模型数据(,表示
年1月份,表示年6月份,…),计算得,,
.
(1)由最小二乘法建立y关于t的线性回归方程;
(2)根据语言模型的数据建立的回归方程为,该区域的某家企业在年4月发布了1款标准化测试得分为分的大模型,定义统计量,Q值越小的大模型发生的可能性越大,则该款大模型更有可能是语言模型还是多模态模型,并说明理由;
(3)现从该区域年已经发布的大模型中随机抽取3款,假设各款模型类型相互独立,根据年大模型的分布情况,用频率估计概率,求抽取的3款大模型中恰有2款是多模态模型的概率.
附:回归直线的斜率和截距的最小二乘估计公式分别为,,.
【解析】(1),,,
表示年1月份,表示年6月份,
,,,,
,,
,根据,
y关于t的线性回归方程为:.
(2)略
(3)由年的数据可知,随机抽取了款大模型,其中多模态模型有6款,用频率估计概率,
多模态模型的频率为,
该区域发布的大模型是多模态模型的概率为,
设抽取的3款大模型中多模态模型有X款,则,
故.
11.(2026·重庆·模拟预测)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出(单位:万元)和销售量(单位:万台)的数据如下:
年份
2014
2015
2016
2017
2018
2019
2020
广告费支出
1
2
4
6
11
13
19
销售量
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合与的关系,求出关于的线性回归方程;
(2)若用模型拟合与的关系,可得回归方程,经计算线性回归模型和该模型的分别约为0.75和0.88,请根据的值,判断选择哪个回归模型更好.
参考数据:,.附:,.
【解析】(1)由题意得,,
,
,,
所以,
所以,
所以y关于x的线性回归方程为
(2)因为,且越接近于1,反映残差平方和越小,模型的拟合效果越好,
所以选用更好.
12.(2026·高二·新疆乌鲁木齐·阶段检测)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x (千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
56
31.5
22.75
17.8
15.95
14.5
13
12.5
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用指数函数模型和反比例函数模型 分别对两个变量的关系进行拟合.
已求得用指数函数模型拟合的回归方程为 与x的相关系数
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好,并用其估计产量为10千件时,每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布 ,用样本平均数作为的估计值,用样本标准差s作为的估计值,若非原料成本y在( )之外,说明该成本异常,并称落在之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因?
参考数据(其中
0.34
0.1156
1.53.
184
5752.56
92.82
30.33
13.79
参考公式:对于一组数据, 其回归直线 的斜率和截距的最小二乘估计公式分别为: 相关系数
【解析】(1)代入参考数据: ,, , ,
,
反比例函数模型的回归方程为:.
(2)计算
假设经计算 ,则反比例函数模型拟合效果更好.
利用反比例模型估计时的成本:
答:每件产品的非原料成本估计为11元.
(3)样本均值 (已算出).
样本方差 .
样本标准差 .
区间为:
检查数据:
原始数据值:56,31.5,22.75,17.8,15.95,14.5,13,12.5.
观察发现:56>37.74.
第一个数据落在了之外.
答:由于存在异样成本(56元),需要寻找出现异样成本的原因.
13.(2026·高二·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【解析】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
14.(2026·高三·广东汕尾·阶段检测)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:℃)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合.
根据收集到的数据,计算得到如下值:
24
2.9
646
179
422688
62.65
70308
表中;
(1)根据散点图,比较模型①、②的拟合效果,模型___________比较合适?(无需说明理由)
根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:
【解析】(1)由散点图知,卵数随温度的变化是按指数形式变化,而非线性变化,因此模型②更合适,
令,则,由所给参考数据得,,
,因此关于的线性回归方程为,
所以产卵数关于温度的回归方程为.
(2)①依题意,,
求导得
,
令,得,当时,,当时,,
函数在上单调递增,在上单调递减,
所以取得最大值时对应的概率;
②由①知,当时,取最大值,当时,,
每年需要人工防治的概率,且服从二项分布,
所以,.
15.(2026·高二·河北保定·阶段检测)某环境监测站对一款水质检测设备进行算法优化,规定检测误差率低于3%的检测结果为合格.技术人员分别采集该设备优化前、优化后对同一批水样的检测数据并加以统计,得到如下列联表:
单位:份
设备
检测结果
合计
合格
不合格
优化前
82
18
100
优化后
98
2
100
合计
180
20
200
(1)根据表中数据,依据小概率值的独立性检验,能否认为该设备算法优化与检测结果的准确性有关联?
(2)用样本分布的频率估计总体分布的概率,若现在随机抽取该设备算法优化后的水样1000份,记其中检测结果为合格的份数为,求使事件“”的概率最大时的值.
参考公式及数据:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
36.828
【解析】(1)提出零假设:设备算法优化与检测结果的准确性无关联.
由列联表可知,,
得到,
依据小概率值的独立性检验,推断不成立,
即能认为该设备算法优化与检测结果的准确性有关联.
(2)由题意,优化后检测结果合格的概率,则,
要使最大,需满足,,
即,解得,
由于,所以.
16.(河北邢台市质检联盟2025-2026学年高二6月测评数学试题)中国民间传统文化蕴含着老百姓代代相传的生活智慧和风俗习惯,其内容丰富多彩,涵盖了生活的方方面面,从节庆习俗、民间艺术到传统技艺和民间文学等.某文化公司在某地开展中国民间传统文化宣传活动,并于活动期间调查了参加活动的市民对中国民间传统文化的了解情况,数据如下:
年龄段
对中国民间传统文化的了解情况
合计
不了解
了解
老年
40
70
110
青年
60
30
90
合计
100
100
200
(1)依据小概率值的独立性检验,能否认为了解中国民间传统文化与年龄段有关?
(2)利用分层随机抽样的方法从了解中国民间传统文化的100人中抽取10人,再从这10人中抽取3人进行文化宣传,记X表示这3人中青年的人数,若Y服从两点分布,且,X与Y相互独立,求.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【解析】(1)零假设为:是否了解中国民间传统文化与年龄段无关.
,
依据小概率值的独立性检验,我们推断不成立,
即能认为了解中国民间传统文化与年龄段有关联,此推断犯错误的概率不大于0.001.
(2)由样本数据可知了解中国民间传统文化的青年人数与老年人数之比为3∶7,
所以抽取的10人中有3人是青年人,有7人是老年人.
,,
因为与相互独立,所以
.
17.(2026·高二·天津河东·阶段检测)某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60名学生的短跑成绩合格.这100名学生中有45名学生每周的锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周的锻炼时间超过5小时.
(1)根据所给数据,完成以下表格;
(2)计算,并依据小概率值的独立性检验,是否可以推断学生短跑成绩合格与每周的锻炼时间超过5小时有关?(结果保留小数点后三位)
单位:人
每周的锻炼时间
短跑成绩
合计
短跑成绩合格
短跑成绩不合格
每周的锻炼时间超过5小时
每周的锻炼时间不超过5小时
合计
(3)正确的跑步姿势和起跑技巧等都可以让跑步者更好地发挥自己的能力.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周的锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周的锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率代替概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训,求学生甲参加培训后短跑成绩合格的概率.
参考公式与数据:,其中.
0.01
0.005
0.001
6.635
7.879
10.828
【解析】(1)因为100名学生有60名学生的短跑成绩合格,所以有40名学生的短跑成绩不合格,
因为60名短跑成绩合格的学生中有35名学生每周的锻炼时间超过5小时,
所以60名短跑成绩合格的学生中有名学生每周的锻炼时间不超过5小时,
因为有45名学生每周的锻炼时间超过5小时,
所以40名短跑成绩不合格的学生中有名学生每周的锻炼时间超过5小时,
40名短跑成绩不合格的学生中有名学生每周的锻炼时间不超过5小时,
根据以上信息可得表格如下:单位:人
每周的锻炼时间
短跑成绩
合计
短跑成绩合格
短跑成绩不合格
每周的锻炼时间超过5小时
35
10
45
每周的锻炼时间不超过5小时
25
30
55
合计
60
40
100
(2)零假设为:学生短跑成绩合格与每周锻炼时间相互独立.
根据表中的数据,可得,
根据小概率值的独立性检验,可以推断不成立,
即认为学生短跑成绩合格与每周的锻炼时间超过5小时有关.
(3)由(1)的列联表可知,短跑成绩不合格的学生共有40名,
其每周锻炼时间超过5小时的有10人,不超过5小时的有30人.
从短跑成绩不合格的40名学生中随机抽取一名学生,记为甲,
设事件“甲参加跑步技巧培训后短跑成绩合格”,
事件“甲每周的锻炼时间超过5小时”,
“甲每周的锻炼时间不超过5小时”,
用列联表中的数据计算频率并替代概率后得,,
又已知,,
由全概率公式可得,
所以学生甲参加跑步技巧培训后短跑成绩合格的概率为.
2 / 2
学科网(北京)股份有限公司
$