样本的相关系数、线性回归、非线性回归、决定系数、独立性检验讲义-2025-2026学年高二下学期数学人教A版选择性必修第三册
2026-05-23
|
2份
|
52页
|
1085人阅读
|
18人下载
普通
资源信息
| 学段 | 高中 |
| 学科 | 数学 |
| 教材版本 | 高中数学人教A版选择性必修第三册 |
| 年级 | 高二 |
| 章节 | 8.2.1 一元线性回归模型,8.1.2 样本相关系数,8.2.2 一元线性回归模型参数的最小二乘估计 |
| 类型 | 教案-讲义 |
| 知识点 | - |
| 使用场景 | 同步教学-单元练习 |
| 学年 | 2026-2027 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | ZIP |
| 文件大小 | 2.69 MB |
| 发布时间 | 2026-05-23 |
| 更新时间 | 2026-05-23 |
| 作者 | ZYSZYSZYSZYS |
| 品牌系列 | - |
| 审核时间 | 2026-05-23 |
| 下载链接 | https://m.zxxk.com/soft/58002431.html |
| 价格 | 2.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
该高中数学讲义通过考点目录系统构建了统计与概率单元知识体系,将样本相关系数、线性回归等五大考点按“知识点解析-解题原理-解题思路”分层梳理,用表格归纳公式范围与意义,步骤化呈现解题流程,清晰展现各考点内在逻辑与重难点分布。
讲义亮点在于情境化例题设计,如新能源汽车电池容量与续航里程的相关系数计算及预测,培养学生用数学眼光观察现实世界的能力。通过“换元转线性”等方法指导非线性回归问题,强化数学思维,变式训练覆盖不同难度,基础生可掌握步骤,优生能深化应用,为教师实施分层教学提供精准支持。
内容正文:
样本的相关系数、线性回归、非线性回归、决定系数、独立性检验讲义
样本的相关系数、线性回归、非线性回归、决定系数、独立性检验讲义
考点目录
样本的相关系数
线性回归
非线性回归
决定系数
独立性检验
考点一 样本的相关系数
【知识点解析】
知识点
1.
公式:
1. 范围:
1. 意义
· :正相关;:负相关
· 越接近,线性相关程度越强
· 越接近,线性相关程度越弱
1. 用途:判断两个变量线性相关方向与强弱
解题原理
通过样本数据计算标准化相关值,量化变量间线性关联程度。
解题思路
1. 算出
1. 代入公式求
1. 根据正负判相关方向,根据绝对值大小判强弱
1. 比较多个,绝对值大的线性相关性更强
【例题分析】
例1.(25-26高三下·甘肃武威·阶段检测)某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
【答案】(1)平均电池容量,平均续航里程.
(2)0.995
(3)
【详解】(1)平均电池容量,
平均续航里程.
(2)
(3)由样本数据,可知续航里程与电池容量的比值约为,
故新款车型续航里程的估计值为.
例2.(2026·河南开封·模拟预测)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码i,表示年份代码为i的产量,经计算得,,.
(1)求样本的相关系数r;(精确到0.01)
(2)现从这5年中随机抽取3年,记这3年中小麦产量大于13.6千万吨的年数为X,求X的分布列与数学期望.
附:相关系数,.
【答案】(1)0.92
(2)随机变量的分布列为
X
1
2
3
P
【分析】(1)根据统计表格中的数据,求得,,结合参考数据和相关系数的公式,即可求解;
(2)根据题意,得到随机变量的取值为,利用超几何分布的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)解:根据统计表格中的数据,可得,,
以及,,.
可得样本相关系数.
(2)解:根据题意,可得随机变量的取值为,
则,,,
所以随机变量的分布列为
X
1
2
3
P
所以期望为.
【变式训练】
变式1.(2026·江苏·模拟预测)近年来某用户保持连续增长,若李明收集了年的年份代码与该在线用户数(单位:万)的数据,具体如下表所示:
年份代码
在线用户数(单位:万)
(1)求样本相关系数(精确到小数点后两位),并判断变量与之间的线性相关关系的强弱;
(2)从年中随机抽取三个不同年份所对应的在线用户数据,记最小的数据为,求的分布列及数学期望.
注:样本相关系数.
【答案】(1),与之间高度线性相关
(2)
【分析】(1)先计算样本相关系数,再判断线性相关性;
(2)先计算分布列,再求数学期望.
【详解】(1)
,
,
,
,
,
接近1,
变量与高度线性相关.
(2)表示抽取的三个数据的最小值,可能取值为,
从5个数据中任取3个,共种,
时,含的组合数为种,故;
时,不含,含的组合数为种,故;
时,不含,不含,含的组合数为种,故;
的分布列为:
数学期望.
变式2.(25-26高三上·贵州贵阳·月考)近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
【答案】(1),很强的线性正相关关系
(2)
X
80
150
210
P
【详解】(1)由题意,,,
则,
由,
同理,
则,
则,
由接近1且为正,故变量x与y之间有很强的线性正相关关系.
(2)由题意,X的可能取值为80、150、210,
则,,
,
故X的分布列为:
X
80
150
210
P
则.
考点二 线性回归
【知识点解析】
知识点
1.
回归直线:
1. 公式
,.
1. 核心性质:回归直线必过样本中心点
1. 正负与相关系数正负一致
解题原理
用最小二乘法找到最贴合样本点的直线,近似刻画两个变量线性变化规律。
解题思路
1. 求样本平均值
1. 代入公式求回归斜率
1. 求截距,写出回归方程
1. 代入自变量进行预测估计
1. 利用过中心点性质求参数
【例题分析】
例1.(2026·山东济宁·模拟预测)某班数学兴趣小组为研究本班同学的锻炼频次与身体素质指标的关系,统计得到5名同学每周锻炼频次与身体素质指标的数据如下:
锻炼频次()
2
4
5
6
8
身体素质指标()
30
40
50
60
70
(1)若,之间具有线性相关关系,试建立,之间的经验回归方程,并预测每周锻炼频次为9次的同学的身体素质指标;
(2)依据表中数据,在这5名同学中任取三人,记身体素质指标大于等于50的人数为,求随机变量的分布列和数学期望.
附:①参考数据:,;
②经验回归方程的斜率和截距最小二乘估计公式分别为,.
【答案】(1)经验回归方程,预测身体素质指标为
(2)的分布列为:
数学期望为
【分析】(1)利用最小二乘法公式求解线性回归方程,代入自变量完成预测;
(2)确定超几何分布模型,计算对应概率得到分布列,结合期望公式求解数学期望.
【详解】(1),.
,
,
因此经验回归方程为.
将代入方程,得,
即每周锻炼频次为9次的同学身体素质指标预测值为.
(2)身体素质指标大于等于50的同学有3人,小于50的同学有2人.
随机变量表示抽取3人中身体素质指标大于等于50的人数,则的可能取值为.
,
的分布列为:
.
例2.(25-26高二下·广西玉林·期中)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格(元)
日需求量()
(1)求关于的线性回归方程;
(2)利用(1)中的回归方程,当价格元时,日需求量的预测值为多少?
参考公式:线性回归方程,其中,
【答案】(1)
(2)预测值为
【分析】(1)求出、的值,利用最小二乘法公式求出、的值,即可得出回归直线方程;
(2)将代入回归直线方程即可得解.
【详解】(1)由表格中的数据可得,,
由题意得,
且,
所以,,
故回归直线方程为.
(2)将代入回归直线方程得,
当价格元时,日需求量的预测值为.
【变式训练】
变式1.(25-26高二下·河南周口·阶段检测)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【答案】(1),与完全负相关
(2)
(3)16元
【详解】(1),,
故,
故与完全负相关.
(2),
故,回归方程为.
(3)由题设,此时,故,故定价最高为16元.
变式2.(25-26高二下·辽宁铁岭·期中)近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
【答案】(1);
(2),预测2027年该App的在线用户数为420万人.
【分析】(1)先计算年份代码和用户数的均值,再计算各离差乘积及平方和,代入相关系数公式求解即可;
(2)利用最小二乘估计公式求出回归系数和截距,得回归直线方程,再将2027年对应的代码代入计算即可.
【详解】(1)由题得,,
则,.
(2)由(1)可得,
则,,
所以y关于x的回归直线方程为,
当时,,所以预测2027年该App的在线用户数为420万人.
考点三 非线性回归
【知识点解析】
知识点
1. 适用:散点明显不呈直线分布,非线性相关
1. 常见变换类型
· 指数型:
· 幂函数:
· 反比例、二次型换元成线性
1. 思路:换元转线性,再按线性回归求解
解题原理
通过对数、整体换元,把非线性关系式转化为线性形式,套用线性回归流程求解。
解题思路
1. 观察散点分布,确定函数模型
1. 作变量代换,转化为一元线性关系
1. 按线性回归求出新变量回归方程
1. 回代还原,得到原非线性回归方程
1. 代入数值完成预测
【例题分析】
例1.(25-26高三下·安徽淮北·阶段检测)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【答案】(1)
(2).
(3)册
【分析】(1)因为散点图呈现的是非线性趋势,所以选择更合适;
(2)令,将转化为线性回归方程,利用最小二乘估计公式计算和,进而得到关于的回归方程;
(3)根据利润公式,结合回归方程列出不等式,求解不等式得到印刷数的取值范围,确定至少印刷的册数.
【详解】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
例2.(2026·江苏无锡·模拟预测)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产,所以对水资源的保护刻不容缓.现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适合;
(2).
【分析】(1)由散点图的递增趋势选择更适宜的模型;
(2)先根据所取模型进行线性变换,再代入公式求解回归模型.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,
得,
则,
因此,即
,
所以y关于x的回归方程为.
【变式训练】
变式1.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适宜
(2)
(3)347
【分析】(1)根据散点图的特征确定回归方程类型.
(2)利用非线性回归及最小二乘法求出回归方程.
(3)利用(2)的结论进行数据估计.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
变式2.(2026·广东东莞·模拟预测)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费和年销售量.的数据作了初步处理,得到下面的散点图及一些统计量的值.
x
46.6
y
563
w
6.8
289.8
1.6
1469
108.8
表中.
(1)根据散点图判断:与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x、y的关系为.根据(2)的结果回答下列问题;
①年宣传费时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
【答案】(1)适宜
(2)
(3)①年销售量的预报值,年利润的预报值 ;②
【分析】(1)由散点图可知图象与的函数图象近似;
(2)由图表可知,将转化为,即可建立关于的线性经验回归方程,结合参数公式及表格数据即可求出关于的线性经验回归方程,再转化为关于的经验回归方程;
(3)①令求出年销售量和年利润的预报值;②将代入年利润预报值公式,再由基本不等式即可求出年利润最大值.
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型.
(2)令,先建立关于的线性经验回归方程.由于
,
所以关于的线性经验回归方程为,
因此关于的经验回归方程为.
(3)①由(2)知,当时,年销售量的预报值,
年利润的预报值.
②根据(2)的结果知,年利润的预报值.
所以当,即时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
考点四 决定系数
【知识点解析】
知识点
1.
公式:
1. 范围:
1. 含义:衡量回归方程拟合效果
· 越接近,残差越小,拟合效果越好
· 一元线性回归满足:
1. 关联:残差平方和越小,越大
解题原理
用模型可解释波动占总波动的占比,评判拟合精准程度。
解题思路
1. 分清残差平方和与总平方和
1. 直接套公式计算
1. 比较模型:优先选大的方程
1. 结合残差图宽窄辅助判断拟合优劣
【例题分析】
例1.(2026·广东广州·模拟预测)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
【答案】
【分析】根据回归直线方程必过样本中心点求出,即可求出,再根据决定系数公式求出.
【详解】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
例2.(2025·广东佛山·模拟预测)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【分析】(1)根据经验回归方程过样本中心点,先由经验回归方程和的平均数,求出的平均数,再根据平均数的定义求出;然后根据残差定义计算8月份的残差.
(2)先求出残差平方和,再代入公式计算,最后与非线性回归模型的比较大小,即可判断.
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
【变式训练】
变式1.(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数______.
(参考公式:决定系数,参考数据:)
【答案】
【分析】由所给参考数据求出,即可求出决定系数.
【详解】
,
所以.
故答案为:.
变式2.(2025·湖南株洲·模拟预测)下表给出的是某城市2017年至2020年,人均存款x(万元)与人均消费y(万元)的几组对照数据.
年份
2017
2018
2019
2020
人均存款x(万元)
0.6
0.7
0.8
0.9
人均消费y(万元)
0.35
0.45
0.45
0.55
(1)试建立y关于x的线性回归方程;如果该城市2021年的人均存款为1.1万元,请根据线性回归方程预测2021年该城市的人均消费;
附:回归方程中斜率和截距的最小二乘估计公式分别为:,.
(2)计算,并说明线性回归方程的拟合效果.
【答案】(1),万元
(2),具有较好的拟合效果
【分析】(1)根据题意,求得,以及,,利用公式,求得,得到的值,求得回归直线方程,令时,求得,即可得到预测值;
(2)由(1)求得,,,,进而求得,进而得到结论.
【详解】(1)解:由表格中的数据,可得,
,
,
,
所以,则,
所以所求回归直线方程为,
当时,,预计该城市2021年的人均消费为万元.
(2)解:由回归方程计算得,,,,
所以,
,
所以,
说明人均存款解释了90%的人均消费的变化,即回归方程具有较好的拟合效果.
考点五 独立性检验
【知识点解析】
知识点
1. 适用:判断两个分类变量是否有关联
1. 列联表:四格表
类别 1
类别 2
合计
甲组
乙组
合计
1. 卡方统计量
1. 常用临界值
· :有 95% 把握认为有关
· :有 99% 把握认为有关
解题原理
通过计算卡方值,对比临界值,推断两类分类变量是否相互独立。
解题思路
1. 整理数据,填写完整列联表
1. 确定,代入公式算
1. 与临界值比对大小
1. 规范下结论:有无充分把握判定两个变量有关
【例题分析】
例1.(2026·四川广安·模拟预测)随着人工智能技术的迅猛发展,大型语言模型正以前所未有的速度渗透至人们的生活场景.作为其中的代表性模型之一,凭借其强大的推理性能赢得了广泛关注.为全面了解人们对的真实使用情况,某新闻媒体机构随机挑选男、女志愿者各100名进行问卷调查,得到如下列联表:
性别
使用情况
男
女
合计
喜爱
60
40
100
不喜爱
40
60
100
合计
100
100
200
(1)根据小概率值的独立性检验,分析喜爱的程度是否与性别有关;
(2)现使用解答代数问题和几何问题,规则如下:每次解答一类问题中的一个不同题目,且相互独立.若答案正确,则继续解答同类中问题;若答案错误,则解答另一类中的问题.每次解答代数问题的正确率为,每次解答几何问题的正确率为.已知第1次解答问题是代数问题和几何问题的概率均为.
(ⅰ)求第2次解题时解答代数问题的概率;
(ⅱ)记前次(即从第1次到第次)解答中,解答代数问题的次数为,求.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)在小概率值的独立性检验下,没有充分证据推断喜爱DeepSeek的程度与性别有关,即认为二者无关.
(2)(i);(ii)
【分析】(1)根据列联表数据代入卡方公式计算观测值,与临界值比较,得出独立性检验结论.
(2)(i)分第一次解答代数题正确、第一次解答几何题错误两类互斥情况,由互斥事件概率加法公式计算第二次解代数题的概率.
(ii)构造第次解答代数题的概率序列,推导递推关系,构造等比数列求通项,再利用期望的线性性质求和得到.
【详解】(1)零假设为:喜爱的程度与性别无关.
由列联表得,
∵ ,
∴ 代入数据得.
∵ 小概率值对应的临界值为,,
∴ 没有充分证据拒绝,即在的检验水平下,认为喜爱的程度与性别无关.
(2)记“第次解答代数问题”为事件,,.
(i)第2次解答代数问题包含两类互斥情况:
① 第1次解答代数问题且答案正确,概率为;
② 第1次解答几何问题且答案错误,概率为.
∵ 两类事件互斥,
∴ .
(ii)由题意得,第次解答代数问题的递推关系为:
,
化简得,.
构造等比数列,令,展开得,
对比递推式得,解得.
∴ 数列是首项为,公比为的等比数列.
∴ ,即.
由期望的可加性,前次解答代数问题的总期望等于每次解答代数问题的概率之和,即
.
例2.(25-26高二下·辽宁鞍山·期中)为了解居民体育锻炼情况,某地区对辖区内居民体育锻炼进行抽样调查.统计其中200名居民体育锻炼的次数与年龄,得到如下的频数分布表.
年龄次数
每周0∼2次
33
22
22
23
每周3∼4次
12
17
25
22
每周5次及以上
3
3
12
6
(1)若把年龄在的锻炼者称为青年,年龄在的锻炼者称为中年,每周体育锻炼不超过2次的称为体育锻炼频率低,
不低于3次的称为体育锻炼频率高,根据小概率值的独立性检验判断体育锻炼频率的高低与年龄是否有关联;
(2)从每周体育锻炼5次及以上的锻炼者中,按照表中年龄段采用按比例分配的分层随机抽样,抽取8人,
再从这8人中随机抽取3人,记这3人中年龄在与的人数分别为,求ξ的分布列与期望;
参考公式:
附:
α
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)认为体育锻炼频率的高低与年龄有关;
(2)分布列为:
0
1
2
P
【详解】(1)零假设:体育锻炼频率的高低与年龄无关.
由题得列联表如下:
青年
中年
合计
体育锻炼频率低
55
45
100
体育锻炼频率高
35
65
100
合计
90
110
200
,
根据小概率值的独立性检验推断不成立,
即认为体育锻炼频率的高低与年龄有关,此推断犯错误的概率不大于0.01.
(2)由表知,利用分层抽样的方法抽取的8人中,年龄在,内的人数分别为1,2,
依题意,的所有可能取值分别为为0,1,2,
所以,
,
,
所以的分布列:
0
1
2
P
所以的数学期望为.
【变式训练】
变式1.(2026·河南·三模)某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)观众性别与喜欢的电影类型无关
(2)
【分析】(1)计算卡方值并与临界值比较,即可得出结论;
(2)根据条件概率的公式计算得解.
【详解】(1)零假设:观众性别与喜欢的电影类型无关.
因为.
因此依据的独立性检验,没有充分证据说明不成立,即两者无关.
(2)设事件"选出的2人中至少1名女性",事件"选出的2人都喜欢生活片",
由列联表知,;
,因此.
变式2.(2026·山西晋城·模拟预测)某校共有名高一学生,其中男生人.为了解该校高一学生的数学学习水平,采取按性别分层、比例分配的分层随机抽样方法,随机抽取了名学生进行调查,分数分布在分之间.将分数不低于分的学生称为“优等生”.根据调查的结果绘制的学生分数频率分布直方图如图.
(1)求实数的值,并估计该样本中“优等生”的人数;
(2)若样本中属于“优等生”的男生有人,完成下列列联表;根据小概率值的独立性检验,能否认为这次成绩是否优秀(分数不低于分)与性别有关?
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
附:.
【答案】(1),人
(2)表格如下:
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
不能认为这次成绩是否优秀与性别有关.
【详解】(1)由各组频率之和为,得,解得,
则属于“优等生”的有 人.
(2)由题意,样本中男生有人,则女生有人.
属于“优等生”的男生有人,则属于“优等生”的女生有人.
不属于“优等生”的男生有人,不属于“优等生”的女生有人.
所以得到列联表如下:
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
零假设:这次成绩是否优秀与性别无关.
根据表中数据,计算得.
根据小概率值的独立性检验,推断成立.所以不能认为这次成绩是否优秀与性别有关.
2
学科网(北京)股份有限公司
$样本的相关系数、线性回归、非线性回归、决定系数、独立性检验讲义
样本的相关系数、线性回归、非线性回归、决定系数、独立性检验讲义
考点目录
样本的相关系数
线性回归
非线性回归
决定系数
独立性检验
考点一 样本的相关系数
【知识点解析】
知识点
1.
公式:
1. 范围:
1. 意义
· :正相关;:负相关
· 越接近,线性相关程度越强
· 越接近,线性相关程度越弱
1. 用途:判断两个变量线性相关方向与强弱
解题原理
通过样本数据计算标准化相关值,量化变量间线性关联程度。
解题思路
1. 算出
1. 代入公式求
1. 根据正负判相关方向,根据绝对值大小判强弱
1. 比较多个,绝对值大的线性相关性更强
【例题分析】
例1.(25-26高三下·甘肃武威·阶段检测)某新能源汽车公司为研究电池容量对续航里程的影响,随机选取了10辆不同配置的车进行测试,测量每辆车的电池容量(单位:)和续航里程(单位:),得到如下数据:
样本号
1
2
3
4
5
6
7
8
9
10
总和
电池容量
35
40
45
50
55
65
70
75
80
85
600
续航里程
330
350
390
410
480
520
560
620
640
700
5000
并计算得.
(1)估计这10辆车的平均电池容量与平均续航里程;
(2)求电池容量与续航里程的样本相关系数;(精确到0.001)
(3)现该公司计划推出新款车型,电池容量为,已知续航里程与电池容量近似成正比,利用以上数据给出新款车型续航里程的估计值.(精确到1)
附:相关系数.
例2.(2026·河南开封·模拟预测)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.将2020~2024年记为年份代码1~5,我国小麦产量如下表所示.
年份代码
1
2
3
4
5
产量/千万吨
13.4
13.6
13.8
13.7
14.0
现规定表示年份代码i,表示年份代码为i的产量,经计算得,,.
(1)求样本的相关系数r;(精确到0.01)
(2)现从这5年中随机抽取3年,记这3年中小麦产量大于13.6千万吨的年数为X,求X的分布列与数学期望.
附:相关系数,.
【变式训练】
变式1.(2026·江苏·模拟预测)近年来某用户保持连续增长,若李明收集了年的年份代码与该在线用户数(单位:万)的数据,具体如下表所示:
年份代码
在线用户数(单位:万)
(1)求样本相关系数(精确到小数点后两位),并判断变量与之间的线性相关关系的强弱;
(2)从年中随机抽取三个不同年份所对应的在线用户数据,记最小的数据为,求的分布列及数学期望.
注:样本相关系数.
变式2.(25-26高三上·贵州贵阳·月考)近年来某App用户保持连续增长,若李明收集了年的年份代码与该App在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
App在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r,并判断变量x与y之间的线性相关关系的强弱:
(2)从年中随机抽取三个不同年份所对应的在线用户数据y,记最小的数据为X,求X的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当它接近0时,成对样本数据的线性相关程度越弱.其中,.
考点二 线性回归
【知识点解析】
知识点
1.
回归直线:
1. 公式
,.
1. 核心性质:回归直线必过样本中心点
1. 正负与相关系数正负一致
解题原理
用最小二乘法找到最贴合样本点的直线,近似刻画两个变量线性变化规律。
解题思路
1. 求样本平均值
1. 代入公式求回归斜率
1. 求截距,写出回归方程
1. 代入自变量进行预测估计
1. 利用过中心点性质求参数
【例题分析】
例1.(2026·山东济宁·模拟预测)某班数学兴趣小组为研究本班同学的锻炼频次与身体素质指标的关系,统计得到5名同学每周锻炼频次与身体素质指标的数据如下:
锻炼频次()
2
4
5
6
8
身体素质指标()
30
40
50
60
70
(1)若,之间具有线性相关关系,试建立,之间的经验回归方程,并预测每周锻炼频次为9次的同学的身体素质指标;
(2)依据表中数据,在这5名同学中任取三人,记身体素质指标大于等于50的人数为,求随机变量的分布列和数学期望.
附:①参考数据:,;
②经验回归方程的斜率和截距最小二乘估计公式分别为,.
例2.(25-26高二下·广西玉林·期中)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格(元)
日需求量()
(1)求关于的线性回归方程;
(2)利用(1)中的回归方程,当价格元时,日需求量的预测值为多少?
参考公式:线性回归方程,其中,
【变式训练】
变式1.(25-26高二下·河南周口·阶段检测)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
变式2.(25-26高二下·辽宁铁岭·期中)近年来某App用户保持连续增长,李明收集了2021~2025年该App在线用户数y(单位:万人)的数据,如表所示.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
App在线用户数y
80
150
210
260
300
(1)求x与y的相关系数r(结果保留两位小数);
(2)求y关于x的回归直线方程,并预测2027年该App的在线用户数.
附:回归直线方程的斜率和截距的最小二乘估计公式为,;相关系数.
参考数据:.
考点三 非线性回归
【知识点解析】
知识点
1. 适用:散点明显不呈直线分布,非线性相关
1. 常见变换类型
· 指数型:
· 幂函数:
· 反比例、二次型换元成线性
1. 思路:换元转线性,再按线性回归求解
解题原理
通过对数、整体换元,把非线性关系式转化为线性形式,套用线性回归流程求解。
解题思路
1. 观察散点分布,确定函数模型
1. 作变量代换,转化为一元线性关系
1. 按线性回归求出新变量回归方程
1. 回代还原,得到原非线性回归方程
1. 代入数值完成预测
【例题分析】
例1.(25-26高三下·安徽淮北·阶段检测)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
例2.(2026·江苏无锡·模拟预测)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产,所以对水资源的保护刻不容缓.现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【变式训练】
变式1.(2026·山西临汾·一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
变式2.(2026·广东东莞·模拟预测)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费和年销售量.的数据作了初步处理,得到下面的散点图及一些统计量的值.
x
46.6
y
563
w
6.8
289.8
1.6
1469
108.8
表中.
(1)根据散点图判断:与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x、y的关系为.根据(2)的结果回答下列问题;
①年宣传费时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
考点四 决定系数
【知识点解析】
知识点
1.
公式:
1. 范围:
1. 含义:衡量回归方程拟合效果
· 越接近,残差越小,拟合效果越好
· 一元线性回归满足:
1. 关联:残差平方和越小,越大
解题原理
用模型可解释波动占总波动的占比,评判拟合精准程度。
解题思路
1. 分清残差平方和与总平方和
1. 直接套公式计算
1. 比较模型:优先选大的方程
1. 结合残差图宽窄辅助判断拟合优劣
【例题分析】
例1.(2026·广东广州·模拟预测)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
例2.(2025·广东佛山·模拟预测)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【变式训练】
变式1.(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数______.
(参考公式:决定系数,参考数据:)
变式2.(2025·湖南株洲·模拟预测)下表给出的是某城市2017年至2020年,人均存款x(万元)与人均消费y(万元)的几组对照数据.
年份
2017
2018
2019
2020
人均存款x(万元)
0.6
0.7
0.8
0.9
人均消费y(万元)
0.35
0.45
0.45
0.55
(1)试建立y关于x的线性回归方程;如果该城市2021年的人均存款为1.1万元,请根据线性回归方程预测2021年该城市的人均消费;
附:回归方程中斜率和截距的最小二乘估计公式分别为:,.
(2)计算,并说明线性回归方程的拟合效果.
考点五 独立性检验
【知识点解析】
知识点
1. 适用:判断两个分类变量是否有关联
1. 列联表:四格表
类别 1
类别 2
合计
甲组
乙组
合计
1. 卡方统计量
1. 常用临界值
· :有 95% 把握认为有关
· :有 99% 把握认为有关
解题原理
通过计算卡方值,对比临界值,推断两类分类变量是否相互独立。
解题思路
1. 整理数据,填写完整列联表
1. 确定,代入公式算
1. 与临界值比对大小
1. 规范下结论:有无充分把握判定两个变量有关
【例题分析】
例1.(2026·四川广安·模拟预测)随着人工智能技术的迅猛发展,大型语言模型正以前所未有的速度渗透至人们的生活场景.作为其中的代表性模型之一,凭借其强大的推理性能赢得了广泛关注.为全面了解人们对的真实使用情况,某新闻媒体机构随机挑选男、女志愿者各100名进行问卷调查,得到如下列联表:
性别
使用情况
男
女
合计
喜爱
60
40
100
不喜爱
40
60
100
合计
100
100
200
(1)根据小概率值的独立性检验,分析喜爱的程度是否与性别有关;
(2)现使用解答代数问题和几何问题,规则如下:每次解答一类问题中的一个不同题目,且相互独立.若答案正确,则继续解答同类中问题;若答案错误,则解答另一类中的问题.每次解答代数问题的正确率为,每次解答几何问题的正确率为.已知第1次解答问题是代数问题和几何问题的概率均为.
(ⅰ)求第2次解题时解答代数问题的概率;
(ⅱ)记前次(即从第1次到第次)解答中,解答代数问题的次数为,求.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
例2.(25-26高二下·辽宁鞍山·期中)为了解居民体育锻炼情况,某地区对辖区内居民体育锻炼进行抽样调查.统计其中200名居民体育锻炼的次数与年龄,得到如下的频数分布表.
年龄次数
每周0∼2次
33
22
22
23
每周3∼4次
12
17
25
22
每周5次及以上
3
3
12
6
(1)若把年龄在的锻炼者称为青年,年龄在的锻炼者称为中年,每周体育锻炼不超过2次的称为体育锻炼频率低,
不低于3次的称为体育锻炼频率高,根据小概率值的独立性检验判断体育锻炼频率的高低与年龄是否有关联;
(2)从每周体育锻炼5次及以上的锻炼者中,按照表中年龄段采用按比例分配的分层随机抽样,抽取8人,
再从这8人中随机抽取3人,记这3人中年龄在与的人数分别为,求ξ的分布列与期望;
参考公式:
附:
α
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式训练】
变式1.(2026·河南·三模)某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
变式2.(2026·山西晋城·模拟预测)某校共有名高一学生,其中男生人.为了解该校高一学生的数学学习水平,采取按性别分层、比例分配的分层随机抽样方法,随机抽取了名学生进行调查,分数分布在分之间.将分数不低于分的学生称为“优等生”.根据调查的结果绘制的学生分数频率分布直方图如图.
(1)求实数的值,并估计该样本中“优等生”的人数;
(2)若样本中属于“优等生”的男生有人,完成下列列联表;根据小概率值的独立性检验,能否认为这次成绩是否优秀(分数不低于分)与性别有关?
属于“优等生”
不属于“优等生”
合计
男生
女生
合计
附:.
2
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。