摘要:
**基本信息**
聚焦统计三大核心模块,通过分层例题与变式构建“概念理解-公式应用-实际建模”的递进训练体系,强化数据分析与模型应用能力。
**专项设计**
|模块|题量/典例|题型特征|知识逻辑|
|----|-----------|----------|----------|
|样本相关系数的计算|3例+3变式|含频率分布直方图、实际数据计算及证明题,覆盖相关系数公式应用与线性相关性判断|从数据标准化到相关系数推导,建立变量线性关系的量化认知|
|线性回归方程|3例+3变式|涉及研发投入、销售量等实际情境,包含回归方程求解、预测及与概率结合题|基于相关分析基础,构建变量间的线性预测模型,体现统计推断思想|
|独立性检验|3例+3变式|以列联表为载体,结合概率分布与期望计算,涵盖不同显著性水平的检验问题|从分类变量关联性分析,发展基于数据的决策思维,完善统计推断体系|
内容正文:
样本相关系数的计算、线性回归方程、独立性检验专项训练
样本相关系数的计算、线性回归方程、独立性检验专项训练
考点目录
样本相关系数的计算
线性回归方程
独立性检验
考点一 样本相关系数的计算
例1.(25-26高二上·四川巴中·期末)某研究机构为了解高二学生课外阅读的情况,随机统计了某校高二年级名学生的一个学期课外阅读时间(单位:小时),所得数据都在内,将所得的数据分成4组:,,,,得到如图所示的频率分布直方图,现知道课外阅读时间在内的有人.
(1)求和的值;
(2)估计该校学生一个学期课外阅读时间的平均数(同一组中的数据用该组区间的中点值代表).
例2.(25-26高三上·浙江·期末)某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.
参考公式:;参考数据:.
例3.(25-26高三上·河北·期末)某社交平台对用户行为进行分析,收集了每位用户每日的活跃时间(单位:小时)和发布内容数量(单位:条).为分析两变量间的相关性,需对数据进行标准化处理.现随机抽取名用户,得到数据,定义标准化变量与的相关系数为.
(1)证明:且.
(2)基于历史数据,用户活跃时间,设平台服务成本为随机变量,当时,,当时,,当时,,若在变化,且0.9544,求的期望的取值范围.
(3)设维向量与的数量积定义为,模长定义为与的夹角满足.设x,y标准化变量对应的向量分别为为向量与的夹角.该平台还记录了每位用户的好友数量(单位:人),其标准化变量对应的向量,).已知活跃时间与发布内容数量的相关系数为,发布内容数量与好友数量的相关系数为,设与的夹角为与的夹角为,且,求活跃时间与好友数量的相关系数的取值范围.
附相关公式:与的相关系数.
变式1.(24-25高二下·广东中山·期末)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
变式2.(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
变式3.(2025·广西·三模)我国广西某自然保护区分布着国家一级保护动物白头叶猴,为了研究空气质量与白头叶猴分布数量的相关性,将该保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中20个区域进行编号,统计抽取到每个区域的某空气指标和区域内白头叶猴分布的数量,得到数组.已知,,.
(1)求样本的相关系数;
(2)假设白头叶猴的寿命为随机变量(可取任意正整数).研究人员统计大量数据后发现:对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均等于0.05,这种现象被称为“几何分布的无记忆性”.
①求的表达式;
②推导白头叶猴寿命期望的值.
附:相关系数.
考点二 线性回归方程
例1.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
例2.(25-26高二下·湖南长沙·期中)某市开展“我心中的好老师”评选活动,现对评选出的五位候选人的工作年限和得票数进行了统计,得到如下数据:
“我心中的好老师”编号
1
2
3
4
5
工作年限/年
4
6
8
10
12
得票数/百张
10
20
40
60
50
(1)若得票数与工作年限满足线性相关关系,试求经验回归方程,并就此估计“我心中的好老师”的工作年限为15年时的得票数;
(2)若用表示统计数据时得票数的“即时均值”(四舍五入到整数),从5个“即时均值”中任选2个,求这2个数据之和小于8的概率.
例3.(25-26高二下·山西晋中·期中)某模具厂新接一批新模型制作的订单,为给订购方回复出货时间,需确定制作该批模型所花费的时间,为此进行了5次试验,收集数据如下:
制作模型数(个)
10
20
30
40
50
花费时间(分钟)
64
69
75
82
90
(注:回归方程中斜率和截距最小二乘估计公式分别为,参考数据:,).
(1)请根据以上数据,求关于的线性回归方程;
(2)若要制作60个这样的模型,请根据(1)中所求的回归方程预测所花费的时间.
变式1.(25-26高三下·甘肃金昌·阶段检测)2025年世界人工智能大会于2025年7月26日至28日在上海市举行,大会号召“共商技术创新路线,共促技术成果赋能”.某企业的AI产品销售部门统计了1~5月份的销售量(单位:万件):
月份x
1
2
3
4
5
销售量y
3
5
6
9
12
(1)已知可用线性回归模型拟合y与x的关系,求y关于x的经验回归方程;
(2)该企业科研部门从1月份与4月份的客户中分别随机抽取2位客户和6位客户进行电话回访,科研部门的工作人员甲从这8位客户中随机抽取2位进行回访,记甲回访客户中1月份的客户人数为,求的分布列和数学期望.
附:经验回归方程的斜率与截距的最小二乘估计公式分别为,.
变式2.(25-26高二下·河南驻马店·期中)某种产品的广告费用支出万元与销售额万元之间有如下的对应数据:
1
3
5
7
9
3
10
16
21
45
(1)根据上表提供的数据,求出关于的线性回归方程;
(2)据此估计广告费用为17万元时,所得的销售收入.
(参考数值:)
变式3.(25-26高三下·甘肃陇南·阶段检测)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,y表示对应的人数,部分统计数据如下:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,
参考数据:(其中).
考点三 独立性检验
例1.(2026·河南·三模)某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
例2.(2026·甘肃兰州·模拟预测)纪录片《重返狼群》再度翻红,某市为了了解市民是否关注《重返狼群》与性别的关联性,在本市随机调查了1000名市民,得到如下列联表.
性别
是否关注《重返狼群》
合计
不关注
关注
男
520
80
600
女
380
20
400
合计
900
100
1000
(1)依据小概率值的独立性检验,能否认为市民是否关注《重返狼群》与性别有关;
(2)将频率视为概率,现从全市市民中随机抽取3名,记关注《重返狼群》的人数为,求的数学期望.
附:,.
0.050
0.010
0.001
3.841
6.635
10.828
例3.(2026·河南许昌·三模)科技进步催生了大批智慧养老科技产品.在某养老服务中心,室内、、物联网等智能设备,精准对接老年人多样化健康养老需求.该中心配备有多台摄像机,通过智能分析,辅助发现老人异常行为状态,产生预警信息并实时推送至护理站,及时对老人进行救助.为防止老人摔倒,在房间内还铺设有智能地板,一旦出现特殊情况,地板就会立即报警.在该中心所在地区随机抽取200名70岁以上的老人进行问卷调查,得到如下列联表:
智能设备
摔倒
合计
发生
未发生
使用
8
m
100
未使用
n
68
合计
200
(1)求m,n的值,并依据小概率值的独立性检验,分析使用智能设备是否能有效预防摔倒的发生?
(2)在参与问卷调查发生摔倒的老人中,按是否使用智能设备进行分层,采用样本量比例分配的分层随机抽样方法,从样本中抽取5人作进一步调查,再从这5人中随机抽取2人进行面谈,记这2人中未使用智能设备的人数为X,求X的数学期望及方差.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
变式1.(25-26高二下·吉林·期中)某研究团队为探讨体育锻炼对青少年身心健康的影响,抽取960名有体育锻炼习惯的在校中学生进行问卷调查,统计表格数据如下:
初中
高中
合计
男
270
230
女
230
230
合计
(1)完成表格数据,并根据小概率值的独立性检验,分析参与问卷调查的中学生性别分布是否存在年级差异?
(2)每日锻炼对身心健康有显著影响.已知每日锻炼时间超过1小时的学生身心健康达标率为,现随机抽取2名每日锻炼时间超过1小时的学生进行健康评估,求至少有1名学生身心健康达标的概率.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
变式2.(25-26高二下·上海·阶段检测)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
附:;
0.10
0.01
0.001
2.706
6.635
10.828
变式3.(25-26高二下·浙江宁波·期中)国家加大了对全民体育锻炼的重视程度,推行全民体育锻炼工作,全民体育锻炼活动在全国各地蓬勃发展,活动规模不断扩大,内容不断充实,方式不断创新,影响日益扩大,使我国国民身体素质得到了大幅度提高.某高中为响应政府号召,在寒假中对某校高二400名学生(其中男生240名)按性别采用分层抽样的方法抽取100名学生进行调查,了解他们每天的体育锻炼情况如下表:
每天体育锻炼时间低于1 h
每天体育锻炼时间不低于1 h
合计
男生
30
女生
10
合计
100
(1)根据统计数据完成以上列联表,依据的独立性检验,能否认为该校女生和男生在每天体育锻炼时间方面存在差异?
(2)若从抽出的100名学生中按“每天体育锻炼时间是否低于1 h”采用分层随机抽样抽取10名学生准备进行身体素质测试,在这10名学生中随机抽取3名学生,记这3名学生每天体育锻炼时间不低于1 h的人数为,求的分布列和数学期望.
附参考数据及公式:,其中.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
2
学科网(北京)股份有限公司
$样本相关系数的计算、线性回归方程、独立性检验专项训练
样本相关系数的计算、线性回归方程、独立性检验专项训练
考点目录
样本相关系数的计算
线性回归方程
独立性检验
考点一 样本相关系数的计算
例1.(25-26高二上·四川巴中·期末)某研究机构为了解高二学生课外阅读的情况,随机统计了某校高二年级名学生的一个学期课外阅读时间(单位:小时),所得数据都在内,将所得的数据分成4组:,,,,得到如图所示的频率分布直方图,现知道课外阅读时间在内的有人.
(1)求和的值;
(2)估计该校学生一个学期课外阅读时间的平均数(同一组中的数据用该组区间的中点值代表).
【答案】(1)
(2)
【分析】(1)利用频率直方图的性质结合已知条件求和的值;
(2)利用频率直方图的性质结合平均数定义求解.
【详解】(1)区间的组距为,
由频率直方图可知频率/组距为,
该区间的频率为,
该区间有人,
;
频率直方图各组频率之和为1,组距均为,
,解得.
(2)该校学生一个学期课外阅读时间的平均数为:
.
例2.(25-26高三上·浙江·期末)某县承包了一块土地,已知土地的使用面积与相应的管理时间的关系如下表所示:
土地使用面积/亩
1
2
3
4
5
管理时间月
8
10
13
25
24
并调查了某村300位村民参与管理的意愿,得到的部分数据如下表所示:
单位:人
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
50
(1)求出样本相关系数的大小,并判断管理时间与土地使用面积是否线性相关(当时,即可认为线性相关);
(2)以该村村民的性别与参与管理意愿的情况估计该县的情况,从该县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.
参考公式:;参考数据:.
【答案】(1),管理时间与土地使用面积线性相关
(2)分布列见解析,
【分析】(1)根据表格中的数据,结合相关系数的计算公式,求得的值,即可得出结论;
(2)根据题意,得到变量的所有可能取值,利用重复试验的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【详解】(1)由题意得,,
所以,
可得,
则,
所以管理时间与土地使用面积线性相关.
(2)由题意,随机变量的所有可能取值为0,1,2,3,
从该县中随机抽取一位村民,取到不愿意参与管理的男性村民的概率为,
故,
故的分布列为
0
1
2
3
所以数学期望.
例3.(25-26高三上·河北·期末)某社交平台对用户行为进行分析,收集了每位用户每日的活跃时间(单位:小时)和发布内容数量(单位:条).为分析两变量间的相关性,需对数据进行标准化处理.现随机抽取名用户,得到数据,定义标准化变量与的相关系数为.
(1)证明:且.
(2)基于历史数据,用户活跃时间,设平台服务成本为随机变量,当时,,当时,,当时,,若在变化,且0.9544,求的期望的取值范围.
(3)设维向量与的数量积定义为,模长定义为与的夹角满足.设x,y标准化变量对应的向量分别为为向量与的夹角.该平台还记录了每位用户的好友数量(单位:人),其标准化变量对应的向量,).已知活跃时间与发布内容数量的相关系数为,发布内容数量与好友数量的相关系数为,设与的夹角为与的夹角为,且,求活跃时间与好友数量的相关系数的取值范围.
附相关公式:与的相关系数.
【答案】(1)证明见解析
(2)
(3)
【分析】(1)由条件提供的公式化简即可证明;
(2)设,根据正态分布的概率特点求出的范围,利用离散型随机变量的期望的定义表达出的期望,从而即可求解;
(3)由(1)易得,从而,活跃时间与好友数量的相关系数即为,结合条件,根据余弦函数的单调性及两角和差的余弦公式即可求解.
【详解】(1)证明:由,得,
将代入上式,得,同理得,
由,及相关系数,
得
因为,所以.
(2)设,则.
因为,所以,
则.
因为,所以,故的取值范围是.
(3)由(1)知,
,则,故.
因为,所以,
且均为锐角,则.
由及余弦函数在上单调递减,
可得,
即
则,即.
故活跃时间与好友数量的相关系数的取值范围是.
变式1.(24-25高二下·广东中山·期末)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)做好记录.下表是检验员在一天内依次抽取的16个零件的尺寸:经计算得,,
,,其中为抽取的第个零件的尺寸().
抽取次序
1
2
3
4
5
6
7
8
零件尺寸(cm)
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸(cm)
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求()的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(3)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
【答案】(1)可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
(2)需对当天的生产过程进行检查
(3)均值;标准差.
【分析】(1)由样本数据得相关系数,验证是否成立,然后得结论;
(2)由求得,即可得到得结论;
(3)剔除离群值,求剩下数据的平均值,即求得这条生产线当天生产的零件尺寸的均值的估计值.由得,即可求出剔除第13个数据,剩下数据的样本方差,即求得这条生产线当天生产的零件尺寸的标准差的估计值.
【详解】(1)由样本数据得相关系数:
.
,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)∵,,∴,,
抽取的第13个零件的尺寸在以外,
需对当天的生产过程进行检查.
(3)剔除离群值,即第13个数据,
剩下数据的平均数为,
即这条生产线当天生产的零件尺寸的均值的估计值为;
由得:,
剔除第13个数据,剩下数据的样本方差为,
样本标准差为,
即这条生产线当天生产的零件尺寸的标准差的估计值为.
变式2.(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【答案】(1),
(2),可以用线性回归模型拟合与之间的关系,理由见解析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解,再根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)因为,
,
故;
因为与的相关系数的绝对值近似为,大于且非常接近,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
变式3.(2025·广西·三模)我国广西某自然保护区分布着国家一级保护动物白头叶猴,为了研究空气质量与白头叶猴分布数量的相关性,将该保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中20个区域进行编号,统计抽取到每个区域的某空气指标和区域内白头叶猴分布的数量,得到数组.已知,,.
(1)求样本的相关系数;
(2)假设白头叶猴的寿命为随机变量(可取任意正整数).研究人员统计大量数据后发现:对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均等于0.05,这种现象被称为“几何分布的无记忆性”.
①求的表达式;
②推导白头叶猴寿命期望的值.
附:相关系数.
【答案】(1)0.75
(2)①;②20
【分析】(1)将对应数值代入相关系数公式求解即可;
(2)①由已知得,则,类比已知数列递推公式求数列通项公式的方法作差求,得,从而根据等比数列的通项公式写出的表达式.
②设,利用错位相减法求出,再代入求极限即可.
【详解】(1)
(2)①已知对于任意的,,
,
, ①
当时,, ②
两式相减可得:,,
又,所以
②设,
,
两式相减得:
,所以,
所以白头叶猴寿命期望.
考点二 线性回归方程
例1.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
【答案】(1)证明见解析
(2),具有较强的线性相关程度.
(3)关于的线性回归方程为,预测研发投入亿元时的经济收益为亿元.
【分析】(1)先利用完全平方公式展开,再根据平均数定义,即,对展开后的式子进行化简,最终推导出目标等式;
(2)先计算的均值,再分别求出、与交叉项,代入相关系数公式计算,最后根据与的大小关系判断线性相关程度;
(3)利用已求出的交叉项与计算回归系数,再根据求出截距,得到回归方程,最后将代入方程,计算并得到预测的经济收益值.
【详解】(1)已知,即,
,
所以;
(2),,
,,
,
又因为,
所以
所以研发投入与经济收益之间具有较强的线性相关性.
(3),则,
所以关于的线性回归方程为,
将代入线性回归方程,得,
所以预测研发投入亿元时的经济收益为亿元.
例2.(25-26高二下·湖南长沙·期中)某市开展“我心中的好老师”评选活动,现对评选出的五位候选人的工作年限和得票数进行了统计,得到如下数据:
“我心中的好老师”编号
1
2
3
4
5
工作年限/年
4
6
8
10
12
得票数/百张
10
20
40
60
50
(1)若得票数与工作年限满足线性相关关系,试求经验回归方程,并就此估计“我心中的好老师”的工作年限为15年时的得票数;
(2)若用表示统计数据时得票数的“即时均值”(四舍五入到整数),从5个“即时均值”中任选2个,求这2个数据之和小于8的概率.
【答案】(1),78
(2)
【分析】(1)先计算样本中心点 ,再通过公式计算回归系数 ,进而求得截距 ,最后代入 进行预测.
(2)先计算每个数据的“即时均值”并四舍五入取整,再用组合数计算从5个数据中任选2个的总情况数,最后找出和小于8的情况数,利用古典概型公式计算概率.
【详解】(1)由题可得,
则,
.
所以.
当时,.
(2)5个“即时均值”分别为3,3,5,6,4.
从5个“即时均值”中任选2个,共有(种)情况,
其中2个数据之和小于8的有,,共3种情况,
所以这2个数据之和小于8的概率为.
例3.(25-26高二下·山西晋中·期中)某模具厂新接一批新模型制作的订单,为给订购方回复出货时间,需确定制作该批模型所花费的时间,为此进行了5次试验,收集数据如下:
制作模型数(个)
10
20
30
40
50
花费时间(分钟)
64
69
75
82
90
(注:回归方程中斜率和截距最小二乘估计公式分别为,参考数据:,).
(1)请根据以上数据,求关于的线性回归方程;
(2)若要制作60个这样的模型,请根据(1)中所求的回归方程预测所花费的时间.
【答案】(1)
(2)95.5分钟
【分析】(1)计算平均值,再利用回归方程公式计算得到答案.
(2)将代入回归方程计算得到答案.
【详解】(1)由数据得,,
因为,,所以, ,所以关于的线性回归方程为.
(2)当时,(分钟),
因此可以预测制作60个这种模型需要花费95.5分钟.
变式1.(25-26高三下·甘肃金昌·阶段检测)2025年世界人工智能大会于2025年7月26日至28日在上海市举行,大会号召“共商技术创新路线,共促技术成果赋能”.某企业的AI产品销售部门统计了1~5月份的销售量(单位:万件):
月份x
1
2
3
4
5
销售量y
3
5
6
9
12
(1)已知可用线性回归模型拟合y与x的关系,求y关于x的经验回归方程;
(2)该企业科研部门从1月份与4月份的客户中分别随机抽取2位客户和6位客户进行电话回访,科研部门的工作人员甲从这8位客户中随机抽取2位进行回访,记甲回访客户中1月份的客户人数为,求的分布列和数学期望.
附:经验回归方程的斜率与截距的最小二乘估计公式分别为,.
【答案】(1)
(2)
0
1
2
.
【分析】(1)根据最小二乘法可求回归直线方程;
(2)根据超几何分布可求的分布列,再根据期望公式可求数学期望.
【详解】(1),,,
,
,
故y关于x的经验回归方程为.
(2)X的取值可能为,
,,,
所以的分布列为
0
1
2
则.
变式2.(25-26高二下·河南驻马店·期中)某种产品的广告费用支出万元与销售额万元之间有如下的对应数据:
1
3
5
7
9
3
10
16
21
45
(1)根据上表提供的数据,求出关于的线性回归方程;
(2)据此估计广告费用为17万元时,所得的销售收入.
(参考数值:)
【答案】(1)
(2)76万元
【分析】(1)由表格中的统计数据,结合最小二乘法,即可求得回归直线方程;
(2)由(1)知:回归直线方程为,令,求得的预报值,即可得到答案.
【详解】(1)由表格中的统计数据可得,
因为,所以,
则,
所以关于的回归直线方程为.
(2)由(1)知回归直线方程为,
当时,预报的值为,
所以当广告费用为万元时,所得的销售收入约为万元.
变式3.(25-26高三下·甘肃陇南·阶段检测)规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量,求的分布列和数学期望;
(2)为验证抽球试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,y表示对应的人数,部分统计数据如下:
t
1
2
3
4
5
y
232
98
60
40
20
求y关于t的回归方程,并预测成功的总人数(精确到1);
(3)证明:.
附:经验回归方程系数:,
参考数据:(其中).
【答案】(1)分布列见解析,
(2),
(3)证明见解析
【分析】(1)结合相互独立、独立重复试验的概率计算公式,计算出分布列并求得数学期望;
(2)利用换元法,结合回归直线方程的计算公式,计算出回归方程,并根据方程求得预测值;
(3)通过求“在前轮没有成功的概率”大于来求得“在前轮就成功的概率”小于,从而证得不等式成立.
【详解】(1)由题意可知,X的取值可能为1,2,3,
所以;
;
,
所以X的分布列为
数学期望为.
(2)令,则,由题目可知,,
所以,
,
因此,即关于的回归方程为,
所以,估计时,;估计时,;估计时,;
因此预测成功的总人数为.
(3)由题目可知,在前轮就成功的概率为,
在前轮没有成功的概率为
,
因此.
考点三 独立性检验
例1.(2026·河南·三模)某影城想了解观众性别与喜欢的电影类型是否有关,随机调查了300名观众,得到下表:
喜欢生活片
喜欢战争片
男性观众
70
80
女性观众
90
60
(1)根据的独立性检验,分析观众性别与喜欢的电影类型是否有关;
(2)从这300名观众中随机选择2名,在已知其中至少有1名女性观众条件下,求这2名观众都喜欢生活片的概率.
参考公式:,其中.
临界值表:
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)观众性别与喜欢的电影类型无关
(2)
【分析】(1)计算卡方值并与临界值比较,即可得出结论;
(2)根据条件概率的公式计算得解.
【详解】(1)零假设:观众性别与喜欢的电影类型无关.
因为.
因此依据的独立性检验,没有充分证据说明不成立,即两者无关.
(2)设事件"选出的2人中至少1名女性",事件"选出的2人都喜欢生活片",
由列联表知,;
,因此.
例2.(2026·甘肃兰州·模拟预测)纪录片《重返狼群》再度翻红,某市为了了解市民是否关注《重返狼群》与性别的关联性,在本市随机调查了1000名市民,得到如下列联表.
性别
是否关注《重返狼群》
合计
不关注
关注
男
520
80
600
女
380
20
400
合计
900
100
1000
(1)依据小概率值的独立性检验,能否认为市民是否关注《重返狼群》与性别有关;
(2)将频率视为概率,现从全市市民中随机抽取3名,记关注《重返狼群》的人数为,求的数学期望.
附:,.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)认为市民是否关注《重返狼群》与性别有关
(2)
【分析】(1)零假设:市民是否关注《重返狼群》与性别无关,计算出的观测值,结合临界值可得出结论;
(2)根据题意,再计算期望即可.
【详解】(1)零假设:市民是否关注《重返狼群》与性别无关,
计算得,
所以依据小概率值的独立性检验,推断不成立,
即认为市民是否关注《重返狼群》与性别有关,此推断犯错误的概率不超过0.001;
(2)由列联表知1000名市民中有100人关注,关注率为,
用频率估计概率,可知任意抽取一名市民,该市民关注《重返狼群》的概率为,
则,
所以.
例3.(2026·河南许昌·三模)科技进步催生了大批智慧养老科技产品.在某养老服务中心,室内、、物联网等智能设备,精准对接老年人多样化健康养老需求.该中心配备有多台摄像机,通过智能分析,辅助发现老人异常行为状态,产生预警信息并实时推送至护理站,及时对老人进行救助.为防止老人摔倒,在房间内还铺设有智能地板,一旦出现特殊情况,地板就会立即报警.在该中心所在地区随机抽取200名70岁以上的老人进行问卷调查,得到如下列联表:
智能设备
摔倒
合计
发生
未发生
使用
8
m
100
未使用
n
68
合计
200
(1)求m,n的值,并依据小概率值的独立性检验,分析使用智能设备是否能有效预防摔倒的发生?
(2)在参与问卷调查发生摔倒的老人中,按是否使用智能设备进行分层,采用样本量比例分配的分层随机抽样方法,从样本中抽取5人作进一步调查,再从这5人中随机抽取2人进行面谈,记这2人中未使用智能设备的人数为X,求X的数学期望及方差.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1),,认为使用智能设备能有效预防摔倒的发生
(2)X的期望;X的方差.
【分析】(1)本题先由列联表数据求出参数,设立独立性检验零假设,代入卡方公式计算值并与临界值比对,依据小概率值否定零假设,判定使用智能设备与预防摔倒有关;
(2)再确定摔倒老人中使用和未使用智能设备的人数,明确随机变量的取值,用组合数求对应概率,进而计算出的数学期望与方差.
【详解】(1)由表中数据可得,.
智能设备
摔倒
合计
发生
未发生
使用
8
92
100
未使用
32
68
100
合计
40
160
200
零假设为:使用智能设备与有效预防摔倒的发生无关.
故根据小概率值的独立性检验,推断不成立,即认为使用智能设备能有效预防摔倒的发生.
(2)易知5名“发生摔倒”的老人中有1人使用智能设备,4人未使用智能设备,
故X的所有可能取值为1,2,
,,
所以X的期望;
X的方差.
变式1.(25-26高二下·吉林·期中)某研究团队为探讨体育锻炼对青少年身心健康的影响,抽取960名有体育锻炼习惯的在校中学生进行问卷调查,统计表格数据如下:
初中
高中
合计
男
270
230
女
230
230
合计
(1)完成表格数据,并根据小概率值的独立性检验,分析参与问卷调查的中学生性别分布是否存在年级差异?
(2)每日锻炼对身心健康有显著影响.已知每日锻炼时间超过1小时的学生身心健康达标率为,现随机抽取2名每日锻炼时间超过1小时的学生进行健康评估,求至少有1名学生身心健康达标的概率.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
初中
高中
合计
男
270
230
500
女
230
230
460
合计
500
460
960
不存在年级差异,理由见解析
(2)0.9831
【分析】(1)先根据已知数据完成表格,再根据独立性检验的公式计算的值,最后与临界值比较得出结论;
(2)可先求出两名学生都不达标的概率,再用1减去该概率得到至少一名学生身心健康达标的概率.
【详解】(1)填表如图:
初中
高中
合计
男
270
230
500
女
230
230
460
合计
500
460
960
零假设:参与问卷调查的中学生性别分布不存在年级差异.
根据列联表中的数据,经计算得到,
,
根据小概率值的独立性检验,没有充分证据认为不成立,因此可以认为成立,即认为参与问卷调查的中学生性别分布不存在年级差异;
(2)记事件为“2名每日锻炼时间超过1小时的学生中至少有1名学生达标”,则事件为“2名每日锻炼时间超过1小时的学生中没有学生达标”.
由题意得 ,
故 .
故至少有1名学生身心健康达标的概率为0.9831.
变式2.(25-26高二下·上海·阶段检测)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
附:;
0.10
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且数学成绩总评优秀的经验概率为0.35.
(2)有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)的分布列如下表:
0
1
2
3
期望为.
【分析】(1)完善列联表,求出经验概率;
(2)求出的观测值,与临界值比对得解;
(3)求出的可能值及对应概率,列出分布列并求出期望.
【详解】(1)完善列联表如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且成绩优秀的人数为14,总样本数为40,因此经验概率为.
(2)由(1)得 ,
所以有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)不是每天都整理数学错题的学生有20人,其中数学成绩总评优秀人数为5,
的所有可能值为0,1,2,3,
,
,
所以的分布列如下表:
0
1
2
3
期望.
变式3.(25-26高二下·浙江宁波·期中)国家加大了对全民体育锻炼的重视程度,推行全民体育锻炼工作,全民体育锻炼活动在全国各地蓬勃发展,活动规模不断扩大,内容不断充实,方式不断创新,影响日益扩大,使我国国民身体素质得到了大幅度提高.某高中为响应政府号召,在寒假中对某校高二400名学生(其中男生240名)按性别采用分层抽样的方法抽取100名学生进行调查,了解他们每天的体育锻炼情况如下表:
每天体育锻炼时间低于1 h
每天体育锻炼时间不低于1 h
合计
男生
30
女生
10
合计
100
(1)根据统计数据完成以上列联表,依据的独立性检验,能否认为该校女生和男生在每天体育锻炼时间方面存在差异?
(2)若从抽出的100名学生中按“每天体育锻炼时间是否低于1 h”采用分层随机抽样抽取10名学生准备进行身体素质测试,在这10名学生中随机抽取3名学生,记这3名学生每天体育锻炼时间不低于1 h的人数为,求的分布列和数学期望.
附参考数据及公式:,其中.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)表格见解析,可以认为女生和男生在每天体育锻炼时间方面无差异;
(2)分布列见解析,1.8;
【分析】(1)先根据分层抽样计算抽取的男女生人数,再结合已知数据补全2×2列联表,并利用列联表数据代入卡方公式计算观测值,最后与临界值比较判断是否存在差异即可;
(2)先确定分层抽样后“每天体育锻炼时间不低于1小时”的学生人数,再计算随机变量X的可能取值及对应概率,列出分布列并求数学期望即可.
【详解】(1)高二有400名学生(其中男生240名),则抽取100名学生中,男生有名,女生有40名,
所以列联表如下:
每天体育锻炼时间低于1 h
每天体育锻炼时间不低于1 h
总计
男生
30
30
60
女生
10
30
40
总计
40
60
100
假设:女生和男生在每天体育锻炼时间方面无差异
,
所以我们没有充分证据推断不成立,可以认为女生和男生在每天体育锻炼时间方面无差异.
(2)100名学生中“每天体育锻炼时间不低于1 h”的人数为60人,
因此抽取10名学生“每天体育锻炼时间不低于1 h”的人数为6人,
而的所有可能取值为0,1,2,3,
,
,
,
所以的分布列为:
X
0
1
2
3
P
数学期望
2
学科网(北京)股份有限公司
$