内容正文:
4 成对数据的统计相关性
课程标准
学习目标
(1)结合实例, 了解样本相关系数的统计含义, 了解样本相关系数与标准化数据向量夹角的关系。
(2)结合实例, 会通过相关系数比较多组成对数据的相关性。
(3)结合具体实例, 了解一元线性回归模型的含义, 了解模型参数的统计意义, 了解最小二乘原理, 掌握一元线性回归模型参数的最小二乘估计方法, 会使用相关的统计软件。
(4)针对实际问题, 会用一元线性回归模型进行预测。
(5)通过实例, 了解 列联表独立性检验及其应用。
(1)了解样本相关系数的统计含义, 了解样本相关系数与标准化数据向量夹角的关系。
(2)理解一元线性回归模型,会用一元线性回归模型进行预测。
(3)了解 列联表独立性检验及其应用。
知识点01 散点图与相关系数
1 相关关系与确定关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2 正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;从散点图来看,点从左下角往右上角走.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关;从散点图来看,点从左上角往右下角走.
比如脂肪含量与年龄 , 子女的身高与父亲的身高正相关.
3 线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4 样本相关系数
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,则
我们称为变量和变量的样本相关系数.
① 当时,称成对数据正相关;当时,称成对数据负相关.
② 越接近于,两个变量的线性相关性越强;
接近于时,两个变量之间几乎不存在线性相关关系.
③ 样本相关系数也可以推导得到
【即学即练1】
(24-25高二下·全国·课后作业)下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
知识点02 回归线性方程
1 一元线性回归模型
用表示父亲身高,表示儿子身高,表示随机误差,假定随机误差的均值为,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
我们称它为关于的一元线性回归模型.
2 线性回归方程
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
备注 线性回归直线经过定点.
【即学即练2】
(2025高三·全国·专题练习)下表为2017—2023年某企业两轮电动车的年产量(单位:万辆),其中2017—2023年的年份代码分别为1—7.
年份代码
1
2
3
4
5
6
7
年产量万辆
31
33
38
44
已知与具有线性相关关系,且满足经验回归方程,则的值为( )
A.146.5 B.164.8 C.179.5 D.197.8
知识点03 独立性检验
1 列联表
设为两个变量,每一个变量都可以取两个值,变量变量
通过观察得到右表所示数据:
分类变量
合计
合计
并将形如此表的表格称为列联表.
2 独立性检验
根据列联表中的数据判断两个变量是否独立的问题叫列联表的独立性检验.
3 的计算公式
若要推断的论述为“有关系”,则的值越大,说明“与有关系”成立的可能性越大.
【即学即练3】
(24-25高二下·全国·课后作业)为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:
情况
性别
总计
男
女
正常
442
514
956
色盲
38
6
44
总计
480
520
1000
根据上述数据,试问色盲与性别关系是( )
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.相互独立 B.不相互独立
C.有的把握认为色盲与性别无关 D.只有的把握认为色盲与性别有关
【题型一:判断两个变量是否有相关性】
例1.(22-23高一下·湖南怀化·期末)下列说法中正确的是( )
A.中的,是具有相关关系的两个变量
B.正四面体的体积与其棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.某地区感染流感人数与外来流感患者人数是具有相关关系的两个变量
变式1-1.(24-25高二下·全国·课后作业)下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
变式1-2.(多选)(24-25高二下·全国·随堂练习)下列关系是相关关系的是( )
A.角度和它的正弦值之间的关系
B.某商场搞促销活动与销售量之间的关系
C.作文水平与课外阅读量之间的关系
D.底面积一定的三棱锥的体积与高之间的关系
【方法技巧与总结】
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
【题型二:判断正相关与负相关】
例2.(多选)(23-24高二·全国·课后作业)对小明在连续9次高考模拟数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.他的同桌小刚根据散点图对他的数学成绩的分析中,正确的有( ).
A.小明的数学成绩总的趋势是在逐步提高
B.小明在这连续9次测试中的最高分与最低分的差超过40分
C.小明的数学成绩与测试序号具有线性相关性,且为负相关
D.小明的数学成绩与测试序号具有线性相关性,且为正相关
变式2-1.(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
变式2-2.(23-24高二下·北京·期末)对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关
B.变量与负相关,与负相关
C.变量与正相关,与正相关
D.变量与正相关,与负相关
变式2-3.(多选)(23-24高三下·湖南长沙·阶段练习)某市7天国庆节假期期间的楼房日认购量(单位:套)与日成交量(单位:套)的折线图如下图所示,小明同学根据折线图对这7天的日认购量与日成交量作出如下判断,则下列结论正确的是( )
A.日认购量与日期正相关
B.日成交量的中位数是26
C.日成交量超过日平均成交量的有2天
D.10月7日日认购量的增量大于10月7日日成交量的增量
【方法技巧与总结】
1 如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;从散点图来看,点从左下角往右上角走.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关;从散点图来看,点从左上角往右下角走.
比如脂肪含量与年龄 , 子女的身高与父亲的身高正相关.
2 若回归直线方程的斜率为正,则两变量为正相关;斜率为负为负相关.
【题型三:相关系数的意义与计算】
例3.(2024高三·全国·专题练习)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
变式3-1.(24-25高三下·上海浦东新·阶段练习)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性 B.相关系数变大
C.相关系数变小 D.相关系数不变
变式3-2.(24-25高三下·河南·开学考试)现有一组样本数据点,则该组样本数据点的相关系数( )
A. B. C. D.1
变式3-3.(24-25高三上·全国·阶段练习)研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量x,y,z若x,y的样本相关系数为,y,z的样本相关系数为,则x、z的样本相关系数的最大值为( )
附:相关系数
A. B. C. D.1
【方法技巧与总结】
1 对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,则
我们称为变量和变量的样本相关系数.
2 当时,称成对数据正相关;当时,称成对数据负相关.
3 越接近于,两个变量的线性相关性越强;
接近于时,两个变量之间几乎不存在线性相关关系.
【题型四:一元线性回归模型的理解】
例4.(24-25高三下·天津·开学考试)已知变量之间的线性回归方程为,且变量之间的一组相关数据如表所示,
2
4
6
8
5
13
则下列说法正确的是( )
A.
B.变量与是负相关关系
C.增加1个单位,一定增加3个单位
D.该回归直线必过点
变式4-1.(2024高三·全国·专题练习)根据最小二乘法由一组样本点(其中,2,,300),求得的回归方程是,则下列说法正确的是( )
A.至少有一个样本点落在回归直线上
B.若所有样本点都在回归直线上,则变量间的相关系数为1
C.对所有的解释变量,的值一定与有误差
D.若回归直线的斜率,则变量x与y正相关
变式4-2.(2025高三·全国·专题练习)研究表明,健康成年人的血清总胆固醇值(单位:)和年龄(单位:岁)之间满足经验回归方程,且年龄每增加一岁,血清总胆固醇值增加.某单位组织职工体检,随机抽取了六名职工的血清总胆固醇值如下:
年龄岁
25
32
35
41
51
56
血清总胆固醇值
3.01
3.21
3.58
4.68
5.03
5.33
若某个健康职工45岁,估计他的血清总胆固醇值为( )
A. B. C. D.
【方法技巧与总结】
1 线性回归直线经过定点.
2 线性回归直线方程,只能预测结果的近似值,不能确定.
【题型五:求回归方程】
例5.(24-25高三下·安徽·阶段练习)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
变式5-1.(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
变式5-2.(24-25高二下·全国·课后作业)随着经济的发展某地居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份
2013
2014
2015
2016
2017
储蓄存款(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,,得到下表:
时间代号
1
2
3
4
5
0
1
2
3
5
(1)求关于的经验回归方程;
(2)通过(1)中的方程,求出关于的经验回归方程;
(3)用所求经验回归方程预测到2021年年底,该银行储蓄存款可达多少?
附:对于经验回归方程,其中,.
变式5-3.(24-25高三上·海南省直辖县级单位·期末)某市2015~2023年全体居民人均可支配收入(单位:元)如表所示,将其绘制成散点图(如图),发现全体居民人均可支配收入与年份具有线性相关关系.
年份
2015
2016
2017
2018
2019
2020
2021
2022
2023
全体居民人均可支配收入(单位:元)
18352
20110
22034
24153
26386
28920
30824
33803
35666
(1)设年份编号为(2015年的编号为1,2016年的编号为2,依此类推),记全体居民人均可支配收大为(单位:万元),求经验回归方程(结果精确到0.01),并根据所求回归方程,预测2025年该市全体居民人均可支配收入;
(2)为进一步对居民人均可支配收入的结构进行分析,某分析员从年中任取3年的数据进行分析,将选出的居民人均可支配收入超过3万的年数记为,求随机变量的分布列与数学期望.
参考数据:.
参考公式:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.
【方法技巧与总结】
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
【题型六:非线性模型转化为线性模型】
例6.(24-25高三上·广东中山·期中)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.该公司统计了七个部门测试的平均成绩(满分100分)与绩效等级优秀率,如下表所示:
32
41
54
68
74
80
92
0.28
0.34
0.44
0.58
0.66
0.74
0.94
根据数据绘制散点图,初步判断,选用作为回归方程.令,经计算得,
(1)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(2)根据统计分析,大致认为各部门测试平均成绩,其中近似为样本平均数,近似为样本方差.经计算,求某个部门绩效等级优秀率不低于的概率.
参考公式与数据:
①.
②线性回归方程中,,.
③若随机变量,则,,.
变式6-1.(23-24高三上·内蒙古呼和浩特·期末)用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.35 D.21
变式6-2.(2025·重庆·一模)某校数学建模兴趣小组收集了一组恒温动物体重 (单位: 克) 与心率(单位: 次/分钟)的对应数据. 根据生物学常识和散点图得出与近似满足 ( 为参数),令 ,计算得到. 由最小二乘法得到经验回归方程为 ,则的值为( )
A. B.0.4 C. D.0.2
变式6-3.(2024高三·全国·专题练习)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
变式6-4.(2025高三·全国·专题练习)近年来,随着人工智能技术的不断发展,各种AI应用也不断普及,ChatGPT就是一款具有人类沟通能力的智能AI工具.随着人工智能的加入,各类传媒、影视、游戏行业迎来了高速的发展,AI技术降低了这些行业的人力成本,提高了效率.某公司2016年—2023年的年投入资金(万元)与年收益(百万元)的数据如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用(,均为常数)拟合年收益与年投入资金的关系,求出经验回归方程;
(2)为了促进公司发展,该公司决定在甲、乙两个部门之间进行一次信息化技术比赛,比赛规则如下:两个部门进行三轮答题比赛,每轮只出1道题目,比赛时两部门同时回答这道题,若一部门答对且另一部门答错,则答对的部门得10分,答错的部门得分,若两部门都答对或都答错,则两部门均得0分,累计得分为正者将获得奖品,且两部门答对与否互不影响,每次答题的结果也互不影响,甲部门答对每道题的概率为,乙部门答对每道题的概率为.
(ⅰ)记每一轮比赛中甲部门的得分为,求的分布列和数学期望;
(ⅱ)求三轮比赛后甲部门获得奖品的概率.
参考数据:,,,其中,.
参考公式:对于一组数据,,…,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
【方法技巧与总结】
非线性模型往往可以通过变量的转化变成为线性模型处理.
【题型七:独立性检验的应用】
例7.(24-25高三下·江苏扬州·阶段练习)近几年,技术加持的智能手机(以下简称为手机)逐渐成为市场新宠.为了解顾客的购买意愿,某手机商城随机调查了位顾客购买手机的情况,得到数据如下表:
购买手机
购买不带的手机
总计
男性顾客
女性顾客
总计
(1)依据小概率值的独立性检验,能否认为购买手机与顾客的性别有关?
(2)为提升手机的销量,该手机商城针对购买手机的顾客设置了抽奖环节,抽奖规则如下:
①共设一、二等奖两种奖项,分别奖励元、元手机话费,抽中一、二等奖的概率分别为、,其余情况不获奖金;
②每位顾客允许连续抽奖两次,且两次抽奖相互独立,记某购买手机的顾客两次所获得奖金之和为元,求的分布列和数学期望.
参考公式:,.
变式7-1.(23-24高二下·天津滨海新·阶段练习)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是(参考数据:)( )
①若的观测值满足,我们有99%的把握认为吸烟与患肺病有关系;
②若的观测值满足,那么在100个吸烟的人中约有99人患有肺病;
③从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病;
④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误.
A.②③ B.②③④ C.①②④ D.①④
变式7-2.(山东省菏泽市2025届高三下学期一模考试数学试题)在春节联欢晚会上进行了机器人团体舞蹈表演,某机构随机抽取了100名观众进行问卷调查,得到了如下数据:
喜欢
不喜欢
男性
40
10
女性
20
30
(1)依据的独立性检验,试分析对机器人表演节目的喜欢是否与性别有关联?
(2)从这100名样本观众中任选1名,设事件“选到的观众是男性”,事件“选到的观众喜欢机器人团体舞蹈表演节目”,比较和的大小,并解释其意义.
,.
0.050
0.010
0.001
3.841
6.635
10.828
变式7-3.(24-25高三下·山东德州·开学考试)向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展.以人工智能的应用为例,人工智能中的文生视频模型(以下简称),能够根据用户的文本提示创建最长秒的逼真视频.为调查的应用是否会对视频从业人员的数量产生影响,某学校研究小组随机抽取了名视频从业人员进行调查,结果如下表所示.
Sora的应用情况
视频从业人员
合计
减少
未减少
应用
没有应用
合计
(1)根据所给数据完成题中表格,并判断是否有的把握认为的应用与视频从业人员的减少有关?
(2)某公司视频部现有员工人,公司拟开展培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用.
(i)求员工经过培训能应用的概率;
(ii)已知开展培训前,员工每人每年平均为公司创造利润万元;开展培训后,能应用的员工每人每年平均为公司创造利润万元;培训平均每人每年成本为万元.根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后对剩余员工开展培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?
附:,其中.
【方法技巧与总结】
的计算公式
若要推断的论述为“有关系”,则的值越大,说明“与有关系”成立的可能性越大.
一、单选题
1.(19-20高二上·河北石家庄·开学考试)在下列各散点图中,两个变量具有正相关关系的是( )
A.B.C. D.
2.(23-24高二下·重庆·期末)已知变量与正相关,变量与满足,则下列说法正确的是( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与正相关 D.与负相关,与负相关
3.(24-25高二·全国·假期作业)某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
4.(2025·上海·模拟预测)在研究“温度是否影响庄稼生长”时,对实验数据利用2×2列联表进行独立性检验,计算得实验数据的统计量的值为.已知,则( )
A.的值小于3.841,就有95%的把握认为“温度会影响庄稼生长”
B.的值大于3.841,就有95%的把握认为“温度会影响庄稼生长”
C.的值越大,说明实验数据的观测值与预测值的总体偏差越小
D.的值越小,说明实验数据的观测值与预测值的总体偏差越大
5. (24-25高三上·云南普洱·阶段练习)近日我国相关企业研究表明,随着锂离子电池充放电循环次数的增加,电池内阻增大,可用容量和能量衰减,削弱了电动汽车的续航里程.相关科研团队利用数学建模的方法构建理离子电池充放电循环次数单位:百次与锂离子电池性能指数的回归模型,通过实验得到部分数据如下表:
充放电循环次数x
3
4
5
6
电池性能指数y
91
88
82
79
由上表中的数据求得回归方程为,则计算可得( )(参考公式及数据:,)
A. B. C. D.
6.(23-24高二上·江苏常州·期末)用最小二乘法得到一组数据的线性回归方程为,若,则( )
A.11 B.13 C.63 D.78
7.(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月)
1
2
3
4
5
销售量y(万件)
1
1.6
2.0
a
3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
8.(2025·陕西汉中·二模)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
二、多选题
9.(24-25高三上·福建福州·阶段练习)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分.从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.
月份代码x
1
2
3
4
5
碳酸锂价格y
0.5
0.8
1
1.2
1.5
若y关于x的回归直线方程为,则下列说法中正确的有( )
A.y与x的样本相关系数
B.
C.回归直线方程经过点
D.由回归直线方程可预测6月份的碳酸锂价格约为1.72
10.(24-25高三上·河北廊坊·期末)下列关于概率统计说法中正确的是( )
A.数据1,2,3,4,5,6,8,9,11的第 75 百分位数是 7
B.由两个分类变量 的成对样本数据计算得到 ,依据 的独立性检验 ,可判断 独立
C.经验回归方程 相对于点的残差为
D.若一组样本数据 的对应样本点都在直线 上,则这组样本数据的相关系数为
11.(2025高三·全国·专题练习)[多选]自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,这些都将导致大气压发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到海拔6千米一15千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低
C.由方程可知,样本点(11,22.6)的残差为
D.对比两个回归模型,结合实际情况,方程的预报效果更好
三、填空题
12.(24-25高二上·广西梧州·期末)由数据可得关于的线性回归方程为,若,则 .
13.(2024高三·全国·专题练习)下列说法中,正确的有 (填序号).
①回归直线恒过点,且至少过一个样本点;
②根据列联表中的数据计算得出,而,则在犯错误的概率不超过0.01的前提下认为两个分类变量有关系;
③是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两类变量不相关;
④某项测量结果服从正态分布,则,则.
14.(23-24高二下·河南·期中)已知变量y关于x的回归方程为,若对两边取自然对数,可以发现与x线性相关,现有一组数据如下表所示:
x
1
2
3
4
5
y
则当时,预测y的值为 .
四、解答题
15.(24-25高二下·全国·课后作业)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示:
城市编号
1
2
3
4
5
指标
4
6
2
8
5
指标
4
4
3
5
4
指标
3
6
2
5
4
利用向量夹角来分析与之间及与之间的相关关系.
16. (2025高三·全国·专题练习)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院,进行了小规模的调查,结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如表:
无疲乏症状
有疲乏症状
总计
未使用新药
150
25
t
使用新药
x
y
100
总计
225
m
275
(1)求列联表中的数据的值,判断有疲乏症状与使用该新药是否有关?
(2)从使用该新药的100人中按是否有疲乏症状,采用分层随机抽样的方法抽出4人,再从这4人中随机抽取2人做进一步调查,求这2人中恰有1人有疲乏症状的概率.
附:.
17. (24-25高三上·重庆·期中)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为2019年-2023年我国在线直播生活购物用户规模(单位:亿人),其中2019年-2023年对应的代码依次为1-5.
年份代码
1
2
3
4
5
市场规模
3.98
4.56
5.04
5.86
6.36
参考数据:,其中.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计2027年我国在线直播生活购物用户的规模(结果精确到0.01);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率为,现从我国在线直播购物用户中随机抽取5人,记这5人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
18.(24-25高二上·四川眉山·期中)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
19. (24-25高三上·广西·阶段练习)现有抽球游戏规则如下:盒子中初始装有白球和黑球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏;否则,在盒子中再放入一个黑球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和数学期望;
(2)有数学爱好者统计了1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
94
57
44
23
经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程;
(3)证明:(其中且).
附:回归方程系数:,
参考数据:设,,,,,,.
原创精品资源学科网独家享有版权,侵权必究!12
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
4 成对数据的统计相关性
课程标准
学习目标
(1)结合实例, 了解样本相关系数的统计含义, 了解样本相关系数与标准化数据向量夹角的关系。
(2)结合实例, 会通过相关系数比较多组成对数据的相关性。
(3)结合具体实例, 了解一元线性回归模型的含义, 了解模型参数的统计意义, 了解最小二乘原理, 掌握一元线性回归模型参数的最小二乘估计方法, 会使用相关的统计软件。
(4)针对实际问题, 会用一元线性回归模型进行预测。
(5)通过实例, 了解 列联表独立性检验及其应用。
(1)了解样本相关系数的统计含义, 了解样本相关系数与标准化数据向量夹角的关系。
(2)理解一元线性回归模型,会用一元线性回归模型进行预测。
(3)了解 列联表独立性检验及其应用。
知识点01 散点图与相关系数
1 相关关系与确定关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2 正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;从散点图来看,点从左下角往右上角走.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关;从散点图来看,点从左上角往右下角走.
比如脂肪含量与年龄 , 子女的身高与父亲的身高正相关.
3 线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4 样本相关系数
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,则
我们称为变量和变量的样本相关系数.
① 当时,称成对数据正相关;当时,称成对数据负相关.
② 越接近于,两个变量的线性相关性越强;
接近于时,两个变量之间几乎不存在线性相关关系.
③ 样本相关系数也可以推导得到
【即学即练1】
(24-25高二下·全国·课后作业)下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【答案】B
【分析】由正、负相关的概念逐项判断即可.
【详解】从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则这两个变量为负相关.
结合散点图可知,①②满足题意,即两个变量呈负相关的个数为2个.
故选:B
知识点02 回归线性方程
1 一元线性回归模型
用表示父亲身高,表示儿子身高,表示随机误差,假定随机误差的均值为,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
我们称它为关于的一元线性回归模型.
2 线性回归方程
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
备注 线性回归直线经过定点.
【即学即练2】
(2025高三·全国·专题练习)下表为2017—2023年某企业两轮电动车的年产量(单位:万辆),其中2017—2023年的年份代码分别为1—7.
年份代码
1
2
3
4
5
6
7
年产量万辆
31
33
38
44
已知与具有线性相关关系,且满足经验回归方程,则的值为( )
A.146.5 B.164.8 C.179.5 D.197.8
【答案】B
【分析】先求出,又因为点在经验回归直线上,得出即可计算求解.
【详解】由表中数据得,因为点在经验回归直线上,
所以,所以.
故选:B.
知识点03 独立性检验
1 列联表
设为两个变量,每一个变量都可以取两个值,变量变量
通过观察得到右表所示数据:
分类变量
合计
合计
并将形如此表的表格称为列联表.
2 独立性检验
根据列联表中的数据判断两个变量是否独立的问题叫列联表的独立性检验.
3 的计算公式
若要推断的论述为“有关系”,则的值越大,说明“与有关系”成立的可能性越大.
【即学即练3】
(24-25高二下·全国·课后作业)为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:
情况
性别
总计
男
女
正常
442
514
956
色盲
38
6
44
总计
480
520
1000
根据上述数据,试问色盲与性别关系是( )
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
A.相互独立 B.不相互独立
C.有的把握认为色盲与性别无关 D.只有的把握认为色盲与性别有关
【答案】B
【分析】根据卡方公式计算数值,对比临界值即可求得结果.
【详解】零假设为:色盲与性别相互独立,即它们之间无关.
因为,
所以,
所以依据小概率值的独立性检验,可以推断出不成立,
即色盲与性别之间不相互独立,有的把握认为色盲与性别有关.
故选:B.
【题型一:判断两个变量是否有相关性】
例1.(22-23高一下·湖南怀化·期末)下列说法中正确的是( )
A.中的,是具有相关关系的两个变量
B.正四面体的体积与其棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.某地区感染流感人数与外来流感患者人数是具有相关关系的两个变量
【答案】D
【分析】对于,,是函数关系;对于,体积与棱长的关系是确定的,属于确定性关系;对于,电脑的销售量受多种因素的影响不是确定关系,对于,两个变量是相关关系.
【详解】对于,,是函数关系,属于确定性关系,不是相关关系,故不正确;
对于,体积与棱长的关系是确定的,属于确定性关系,不是相关关系,故不正确;
对于,电脑的销售量除了受电脑价格的影响之外,还受电脑品牌,电脑性能,同行竞争等多种因素的影响,不是确定关系,故不正确;
对于,某地区感染流感人数与外来流感患者人数是具有相关关系的两个变量,故正确.
故选:.
变式1-1.(24-25高二下·全国·课后作业)下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
【答案】A
【分析】利用正相关的定义逐项判断可得答案.
【详解】对于A,一般情况下,汽车越重,则每公里耗油量越多,成正相关,故A正确;
对于B,正方形的面积与边长是函数关系,故B错误;
对于C,一般情况下,若花费在体育活动上面的时间越长,则期末考试数学成绩可能会降低,故不为正相关,故C错误;
对于D,期末考试随机编排的准考证号与期末考试成绩总分没有相关关系,故D错误.
故选:A.
变式1-2.(多选)(24-25高二下·全国·随堂练习)下列关系是相关关系的是( )
A.角度和它的正弦值之间的关系
B.某商场搞促销活动与销售量之间的关系
C.作文水平与课外阅读量之间的关系
D.底面积一定的三棱锥的体积与高之间的关系
【答案】BC
【分析】根据相关关系的定义即可判断.
【详解】A,D选项两个变量之间的关系是函数关系,
B,C选项两个变量之间的关系是相关关系.
故选:BC.
【方法技巧与总结】
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
【题型二:判断正相关与负相关】
例2.(多选)(23-24高二·全国·课后作业)对小明在连续9次高考模拟数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.他的同桌小刚根据散点图对他的数学成绩的分析中,正确的有( ).
A.小明的数学成绩总的趋势是在逐步提高
B.小明在这连续9次测试中的最高分与最低分的差超过40分
C.小明的数学成绩与测试序号具有线性相关性,且为负相关
D.小明的数学成绩与测试序号具有线性相关性,且为正相关
【答案】ABD
【分析】利用散点显示的各次成绩的情况,逐项分析判断作答.
【详解】散点图从左向右看呈上升趋势,则小明的数学成绩总的趋势是在逐步提高,A正确;
小明在这连续9次测试中的最高分大于130分,最低分小于90分,两者的差超过40分,B正确;
散点落在某条直线附近,小明的数学成绩与测试序号具有比较明显的线性相关性,且为正相关,C错误,D正确.
故选:ABD
变式2-1.(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【答案】C
【分析】根据相关关系的概念逐项判定,即可求解.
【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
变式2-2.(23-24高二下·北京·期末)对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关
B.变量与负相关,与负相关
C.变量与正相关,与正相关
D.变量与正相关,与负相关
【答案】B
【分析】根据散点图直接判断可得出结论.
【详解】由散点图可知,变量与负相关,变量与正相关,所以,与负相关.
故选:B.
变式2-3.(多选)(23-24高三下·湖南长沙·阶段练习)某市7天国庆节假期期间的楼房日认购量(单位:套)与日成交量(单位:套)的折线图如下图所示,小明同学根据折线图对这7天的日认购量与日成交量作出如下判断,则下列结论正确的是( )
A.日认购量与日期正相关
B.日成交量的中位数是26
C.日成交量超过日平均成交量的有2天
D.10月7日日认购量的增量大于10月7日日成交量的增量
【答案】BD
【分析】根据正相关的定义结合图象即可判断A;根据中位数的定义结合图象即可判断B;根据图中数据进行计算即可求得平均数,即可判断C;根据图中数据进行计算即可判断D.
【详解】由题图可以看出,数据点并不是从左下至右上分布,所以错;
将成交量数据按大小顺序排列,中位数为26,所以对;
日平均成交量为,
超过42.7的只有一天,所以错;
10月7日认购量的增量为,
成交量的增量为,所以对,
故选:BD.
【方法技巧与总结】
1 如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;从散点图来看,点从左下角往右上角走.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关;从散点图来看,点从左上角往右下角走.
比如脂肪含量与年龄 , 子女的身高与父亲的身高正相关.
2 若回归直线方程的斜率为正,则两变量为正相关;斜率为负为负相关.
【题型三:相关系数的意义与计算】
例3.(2024高三·全国·专题练习)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】根据散点图判断相关变量的正负相关性及相关性强弱判断相关系数的大小即可.
【详解】由图知:(1)(3)变量呈正相关,且(1)的相关性比(3)要强,则,
(2)(4)变量呈负相关,且(2)的相关性比(4)要强,则,
所以.
故选:A
变式3-1.(24-25高三下·上海浦东新·阶段练习)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性 B.相关系数变大
C.相关系数变小 D.相关系数不变
【答案】C
【分析】根据散点图,可判断A选项,加入点后,回归效果变差,从而可判断B,C,D选项.
【详解】对于A,加入点后,变量与预报变量相关性变弱,但不能说不具有线性相关性,故A错误;
对于B,C,D,由于点远离其他点,故加上点后,回归效果会变差,
所以相应的样本相关系数的绝对值会变小,
根据题中散点图,显然,所以会变小,故C正确,B,D错误.
故选:C.
变式3-2.(24-25高三下·河南·开学考试)现有一组样本数据点,则该组样本数据点的相关系数( )
A. B. C. D.1
【答案】D
【分析】注意到样本数据点均在直线上,根据题意结合相关系数的意义分析判断即可.
【详解】根据题意可知:这些样本数据点均在直线上,故,
由直线的斜率为正,可知,所以.
故选:D.
变式3-3.(24-25高三上·全国·阶段练习)研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量x,y,z若x,y的样本相关系数为,y,z的样本相关系数为,则x、z的样本相关系数的最大值为( )
附:相关系数
A. B. C. D.1
【答案】B
【分析】利用相关系数公式,可看成两个维向量的夹角公式,从而把相关系系数问题转化为向量夹角问题,即可得解.
【详解】设,,,
则有,,,
由相关系数公式可知:,
设与夹角为,与夹角为,
由x,y的样本相关系数为,所以,,
由这两个夹角均为锐角且,所以与夹角的可能性是,
则与夹角余弦值的最大值为,此时x与z样本相关系数最大,
即,
故选:B.
【方法技巧与总结】
1 对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,则
我们称为变量和变量的样本相关系数.
2 当时,称成对数据正相关;当时,称成对数据负相关.
3 越接近于,两个变量的线性相关性越强;
接近于时,两个变量之间几乎不存在线性相关关系.
4 样本相关系数也可以推导得到
【题型四:一元线性回归模型的理解】
例4.(24-25高三下·天津·开学考试)已知变量之间的线性回归方程为,且变量之间的一组相关数据如表所示,
2
4
6
8
5
13
则下列说法正确的是( )
A.
B.变量与是负相关关系
C.增加1个单位,一定增加3个单位
D.该回归直线必过点
【答案】D
【分析】根据表格数据计算可得,再由样本中心点在回归直线上可得A错误,D正确,由回归方程的解析式可知变量与是正相关关系,且增量变化不为定值,可得BC错误.
【详解】对于A,易知,
又样本中心点在回归方程上,即,
所以,解得,即A错误;
对于B,由可知随着的增大而增大,因此变量与是正相关关系,即B错误;
对于C,由回归方程可知增加1个单位,的估计值增加3个单位左右,因此C错误;
对于D,回归方程必过样本中心点,即必过点,可得D正确.
故选:D
变式4-1.(2024高三·全国·专题练习)根据最小二乘法由一组样本点(其中,2,,300),求得的回归方程是,则下列说法正确的是( )
A.至少有一个样本点落在回归直线上
B.若所有样本点都在回归直线上,则变量间的相关系数为1
C.对所有的解释变量,的值一定与有误差
D.若回归直线的斜率,则变量x与y正相关
【答案】D
【分析】根据回归直线的性质判断ACD,根据相关系数的概念判断B.
【详解】回归直线必过样本数据中心点,但样本点可能全部不在回归直线上,故A错误;
所有样本点都在回归直线上,则变量间的相关系数为,故B错误;
若所有的样本点都在回归直线上,则的值与相等,故C错误;
相关系数r与符号相同,若回归直线的斜率,
则,样本点分布应从左到右是上升的,则变量x与y正相关,故D正确.
故选:D
变式4-2.(2025高三·全国·专题练习)研究表明,健康成年人的血清总胆固醇值(单位:)和年龄(单位:岁)之间满足经验回归方程,且年龄每增加一岁,血清总胆固醇值增加.某单位组织职工体检,随机抽取了六名职工的血清总胆固醇值如下:
年龄岁
25
32
35
41
51
56
血清总胆固醇值
3.01
3.21
3.58
4.68
5.03
5.33
若某个健康职工45岁,估计他的血清总胆固醇值为( )
A. B. C. D.
【答案】A
【分析】由经验回归方程经过样本点的中心可求得,则经验回归方程可求,再将带入可得答案.
【详解】由题知,故,
又,,
所以样本点的中心为,
将其坐标代入,解得,
于是经验回归方程为,
估计该职工的血清总胆固醇值为,
故选:A.
【方法技巧与总结】
1 线性回归直线经过定点.
2 线性回归直线方程,只能预测结果的近似值,不能确定.
【题型五:求回归方程】
例5.(24-25高三下·安徽·阶段练习)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
【答案】(1)答案见解析
(2);
(3)答案见解析
【分析】(1) 利用相关系数公式直接代入数据求解即可;
(2) 利用公式,先求一次项系数,再利用经过样本中心点,可求出,从而可得回归直线方程;
(3)利用一次项系数可解释会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际效果相当,说明具有参考价价.
【详解】(1)由表可知:
所以= ,
因为与的相关系数接近1,
所以与的线性相关程度很高,可用线性回归模型拟合与的关系.
(2)由题可知: =
,
所以
(3)由(2)可知:根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,
预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,
因此实际结果与预测结果基本一致,说明该回归模型具有参考价值;
造成一定差异的原因可能是由于样本数据过少,
或者造成体重减少的原因还受其他因素影响,
比如睡眠,饮食、锻炼强度以及效果等.
变式5-1.(24-25高二下·全国·课后作业)为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【答案】A
【分析】根据公式可求得结果.
【详解】由题可得,,
由,
,
所以所求经验回归方程为.
故选:A.
变式5-2.(24-25高二下·全国·课后作业)随着经济的发展某地居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份
2013
2014
2015
2016
2017
储蓄存款(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,,得到下表:
时间代号
1
2
3
4
5
0
1
2
3
5
(1)求关于的经验回归方程;
(2)通过(1)中的方程,求出关于的经验回归方程;
(3)用所求经验回归方程预测到2021年年底,该银行储蓄存款可达多少?
附:对于经验回归方程,其中,.
【答案】(1)
(2)
(3)14.4千亿元
【分析】(1)利用最小二乘法求出z关于t的线性回归方程;
(2)通过,代入,把z关于t的线性回归方程化成y关于x的回归方程;
(3)利用回归方程代入求值.
【详解】(1)设关于的线性回归方程为,
经计算得:,,
,
,
∴,,
∴;
(2)将,代入得:,
即;
(3)时,(千亿元),
预测到年年底,该银行储蓄存款额可达千亿元.
变式5-3.(24-25高三上·海南省直辖县级单位·期末)某市2015~2023年全体居民人均可支配收入(单位:元)如表所示,将其绘制成散点图(如图),发现全体居民人均可支配收入与年份具有线性相关关系.
年份
2015
2016
2017
2018
2019
2020
2021
2022
2023
全体居民人均可支配收入(单位:元)
18352
20110
22034
24153
26386
28920
30824
33803
35666
(1)设年份编号为(2015年的编号为1,2016年的编号为2,依此类推),记全体居民人均可支配收大为(单位:万元),求经验回归方程(结果精确到0.01),并根据所求回归方程,预测2025年该市全体居民人均可支配收入;
(2)为进一步对居民人均可支配收入的结构进行分析,某分析员从年中任取3年的数据进行分析,将选出的居民人均可支配收入超过3万的年数记为,求随机变量的分布列与数学期望.
参考数据:.
参考公式:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1),3.99万元.
(2)分布列见解析,1
【分析】(1)根据所给数据及公式求出,,即可求出回归方程,再代入计算可得;
(2)依题意可得的可能取值为,求出所对应的概率,即可得到分布列与数学期望.
【详解】(1)由题意得,
故,,
故经验回归方程为,
又2025年的年份编号为11,将,
得,即预测2025年该市全体居民人均可支配收入为3.99万元.
(2)由图表知,居民人均可支配收入超过3万的年份有3年,
故的可能取值为,
则,
故随机变量的分布列为:
0
1
2
3
故.
【方法技巧与总结】
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
【题型六:非线性模型转化为线性模型】
例6.(24-25高三上·广东中山·期中)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.该公司统计了七个部门测试的平均成绩(满分100分)与绩效等级优秀率,如下表所示:
32
41
54
68
74
80
92
0.28
0.34
0.44
0.58
0.66
0.74
0.94
根据数据绘制散点图,初步判断,选用作为回归方程.令,经计算得,
(1)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(2)根据统计分析,大致认为各部门测试平均成绩,其中近似为样本平均数,近似为样本方差.经计算,求某个部门绩效等级优秀率不低于的概率.
参考公式与数据:
①.
②线性回归方程中,,.
③若随机变量,则,,.
【答案】(1)
(2)
【分析】(1)根据题意,利用对数整理回归方程,结合题目中给定的公式和数据,可得答案;
(2)根据正态分布的相关概念,结合正太分布曲线的对称性,可得答案.
【详解】(1)依题意,两边取对数,得,
即,其中,
由提供的参考数据,可知,又,故,所以,
由提供的参考数据,可得,故,
当时,,即估计其绩效等级优秀率为;
(2)由(1)及提供的参考数据可知,,,
又,即,可得,即.
又,且,
由正态分布的性质,得,
记“绩效等级优秀率不低于”为事件,则,
所以绩效等级优秀率不低于的概率等于.
变式6-1.(23-24高三上·内蒙古呼和浩特·期末)用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.35 D.21
【答案】B
【分析】求出,即,得到答案.
【详解】由题意得,
故,
即,
故,解得.
故选:B
变式6-2.(2025·重庆·一模)某校数学建模兴趣小组收集了一组恒温动物体重 (单位: 克) 与心率(单位: 次/分钟)的对应数据. 根据生物学常识和散点图得出与近似满足 ( 为参数),令 ,计算得到. 由最小二乘法得到经验回归方程为 ,则的值为( )
A. B.0.4 C. D.0.2
【答案】A
【分析】根据回归直线方程必过样本中心点求出,即可求出.
【详解】因为,两边取对数可得,
又,
依题意回归直线方程必过样本中心点,
所以,解得,所以.
故选:A.
变式6-3.(2024高三·全国·专题练习)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
【答案】(1)
(2),38天
【分析】(1)先在散点图中找到不高于300台的样本点数,然后再找到不高于200台的样本点数,然后求概率即可;
(2)先,然后利用求回归直线的方式求解该方程中的参数,然后利用不等式求解即可.
【详解】(1)由散点图知,不高于300台的样本点有5个,其中高于200台的样本点有4个,
则在2个样本点的生产量都不高于300台的条件下,2个样本点都高于200台的概率为
(2)
则由回归直线方程系数求解公式知,
,
,
故.
,
所以需要38天呼吸机日生产量可超过500台.
变式6-4.(2025高三·全国·专题练习)近年来,随着人工智能技术的不断发展,各种AI应用也不断普及,ChatGPT就是一款具有人类沟通能力的智能AI工具.随着人工智能的加入,各类传媒、影视、游戏行业迎来了高速的发展,AI技术降低了这些行业的人力成本,提高了效率.某公司2016年—2023年的年投入资金(万元)与年收益(百万元)的数据如下表所示:
年份
2016
2017
2018
2019
2020
2021
2022
2023
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用(,均为常数)拟合年收益与年投入资金的关系,求出经验回归方程;
(2)为了促进公司发展,该公司决定在甲、乙两个部门之间进行一次信息化技术比赛,比赛规则如下:两个部门进行三轮答题比赛,每轮只出1道题目,比赛时两部门同时回答这道题,若一部门答对且另一部门答错,则答对的部门得10分,答错的部门得分,若两部门都答对或都答错,则两部门均得0分,累计得分为正者将获得奖品,且两部门答对与否互不影响,每次答题的结果也互不影响,甲部门答对每道题的概率为,乙部门答对每道题的概率为.
(ⅰ)记每一轮比赛中甲部门的得分为,求的分布列和数学期望;
(ⅱ)求三轮比赛后甲部门获得奖品的概率.
参考数据:,,,其中,.
参考公式:对于一组数据,,…,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
【答案】(1)
(2)(ⅰ)分布列见解析,;(ⅱ)
【分析】(1)对两边同时取自然对数得,令,利用最小二乘法可求得,由此可得经验回归方程;
(2)写出的可能取值,分别求出概率即可求出分布列及期望;记三轮比赛后甲部门可获得奖品的得分为,写出的可能取值,分别求出概率即可求解.
【详解】(1)因为,所以两边同时取自然对数,得,
设,所以,
又因为,,,
,
所以,
所以,即,
所以;
(2)(ⅰ)的可能取值为10,0,,
则,
,
,
所以的分布列为
10
0
所以;
(ⅱ)记三轮比赛后甲部门可获得奖品的得分为,则的可能取值为30,20,10,
则,
,
,
所以三轮比赛后甲部门获得奖品的概率为.
【方法技巧与总结】
非线性模型往往可以通过变量的转化变成为线性模型处理.
【题型七:独立性检验的应用】
例7.(24-25高三下·江苏扬州·阶段练习)近几年,技术加持的智能手机(以下简称为手机)逐渐成为市场新宠.为了解顾客的购买意愿,某手机商城随机调查了位顾客购买手机的情况,得到数据如下表:
购买手机
购买不带的手机
总计
男性顾客
女性顾客
总计
(1)依据小概率值的独立性检验,能否认为购买手机与顾客的性别有关?
(2)为提升手机的销量,该手机商城针对购买手机的顾客设置了抽奖环节,抽奖规则如下:
①共设一、二等奖两种奖项,分别奖励元、元手机话费,抽中一、二等奖的概率分别为、,其余情况不获奖金;
②每位顾客允许连续抽奖两次,且两次抽奖相互独立,记某购买手机的顾客两次所获得奖金之和为元,求的分布列和数学期望.
参考公式:,.
【答案】(1)有关
(2)分布列见解析,
【分析】(1)利用表格中的数据求出的观测值,结合临界值表可得结论;
(2)由题意可知,随机变量可能取值为、、、、,计算出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得随机变量的期望值.
【详解】(1),
所以,依据小概率值的独立性检验,可以认为购买AI手机与顾客的性别有关.
(2)根据题意,随机变量可能取值为:、、、、,
,,
,,
,
所以,随机变量的分布列为
所以,随机变量的期望.
变式7-1.(23-24高二下·天津滨海新·阶段练习)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是(参考数据:)( )
①若的观测值满足,我们有99%的把握认为吸烟与患肺病有关系;
②若的观测值满足,那么在100个吸烟的人中约有99人患有肺病;
③从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病;
④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误.
A.②③ B.②③④ C.①②④ D.①④
【答案】D
【分析】由给出的数据,结合观测值的意义判定即可.
【详解】若的观测值满足,则我们有的把握认为吸烟与患肺病有关系,
而得知有的把握认为吸烟与患肺病有关系时,仍有的可能性使推断出现错误,
但不能说明个吸烟的人中约有人患有肺病,
也不能说明每个吸烟的人有的可能性会患肺病.
故①④正确、②③错误.
故选:D
变式7-2.(山东省菏泽市2025届高三下学期一模考试数学试题)在春节联欢晚会上进行了机器人团体舞蹈表演,某机构随机抽取了100名观众进行问卷调查,得到了如下数据:
喜欢
不喜欢
男性
40
10
女性
20
30
(1)依据的独立性检验,试分析对机器人表演节目的喜欢是否与性别有关联?
(2)从这100名样本观众中任选1名,设事件“选到的观众是男性”,事件“选到的观众喜欢机器人团体舞蹈表演节目”,比较和的大小,并解释其意义.
,.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)与性别有关联
(2),意义见解析
【分析】(1)提出零假设,并求出,与表中数据对比即可下结论;
(2)根据条件概率的计算公式求解即可.
【详解】(1)零假设对机器人表演节目的喜欢与性别无关.
根据列联表中的数据得,
依据的独立性检验,可以推断不成立,即对机器人表演节目的喜欢与性别有关联.
(2)依题意得,, , 则
意义:该样本中男性对机器人团体舞蹈表演节目喜欢的概率比女性对机器人团体舞蹈表演节目喜欢概率大;
或者男性对机器人团体舞蹈表演节目喜欢的人数比女性对机器人团体舞蹈表演节目喜欢多等等
变式7-3.(24-25高三下·山东德州·开学考试)向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展.以人工智能的应用为例,人工智能中的文生视频模型(以下简称),能够根据用户的文本提示创建最长秒的逼真视频.为调查的应用是否会对视频从业人员的数量产生影响,某学校研究小组随机抽取了名视频从业人员进行调查,结果如下表所示.
Sora的应用情况
视频从业人员
合计
减少
未减少
应用
没有应用
合计
(1)根据所给数据完成题中表格,并判断是否有的把握认为的应用与视频从业人员的减少有关?
(2)某公司视频部现有员工人,公司拟开展培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用.
(i)求员工经过培训能应用的概率;
(ii)已知开展培训前,员工每人每年平均为公司创造利润万元;开展培训后,能应用的员工每人每年平均为公司创造利润万元;培训平均每人每年成本为万元.根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后对剩余员工开展培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?
附:,其中.
【答案】(1)表格见解析,有的把握认为的应用与视频从业人员的减少有关
(2)(i);(ii)人
【分析】(1)分析数据关系,完善列联表,提出零假设,计算,比较其与临界值大小,判断结论;
(2)(i)设“员工第轮获得优秀”, “员工经过培训能应用”,则,结合互斥事件概率加法公式,独立事件概率乘法公式求结论;
(ii)设视频部调人至其他部门,为培训后视频部能应用的人数,则,由条件列不等式可求结论.
【详解】(1)依题意,列联表如下:
Sora的应用情况
视频从业人员
合计
减少
未减少
应用
没有应用
合计
零假设为:的应用与视频从业人员的减少独立,的应用前后视频从业人员无差异,
由列联表中数据得,.
根据小概率值的的独立性检验,推断不成立,
所以有的把握认为的应用与视频从业人员的减少有关;
(2)(i)设“员工第轮获得优秀”,且相互独立.
设“员工经过培训能应用”,则
故员工经过培训能应用的概率是.
(ii)设视频部调人至其他部门,为培训后视频部能应用的人数,
则,因此,
调整后视频部的年利润为
(万元),
令,解得,又,所以.
因此,视频部最多可以调人到其他部门.
【方法技巧与总结】
的计算公式
若要推断的论述为“有关系”,则的值越大,说明“与有关系”成立的可能性越大.
一、单选题
1.(19-20高二上·河北石家庄·开学考试)在下列各散点图中,两个变量具有正相关关系的是( )
A. B.
C. D.
【答案】B
【分析】根据散点图中两个变量的变化趋势直接判断即可.
【详解】对于A,散点的变化具有波动性,非正相关关系,A错误;
对于B,当变大时,的变化趋势也是逐渐增大,可知两个变量具有正相关关系,B正确;
对于C,当变大时,的变化趋势是逐渐减小,可知两个变量具有负相关关系,C错误;
对于D,两个变量的变化无规律,二者没有相关性,D错误.
故选:B.
2.(23-24高二下·重庆·期末)已知变量与正相关,变量与满足,则下列说法正确的是( )
A.与正相关,与正相关 B.与正相关,与负相关
C.与负相关,与正相关 D.与负相关,与负相关
【答案】D
【分析】根据关系式可直接判断.
【详解】因为,所以与负相关,
又因为变量与正相关,所以与负相关.
故选:D.
3.(24-25高二·全国·假期作业)某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
【答案】C
【分析】根据散点图和相关系数的概念得到,,进而得到答案.
【详解】由题图可知,所对应的图中的散点呈现正相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
,所对应的图中的散点呈现负相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
因此.
故选:C.
4.(2025·上海·模拟预测)在研究“温度是否影响庄稼生长”时,对实验数据利用2×2列联表进行独立性检验,计算得实验数据的统计量的值为.已知,则( )
A.的值小于3.841,就有95%的把握认为“温度会影响庄稼生长”
B.的值大于3.841,就有95%的把握认为“温度会影响庄稼生长”
C.的值越大,说明实验数据的观测值与预测值的总体偏差越小
D.的值越小,说明实验数据的观测值与预测值的总体偏差越大
【答案】B
【分析】根据独立性检验判断各个选项即可.
【详解】因为,则的值大于3.841,
就有95%的把握认为“温度会影响庄稼生长”,A选项错误,B选项正确;
的值的大小不能说明实验数据的观测值与预测值的总体偏差,C,D选项错误.
故选:B.
5. (24-25高三上·云南普洱·阶段练习)近日我国相关企业研究表明,随着锂离子电池充放电循环次数的增加,电池内阻增大,可用容量和能量衰减,削弱了电动汽车的续航里程.相关科研团队利用数学建模的方法构建理离子电池充放电循环次数单位:百次与锂离子电池性能指数的回归模型,通过实验得到部分数据如下表:
充放电循环次数x
3
4
5
6
电池性能指数y
91
88
82
79
由上表中的数据求得回归方程为,则计算可得( )(参考公式及数据:,)
A. B. C. D.
【答案】D
【分析】由是意,结合公式,利用最小二乘法,可得答案.
【详解】由,,
且,,
故
故选:D.
6.(23-24高二上·江苏常州·期末)用最小二乘法得到一组数据的线性回归方程为,若,则( )
A.11 B.13 C.63 D.78
【答案】D
【分析】根据线性回归方程为一定过点,先求出,代入回归方程即可得出,进而可得的值.
【详解】依题意,
因为,所以,
因为线性回归方程为一定过点,
所以,
所以.
故选:D.
7.(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月)
1
2
3
4
5
销售量y(万件)
1
1.6
2.0
a
3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
【答案】A
【分析】根据给定数据,结合回归直线的特性逐项判断即得.
【详解】依题意,,
而y与x的回归直线方程为:,则,
解得,,表中数据的样本中心点为,BC正确;
由,得y和x成正相关,D正确;
2024年1月份,即,由回归直线方程,得,
因此2024年1月份该地区的销售量约为6.8万件,A错误.
故选:A
8.(2025·陕西汉中·二模)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
【答案】B
【分析】利用线性回归方程计算判断ABD;求出第60百分位数判断C.
【详解】对于A,由,得与成正相关,样本相关系数,A错误;
对于B,,,则,B正确;
对于C,,因此第60百分位数为,C错误;
对于D,由选项B知,,当时,,
则当年所需要支出的维修费用约为12.38万元,D错误.
故选:B
二、多选题
9.(24-25高三上·福建福州·阶段练习)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分.从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.
月份代码x
1
2
3
4
5
碳酸锂价格y
0.5
0.8
1
1.2
1.5
若y关于x的回归直线方程为,则下列说法中正确的有( )
A.y与x的样本相关系数
B.
C.回归直线方程经过点
D.由回归直线方程可预测6月份的碳酸锂价格约为1.72
【答案】BCD
【分析】根据样本相关系数和回归直线方程的计算公式,逐项计算可得正确答案.
【详解】由题意可得,
,,
,
,
则与的样本相关系数,故A错误;
由关于的回归直线方程为且回归直线恒过样本点的中心,
则有,解得,故B正确,C正确;
由回归直线方程可预测6月份的碳酸锂价格约为,故D正确.
故选:BCD.
10.(24-25高三上·河北廊坊·期末)下列关于概率统计说法中正确的是( )
A.数据1,2,3,4,5,6,8,9,11的第 75 百分位数是 7
B.由两个分类变量 的成对样本数据计算得到 ,依据 的独立性检验 ,可判断 独立
C.经验回归方程 相对于点的残差为
D.若一组样本数据 的对应样本点都在直线 上,则这组样本数据的相关系数为
【答案】BCD
【分析】根据百分位数的计算即可求解A,根据卡方值与临界值的比较即可求解B,根据残差的计算公式即可求解C,根据相关系数的性质即可求解D.
【详解】对于A, 由于,故数据1,2,3,4,5,6,8,9,11的第 75 百分位数是第7个数据8,故A错误,
对于B,由于,故依据 的独立性检验 ,可判断 独立,B正确,
对于C,残差为,故C正确,
对于D,由于样本点都在直线 上,则说明是负相关,
故这组样本数据的相关系数为 ,D正确,
故选:BCD
11.(2025高三·全国·专题练习)[多选]自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,这些都将导致大气压发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到海拔6千米一15千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为,决定系数为;根据非线性回归模型得到经验回归方程为,决定系数为,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低
C.由方程可知,样本点(11,22.6)的残差为
D.对比两个回归模型,结合实际情况,方程的预报效果更好
【答案】ACD
【分析】根据散点图即可得出A项;根据回归方程的含义可判断B项;根据残差计算公式求出残差,可判断C项;根据实际大气压强不能为负,可判断D项.
【详解】对于A项,由图象知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A项正确;
对于B项,回归直线得到的数据为估计值,而非精确值,故B项错误;
对于C项,当时,,又由散点图知观测值为22.6,所以样本点的残差为,故C项正确;
对于D项,随着海拔高度的增加,大气压强越来越小,但不可能为负数,又,因此方程的预报效果更好,故D项正确.
故选:ACD
三、填空题
12.(24-25高二上·广西梧州·期末)由数据可得关于的线性回归方程为,若,则 .
【答案】32
【分析】根据线性回归方程过求解即可.
【详解】依题意,,由,得,解得,所以.
故答案为:32
13.(2024高三·全国·专题练习)下列说法中,正确的有 (填序号).
①回归直线恒过点,且至少过一个样本点;
②根据列联表中的数据计算得出,而,则在犯错误的概率不超过0.01的前提下认为两个分类变量有关系;
③是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两类变量不相关;
④某项测量结果服从正态分布,则,则.
【答案】②④
【分析】根据回归直线恒过点,但不一定过样本点得到判断①,根据独立性检验判断②和③,由正态分布概率的计算判断④.
【详解】对于①,回归直线恒过点,但不一定过样本点,故①错误;
对于②,因独立性检验是选取一个零假设条件下的小概率事件,故②正确;
对于③,当的值很小时推断两类变量相关的把握小,但不能说无关,故③错误;
对于④,因为服从正态分布,且,所以与关于直线对称,
由可得,,则,故④正确. 故答案为:②④.
14.(23-24高二下·河南·期中)已知变量y关于x的回归方程为,若对两边取自然对数,可以发现与x线性相关,现有一组数据如下表所示:
x
1
2
3
4
5
y
则当时,预测y的值为 .
【答案】
【分析】取对数后分别计算,代入线性回归方程,求出,最后计算时的结果即可.
【详解】对两边取对数,得,令,则.
x
1
2
3
4
5
y
z
1
3
4
6
7
,,
代入得故.
故,.
当时,.
故答案为:.
四、解答题
15.(24-25高二下·全国·课后作业)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示:
城市编号
1
2
3
4
5
指标
4
6
2
8
5
指标
4
4
3
5
4
指标
3
6
2
5
4
利用向量夹角来分析与之间及与之间的相关关系.
【答案】答案见解析
【分析】根据坐标运算得出向量,再结合夹角公式求出夹角余弦,进而判断相关性解正负相关.
【详解】由已知得,,
,
将题表中x,y,z的相关数据分别减去,
记,,
.
则,,.
于是
,
,
所以与,与正相关,又,则与之间的相关性比与之间的相关性强.
16. (2025高三·全国·专题练习)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院,进行了小规模的调查,结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如表:
无疲乏症状
有疲乏症状
总计
未使用新药
150
25
t
使用新药
x
y
100
总计
225
m
275
(1)求列联表中的数据的值,判断有疲乏症状与使用该新药是否有关?
(2)从使用该新药的100人中按是否有疲乏症状,采用分层随机抽样的方法抽出4人,再从这4人中随机抽取2人做进一步调查,求这2人中恰有1人有疲乏症状的概率.
附:.
【答案】(1),有关.
(2).
【分析】(1)由数表可求,求得卡方值,比较临界值即可判断;
(2)由分层抽样确定有疲乏症状的人数为1,无疲乏症状的有3人,再通过列举得到基本事件,由古典概型概率公式即可求解;
【详解】(1)由数表知,,
所以,
根据列联表中的数据,经计算得到 ,
即有的把握认为有疲乏症状与使用该新药有关.
(2)从使用新药的100人中用分层随机抽样抽取4人的抽样比为,则抽取有疲乏症状的人数为,无疲乏症状的有3人,
抽取的有疲乏症状的1人记为1,无疲乏症状的3人记为,
从4人中随机抽取2人的所有样本点为,共6个,它们等可能,
记2人中恰有1人有疲乏症状的事件为M,它所含样本点是,共3个,
于是得,
所以这2人中恰有1人有疲乏症状的概率是.
17. (24-25高三上·重庆·期中)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为2019年-2023年我国在线直播生活购物用户规模(单位:亿人),其中2019年-2023年对应的代码依次为1-5.
年份代码
1
2
3
4
5
市场规模
3.98
4.56
5.04
5.86
6.36
参考数据:,其中.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计2027年我国在线直播生活购物用户的规模(结果精确到0.01);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率为,现从我国在线直播购物用户中随机抽取5人,记这5人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
【答案】(1)7.77亿人
(2),
【分析】(1)设,则,由最小二乘法求出参数得到回归直线方程,再将代入回归直线方程可得结果;
(2)先由求出,根据二项分布的期望和方差公式计算即可.
【详解】(1)设,则,因为,
所以.
把代入,得.
所以关于的回归方程为,
由题意知2027年对应的代码为9,所以2027年我国在线直播生活购物用户的规模
亿人.
(2)由题意知,,
,
由,得,
,.
18.(24-25高二上·四川眉山·期中)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
(3)0.3
【分析】(1)分别求得模型①和②的相关系数,,然后比较得出结论;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以,
可得在上为增函数,在上为减函数,
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为0.3.
19. (24-25高三上·广西·阶段练习)现有抽球游戏规则如下:盒子中初始装有白球和黑球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止游戏;否则,在盒子中再放入一个黑球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.
(1)某人进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止游戏,记其进行抽球游戏的轮数为随机变量,求的分布列和数学期望;
(2)有数学爱好者统计了1000名玩家进行该抽球游戏的数据,记表示成功时抽球游戏的轮数,表示对应的人数,部分统计数据如下:
1
2
3
4
5
232
94
57
44
23
经计算发现,非线性回归模型的拟合效果优于线性回归模型,求出关于的非线性回归方程;
(3)证明:(其中且).
附:回归方程系数:,
参考数据:设,,,,,,.
【答案】(1)分布列见解析,
(2)
(3)证明见解析
【分析】(1)写出的可能取值,求出各取值的概率,写出分布列和数学期望;
(2)令,先根据题中数据求出换元后的线性回归方程,再利用换元得出关于的非线性回归方程;
(3)将所证不等式与第(1)问分布列的概率特点结合,根据对立事件概率特点求得结果.
【详解】(1)由题知,的取值可能为1,2,3.
所以,
,
,
所以的分布列为:
1
2
3
所以数学期望为.
(2)令,则,
由题知:
所以.
所以,,
故所求的回归方程为:.
(3)由题知,当且时,在前轮内(包括第轮)成功的概率为
.
在前轮内(包括第轮)均没有成功的概率为
.
.
故.
原创精品资源学科网独家享有版权,侵权必究!12
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$