内容正文:
人教A版(2019)高二数学下学期·期末大串讲
专题05 第八章 成对数据的统计分析(4考点&8题型)
人教A版2019
01
02
04
03
目
录
易错易混
题型剖析
考点透视
押题预测
考点透视
考点透视
考点透视
考点透视
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
题型剖析
易错易混
押题预测
押题预测
押题预测
押题预测
押题预测
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
又变量与负相关,所以变量与负相关.
故选:A
【考点题型一】判断正负相关
【例1】(24-25高二下·全国·课后作业)已知变量和满足关系,变量与负相关,下列结论正确的是( )
A.与正相关,与负相关 B.与正相关,与正相关
C.与负相关,与负相关 D.与负相关,与正相关
【答案】A
【详解】因为变量和满足关系,且,所以变量与正相关.
【考点题型二】样本相关系数的计算
【例2】(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
【详解】(1)由题可知,;
,
故;
因为与的相关系数的绝对值近似为,大于且非常接近,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
(2)因为,
所以.
故答案为:.
【考点题型三】样本相关指数计算
【例3】(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
【详解】
,
故答案为:.
【考点题型四】残差有关计算
【例4】(2024·云南楚雄·一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
【详解】经验回归直线过样本点的中心,,,
经验回归方程为.当时,,残差为.
【详解】(1)由题可得.
,
.
则,.
则回归方程为:.
【考点题型五】一元线性回归模型
当液体肥料每亩使用量为12千克时,
豆角亩产量的增加量为(百千克);
【例5】(24-25高三下·陕西咸阳·阶段练习)注重劳动教育是中国特色社会主义教育制度的重要内容,直接决定社会主义建设者和接班人的劳动精神面貌、劳动价值取向和劳动技能水平某市开辟特色劳动教育基地,指导学生种植豆角,某同学针对豆角亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克),之间的关系”进行研究,得出了与具有线性相关关系的结论.现从劳动基地的豆角试验田中随机抽取5亩,其亩产增加量与该肥料每亩使用量关系如下表:
某种液体肥料每亩使用量(千克)
2
3
4
5
6
豆角亩产量的增加量(百千克)
4
5
5
7
9
(1)求豆角亩产量的增加量对该液体肥料每亩使用量的线性回归方程,预测该液体肥料每亩使用量为12千克时,豆角亩产量的增加量为多少百千克?
据此可得分布列如下:
0
1
2
则期望为:.
(2)若豆角亩产量的增加量不低于6百千克的试验田称为“优质试验田”,现从抽取的5亩试验田随机选出3亩,记其中优质试验田的数量为,求的分布列和数学期望.
参考公式:,.
(2)由题可知“优质试验田”有两亩,则取值可能为0,1,2,
则,,
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,所以适宜作为y与x之间的回归方程模型.
令,则,
则,
【考点题型六】非线性回归模型
所以,所以y关于x的回归方程为.
【例6】(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
【详解】(1)根据题意得如下2×2列联表:
男生
女生
合计
基本技能优秀
60
30
90
基本技能良好
60
50
110
合计
120
80
200
零假设:该校学生的基本技能与性别无关联.
,
依据小概率值的独立性检验,我们推断不成立,
【考点题型七】独立性检验的基本思想
即认为该校学生的基本技能与性别有关联,此推断犯错误的概率不大于0.1.
【例7】(24-25高三上·湖南娄底·期末)为激发学生注重学科核心素养的培养,某校数学教研组开展数学基本技能比赛,比赛采用自主报名参赛方式,全校共有200名学生自主报名参赛,统计参赛成绩,参赛学生所得分数的分组区间为,,,得到如下的频数统计表:
分数区间性别
男生/名
15
45
60
女生/名
25
25
30
(1)若学生得分不低于90分,则认为基本技能优秀,得分低于90分,则认为基本技能良好,依据小概率值的独立性检验,分析该校学生的基本技能与性别是否有关?
故,
,
,
故X的分布列如下,
X
0
1
2
P
.
(2)为进一步调研男生和女生在基本技能上的差异,在参加数学基本技能比赛的200名学生中,按性别比例分层抽样的方式随机抽取5名学生进行问卷调研,然后再从这5名学生中随机抽取3名学生进行座谈调研,记取出的3人中女生的人数为X,求X的分布列和数学期望.
(2)由题意知,随机抽取进行问卷调查的5名学生中,女生2名,男生3名,
所以随机变量的可能取值有0,1,2,
则不患病的小白鼠有只,又未服药小白鼠的比例为,
所以未服药小白鼠有,从而完善列联表,如下表:
药物
流感
合计
未患病
患病
未服用
20
20
40
服用
35
25
60
合计
55
45
100
零假设为:该药物对预防流感无关联.
因为,显然,
【考点题型八】独立性检验解决实际问题
根据小概率值的独立性检验,推断成立,
没有充分证据表明该药物对预防流感有效.
【例8】(重庆市沙坪坝区部分学校2024-2025学年高三下学期5月模拟数学试题)为考察某种药物预防和治疗流感的效果,某药物研究所用100只小白鼠进行了分组试验,该分组试验分两个阶段:第一阶段为5天的观察预防期,第二阶段为10天的观察治疗期.第一阶段结束时,统计数据如下:患病小白鼠的比例为,未服药小白鼠的比例为,未服药且未患病的小白鼠有20只.
(1)完成下面列联表,并依据小概率值的独立性检验,推断该药物对预防流感是否有效.
【详解】(1)因为患病小白鼠的比例为,所以患病小白鼠有只,
所以的分布列为:
0
1
2
所以的数学期望为.
(2)第一阶段结束时,若在患病的小白鼠中随机抽取2只,用表示服药的只数,求的分布列和数学期望.
(2)由题意X的所有可能取值为,
则,,
,
未服药未患病的小白鼠中有15%患病,那么未服药未患病后患病的小白鼠的数量为,
所以第二阶段结束后患病的小白鼠的总数量为,
所以从这100只小白鼠中任选1只,患病的概率为
设表示选出的5只小白鼠中患病的只数,则,
“至少有2只患病”的对立事件为“0只患病”或“1只患病”,
所以.
(3)第二阶段结束时,针对第一阶段结束时的服药且患病的小白鼠中有16%被治愈,未服药患病的小白鼠中有5%自愈,服药未患病的小白鼠中有20%患病,未服药未患病的小白鼠中有15%患病.用频率估计概率,试验结束后,从这100只小白鼠中任选1只,检测是否患病后放回,若该操作进行5次,求选出的5只小白鼠中至少有2只患病的概率.
(3)第二阶段结束后,服药且患病的小白鼠中有16%被治愈,
那么服药且患病后仍患病的小白鼠的数量为,
未服药患病的小白鼠中有5%自愈,
那么未服药患病后仍患病的小白鼠的数量为,
服药未患病的小白鼠中有20%患病,那么服药未患病后患病的小白鼠的数量为,
当时,,
因此,第三个样本点对应的残差为.
故答案为:.
3.(2025·江西新余·模拟预测)某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
研发费用x
3.4
4.7
5
5.6
6.3
销售量y
15
16.9
19.2
18
20.9
根据表中数据可得经验回归方程为,则第三个样本点对应的残差为 .
【答案】1.2
【详解】由已知,得,,
所以,于是,
所以,则,
所以时,有,故残差为,
故选:B.
1.(云南省玉溪市、保山市2025届高三下学期复习教学质量检测数学试题)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【详解】由题设,则,
增加数据后,,,且回归直线为,
代入方程得,,解得,因此
由两边取对数,得.
又,所以,,即.
故选:D
2.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【答案】D
【详解】由表格中数据得,
,
对于C,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,C正确;
对于D,因为分布是单调递增的累积分布函数,所以,
所以,D正确;
3.(24-25高二下·辽宁·期中)统计学中,常用的显著性水平以及对应的分位数如下表所示.
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.若,则在犯错误的概率不超过的前提下认为与有关
B.若,则在犯错误的概率不超过的前提下认为与无关
C.若,则有的把握认为与有关
D.若,,则
【答案】ACD
【详解】对于A,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,A正确;
对于B,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,B错误;
,
所以,
又,
故关于的线性回归方程为.
4.(24-25高二下·甘肃甘南·期末)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
【详解】(1)由题意可知:
,
,
(2)由(1)可得,当年份为2025年时,年份代码为,此时.
所以可预测2025年该地区该农产品的年产量约为万吨.
$$