内容正文:
清单09 第八章 成对数据统计分析
(4个考点梳理+8题型解读+提升训练)
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【考点题型一】判断正负相关()
【例1】(24-25高二下·全国·课后作业)已知变量和满足关系,变量与负相关,下列结论正确的是( )
A.与正相关,与负相关 B.与正相关,与正相关
C.与负相关,与负相关 D.与负相关,与正相关
【变式1-1】.(24-25高二上·广西桂林·期末)根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【变式1-2】.(24-25高二下·全国·课后作业)为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【变式1-3】.(多选)(2026高三·全国·专题练习)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得经验回归方程,分别得到以下四个结论,其中一定错误的是( )
A.y与x负相关且
B.y与x负相关且
C.y与x正相关且
D.y与x正相关且
【考点题型二】样本相关系数的计算()
【例2】(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【变式2-1】.(2025·上海奉贤·二模)通过随机抽样,获得某种商品消费者年需求量与该商品每千克价格之间的一组数据调查,如下表所示:
价格(百元)
4
4
4.6
5
5.2
5.6
6
6.6
7
10
需求量(千克)
3.5
3
2.7
2.4
2.5
2
1.5
1.2
1.2
1
那么线性相关系数 .(精确到)线性相关系数公式
【变式2-2】.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【变式2-3】.(24-25高二·全国·课堂例题)为了对2020年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
68
72
78
81
85
88
91
93
物理成绩
70
66
81
83
79
80
92
89
用变量与的样本相关系数(精确到0.01)说明物理成绩与数学成绩的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:,.
【考点题型三】样本相关指数计算()
【例3】(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
【变式3-1】.(23-24高二下·河北石家庄·期末)已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
【变式3-2】.(23-24高二下·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【变式3-3】.(23-24高三上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.
x
141
152
168
182
195
204
223
254
277
y
23.1
24.2
27.2
27.8
28.7
31.4
32.5
34.8
36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?
(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.
附:相关系数,决定系数,.
【变式3-4】.(23-24高二下·山东聊城·阶段练习)今年刚过去的4月份是“全国消费促进月”,各地拼起了特色经济”,带动消费复苏、市场回暖.“小饼烤炉加蘸料,灵魂烧烤三件套”,最近,淄博烧烤在社交媒体火爆出圈,吸引全国各地的游客坐着高铁,直奔烧烤店,而多家店铺的营业额也在近一个月内实现了成倍增长.因此某烧烤店老板考虑投入更多的人工成本,现有以往的服务人员增量x(单位:人)与年收益增量y单位:万元)的数据如下:
服务人员增量x/人
2
3
4
6
8
10
13
年收益增量y/万元
13
22
31
42
50
56
58
据此,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得与的一元线性经验回归方程为;
模型②:由散点图(如图)的样本点分布,可以认为样本点集中在曲线的附近.
对数据进行初步处理后,得到了一些统计的量的值:,,,,其中,
(1)根据所给的统计量,求模型②中关于的经验回归方程(精确到0.1);
(2)根据下列表格中的数据,比较两种模型的决定系数,并选择拟合精度更高的模型,预测服务人员增加25人时的年收益增量.
回归模型
模型①
模型②
回归方程
182.4
79.2
附:样本的最小二乘估计公式为,,刻画样本回归效果的决定系数
【考点题型四】残差有关计算()
【例4】(2024·云南楚雄·一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
【变式4-1】.(2024·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【变式4-2】.(23-24高二下·河南新乡·阶段练习)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为( )
A.0 B. C.1 D.2
【变式4-3】.(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出与销售额(单位:万元)之间有下表关系:
2
4
5
6
8
30
40
60
50
70
与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
A. B. C.20 D.10
【变式4-4】.(2026高三·全国·专题练习)某学校女高中生的体重y(kg)关于身高x(cm)的经验回归方程是,则此方程在样本点处的残差是 .
【考点题型五】一元线性回归模型()
【例5】(24-25高三下·陕西咸阳·阶段练习)注重劳动教育是中国特色社会主义教育制度的重要内容,直接决定社会主义建设者和接班人的劳动精神面貌、劳动价值取向和劳动技能水平某市开辟特色劳动教育基地,指导学生种植豆角,某同学针对豆角亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克),之间的关系”进行研究,得出了与具有线性相关关系的结论.现从劳动基地的豆角试验田中随机抽取5亩,其亩产增加量与该肥料每亩使用量关系如下表:
某种液体肥料每亩使用量(千克)
2
3
4
5
6
豆角亩产量的增加量(百千克)
4
5
5
7
9
(1)求豆角亩产量的增加量对该液体肥料每亩使用量的线性回归方程,预测该液体肥料每亩使用量为12千克时,豆角亩产量的增加量为多少百千克?
(2)若豆角亩产量的增加量不低于6百千克的试验田称为“优质试验田”,现从抽取的5亩试验田随机选出3亩,记其中优质试验田的数量为,求的分布列和数学期望.
参考公式:,.
【变式5-1】.(24-25高三上·山东青岛·期末)现将近几日某地区门锁销售的数量进行统计,得到如下表格:
第x天
1
2
3
4
5
6
7
数量y
200
260
280
350
420
440
500
(1)若y与x线性相关,求出y关于x的经验回归方程,并预测第10天该地区门锁的销售数量;(参考公式和数据:)
(2)某人手里有三把钥匙,其中只有一把可以打开门锁,他现在无法分清哪一把能够打.记X为他有放回的进行开锁时的开锁次数,Y为他无放回的进行开锁时的开锁次数.求的概率.
【变式5-2】.(24-25高三上·河北邯郸·阶段练习)人工智能(Artificial Intelligence),英文缩写为AI,是新一轮科技革命和产业变革的重要驱动力量.近几年,AI技术加持的智能手机(以下简称为AI手机)逐渐成为市场新宠.A市某手机大卖场统计了2024年前5个月该卖场AI手机月销量y(单位:万部)与月份t之间的关系,得到如下数据:
月份t
1
2
3
4
5
月销量y(单位:万部)
2.89
3.22
3.82
4.34
5.41
(1)根据上述数据可知y与t线性相关,试求出y关于t的经验回归方程,并预测该卖场2024年12月份AI手机的月销量;
(2)为刺激消费,A市出台了以下补贴政策:凡购买AI手机者,每人发放600元购机补贴.若A市甲、乙两市民近期购买AI手机的概率分别为,,其中,求该市对甲、乙两人补贴总金额的期望值的取值范围.
参考公式:经验回归方程为,其中,.
参考数据:,.
【变式5-3】.(24-25高三上·江苏常州·期中)某研究性学习小组为研究两个变量x和y之间的关系,测量了对应的五组数据如下表:
2
3
4
5
6
4
7
12
13
14
(1)求y关于x的经验回归方程;
(2)请估计时,对应的y值.
附:在经验回归方程中,,其中为样本平均值.
【变式5-4】.(2023·陕西榆林·一模)为了研究美国人用餐消费与小费支出的关系,随机抽取了7位用餐顾客进行调查,得样本数据如下:
消费(单元:美元)
32
40
50
86
63
100
133
小费(单位:美元)
5
6
7
9
8
9
12
相关公式:,.
参考数据:,.
(1)求小费(单位:美元)关于消费(单位:美元)的线性回归方程(其中的值精确到0.001);
(2)试用(1)中的回归方程估计当消费200美元时,要付多少美元的小费(结果精确到整数)?
【考点题型六】非线性回归模型()
【例6】(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【变式6-1】.(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【变式6-2】.(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【变式6-3】.(2026高三·全国·专题练习)经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.5
1360
44
384
—
3
588
32
6430
—
表中.
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型并求出y关于x的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.
附:对于一组数据,其经验回归直线方程的斜率和截距的最小二乘估计分别为.
【考点题型七】独立性检验的基本思想()
【例7】(24-25高三上·湖南娄底·期末)为激发学生注重学科核心素养的培养,某校数学教研组开展数学基本技能比赛,比赛采用自主报名参赛方式,全校共有200名学生自主报名参赛,统计参赛成绩,参赛学生所得分数的分组区间为,,,得到如下的频数统计表:
分数区间性别
男生/名
15
45
60
女生/名
25
25
30
(1)若学生得分不低于90分,则认为基本技能优秀,得分低于90分,则认为基本技能良好,依据小概率值的独立性检验,分析该校学生的基本技能与性别是否有关?
(2)为进一步调研男生和女生在基本技能上的差异,在参加数学基本技能比赛的200名学生中,按性别比例分层抽样的方式随机抽取5名学生进行问卷调研,然后再从这5名学生中随机抽取3名学生进行座谈调研,记取出的3人中女生的人数为X,求X的分布列和数学期望.
附:
α
0.10
0.05
0.010
2.706
3.841
6.635
,.
【变式7-1】.(24-25高二下·天津·期中)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由计算得: 参照附表,则下列结论正确的是( )
A.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过
C.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过的前提下,我们认为爱好跳绳与性别无关
【变式7-2】.(多选)(24-25高二下·全国·单元测试)下列关于的说法正确的是( )
A.根据列联表中的数据计算得出,则有的把握认为两个分类变量有关系
B.越大,认为两个分类变量有关系的把握性就越大
C.是用来判断两个分类变量有关系的可信程度的随机变量
D.,其中为样本容量
【变式7-3】.(2025高三·全国·专题练习)为不断提高人民群众的身体健康水平,提升生活的幸福感,我国医药制造业的工作者不断探索与创新.某医药公司针对某种疾病研发出两种药物——药和药,为了比较这两种药物的治疗效果,该公司招募了名志愿患者,随机选择一半志愿患者服用药,另一半志愿患者服用药,得到这两种药物的治疗效果情况如表所示:
治愈人数
未治愈人数
合计
服用药
服用药
合计
(1)补全列联表,并根据小概率值的独立性检验,分析药的治疗效果是否比药好;
(2)以样本估计总体,以频率估计概率,从患有该疾病的患者中随机抽取名服用药,名服用药,求服用药的治愈人数比服用药的治愈人数多的概率.
参考公式:,.
参考数据:
【变式7-4】.(2025·山东·模拟预测)某市推行垃圾分类后,环保部门对居民分类准确率进行抽样调查.已知该市有甲,乙两个人口数量相等的社区,甲社区开展过多次分类培训,乙社区未开展.现从甲社区随机抽取100人,乙社区随机抽取150人,统计正确分类人数如下:甲社区:80人正确分类;乙社区:90人正确分类.假设各社区中每位居民的分类行为相互独立,用频率估计概率.
(1)若从甲社区中任选3人,求恰好2人正确分类的概率;
(2)依据小概率值的独立性检验,分析两个社区居民对垃圾分类的准确率是否有差异?
(3)环保部门从两社区抽取居民的样本中,对不能正确分类的样本,按照分层抽样抽取8人,再从这8人中选择3人进行深度访谈.设X为3人中来自甲社区的人数,求X的分布列及数学期望.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【考点题型八】独立性检验解决实际问题()
【例8】(重庆市沙坪坝区部分学校2024-2025学年高三下学期5月模拟数学试题)为考察某种药物预防和治疗流感的效果,某药物研究所用100只小白鼠进行了分组试验,该分组试验分两个阶段:第一阶段为5天的观察预防期,第二阶段为10天的观察治疗期.第一阶段结束时,统计数据如下:患病小白鼠的比例为,未服药小白鼠的比例为,未服药且未患病的小白鼠有20只.
(1)完成下面列联表,并依据小概率值的独立性检验,推断该药物对预防流感是否有效.
药物
流感
合计
未患病
患病
未服用
服用
合计
(2)第一阶段结束时,若在患病的小白鼠中随机抽取2只,用表示服药的只数,求的分布列和数学期望.
(3)第二阶段结束时,针对第一阶段结束时的服药且患病的小白鼠中有16%被治愈,未服药患病的小白鼠中有5%自愈,服药未患病的小白鼠中有20%患病,未服药未患病的小白鼠中有15%患病.用频率估计概率,试验结束后,从这100只小白鼠中任选1只,检测是否患病后放回,若该操作进行5次,求选出的5只小白鼠中至少有2只患病的概率.
附:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
【变式8-1】.(2025·山西临汾·三模)“政府送温暖,老人有饭吃”.近年来,我国各级政府重视提高老年人的生活质量.在医疗、餐饮等多方面,为老人提供了方便.单从用餐方面,各社区创建了“幸福大食堂”、“爱心午餐”、“老人食堂”等不同名称的食堂,解决了老人的吃饭问题.据统计“幸福大食堂”2025年1月份共为1600名老人提供了午餐服务,其中好评有1200位老人,其余均为非好评.为了提升菜品品质,该食堂更换了厨师,更换厨师后该食堂2025年2月份为4000名老人提供了午餐服务,其中好评有3200位老人,其余均为非好评.
好评
非好评
合计
更换厨师前
更换厨师后
合计
(1)完成上面:列联表,并依据小概率值的的独立性检验,判断该食堂的好评率是否与更换厨师有关联;
(2)现从更换厨师前的评价中,用比例分配的分层抽样方法做抽样调查,拟从好评和非好评两层中抽取8位老人,再从这8位老人中随机抽取3位,记抽取的3位老人中好评的人数为X,求X的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【变式8-2】.(2025·甘肃甘南·模拟预测)某新能源汽车公司对其销售的、两款汽车的售后服务向消费者进行满意度调查,从购买这两款汽车的消费者中各随机抽取了名,调查结果统计如下表:
满意程度
汽车款式
合计
款
款
满意
不满意
合计
(1)补全列联表,并根据小概率值的独立性检验,能否认为消费者对A、B两款汽车的售后服务的满意度有差异?
(2)用频率估计概率,现从购买、款汽车的消费者中随机抽取人,表示这名消费者中对款汽车的售后服务持满意态度的人数,求的分布列和数学期望.
附:,.
【变式8-3】.(2025·重庆·三模)随机询问80名不同职业的人在购买食品时是否看营养说明,得到如下调查结果:
职业
买食品时是否看营养说明
合计
不看营养说明
看营养说明
从事与医疗相关行业
12
28
40
从事与医疗无关行业
18
22
40
合计
30
50
80
(1)从这80名受访者中随机抽出1人,已知此人在购买食品时要看营养说明,求这名受访者从事与医疗无关行业的概率;
(2)依据小概率的独立性检验,能否推断两个群体在购买食品时是否看营养说明存在差异?
参考公式:
独立性检验中常用小概率值和相应临界值:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式8-4】.(24-25高二下·山东青岛·期中)为了解某地初中学生阅读时长与学业成绩的关系,从该地区初中学生中随机抽取部分学生,得到日均阅读时长与学业成绩的数据如下表所示:
时间(小时)成绩
优秀
4
44
42
3
2
不优秀
134
142
140
40
24
(1)从样本中学业成绩优秀且阅读时间在区的学生当中随机抽取3名学生进行调查,X表示3名学生中阅读时长在人数,求X的分布列和期望;
(2)根据小概率值的独立性检验,分析学业成绩优秀与日均阅读时长不小于1小时且小于2小时是否有关?(运算结果四舍五入保留到小数点后两位小数)
(附:,其中,
提升训练
一、单选题
1.(24-25高二下·辽宁沈阳·阶段练习)某种植基地统计出花卉种植面积y与年份x的数据如下:
x
1
2
3
4
5
y
5
7
9
10
14
根据上表数据得到y关于x的线性回归方程为,则第6年的花卉种植面积约为( )
A.17 B.16 C. D.15
2.(24-25高二下·辽宁沈阳·期中)某公司为了增加某商品的销售利润,调查了该商品投入的广告费用x(万元)与销售利润y(万元)的统计数据如下表,由表中数据,得线性回归直线l:,则下列结论正确的是( )附:,
广告费用x(万元)
2
3
5
6
7销售利润y(万元)
5
7
9
11
A.直线l过点 B.直线l过点
C. D.变量y和x呈负相关
3.(云南省玉溪市、保山市2025届高三下学期复习教学质量检测数学试题)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
4.(24-25高二下·内蒙古巴彦淖尔·期中)某学校在一次调查“篮球迷”的活动中,获得了如下数据:以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
P
0.10
0.05
0.01
k
2.706
3.841
6.635
A.有90%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.01的前提下,可以认为是否是篮球迷与性别有关
5.(24-25高二下·天津滨海新·期中)下列说法中,正确的个数是( )
①若随机变量X服从正态分布,且,则;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强.
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05.
⑤决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好.
A.1 B.2 C.3 D.4
6.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
7.(2025·天津河东·二模)2024年12月26日,Deep Seek—V3首个版本正式上线,截至2025年2月9日,Deep Seek APP的累计下载量已超1.1亿次,AI成为当下的热门话题.立德中学高中数学社团以16至40岁人群使用Deep Seek频率为课题,分小组自主选题进行调查研究,下列说法正确的是( )
A.甲小组开展了Deep Seek每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到Deep Seek每周使用频次y关于年龄x的经验回归方程为,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响Deep Seek使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的Deep Seek使用频次没有差异
8.(2025·辽宁·模拟预测)某医疗研究机构为了解某种地方性疾病与当地居民的生活习惯(生活习惯分良好和不够良好)的关系,现从该地区随机抽取名居民,统计数据如下:
生活习惯
合计
良好
不够良好
患有该疾病居民
0.6n
1.4n
2n
未患有该疾病居民
1.2n
0.8n
2n
合计
1.8n
2.2n
4n
若根据小概率值的独立性检验,分析发现居民是否患有该疾病与生活习惯有关联,则从该地区抽取居民人数至少为( )
附:,.
A.60 B.76 C.80 D.100
二、多选题
9.(2025·四川攀枝花·三模)小张同学对具有线性相关的两个变量x和y进行了统计分析,得到了右表,其中一些数据丢失,只记得这组数据拟合出的y关于x的经验回归方程为,若成等差数列,则( )
x
4
6
8
10
12
y
a
2
b
c
6
A.变量x与y的样本相关系数 B.
C.当时,残差为 D.当时,y的预测值为
10.(24-25高二下·辽宁·期中)统计学中,常用的显著性水平以及对应的分位数如下表所示.
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.若,则在犯错误的概率不超过的前提下认为与有关
B.若,则在犯错误的概率不超过的前提下认为与无关
C.若,则有的把握认为与有关
D.若,,则
三、填空题
11.(24-25高二下·天津·期中)已知的取值如表所示,从散点图分析可知与线性相关,如果线性回归方程为,那么表格中数据的值为 .
0
1
2
4
4.3
4.8
6.7
12.(2025·上海长宁·二模)为了研究吸烟习惯与慢性气管炎患病的关系,某疾病预防中心对相关调查数据进行了研究,假设:患慢性气管炎与吸烟没有关系,并通过计算得到统计量,则可推断 原假设.(填“拒绝”或“接受”,规定显著性水平.)
四、解答题
13.(24-25高二下·辽宁沈阳·阶段练习)为研究学生数学成绩与物理成绩的关系,从高二年级抽取50名学生,某同学已经整理好数学成绩与物理成绩的样本数据,并计算出.现丢失了后两列数据,为补全数据,不妨设数学优秀物理不优秀的人数为m,得下表:
物理优秀
物理不优秀
合计
数学优秀
15
m
数学不优秀
10
合计
25
25
50
(1)求m;
(2)人工智能中常用表示在事件A发生的条件下事件B发生的优势.从高二年级随机抽取1人,记“选到的学生数学优秀”为事件A,“选到的学生物理优秀”为事件B,利用样本数据估计的值;
(3)用分层抽样的方法从数学优秀的样本中抽取8人组成数学兴趣小组,再从8人中抽取3人参加数学竞赛,求这3人中物理优秀的人数X的概率分布.
参考公式:.
14.(24-25高二下·甘肃甘南·期末)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
15.(2025·四川攀枝花·三模)一家调查机构在某地随机抽查800名成年居民对新能源车与燃油车的购买倾向,得到如下列联表:
倾向于购买新能源车
倾向于购买燃油车
合计
女性居民
80
男性居民
400
合计
800
已知从这800名居民中随机抽取1人,这个人倾向于购买燃油车的概率为0.8
(1)完成列联表;
(2)依据小概率值的独立性检验,分析对新能源车与燃油车的购买倾向是否存在性别差异;
(3)从上述倾向于购买燃油车的居民中用分层随机抽样的方法抽取8人,再从这8人中抽取3人调查其倾向于购买燃油车的原因,用表示3人中女性居民的人数,求的分布列及数学期望.
附:,
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
16.(2025·黑龙江哈尔滨·三模)某学校校庆时统计连续天进入学校参加活动的校友数(单位:千人)如下:
日期
月日
月日
月日
月日
月日
第天
参观人数
(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数加以说明(保留小数点后两位);(若,则认为与的线性相关性很强),并求出关于的线性回归方程;
(2)校庆期间学校开放号门、号门和号门供校友出入,校友从号门、号门和号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与入校不同两门的概率各为.假设校友从号门、号门、号门出入学校互不影响,现有甲、乙、丙、丁名校友于月日回母校参加活动,设为人中从号门出学校的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
17.(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
3 / 3
学科网(北京)股份有限公司
$$
清单09 第八章 成对数据统计分析
(4个考点梳理+8题型解读+提升训练)
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【考点题型一】判断正负相关()
【例1】(24-25高二下·全国·课后作业)已知变量和满足关系,变量与负相关,下列结论正确的是( )
A.与正相关,与负相关 B.与正相关,与正相关
C.与负相关,与负相关 D.与负相关,与正相关
【答案】A
【知识点】判断正、负相关
【分析】根据线性方程易知变量与正相关,再结合已知判断变量与的相关性,即可得答案.
【详解】因为变量和满足关系,且,所以变量与正相关.
又变量与负相关,所以变量与负相关.
故选:A
【变式1-1】.(24-25高二上·广西桂林·期末)根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【答案】D
【知识点】判断正、负相关
【分析】由正、负相关的概念得解.
【详解】由所给数据可知,当增大时减小,和呈负相关;当增大时和增大,和呈正相关.
故选:D
【变式1-2】.(24-25高二下·全国·课后作业)为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【答案】B
【知识点】判断正、负相关
【分析】由正、负相关的概念即可判断.
【详解】由题中数据可知,y随x的增大而增大,且不成比例关系,故y与x正相关.
故选:B
【变式1-3】.(多选)(2026高三·全国·专题练习)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得经验回归方程,分别得到以下四个结论,其中一定错误的是( )
A.y与x负相关且
B.y与x负相关且
C.y与x正相关且
D.y与x正相关且
【答案】AD
【知识点】判断正、负相关
【分析】由负相关、正相关的概念逐个判断即可;
【详解】对于A:由可知y与x正相关,错误;
对于B:由可知y与x负相关,正确;
对于C:由可知y与x正相关,正确;
对于D:由可知y与x负相关,错误;
故选:AD
【考点题型二】样本相关系数的计算()
【例2】(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【答案】(1),
(2),可以用线性回归模型拟合与之间的关系,理由见解析
【知识点】计算几个数的平均数、相关系数的计算、相关系数的意义及辨析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解,再根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)因为,
,
故;
因为与的相关系数的绝对值近似为,大于且非常接近,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
【变式2-1】.(2025·上海奉贤·二模)通过随机抽样,获得某种商品消费者年需求量与该商品每千克价格之间的一组数据调查,如下表所示:
价格(百元)
4
4
4.6
5
5.2
5.6
6
6.6
7
10
需求量(千克)
3.5
3
2.7
2.4
2.5
2
1.5
1.2
1.2
1
那么线性相关系数 .(精确到)线性相关系数公式
【答案】
【知识点】相关系数的计算
【分析】利用相关系数公式计算即可.
【详解】由题意可得,
,
所以
,
,
所以.
故答案为:.
【变式2-2】.(2025·河南·一模)某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【答案】(1)13;11
(2)
(3)可以用线性回归模型拟合与之间的关系,理由见解析
【知识点】计算几个数的平均数、相关系数的计算、相关系数的意义及辨析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解;
(3)根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)计算得,
故;
(3)由(2)可知,与的相关系数的绝对值近似为0.992,大于0.75且非常接近1,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
【变式2-3】.(24-25高二·全国·课堂例题)为了对2020年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
68
72
78
81
85
88
91
93
物理成绩
70
66
81
83
79
80
92
89
用变量与的样本相关系数(精确到0.01)说明物理成绩与数学成绩的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:,.
【答案】答案见解析
【知识点】相关系数的意义及辨析、相关系数的计算
【分析】分别计算出、,然后求出相关系数说明物理与数学的相关程度.
【详解】因为:,
,
所以.
所以,由样本估计总体,可知物理成绩与数学成绩的线性相关程度较强,且呈正相关,它们的变化趋势相同.
【考点题型三】样本相关指数计算()
【例3】(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
【答案】
【知识点】相关指数的计算及分析
【分析】由所给参考数据求出,即可求出决定系数.
【详解】
,
所以.
故答案为:.
【变式3-1】.(23-24高二下·河北石家庄·期末)已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
【答案】D
【知识点】相关指数的计算及分析
【分析】由恒为0,可得,再结合公式可求.
【详解】由恒为0,知恒成立,即恒成立,
故.
故选:D.
【变式3-2】.(23-24高二下·广东广州·期末)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【知识点】相关指数的计算及分析、非线性回归
【分析】将两边同时取对数可得,结合所给经验回归方程求出,由所给参考数据求出,即可求出决定系数.
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
【变式3-3】.(23-24高三上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.
x
141
152
168
182
195
204
223
254
277
y
23.1
24.2
27.2
27.8
28.7
31.4
32.5
34.8
36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?
(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.
附:相关系数,决定系数,.
【答案】(1),答案见解析
(2)(ⅰ)0;(ⅱ)0.9847
【知识点】相关系数的意义及辨析、相关系数的计算、残差的计算、相关指数的计算及分析
【分析】(1)根据相关系数的计算公式即可求解,由相关系数的定义结合统计学知识即可求解,
(2)根据残差公式以及决定系数的计算公式即可求解.
【详解】(1)不妨设选择的成对数据分别为,,则
.又由表格数据得,当时,,则.
因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.
样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推新变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠.
(2)(ⅰ)(直线经过数据的中心).
(ⅱ)∵,∴,
则,
越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好,为最优模型.
【变式3-4】.(23-24高二下·山东聊城·阶段练习)今年刚过去的4月份是“全国消费促进月”,各地拼起了特色经济”,带动消费复苏、市场回暖.“小饼烤炉加蘸料,灵魂烧烤三件套”,最近,淄博烧烤在社交媒体火爆出圈,吸引全国各地的游客坐着高铁,直奔烧烤店,而多家店铺的营业额也在近一个月内实现了成倍增长.因此某烧烤店老板考虑投入更多的人工成本,现有以往的服务人员增量x(单位:人)与年收益增量y单位:万元)的数据如下:
服务人员增量x/人
2
3
4
6
8
10
13
年收益增量y/万元
13
22
31
42
50
56
58
据此,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得与的一元线性经验回归方程为;
模型②:由散点图(如图)的样本点分布,可以认为样本点集中在曲线的附近.
对数据进行初步处理后,得到了一些统计的量的值:,,,,其中,
(1)根据所给的统计量,求模型②中关于的经验回归方程(精确到0.1);
(2)根据下列表格中的数据,比较两种模型的决定系数,并选择拟合精度更高的模型,预测服务人员增加25人时的年收益增量.
回归模型
模型①
模型②
回归方程
182.4
79.2
附:样本的最小二乘估计公式为,,刻画样本回归效果的决定系数
【答案】(1)=21.3-14.4
(2)模型①的R2小于模型②,说明回归模型②刻画的拟合效果更好,92.1万元.
【知识点】相关指数的计算及分析、非线性回归
【分析】(1)令,则,然后根据表中的数据和公式可求出模型②中y关于x的经验回归方程;
(2)由表中的数据和样本回归效果的决定系数可判断回归模型②刻画的拟合效果更好,再根据模型②的回归方程可预测服务人员增加25人时的年收益增量.
【详解】(1)令,则. 由参考数据得
==38.9-21.32×2.5≈-14.4,
所以,模型②中y关于x的经验回归方程为=21.3-14.4.
(2)由表格中的数据,有182.4>79.2,即,
模型①的小于模型②,说明回归模型②刻画的拟合效果更好
当x=25时,模型②的收益增量的预测值为=21.3×-14.4=21.3×5-14.4=92.1(万元).
所以预测服务人员增加25人时的年收益增量为92.1万元.
【考点题型四】残差有关计算()
【例4】(2024·云南楚雄·一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
【答案】/
【知识点】残差的计算、根据样本中心点求参数
【分析】利用样本中心在其经验回归方程为上,求出,再计算当时的残差即可.
【详解】经验回归直线过样本点的中心,,,
经验回归方程为.当时,,残差为.
故答案为:.
【变式4-1】.(2024·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【答案】C
【知识点】残差的计算
【分析】对于响应变量,通过观测得到的数据为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.
【详解】因为观测值减去预测值称为残差,
所以当时,,
所以残差为.
故选:C.
【变式4-2】.(23-24高二下·河南新乡·阶段练习)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为( )
A.0 B. C.1 D.2
【答案】B
【知识点】残差的计算、根据样本中心点求参数、求回归直线方程
【分析】由回归方程求出,再求出新样本的平均数,,从而求出回归直线方程,再求出预测值,即可得到残差.
【详解】将代入,,
去除两个样本点和后,所以,,,
故去除样本点和后的回归直线方程为.
当时,,则样本的残差为.
故选:B
【变式4-3】.(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出与销售额(单位:万元)之间有下表关系:
2
4
5
6
8
30
40
60
50
70
与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
A. B. C.20 D.10
【答案】D
【知识点】残差的计算
【分析】随机误差的效应(残差)为观测值减去预测值
【详解】当广告支出5万元时,观测值为,预测值为,则随机误差的效应(残差)为.
故选:D.
【变式4-4】.(2026高三·全国·专题练习)某学校女高中生的体重y(kg)关于身高x(cm)的经验回归方程是,则此方程在样本点处的残差是 .
【答案】
【知识点】残差的计算
【分析】利用回归直线方程,求出时的估计值,然后求解残差.
【详解】由题意得,
当时,,
此方程在样本点处的残差为.
故答案为:
【考点题型五】一元线性回归模型()
【例5】(24-25高三下·陕西咸阳·阶段练习)注重劳动教育是中国特色社会主义教育制度的重要内容,直接决定社会主义建设者和接班人的劳动精神面貌、劳动价值取向和劳动技能水平某市开辟特色劳动教育基地,指导学生种植豆角,某同学针对豆角亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克),之间的关系”进行研究,得出了与具有线性相关关系的结论.现从劳动基地的豆角试验田中随机抽取5亩,其亩产增加量与该肥料每亩使用量关系如下表:
某种液体肥料每亩使用量(千克)
2
3
4
5
6
豆角亩产量的增加量(百千克)
4
5
5
7
9
(1)求豆角亩产量的增加量对该液体肥料每亩使用量的线性回归方程,预测该液体肥料每亩使用量为12千克时,豆角亩产量的增加量为多少百千克?
(2)若豆角亩产量的增加量不低于6百千克的试验田称为“优质试验田”,现从抽取的5亩试验田随机选出3亩,记其中优质试验田的数量为,求的分布列和数学期望.
参考公式:,.
【答案】(1);(百千克);
(2)分布列见解析;
【知识点】求回归直线方程、写出简单离散型随机变量分布列、求离散型随机变量的均值、根据回归方程进行数据估计
【分析】(1)由参考公式可得线性回归方程,然后可预测豆角亩产量的增加量;
(2)由题可得“优质试验田”有两亩,则取值可能为0,1,2,据此可能分布列并可求出期望.
【详解】(1)由题可得.
,
.
则,.
则回归方程为:.
当液体肥料每亩使用量为12千克时,
豆角亩产量的增加量为(百千克);
(2)由题可知“优质试验田”有两亩,则取值可能为0,1,2,
则,,.
据此可得分布列如下:
0
1
2
则期望为:.
【变式5-1】.(24-25高三上·山东青岛·期末)现将近几日某地区门锁销售的数量进行统计,得到如下表格:
第x天
1
2
3
4
5
6
7
数量y
200
260
280
350
420
440
500
(1)若y与x线性相关,求出y关于x的经验回归方程,并预测第10天该地区门锁的销售数量;(参考公式和数据:)
(2)某人手里有三把钥匙,其中只有一把可以打开门锁,他现在无法分清哪一把能够打.记X为他有放回的进行开锁时的开锁次数,Y为他无放回的进行开锁时的开锁次数.求的概率.
【答案】(1),;
(2)
【知识点】用回归直线方程对总体进行估计、求回归直线方程、有放回与无放回问题的概率
【分析】(1)利用表中数据先求出平均数,再代入公式计算可求得,得出回归方程后进而可预测结果;
(2)分别判断出有放回和无放回的分布模型,再分情况讨论即可计算出概率.
【详解】(1)依题意可得;
又,
所以,
可知,
所以经验回归方程为,
将代入该方程可得预测第10天该地区门锁的销售数量为;
(2)有放回时,随机变量对应的概率为;
无放回时,随机变量对应的概率为;
若,则有以下情况:
当时,,此时概率为;
当时,或,此时概率为;
因此可得的概率为.
【变式5-2】.(24-25高三上·河北邯郸·阶段练习)人工智能(Artificial Intelligence),英文缩写为AI,是新一轮科技革命和产业变革的重要驱动力量.近几年,AI技术加持的智能手机(以下简称为AI手机)逐渐成为市场新宠.A市某手机大卖场统计了2024年前5个月该卖场AI手机月销量y(单位:万部)与月份t之间的关系,得到如下数据:
月份t
1
2
3
4
5
月销量y(单位:万部)
2.89
3.22
3.82
4.34
5.41
(1)根据上述数据可知y与t线性相关,试求出y关于t的经验回归方程,并预测该卖场2024年12月份AI手机的月销量;
(2)为刺激消费,A市出台了以下补贴政策:凡购买AI手机者,每人发放600元购机补贴.若A市甲、乙两市民近期购买AI手机的概率分别为,,其中,求该市对甲、乙两人补贴总金额的期望值的取值范围.
参考公式:经验回归方程为,其中,.
参考数据:,.
【答案】(1),9.48万部
(2).
【知识点】用回归直线方程对总体进行估计、求离散型随机变量的均值
【分析】(1)根据表中数据以及参考公式计算可得回归方程,代入即可预测12月份AI手机的月销量;
(2)易知X的所有可能取值为0,1,2,分别求得其对应概率即可得出期望值的表达式,再由即可得出结论.
【详解】(1)由题意得,,,
所以,
则,
所以y关于t的经验回归方程为.
故可预测该手机大卖场2024年12月份AI手机的月销量为(万部).
(2)设甲、乙两人中选择购买AI手机的人数为X,
则X的所有可能取值为0,1,2,
,
,
,
所以,
所以,又,
所以,
故A市对甲、乙两人购买AI手机的补贴总金额期望值的取值范围为.
【变式5-3】.(24-25高三上·江苏常州·期中)某研究性学习小组为研究两个变量x和y之间的关系,测量了对应的五组数据如下表:
2
3
4
5
6
4
7
12
13
14
(1)求y关于x的经验回归方程;
(2)请估计时,对应的y值.
附:在经验回归方程中,,其中为样本平均值.
【答案】(1)
(2)
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据回归方程的求法求得正确答案.
(2)利用回归方程求得预测值.
【详解】(1),
,
,所以回归方程为.
(2)时,.
【变式5-4】.(2023·陕西榆林·一模)为了研究美国人用餐消费与小费支出的关系,随机抽取了7位用餐顾客进行调查,得样本数据如下:
消费(单元:美元)
32
40
50
86
63
100
133
小费(单位:美元)
5
6
7
9
8
9
12
相关公式:,.
参考数据:,.
(1)求小费(单位:美元)关于消费(单位:美元)的线性回归方程(其中的值精确到0.001);
(2)试用(1)中的回归方程估计当消费200美元时,要付多少美元的小费(结果精确到整数)?
【答案】(1)
(2)
【知识点】用回归直线方程对总体进行估计、求回归直线方程
【分析】(1)根据表中数据,计算、,求出、,写出回归方程;
(2)用(1)中的回归方程,计算时的值.
【详解】(1)依题意可得,
,
,
;
,
,
关于的线性回归方程为;
(2)由(1)可得当时,;
估计消费200美元时,要付美元的小费.
【考点题型六】非线性回归模型()
【例6】(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1)
(2)
【知识点】非线性回归、利用全概率公式求概率
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)设相应事件,可得相应概率,结合全概率公式计算概率运算求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,
所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
【变式6-1】.(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【答案】(1)
(2),
(3)指数函数模型拟合效果更好.
【知识点】求回归直线方程、非线性回归、残差的计算
【分析】(1)方法一:设关于的回归直线方程为,由条件求,,,,再由公式求,,由此可得结论;
方法二:由条件可得,,结合关于的回归直线方程为,可求结论;
(2)由条件可得,设,,,则,利用公式求,由此可得结论;
(3)结合(1),(2)分别求当时,两个回归方程对应的残差,比较残差的大小判断结论.
【详解】(1)方法一:设关于的回归直线方程为,
由已知,,
,
,
所以,
,
所以关于的回归直线方程为,
方法二:因为关于的回归直线方程为,
因为,,
所以,,
则,
所以关于的回归直线方程为,
(2)若用指数型函数模型拟合与的关系,则有,
设,,,
则,
,
,
所以,
所以,
所以关于的回归方程为,
(3)由(1)关于的回归直线方程为,
所以时,,
残差为,
由(2)关于的指数函数模型的回归方程为,
所以时,,
残差为,
因为,所以指数函数模型拟合效果更好.
【变式6-2】.(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【答案】(1)适宜作为投放量与年使用人次的回归方程类型,
(2)列联表见解析,认为是否报废与保养有关
【知识点】求回归直线方程、非线性回归、完善列联表、独立性检验解决实际问题
【分析】(1)由散点图可知,应选指数函数模型,根据已知条件两边同时取对数,转化为关于与的一次函数模型,结合参考数据即可求解;
(2)根据题意完成列联表,利用独立性检验公式,计算的值可判断.
【详解】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
6
14
20
未报废
54
26
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
【变式6-3】.(2026高三·全国·专题练习)经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.5
1360
44
384
—
3
588
32
6430
—
表中.
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型并求出y关于x的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.
附:对于一组数据,其经验回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1)适合,
(2)分布列见解析,
【知识点】非线性回归、求离散型随机变量的均值、利用全概率公式求概率
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而运用期望公式可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的所有可能取值为0,1,2,
设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,由全概率公式
,
,
.
所以取出“死卵”个数的分布列为
0
1
2
P
所以.
所以取出“死卵”个数的均值为.
【考点题型七】独立性检验的基本思想()
【例7】(24-25高三上·湖南娄底·期末)为激发学生注重学科核心素养的培养,某校数学教研组开展数学基本技能比赛,比赛采用自主报名参赛方式,全校共有200名学生自主报名参赛,统计参赛成绩,参赛学生所得分数的分组区间为,,,得到如下的频数统计表:
分数区间性别
男生/名
15
45
60
女生/名
25
25
30
(1)若学生得分不低于90分,则认为基本技能优秀,得分低于90分,则认为基本技能良好,依据小概率值的独立性检验,分析该校学生的基本技能与性别是否有关?
(2)为进一步调研男生和女生在基本技能上的差异,在参加数学基本技能比赛的200名学生中,按性别比例分层抽样的方式随机抽取5名学生进行问卷调研,然后再从这5名学生中随机抽取3名学生进行座谈调研,记取出的3人中女生的人数为X,求X的分布列和数学期望.
附:
α
0.10
0.05
0.010
2.706
3.841
6.635
,.
【答案】(1)认为该校学生的基本技能与性别有关联
(2)分布列见解析,
【知识点】独立性检验的基本思想、写出简单离散型随机变量分布列、超几何分布的均值
【分析】(1)由题设完善列联表,应用卡方公式求卡方值,根据独立检验的基本思想得结论;
(2)由题意的可能取值有0,1,2,进而求其分布列并求期望值.
【详解】(1)根据题意得如下2×2列联表:
男生
女生
合计
基本技能优秀
60
30
90
基本技能良好
60
50
110
合计
120
80
200
零假设:该校学生的基本技能与性别无关联.
,
依据小概率值的独立性检验,我们推断不成立,
即认为该校学生的基本技能与性别有关联,此推断犯错误的概率不大于0.1.
(2)由题意知,随机抽取进行问卷调查的5名学生中,女生2名,男生3名,
所以随机变量的可能取值有0,1,2,
故,
,
,
故X的分布列如下,
X
0
1
2
P
.
【变式7-1】.(24-25高二下·天津·期中)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表,并由计算得: 参照附表,则下列结论正确的是( )
A.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
B.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过
C.根据小概率值的独立性检验,我们认为爱好跳绳与性别无关
D.在犯错误的概率不超过的前提下,我们认为爱好跳绳与性别无关
【答案】A
【知识点】独立性检验的基本思想、独立性检验解决实际问题
【分析】根据独立性检验的原理逐项判断可得答案.
【详解】零假设为:爱好跳绳与性别无关.
A.∵,
∴根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为爱好跳绳与性别无关.选项A正确.
B. ∵,
∴根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为爱好跳绳与性别无关,但无法判断这个结论犯错误的概率是否超过.选项B错误.
C.∵,
∴根据小概率值的独立性检验,我们认为爱好跳绳与性别有关.选项C错误.
D. ∵,
∴在犯错误的概率不超过的前提下,我们认为爱好跳绳与性别有关.选项D错误.
故选:A.
【变式7-2】.(多选)(24-25高二下·全国·单元测试)下列关于的说法正确的是( )
A.根据列联表中的数据计算得出,则有的把握认为两个分类变量有关系
B.越大,认为两个分类变量有关系的把握性就越大
C.是用来判断两个分类变量有关系的可信程度的随机变量
D.,其中为样本容量
【答案】ABC
【知识点】独立性检验的概念及辨析、独立性检验的基本思想、独立性检验解决实际问题
【分析】根据独立性检验概念及公式分别判断各个选项.
【详解】根据列联表中的数据计算得出,则有的把握认为两个分类变量有关系,A选项正确;
越大,认为两个分类变量有关系的把握性就越大,B选项正确;
是用来判断两个分类变量有关系的可信程度的随机变量,C选项正确;
公式中分子应该是,D选项错误.
故选:ABC.
【变式7-3】.(2025高三·全国·专题练习)为不断提高人民群众的身体健康水平,提升生活的幸福感,我国医药制造业的工作者不断探索与创新.某医药公司针对某种疾病研发出两种药物——药和药,为了比较这两种药物的治疗效果,该公司招募了名志愿患者,随机选择一半志愿患者服用药,另一半志愿患者服用药,得到这两种药物的治疗效果情况如表所示:
治愈人数
未治愈人数
合计
服用药
服用药
合计
(1)补全列联表,并根据小概率值的独立性检验,分析药的治疗效果是否比药好;
(2)以样本估计总体,以频率估计概率,从患有该疾病的患者中随机抽取名服用药,名服用药,求服用药的治愈人数比服用药的治愈人数多的概率.
参考公式:,.
参考数据:
【答案】(1)列联表见解析,两种药物的治疗效果没有差异.
(2)
【知识点】完善列联表、独立性检验的基本思想、独立事件的乘法公式、独立重复试验的概率问题
【分析】(1)根据已知数据可直接补全列联表;计算可得,由独立性检验基本思想可得结论;
(2)根据独立重复试验概率公式可求得,根据独立事件概率乘法公式可求得结果.
【详解】(1)由已知数据可补全列联表如下:
治愈人数
未治愈人数
合计
服用药
服用药
合计
零假设:是否治愈与服用药、药相互独立,即两种药物的治疗效果没有差异.
,
根据小概率值的独立性检验,没有充分的证据推断不成立,因此可以认为成立,即认为两种药物的治疗效果没有差异.
(2)由题可得:服用药且治愈的概率为,服用药且治愈的概率为,
设名服用药的患者中有名治愈为事件,名服用药的患者中有名治愈为事件,
则,;,;
则服用药的治愈人数比服用药的治愈人数多的概率为:
.
【变式7-4】.(2025·山东·模拟预测)某市推行垃圾分类后,环保部门对居民分类准确率进行抽样调查.已知该市有甲,乙两个人口数量相等的社区,甲社区开展过多次分类培训,乙社区未开展.现从甲社区随机抽取100人,乙社区随机抽取150人,统计正确分类人数如下:甲社区:80人正确分类;乙社区:90人正确分类.假设各社区中每位居民的分类行为相互独立,用频率估计概率.
(1)若从甲社区中任选3人,求恰好2人正确分类的概率;
(2)依据小概率值的独立性检验,分析两个社区居民对垃圾分类的准确率是否有差异?
(3)环保部门从两社区抽取居民的样本中,对不能正确分类的样本,按照分层抽样抽取8人,再从这8人中选择3人进行深度访谈.设X为3人中来自甲社区的人数,求X的分布列及数学期望.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【答案】(1)
(2)答案见解析
(3)
【知识点】独立性检验的基本思想、独立事件的乘法公式、超几何分布的均值、超几何分布的分布列
【分析】(1)根据二项分布计算甲社区人中恰好人正确分类的概率即可.
(2)利用独立性检验判断两个社区居民对垃圾分类的准确率是否有差异,再通过列联表计算统计量进行独立性检验以解决.
(3)利用超几何分布求概率,再列出分布列,求数学期望即可.
【详解】(1)已知甲社区正确分类概率的估计值,则恰好人正确分类的概率.
(2)提出零假设:两个社区居民对垃圾分类的准确率没有差异.
整理列联表:根据题目所给信息,整理得到两个社区居民对垃圾分类的准确率的列联表,
其中甲社区正确分类80人,不正确分类20人,合计100人;
乙社区正确分类90人,不正确分类60人,合计150人;总计正确分类170人,不正确分类80人,总人数250人.
根据统计量的计算公式(其中是样本容量,、、、分别是列联表中的四个数据),在本题列联表中,,,,,则.
已知小概率值对应的临界值,因为,根据小概率值的独立性检验,推断不成立,即认为两个社区居民对垃圾分类的准确率有差异.
(3)甲社区不能正确分类的有20人,乙社区不能正确分类的有60人,共人.按照分层抽样抽取人,则从甲社区抽取人,从乙社区抽取人.为人中来自甲社区的人数,则的可能取值为,,.
所以的分布列为:
X
0
1
2
可得:
【考点题型八】独立性检验解决实际问题()
【例8】(重庆市沙坪坝区部分学校2024-2025学年高三下学期5月模拟数学试题)为考察某种药物预防和治疗流感的效果,某药物研究所用100只小白鼠进行了分组试验,该分组试验分两个阶段:第一阶段为5天的观察预防期,第二阶段为10天的观察治疗期.第一阶段结束时,统计数据如下:患病小白鼠的比例为,未服药小白鼠的比例为,未服药且未患病的小白鼠有20只.
(1)完成下面列联表,并依据小概率值的独立性检验,推断该药物对预防流感是否有效.
药物
流感
合计
未患病
患病
未服用
服用
合计
(2)第一阶段结束时,若在患病的小白鼠中随机抽取2只,用表示服药的只数,求的分布列和数学期望.
(3)第二阶段结束时,针对第一阶段结束时的服药且患病的小白鼠中有16%被治愈,未服药患病的小白鼠中有5%自愈,服药未患病的小白鼠中有20%患病,未服药未患病的小白鼠中有15%患病.用频率估计概率,试验结束后,从这100只小白鼠中任选1只,检测是否患病后放回,若该操作进行5次,求选出的5只小白鼠中至少有2只患病的概率.
附:,其中.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】(1)列联表见解析,没有充分证据表明该药物对预防流感有效
(2)分布列见解析,数学期望为
(3)
【知识点】独立性检验解决实际问题、独立重复试验的概率问题、超几何分布的均值、超几何分布的分布列
【分析】(1)根据数据完善列联表,提出零假设,由公式计算的值,比较其与临界值的大小即可判断;
(2)由题意可得X的所有可能取值,根据超几何分布的概率计算方法求解概率,进而得出分布列,再结合期望公式即可求解;
(3)先确定第二阶段结束时患病的小白鼠的数量,即可确定任取1只患病小白鼠的概率,然后结合对立事件概率公式,利用二项分布列的概率公式计算求解即可.
【详解】(1)因为患病小白鼠的比例为,所以患病小白鼠有只,
则不患病的小白鼠有只,又未服药小白鼠的比例为,
所以未服药小白鼠有,从而完善列联表,如下表:
药物
流感
合计
未患病
患病
未服用
20
20
40
服用
35
25
60
合计
55
45
100
零假设为:该药物对预防流感无关联.
因为,显然,
根据小概率值的独立性检验,推断成立,
没有充分证据表明该药物对预防流感有效.
(2)由题意X的所有可能取值为,
则,,
,
所以的分布列为:
0
1
2
所以的数学期望为.
(3)第二阶段结束后,服药且患病的小白鼠中有16%被治愈,
那么服药且患病后仍患病的小白鼠的数量为,
未服药患病的小白鼠中有5%自愈,
那么未服药患病后仍患病的小白鼠的数量为,
服药未患病的小白鼠中有20%患病,那么服药未患病后患病的小白鼠的数量为,
未服药未患病的小白鼠中有15%患病,那么未服药未患病后患病的小白鼠的数量为,
所以第二阶段结束后患病的小白鼠的总数量为,
所以从这100只小白鼠中任选1只,患病的概率为,
设表示选出的5只小白鼠中患病的只数,则,
“至少有2只患病”的对立事件为“0只患病”或“1只患病”,
所以.
【变式8-1】.(2025·山西临汾·三模)“政府送温暖,老人有饭吃”.近年来,我国各级政府重视提高老年人的生活质量.在医疗、餐饮等多方面,为老人提供了方便.单从用餐方面,各社区创建了“幸福大食堂”、“爱心午餐”、“老人食堂”等不同名称的食堂,解决了老人的吃饭问题.据统计“幸福大食堂”2025年1月份共为1600名老人提供了午餐服务,其中好评有1200位老人,其余均为非好评.为了提升菜品品质,该食堂更换了厨师,更换厨师后该食堂2025年2月份为4000名老人提供了午餐服务,其中好评有3200位老人,其余均为非好评.
好评
非好评
合计
更换厨师前
更换厨师后
合计
(1)完成上面:列联表,并依据小概率值的的独立性检验,判断该食堂的好评率是否与更换厨师有关联;
(2)现从更换厨师前的评价中,用比例分配的分层抽样方法做抽样调查,拟从好评和非好评两层中抽取8位老人,再从这8位老人中随机抽取3位,记抽取的3位老人中好评的人数为X,求X的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1)列联表见解析,该食堂的好评率和更换厨师有关联
(2)分布列见解析,
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)先结合题意求出列联表,再求出进行独立性检验即可.
(2)先依据抽样调查的性质判断可能的取值,再求出每个取值对应的概率,最后求出分布列和数学期望即可.
【详解】(1)由题可得列联表,
好评
非好评
合计
更换厨师前
400
1600
更换厨师后
3200
800
4000
合计
4400
5600
记零假设为:该食堂的好评率和更换厨师无关.
根据小概率值的独立性检验,推断不成立,
即认为该食堂的好评率和更换厨师有关联,此推断犯错误的概率不超过.
(2)由题可知,抽样调查的8位老人中,
好评的人数为人,非好评的人数为2人,则的可能取值为.
而;;;
从而X的分布列为:
x
1
2
3
P
则数学期望.
【变式8-2】.(2025·甘肃甘南·模拟预测)某新能源汽车公司对其销售的、两款汽车的售后服务向消费者进行满意度调查,从购买这两款汽车的消费者中各随机抽取了名,调查结果统计如下表:
满意程度
汽车款式
合计
款
款
满意
不满意
合计
(1)补全列联表,并根据小概率值的独立性检验,能否认为消费者对A、B两款汽车的售后服务的满意度有差异?
(2)用频率估计概率,现从购买、款汽车的消费者中随机抽取人,表示这名消费者中对款汽车的售后服务持满意态度的人数,求的分布列和数学期望.
附:,.
【答案】(1)列联表见解析,无差异
(2)证明见解析,
【知识点】独立性检验解决实际问题、利用二项分布求分布列、二项分布的均值
【分析】(1)完善列联表,提出零假设消费者对、款汽车售后服务的满意度无差异, 计算出的观测值,结合临界值表可得出结论;
(2)分析可知,利用二项分布可得出随机变量的分布列,进一步可求得的值.
【详解】(1)列联表为:
满意程度
汽车款式
合计
款
款
满意
不满意
合计
零假设消费者对、款汽车售后服务的满意度无差异,
根据列联表中的数据,计算得,,
根据小概率值的独立性检验,没有充分理由推断不成立,
故消费者对、款汽车的售后服务的满意度无差异.
(2)从名消费者中随机抽人,对款车的售后服务持满意态度的频率为,
所以从购买、款汽车的消费者中随机抽取人,
则该人对款汽车的售后服务持满意态度的概率为,
X的可能取值为、、、、,且,
,,
,,
,
所以的分布列为:
(或).
【变式8-3】.(2025·重庆·三模)随机询问80名不同职业的人在购买食品时是否看营养说明,得到如下调查结果:
职业
买食品时是否看营养说明
合计
不看营养说明
看营养说明
从事与医疗相关行业
12
28
40
从事与医疗无关行业
18
22
40
合计
30
50
80
(1)从这80名受访者中随机抽出1人,已知此人在购买食品时要看营养说明,求这名受访者从事与医疗无关行业的概率;
(2)依据小概率的独立性检验,能否推断两个群体在购买食品时是否看营养说明存在差异?
参考公式:
独立性检验中常用小概率值和相应临界值:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)无差异
【知识点】卡方的计算、独立性检验解决实际问题、计算古典概型问题的概率、计算条件概率
【分析】(1)根据条件概率及古典概型计算即可;
(2)代入公式计算的值,结合临界值判断即可.
【详解】(1)用A表示事件“受访者在购买食品是要看营养说明”,
B表示事件“受访者从事医疗无关行业”,“已知此人在购买食品时要看营养说明,
求这名受访者从事与医疗无关行业”的概率就是在“在事件A发生的条件下,事件B发生”的概率,记为,
,,所以;
(2)零假设为:职业与看营养说明相互独立,即两个群体在购买食品时是否看营养说明无差异,
根据表中数据,计算得到,
根据小概率值的独立性检验,没有充分证据推断不成立,
所以可以认为成立,
即认为两个群体在购买食品时是否看营养说明无差异.
【变式8-4】.(24-25高二下·山东青岛·期中)为了解某地初中学生阅读时长与学业成绩的关系,从该地区初中学生中随机抽取部分学生,得到日均阅读时长与学业成绩的数据如下表所示:
时间(小时)成绩
优秀
4
44
42
3
2
不优秀
134
142
140
40
24
(1)从样本中学业成绩优秀且阅读时间在区的学生当中随机抽取3名学生进行调查,X表示3名学生中阅读时长在人数,求X的分布列和期望;
(2)根据小概率值的独立性检验,分析学业成绩优秀与日均阅读时长不小于1小时且小于2小时是否有关?(运算结果四舍五入保留到小数点后两位小数)
(附:,其中,
【答案】(1)分布列见解析,
(2)无关
【知识点】独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据题意可得X的所有取值为,进而求解即可;
(2)作出列联表,计算卡方值和临界值比较大小即可得到结论.
【详解】(1)由题意,X的所有取值为,
则,,,
则X的分布列为
X
1
2
3
所以.
(2)由题列联表如下:
其它
合计
优秀
45
50
95
不优秀
180
300
480
合计
225
350
575
则,
所以学业成绩优秀与日均阅读时长不小于1小时且小于2小时无关.
提升训练
一、单选题
1.(24-25高二下·辽宁沈阳·阶段练习)某种植基地统计出花卉种植面积y与年份x的数据如下:
x
1
2
3
4
5
y
5
7
9
10
14
根据上表数据得到y关于x的线性回归方程为,则第6年的花卉种植面积约为( )
A.17 B.16 C. D.15
【答案】C
【知识点】根据回归方程进行数据估计、根据样本中心点求参数
【分析】计算平均数可得样本中心,代入回归方程求解,最后将代入回归方程计算即可.
【详解】由表中数据可得,故样本中心为,
将代入可得,所以线性回归方程为,
当时,,故第6年的花卉种植面积约为.
故选:C
2.(24-25高二下·辽宁沈阳·期中)某公司为了增加某商品的销售利润,调查了该商品投入的广告费用x(万元)与销售利润y(万元)的统计数据如下表,由表中数据,得线性回归直线l:,则下列结论正确的是( )附:,
广告费用x(万元)
2
3
5
6
7销售利润y(万元)
5
7
9
11
A.直线l过点 B.直线l过点
C. D.变量y和x呈负相关
【答案】B
【知识点】求回归直线方程、计算样本的中心点、解释回归直线方程的意义、根据回归方程进行数据估计
【分析】求出回归方程,对于A:求出l经过,即可判断;对于B:直线l过样本中心点;对于C:计算出,即可判断;对于D:由判断正相关.
【详解】由表中数据计算,,所以线性回归直线经过样本中心点,所以B正确;
又,
,所以,
所以变量y和x呈正相关.故D错误;
所以,所以C错误;
所以回归方程为,当时,.所以直线过点,故A错误.
故选:B.
3.(云南省玉溪市、保山市2025届高三下学期复习教学质量检测数学试题)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【知识点】求回归直线方程、根据样本中心点求参数、残差的计算
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线方程,估计的对应值,最后由残差的定义求解即可.
【详解】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以时,有,故残差为,
故选:B.
4.(24-25高二下·内蒙古巴彦淖尔·期中)某学校在一次调查“篮球迷”的活动中,获得了如下数据:以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
P
0.10
0.05
0.01
k
2.706
3.841
6.635
A.有90%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.01的前提下,可以认为是否是篮球迷与性别有关
【答案】A
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据已知表格数据及卡方公式求卡方值,应用独立检验基本思想得到结论,即可得.
【详解】由题设,
所以有90%的把握认为是否是篮球迷与性别有关,没有95%的把握认为是否是篮球迷与性别有关,A对,B、C、D错;
故选:A
5.(24-25高二下·天津滨海新·期中)下列说法中,正确的个数是( )
①若随机变量X服从正态分布,且,则;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强.
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05.
⑤决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】B
【知识点】相关系数的意义及辨析、相关指数的计算及分析、解释回归直线方程的意义、正态曲线的性质
【分析】根据正态分布对称性的应用可判断命题①;根据相关系数的定义判断命题②;根据残差图的性质判断命题③;根据独立性检验的知识判断命题④,根据决定系数性质判断命题⑤.
【详解】对于①. 已知随机变量服从正态分布,,
则,所以,故①错误;
对于②,线性相关系数的范围在到1之间,有正有负,相关有正相关和负相关,
相关系数的绝对值的大小越接近于1,两个变量的线性相关性越强;
反之,线性相关性越弱,故②错误;
对于③,在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,
则回归方程的预报精确度越高,故③正确;
对于④,据分类变量X与Y的成对样本数据,计算得到,根据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不超过0.05,
故④正确.
对于⑤,因为甲的决定系数比乙的决定系数更接近1,所以模型甲的拟合效果更好,命题⑤错误;
故选:B.
6.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2
3
4
5
6
1.02
1.20
1.42
1.62
1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【答案】D
【知识点】非线性回归、根据样本中心点求参数
【分析】先根据线性回归方程必过样本中心点,可求,再推导出,可求的值.
【详解】由表格中数据得,
,
代入方程得,,解得,因此.
由两边取对数,得.
又,所以,,即.
故选:D
7.(2025·天津河东·二模)2024年12月26日,Deep Seek—V3首个版本正式上线,截至2025年2月9日,Deep Seek APP的累计下载量已超1.1亿次,AI成为当下的热门话题.立德中学高中数学社团以16至40岁人群使用Deep Seek频率为课题,分小组自主选题进行调查研究,下列说法正确的是( )
A.甲小组开展了Deep Seek每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到Deep Seek每周使用频次y关于年龄x的经验回归方程为,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响Deep Seek使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的Deep Seek使用频次没有差异
【答案】C
【知识点】相关系数的意义及辨析、根据样本中心点求参数、相关指数的计算及分析、独立性检验解决实际问题
【分析】由相关系数,回归方程,决定系数,卡方的检验逐项判断即可.
【详解】对于A,由的绝对值越接近1,相关性越强可得A错误,故A错误;
对于B,回归方程为给出的是预测值,实际值会有随机误差,所以年龄为30岁的群体每周使用频次不一定为17次,故B错误;
对于C,表示模型对因变量的解释比例,大说明经验回归方程②的刻画效果比经验回归方程①的好很多,故C正确;
对于D,,可以认为不同性别的Deep Seek使用频次有差异,故D错误.
故选:C
8.(2025·辽宁·模拟预测)某医疗研究机构为了解某种地方性疾病与当地居民的生活习惯(生活习惯分良好和不够良好)的关系,现从该地区随机抽取名居民,统计数据如下:
生活习惯
合计
良好
不够良好
患有该疾病居民
0.6n
1.4n
2n
未患有该疾病居民
1.2n
0.8n
2n
合计
1.8n
2.2n
4n
若根据小概率值的独立性检验,分析发现居民是否患有该疾病与生活习惯有关联,则从该地区抽取居民人数至少为( )
附:,.
A.60 B.76 C.80 D.100
【答案】C
【知识点】卡方的计算
【分析】由卡方的计算结合题意可得.
【详解】,又,所以,且,,,均为整数,所以的最小值为20,则从该地区抽取居民人数至少为80.
故选:C
二、多选题
9.(2025·四川攀枝花·三模)小张同学对具有线性相关的两个变量x和y进行了统计分析,得到了右表,其中一些数据丢失,只记得这组数据拟合出的y关于x的经验回归方程为,若成等差数列,则( )
x
4
6
8
10
12
y
a
2
b
c
6
A.变量x与y的样本相关系数 B.
C.当时,残差为 D.当时,y的预测值为
【答案】BCD
【知识点】残差的计算、根据样本中心点求参数、相关系数的意义及辨析、根据回归方程进行数据估计
【分析】利用回归分析以及回归方程的性质必过点即可判断AB,利用残差的定义和回归方程预测即可判断CD.
【详解】由表格中的数据可计算平均数:,
,
又因为成等差数列,所以,则,
根据经验回归方程为必过点,
则,解得,故B正确;
由于经验回归方程为是递增的一次函数,所以两个变量是正相关,
则样本相关系数,故A错误;
当时,,所以残差为,故C正确;
当时,,所以y的预测值为,故D正确;
故选:BCD.
10.(24-25高二下·辽宁·期中)统计学中,常用的显著性水平以及对应的分位数如下表所示.
在检验与是否有关的过程中,根据已知数据计算得,则( )
A.若,则在犯错误的概率不超过的前提下认为与有关
B.若,则在犯错误的概率不超过的前提下认为与无关
C.若,则有的把握认为与有关
D.若,,则
【答案】ACD
【知识点】独立性检验的基本思想
【分析】根据的计算结果与常用的显著性水平的对应的分位数大小关系,判断ABC,结合的性质判断D.
【详解】对于A,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,A正确;
对于B,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,B错误;
对于C,因为,,,
所以根据小概率值的独立性检验,推断零假设不成立,
即在犯错误的概率不超过的前提下认为与有关,C正确;
对于D,因为分布是单调递增的累积分布函数,所以,
所以,D正确;
故选:ACD.
三、填空题
11.(24-25高二下·天津·期中)已知的取值如表所示,从散点图分析可知与线性相关,如果线性回归方程为,那么表格中数据的值为 .
0
1
2
4
4.3
4.8
6.7
【答案】
【知识点】计算样本的中心点、根据样本中心点求参数
【分析】先求,根据线性回归方程必过样本中心点运算求解.
【详解】因为,
可知样本中心点在线性回归方程为上,
则,解得.
故答案为:.
12.(2025·上海长宁·二模)为了研究吸烟习惯与慢性气管炎患病的关系,某疾病预防中心对相关调查数据进行了研究,假设:患慢性气管炎与吸烟没有关系,并通过计算得到统计量,则可推断 原假设.(填“拒绝”或“接受”,规定显著性水平.)
【答案】拒绝
【知识点】独立性检验的基本思想
【分析】在独立性检验中,当计算得到的统计量大于临界值时,就拒绝原假设,即可求解.
【详解】已知显著性水平,,即临界值为,
因为,所以可推断拒绝原假设.
故答案为:拒绝.
四、解答题
13.(24-25高二下·辽宁沈阳·阶段练习)为研究学生数学成绩与物理成绩的关系,从高二年级抽取50名学生,某同学已经整理好数学成绩与物理成绩的样本数据,并计算出.现丢失了后两列数据,为补全数据,不妨设数学优秀物理不优秀的人数为m,得下表:
物理优秀
物理不优秀
合计
数学优秀
15
m
数学不优秀
10
合计
25
25
50
(1)求m;
(2)人工智能中常用表示在事件A发生的条件下事件B发生的优势.从高二年级随机抽取1人,记“选到的学生数学优秀”为事件A,“选到的学生物理优秀”为事件B,利用样本数据估计的值;
(3)用分层抽样的方法从数学优秀的样本中抽取8人组成数学兴趣小组,再从8人中抽取3人参加数学竞赛,求这3人中物理优秀的人数X的概率分布.
参考公式:.
【答案】(1)
(2)
(3)分布列见解析
【知识点】计算古典概型问题的概率、计算条件概率、卡方的计算、超几何分布的分布列
【分析】(1)利用,可得,求解即可;
(2)根据条件概率公式计算即可;
(3)分层抽样后运用超几何分布求解即可.
【详解】(1)由题意可得,,,,因为
又,所以,
所以,所以,
所以,所以,
所以,解得或(舍去),
所以;
(2)由(1)可知数学优秀的人数为,而数学优秀且物理优秀的人数为,
,
又数学优秀且物理不秀的人数为,所以,
所以;
(3)从数学优秀的20人中用分层抽样抽取8人:物理优秀的应抽人,物理不优秀的应抽人,
从这8人中抽取3人,X表示其中物理优秀的人数。则X的可能取值为1, 2, 3,
,,
,
所以X的概率分布为:
1
2
3
14.(24-25高二下·甘肃甘南·期末)在改革开放成就展上某地区某农产品近几年的产量统计表:
年份
2019
2020
2021
2022
2023
2024
年份代码x
1
2
3
4
5
6
年产量y(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立y关于x的线性回归方程;
(2)根据线性回归方程预测2025年该地区该农产品的年产量.
【答案】(1)
(2)
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)先求出和的值,然后求出,进而由,,可求出,从而可求出关于的线性回归方程;
(2)当年份为2025年时,年份代码为,由(1)求得的回归方程,求出的值即可.
【详解】(1)由题意可知:
,
,
,
所以,
又,
故关于的线性回归方程为.
(2)由(1)可得,当年份为2025年时,年份代码为,此时.
所以可预测2025年该地区该农产品的年产量约为万吨.
15.(2025·四川攀枝花·三模)一家调查机构在某地随机抽查800名成年居民对新能源车与燃油车的购买倾向,得到如下列联表:
倾向于购买新能源车
倾向于购买燃油车
合计
女性居民
80
男性居民
400
合计
800
已知从这800名居民中随机抽取1人,这个人倾向于购买燃油车的概率为0.8
(1)完成列联表;
(2)依据小概率值的独立性检验,分析对新能源车与燃油车的购买倾向是否存在性别差异;
(3)从上述倾向于购买燃油车的居民中用分层随机抽样的方法抽取8人,再从这8人中抽取3人调查其倾向于购买燃油车的原因,用表示3人中女性居民的人数,求的分布列及数学期望.
附:,
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
【答案】(1)答案见解析;
(2)答案见解析;
(3)分布列见解析,
【知识点】卡方的计算、求超几何分布的概率、完善列联表、求离散型随机变量的均值
【分析】(1)利用概率计算出倾向于购买燃油车的人数,则可列出二联表;
(2)利用独立性检验规则,即可作出判断;
(3)利用超几何分布概率公式可得概率分布列,从而可求期望.
【详解】(1)由从这800名居民中随机抽取1人,这个人倾向于购买燃油车的概率为0.8,
可知道倾向于购买燃油车的人数为人
倾向于购买新能源车
倾向于购买燃油车
合计
女性居民
80
240
320
男性居民
80
400
480
合计
160
640
800
(2)零假设:对新能源车与燃油车的购买倾向相互独立,不存在性别差异,
则
根据小概率值的独立性检验,我们推断不成立,即认为对新能源车与燃油车的购买倾向存在性别差异,且该推断犯错误的概率不超过;
(3)从上述倾向于购买燃油车的居民中用分层随机抽样的方法抽取8人,
则女性居民有3人,男性居民有5人,再从这8人中抽取3人调查其倾向于购买燃油车的原因,
用表示3人中女性居民的人数,则的可能取值有,
,,
,,
则的分布列为:
0
1
2
3
所以.
16.(2025·黑龙江哈尔滨·三模)某学校校庆时统计连续天进入学校参加活动的校友数(单位:千人)如下:
日期
月日
月日
月日
月日
月日
第天
参观人数
(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数加以说明(保留小数点后两位);(若,则认为与的线性相关性很强),并求出关于的线性回归方程;
(2)校庆期间学校开放号门、号门和号门供校友出入,校友从号门、号门和号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与入校不同两门的概率各为.假设校友从号门、号门、号门出入学校互不影响,现有甲、乙、丙、丁名校友于月日回母校参加活动,设为人中从号门出学校的人数,求的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),说明见解析,
(2)分布列见解析,,.
【知识点】求回归直线方程、二项分布的方差、相关系数的计算、利用全概率公式求概率
【分析】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出、的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从号门出校园的概率均为,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出、的值.
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以与线性相关性很强,可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从号门出学校”为事件,“甲从号门进学校”为事件,
“甲从号门进学校”为事件,“甲从号门进学校”为事件,
由题意可得,,,
,,
由全概率公式得:
,
同理乙、丙、丁从号门出学校的概率也为,
为人中从号门出学校的人数,则,
,,
,,
,
故的分布列为:
,.
17.(2025·甘肃白银·三模)某材料实验室研究了某种金属材料在不同冷却速率下的凝固点温度,以及冷却环境对材料热物性的影响.下表为某金属材料凝固点温度(单位:)随冷却速率(单位:)变化的统计数据.
10
20
30
40
50
650
640
600
590
580
(1)一般认为当时,经验回归方程的拟合效果非常好;当时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.
(2)请利用所给数据求该金属凝固点温度与冷却速率之间的经验回归方程,并预测冷却速率为时,该金属的凝固点温度.
参考公式:;
相关系数.
参考数据:.
【答案】(1)拟合效果非常好,理由见解析
(2);
【知识点】求回归直线方程、相关系数的计算、相关系数的意义及辨析、根据回归方程进行数据估计
【分析】(1)首先根据表格里面的数据求出的平均值,然后根据根据相关系数公式求出相关系数.
(2)首先求出回归方程的表达式,然后将冷却速率值代入,求出金属的凝固点温度.
【详解】(1)易知,
因为,,
,
因为
所以该经验回归方程的拟合效果非常好.
(2)由(1)知,由,
因为,
所以,故所求的经验回归方程为.
当时,,
所以冷却速率为时,该金属的凝固点温度为.
3 / 3
学科网(北京)股份有限公司
$$