内容正文:
清单08 第8章 成对数据统计分析
(4个考点梳理+8题型解读+提升训练)
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【考点题型一】判断正负相关()
【例1】(24-25高三·上海·课堂例题)某公司近年来科研费用(单位:万元)与公司所获的利润(单位:万元)之间有如下的统计数据:
2
3
4
5
18
27
32
35
(1)请画出上表数据的散点图;
(2)观察散点图,判断与是否具有线性相关关系.
【变式1-1】.(24-25高三·上海·课堂例题)已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩散点图对应如图:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为 .
【变式1-2】.(24-25高三·上海·课堂例题)某市居民2015~2019年家庭年平均收入(单位:万元)与年平均支出(单位:万元)的统计资料如下表所示:
年份
2015
2016
2017
2018
2019
收入
11.5
12.1
13
13.3
15
支出
6.8
8.8
9.8
10
12
根据统计资料,家庭年平均收入与年平均支出有 相关关系(选填“正”或“负”).
【变式1-3】.(24-25高三·上海·课堂例题)某厂的生产原料耗费(单位:百万元)与销售额(单位:百万元)之间有如下的对应关系:
2
4
6
8
30
40
50
70
画出的散点图并判断它们是否相关.
【考点题型二】样本相关系数的计算()
【例2】(24-25高三·上海·课堂例题)下图是我国2014-2020年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合与的关系,请求出相关系数,并用相关系数的大小说明与相关性的强弱.
参考数据:,,.
【变式2-1】.(24-25高三·上海·课堂例题)季节性流感分布广泛,儿童普遍易感.某区将去年春季该区患季节性流感的小朋友按照年龄与人数统计,得到如下数据:
年龄
2
3
4
5
6
患病人数
22
22
17
14
10
(1)求关于的线性回归方程;
(2)计算样本相关系数(计算结果精确到0.01),并回答是否可以认为该区去年春季患季节性流感人数与年龄负相关很强?(若,则、相关性很强;若,则、相关性一般;若,则、相关性较弱.)
【变式2-2】.(24-25高三·上海·课堂例题)测得10对父子身高[单位:英寸(1英寸)如下:
父亲身高()
60
62
64
65
66
67
68
70
72
74
儿子身高()
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
(1)对变量与进行相关性检验;
(2)如果与之间具有相关关系,求回归直线方程;
(3)如果父亲身高为73英寸,试估计儿子的身高.
参考数据:,,,,,,.
【变式2-3】.(25-26高三上·上海·单元测试)当前,冷冻冷藏类技术发展迅速且应用广泛.某制冷技术重点实验室研究了不同果蔬在不同冻结速率下的冰点温度,以及低温环境对果蔬热物性的影响.设冻结速率为x(单位:分钟),冰点温度为y(单位:℃),如表为某种水果冰点温度随冻结速率变化的统计数据:
x
10
20
30
40
50
y
-5
-4.5
-2
1
2
根据以上数据,绘制了散点图:
(1)由散点图可以看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明;
(2)求y关于x的线性回归方程,并预测当冻结速率为60分钟时,这种水果的冰点温度.
【考点题型三】样本相关指数计算()
【例3】(2024·重庆涪陵·模拟预测)为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2021年种植的一批试验紫甘薯在温度升高时6组死亡的株数.
温度/℃
21
23
24
27
29
30
死亡数/株
6
11
20
27
57
77
经计算,,,,,
,,,其中,分别为试验数据中的温度和死亡株数,.
(1)若用一元线性回归模型,求关于的经验回归方程;
(2)若用非线性回归模型求得关于的非线性经验回归方程,且相关指数为.
(ⅰ)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好;
(ii)用拟合效果好的模型预测温度为35℃时该批紫甘薯的死亡株数(结果取整数).
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为:,;相关指数为:.
【变式3-1】.(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
【变式3-2】.(2024·新疆·二模)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数(其中10场为一个周期)与产品销售额(千元)的数据统计如下:
直播周期数
1
2
3
4
5
产品销售额(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
55
382
65
978
101
其中,
(1)请根据表中数据,建立关于的回归方程(系数精确到);
(2)①乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
(3)由①所得的结论,计算该直播间欲使产品销售额达到8万元以上,直播周期数至少为多少?(最终答案精确到1)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,相关指数:.
【变式3-3】.(23-24高二上·四川攀枝花·期末)攀枝花属于亚热带季风气候区,水果种类丰富.其中,“红格脐橙”已经“中华人民共和国农业部2010年第1364号公告”予以登记,根据其种植规模与以往的种植经验,产自该果园的单个“红格脐橙”的果径(最大横切面直径,单位:)在正常环境下服从正态分布.
(1)一顾客购买了10个该果园的“红格脐橙”,求会买到果径小于的概率;
(2)为了提高利润,该果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图是2013年至2022年(单位:万元)与年利润增量y(单位:万元)的散点图:
该果园为了预测2023年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由图中样本点的分布,可以认为样本点集中在曲线:的附近.对投资金额做交换,令,且有,,,.
(ⅰ)根据所给的统计量,求模型②中关于的回归方程;
(ⅱ)根据下列表格中的数据,比较两种模型的相关指数R2,并选择拟合精度更高、更可靠的模型,预测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型
模型①
模型②
回归方程
102.28
36.19
附:若随机变量,则,;
样本()的最小二乘估计公式为,;
相关指数.
参考数据:,,,.
【考点题型四】残差有关计算()
【例4】(24-25高三上·上海·单元测试)两个线性相关变量与的统计数据如表:
9
9.5
10
10.5
11
11
10
8
6
5
其回归直线方程是,则相对应于点的残差为 .
【变式4-1】.(24-25高三下·上海金山·阶段练习)某工厂为研究某种产品产量(吨)与所需某种原材料(吨)得相关性.在生产过程中收集4组对应数据如表所示,已知关于的经验回归方程为,则表中的值为 ,在样本点处的离差为 .
3
4
5
6
2.5
3
4
【变式4-2】.(2025高三·全国·专题练习)某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集4组对应数据,如表所示.(残差=观测值-预测值)
3
4
5
6
2.5
3
4
根据表中数据,得出关于的经验回归方程为.据此计算出在样本处的残差为,则表中的值为 .
【考点题型五】一元线性回归模型()
【例5】(24-25高三上·上海·课后作业)据不完全统计,某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)如下:变量x、y为线性相关关系.
x
2
4
6
8
y
20
35
61
80
(1)求线性回归方程必过的点;
(2)求线性回归方程;
(3)若实际销售额要求不少于121.1百万元,则原材料耗费至少要多少百万元?
【变式5-1】.(24-25高三·上海·随堂练习)某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为,其中,.
【变式5-2】.(25-26高三上·上海·单元测试)某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
1
2
3
4
销售额(万元)
2
3
现已知,且回归方程中的,据此模型预测广告费用为10万元时,销售额为 万元.
【变式5-3】.(24-25高三·上海·课堂例题)如图,在实验室细菌培养过程中,细菌生长主要经历调整期、指数期、稳定期和衰亡期四个时期.在一定条件下,培养基上细菌的最大承载量(达到稳定期时的细菌数量)与培养基质量具有线性相关关系.某实验室在培养细菌的过程中,通过大量实验获得了以下统计数据:
培养基质量(g)
20
40
50
60
80
细菌的最大承载量(单位)
300
400
500
600
700
(1)建立关于的回归直线方程,并预测当培养基质量为100g时细菌的最大承载量;
(2)研究发现,细菌的调整期一般为3小时,其在指数期的细菌数量(单位)与细菌被植入培养基的时间近似满足函数关系,试估计在100g培养基上培养细菌时指数期的持续时间(精确到1小时).
【变式5-4】.(23-24高二上·上海·课后作业)某工厂生产某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:
月份
产量x/千件
单位成本y/(元/件)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)计算产量与单位成本的相关系数;
(2)建立产量与单位成本的回归方程;
(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?
【考点题型六】非线性回归模型()
【例6】(24-25高三下·浙江宁波·阶段练习)某企业前8个月月底的盈利金额(万元)与月份之间的关系如下表所示:
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用模拟与的关系,求出回归方程;
(2)根据(1)的结果计算,在几月份的月底统计的盈利金额开始超过60万元?
附:①;
②;
③回归直线中斜率和截距的最小二乘估计公式为:.
【变式6-1】.(23-24高二下·广东肇庆·期末)用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【变式6-2】.(23-24高二下·安徽·阶段练习)以模型去拟合一组数据时,已知如下数据:,,则实数的值为 .
【变式6-3】.(23-24高二下·河南南阳·期中)已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则 .(参考数据:)
【变式6-4】.(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【考点题型七】独立性检验的基本思想()
【例7】(24-25高三·上海·课堂例题)下表是甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的列联表,则的值为 .(精确到0.001)
不及格(人)
及格(人)
合计(人)
甲班
12
33
45
乙班
9
36
45
合计
21
69
90
【变式7-1】.(24-25高三·上海·课堂例题)在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【变式7-2】.(25-26高三上·上海·单元测试)根据下表计算:
不看电视
看电视
男
37
85
女
35
143
.(结果保留3位小数)
【变式7-3】.(24-25高三·上海·课堂例题)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为:能否一次考试通过与是否集中培训 .(选填“有关”或“无关”)
【变式7-4】.(2025·上海长宁·二模)为了研究吸烟习惯与慢性气管炎患病的关系,某疾病预防中心对相关调查数据进行了研究,假设:患慢性气管炎与吸烟没有关系,并通过计算得到统计量,则可推断 原假设.(填“拒绝”或“接受”,规定显著性水平.)
【考点题型八】独立性检验解决实际问题()
【例8】(24-25高三·上海·课堂例题)某研究型学习小组调查研究“中学生使用智能手机对学习的影响”,对校内80名学生调查得到部分统计数据如下表,记为事件:“学习成绩优秀且不使用手机”;为事件:“学习成绩不优秀且不使用手机”,且已知事件的频率是事件的频率的2倍.
不使用手机(人)
使用手机(人)
合计(人)
学习成绩优秀人数
12
学习成绩不优秀人数
26
合计
附:,其中,
(1)求表中、的值,并补全表中所缺数据;
(2)运用独立性检验思想,判断是否有把握认为中学生使用手机对学习有影响?
【变式8-1】.(24-25高三下·上海·阶段练习)第二十二届卡塔尔世界杯足球决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队,某校为了丰富学生课余生活,组建了足球社团,足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各名进行调查,部分数据如下表所示.
喜欢足球
不喜欢足球
合计
男生
女生
合计
(1)根据所给数据求出、、、的值,并判断是否有95%的把握认为该校学生喜欢足球与性别有关?(附)
(2)社团指导老师从喜欢足球的学生中抽取了名男生和名女生示范点球射门.已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求人进球总次数的分布和数学期望.
【变式8-2】.(24-25高三下·上海·阶段练习)某兴趣小组对高三刚结束的物理测试成绩进行随机调查,将所有选考物理的考生按是否同时选考化学分为A、B两类,并从中随机抽取100名考生的成绩,整理数据如下表(单位:人)
物理成绩学生分类
A类男生
2
8
15
8
B类男生
3
10
20
4
A类女生
3
4
2
1
B类女生
10
6
4
0
(1)估计该校高三学习物理男生人数与女生人数之比;
(2)求A类考生物现平均成绩的估计值(同一组中的数据用该组区间中点值代表,结果四舍五入到整数);
(3)把成绩在称为“合格”,成绩在称为“不合格”,是否有95%的把握认为该校考生的本次物理成绩合格与否和性别有关?
附:,其中.
【变式8-3】.(23-24高二下·辽宁沈阳·期中)近年来,短视频作为以视频为载体的聚合平台,社交属性愈发突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对人进行了一次市场调研,以决策是否开发将短视频剪接成长视频的APP,得到如下数据:
青年人
中年人
老年人
对该种APP有需求
对该种APP无需求
其中的数据为统计的人数,已知本次被调研的青年人数为.
(1)求,的值.
(2)在犯错误的概率不超过的前提下,对该种APP的需求,是否与是青年人还是中老年人有关?
参考公式:,其中.
临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【变式8-4】.(24-25高三上·上海·单元测试)为了响应政府“节能减排”的号召,某汽车厂决定生产一款纯电动汽车.生产前,厂家进行了人们对纯电动汽车接受程度的调查.在20∼60岁的人群中随机抽取了100人,调查数据的频率分布直方图(如图)和接受纯电动汽车的人数与年龄的统计结果如下表所示:
年龄
接受的人数(人)
14
6
15
28
17
(1)由以上统计数据填列联表,并判断能否在犯错误的概率不超过0.05的前提下,认为以44岁为分界点的不同年龄人群对纯电动汽车的接受程度有差异?
44岁以下
44岁及44岁以上
总计
接受(人)
不接受(人)
总计
(2)若以44岁为分界点,从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2人.记抽到44岁以下的人数为,求随机变量的分布及期望.
提升训练
一、填空题
1.(2025·上海杨浦·二模)植物社团的同学观察一株植物的生长情况,为了解植物高度(单位:厘米)与生长期(单位:天)之间的关系,随机统计了某4天的植物高度,并制作了如下对照表:
生长期
3
9
11
17
植物高度
2.4
3.4
3.8
5.2
由表中数据可得回归方程中,试预测生长期是30天时,植物高度约为 厘米.
2.(2025·上海松江·二模)根据如表所示的样本数据,用最小二乘法求得线性回归方程为,则回归系数的值为 .
6
8
9
10
12
6
5
4
3
2
3.(2025·上海徐汇·二模)如下是一个列联表,则 .
y1
y2
总计
x1
a
35
45
x2
7
b
n
总计
m
73
s
4.(2025·上海奉贤·二模)通过随机抽样,获得某种商品消费者年需求量与该商品每千克价格之间的一组数据调查,如下表所示:
价格(百元)
4
4
4.6
5
5.2
5.6
6
6.6
7
10
需求量(千克)
3.5
3
2.7
2.4
2.5
2
1.5
1.2
1.2
1
那么线性相关系数 .(精确到)线性相关系数公式
5.(24-25高三下·上海虹口·期中)某公司为了解用电量(单位:千瓦时)与气温(单位:摄氏度)之间的关系,随机统计了4天的用电量与当天气温,绘制了如右表格,由表中数据可得回归方程,则实数
6.(24-25高三上·上海·单元测试)下列说法中正确的是 .
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量、的相关系数为,则越接近于0,和之间的线性相关程度越强;
④在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大.
7.(24-25高三·上海·随堂练习)随着智能手机的普及,使用手机上网成为人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:
x
30
35
40
45
50
y
18
14
10
8
5
计算该流量包的定价x与购买人数y的相关系数 .(结果保留3位小数)
8.(23-24高二下·上海·期末)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取30名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,取显著性水平为,我们可以认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重 .(填入有关或无关)
身高
体重
超重
不超重
总计
偏高
12
3
15
不偏高
5
10
15
总计
17
13
30
附表:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中
二、解答题
9.(2025·上海奉贤·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病 的关系,测得数据如表所示:
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
283
患慢性气管炎者
总计
134
339
(1)估算样本中吸烟者中患慢性支气管炎的百分比;
(2)有多少把握认为患慢性支气管炎与吸烟有关?
附:,其中,,,.
10.(24-25高三下·上海·阶段练习)近年来,随着智能手机的普及,网上买菜迅速进入了我们的生活.现将一周网上买菜次数超过3次的市民认定为“喜欢网上买菜”,不超过3次甚至从不在网上买菜的市民认定为“不喜欢网上买菜”.某市M社区为了解该社区市民网上买菜情况,随机抽取了该社区100名市民,得到的统计数据如下表所示:
喜欢网上买菜
不喜欢网上买菜
合计
年龄不超过45岁的市民
40
10
50
年龄超过45岁的市民
20
30
50
合计
60
40
100
(1)是否有95%的把握认为社区的市民喜欢网上买菜与年龄有关?
(2)社区的市民小张周一、二均在网上买菜,且周一等可能地从两个买菜平台随机选择一个下单买菜如果周一选择平台买菜,那么周二选择平台买菜的概率为,如果周一选每平台买菜,那么周二选择平合买菜的概率为,求小张周二选择平台买菜的概率;
(3)用频率估计概率,现从社区随机抽取20名市民,记其中喜欢网上买菜的市民人数为随机变量,并记随机变量,求的期望和方差.
参考公式:,其中.
0.1
0.05
0.01
0.005
0.001
3.841
6.635
10.828
11.(24-25高三·上海·课堂例题)某机构为了解某大学中男生的体重(单位:kg)与身高(单位:cm)是否存在较好的线性关系,该机构搜集了7位该校男生的数据,得到如下表格:
序号
1
2
3
4
5
6
7
身高(cm)
161
175
169
178
173
168
180
体重(kg)
52
62
54
70
66
57
73
根据表中数据计算得到关于的线性回归方程为,求.
12.(24-25高三·上海·随堂练习)春节期间,由于高速免费,车流量逐步增加,某高速口统计了5天中的车流量与空气质量指数的关系,所得数据如下表所示:
车流量x(万辆)
12
12.5
13
13.5
14
空气质量指数y
74
76
78
77
80
(1)在下列网格纸中绘制出散点图;
(2)观察散点图的趋势,如果能看成线性关系,请在图中画出一条直线来近似地表示这种关系,并计算车流量与空气质量指数的相关系数.
13.(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
3 / 3
学科网(北京)股份有限公司
$$
清单08 第8章 成对数据统计分析
(4个考点梳理+8题型解读+提升训练)
清单01 相关系数
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
清单02 一元线性回归模型
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
清单03 决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
(3)决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
清单04 独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
【考点题型一】判断正负相关()
【例1】(24-25高三·上海·课堂例题)某公司近年来科研费用(单位:万元)与公司所获的利润(单位:万元)之间有如下的统计数据:
2
3
4
5
18
27
32
35
(1)请画出上表数据的散点图;
(2)观察散点图,判断与是否具有线性相关关系.
【答案】(1)作图见解析
(2)与有线性相关关系
【知识点】绘制散点图、根据散点图判断是否线性相关
【分析】(1)结合题中所给数据,作出散点图即可;
(2)根据散点图可以判断有没相关性.
【详解】(1)散点图如下:
(2)由图知,所有数据点接近直线排列,因此认为与具有线性相关关系.
【变式1-1】.(24-25高三·上海·课堂例题)已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩散点图对应如图:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为 .
【答案】1
【知识点】根据散点图判断是否线性相关、随机现象
【分析】由散点图知两变量间是相关关系,不是函数关系;利用概率的知识进行预测,得到的结论有一定的随机性.
【详解】对于①,根据散点图知,各点分布在一条直线附近,两变量间是线性相关关系,①正确;
对于②,根据散点图知,两变量不是确定的一次函数关系,②错误;
对于③,利用概率的知识进行预测,得到的结论有一定的随机性,③错误,
所以正确的个数为1.
故答案为:1
【变式1-2】.(24-25高三·上海·课堂例题)某市居民2015~2019年家庭年平均收入(单位:万元)与年平均支出(单位:万元)的统计资料如下表所示:
年份
2015
2016
2017
2018
2019
收入
11.5
12.1
13
13.3
15
支出
6.8
8.8
9.8
10
12
根据统计资料,家庭年平均收入与年平均支出有 相关关系(选填“正”或“负”).
【答案】正
【知识点】绘制散点图、根据散点图判断是否线性相关
【分析】描出散点图从图上直观看直线的斜率,即可判断.
【详解】由题可得散点图,
从图上直观看出直线的斜率为正,则为正线性相关.
故答案为:正
【变式1-3】.(24-25高三·上海·课堂例题)某厂的生产原料耗费(单位:百万元)与销售额(单位:百万元)之间有如下的对应关系:
2
4
6
8
30
40
50
70
画出的散点图并判断它们是否相关.
【答案】作图见解析,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高
【知识点】绘制散点图、根据散点图判断是否线性相关
【分析】根据表中数据在直角坐标系中描点即可,由散点图可看出,图中的数据点接近直线排列,故可以判断有没相关性.
【详解】画出的散点图如图所示.
可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.
【考点题型二】样本相关系数的计算()
【例2】(24-25高三·上海·课堂例题)下图是我国2014-2020年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合与的关系,请求出相关系数,并用相关系数的大小说明与相关性的强弱.
参考数据:,,.
【答案】0.99,与的线性相关程度比较高
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】计算出的值,将参考数据代入相关系数公式,求出的值,即可得出结论.
【详解】由折线图中数据和参考数据得,
,
,,
所以,
所以与的线性相关程度比较高.
【变式2-1】.(24-25高三·上海·课堂例题)季节性流感分布广泛,儿童普遍易感.某区将去年春季该区患季节性流感的小朋友按照年龄与人数统计,得到如下数据:
年龄
2
3
4
5
6
患病人数
22
22
17
14
10
(1)求关于的线性回归方程;
(2)计算样本相关系数(计算结果精确到0.01),并回答是否可以认为该区去年春季患季节性流感人数与年龄负相关很强?(若,则、相关性很强;若,则、相关性一般;若,则、相关性较弱.)
【答案】(1)
(2),是
【知识点】相关系数的意义及辨析、相关系数的计算、求回归直线方程
【分析】(1)根据线性回归方程的计算公式即可求解;
(2)根据相关系数的计算公式即可求解,然后判断相关系数的绝对值在哪个范围就能知道和相关性强弱.
【详解】(1)由题意可得,,
,
.
故关于的线性回归方程为;
(2),
由,可知、负相关.
又因为,所以、相关性很强.
因此,可以认为该区去年春季患季节性流感人数与年龄负相关很强.
【变式2-2】.(24-25高三·上海·课堂例题)测得10对父子身高[单位:英寸(1英寸)如下:
父亲身高()
60
62
64
65
66
67
68
70
72
74
儿子身高()
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
(1)对变量与进行相关性检验;
(2)如果与之间具有相关关系,求回归直线方程;
(3)如果父亲身高为73英寸,试估计儿子的身高.
参考数据:,,,,,,.
【答案】(1)与之间具有较强的线性相关关系
(2)
(3)69.9英寸
【知识点】相关系数的计算、根据回归方程进行数据估计、求回归直线方程
【分析】(1)根据相关系数的公式代入计算的答案;
(2)根据最小二乘法计算得到回归直线方程;
(3)把代入回归方程得.
【详解】(1),
因为非常接近于1,所以与之间具有较强的线性相关关系;
(2)设回归直线方程为,,,
所以回归直线方程为;
(3)时,,所以父亲身高为73英寸时,儿子的身高约为69.9英寸.
【变式2-3】.(25-26高三上·上海·单元测试)当前,冷冻冷藏类技术发展迅速且应用广泛.某制冷技术重点实验室研究了不同果蔬在不同冻结速率下的冰点温度,以及低温环境对果蔬热物性的影响.设冻结速率为x(单位:分钟),冰点温度为y(单位:℃),如表为某种水果冰点温度随冻结速率变化的统计数据:
x
10
20
30
40
50
y
-5
-4.5
-2
1
2
根据以上数据,绘制了散点图:
(1)由散点图可以看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明;
(2)求y关于x的线性回归方程,并预测当冻结速率为60分钟时,这种水果的冰点温度.
【答案】(1)答案见解析
(2), 4.15℃
【知识点】相关系数的计算、求回归直线方程
【分析】(1)根据所给数据计算相关系数可得.
(2)求出回归方程中系数,得回归方程,代入回归方程可得估计值.
【详解】(1),
,因为,
故两个变量间线性相关性很强,可以用线性回归模型拟合y与x的关系;
(2)由表可知,,,
,,
故y关于x的线性回归方程为,
当时,,
故当冻结速率为60分钟时,这种水果的冰点温度为4.15℃.
【考点题型三】样本相关指数计算()
【例3】(2024·重庆涪陵·模拟预测)为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2021年种植的一批试验紫甘薯在温度升高时6组死亡的株数.
温度/℃
21
23
24
27
29
30
死亡数/株
6
11
20
27
57
77
经计算,,,,,
,,,其中,分别为试验数据中的温度和死亡株数,.
(1)若用一元线性回归模型,求关于的经验回归方程;
(2)若用非线性回归模型求得关于的非线性经验回归方程,且相关指数为.
(ⅰ)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好;
(ii)用拟合效果好的模型预测温度为35℃时该批紫甘薯的死亡株数(结果取整数).
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为:,;相关指数为:.
【答案】(1);
(2)①;②192.
【知识点】根据样本中心点求参数、非线性回归、相关指数的计算及分析、求回归直线方程
【分析】(1)根据题意,利用最小二乘法即可求出回归方程;
(2)①通过题意给的公式计算求出即可比较拟合效果;②根据题意直接带入求值即可.
【详解】(1)由题意可知,
,
∴关于的线性回归方程是;
(2)①用指数回归模型拟合与的关系,相关指数,
线性回归模型拟合与的关系,相关指数,
则,
∴用比拟合效果更好;
②中,令,
则,
故预测温度为时该紫甘薯死亡株数约为192株.
【变式3-1】.(24-25高二下·宁夏银川·期中)近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2020—2025年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2020—2025年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:)
【答案】
【知识点】相关指数的计算及分析
【分析】由所给参考数据求出,即可求出决定系数.
【详解】
,
所以.
故答案为:.
【变式3-2】.(2024·新疆·二模)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数(其中10场为一个周期)与产品销售额(千元)的数据统计如下:
直播周期数
1
2
3
4
5
产品销售额(千元)
3
7
15
30
40
根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:
55
382
65
978
101
其中,
(1)请根据表中数据,建立关于的回归方程(系数精确到);
(2)①乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
(3)由①所得的结论,计算该直播间欲使产品销售额达到8万元以上,直播周期数至少为多少?(最终答案精确到1)
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,相关指数:.
【答案】(1)
(2)乙建立的回归模型拟合效果更好
(3)10
【知识点】相关指数的计算及分析、根据回归方程进行数据估计、非线性回归
【分析】(1)取对数,把非线性方程转化为线性方程,利用公式求解系数可得答案;
(2)根据公式求解相关指数,比较两个方程的相关指数的大小可得结论;
(3)利用乙的方程进行预测,求解不等式可得结果.
【详解】(1)将两边取对数得,令,则;
∵,∴根据最小二乘估计可知,;
∴,
∴回归方程为,
即.
(2)①甲建立的回归模型的.
∴乙建立的回归模型拟合效果更好.
(3)由①知,乙建立的回归模型拟合效果更好.
设,解得,∴直播周期数至少为10.
【变式3-3】.(23-24高二上·四川攀枝花·期末)攀枝花属于亚热带季风气候区,水果种类丰富.其中,“红格脐橙”已经“中华人民共和国农业部2010年第1364号公告”予以登记,根据其种植规模与以往的种植经验,产自该果园的单个“红格脐橙”的果径(最大横切面直径,单位:)在正常环境下服从正态分布.
(1)一顾客购买了10个该果园的“红格脐橙”,求会买到果径小于的概率;
(2)为了提高利润,该果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图是2013年至2022年(单位:万元)与年利润增量y(单位:万元)的散点图:
该果园为了预测2023年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由图中样本点的分布,可以认为样本点集中在曲线:的附近.对投资金额做交换,令,且有,,,.
(ⅰ)根据所给的统计量,求模型②中关于的回归方程;
(ⅱ)根据下列表格中的数据,比较两种模型的相关指数R2,并选择拟合精度更高、更可靠的模型,预测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型
模型①
模型②
回归方程
102.28
36.19
附:若随机变量,则,;
样本()的最小二乘估计公式为,;
相关指数.
参考数据:,,,.
【答案】(1);
(2)(ⅰ);(ⅱ)模型②刻画的拟合效果更好,当时,模型②的年利润增量的预测值为万元.
【知识点】相关指数的计算及分析、3δ原则、用回归直线方程对总体进行估计
【分析】(1)由正态分布的对称性结合法则求解;
(2)(ⅰ)由已知数据利用最小二乘法求解模型②中关于的回归方程;
(ⅱ)由已知表格中的数据,可得模型①的小于模型②,说明模型②刻画的拟合效果更好,再由(ⅰ)中求得线性回归方程求解.
【详解】(1)由题意,,,
由正态分布曲线的对称性可知,
.
设一顾客购买了10个该果园的“红格脐橙”,
其中果径小于的有个,,
故,
∴一顾客购买了10个该果园的“红格脐橙”,会买到果径小于的概率为;
(2)(ⅰ)由题中所给数据,可得,,
,.
∴模型②中关于的线性回归方程为;
(ⅱ)由表格中的数据,有,即,
∴模型①的小于模型②,说明模型②刻画的拟合效果更好.
当时,模型②的年利润增量的预测值为:
万元.
【考点题型四】残差有关计算()
【例4】(24-25高三上·上海·单元测试)两个线性相关变量与的统计数据如表:
9
9.5
10
10.5
11
11
10
8
6
5
其回归直线方程是,则相对应于点的残差为 .
【答案】0.2/
【知识点】残差的计算、根据样本中心点求参数
【分析】根据线性回归方程一定经过样本点中心,进而求解参数,再根据残差的计算公式即可得出答案.
【详解】,
所以样本点中心为,代入回归方程得:,解得,
所以回归方程为,当时,,
所以残差为:.
故答案为:.
【变式4-1】.(24-25高三下·上海金山·阶段练习)某工厂为研究某种产品产量(吨)与所需某种原材料(吨)得相关性.在生产过程中收集4组对应数据如表所示,已知关于的经验回归方程为,则表中的值为 ,在样本点处的离差为 .
3
4
5
6
2.5
3
4
【答案】 4.5
【知识点】残差的计算、根据样本中心点求参数
【分析】根据回归直线过样本中心点得出,再根据定义计算离差即可.
【详解】,,
当时,,则离差为.
故答案为:;.
【变式4-2】.(2025高三·全国·专题练习)某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集4组对应数据,如表所示.(残差=观测值-预测值)
3
4
5
6
2.5
3
4
根据表中数据,得出关于的经验回归方程为.据此计算出在样本处的残差为,则表中的值为 .
【答案】4.5
【知识点】根据样本中心点求参数、残差的计算、计算样本的中心点
【分析】根据残差求得时的预测值,从而求得,再利用样本中心一定在回归直线上,即可求得答案.
【详解】由题意可得时的预测值为,
则有,
即,
又,
故,
故答案为:4.5
【考点题型五】一元线性回归模型()
【例5】(24-25高三上·上海·课后作业)据不完全统计,某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)如下:变量x、y为线性相关关系.
x
2
4
6
8
y
20
35
61
80
(1)求线性回归方程必过的点;
(2)求线性回归方程;
(3)若实际销售额要求不少于121.1百万元,则原材料耗费至少要多少百万元?
【答案】(1)
(2)
(3)12
【知识点】计算样本的中心点、根据回归方程进行数据估计、求回归直线方程
【分析】(1)根据给定数表求出即可.
(2)利用最小二乘法求出线性回归方程.
(3)利用(2)的结论,求解不等式即可估计得结果.
【详解】(1)依题意,,,
所以线性回归方程必过样本中心点.
(2)依题意,,,
,,
所以线性回归方程为.
(3)由(2)得,,解得,
所以原材料耗费至少要12百万元.
【变式5-1】.(24-25高三·上海·随堂练习)某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期的产量为每亩 千克.
附:用最小二乘法求得线性回归方程为,其中,.
【答案】1384
【知识点】根据回归方程进行数据估计、求回归直线方程
【分析】计算出,故代入公式得到,,得到,代入,预测第五期的产量.
【详解】设父代产量为,子代产量为,
则,,
所以,
,
所以,.
则线性回归方程为,当时,,
所以预测第五期的产量为每亩1384公斤.
故答案为:1384
【变式5-2】.(25-26高三上·上海·单元测试)某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
1
2
3
4
销售额(万元)
2
3
现已知,且回归方程中的,据此模型预测广告费用为10万元时,销售额为 万元.
【答案】35
【知识点】根据样本中心点求参数、根据回归方程进行数据估计
【分析】由求解即可.
【详解】,
由,则,得,
所以,
当时,得.
故答案为:35
【变式5-3】.(24-25高三·上海·课堂例题)如图,在实验室细菌培养过程中,细菌生长主要经历调整期、指数期、稳定期和衰亡期四个时期.在一定条件下,培养基上细菌的最大承载量(达到稳定期时的细菌数量)与培养基质量具有线性相关关系.某实验室在培养细菌的过程中,通过大量实验获得了以下统计数据:
培养基质量(g)
20
40
50
60
80
细菌的最大承载量(单位)
300
400
500
600
700
(1)建立关于的回归直线方程,并预测当培养基质量为100g时细菌的最大承载量;
(2)研究发现,细菌的调整期一般为3小时,其在指数期的细菌数量(单位)与细菌被植入培养基的时间近似满足函数关系,试估计在100g培养基上培养细菌时指数期的持续时间(精确到1小时).
【答案】(1),850(单位)
(2)10小时
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据表中的数据求出,,,,然后根据公式求出,从而可求出回归直线方程,把代入方程可求出培养基质量为100g时细菌的最大承载量;
(2)由(1)可知,代入可求出的值.
【详解】(1)由题意可得,
,,
,
,
所以,
故,
所以关于的回归直线方程为,
当培养基质量为100克时细菌的最大承载量为(单位);
(2)在100g培养基上培养细菌时,由(1)可知最大承载量为850单位,
又,
即,
化简可得,
所以,则,
所以在100克培养基上培养细菌时指数期的持续时间为10小时.
【变式5-4】.(23-24高二上·上海·课后作业)某工厂生产某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:
月份
产量x/千件
单位成本y/(元/件)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)计算产量与单位成本的相关系数;
(2)建立产量与单位成本的回归方程;
(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?
【答案】(1)
(2)
(3)元/件
【知识点】根据回归方程进行数据估计、相关系数的计算、求回归直线方程
【分析】(1)根据相关系数的公式进行计算即可;
(2)根据回归直线的相关公式计算即可;
(3)利用(2)中求出的回归直线方程进行求解.
【详解】(1)根据相关系数的公式,,由表格数据,
,,,
,,
于是
(2)设回归直线方程为,根据公式,,
,故回归直线方程为
(3)根据(2)可知,,时,,预计成本是元/件
【考点题型六】非线性回归模型()
【例6】(24-25高三下·浙江宁波·阶段练习)某企业前8个月月底的盈利金额(万元)与月份之间的关系如下表所示:
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用模拟与的关系,求出回归方程;
(2)根据(1)的结果计算,在几月份的月底统计的盈利金额开始超过60万元?
附:①;
②;
③回归直线中斜率和截距的最小二乘估计公式为:.
【答案】(1)
(2)10月
【知识点】求回归直线方程、根据回归方程进行数据估计、用回归直线方程对总体进行估计、非线性回归
【分析】(1)对两边同时取自然对数得,令,利用最小二乘法可求得,由此可得经验回归方程;
(2)根据回归方程代入计算求解.
【详解】(1)令,则,
,
,
故.
(2)令,
故,
故10月开始超过.
【变式6-1】.(23-24高二下·广东肇庆·期末)用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【答案】
【知识点】非线性回归
【分析】将两边取自然对数,再结合题意得到,,即可求出.
【详解】因为,两边取自然对数可得,
令,可得,又,
所以,,所以,
所以.
故答案为:
【变式6-2】.(23-24高二下·安徽·阶段练习)以模型去拟合一组数据时,已知如下数据:,,则实数的值为 .
【答案】2
【知识点】非线性回归、根据样本中心点求参数、指数式与对数式的互化
【分析】由题意取对数可得,由回归直线过和已知数据即可得解.
【详解】由两边取自然对数,可得,
令,因关于的回归直线经过,
而,故得,
又
,解得
故答案为:2.
【变式6-3】.(23-24高二下·河南南阳·期中)已知变量和之间的关系可以用模型来拟合.设,若根据样本数据计算可得,且与的线性回归方程为,则 .(参考数据:)
【答案】0.3
【知识点】非线性回归、根据样本中心点求参数
【分析】利用非线性回归通过拟合函数计算即可.
【详解】由题意知,解得,
所以,
由,得,所以,
则.
故答案为:0.3
【变式6-4】.(24-25高二下·山东青岛·期中)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
参考数据:,.
62.14
1.54
2535
50.12
3.47
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘估计公式分别为: ,.,
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【答案】(1)适宜作为投放量与年使用人次的回归方程类型,
(2)列联表见解析,认为是否报废与保养有关
【知识点】非线性回归、独立性检验解决实际问题、求回归直线方程、完善列联表
【分析】(1)由散点图可知,应选指数函数模型,根据已知条件两边同时取对数,转化为关于与的一次函数模型,结合参考数据即可求解;
(2)根据题意完成列联表,利用独立性检验公式,计算的值可判断.
【详解】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
6
14
20
未报废
54
26
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
【考点题型七】独立性检验的基本思想()
【例7】(24-25高三·上海·课堂例题)下表是甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的列联表,则的值为 .(精确到0.001)
不及格(人)
及格(人)
合计(人)
甲班
12
33
45
乙班
9
36
45
合计
21
69
90
【答案】0.559
【知识点】卡方的计算
【分析】利用卡方的计算公式计算即可得到答案.
【详解】
故答案为:.
【变式7-1】.(24-25高三·上海·课堂例题)在独立性检验中,为了调查变量与变量的关系,经过计算得到,表示的意义是 (填序号).
①有的把握认为变量与变量没有关系;
②有的把握认为变量与变量有关系;
③有的把握认为变量与变量有关系;
④有的把握认为变量与变量没有关系.
【答案】③④
【知识点】独立性检验的基本思想
【分析】由独立性检验中观测值和临界值的意义,即可得出正确的答案.
【详解】在独立性检验中,由
表示的意义是:有的把握认为变量与变量没有关系,所以④正确;
即有的把握认为变量与变量有关系,所以③正确.
故答案为:③④
【变式7-2】.(25-26高三上·上海·单元测试)根据下表计算:
不看电视
看电视
男
37
85
女
35
143
.(结果保留3位小数)
【答案】4.514
【知识点】卡方的计算
【分析】完善列联表,直接根据卡方计算公式计算卡方即可得解.
【详解】由题意
性别
是否看电视
合计
不看电视
看电视
男
37
85
122
女
35
143
178
合计
72
228
300
故答案为:4.514.
【变式7-3】.(24-25高三·上海·课堂例题)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为:能否一次考试通过与是否集中培训 .(选填“有关”或“无关”)
【答案】有关
【知识点】卡方的计算、独立性检验解决实际问题
【分析】列出列联表,根据数据求得并判断.
【详解】依题意,列联表如下:
集中培训
分散培训
合计
一次考试通过
45
30
75
一次考试未通过
10
20
30
合计
55
50
105
则,
因此认为“能否一次考试通过与是否集中培训有关”的把握为97.5%,
所以能否一次考试通过与是否集中培训有关.
故答案为:有关
【变式7-4】.(2025·上海长宁·二模)为了研究吸烟习惯与慢性气管炎患病的关系,某疾病预防中心对相关调查数据进行了研究,假设:患慢性气管炎与吸烟没有关系,并通过计算得到统计量,则可推断 原假设.(填“拒绝”或“接受”,规定显著性水平.)
【答案】拒绝
【知识点】独立性检验的基本思想
【分析】在独立性检验中,当计算得到的统计量大于临界值时,就拒绝原假设,即可求解.
【详解】已知显著性水平,,即临界值为,
因为,所以可推断拒绝原假设.
故答案为:拒绝.
【考点题型八】独立性检验解决实际问题()
【例8】(24-25高三·上海·课堂例题)某研究型学习小组调查研究“中学生使用智能手机对学习的影响”,对校内80名学生调查得到部分统计数据如下表,记为事件:“学习成绩优秀且不使用手机”;为事件:“学习成绩不优秀且不使用手机”,且已知事件的频率是事件的频率的2倍.
不使用手机(人)
使用手机(人)
合计(人)
学习成绩优秀人数
12
学习成绩不优秀人数
26
合计
附:,其中,
(1)求表中、的值,并补全表中所缺数据;
(2)运用独立性检验思想,判断是否有把握认为中学生使用手机对学习有影响?
【答案】(1),表格见解析
(2)有把握认为中学生使用手机对学习有影响.
【知识点】完善列联表、独立性检验解决实际问题
【分析】(1)由题意得,求出,再结合表中的数据可补全列联表;
(2)根据列联表中的数据利用公式求解,然后根据临界值表进行判断.
【详解】(1)由已知得,解得,
补全表中所缺数据如下:
不使用手机
使用手机
合计
学习成绩优秀人数
28
12
40
学习成绩不优秀人数
14
26
40
合计
42
38
80
(2)根据题意计算,
所以有把握认为中学生使用手机对学习有影响.
【变式8-1】.(24-25高三下·上海·阶段练习)第二十二届卡塔尔世界杯足球决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队,某校为了丰富学生课余生活,组建了足球社团,足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各名进行调查,部分数据如下表所示.
喜欢足球
不喜欢足球
合计
男生
女生
合计
(1)根据所给数据求出、、、的值,并判断是否有95%的把握认为该校学生喜欢足球与性别有关?(附)
(2)社团指导老师从喜欢足球的学生中抽取了名男生和名女生示范点球射门.已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求人进球总次数的分布和数学期望.
【答案】(1),,、,有关
(2)分布列见解析,期望
【知识点】完善列联表、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据列联表可得出、、、的值,计算出的观测值,结合临界值表可得出结论;
(2)由题意可知,人进球总次数的所有可能取值为、、、,计算出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得的值.
【详解】(1)由列联表中的数据可得,,
,,
所以,,
故有的把握认为该校学生喜欢足球与性别有关.
(2)人进球总次数的所有可能取值为、、、,
,,
,,
所以,随机变量的分布列如下表所示:
数学期望.
【变式8-2】.(24-25高三下·上海·阶段练习)某兴趣小组对高三刚结束的物理测试成绩进行随机调查,将所有选考物理的考生按是否同时选考化学分为A、B两类,并从中随机抽取100名考生的成绩,整理数据如下表(单位:人)
物理成绩学生分类
A类男生
2
8
15
8
B类男生
3
10
20
4
A类女生
3
4
2
1
B类女生
10
6
4
0
(1)估计该校高三学习物理男生人数与女生人数之比;
(2)求A类考生物现平均成绩的估计值(同一组中的数据用该组区间中点值代表,结果四舍五入到整数);
(3)把成绩在称为“合格”,成绩在称为“不合格”,是否有95%的把握认为该校考生的本次物理成绩合格与否和性别有关?
附:,其中.
【答案】(1)
(2)72
(3)有95%的把握认为该校考生的本次物理成绩合格与否和性别有关.
【知识点】独立性检验解决实际问题、由频率分布直方图估计平均数、由频率分布直方图计算频率、频数、样本容量、总体容量
【分析】(1)根据表中数据求出男生和女生人数即可求解;
(2)根据频数分布列表,利用每组的组中值乘以对应的频率之和即可求解;
(3)根据表中数据可补充列联表,利用卡方的计算公式求出,结合表中的数据即可得出结论.
【详解】(1)由表中数据可知,男生共有,
女生共有,
由此估计该校高三学习物理男生人数与女人数的比值约为.
(2)A类共有:人
类物理平均成绩的估计值为
(3)由表中数据可知,列联表如下:
性别
成绩
合计
及格
不及格
男生
65
5
70
女生
17
13
30
合计
82
18
100
零假设为:该校考生的物理成绩与考生性别无关,
根据表格中数据计算得到
所以有95%的把握认为该校考生的本次物理成绩合格与否和性别有关.
【变式8-3】.(23-24高二下·辽宁沈阳·期中)近年来,短视频作为以视频为载体的聚合平台,社交属性愈发突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对人进行了一次市场调研,以决策是否开发将短视频剪接成长视频的APP,得到如下数据:
青年人
中年人
老年人
对该种APP有需求
对该种APP无需求
其中的数据为统计的人数,已知本次被调研的青年人数为.
(1)求,的值.
(2)在犯错误的概率不超过的前提下,对该种APP的需求,是否与是青年人还是中老年人有关?
参考公式:,其中.
临界值表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)有关
【知识点】完善列联表、卡方的计算、独立性检验解决实际问题
【分析】(1)根据条件,建立方程组,即可求解出的值;
(2)根据(1)得出列联表,再求得,即可求解.
【详解】(1)由题知,解得.
(2)由(1)知青年人和中老年人对APP是否有需求的列联表为
青年人
中老年人
合计
对该种APP有需求
对该种APP无需求
合计
所以,
故在犯错误的概率不超过的前提下,对该种APP的需求,与是青年人还是中老年人有关.
【变式8-4】.(24-25高三上·上海·单元测试)为了响应政府“节能减排”的号召,某汽车厂决定生产一款纯电动汽车.生产前,厂家进行了人们对纯电动汽车接受程度的调查.在20∼60岁的人群中随机抽取了100人,调查数据的频率分布直方图(如图)和接受纯电动汽车的人数与年龄的统计结果如下表所示:
年龄
接受的人数(人)
14
6
15
28
17
(1)由以上统计数据填列联表,并判断能否在犯错误的概率不超过0.05的前提下,认为以44岁为分界点的不同年龄人群对纯电动汽车的接受程度有差异?
44岁以下
44岁及44岁以上
总计
接受(人)
不接受(人)
总计
(2)若以44岁为分界点,从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2人.记抽到44岁以下的人数为,求随机变量的分布及期望.
【答案】(1)列联表见解析,能;
(2)分布列见解析,期望为.
【知识点】完善列联表、独立性检验解决实际问题、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)根据频率分布直方图及频率分布表完善列联表,再计算的观测值即可得解.
(2)利用分层抽样求出抽取的8人中两个年龄段的人数,求出的可能取值及各个值对应的概率,列出分布列并求出期望.
【详解】(1)由频率分布直方图得,年龄在44岁以下的有(人),
于是得联表如下:
44岁以下
44岁及44岁以上
总计
接受
35
45
80
不接受
15
5
20
总计
50
50
100
由表中数据得,
所以能在犯错误的概率不超过0.05的前提下,认为以44岁为分界点的不同人群对“纯电动汽车”的接受程度有差异.
(2)依题意,抽取的8人中44岁以下的有6人,44岁及44岁以上的有2人,
则的可能取值有0、1、2,
,,,
所以随机变量的分布为:
.
提升训练
一、填空题
1.(2025·上海杨浦·二模)植物社团的同学观察一株植物的生长情况,为了解植物高度(单位:厘米)与生长期(单位:天)之间的关系,随机统计了某4天的植物高度,并制作了如下对照表:
生长期
3
9
11
17
植物高度
2.4
3.4
3.8
5.2
由表中数据可得回归方程中,试预测生长期是30天时,植物高度约为 厘米.
【答案】
【知识点】求回归直线方程、根据回归方程进行数据估计
【分析】根据表中数据求出线性回归方程,再代入即可.
【详解】由题意可得,,
所以,
所以回归方程为,
所以预测生长期是30天时,植物高度约为厘米.
故答案为:.
2.(2025·上海松江·二模)根据如表所示的样本数据,用最小二乘法求得线性回归方程为,则回归系数的值为 .
6
8
9
10
12
6
5
4
3
2
【答案】/
【知识点】计算样本的中心点、根据样本中心点求参数
【分析】根据线性回归方程过样本中心点进行求解即可.
【详解】首先计算.
因为回归直线过样本中心点,把代入,
可得,解得.
故答案为:.
3.(2025·上海徐汇·二模)如下是一个列联表,则 .
y1
y2
总计
x1
a
35
45
x2
7
b
n
总计
m
73
s
【答案】90
【知识点】完善列联表
【分析】完善列联表即可求解.
【详解】由表格有,
故答案为:.
4.(2025·上海奉贤·二模)通过随机抽样,获得某种商品消费者年需求量与该商品每千克价格之间的一组数据调查,如下表所示:
价格(百元)
4
4
4.6
5
5.2
5.6
6
6.6
7
10
需求量(千克)
3.5
3
2.7
2.4
2.5
2
1.5
1.2
1.2
1
那么线性相关系数 .(精确到)线性相关系数公式
【答案】
【知识点】相关系数的计算
【分析】利用相关系数公式计算即可.
【详解】由题意可得,
,
所以
,
,
所以.
故答案为:.
5.(24-25高三下·上海虹口·期中)某公司为了解用电量(单位:千瓦时)与气温(单位:摄氏度)之间的关系,随机统计了4天的用电量与当天气温,绘制了如右表格,由表中数据可得回归方程,则实数
【答案】
【知识点】根据样本中心点求参数
【分析】求出样本中心点的坐标,将样本中心点的坐标代入回归直线方程,可得出实数的值.
【详解】由表格中的数据可知,,,
所以,样本中心点的坐标为,
将样本中心点的坐标代入回归直线方程可得,解得.
故答案为:.
6.(24-25高三上·上海·单元测试)下列说法中正确的是 .
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量、的相关系数为,则越接近于0,和之间的线性相关程度越强;
④在一个列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大.
【答案】①④
【知识点】解释回归直线方程的意义、相关系数的意义及辨析、独立性检验的基本思想
【分析】利用方差的性质判断①的正误;利用回归直线的性质判断②,相关系数判断③,独立检验判断④.
【详解】对于①,将一组数据中的每一个数据都加上或减去同一个常数后,方差不变,满足方差的性质,①正确;
对于②,设有一个线性回归方程,变量x增加1个单位时,平均减少5个单位;所以②不正确;
对于③,设具有相关关系的两个变量x,y的相关系数为r,则越接近于0,x和y之间的线性相关程度越弱,所以③ 不正确;
对于④,在一个2×2列联表中,由计算得的值,则的值越大,判断两个变量间有关联的把握就越大,所以④正确;
故答案为:①④.
7.(24-25高三·上海·随堂练习)随着智能手机的普及,使用手机上网成为人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:
x
30
35
40
45
50
y
18
14
10
8
5
计算该流量包的定价x与购买人数y的相关系数 .(结果保留3位小数)
【答案】
【知识点】相关系数的计算
【分析】根据相关系数的公式计算结果;
【详解】根据表格中的数据,
可得,.
可列表如下:
i
1
2
3
4
5
-10
-5
0
5
10
7
3
-1
-3
-6
-70
-15
0
-15
-60
则,
,
因此相关系数
.
故答案为:.
8.(23-24高二下·上海·期末)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取30名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,取显著性水平为,我们可以认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重 .(填入有关或无关)
身高
体重
超重
不超重
总计
偏高
12
3
15
不偏高
5
10
15
总计
17
13
30
附表:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中
【答案】有关
【知识点】独立性检验的基本思想、独立性检验解决实际问题、卡方的计算
【分析】根据列联表,计算的值并与比较即得结论.
【详解】零假设为假设该学校15至16周岁的30名男生的身高是否偏高与体重是否超重无关,
由,
由小概率值的独立性检验,零假设不成立,
即认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重有关,这个判断犯错误的概率不超过0.05.
故答案为:有关.
二、解答题
9.(2025·上海奉贤·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病 的关系,测得数据如表所示:
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
283
患慢性气管炎者
总计
134
339
(1)估算样本中吸烟者中患慢性支气管炎的百分比;
(2)有多少把握认为患慢性支气管炎与吸烟有关?
附:,其中,,,.
【答案】(1)20.98%
(2)有把握
【知识点】卡方的计算、独立性检验解决实际问题、完善列联表
【分析】(1)计算可得吸烟者为,吸烟者中患有慢性支气管炎的人数为,
(2)利用表格中的数据计算的观测值,再与临界值比对得解.
【详解】(1)因为,解得,,解得,
所以吸咽者为,吸烟者中患有慢性支气管炎的人数为,
所以,
所以,估算样本中吸烟者约有20.98%患有慢性支气管炎.
(2)零假设:假设患慢性支气管炎与吸烟无关, 计算,
,
,从而不成立,
所以我们有把握认为患慢性支气管炎与吸烟有关.
10.(24-25高三下·上海·阶段练习)近年来,随着智能手机的普及,网上买菜迅速进入了我们的生活.现将一周网上买菜次数超过3次的市民认定为“喜欢网上买菜”,不超过3次甚至从不在网上买菜的市民认定为“不喜欢网上买菜”.某市M社区为了解该社区市民网上买菜情况,随机抽取了该社区100名市民,得到的统计数据如下表所示:
喜欢网上买菜
不喜欢网上买菜
合计
年龄不超过45岁的市民
40
10
50
年龄超过45岁的市民
20
30
50
合计
60
40
100
(1)是否有95%的把握认为社区的市民喜欢网上买菜与年龄有关?
(2)社区的市民小张周一、二均在网上买菜,且周一等可能地从两个买菜平台随机选择一个下单买菜如果周一选择平台买菜,那么周二选择平台买菜的概率为,如果周一选每平台买菜,那么周二选择平合买菜的概率为,求小张周二选择平台买菜的概率;
(3)用频率估计概率,现从社区随机抽取20名市民,记其中喜欢网上买菜的市民人数为随机变量,并记随机变量,求的期望和方差.
参考公式:,其中.
0.1
0.05
0.01
0.005
0.001
3.841
6.635
10.828
【答案】(1)有95%的把握认为喜欢网上买菜与年龄有关
(2)
(3),;,
【知识点】二项分布的均值、利用全概率公式求概率、独立性检验解决实际问题、求离散型随机变量的均值
【分析】(1)卡方检验表明年龄与网上买菜偏好相关;
(2)全概率计算得周二选的概率为;
(3)二项分布的期望和方差通过参数推导得出.
【详解】(1)有95%的把握认为喜欢网上买菜与年龄有关.
,
查表得临界值3.841,由于,认为喜欢网上买菜与年龄有关;
(2)
;
(3)喜欢网上买菜的概率,,
则
对于,利用线性变换性质:
.
11.(24-25高三·上海·课堂例题)某机构为了解某大学中男生的体重(单位:kg)与身高(单位:cm)是否存在较好的线性关系,该机构搜集了7位该校男生的数据,得到如下表格:
序号
1
2
3
4
5
6
7
身高(cm)
161
175
169
178
173
168
180
体重(kg)
52
62
54
70
66
57
73
根据表中数据计算得到关于的线性回归方程为,求.
【答案】
【知识点】计算样本的中心点、根据样本中心点求参数
【分析】根据给定数表,求出样本的中心点,再由回归直线必过样本中心点即可得解.
【详解】依题意,,
,而,
所以.
12.(24-25高三·上海·随堂练习)春节期间,由于高速免费,车流量逐步增加,某高速口统计了5天中的车流量与空气质量指数的关系,所得数据如下表所示:
车流量x(万辆)
12
12.5
13
13.5
14
空气质量指数y
74
76
78
77
80
(1)在下列网格纸中绘制出散点图;
(2)观察散点图的趋势,如果能看成线性关系,请在图中画出一条直线来近似地表示这种关系,并计算车流量与空气质量指数的相关系数.
【答案】(1)画图见解析
(2)画图见解析,
【知识点】绘制散点图、相关系数的计算
【分析】(1)根据表里数据标点即可;
(2)根据公式计算相关系数;
【详解】(1)
(2)可以看成线性关系,如图所示,
计算得:,
;
,
;
则.
13.(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
【答案】(1)列联表见解析,有关联;
(2),,有价值;
【知识点】相关系数的计算、独立性检验解决实际问题、根据回归方程求原数据中的值、完善列联表
【分析】(1)先补全列联表,再计算卡方,根据独立性检验原则即可判断;
(2)根据回归直线过样本点中心可求得,再根据相关系数公式求得,从而可判断.
【详解】(1)补全列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,推断不成立,
即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,可得,
因为经验回归方程为,可得,
则,求得,
所以,
所以,,
所以,
因为,所以该经验回归方程有价值.
3 / 3
学科网(北京)股份有限公司
$$