摘要:
**基本信息**
聚焦成对数据统计分析,构建“概念-方法-应用”三层体系,通过线性/非线性回归、残差分析、独立性检验四大模块,系统提炼解题步骤与转换技巧,培养数据观念与模型意识。
**专项设计**
|模块|题量/典例|方法提炼|知识逻辑|
|----|-----------|----------|----------|
|线性回归与相关系数|5典例|相关系数计算与判断、回归方程四步法|从相关关系判断到回归模型构建,体现统计推断逻辑|
|非线性回归|4典例|幂型/指数型等5类函数转换法|通过变量代换实现非线性问题线性化,培养转化思维|
|残差与决定系数|4典例|残差计算、残差图分析、决定系数应用|从模型拟合效果评估到预测可靠性判断,完善统计建模流程|
|列联表与独立性检验|5典例|列联表完善、卡方计算与独立性判断|从分类变量关联分析到假设检验,发展逻辑推理能力|
内容正文:
专题08 成对数据的统计分析
目录(Ctrl并单击鼠标可跟踪链接)
典例详解 1
类型一、线性回归方程与相关系数 1
类型二、非线性回归方程 11
类型三、残差与决定系数 18
类型四、列联表与独立性检验 26
压轴专练 36
类型一、线性回归方程与相关系数r
1、样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
2、相关系数r与相关程度
(1)当时,称成对样本数据正相关;
当时,成对样本数据负相关;
当时,成对样本数据间没有线性相关关系;
(2)样本相关系数r的取值范围为[-1,1];
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
3、求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
注:①经验回归直线一定过点,点通常称为样本点的中心
1.2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
【答案】(1),可用线性回归模型拟合与的关系
(2),(万亿千瓦时)
【详解】(1)因为,
所以,
所以
,
故可用线性回归模型拟合与的关系;
(2),
则,
则经验回归方程为,
令,则,
故预估2026年我国全口径发电量为(万亿千瓦时)
2.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
【答案】(1)证明见解析
(2),具有较强的线性相关程度.
(3)关于的线性回归方程为,预测研发投入亿元时的经济收益为亿元.
【分析】(1)先利用完全平方公式展开,再根据平均数定义,即,对展开后的式子进行化简,最终推导出目标等式;
(2)先计算的均值,再分别求出、与交叉项,代入相关系数公式计算,最后根据与的大小关系判断线性相关程度;
(3)利用已求出的交叉项与计算回归系数,再根据求出截距,得到回归方程,最后将代入方程,计算并得到预测的经济收益值.
【详解】(1)已知,即,
,
所以;
(2),,
,,
,
又因为,
所以
所以研发投入与经济收益之间具有较强的线性相关性.
(3),则,
所以关于的线性回归方程为,
将代入线性回归方程,得,
所以预测研发投入亿元时的经济收益为亿元.
3.为深入贯彻“五育融合”的教育理念,某地在中小学全面推广劳动教育实践课程,定期统计学生参与劳动实践的情况,下表是课程开设后前5个月的数据,其中表示月份编号,表示该月份日平均参与劳动实践的学生人数(单位:万).
月份编号
1
2
3
4
5
日平均参与人数
0.5
0.7
1
1.3
1.5
根据表格数据得到如图所示的散点图.
(1)根据散点图推断与是否线性相关,计算样本相关系数,并推断它们的相关程度;
(2)由(1)所得结论,建立关于的回归方程,并预测第6个月的日平均参与人数;
(3)假设第6个月(按30天计)的日参与人数(单位:万)服从正态分布,并视(2)的结果为的值,预测该月份日参与人数超过1.75万的天数是否不少于25天.
附:
①样本相关系数;
②回归直线的斜率的最小二乘估计为;
③;
④若,则.
【答案】(1)0.997,与的线性相关程度强;
(2),1.78
(3)该月日参与人数超过1.75万人的天数不少于25天.
【分析】(1)由散点图可知与之间线性相关,用不同公式计算可知相关系数,即线性相关程度强;
(2)用不同的公式计算出回归直线方程为,将代入可得出估计值为1.78.
(3)依题意可知,再结合正态分布的对称性计算即可.
本小题主要考查变量间的相关关系、样本相关系数、一元线性回归方程、正态分布的等知识;考查运算求解能力等;考查数形结合思想、化归与转化思想、或然与必然思想等;体现综合性、应用性,导向对数学建模、数学运算核心素养的关注.
【详解】(1)解法一:
根据散点图直观判断与之间线性相关.
因为,
所以与的线性相关程度强;
(也可利用“”或“接近1”判断相关程度强)
解法二:
根据散点图直观判断与之间线性相关.
因为,
,,,
,
所以与的线性相关程度强;
(也可利用“”或“接近1”判断相关程度强)
(2)解法一:
设,则,
所以,
故时,.
解法二:
设,则,
所以,
故时,.
(3)依题意,得,
由正态分布性质,可知.
因为,
所以.
因为,
所以该月日参与人数超过1.75万人的天数不少于25天.
4.某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,,其中(,且)分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为.
(1)求与的样本相关系数;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值,试估计该校共1600名高三学生中,数学成绩位于区间的人数.
附:①回归方程中,;
②样本相关系数;③;
④若,则.
【答案】(1)
(2)
【分析】(1)根据相关系数的求法求得正确答案.
(2)先求得,然后根据正态分布的对称性求得正确答案.
【详解】(1)由关于的线性回归方程为知,
即,
又由,可得,
所以与的样本相关系数:
.
(2)由,解得,所以,
又由,
及可得:
,
于是估计该校1600名高三学生中,
数学成绩位于区间的人数约为人.
5.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),回归方程为
(2)的分布列见解析;
【分析】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从2号门出校园的概率,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出的值.
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以y与x线性相关性很强,
可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件A,“甲从1号门进学校”为事件B,
“甲从2号门进学校”为事件C, “甲从3号门进学校”为事件D,
由题意可得,,,
,,,
由全概率公式得:
,同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,
,
故的分布列为:
0
1
2
3
4
所以.
类型二、非线性回归方程
常见的非线性函数转换方法
1、幂型函数y=axm(a为正数,x,y取正值)
对y=axm两边取常用对数,有lg y=lg a+mlg x,
令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,
该式表示u,v的线性函数.
2、指数型函数y=c·ax(a,c>0,且a≠1):
对y=cax两边取常用对数,则有lg y=lg c+xlg a,
令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,
该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
3、反比例函数y= (k>0):令u=,则y=ku,该式表示y,u的线性函数.
4、二次函数y=ax2+c:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
5、对数型函数y=clogax:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
1.(25-26高二下·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(1)
(2)644.6;258.3
【分析】(1)根据散点图分析得出回归方程类型,结合非线性回归模型转化线性回归方程分析求解即可;
(2)根据(1)中的方程代入相关变量计算分析即可.
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
2.(24-25高二下·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
3.某企业生产一种热销产品,产品日产量为吨,日销售额为万元(每日生产的产品当日可销售完毕),且产品价格随着产量变化而有所变化.经过一段时间的产销,随机收集了某5天的日产量(单位:吨)和日销售额(单位:万元)的统计数据,并对这5组数据做了初步处理,得到统计数据如下表:
15
73
4.8
10
161.2
1.6
39
15.9
其中,分别为数据的平均数.
(1)请从样本相关系数的角度,判断与哪一个模型更适合刻画日销售额关于日产量的关系?
(2)根据(1)的结果解决下列问题:
(i)建立关于的经验回归方程(斜率的结果四舍五入保留整数);
(ii)如果日产量(单位:吨)与日生产总成本(单位:万元)满足关系,根据(i)中建立的经验回归方程估计日产量为何值时,日利润最大?
附:①相关系数;
②经验回归方程的斜率和截距的最小二乘法公式分别为:.
③参考数据:.
【答案】(1)模型更适合刻画日销售额关于日产量的关系
(2)(i);(ii)20
【分析】(1)利用相关系数的公式求解即可;(2)(i)利用回归方程的定义计算求解即可;(ii)求出的解析式,结合导数研究的单调性,即可求解.
【详解】(1)设模型的相关系数为,设模型的相关系数为,
所以,
,
由于,所以模型拟合更好,即模型更适合刻画日销售额关于日产量的关系
(2)(i)由(1)知关于的经验回归方程为,
由题可得:,
,
所以
(ii)由题可得,
所以,
令解得:
当时,,当时,
则的单调增区间为,单调减区间为,
所以当时,日利润最大
4.(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1)
(2)
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)设相应事件,可得相应概率,结合全概率公式计算概率运算求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,
所以适宜作为y与x之间的回归方程模型.
令,则,
则,
所以,所以y关于x的回归方程为.
(2)设事件“所取两个鱼卵来自第i批”,
所以,
设事件“所取两个鱼卵有个“死卵”,
则,
由全概率公式,
所以取出“死卵”个数为1的概率为.
类型三、残差与决定系数
1、残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2、残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
3、残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
4、决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
1.某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)模型一的拟合效果更好,理由见解析
(2)(ⅰ)点,理由见解析;(ⅱ)
【分析】(1)根据残差图,比较带状区域的宽度即可得出判断;
(2)(ⅰ)计算出残差即可求解;(ⅱ)根据相关系数公式及经验回归方程计算即可.
【详解】(1)模型一的拟合效果更好,理由如下:
模型一残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型二的带状宽度窄,所以模型一的拟合精度更高,经验回归方程的预报精度相应就越高.
(2)(ⅰ)点,理由如下:
因为模型一的拟合效果更好,经验回归方程为,
所以该方程相应于点的残差为,故选点;
(ⅱ)由题可知,,
所以,
由,,
所以
.
2.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
【答案】(1)吨.
(2)残差表见解析;,拟合效果较好.
【分析】(1)先求出平均数,代入经验回归方程即可求出b,从而求解.
(2)(i)根据经验回归方程求解,从而可得;
(ii)根据公式求出决定系数,进而判断.
【详解】(1)根据题中数据可知,,
将样本中心点的坐标代入经验回归方程得
,解得,
所以经验回归方程为.
当时,,
即当浇灌海水浓度为8‰时,该品种海水稻的亩产量为吨.
(2)(i)由经验回归方程可得
,;
,;
,;
,;
,.
所以残差表如下:
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(ii)由上数据可知,
,
所以决定系数,与1比较接近,
所以拟合效果较好.
3.某公司为了了解A商品销售收入(单位:万元)与广告支出(单位:万元)之间的关系,现收集的5组样本数据如下表所示,且经验回归方程为.
2
5
6
8
9
16
20
21
28
10.96
19.24
22
27.52
30.28
(1)求的值;
(2)现从这5组数据的残差中抽取2组进行分析(观测值减去预测值称为残差),记X表示抽到数据的残差为负的组数,求X的分布列和期望;
(3)已知,且当时,回归方程的拟合效果良好,试结合数据,判断经验回归方程的拟合效果是否良好.
【答案】(1)
(2)分布列见解析,
(3)经验回归方程的拟合效果不良好
【分析】(1)求出根据回归直线必过样本中心点求解即可;
(2)可能取值为,求出对应概率,进而得到分布列和期望;
(3)求出代入公式,即可得到答案.
【详解】(1),
,
因为,即,
解得.
(2)5组数据中,两组数据残差为正值,三组数据残差为负值,
所以可能取值为,
,
,
,
所以X的分布列为
0
1
2
期望.
(3),
,
所以经验回归方程的拟合效果是不良好.
4.(24-25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市
A
B
C
D
E
广告支出x
1
2
3
4
5
销售额W
4
9
14
18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
【答案】(1),相关性很强
(2),0.8
(3)满足一元线性回归模型的的假设,不满足一元线性回归模型的的假设.
【分析】(1)求出和,求出即可求解;
(2)根据销售额的方差52.4列方程求解,求出和,求出,求出销售量关于广告支出的回归直线方程即可求解;
(3)根据残差图的性质即可求解.
【详解】(1)由题知,
0
1
2
1
5
7
,
,
,
相关系数,
接近于1,可以推断两个变量正线性相关,且相关性很强;
(2)因为销售额的方差52.4,
即,
所以,
化为,
解得(舍去),
所以,
因为回归直线方程为经过样本中心点,
把代入得,
销售量关于广告支出的回归直线方程为,
当时,代入得预测值,
而观测值,所以广告支出为5(万元)时销售额度的残差:(万元);
(3)由残差图,模型误差满足一元线性回归模型的的假设,
不满足一元线性回归模型的的假设.
类型四、列联表与独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
1.(25-26高二下·吉林·期中)某研究团队为探讨体育锻炼对青少年身心健康的影响,抽取960名有体育锻炼习惯的在校中学生进行问卷调查,统计表格数据如下:
初中
高中
合计
男
270
230
女
230
230
合计
(1)完成表格数据,并根据小概率值的独立性检验,分析参与问卷调查的中学生性别分布是否存在年级差异?
(2)每日锻炼对身心健康有显著影响.已知每日锻炼时间超过1小时的学生身心健康达标率为,现随机抽取2名每日锻炼时间超过1小时的学生进行健康评估,求至少有1名学生身心健康达标的概率.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)
初中
高中
合计
男
270
230
500
女
230
230
460
合计
500
460
960
不存在年级差异,理由见解析
(2)0.9831
【分析】(1)先根据已知数据完成表格,再根据独立性检验的公式计算的值,最后与临界值比较得出结论;
(2)可先求出两名学生都不达标的概率,再用1减去该概率得到至少一名学生身心健康达标的概率.
【详解】(1)填表如图:
初中
高中
合计
男
270
230
500
女
230
230
460
合计
500
460
960
零假设:参与问卷调查的中学生性别分布不存在年级差异.
根据列联表中的数据,经计算得到,
,
根据小概率值的独立性检验,没有充分证据认为不成立,因此可以认为成立,即认为参与问卷调查的中学生性别分布不存在年级差异;
(2)记事件为“2名每日锻炼时间超过1小时的学生中至少有1名学生达标”,则事件为“2名每日锻炼时间超过1小时的学生中没有学生达标”.
由题意得 ,
故 .
故至少有1名学生身心健康达标的概率为0.9831.
2.(24-25高二下·广东云浮·期末)某工厂生产了两批次某种产品,现从这两批次产品中共抽取800件进行检测,其中第一批次的产品占了.检测数据如下,第一批次的次品件数与第二批次的次品件数相同,在合格品中,第二批次的合格品占了.
(1)根据题中信息,完成下面列联表;
单位:件
生产批次
产品检测结果
合计
次品
合格品
第一批次
第二批次
合计
800
(2)根据小概率值的独立性检验,能否认为产品检测结果与生产批次有关联?
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析
(2)产品检测结果与生产批次有关联
【分析】(1)根据题设条件可完善列联表;
(2)根据(1)的列联表可求,结合临界值表可得判断.
【详解】(1)从第一批次的产品中抽取了件,
从第二批次的产品中抽取了件.
设第二批次的合格品有件,则第一批次的合格品有件,
故,解得.
列联表如下:
生产批次
产品检测结果
合计
次品
合格品
第一批次
80
240
320
第二批次
80
400
480
合计
160
640
800
(2)提出零假设:产品检测结果与生产批次没有关联.
由,
根据小概率值的独立性检验,推断不成立,
即产品检测结果与生产批次有关联,此推断犯错误的概率不大于0.005.
3.(25-26高二下·宁夏银川·期中)人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市120名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于4次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
60
超过45岁
c
60
合计
120
(1)已知从这60名年龄超过45岁的教师中随机抽取2人,2人都喜欢使用技术的概率为.据此完善上面的列联表(最终答案写出参数的取值即可,无需在答题卡上绘制表格),并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,从不超过45岁的样本中,按是否喜欢使用技术进行分层,利用分层随机抽样方法,从中抽取10人进行简单的问卷调查,再从这10人中随机抽取3人进行专访,记抽取的3人中喜欢使用技术的人数为,求的分布列以及数学期望.
(3)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取3人,求其中至少2人喜欢使用技术的条件下,3人年龄均不超过45岁的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表见解析,依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关.
(2)分布列见解析,,
(3)
【分析】(1)根据组合计数原理以及古典概型的概率公式可得出关于的方程,解出的值,可完善二列联表,利用独立性检验可得结论;
(2)根据超几何的概率公式即可求解分布列,
(3)求出、的值,利用条件概率公式可求得结果.
【详解】(1)设超过45岁的教师中喜欢使用技术的有人,
由题意可得,即,整理可得,
因为,解得.
补充列联表如下
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
54
6
60
超过45岁
36
24
60
合计
90
30
120
零假设该市教师喜欢使用技术与年龄无关,
.
依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关.
(2)根据表中数据可知:不超过45岁的人群中,喜欢和不喜欢使用技术的人数比为,
因此抽取的10人中,喜欢使用技术的有9人,不喜欢使用技术的有1人,
故可取2,3,
且,
故的分布列为
2
3
故
(3)记事件A为至少2人喜欢使用技术,事件B为3人年龄均不超过45岁.
全市某名中学教师喜欢使用技术的概率,
不超过45岁且喜欢使用的概率,
所以,
,
由条件概率公式可得.
4.(24-25高二下·辽宁锦州·期末)某工厂A,B两条生产线生产同款产品,若产品按照一、二、三等级分类,则每件可分别获利20元、18元、16元,现从A,B生产线的产品中各随机抽取100件进行检测,结果统计如下图:
一等级
非一等级
合计
A生产线
B生产线
合计
(1)根据已知数据,完成列联表并判断有的把握认为是否为一等级产品与生产线有关吗?
(2)以频率代替概率,分别计算两条生产线单件产品获利的方差,以此作为判断依据,说明哪条生产线的获利更稳定?
附:,其中.
0.050
0.010
0.005
3.841
6.635
7.879
【答案】(1)列联表见解析;没有的把握认为一等级产品与生产线有关;
(2)A生产线的获利更稳定.
【分析】(1)先由题设先写列联表,接着进行零假设和计算卡方值,由卡方值以及小概率值的独立性检验思想即可下结论;
(2)设A,B两条生产线单件产品获利分别为元,依次求出两生产线的方差即可得解.
【详解】(1)由题可得A生产线生产的100件产品中一等级产品数有,B生产线生产的100件产品中一等级产品数有,
所以列联表如下:
一等级
非一等级
合计
A生产线
20
80
100
B生产线
30
70
100
合计
50
150
200
零假设一等级产品与生产线无关,
由列联表得,
所以依据小概率值的独立性检验,没有充分证据可以推断不成立,
则可以推断成立,即没有的把握认为一等级产品与生产线有关.
(2)设A,B两条生产线单件产品获利分别为元,
则由频数分布直方图可得的分布列为
P
20
18
16
X
0.2
0.6
0.2
所以,
所以,
由频数分布直方图可得的分布列为
P
20
18
16
Y
0.3
0.4
0.3
所以,
所以,
因为,所以A生产线的获利更稳定.
5.(24-25高二下·湖北武汉·期末)某市为了了解高三学生高考考完后平均每天体育锻炼的时间,在该市随机调查了位高考考完后的学生,将这位学生每天体育锻炼的时间(单位:分钟)分为五组,得到如图所示的频率分布直方图:
(1)求的值,并估计该市高三学生高考考完后每天体育锻炼时间的第80百分位数;
(2)假设高考考完后的学生中每天体育锻炼的时间达到60分钟及以上的为“运动达人”,若从样本中随机抽取一位学生,设事件“抽到的学生是运动达人”,“抽到的学生是男生”,且.
(i)求和;
(ii)假设有的把握认为运动达人与性别有关,求这次至少调查了多少位学生.
附:
0.1
0.05
001
0.005
0.001
2.706
3841
6.635
7.879
10.828
【答案】(1)0.020,第80百分位数为60
(2)(i),;(ii)200位
【分析】(1)根据频率分布直方图各矩形面积和为1求出的值,通过计算各组得概率可判断第80百分位数在上,进而可得结果;
(2)(i)利用条件概率和全概率公式求解;(ii)根据列联表计算,对照临界值表列式求解即可.
【详解】(1)
频率为,频率为,频率为,频率为,
,,
故第80百分位数在上,,
故估计第80百分位数为60.
(2)依据(1)由频率分布直方图得:,,
,
,
,解得:,
,
(ii)可计算得:,,,,
可得如下列联表:(其中)
合计
合计
所以,
,故有的把握认为运动达人与性别有关至少要调查180位学生.
又因为第二组抽取的人数为,所以是50的整数倍,即至少要调查200位学生
1.(24-25高二下·吉林长春·期末)人们曾经相信,艺术家将是最后被AI所取代的职业,但技术的进步已经将这一信念敲出了裂痕,这可能是AI第一次引起人类的恐慌.由novalAI,DALL-E2等软件创作出来的绘画作品风格各异,乍看之下,已与人类绘画作品无异.AI会取代人类画师吗?某机构随机对60人进行了一次调查,统计发现认为会取代的有42人,30岁以下认为不会取代的有12人,占30岁以下调查人数的.
(1)根据以上数据完成如下列联表:
年龄
理解情况
总计
会取代
不会取代
30岁以下
12
30岁及以上
总计
42
60
(2)依据小概率值的独立性检验,能否认为年龄与理解情况有关?
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:,其中.
【答案】(1)答案见解析
(2)年龄与理解情况无关
【分析】(1)依据题意直接计算即可;
(2)计算卡方判断.
【详解】(1)完成列联表如下:
年龄
理解情况
总计
会取代
不会取代
30岁以下
18
12
30
30岁及以上
24
6
30
总计
42
18
60
(2)零假设为:年龄与理解情况相互独立,即年龄与理解情况无关,
由题意,.
所以根据小概率值的独立性检验,我们推断成立.
即认为年龄与理解情况无关,此推断犯错误的概率不大于0.010.
2.(24-25高二下·贵州六盘水·期末)为了解高中学生数学成绩与物理成绩的关联性,现从某高中学校抽取100人,得到如下信息:数学成绩与物理成绩都优秀的有10人,都不优秀的有65人.
(1)依据上述信息完善下列列联表,并根据小概率的独立性检验,能否认为数学成绩与物理成绩有关联;
数学成绩
物理成绩
合计
优秀
不优秀
优秀
20
不优秀
合计
100
(2)从数学成绩优秀的学生中,用比例分配的分层随机抽样方法抽取6人,若从这6人中随机抽2人、记为物理成绩优秀的学生人数,求的分布列及数学期望.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,根据小概率的独立性检验,认为数学成绩与物理成绩有关联;
(2)分布列见解析,
【分析】(1)由题意直接填写列联表即可,先进性零假设,接着计算卡方值即可根据小概率的独立性检验思想下结论;
(2)求出随机变量的取值及其相应概率结合数学期望公式即可求解.
【详解】(1)由题可得列联表如下:
数学成绩
物理成绩
合计
优秀
不优秀
优秀
10
20
30
不优秀
5
65
70
合计
15
85
100
零假设数学成绩与物理成绩无关联,
由表格得,
所以根据小概率的独立性检验,没有充分依据推断成立,即推断不成立,
所以根据小概率的独立性检验,认为数学成绩与物理成绩有关联.
(2)由(1)可得从数学成绩优秀的学生中,用比例分配的分层随机抽样方法抽取6人,
则物理成绩优秀的学生有2人,物理成绩不优秀的有4人,
所以若从这6人中随机抽2人则的取值有,
且,
所以的分布列为
0
1
2
所以的数学期望.
3.某景区为了更好的开发旅游资源,试产了一系列的文创产品进行销售,对今年前几月的销售额统计如下:
月份
销售额万元
(1)根据表中数据建立月份与销售额的经验回归方程;
(2)为了更好的规划文创产品,从这个月中随机抽取个月对销售情况进行分析,求抽到的月份数据含有残差(观测值减去预测值称为残差)为负的概率.
参考公式:.参考数据:,.
【答案】(1)
(2)
【分析】(1)利用最小二乘法可得回归方程;
(2)分别计算各月份销售额的预测值,再根据古典概型概率公式可得解.
【详解】(1)由已知,,
又,,
则,,
所以回归方程为;
(2)当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
则这个月中残差为负的月份有个,残差为非负的月份有个,
则这个月中随机抽取个月,抽到的月份数据含有残差为负的概率.
4.(25-26高二下·辽宁沈阳·期中)为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
【答案】(1)
(2)
(3)
0
1
2
【分析】(1)根据计算求解;
(2)根据最小二乘法计算公式计算求解;
(3)列出随机变量可能取值,计算对应概率可得分布列,进而可计算数学期望.
【详解】(1)因为,
所以;
(2)由题意可知,,
,
所以,,
所以;
(3)由题意可得
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
44
37
35
27
49
45
41
37
33
29
是否有效采集数据
否
是
否
是
否
否
随机变量的可能取值为,
,
所以分布列为:
0
1
2
数学期望为.
5.(24-25高二下·广东深圳·期末)深圳一高中为了解学生周末使用手机的情况,统计了全校所有学生在一年内周末使用手机的时长,现随机抽取了名同学在某个周末使用手机的时长,结果如下表:
周末使用手机时长(h)
0
1
2
3
4
5
6
合计
男生人数
1
2
4
5
6
5
4
3
30
女生人数
4
5
5
6
4
3
2
1
30
合计
5
7
9
11
10
8
6
4
60
(1)若将周末使用为小时及小时以上的,称为“经常使用”,其余的称为“不经常使用”.
请完成以下列联表,并依据小概率值的独立性检验,能否认为性别因素与使用的经常性有关系;
性别
使用手机
合计
不经常
经常
男生
女生
合计
(2)对于周末使用手机小时及以上的同学,学校想要为进一步了解他们的手机使用情况:
(ⅰ)在样本的名周末使用手机小时及以上的同学中,随机抽取人进行访谈,求恰好抽中名男生的概率;
(ⅱ)在和小明的访谈中得知,他有款喜爱的手机游戏,并且在周五周六周日三天中,每天随机选择一款玩一个小时,每天的选择互相独立.记至少选中过一次游戏的数目为,求的分布列和数学期望.
附:,.
【答案】(1)表格见解析,性别因素与学生使用的经常性有关系
(2)(ⅰ);(ⅱ)分布列见解析,
【分析】(1)完善列联表,提出零假设性别与使用手机情况独立,计算出的观测值,结合临界值表可得出结论;
(2)(i)利用超几何分布的概率公式求解即可;
(ii)由题意得,的所有可能取值为、、,计算出随机变量在不同取值下的概率,可得出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得的值.
【详解】(1)根据统计表格数据可得列联表如下:
性别
使用手机
合计
不经常
经常
男生
女生
合计
零假设为性别与使用手机情况独立,即性别因素与学生使用手机的经常性无关;
根据列联表的数据计算可得,
根据小概率值的独立性检验,推断不成立,
即性别因素与学生使用的经常性有关系,此推断犯错误的概率不超过.
(2)(ⅰ)设抽取的三人中男生的人数为,易知名周末使用手机小时及以上的同学中有名男生,名女生,
所以的所有可能取值为、、、,
且服从超几何分布:,
则恰好抽中名男生的概率为;
(ⅱ)由题意得,的所有可能取值为、、,
则,,,
则的分布列如下
所以.
6.(24-25高二下·河北邢台·期末)甲、乙两人进行赛马,比赛规则如下:甲、乙各挑选3匹马(马匹各不相同),每场比赛甲、乙均从各自挑选的马匹中挑选一匹本次比赛未上场的马进行比赛,三场比赛结束即为本次比赛结束,三场比赛依次进行,胜利场数多的一方获得本次比赛的胜利,每场比赛均只有胜负,且胜利与否互不影响.在所有马匹中,有一匹快马,记为马.经统计,在所有比赛中,参赛者的胜负情况和选择马与否的情况如下表所示.
单位:场
选择马与否
参赛者的胜负情况
合计
胜
负
选择
12
未选择
22
合计
30
100
(1)完成列联表,并依据的独立性检验,能否认为参赛者的胜负和选择马与否有关联?
(2)由于马匹的不同,马参加比赛的场次会进行调整.根据以往的数据统计,参赛者选择马参与比赛时,安排马参加第一场、第二场、第三场比赛的概率分别为,相应参赛者获得本次比赛胜利的概率分别为.当参赛者选择马参加比赛时,在参赛者获得本次比赛胜利的条件下,求参赛者安排K马参加的是第一场比赛的概率.
附:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)填表见解析;认为参赛者的胜负和选择K马与否有关
(2)
【分析】(1)依题意补充列联表,然后计算卡方判断即可;
(2)按照贝叶斯公式计算即可.
【详解】(1)补充完整的列联表如下.
单位:场
选择K马与否
参赛者的胜负情况
合计
胜
负
选择
48
12
60
未选择
22
18
40
合计
70
30
100
零假设为:参赛者的胜负和选择K马与否无关.
由表中的数据得,
则依据的独立性检验,可以推断假设不成立,即认为参赛者的胜负和选择K马与否有关.
(2)设事件“参赛者安排K马参加第一场比赛”,事件“参赛者安排K马参加第二场比赛”,事件“参赛者安排K马参加第三场比赛”,事件“参赛者获得本次比赛的胜利”.
当参赛者安排K马参加第一场比赛时,参赛者获得本次比赛胜利的概率为;
当参赛者安排K马参加第二场比赛时,参赛者获得本次比赛胜利的概率为;
当参赛者安排K马参加第三场比赛时,参赛者获得本次比赛胜利的概率为.
当参赛者选择马参加比赛时,参赛者获得本次比赛胜利的概率为
当参赛者选择马参加比赛时,在参赛者获得比赛胜利的条件下,参赛者安排马参加的是第一场比赛的概率为.
7.(24-25高二下·河北承德·期末)2025年4月,中国新能源汽车零售渗透率突破,进入“以电为主”的新阶段,充电桩的使用率也成为关注焦点.经调查,某市今年月份的充电桩日均使用时长(时)与新能源汽车保有量(万辆)及充电桩日均使用率(,为常数)的数据如下表所示:
月份
1
2
3
4
5
6
新能源汽车保有量(万辆)
8
13
15
18
23
25
充电桩日均使用时长(时)
5
7
10
12
15
17
充电桩日均使用率
0.15
0.21
0.3
0.36
0.45
0.51
(1)若用充电桩日均使用率近似估计一个充电桩一天内被使用的概率,设该市某个充电桩在3月份的某3天中被使用的天数为,求的分布列;
(2)求关于的样本相关系数,并说明线性相关程度的强弱;(精确到0.01)
(3)若关于的经验回归方程为,求的值(精确到0.1),并预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为多少.
参考数据:,.
参考公式:相关系数.
【答案】(1)分布列见解析
(2)0.99,与的线性相关程度较强.
(3),0.72.
【分析】(1)由题可知充电桩在3月份使用的概率为0.3,故,根据二项分布写出分布列即可;
(2)根据题意先求,利用相关系数公式,代入数据求值与1比较即可;
(3)由过回归方程可求,根据回归方程进行预测即可.
【详解】(1)由题可知的所有可能取值为,且,
则,
,
,
,
所以的分布列为
0
1
2
3
0.343
0.441
0.189
0.027
(2)由题可知,,
则,
因为接近于1,所以与的线性相关程度较强.
(3)由题可知,
解得,
所以关于的经验回归方程为.
将代入经验回归方程,得,
又因为,所以当时,,
故预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为0.72.
8.(25-26高二下·湖南长沙·期中)随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.
(1)为了更好了解大众对新能源汽车的接受程度,某城市汽车行业协会依据年龄采用分层随机抽样的方式,从40岁以下和40岁及以上两个年龄层中各抽取100名市民进行调查,并对他们选择新能源汽车,还是选择传统汽车进行意向调查,得到了如下列联表:
选择新能源汽车
选择传统汽车
总计
40岁以下
70
30
100
40岁及以上
40
60
100
总计
110
90
200
(i)记选择新能源汽车者中年龄在40岁以下的概率为,求的估计值;
(ii)依据小概率值的独立性检验,分析选择新能源汽车是否与年龄有关.
(2)为了了解该地区新能源汽车的销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销售量(单位:万台)关于年份的线性回归方程,且销售量的方差为,年份的方差为.求与间的样本相关系数,并据此判断该地区新能源汽车销售量与年份的线性相关性强弱.
附:(i)在线性回归方程中,,;
(ii)样本相关系数,若,则可判断与线性相关性很强;
(iii),其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)(i)(ii)可以认为选择新能源汽车与年龄有关系
(2),与线性相关性很强
【分析】(1)(i)根据古典概型计算公式计算求解;(ii)计算根据临界值表判断即可;
(2)根据最小二乘法结合题中参考公式计算求解即可判断.
【详解】(1)(i)由题可知,样本中选择新能源汽车者中年龄在40岁以下的频率为,
由样本估计总体可得选择新能源汽车者中年龄在40岁以下的概率.
(ii)零假设为:选择新能源汽车与年龄无关,
由列联表中数据代入计算得:,
所以依据小概率值的独立性检验,推断不成立,
即可以认为选择新能源汽车与年龄有关系,此推断犯错误的概率不超过.
(2)因为,,
所以,
故与线性相关性很强.
9.(25-26高二下·吉林长春·期末)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
62.14
1.54
2535
50.12
3.47
参考数据:.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
【答案】(1)适宜作为投放量与年使用人次的回归方程类型,
(2)列联表见解析,认为是否报废与保养有关
【分析】(1)由散点图可知,应选指数函数模型,根据已知条件两边同时取对数,转化为关于与的一次函数模型,结合参考数据即可求解;
(2)根据题意完成列联表,利用独立性检验公式,计算的值可判断.
【详解】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\
保养
未保养
合计
报废
20
未报废
80
合计
60
40
100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
10.肥胖不仅影响形体美,而且给生活带来不便,此外还有关节软组织损伤、心脏病、糖尿病、脂肪肝、痛风等危害.小王通过运动和节食进行减肥,并将时间x(单位:周)和体重(单位:)记录制作如下统计表:
1
2
3
4
6
8
90.1
87.6
87.2
86.2
84.2
84.3
(1)若和满足经验回归模型,求;
(2)求该模型的决定系数,并判断该经验回归方程是否有价值(认为有价值);
(3)当某组数据残差的绝对值不超过0.3时,称该组数据为“身材有效管理数据”,现从这六组数据中任意抽取两组,设抽取的“身材有效管理数据”的个数为,求的分布列和期望.
附:经验回归方程中,,
参考数据:.
【答案】(1);.
(2);该经验回归方程有价值.
(3)分布列见解析;数学期望是1.
【分析】(1)设得,计算,继而得到和;
(2)分别计算和,计算出,即得结论;
(3)依题意,残差的绝对值不超过0.3的有三组,由此确定的可能值有,利用超几何分布计算概率,写出分布列,计算出数学期望即可.
【详解】(1)设则, 因
,
则
又且经验回归直线过点,
故得,,
(2)由(1),
1
2
3
4
6
8
90.1
87.6
87.2
86.2
84.2
84.3
90
88
86.8
86
84.8
84
0.01
0.16
0.16
0.04
0.36
0.09
12.25
1
0.36
0.16
5.76
5.29
则,因,则该经验回归方程有价值;
(3)经计算,这六组数据中,残差的绝对值不超过0.3的有三组,分别是第一组、第四组和第八组,
故从这六组数据中任意抽取两组,的可能值有,
于是,,
则的分布列为:
0
1
2
故数学期望为.
11.(24-25高二下·湖南·阶段检测)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
【答案】(1)
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)
【分析】(1)由递推公式得到,进而判断为等差数列,即可求解;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)由得:
,
即,
所以,
即,
所以为等差数列,又,
所以公差为1,
所以,
(2)令,则,
由公式,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为.
12.(24-25高二下·广东湛江·期末)为了解学生身体素质的情况,学校随机抽取了100位同学组织了一次体测,结果有20%的同学合格,经过调查,抽取的学生中只有10%的学生每日运动量能达标,每日运动量能达标的学生体测合格率有50%.
(1)完成列联表,并根据小概率值的独立性检验,能否认为体测成绩与每日运动量之间有关;
体测合格
体测不合格
合计
运动量达标
运动量未达标
合计
(2)从该校随机抽取三人,三人中体育项目测试相互独立,求三人中合格人数的分布列和期望;
(3)为提升学生身体素质,学校决定给每个班级安排任务,规则如下:每天班主任从箱子里抽球,里面有2个白球和2个红球(大小、材质相同),抽到红球放回,且学生就需要跑步1km;抽到白球则休息,抽完的球不放回,再往里放入一个红球,直至箱子里全部都是红球后结束,记天后任务结束的概率为.求.
附:,.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,体测成绩与每日运动量之间有关
(2)分布列见解析,
(3).
【分析】(1)根据题设信息即可完成2×2列联表,再进行零假设和计算卡方值,再由小概率值的独立性检验思想即可得解;
(2)设抽取的三人中合格人数为X,由题设得到,利用二项分布概率公式和均值计算公式即可求解;
(3)设“第次操作取出白球”, “第次操作取出红球”,,先依题意,,明确时,若天后任务结束,则第n次取出的是白球,前次操作中,有一次取出白球,其余次均取出红球,据此即可结合等比数列前n项和公式计算的概率.
【详解】(1)依题意,完成下列2×2列联表如下:
体测合格
体测不合格
合计
运动量达标
5
5
10
运动量未达标
15
75
90
合计
20
80
100
零假设 体测成绩与每日运动量之间无关,
因,
根据小概率值的独立性检验,零假设不成立,即体测成绩与每日运动量之间有关,此推断犯错误的概率不大于0.05.
(2)该校随机抽取三人,每个人合格的概率为20%,设抽取的三人中合格人数为X,
则,由于测试相互独立,则,
故, ,
,,
则随机变量的分布列为:
0
1
2
3
故的数学期望为.
(3)设“第次操作取出白球”, “第次操作取出红球”,,
依题意,,
当时,若天后任务结束,
则第n次取出的是白球,前次操作中,有一次取出白球,其余次均取出红球,
则
,
经检验,,均满足该式,
所以.
1 / 10
学科网(北京)股份有限公司
$
专题08 成对数据的统计分析
目录(Ctrl并单击鼠标可跟踪链接)
典例详解 1
类型一、线性回归方程与相关系数 1
类型二、非线性回归方程 6
类型三、残差与决定系数 10
类型四、列联表与独立性检验 13
压轴专练 18
类型一、线性回归方程与相关系数r
1、样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
2、相关系数r与相关程度
(1)当时,称成对样本数据正相关;
当时,成对样本数据负相关;
当时,成对样本数据间没有线性相关关系;
(2)样本相关系数r的取值范围为[-1,1];
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
3、求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
注:①经验回归直线一定过点,点通常称为样本点的中心
1.2025年,我国能源安全保障能力再上新台阶,全口径发电量占全球总发电量的,稳居世界第一,为智能算力的爆发性电力需求持续提供稳定保障.某学习小组收集了2021年至2025年我国全口径发电量相关数据,根据数据制作了如下数据表格和散点图.
年份
2021
2022
2023
2024
2025
年份代码
1
2
3
4
5
我国全口径发电量(单位:万亿千瓦时)
8.52
8.85
9.46
10.09
10.58
(1)由散点图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的经验回归方程,并预测2026年我国全口径发电量.
参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,相关系数.
2.(25-26高二下·贵州遵义·期中)近年来,促进新能源汽车产业发展政策频出,新能源汽车市场得到快速发展,销量及渗透率远超预期,新能源汽车成为汽车领域的热点.某车企通过市场调研,得到研发投入(亿元)与经济收益(亿元)的数据,统计如下:
研发投入(亿元)
经济收益(亿元)
(1)的平均数记为,证明:
(2)依据表中统计数据,计算样本相关系数(结果保留位小数),并判断研发投入与经济收益之间是否有较强的线性相关性;(若,则线性相关程度一般,若,则线性相关程度较强.)
(3)求出关于的线性回归方程,并预测研发投入亿元时的经济收益.
参考数据:,.
附:相关系数,线性回归方程的斜率.
3.为深入贯彻“五育融合”的教育理念,某地在中小学全面推广劳动教育实践课程,定期统计学生参与劳动实践的情况,下表是课程开设后前5个月的数据,其中表示月份编号,表示该月份日平均参与劳动实践的学生人数(单位:万).
月份编号
1
2
3
4
5
日平均参与人数
0.5
0.7
1
1.3
1.5
根据表格数据得到如图所示的散点图.
(1)根据散点图推断与是否线性相关,计算样本相关系数,并推断它们的相关程度;
(2)由(1)所得结论,建立关于的回归方程,并预测第6个月的日平均参与人数;
(3)假设第6个月(按30天计)的日参与人数(单位:万)服从正态分布,并视(2)的结果为的值,预测该月份日参与人数超过1.75万的天数是否不少于25天.
附:
①样本相关系数;
②回归直线的斜率的最小二乘估计为;
③;
④若,则.
4.某学校对高三(1)班50名学生的第一次模拟考试的数学成绩和化学成绩统计得到数据如下:数学成绩的方差为,化学成绩的方差为,,其中(,且)分别表示这50名学生的数学成绩和化学成绩,关于的线性回归方程为.
(1)求与的样本相关系数;
(2)从概率统计规律来看,本次考试高三(1)班学生数学成绩服从正态分布,用样本平均数作为的估计值,用样本方差作为的估计值,试估计该校共1600名高三学生中,数学成绩位于区间的人数.
附:①回归方程中,;
②样本相关系数;③;
④若,则.
5.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
0
1
2
3
4
类型二、非线性回归方程
常见的非线性函数转换方法
1、幂型函数y=axm(a为正数,x,y取正值)
对y=axm两边取常用对数,有lg y=lg a+mlg x,
令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,
该式表示u,v的线性函数.
2、指数型函数y=c·ax(a,c>0,且a≠1):
对y=cax两边取常用对数,则有lg y=lg c+xlg a,
令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,
该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
3、反比例函数y= (k>0):令u=,则y=ku,该式表示y,u的线性函数.
4、二次函数y=ax2+c:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
5、对数型函数y=clogax:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
1.(25-26高二下·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
2.(24-25高二下·山东·阶段检测)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
3.某企业生产一种热销产品,产品日产量为吨,日销售额为万元(每日生产的产品当日可销售完毕),且产品价格随着产量变化而有所变化.经过一段时间的产销,随机收集了某5天的日产量(单位:吨)和日销售额(单位:万元)的统计数据,并对这5组数据做了初步处理,得到统计数据如下表:
15
73
4.8
10
161.2
1.6
39
15.9
其中,分别为数据的平均数.
(1)请从样本相关系数的角度,判断与哪一个模型更适合刻画日销售额关于日产量的关系?
(2)根据(1)的结果解决下列问题:
(i)建立关于的经验回归方程(斜率的结果四舍五入保留整数);
(ii)如果日产量(单位:吨)与日生产总成本(单位:万元)满足关系,根据(i)中建立的经验回归方程估计日产量为何值时,日利润最大?
附:①相关系数;
②经验回归方程的斜率和截距的最小二乘法公式分别为:.
③参考数据:.
4.(24-25高二下·云南昆明·期中)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.
360
54.4
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型并求出关于的回归方程(给出判断即可,不必说明理由);
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数为1的概率.
附:对于一组数据,,…,,其经验回归直线方程的斜率和截距的最小二乘估计分别为,
类型三、残差与决定系数
1、残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2、残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
3、残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
4、决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
1.某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
2.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
3.某公司为了了解A商品销售收入(单位:万元)与广告支出(单位:万元)之间的关系,现收集的5组样本数据如下表所示,且经验回归方程为.
2
5
6
8
9
16
20
21
28
10.96
19.24
22
27.52
30.28
(1)求的值;
(2)现从这5组数据的残差中抽取2组进行分析(观测值减去预测值称为残差),记X表示抽到数据的残差为负的组数,求X的分布列和期望;
(3)已知,且当时,回归方程的拟合效果良好,试结合数据,判断经验回归方程的拟合效果是否良好.
4.(24-25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市
A
B
C
D
E
广告支出x
1
2
3
4
5
销售额W
4
9
14
18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
类型四、列联表与独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
1.(25-26高二下·吉林·期中)某研究团队为探讨体育锻炼对青少年身心健康的影响,抽取960名有体育锻炼习惯的在校中学生进行问卷调查,统计表格数据如下:
初中
高中
合计
男
270
230
女
230
230
合计
(1)完成表格数据,并根据小概率值的独立性检验,分析参与问卷调查的中学生性别分布是否存在年级差异?
(2)每日锻炼对身心健康有显著影响.已知每日锻炼时间超过1小时的学生身心健康达标率为,现随机抽取2名每日锻炼时间超过1小时的学生进行健康评估,求至少有1名学生身心健康达标的概率.
附:,其中.
0.050
0.010
0.001
3.841
6.635
10.828
2.(24-25高二下·广东云浮·期末)某工厂生产了两批次某种产品,现从这两批次产品中共抽取800件进行检测,其中第一批次的产品占了.检测数据如下,第一批次的次品件数与第二批次的次品件数相同,在合格品中,第二批次的合格品占了.
(1)根据题中信息,完成下面列联表;
单位:件
生产批次
产品检测结果
合计
次品
合格品
第一批次
第二批次
合计
800
(2)根据小概率值的独立性检验,能否认为产品检测结果与生产批次有关联?
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
3.(25-26高二下·宁夏银川·期中)人工智能技术(简称技术)已成为引领世界新一轮科技革命和产业革命的战略性技术,并迅速在各行各业中得到应用和推广,教育行业也不例外.某市教体局为调查本市中学教师使用技术辅助教学的情况,随机抽取了该市120名中学教师,统计了他们使用技术帮助制作课件的情况,并将一周内使用技术帮助制作课件的节次不少于4次的认定为喜欢使用技术,否则认定为不喜欢使用技术,制作得到如下列联表(部分数据缺失).
年龄
是否喜欢使用技术
合计
是
否
不超过45岁
60
超过45岁
c
60
合计
120
(1)已知从这60名年龄超过45岁的教师中随机抽取2人,2人都喜欢使用技术的概率为.据此完善上面的列联表(最终答案写出参数的取值即可,无需在答题卡上绘制表格),并依据小概率值的独立性检验,判断该市教师是否喜欢使用技术与年龄有关;
(2)在(1)的条件下,从不超过45岁的样本中,按是否喜欢使用技术进行分层,利用分层随机抽样方法,从中抽取10人进行简单的问卷调查,再从这10人中随机抽取3人进行专访,记抽取的3人中喜欢使用技术的人数为,求的分布列以及数学期望.
(3)在(1)的条件下,将频率视为概率计算,从该市全部中学教师中随机抽取3人,求其中至少2人喜欢使用技术的条件下,3人年龄均不超过45岁的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
4.(24-25高二下·辽宁锦州·期末)某工厂A,B两条生产线生产同款产品,若产品按照一、二、三等级分类,则每件可分别获利20元、18元、16元,现从A,B生产线的产品中各随机抽取100件进行检测,结果统计如下图:
一等级
非一等级
合计
A生产线
B生产线
合计
(1)根据已知数据,完成列联表并判断有的把握认为是否为一等级产品与生产线有关吗?
(2)以频率代替概率,分别计算两条生产线单件产品获利的方差,以此作为判断依据,说明哪条生产线的获利更稳定?
附:,其中.
0.050
0.010
0.005
3.841
6.635
7.879
5.(24-25高二下·湖北武汉·期末)某市为了了解高三学生高考考完后平均每天体育锻炼的时间,在该市随机调查了位高考考完后的学生,将这位学生每天体育锻炼的时间(单位:分钟)分为五组,得到如图所示的频率分布直方图:
(1)求的值,并估计该市高三学生高考考完后每天体育锻炼时间的第80百分位数;
(2)假设高考考完后的学生中每天体育锻炼的时间达到60分钟及以上的为“运动达人”,若从样本中随机抽取一位学生,设事件“抽到的学生是运动达人”,“抽到的学生是男生”,且.
(i)求和;
(ii)假设有的把握认为运动达人与性别有关,求这次至少调查了多少位学生.
附:
0.1
0.05
001
0.005
0.001
2.706
3841
6.635
7.879
10.828
1.(24-25高二下·吉林长春·期末)人们曾经相信,艺术家将是最后被AI所取代的职业,但技术的进步已经将这一信念敲出了裂痕,这可能是AI第一次引起人类的恐慌.由novalAI,DALL-E2等软件创作出来的绘画作品风格各异,乍看之下,已与人类绘画作品无异.AI会取代人类画师吗?某机构随机对60人进行了一次调查,统计发现认为会取代的有42人,30岁以下认为不会取代的有12人,占30岁以下调查人数的.
(1)根据以上数据完成如下列联表:
年龄
理解情况
总计
会取代
不会取代
30岁以下
12
30岁及以上
总计
42
60
(2)依据小概率值的独立性检验,能否认为年龄与理解情况有关?
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:,其中.
2.(24-25高二下·贵州六盘水·期末)为了解高中学生数学成绩与物理成绩的关联性,现从某高中学校抽取100人,得到如下信息:数学成绩与物理成绩都优秀的有10人,都不优秀的有65人.
(1)依据上述信息完善下列列联表,并根据小概率的独立性检验,能否认为数学成绩与物理成绩有关联;
数学成绩
物理成绩
合计
优秀
不优秀
优秀
20
不优秀
合计
100
(2)从数学成绩优秀的学生中,用比例分配的分层随机抽样方法抽取6人,若从这6人中随机抽2人、记为物理成绩优秀的学生人数,求的分布列及数学期望.
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3.某景区为了更好的开发旅游资源,试产了一系列的文创产品进行销售,对今年前几月的销售额统计如下:
月份
销售额万元
(1)根据表中数据建立月份与销售额的经验回归方程;
(2)为了更好的规划文创产品,从这个月中随机抽取个月对销售情况进行分析,求抽到的月份数据含有残差(观测值减去预测值称为残差)为负的概率.
参考公式:.参考数据:,.
4.(25-26高二下·辽宁沈阳·期中)为了对某批新产品进行合理定价,将该产品按事先拟定的价格进行试销后得到一组销售数据,如下表所示:
试销单价(百元)
1
2
3
4
5
6
产品销量(件)
47
44
37
35
27
(1)求的值;
(2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的回归直线方程(计算结果精确到整数位);
(3)用表示与对应的产品销量的估计值.当销售数据的残差的绝对值 时,则将销售数据称为一个“有效采集数据”.现从这6组销售数据中任取2组,求“有效采集数据”个数的分布列和期望.
附:参考公式
参考数据:.
5.(24-25高二下·广东深圳·期末)深圳一高中为了解学生周末使用手机的情况,统计了全校所有学生在一年内周末使用手机的时长,现随机抽取了名同学在某个周末使用手机的时长,结果如下表:
周末使用手机时长(h)
0
1
2
3
4
5
6
合计
男生人数
1
2
4
5
6
5
4
3
30
女生人数
4
5
5
6
4
3
2
1
30
合计
5
7
9
11
10
8
6
4
60
(1)若将周末使用为小时及小时以上的,称为“经常使用”,其余的称为“不经常使用”.
请完成以下列联表,并依据小概率值的独立性检验,能否认为性别因素与使用的经常性有关系;
性别
使用手机
合计
不经常
经常
男生
女生
合计
(2)对于周末使用手机小时及以上的同学,学校想要为进一步了解他们的手机使用情况:
(ⅰ)在样本的名周末使用手机小时及以上的同学中,随机抽取人进行访谈,求恰好抽中名男生的概率;
(ⅱ)在和小明的访谈中得知,他有款喜爱的手机游戏,并且在周五周六周日三天中,每天随机选择一款玩一个小时,每天的选择互相独立.记至少选中过一次游戏的数目为,求的分布列和数学期望.
附:,.
6.(24-25高二下·河北邢台·期末)甲、乙两人进行赛马,比赛规则如下:甲、乙各挑选3匹马(马匹各不相同),每场比赛甲、乙均从各自挑选的马匹中挑选一匹本次比赛未上场的马进行比赛,三场比赛结束即为本次比赛结束,三场比赛依次进行,胜利场数多的一方获得本次比赛的胜利,每场比赛均只有胜负,且胜利与否互不影响.在所有马匹中,有一匹快马,记为马.经统计,在所有比赛中,参赛者的胜负情况和选择马与否的情况如下表所示.
单位:场
选择马与否
参赛者的胜负情况
合计
胜
负
选择
12
未选择
22
合计
30
100
(1)完成列联表,并依据的独立性检验,能否认为参赛者的胜负和选择马与否有关联?
(2)由于马匹的不同,马参加比赛的场次会进行调整.根据以往的数据统计,参赛者选择马参与比赛时,安排马参加第一场、第二场、第三场比赛的概率分别为,相应参赛者获得本次比赛胜利的概率分别为.当参赛者选择马参加比赛时,在参赛者获得本次比赛胜利的条件下,求参赛者安排K马参加的是第一场比赛的概率.
附:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
7.(24-25高二下·河北承德·期末)2025年4月,中国新能源汽车零售渗透率突破,进入“以电为主”的新阶段,充电桩的使用率也成为关注焦点.经调查,某市今年月份的充电桩日均使用时长(时)与新能源汽车保有量(万辆)及充电桩日均使用率(,为常数)的数据如下表所示:
月份
1
2
3
4
5
6
新能源汽车保有量(万辆)
8
13
15
18
23
25
充电桩日均使用时长(时)
5
7
10
12
15
17
充电桩日均使用率
0.15
0.21
0.3
0.36
0.45
0.51
(1)若用充电桩日均使用率近似估计一个充电桩一天内被使用的概率,设该市某个充电桩在3月份的某3天中被使用的天数为,求的分布列;
(2)求关于的样本相关系数,并说明线性相关程度的强弱;(精确到0.01)
(3)若关于的经验回归方程为,求的值(精确到0.1),并预测当该市某月的新能源汽车保有量为36万辆时,充电桩的日均使用率为多少.
参考数据:,.
参考公式:相关系数.
8.(25-26高二下·湖南长沙·期中)随着全国新能源汽车推广力度的加大,新能源汽车消费迎来了前所未有的新机遇.
(1)为了更好了解大众对新能源汽车的接受程度,某城市汽车行业协会依据年龄采用分层随机抽样的方式,从40岁以下和40岁及以上两个年龄层中各抽取100名市民进行调查,并对他们选择新能源汽车,还是选择传统汽车进行意向调查,得到了如下列联表:
选择新能源汽车
选择传统汽车
总计
40岁以下
70
30
100
40岁及以上
40
60
100
总计
110
90
200
(i)记选择新能源汽车者中年龄在40岁以下的概率为,求的估计值;
(ii)依据小概率值的独立性检验,分析选择新能源汽车是否与年龄有关.
(2)为了了解该地区新能源汽车的销售情况,某机构根据统计数据,用最小二乘法得到该地区新能源汽车销售量(单位:万台)关于年份的线性回归方程,且销售量的方差为,年份的方差为.求与间的样本相关系数,并据此判断该地区新能源汽车销售量与年份的线性相关性强弱.
附:(i)在线性回归方程中,,;
(ii)样本相关系数,若,则可判断与线性相关性很强;
(iii),其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
9.(25-26高二下·吉林长春·期末)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\
保养
未保养
合计
报废
20
未报废
合计
60
100
62.14
1.54
2535
50.12
3.47
参考数据:.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:
其中.
0.25
0.1
0.05
0.025
0.01
0.001
1.323
2.706
3.841
5.024
6.635
10.828
10.肥胖不仅影响形体美,而且给生活带来不便,此外还有关节软组织损伤、心脏病、糖尿病、脂肪肝、痛风等危害.小王通过运动和节食进行减肥,并将时间x(单位:周)和体重(单位:)记录制作如下统计表:
1
2
3
4
6
8
90.1
87.6
87.2
86.2
84.2
84.3
(1)若和满足经验回归模型,求;
(2)求该模型的决定系数,并判断该经验回归方程是否有价值(认为有价值);
(3)当某组数据残差的绝对值不超过0.3时,称该组数据为“身材有效管理数据”,现从这六组数据中任意抽取两组,设抽取的“身材有效管理数据”的个数为,求的分布列和期望.
附:经验回归方程中,,
参考数据:.
11.(24-25高二下·湖南·阶段检测)某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司第i年的年广告费(单位:百万元)满足递推关系,且,年销售量(单位:百万辆)与年广告费相关.令,经过数据处理得到如下统计量的值:
44
4.8
10
40.3
1.612
19.5
8.06
现有模型作为年销售量y关于年广告费x的回归分析模型,其中均为常数.
(1)求;
(2)求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①回归直线
②参考数据:,.
12.(24-25高二下·广东湛江·期末)为了解学生身体素质的情况,学校随机抽取了100位同学组织了一次体测,结果有20%的同学合格,经过调查,抽取的学生中只有10%的学生每日运动量能达标,每日运动量能达标的学生体测合格率有50%.
(1)完成列联表,并根据小概率值的独立性检验,能否认为体测成绩与每日运动量之间有关;
体测合格
体测不合格
合计
运动量达标
运动量未达标
合计
(2)从该校随机抽取三人,三人中体育项目测试相互独立,求三人中合格人数的分布列和期望;
(3)为提升学生身体素质,学校决定给每个班级安排任务,规则如下:每天班主任从箱子里抽球,里面有2个白球和2个红球(大小、材质相同),抽到红球放回,且学生就需要跑步1km;抽到白球则休息,抽完的球不放回,再往里放入一个红球,直至箱子里全部都是红球后结束,记天后任务结束的概率为.求.
附:,.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
1 / 10
学科网(北京)股份有限公司
$