内容正文:
专题03一元回归模型与独立性检验7类题型归纳(压轴题专项训练)
目录
类型一、相关系数的意义与计算
类型二、决定系数与残差的应用
类型三、回归直线方程的应用
类型四、非线性回归问题
类型五、回归分析与概率综合
类型六、独立性检验中的最值问题
类型七、独立性检验与概率
压轴专练
类型一、相关系数的意义与计算
(1)
当时,称成对样本数据正相关;当时,称成对样本数据负相关.
(2)样本相关系数的取值范围为.
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
例1对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
变式1-1.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
变式1-2.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
变式1-3.对相关系数,给出下列结论:①越大,线性相关程度越强;②若所有样本点都在直线上,则;③越大,线性相关程度越弱,越接近,线性相关程度越强;④且越接近,线性相关程度越强,越接近,线性相关程度越弱,
其中说法正确的是 填序号
变式1-4.假设关于某种设备的使用年限(单位:年)与所支出的维修费用(单位:万元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7.0
已知,,,.
(1)求、;
(2)对、进行线性相关性检验.(保留2位小数)
类型二、决定系数与残差的应用
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
例2.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
变式2-1已知变量满足线性相关关系,一组观测值如下表,且经验回归方程为.现有一对观测数据为,若该数据的残差为,则 .
变式2-2已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
变式2-3.(多选)关于残差图的描述正确的是( )
A.残差图的横坐标可以是样本编号
B.残差图可以直观地判断模型是否满足一元线性回归模型的假设
C.残差点分布的带状区域的宽度越窄决定系数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
变式2-4.(多选)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.决定系数变大
B.相关系数变小
C.残差平方和变小
D.这些数据中的x的平均值变小,的平均值变大
类型三、回归直线方程的应用
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
例3.市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x
1
2
3
4
5
6
净利润y(万元)
1.0
1.4
1.7
2.0
2.2
2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若时,则线性相关程度较高,,则线性相关程度一般,计算时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据,其回归直线的斜率
,.相关系数.
参考数据:,,,,,.
变式3-1.近些年来,短视频社交软件日益受到追捧,用户可以通过软件选择歌曲,拍摄音乐短视频,创作自己的作品.某用户对自己发布的视频个数x与收到的点赞个数之和y之间的关系进行了分析研究,得到如下数据:
x
3
4
5
6
7
y
45
50
60
65
70
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为发布的视频个数与收到的点赞数之和的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.
参考公式:,,.参考数据:,.
变式3-2.某医科大学实习小组为研究实习地昼夜温差与感冒人数之间的关系,分别到当地气象部门和某医院抄录了1月至3月每月5日、20日的昼夜温差情况与因感冒而就诊的人数,得到如表资料:
日期
1月5日
1月20日
2月5日
2月20日
3月5日
3月20日
昼夜温差x(℃)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该小组确定的研究方案是:先从这6组数据中随机选取4组数据求线性回归方程,再用剩余的2组数据进行检验.
参考公式:,.
(1)求剩余的2组数据都是20日的概率;
(2)若选取的是1月20日、2月5日、2月20日、3月5日这4组数据.
①请根据这4组数据,求出y关于x的线性回归方程;
②若某日的昼夜温差为7℃,请预测当日就诊人数.(结果保留整数).
变式3-3.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量(单位:万件)的统计表:
月份代码
1
2
3
4
5
6
7
销售量/万件
但其中数据污损不清,经查证.
(1)请用相关系数说明销售量与月份代码之间有很强的线性相关关系(当时认为两个变量有很强的线性相关关系);
(2)求关于的回归直线方程(结果中保留两位小数);
(3)公司经营期间的广告宣传费(单位:万元),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由(毛利润=销售金额-广告宣传费).
参考数据:,.
类型四、非线性回归问题
(1)当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
(2)建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
例4.近年来,政府相关部门引导乡村发展旅游业的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲、乙两名同学一起收集了6家农户的数据,进行回归分析,得到两个回归模型:模型①;模型②.对以上两个回归方程进行残差分析,得到下表:
种植面积亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
0.38
0.28
模型②
估计值
26.84
20.17
18.83
17.31
16.46
残差
0.83
3.17
注:表中.
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求其经验回归方程.
参考公式:.
变式4-1.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
变式4-2.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
变式4-3.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
类型五、回归分析与概率综合
(1)基于回归预测值的概率
①构建回归模型,得到预测表达式;
②确定预测值范围与目标事件;
③用古典概型(离散值)/几何概型(连续值)计算概率。
(2)样本数据的回归+概率
①用样本求回归方程,得拟合值
②筛选满足某条件的样本;
③计算此类样本在总样本中的占比(条件概率)
例5.某市航空公司为了解每年航班正点率对每年顾客投诉次数(单位:次)的影响,对近8年(2017年~2024年)每年航班正点率和每年顾客投诉次数的数据作了初步处理,得到下面的一些统计量的值.
600
592
43837.2
93.8
(1)求关于的经验回归方程,若该市航空公司预计2025年航班正点率为,请估算2025年顾客对该市航空公司投诉的次数;
(2)根据数据统计,该市所有顾客选择乘坐该航空公司航班的概率为,现从该市所有顾客中随机抽取4人,记这4人中选择乘坐该航空公司航班的人数为,求的分布列和数学期望.
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:
变式5-1.随着国内人均收入的增加,居民的健康意识也不断增加,健身器材行业发展迅速,下面为年中国健身器材市场规模(单位:百亿元).
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
市场规模
4.1
4.4
4.8
5.5
6.3
(1)由上面数据可知,可用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(2)数据显示2024年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从2024年购买过体育用品类的中国消费者中国随机抽取3人,记购买过运动防护类的消费者人数为,求的分布列与数学期望.
参考数据:
其中.
参考公式:对于一组数据,,,,其经验回归直线的斜率与截距的最小二乘法公式为:,.
变式5-2.某校举办校刊义卖活动,学生在义卖处每领取一本校刊,便自觉向收银箱中支付至少两元钱.现统计了连续5天的售出校刊数量和收益情况,如下表:
售出校刊数量x(单位:箱)
6
5
7
5
7
收益y(单位:元)
240
220
260
230
270
(1)求收益y关于售出数量x的回归直线方程,并计算售出8箱校刊时的预计收益;
(2)学校决定将收益奖励在科技创新大赛中获奖的学生,获奖学生每人奖励100元.已知甲、乙两名学生是否获奖是相互独立的,甲获奖的概率为,乙获奖的概率为,求甲、乙两名学生获奖总金额X的分布列及数学期望.附:,.
变式5-3.前几年随着网购的普及,线下零售遭遇挑战,但随着新零售模式的不断出现,零售行业近几年呈现增长趋势,下表为2021~2024年百货零售业的销售额(单位:亿元,数据经过处理,1~4分别对应2021~2024年)
年份代码
1
2
3
4
销售额
95
165
230
310
(1)建立关于的回归方程,并预测2025年我国百货零售业的销售额;
(2)从2021~2024年这4年的百货零售业销售额及2025年预测销售额这5个数据中任取2个数据,求这2个数据之差的绝对值大于200亿元的概率.
参考数据:,
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为
类型六、独立性检验中的最值问题
(1)核心解题步骤
①关联列联表与变量,明确各量关系
②代入卡方公式,结合临界值建不等式
③化简不等式,确定变量取值范围
④结合目标量与变量的关系,求最值
(2)关键技巧总结
①列联表与变量的绑定:先将所有频数用同一变量表示,避免多个变量混淆;
②卡方公式的简化运算:优先化简(ad−bc)部分,减少复杂计算量;
③约束条件的结合:解不等式后,必须结合题目中变量的取值范围(整数、区间)筛选可行值,避免脱离实际的代数解;
④目标量与变量的关联:明确目标量的表达式,通过变量的最值直接推导目标量的最值
例6.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若我们推断不成立,此推断犯错误率不超过,则的最小值为( )
附:,附表:
0.05
0.01
3.841
6.635
A.7 B.8 C.9 D.10
变式6-1.为了解正在研发的新产品在18~22岁和23~27岁两个年龄段青年群体中的受众面,某科技公司发布问卷展开调查,从这两个年龄段的青年群体中随机抽取160人作为调查样本,统计数据后得到如下列联表,其中.
年龄段
兴趣
感兴趣
不感兴趣
18~22岁
23~27岁
若通过计算,得根据小概率值的独立性检验,认为是否对新产品感兴趣与青年的年龄段有关,则在被调查的位于23~27岁年龄段的80名青年中对新产品感兴趣的人数的最小值为 .
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
变式6-2.某校以“和经典相伴,与书香同行”为主题举行学习活动.为了解男女同学对该活动的感兴趣程度,对该校多位同学进行了调查,并将结果整理为如下列联表,其中为正整数.
参加
不参加
合计
男生
女生
合计
(1)当足够大时,估计该校任一不参加活动的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为是否参加该活动与性别有关,求的最小值.
附:
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
变式6-3.为了解观看这两部影片的观众中男、女观众的占比情况,某机构采用简单随机抽样的方法,调查了200人,得到如下数据.
观众
性别
合计
男
女
观看A影片
50
50
100
观看B影片
40
60
100
合计
90
110
200
(1)试问观看这两部影片的观众的男女比例是否有差异?
(2)若将表中所有数据都扩大为原来的倍,在相同的检验标准下,再用独立性检验推断观看这两部影片的观众的男女比例是否有差异,若要使得有99%的把握判断观看这两部影片的观众的男女比例有差异,求k的最小值.
附: .
在统计中,用以下结果对变量的独立性进行判断:
当 时,没有充分的证据判断变量有关联,可以认为变量A,B是没有关联的;
当 时,有90%的把握判断变量A,B有关联;
当 时,有95%的把握判断变量A,B有关联;
当 时,有99%的把握判断变量A,B有关联.
类型七、独立性检验与概率
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
③先完成独立性检验的列联表、卡方计算,再以检验中的样本数据为依据,结合对应概型(古典/几何/条件概率)分析后续事件的概率,注意数据的对应关系(如用列联表中的频数计算频率,近似替代概率)
例7.教育部办公厅要求中小学校要通过体育与健康课程、大课间、课外体育锻炼、体育竞赛、班团队活动、家校协同联动等多种形式加强教育引导,让家长和中小学生科学认识体质健康的影响因素,了解运动在增强体质、促进健康、预防肥胖与近视、锤炼意志、健全人格等方面的重要作用,提高学生体育与健康素养,增强体质健康管理的意识和能力.某学校为了了解学生的身体健康与身体素质状况,随机抽取了50名同学的体测结果(“合格”或“优秀”),统计数据如下表:
性别
体测结果
合计
合格
优秀
男生
2
28
30
女生
6
14
20
合计
8
42
50
(1)能否有的把握认为体测结果与性别有关?
(2)用样本估计总体,频率估计概率.现等可能地从男、女生中抽取一个性别,然后再从选好的性别中随机抽取1名学生的体测结果,已知抽出的学生体测结果是“优秀”,求这名学生是男生的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
变式7-1.某中学对学生钻研奥数课程的情况进行调查,将每周独立钻研奥数课程超过6小时的学生称为“奥数迷”,否则称为“非奥数迷”,从调查结果中随机抽取100人进行分析,得到数据如表所示:
奥数迷
非奥数迷
总计
男
24
36
60
女
12
28
40
总计
36
64
100
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
(1)对照列联表,根据小概率的独立性检验,是否为“奥数迷”与性别有关?
(2)现从抽取的“奥数迷”中,按性别采用分层抽样的方法抽取3人参加奥数闯关比赛,已知其中男、女学生独立闯关成功的概率分别为,在恰有两人闯关成功的条件下,求两人性别相同的概率.
参考数据与公式:,其中.
变式7-2.某兴趣小组为宣传传统非遗文化制定了两种宣传方法,为了解两种宣传方法的宣传效果,该小组在人群中随机对84人进行了宣传(宣传前所有人均未了解过),其中42人采用宣传方法一,其余采用宣传方法二,宣传后的人群对传统非遗文化的了解程度分为“比较了解”和“有点了解”.经统计发现,采用宣传方法一宣传后的人中有30人是“比较了解”,采用宣传方法二宣传后的人中有18人是“比较了解”.
(1)以频率估计概率,现给2人采用宣传方法一宣传传统非遗文化(宣传前均未了解过),记宣传后“比较了解”的人数为,求的分布列和数学期望;
(2)列出列联表,并依据的独立性检验,是否可以认为宣传效果与宣传方法有关?
(3)若按照宣传方法进行分层抽样,从这84人中随机抽取14人,再从这14人中等可能依次抽取2人,求在第一次抽到“有点了解”的人的情况下,第二次抽到采用宣传方法二宣传且了解程度为“有点了解”的人的概率.
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
变式7-3.已知某市组建了一支300人的志愿者队伍,并由其中200人组成“志愿模范队”.经过一年的实践,全队共有200人的周平均服务时长超过2小时,其中有150人来自“志愿模范队”,如下表所示.
是“志愿模范队”成员
不是“志愿模范队”成员
总计
周平均服务时长超过2小时
150
200
周平均服务时长不超过2小时
总计
200
300
(1)请完成2×2列联表,并根据表中数据回答:根据小概率值的独立性检验,能否认为“是“志愿模范队”成员”与“周平均服务时长超过2小时”有关系?
(2)由于该市志愿者工作成效优异,现向全省推广该市经验,在全省每个市县都成立志愿者队伍,请以该市志愿者队伍的样本频率作为概率的值,在全省的志愿者队伍中任选3人,记周平均服务时长超过2小时且不是“志愿模范队”成员的人数为,求的分布列和数学期望.
附录:,其中.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
压轴专练
1.已知相关变量和的散点图如图所示,若用与拟合时,决定系数分别为和,则比较和的大小结果为( )
A. B. C. D.不确定
2.若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B. C. D.
3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为.
零件数x(个)
1
2
3
4
5
加工时间y(min)
50
67
71
79
表中有一个数据模糊不清,请你推断出该数据的值为( )
A.55 B.55.8
C.59 D.51
4.对两个变量x,y进行线性相关性检验,得线性相关系数,对两个变量u,v进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
5.下列结论中错误的是( )
A.在回归模型中,决定系数越大,则回归拟合的效果越好
B.样本数据,,,的方差为8,则数据,,,的方差为2
C.若随机变量服从正态分布,且,则
D.具有线性相关关系的变量,,其经验回归方程为,若样本点中心为,则
6.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是( )
日落云里走夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
参考公式:
临界值参照表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
7.(多选)某同学在一次试验中,得到两个变量,的成对样本数据:,,⋯,,经对该组数据研究发现,变量,间具有线性相关关系,用最小二乘法求得的经验回归方程为.该同学给出如下结论,其中正确的结论有()
A.变量与具有正线性相关关系
B.在实际问题中,解释变量每增加1个单位,响应变量一定相应增加个单位
C.经验回归直线过样本点的中心
D.散点图中的点中至少有一个点在经验回归直线上
8.(多选)为研究某种树的树高和胸径的关系,甲学习小组随机测量了100棵该品种树的胸径x(单位:cm)和树高y(单位:m)的数据,已知其中一组数据为点,且,求得线性经验回归方程为,其决定系数,并绘制了如下残差图.该小组研究发现,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则下列结论正确的是( )
A.乙学习小组对这组数据进行分析,得到非线性经验回归方程,其决定系数为,则甲小组选取的模型拟合效果更好
B.数据点P对应的残差为0.9
C.该样本中树的平均树高为22.29m
D.删除数据点P后,重新求得的回归直线的斜率变小
9.利用变量的5组实验数据,求得关于的经验回归方程为,若这5组数据对应的点都在该回归直线上,则相关系数为 .
10.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则 .
11.某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60 名学生的短跑成绩合格.这100名学生中有45名学生每周自主锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周自主锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周自主锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周自主锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率估计概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训.依据小概率值的独立性检验,零假设为:学生短跑成绩合格与每周自主锻炼时间相互独立.
(1)先填写列联表,再依据小概率值的独立性检验,判断是否能认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关;
每周自主锻炼时间超过5小时
每周自主锻炼时间不超过5小时
合计
短跑成绩合格
短跑成绩不合格
合计
100
(2)求学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率;
(3)为提高学生锻炼的积极性,学校偶尔会在田径运动场举办锻炼有奖活动,记表示事件“田径运动场举办锻炼有奖的抽奖活动”,表示事件“小明去田径运动场锻炼”,.已知小明在田径运动场举办锻炼有奖的抽奖活动的情况下去运动场锻炼的概率,比不举办抽奖活动的情况下去运动场锻炼的概率大.证明:.
参考公式与数据:,其中,.
0.01
0.005
0.001
6.635
7.879
10.828
12.某工厂生产某款电池,在满电状态下能够持续放电时间不低于10小时的为合格品,工程师选择某台生产电池的机器进行参数调试,在调试前后,分别在其产品中随机抽取样本数据进行统计,制作了如下的列联表:
产品
合格
不合格
合计
调试前
45
15
60
调试后
35
5
40
合计
80
20
100
(1)根据表中数据,依据显著性水平的独立性检验,能否认为参数调试与产品质量有关联;
(2)现从调试前的样本中按合格和不合格,用分层随机抽样法抽取8件产品重新做参数调试,再从这8件产品中随机抽取3件做对比分析,记抽取的3件中合格的件数为,求的分布和期望;
(3)用样本分布的频率估计总体分布的概率,若现在随机抽取调试后的产品1000件,记其中合格的件数为,求使事件“”的概率最大时的取值.
参考公式及数据:,其中.
0.05
0.025
0.01
0.005
0.001
3.841
5.024
6.635
7.879
10.828
1 / 10
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
专题03一元回归模型与独立性检验7类题型归纳(压轴题专项训练)
目录
类型一、相关系数的意义与计算
类型二、决定系数与残差的应用
类型三、回归直线方程的应用
类型四、非线性回归问题
类型五、回归分析与概率综合
类型六、独立性检验中的最值问题
类型七、独立性检验与概率
压轴专练
类型一、相关系数的意义与计算
(1)
当时,称成对样本数据正相关;当时,称成对样本数据负相关.
(2)样本相关系数的取值范围为.
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
例1对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】B
【分析】根据散点图和相关性的关系,判断结果.
【详解】由散点图知,相关系数对应的散点图呈负相关,且线性相关性比较强.
故选:B.
变式1-1.为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【分析】先计算线性相关系数 ,再通过 ()的绝对值判断相关强度( 越接近1,线性相关程度越强).
【详解】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
变式1-2.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
【答案】A
【分析】由回归方程可得,设去掉数据后,新数据为,
注意到,结合相关系数计算公式可得答案.
【详解】由题可得原数据,因过点,
则,从而.
设去掉数据后,新数据为,则
,又因,,
则,,从而.
故选:A
变式1-3.对相关系数,给出下列结论:①越大,线性相关程度越强;②若所有样本点都在直线上,则;③越大,线性相关程度越弱,越接近,线性相关程度越强;④且越接近,线性相关程度越强,越接近,线性相关程度越弱,
其中说法正确的是 填序号
【答案】④
【分析】根据相关系数的性质依次判断即可.
【详解】相关系数可以衡量两个变量之间的相关关系的强弱时,
而,当越接近于,表示两个变量的线性相关性越强,
越接近于时,表示两个变量之间几乎不存在相关关系,
故①③错误,④正确;
若所有样本点都在直线上,则,故②错误.
故综上所述,④正确.
故答案为:④.
变式1-4.假设关于某种设备的使用年限(单位:年)与所支出的维修费用(单位:万元)有如下统计资料:
2
3
4
5
6
2.2
3.8
5.5
6.5
7.0
已知,,,.
(1)求、;
(2)对、进行线性相关性检验.(保留2位小数)
【答案】(1)4,5;
(2),与之间具有线性相关关系.
【分析】(1)根据表格数据直接求解即可.
(2)根据题意,结合参考数据和相关系数的计算公式,求出,即可判断与之间是否具有线性相关关系.
【详解】(1)依题意,,.
(2)又,
,,
所以.
所以有把握认为与之间具有很强的正线性相关关系.
类型二、决定系数与残差的应用
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
例2.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若减少一个杂点数据后,得到修正后的回归直线的纵截距为,则数据的残差为( )
A. B. C. D.
【答案】C
【分析】由条件先求原数据的变量的平均值,再求除去杂点数据后的新数据组的,再由样本中心点在回归直线上求修正后的回归方程,再结合残差定义求解.
【详解】由题意可得回归方程为,所以,
因为,所以,所以,
若减少一个杂点数据后,剩余样本数量为10,
修正后的,,
又修正后的回归方程的纵截距为,
设修正后的回归方程为,
可得,
所以修正后回归方程为,
当时,,
所以数据的残差为.
故选:C
变式2-1已知变量满足线性相关关系,一组观测值如下表,且经验回归方程为.现有一对观测数据为,若该数据的残差为,则 .
【答案】
【分析】根据统计所得数据,可以先求出其样本中心点,代入可求得,进而可求得当时的预测值,再根据残差,即可求得观测值.
【详解】由题意可知,,,
将代入,得,解得,
所以.
当时,预测值,则.
故答案为:.
变式2-2已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
【答案】D
【分析】由回归直线结合,可得,据此可得新增数据后的回归直线中心点,由此可得新的回归直线方程,然后由残差定义可得答案.
【详解】因,则,则.
则新增数据后,,,
因新的回归直线过点,且修正后的回归直线的斜率为2.1,
则,则修正后的回归直线为:.
则的估计值为,则数据的残差为.
故选:D
变式2-3.(多选)关于残差图的描述正确的是( )
A.残差图的横坐标可以是样本编号
B.残差图可以直观地判断模型是否满足一元线性回归模型的假设
C.残差点分布的带状区域的宽度越窄决定系数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
【答案】ABD
【分析】根据残差及残差图的实际意义判断各项的正误.
【详解】残差图的横坐标可以根据需要选择样本编号、自变量取值或预测值等,A对;
通过观察残差图,可以判断残差是否随机分布、方差是否齐性、是否存在非线性关系或异常值,从而验证模型假设是否成立,B对;
残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时的值越大,C错,D对.
故选:ABD
变式2-4.(多选)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是( )
A.决定系数变大
B.相关系数变小
C.残差平方和变小
D.这些数据中的x的平均值变小,的平均值变大
【答案】AC
【分析】由图可知:点较其他的点偏离直线最大,所以去掉点后,回归效果更好.结合相关系数、决定系数、残差平方和以及点的横纵坐标平均值逐项分析判断.
【详解】由图可知:较其他的点偏离直线最大,所以去掉点后,回归效果更好.
对于A,决定系数越接近于1,拟合效果越好,所以去掉点后,决定系数变大,故A正确;
对于B,相关系数越接近于1,线性相关性越强,因为散点图是递增的趋势,所以去掉点后,相关系数变大,故B错误;
对于C,残差平方和变大,拟合效果越差,所以去掉点后,残差平方和变小,故C正确;
对于D,由图可知,点在所有点中,横坐标较小,纵坐标较大,所以去掉点后,x的平均值变大,的平均值变小,故D错误;
故选:AC.
类型三、回归直线方程的应用
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
例3.市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x
1
2
3
4
5
6
净利润y(万元)
1.0
1.4
1.7
2.0
2.2
2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若时,则线性相关程度较高,,则线性相关程度一般,计算时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据,其回归直线的斜率
,.相关系数.
参考数据:,,,,,.
【答案】(1)可以,理由见解析
(2),3.32万元
【分析】(1)计算出相关数据,利用相关系数公式计算即可;
(2)根据线性回归方程公式计算即可.
【详解】(1)由条件则,
,
.
根据相关系数公式则
.
因此可以用线性回归模型拟合x与y的关系.
(2)根据(1)则变量x,y线性相关,设所求的线性回归方程为.
根据回归方程的回归系数公式则
.
又因为.
从而可得变量x,y线性回归方程为
当时,
因此预测9月份的利润为3.32万元.
变式3-1.近些年来,短视频社交软件日益受到追捧,用户可以通过软件选择歌曲,拍摄音乐短视频,创作自己的作品.某用户对自己发布的视频个数x与收到的点赞个数之和y之间的关系进行了分析研究,得到如下数据:
x
3
4
5
6
7
y
45
50
60
65
70
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为发布的视频个数与收到的点赞数之和的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.
参考公式:,,.参考数据:,.
【答案】(1),可以认为发布的视频个数与收到的点赞数之和的相关性很强
(2)
【分析】(1)根据相关系数公式直接求解即可,然后再判断
(2)根据回归方程公式直接求解即可
【详解】(1)因为,,
所以,.
因为,所以
所以,
由此可以认为发布的视频个数与收到的点赞数之和的相关性很强.
(2)由(1)知,,
所以.
因为,
所以y关于x的线性回归方程为.
变式3-2.某医科大学实习小组为研究实习地昼夜温差与感冒人数之间的关系,分别到当地气象部门和某医院抄录了1月至3月每月5日、20日的昼夜温差情况与因感冒而就诊的人数,得到如表资料:
日期
1月5日
1月20日
2月5日
2月20日
3月5日
3月20日
昼夜温差x(℃)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该小组确定的研究方案是:先从这6组数据中随机选取4组数据求线性回归方程,再用剩余的2组数据进行检验.
参考公式:,.
(1)求剩余的2组数据都是20日的概率;
(2)若选取的是1月20日、2月5日、2月20日、3月5日这4组数据.
①请根据这4组数据,求出y关于x的线性回归方程;
②若某日的昼夜温差为7℃,请预测当日就诊人数.(结果保留整数).
【答案】(1)
(2)① ;②14人
【分析】(1)利用列举法求解,先列出从这6组中随机选取4组数据,剩余的2组数据所有等可能的情况,然后找出其中2组数据都是20日的情况,然后利用古典概型的概率公式求解,
(2)①根据表中的数据和公式求出y关于x的线性回归方程,②把代入回归方程求解即可
【详解】(1)记6组依次为1,2,3,4,5,6,从这6组中随机选取4组数据,剩余的2组数据所有等可能的情况为,,,,,,,,,,,,,,共15种,
其中2组数据都是20日,即都取自2,4,6组的情况有3种.
根据古典概型概率计算公式,剩余的2组数据都是20日的概率.
(2)①由所选数据,得,,
所以,
所以,
所以y关于x的线性回归方程为.
②当时,,
所以某日的昼夜温差为7℃,预测当日就诊人数约为14人.
变式3-3.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量(单位:万件)的统计表:
月份代码
1
2
3
4
5
6
7
销售量/万件
但其中数据污损不清,经查证.
(1)请用相关系数说明销售量与月份代码之间有很强的线性相关关系(当时认为两个变量有很强的线性相关关系);
(2)求关于的回归直线方程(结果中保留两位小数);
(3)公司经营期间的广告宣传费(单位:万元),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由(毛利润=销售金额-广告宣传费).
参考数据:,.
【答案】(1)答案见解析;(2);(3)不能,理由见解析
【分析】(1)由已知数据利用相关系数公式求得r,由,可知销售量与月份代码有很强的线性相关系数.
(2)求出与的值,就可以得到关于 的回归方程;
(3)在(2)的线性回归方程中,取,求得y,进一步得到第8个月份的毛利润,与15万元比较大小可得结论.
【详解】由题意,得,,
..
,
销售量与月份代码之间有很强的线性相关关系。
(2),
,
关于的回归直线方程为.
(3)当时,,而,
第8个月的毛利润约为14.48万元
又,
第8个月的毛利润不能突破15万元
类型四、非线性回归问题
(1)当经验回归方程并非形如()时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:
曲线方程
变换公式
变换后的线性关系式
(2)建立非线性经验回归模型的基本步骤
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;
(2)由经验确定非线性经验回归方程的模型;
(3)通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);
(4)按照公式计算经验回归方程中的参数,得到经验回归方程;
(5)消去新元,得到非线性经验回归方程;
(6)得出结果后分析残差图是否有异常 .
例4.近年来,政府相关部门引导乡村发展旅游业的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲、乙两名同学一起收集了6家农户的数据,进行回归分析,得到两个回归模型:模型①;模型②.对以上两个回归方程进行残差分析,得到下表:
种植面积亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
0.38
0.28
模型②
估计值
26.84
20.17
18.83
17.31
16.46
残差
0.83
3.17
注:表中.
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求其经验回归方程.
参考公式:.
【答案】(1)表格见解析,模型①拟合效果更好.
(2)
【分析】(1)根据回归模型①②分别代入求出相应每亩种植管理成本的估计值,再由实际值与估计值的差求出相应残差,然后分别计算残差平方和,比较大小判断拟合效果即可;
(2)根据残差的绝对值剔除异常数据,由参考公式求解可得经验回归方程.
【详解】(1)当时,
当时,,
完成表格如下:
种植面积/亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
16
14
模估计值
25.27
23.62
21.97
20.32
17.02
13.72
①残差
0.38
1.68
.02
0.28
模估计值
26.84
22.39
20.17
18.83
17.31
16.46
②残差
.84
1.61
0.83
3.17
注:表中.
模型①的残差平方和为5.0994,
模型②的残差平方和为24.4832,
因为,
即模型①的残差平方和比模型②的残差平方和小,所以模型①拟合效果更好.
(2)由题意及(1)可知,模型①中仅第四组数据残差的绝对值超过1.5,
故应剔除第四组数据,剔除后,
则,
所以
,
则,
所以所求经验回归方程为.
变式4-1.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
【答案】(1);
(2)模型②.
【分析】(1)根据给定的数据,利用最小二乘法公式求出经验回归方程.
(2)分别求出模型①、模型②中年利润增量,再比较它们与40差的绝对值大小即可.
【详解】(1)由,得,
则,,
所以模型②中关于的经验回归方程为.
(2)模型①,,当时,年利润增量,
模型②,,当时,,
因此年利润增量,而,
所以模型②的预报效果更好.
变式4-2.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
【答案】(1)模型②的拟合程度更好
(2)13(百万辆)
【分析】(1)利用公式分别求出模型①和②的相关系数,结合相关系数的意义即可判断哪一个模型拟合程度更好;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解..
【详解】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
变式4-3.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立与的回归方程更合适
(2)
(3)万元
【分析】(1)求出相关系数,比较大小,越接近1回归方程更适合.
(2)先换元用公式,求出线性回归方程,再回代求出非线性回归方程即可.
(3)用(2)的方程代入利润方程得出利润z关于研发经费x的函数关系式,再用基本不等式可解决.
【详解】(1)由题意知,
,
因为,所以用模型建立与的回归方程更合适.
(2)令,回归方程为,
因为,
,
所以关于的回归方程为,即.
(3)由题意知
,当且仅当,即时取等号,
则,所以.当且仅当时等号成立,
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为万元.
类型五、回归分析与概率综合
(1)基于回归预测值的概率
①构建回归模型,得到预测表达式;
②确定预测值范围与目标事件;
③用古典概型(离散值)/几何概型(连续值)计算概率。
(2)样本数据的回归+概率
①用样本求回归方程,得拟合值
②筛选满足某条件的样本;
③计算此类样本在总样本中的占比(条件概率)
例5.某市航空公司为了解每年航班正点率对每年顾客投诉次数(单位:次)的影响,对近8年(2017年~2024年)每年航班正点率和每年顾客投诉次数的数据作了初步处理,得到下面的一些统计量的值.
600
592
43837.2
93.8
(1)求关于的经验回归方程,若该市航空公司预计2025年航班正点率为,请估算2025年顾客对该市航空公司投诉的次数;
(2)根据数据统计,该市所有顾客选择乘坐该航空公司航班的概率为,现从该市所有顾客中随机抽取4人,记这4人中选择乘坐该航空公司航班的人数为,求的分布列和数学期望.
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:
【答案】(1),次
(2)分布列见解析,期望为
【分析】(1)根据题中数据利用最小二乘法求出,进而可求回归直线方程,将代入回归方程即可得解;
(2)先写出随机变量的所有可能取值,再求出对应概率,即可得分布列,再根据期望公式求期望即可.
【详解】(1)
则,
所以,
所以关于的经验回归方程为;
当时,,
所以2025年顾客对该市航空公司投诉的次数为次;
(2)可取,,
,,
,,
,
所以分布列为
所以.
方法二:服从,
变式5-1.随着国内人均收入的增加,居民的健康意识也不断增加,健身器材行业发展迅速,下面为年中国健身器材市场规模(单位:百亿元).
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
市场规模
4.1
4.4
4.8
5.5
6.3
(1)由上面数据可知,可用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(2)数据显示2024年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从2024年购买过体育用品类的中国消费者中国随机抽取3人,记购买过运动防护类的消费者人数为,求的分布列与数学期望.
参考数据:
其中.
参考公式:对于一组数据,,,,其经验回归直线的斜率与截距的最小二乘法公式为:,.
【答案】(1)
(2)答案详见解析
【分析】(1)由 ,得模型线性化为:,然后利用最小二乘法的公式计算即可;
(2)利用二项分布的概率计算公式与期望计算公式可得答案.
【详解】(1)由 ,则模型线性化为:,
,,,
由,,
得:,
由,,
得:,
代入最小二乘法估计公式,得:
,
,
,
故关于的回归方程为:.
(2)由题意知: 服从二项分布,即.
由二项分布的概率计算公式得:
,
,
,
,
故的分布列为:
0
1
2
3
数学期望.
变式5-2.某校举办校刊义卖活动,学生在义卖处每领取一本校刊,便自觉向收银箱中支付至少两元钱.现统计了连续5天的售出校刊数量和收益情况,如下表:
售出校刊数量x(单位:箱)
6
5
7
5
7
收益y(单位:元)
240
220
260
230
270
(1)求收益y关于售出数量x的回归直线方程,并计算售出8箱校刊时的预计收益;
(2)学校决定将收益奖励在科技创新大赛中获奖的学生,获奖学生每人奖励100元.已知甲、乙两名学生是否获奖是相互独立的,甲获奖的概率为,乙获奖的概率为,求甲、乙两名学生获奖总金额X的分布列及数学期望.附:,.
【答案】(1);元;
(2)分布列见解析;.
【分析】(1)根据给出的公式求线性回归方程,再把代入求值即可.
(2)明确的取值,求出对应的概率,可得的分布列,再根据期望公式求.
【详解】(1)因为,,
,
,
所以,.
所以收益y关于售出数量x的回归直线方程为:.
当时,预测收益为元.
(2)由题意,的值可能为:,
且,,.
所以的分布列为:
0
100
200
所以.
变式5-3.前几年随着网购的普及,线下零售遭遇挑战,但随着新零售模式的不断出现,零售行业近几年呈现增长趋势,下表为2021~2024年百货零售业的销售额(单位:亿元,数据经过处理,1~4分别对应2021~2024年)
年份代码
1
2
3
4
销售额
95
165
230
310
(1)建立关于的回归方程,并预测2025年我国百货零售业的销售额;
(2)从2021~2024年这4年的百货零售业销售额及2025年预测销售额这5个数据中任取2个数据,求这2个数据之差的绝对值大于200亿元的概率.
参考数据:,
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为
【答案】(1),377.5
(2)
【分析】(1)由最小二乘法即可求解,
(2)列举所有情况,即可根据古典概型的概率公式求解.
【详解】(1)由题意可知,
故
故,
故关于的回归方程为,
当时,.
(2)从2021~2024年这4年的百货零售业销售额及2025年预测销售额这5个数据中任取2个数据,所有的情况有
共有10种情况,
则这2个数据之差的绝对值大于200亿元的有,共有3种情况,
故概率为
类型六、独立性检验中的最值问题
(1)核心解题步骤
①关联列联表与变量,明确各量关系
②代入卡方公式,结合临界值建不等式
③化简不等式,确定变量取值范围
④结合目标量与变量的关系,求最值
(2)关键技巧总结
①列联表与变量的绑定:先将所有频数用同一变量表示,避免多个变量混淆;
②卡方公式的简化运算:优先化简(ad−bc)部分,减少复杂计算量;
③约束条件的结合:解不等式后,必须结合题目中变量的取值范围(整数、区间)筛选可行值,避免脱离实际的代数解;
④目标量与变量的关联:明确目标量的表达式,通过变量的最值直接推导目标量的最值
例6.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若我们推断不成立,此推断犯错误率不超过,则的最小值为( )
附:,附表:
0.05
0.01
3.841
6.635
A.7 B.8 C.9 D.10
【答案】C
【分析】根据题意可得列联表,由已知数据计算,根据独立性检验的结论,列不等式求的取值范围,得最小值.
【详解】根据题意,不妨设男生中喜欢短视频的人数为人,男生中不喜欢短视频的人数为人,女生中喜欢短视频的人数为人,女生中不喜欢短视频的人数为人.
所以可得列联表如下:
喜欢短视频人数
不喜欢短视频人数
合计
男生人数
女生人数
合计
于是,
由于推断不成立,此推断犯错误率不超过,
所以依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,且,于是最小值为.
故选:C
变式6-1.为了解正在研发的新产品在18~22岁和23~27岁两个年龄段青年群体中的受众面,某科技公司发布问卷展开调查,从这两个年龄段的青年群体中随机抽取160人作为调查样本,统计数据后得到如下列联表,其中.
年龄段
兴趣
感兴趣
不感兴趣
18~22岁
23~27岁
若通过计算,得根据小概率值的独立性检验,认为是否对新产品感兴趣与青年的年龄段有关,则在被调查的位于23~27岁年龄段的80名青年中对新产品感兴趣的人数的最小值为 .
附:,其中.
0.050
0.010
0.005
0.001
3.841
6.635
7.879
10.828
【答案】66
【分析】代入公式,得到不等式,求出的最小值为16,得到答案.
【详解】由题意可得,
即.
函数在时单调递增,且,
,,
的最小值为16,
在被调查的位于23∼27岁年龄段的80名青年中对新产品感兴趣的人数的最小值为.
故答案为:66
变式6-2.某校以“和经典相伴,与书香同行”为主题举行学习活动.为了解男女同学对该活动的感兴趣程度,对该校多位同学进行了调查,并将结果整理为如下列联表,其中为正整数.
参加
不参加
合计
男生
女生
合计
(1)当足够大时,估计该校任一不参加活动的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为是否参加该活动与性别有关,求的最小值.
附:
0.1
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)
(2)
【分析】(1)用频率估计概率即可得出答案;
(2)根据小概率值的独立性检验得到即可得出答案.
【详解】(1)设事件为“该校任一不参加活动的学生是男生”,由调查数据可知当足够大时,以频率估计概率可知该校任一不参加活动的学生是男生的概率.
(2)零假设为:是否参加活动与性别无关.
由题意可得,
若根据小概率值的独立性检验,认为是否参加该活动与性别有关,即不成立,
则,解得.
因为为正整数,则的最小值为10.
变式6-3.为了解观看这两部影片的观众中男、女观众的占比情况,某机构采用简单随机抽样的方法,调查了200人,得到如下数据.
观众
性别
合计
男
女
观看A影片
50
50
100
观看B影片
40
60
100
合计
90
110
200
(1)试问观看这两部影片的观众的男女比例是否有差异?
(2)若将表中所有数据都扩大为原来的倍,在相同的检验标准下,再用独立性检验推断观看这两部影片的观众的男女比例是否有差异,若要使得有99%的把握判断观看这两部影片的观众的男女比例有差异,求k的最小值.
附: .
在统计中,用以下结果对变量的独立性进行判断:
当 时,没有充分的证据判断变量有关联,可以认为变量A,B是没有关联的;
当 时,有90%的把握判断变量A,B有关联;
当 时,有95%的把握判断变量A,B有关联;
当 时,有99%的把握判断变量A,B有关联.
【答案】(1)没有差异
(2)4
【详解】(1)根据列联表中的数据,经计算得到,
因为,所以观看这两部影片的观众的男女比例没有差异.
(2),
令,即,
取,则,
因为,所以的最小值为4.
类型七、独立性检验与概率
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
③先完成独立性检验的列联表、卡方计算,再以检验中的样本数据为依据,结合对应概型(古典/几何/条件概率)分析后续事件的概率,注意数据的对应关系(如用列联表中的频数计算频率,近似替代概率)
例7.教育部办公厅要求中小学校要通过体育与健康课程、大课间、课外体育锻炼、体育竞赛、班团队活动、家校协同联动等多种形式加强教育引导,让家长和中小学生科学认识体质健康的影响因素,了解运动在增强体质、促进健康、预防肥胖与近视、锤炼意志、健全人格等方面的重要作用,提高学生体育与健康素养,增强体质健康管理的意识和能力.某学校为了了解学生的身体健康与身体素质状况,随机抽取了50名同学的体测结果(“合格”或“优秀”),统计数据如下表:
性别
体测结果
合计
合格
优秀
男生
2
28
30
女生
6
14
20
合计
8
42
50
(1)能否有的把握认为体测结果与性别有关?
(2)用样本估计总体,频率估计概率.现等可能地从男、女生中抽取一个性别,然后再从选好的性别中随机抽取1名学生的体测结果,已知抽出的学生体测结果是“优秀”,求这名学生是男生的概率.
附:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)能有的把握认为体测结果与性别有关
(2)
【分析】(1)根据列联表可得独立性检验的各项数据,利用独立性检验的计算公式以及检验过程,可得答案;
(2)根据古典概型以及条件概率,利用全概率公式,可得答案.
【详解】(1)由题意可得,
则,
故能有的把握认为体测结果与性别有关.
(2)设{抽取的一人为优秀},{抽取的一人为男生},
则{抽取的一人为合格},{抽取的一人为女生},
可得,,,,
所以,
故.
变式7-1.某中学对学生钻研奥数课程的情况进行调查,将每周独立钻研奥数课程超过6小时的学生称为“奥数迷”,否则称为“非奥数迷”,从调查结果中随机抽取100人进行分析,得到数据如表所示:
奥数迷
非奥数迷
总计
男
24
36
60
女
12
28
40
总计
36
64
100
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
(1)对照列联表,根据小概率的独立性检验,是否为“奥数迷”与性别有关?
(2)现从抽取的“奥数迷”中,按性别采用分层抽样的方法抽取3人参加奥数闯关比赛,已知其中男、女学生独立闯关成功的概率分别为,在恰有两人闯关成功的条件下,求两人性别相同的概率.
参考数据与公式:,其中.
【答案】(1)没有90%的把握认为是否为“奥数迷”与性别有关.
(2)
【分析】(1)作零假设,根据表中数据计算得并与作比较,然后得到结论;
(2)由分层抽样得到抽取的男生和女生的人数,记“恰有两人闯关成功”为事件,“没有女生闯关成功”为事件,分别求出则,,由条件概率公式求得. .
【详解】(1)零假设:“奥数迷”与性别无关
根据表中数据计算得
根据小概率的独立性检验,没有充分的证据推断不成立,因此可以认为“奥数迷”与性别无关.
没有90%的把握认为是否为“奥数迷”与性别有关.
(2)根据分层抽样,抽取的男生人数为2人,女生人数为1人,
记“恰有两人闯关成功”为事件,“没有女生闯关成功”为事件,
则,
.
由条件概率的公式得,
故在恰有两人闯关成功的条件下,两人性别相同的概率为
变式7-2.某兴趣小组为宣传传统非遗文化制定了两种宣传方法,为了解两种宣传方法的宣传效果,该小组在人群中随机对84人进行了宣传(宣传前所有人均未了解过),其中42人采用宣传方法一,其余采用宣传方法二,宣传后的人群对传统非遗文化的了解程度分为“比较了解”和“有点了解”.经统计发现,采用宣传方法一宣传后的人中有30人是“比较了解”,采用宣传方法二宣传后的人中有18人是“比较了解”.
(1)以频率估计概率,现给2人采用宣传方法一宣传传统非遗文化(宣传前均未了解过),记宣传后“比较了解”的人数为,求的分布列和数学期望;
(2)列出列联表,并依据的独立性检验,是否可以认为宣传效果与宣传方法有关?
(3)若按照宣传方法进行分层抽样,从这84人中随机抽取14人,再从这14人中等可能依次抽取2人,求在第一次抽到“有点了解”的人的情况下,第二次抽到采用宣传方法二宣传且了解程度为“有点了解”的人的概率.
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1)分布列见解析,
(2)列联表见解析,有关
(3)
【分析】(1)由题意可得采用宣传方法一宣传后的人是“比较了解”的概率为,进而得到,再根据二项分布的概率公式及期望公式求解即可;
(2)由题意求出列联表,再计算出即可判断;
(3)先确定抽取的14人中采用宣传方法一宣传且了解程度为“有点了解”和采用宣传方法二宣传且了解程度为“有点了解”的人数,进而结合条件概率公式求解即可.
【详解】(1)依题意可得,采用宣传方法一宣传后的人是“比较了解”的概率为,
所以,
则,,,
所以的分布列为
0
1
2
则.
(2)由题意,列联表如下:
宣传方法
了解程度
合计
有点了解
比较了解
方法一
12
30
42
方法二
24
18
42
合计
36
48
84
零假设:宣传效果与宣传方法无关.
经计算得,
所以依据的独立性检验,我们推断不成立,
即可以认为宣传效果与宣传方法有关,此推断犯错误的概率不超过0.01.
(3)14人中,采用宣传方法一宣传且了解程度为“有点了解”的有人,
采用宣传方法二宣传且了解程度为“有点了解”的有人,
记事件表示“第一次抽到‘有点了解’的人”,
事件表示“第二次抽到采用宣传方法二宣传且了解程度为‘有点了解’的人”,
则,,
所以.
变式7-3.已知某市组建了一支300人的志愿者队伍,并由其中200人组成“志愿模范队”.经过一年的实践,全队共有200人的周平均服务时长超过2小时,其中有150人来自“志愿模范队”,如下表所示.
是“志愿模范队”成员
不是“志愿模范队”成员
总计
周平均服务时长超过2小时
150
200
周平均服务时长不超过2小时
总计
200
300
(1)请完成2×2列联表,并根据表中数据回答:根据小概率值的独立性检验,能否认为“是“志愿模范队”成员”与“周平均服务时长超过2小时”有关系?
(2)由于该市志愿者工作成效优异,现向全省推广该市经验,在全省每个市县都成立志愿者队伍,请以该市志愿者队伍的样本频率作为概率的值,在全省的志愿者队伍中任选3人,记周平均服务时长超过2小时且不是“志愿模范队”成员的人数为,求的分布列和数学期望.
附录:,其中.
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
【答案】(1)列联表见解析,认为“是‘志愿模范队’成员”与“周平均服务时长超过2小时”有关
(2)分布列见解析,数学期望为
【分析】(1)根据卡方公式,结合列联表进行求解即可;
(2)写出二项分布的性质写出其分布列,利用二项分布的期望公式即可求解.
【详解】(1)由题可得如下列联表:
是“志愿模范队”成员
不是“志愿模范队”成员
总计
周平均服务时长超过2小时
150
50
200
周平均服务时长不超过2小时
50
50
100
总计
200
100
300
设零假设“是“志愿模范队”成员”与“周平均服务时长超过2小时”无关,
可得,
所以根据小概率值的独立性检验,可以认为不成立,
即认为“是‘志愿模范队’成员”与“周平均服务时长超过2小时”有关.
(2)依题意,的可能取值为0,1,2,3,从全省的志愿者队伍中随机抽取一位志愿者,取到周平均服务时长超过2小时且不是“志愿模范队”成员的志愿者的概率为
故,
故的分布列为
0
1
2
3
,则数学期望.
压轴专练
1.已知相关变量和的散点图如图所示,若用与拟合时,决定系数分别为和,则比较和的大小结果为( )
A. B. C. D.不确定
【答案】C
【分析】根据决定系数的定义判断即可.
【详解】由散点图知,用拟合的效果比用拟合的效果要好,
所以.
故选:C.
2.若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B. C. D.
【答案】D
【详解】解析 对于A:因为在定义域内单调递增且,所以随着的增大而增大,不合题意,故A错误;
对于B:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故B错误;
对于C:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故C错误;
对于D:因为在定义域内单调递减且,所以随着的增大而减小,当解释变量,,故D正确;故选D.
3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为.
零件数x(个)
1
2
3
4
5
加工时间y(min)
50
67
71
79
表中有一个数据模糊不清,请你推断出该数据的值为( )
A.55 B.55.8
C.59 D.51
【答案】D
【分析】首先根据回归直线必过样本点中心,代入方程求,即可求不清楚的数据.
【详解】回归直线必过样本点中心,其中,
所以,
所以不清楚的数值为.
故选:D
4.对两个变量x,y进行线性相关性检验,得线性相关系数,对两个变量u,v进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
【答案】D
【分析】根据相关系数的正负判断正负相关,并根据相关系数绝对值大小得到相关性强弱.
【详解】由线性相关系数知x与y正相关,
由线性相关系数知u与v负相关,
又,所以变量u与变量v的线性相关性比变量x与变量y的线性相关性更强.
故选:D
5.下列结论中错误的是( )
A.在回归模型中,决定系数越大,则回归拟合的效果越好
B.样本数据,,,的方差为8,则数据,,,的方差为2
C.若随机变量服从正态分布,且,则
D.具有线性相关关系的变量,,其经验回归方程为,若样本点中心为,则
【答案】C
【分析】根据决定系数的意义判断A选项;根据方差的性质判断B选项;利用正态曲线可判断C选项;利用经验回归方程过样本中心点计算D选项.
【详解】对于A选项,决定系数越大,回归模型的拟合效果越好,故A正确;
对于B选项,样本数据,,,的方差为8,
则数据,,,的方差为,故B正确;
对于C选项,随机变量服从正态分布,均值,
正态曲线的对称轴为,
,,
由对称性知,,,故C错误;
对于D选项,经验回归方程过样本中心点,将代入中得,
,解得,故D正确.
故选:C
6.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”小波同学为了验证“日落云里走,雨在半夜后”,观察了地区的100天日落和夜晚天气,得到如下列联表(单位:天),并计算得到,下列小波对地区天气的判断不正确的是( )
日落云里走夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
参考公式:
临界值参照表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.有99%的把握判断“日落云里走”是否出现与夜晚天气有关
D.出现“日落云里走”,有99%的把握判断夜晚会下雨
【答案】D
【分析】利用频率估算概率,结合观测值对照附表,对选项进行判断即可.
【详解】选项A:根据列联表可知:100天中有50天下雨,50天未下雨,
因此夜晚下雨的概率约为,故选项A正确;
选项B:未出现“日落云里走”,夜晚下雨的概率约为,故选项B正确;
选项C:因为 ,所以据小概率值的独立性检验,
可以认为“日落云里走”是否出现与夜晚天气有关,故选项C正确;
选项D:依据小概率值的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.01,但不代表一定会下雨,故选项D错误.
故选:D
7.(多选)某同学在一次试验中,得到两个变量,的成对样本数据:,,⋯,,经对该组数据研究发现,变量,间具有线性相关关系,用最小二乘法求得的经验回归方程为.该同学给出如下结论,其中正确的结论有()
A.变量与具有正线性相关关系
B.在实际问题中,解释变量每增加1个单位,响应变量一定相应增加个单位
C.经验回归直线过样本点的中心
D.散点图中的点中至少有一个点在经验回归直线上
【答案】AC
【分析】A选项:由线性回归系数的符号可判断相关性的正负,当斜率大于0时,变量之间呈正线性相关关系;B选项:回归方程中的斜率表示解释变量每增加一个单位时,响应变量预测值的平均变化量,不能断言每一个个体都会发生确定的同等变化;C选项:根据最小二乘法的性质,回归直线必然经过样本中心点,D选项:对于任意给定的样本数据,散点不一定落在拟合的回归直线上,这是模型拟合的统计特性,回归线是整体趋势的估计,并不强制经过某个样本点.
【详解】因为经验回归方程为,根据正线性相关关系的定义,
当时,随的增大而增大,所以变量与具有正线性相关关系,故选项A正确.
在实际问题中,解释变量每增加1个单位,响应变量的平均变化量为,
但不一定增加个单位,因为经验回归方程是根据样本数据拟合的,存在一定的误差,故选项B错误.
根据经验回归直线的性质,经验回归直线一定过样本点的中心,故选项C正确.
散点图中的点不一定都在经验回归直线上,
经验回归直线是根据样本数据拟合的,它不一定经过所有样本点,故选项D错误.
故选:AC
8.(多选)为研究某种树的树高和胸径的关系,甲学习小组随机测量了100棵该品种树的胸径x(单位:cm)和树高y(单位:m)的数据,已知其中一组数据为点,且,求得线性经验回归方程为,其决定系数,并绘制了如下残差图.该小组研究发现,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则下列结论正确的是( )
A.乙学习小组对这组数据进行分析,得到非线性经验回归方程,其决定系数为,则甲小组选取的模型拟合效果更好
B.数据点P对应的残差为0.9
C.该样本中树的平均树高为22.29m
D.删除数据点P后,重新求得的回归直线的斜率变小
【答案】AC
【分析】根据决定系数的含义、残差的定义、平均值以及回归方程等知识逐项计算判断即可.
【详解】对于A:决定系数越大,模型的拟合效果越好,,选项A正确;
对于B:计算数据对应的残差,当时,,
所以残差为,选项B错误;
对于C:已知,则样本中心点的横坐标:,
将代入回归方程,可得y=0.25×29.16+15=7.29+15=22.29,
所以样本中树的平均树高为,选项C正确;
对于D:删除数据后,
因为38.4大于样本中心点的横坐标29.16,且23.7小于通过回归方程计算出的38.4对应的预测值24.6,
所以删除该点后,剩下的数据整体上可能使得树高与胸径的正相关变强,
即重新求得的回归直线的斜率变大,选项D错误.
故选:AC.
9.利用变量的5组实验数据,求得关于的经验回归方程为,若这5组数据对应的点都在该回归直线上,则相关系数为 .
【答案】
【分析】根据变量的相关性,直接得出相关系数.
【详解】由经验回归方程知与负相关,
因为这5组数据对应的点都在回归直线上,所以相关系数为.
故答案为:
10.定义.已知具有相关关系的两个变量x,y,有一组观测数据,其经验回归方程为,若,,则 .
【答案】/
【分析】根据回归直线性质计算求解.
【详解】令,
所以,
由,解得.
故答案为:
11.某兴趣小组调查了某校100名学生100米短跑成绩的情况,其中有60 名学生的短跑成绩合格.这100名学生中有45名学生每周自主锻炼时间超过5小时,60名短跑成绩合格的学生中有35名学生每周自主锻炼时间超过5小时.现对短跑成绩不合格的学生进行跑步技巧培训,已知每周自主锻炼时间超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为,每周自主锻炼时间不超过5小时的学生参加跑步技巧培训后,学生的短跑成绩合格的概率为.用频率估计概率,从短跑成绩不合格的学生中随机抽取1名学生(记为甲)进行跑步技巧培训.依据小概率值的独立性检验,零假设为:学生短跑成绩合格与每周自主锻炼时间相互独立.
(1)先填写列联表,再依据小概率值的独立性检验,判断是否能认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关;
每周自主锻炼时间超过5小时
每周自主锻炼时间不超过5小时
合计
短跑成绩合格
短跑成绩不合格
合计
100
(2)求学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率;
(3)为提高学生锻炼的积极性,学校偶尔会在田径运动场举办锻炼有奖活动,记表示事件“田径运动场举办锻炼有奖的抽奖活动”,表示事件“小明去田径运动场锻炼”,.已知小明在田径运动场举办锻炼有奖的抽奖活动的情况下去运动场锻炼的概率,比不举办抽奖活动的情况下去运动场锻炼的概率大.证明:.
参考公式与数据:,其中,.
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1)列联表详见解析,,根据小概率值的独立性检验,可以认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关.
(2).
(3)证明详见解析.
【分析】(1)根据题意先完成列联表,根据表格中的数据计算即可进行独立性检验.
(2)综合条件概率公式、全概率公式、贝叶斯公式求解.
(3)根据条件概率公式与对立事件的概率公式化简求证.
【详解】(1)根据题意完善列联表如下:
每周自主锻炼时间超过5小时
每周自主锻炼时间不超过5小时
合计
短跑成绩合格
35
25
60
短跑成绩不合格
10
30
40
合计
45
55
100
根据列联表中的数据,计算得到
,
根据小概率值的独立性检验,我们推断不成立,即认为学生短跑成绩合格与每周自主锻炼时间超过5小时有关.
(2)由(1)中的列联表知,短跑成绩不合格的学生有40人,其中每周自主锻炼时间超过5小时的有10人,每周自主锻炼时间不超过5小时的有30人.
记事件“甲在培训后短跑成绩合格”,事件“甲每周自主锻炼时间超过5小时”,则事件 “甲每周自主锻炼时间不超过5小时”,
用频率估计概率知 ,,
由题意知,,
由全概率公式知.
由贝叶斯公式知,即学生甲在培训后短跑成绩合格的情况下,每周自主锻炼时间不超过5小时的概率为.
(3)由题意知,
所以,
因为,所以,
所以,
整理得,
所以,
即,
因为,所以,
所以,即.
12.某工厂生产某款电池,在满电状态下能够持续放电时间不低于10小时的为合格品,工程师选择某台生产电池的机器进行参数调试,在调试前后,分别在其产品中随机抽取样本数据进行统计,制作了如下的列联表:
产品
合格
不合格
合计
调试前
45
15
60
调试后
35
5
40
合计
80
20
100
(1)根据表中数据,依据显著性水平的独立性检验,能否认为参数调试与产品质量有关联;
(2)现从调试前的样本中按合格和不合格,用分层随机抽样法抽取8件产品重新做参数调试,再从这8件产品中随机抽取3件做对比分析,记抽取的3件中合格的件数为,求的分布和期望;
(3)用样本分布的频率估计总体分布的概率,若现在随机抽取调试后的产品1000件,记其中合格的件数为,求使事件“”的概率最大时的取值.
参考公式及数据:,其中.
0.05
0.025
0.01
0.005
0.001
3.841
5.024
6.635
7.879
10.828
【答案】(1)认为参数调试与产品质量无关联
(2)的分布见解析,
(3)
【分析】(1)计算的值,将其与对应的小概率值比较即得;
(2)先算出抽取的8件产品中的合格品与不合格品的数目,再从中抽取3件,根据合格品件数的可能值运用超几何分布概率计算出概率,列出分布列计算数学期望即得;
(3)分析得出,利用二项分布概率公式得出再利用作商法分析得时,事件“”的概率最大.
【详解】(1)零假设为:假设依据的独立性检验,认为参数调试与产品质量无关联;
则
故依据的独立性检验,没有充分证据说明零假设不成立,
因此可认为成立,即认为参数调试与产品质量无关联;
(2)依题意,用分层随机抽样法抽取的8件产品中,
合格产品有件,不合格产品有2件,
而从这8件产品中随机抽取3件,其中的合格品件数的可能值有1,2,3.
则
故的分布为:
1
2
3
则;
(3)依题意,因随机抽取调试后的产品的合格率为,
故,
则,
由,
故由可解得,
因,故当时,单调递增;
由可解得,
即当时,单调递减.
故当事件“”的概率最大时,.
1 / 10
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$