内容正文:
艺体生专项训练6 回归分析与独立性检验
建议用时:40分钟
参考公式:
经验回归方程,其中
公式①.公式②
相关系数.
一、多选题
1.已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
【答案】AC
【分析】由回归方程过样本中心点即可求解判断A;由回归方程和残差定义即可逐项分析求解判断BCD.
【详解】依题意,,
将代入中,解得,故A正确;
可以估计每增加1个月份,月利润提高2.4万元,故B错误;
将代入中,得到,故C正确;
将代入中,得到,则所求残差为,故D错误.
故选:AC.
2.某科技公司统计了一款APP,最近5个月的下载量如表所示,若y与x线性相关,且经验回归方程为,则( )
月份编号x
1
2
3
4
5
下载量y(万次)
5
4.5
4
3.5
2.5
A.y与x负相关 B.
C.预测第6个月的下载量约为2.1万次 D.残差绝对值的最大值为0.5
【答案】ABC
【分析】利用回归方程斜率值判断A;求出样本中心点,进而求出判断B;求出预测值判断C;求出各残差判断D.
【详解】对于A,由,得变量与负相关,A正确;
对于B,,,
,则,解得,B正确;
对于C,当时,,预测第6个月的下载量约为2.1万次,C正确;
对于D,当时,,,
当时,,,
当时,,,
当时,,,
当时,,,因此残差绝对值的最大值为0.2,D错误.
故选:ABC
3.下列说法正确的有( )
A.在经验回归方程中,当解释变量x每增加1时,响应变量y平均减少2.3
B.在经验回归方程中,相对于样本点的残差为
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数越大,表示残差平方和越大,即拟合效果越好
【答案】BC
【分析】A选项,解释变量x每增加1时,响应变量y平均减少0.85,A错误;B选项,根据残差的定义得到B正确;C选项,根据残差图的意义得到C正确;D选项,由决定系数的定义可知D错误.
【详解】对于A,因为,
当解释变量x每增加1时,响应变量y平均减少0.85,故A错误;
对于B,因为,,
所以相对于样本点的残差为,故B正确;
对于C,在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好,故C正确;
对于D,由决定系数的意义可知,越大,表示残差平方和越小,即模型的拟合效果越好,故D错误.
故选:BC
4.某人工智能研究实验室开发出一款全新的聊天机器人,该实验室对使用该款聊天机器人的120位用户进行调研,得到的调研数据如下表所示,则( )
年龄
周平均使用时间
超过4小时
不超过4小时
总计
不超过40岁
54
b
72
40岁以上
c
d
总计
72
120
附:,.
(1)当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当时,有90%的把握判断变量A,B有关联;
(3)当时,有99%的把握判断变量A,B有关联;
(4)当时,有99.9%的把握判断变量A,B有关联.
A.
B.用样本估计总体,每位使用该款聊天机器人的用户周平均使用时间超过4小时的概率为
C.没有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
D.有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
【答案】BD
【分析】先补全列联表的未知数值,再通过样本频率验证概率类选项,利用独立性检验的卡方公式计算统计量,结合临界值判断变量关联程度.
【详解】不超过40岁且周平均使用时间不超过4小时的;
40岁以上且周平均使用时间超过4小时的;
40岁以上的总计为,
故40岁以上且周平均使用时间不超过4小时的.
选项A:,A错误;
选项B:周平均使用时间超过4小时的样本数为72,
总样本数120,概率为,B正确;
年龄
周平均使用时间
超过4小时
不超过4小时
总计
不超过40岁
54
18
72
40岁以上
18
30
48
总计
72
48
120
,
因,
故有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关.
所以C选项错误,D选项正确.
故选:BD
二、解答题
5.炎炎夏日,空调已经成为越来越多家庭的必备电器之一.为研究不同性别对空调“最佳舒适温度”是否要超过的认同差异,某家电公司随机对280名空调用户进行了调查,其中女性用户占调查总人数的一半,该调查数据中只有的女性用户认为空调“最佳舒适温度”低于,且女性用户中认为空调“最佳舒适温度”低于的人数恰与男性用户中认为空调“最佳舒适温度”不低于的人数相等.
性别
最佳舒适温度
合计
男
女
合计
280
(1)在答题卡中完成列联表;
(2)根据小概率值的独立性检验,分析空调“最佳舒适温度”是否超过与性别有关.
附:
【答案】(1)列联表见解析
(2)空调“最佳舒适温度”是否超过与性别有关
【分析】(1)依题意,算出被调查的用户中女性用户人数,再分别算出其它数据;
(2)根据列联表中数据,计算,对照临界值表得出结论.
【详解】(1)依题意可知,被调查的用户中女性用户共有人,认为空调“最佳舒适温度”低于的女性用户有人,
所以男性用户中认为空调“最佳舒适温度”不低于的人数为60.
列联表如下:
性别
最佳舒适温度
合计
男
60
80
140
女
80
60
140
合计
140
140
280
(2)零假设为:分类变量与相互独立,即空调“最佳舒适温度”是否超过与性别无关.
根据表中的数据,计算得到.
因为,
所以根据小概率值的独立性检验,有充分证据推断不成立,
因此可以认为空调“最佳舒适温度”是否超过与性别有关.
6.近年来,某公司以电影和动漫中的一些元素为主题,开发了一些豪车模型玩具,现抽取了部分孩童,调查他们是否喜爱豪车模型,所得数据统计如下表所示.
性别
男孩
女孩
喜欢豪车模型
340
160
不喜欢豪车模型
300
200
(1)现按照性别进行分层,用分层随机抽样的方法在不喜欢豪车模型的样本孩童中随机抽取10人,再从这10人中随机抽取3人,求至少1人是女孩的概率;
(2)根据的独立性检验,能否认为是否喜欢豪车模型与性别具有相关性.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
(2)不能认为是否喜欢豪车模型与性别具有相关性
【分析】(1)根据对立事件的概率及古典概型求解;
(2)计算,与对应临界值比较即可得出结论.
【详解】(1)抽取的10人中,男孩有6人,女孩有4人,
故至少有1人是女孩的概率为.
(2)零假设:是否喜欢豪车模型与性别无关,
则
故不能拒绝零假设,即根据的独立性检验,不能认为是否喜欢豪车模型与性别具有相关性.
7.为了考察某种药物A对预防疾病B的效果,进行了200次动物试验,得到如下列联表:
药物A
疾病B
合计
患病
未患病
服用
100
未服用
40
60
100
合计
200
在服用药物A的动物中,患病的频率为0.2.
(1)求x,y;
(2)依据小概率值的独立性检验,是否认为服用药物A对预防疾病B有效?
附:,.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【答案】(1),;
(2)能认为服用药物A对预防疾病B有效.
【分析】(1)根据频率得到方程,求出,进而求出;
(2)零假设,计算出卡方,与6.635比较后得到结论.
【详解】(1)服用药物A的动物中,患病的频率为0.2,
故,解得,
故;
(2)能认为服用药物A对预防疾病B有效.理由如下:
零假设:药物A对预防疾病B无效,
由列联表可得,
根据小概率值的独立性检验,推断不成立,
即认为药物A对预防疾病B有效,该推断犯错误的概率不超过,
依据小概率值的独立性检验,能认为服用药物A对预防疾病B有效.
8.7月1日,电影《哪吒之魔童闹海》(以下简称《哪吒2》在中国内地电影院线正式下映,结束了自今年1月29日以来153天的线下放映.据统计,《哪吒2》在中国内地最终斩获154.4亿元票房,总观影人次3.24亿,两项数据均创下中国影史纪录,并遥遥领先第二名,成为了又一部现象级电影.下表统计了《哪吒2》上映前15天累计票房到达(单位:亿元)与所用时间(单位:天)的数据:
累计票房
20
40
60
80
100
用时
4
7
9
10
15
(1)利用表中的数据,计算相关系数(结果精确到0.01),并推断两个变量的线性相关程度;
(2)求关于的经验回归方程(系数精确到0.01),并预测153天时的累计票房,判断这种预测方法是否合理.
参考公式:经验回归方程,其中.
相关系数.
参考数据:.
【答案】(1)两个变量具有很强的相关程度
(2),预测153天时的累计票房为1151.56亿元,该预测方法不合理
【分析】(1)先计算,代入相关系数公式计算即可;
(2)先计算,进而得经验回归方程,令,代入回归方程即可求解.
【详解】(1)由题意有,
则
所以两个变量具有很强的相关程度.
(2)由题意有,
所求经验回归方程为,
令,得,
预测153天时的累计票房为1151.56亿元,远超过实际票房,故该预测方法不合理.
9.近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆)
年份
2021
2022
2023
2024
年份代号
1
2
3
4
销量
33
69
93
129
附:相关系数;
回归方程中斜率和截距的最小二乘法估计公式分别为,
(1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001)
(2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量.
【答案】(1)与具有较强的线性相关关系
(2),(千辆)
【分析】(1)根据题干所给数据算出,,,代入相关系数计算公式计算即可;
(2)根据(1)算出的结果进一步算出,再根据线性回归方程经过计算,最后把代入回归直线方程即可求解.
【详解】(1)已知,,则,
,则,
,,所以,
已知,故,
又,代入相关系数公式,
可得,
因为,所以与具有较强的线性相关关系.
(2)根据,
由(1)可知,,所以,
由,已知,,,则,
所以关于的线性回归方程为,将代入线性回归方程(千辆).
10.某景区为了更好的开发旅游资源,试产了一系列的文创产品进行销售,对今年前几月的销售额统计如下:
月份
销售额万元
(1)根据表中数据建立月份与销售额的经验回归方程;
(2)为了更好的规划文创产品,从这个月中随机抽取个月对销售情况进行分析,求抽到的月份数据含有残差(观测值减去预测值称为残差)为负的概率.
参考公式:.参考数据:,.
【答案】(1)
(2)
【分析】(1)利用最小二乘法可得回归方程;
(2)分别计算各月份销售额的预测值,再根据古典概型概率公式可得解.
【详解】(1)由已知,,
又,,
则,,
所以回归方程为;
(2)当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
当时,,残差;
则这个月中残差为负的月份有个,残差为非负的月份有个,
则这个月中随机抽取个月,抽到的月份数据含有残差为负的概率.
11.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
【答案】(1)模型②的拟合程度更好
(2)13(百万辆)
【分析】(1)利用公式分别求出模型①和②的相关系数,结合相关系数的意义即可判断哪一个模型拟合程度更好;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解..
【详解】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
12.中国民间传统文化丰富多彩,涵盖了生活的方方面面,从节庆习俗、民间艺术、传统技艺到宗教信仰和民间文学等.某文化公司在某地开展中国民间传统文化宣传活动,活动期间调查了参加活动的市民对中国民间传统文化的了解程度,前5天调查情况数据如下:
宣传天数x
1
2
3
4
5
不了解的人数
120
100
90
80
70
(1)若对中国民间传统文化不了解的人数与宣传天数之间满足线性回归关系,求变量关于变量的经验回归方程.
(2)从前5天的调查表中随机抽取100份调查表,整理得如下2×2列联表:
性别
对中国民间传统文化了解的程度
合计
了解
不了解
男性
40
10
50
女性
30
20
50
合计
70
30
100
(i)依据小概率值的独立性检验,能否认为是否了解中国民间传统文化与性别有关联?
(ii)按分层随机抽样的方式,在上述“了解”的调查表中,随机抽取7份调查表,
再从这7份调查表中任意抽取3份,记X为抽到的调查表来自女性调查表的份数,求X的分布列及期望.
附:回归方程中斜率和截距的最小二乘法公式分别为,,
独立性检验常用小概率值和相应的临界值:,
0.05
0.01
0.005
3.841
6.635
7.879
【答案】(1)
(2)(i)无关;(ii)分布列见解析,.
【分析】(1)利用表中数据和最小二乘法公式计算求解即可;
(2)(i)根据表中数据计算由独立性检验的方法判断即可求解;(ii)由题意可得可能的取值为,结合超几何分布分别求得相应的概率,列出分布列,再求期望.
【详解】(1)由表中数据得,,
,
,,
所以,,
所求回归直线方程为.
(2)(i)零假设为:是否了解中国民间传统文化与性别相互独立,
由表中数据可得,
根据小概率值的独立性检验,没有充分的证据推断不成立,
所以可以认为成立,
因此,不能认为是否了解中国民间传统文化与性别有关联.
(ii)由题意易知抽取的7份调查表中,有4份调查表来自男性调查表,有3份调查表来自女性调查表,
则的所有可能取值为0,1,2,3,
,,,,
的分布列为
0
1
2
3
所以.
试卷第1页,共3页
试卷第1页,共3页
学科网(北京)股份有限公司
$
艺体生专项训练6 回归分析与独立性检验
建议用时:40分钟
参考公式:
经验回归方程,其中
公式①.公式②
相关系数.
一、多选题
1.已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
2.某科技公司统计了一款APP,最近5个月的下载量如表所示,若y与x线性相关,且经验回归方程为,则( )
月份编号x
1
2
3
4
5
下载量y(万次)
5
4.5
4
3.5
2.5
A.y与x负相关 B.
C.预测第6个月的下载量约为2.1万次 D.残差绝对值的最大值为0.5
3.下列说法正确的有( )
A.在经验回归方程中,当解释变量x每增加1时,响应变量y平均减少2.3
B.在经验回归方程中,相对于样本点的残差为
C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D.若两个变量的决定系数越大,表示残差平方和越大,即拟合效果越好
4.某人工智能研究实验室开发出一款全新的聊天机器人,该实验室对使用该款聊天机器人的120位用户进行调研,得到的调研数据如下表所示,则( )
年龄
周平均使用时间
超过4小时
不超过4小时
总计
不超过40岁
54
b
72
40岁以上
c
d
总计
72
120
附:,.
(1)当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当时,有90%的把握判断变量A,B有关联;
(3)当时,有99%的把握判断变量A,B有关联;
(4)当时,有99.9%的把握判断变量A,B有关联.
A.
B.用样本估计总体,每位使用该款聊天机器人的用户周平均使用时间超过4小时的概率为
C.没有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
D.有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
二、解答题
5.炎炎夏日,空调已经成为越来越多家庭的必备电器之一.为研究不同性别对空调“最佳舒适温度”是否要超过的认同差异,某家电公司随机对280名空调用户进行了调查,其中女性用户占调查总人数的一半,该调查数据中只有的女性用户认为空调“最佳舒适温度”低于,且女性用户中认为空调“最佳舒适温度”低于的人数恰与男性用户中认为空调“最佳舒适温度”不低于的人数相等.
性别
最佳舒适温度
合计
男
女
合计
280
(1)在答题卡中完成列联表;
(2)根据小概率值的独立性检验,分析空调“最佳舒适温度”是否超过与性别有关.
附:
6.近年来,某公司以电影和动漫中的一些元素为主题,开发了一些豪车模型玩具,现抽取了部分孩童,调查他们是否喜爱豪车模型,所得数据统计如下表所示.
性别
男孩
女孩
喜欢豪车模型
340
160
不喜欢豪车模型
300
200
(1)现按照性别进行分层,用分层随机抽样的方法在不喜欢豪车模型的样本孩童中随机抽取10人,再从这10人中随机抽取3人,求至少1人是女孩的概率;
(2)根据的独立性检验,能否认为是否喜欢豪车模型与性别具有相关性.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
7.为了考察某种药物A对预防疾病B的效果,进行了200次动物试验,得到如下列联表:
药物A
疾病B
合计
患病
未患病
服用
100
未服用
40
60
100
合计
200
在服用药物A的动物中,患病的频率为0.2.
(1)求x,y;
(2)依据小概率值的独立性检验,是否认为服用药物A对预防疾病B有效?
附:,.
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
8.7月1日,电影《哪吒之魔童闹海》(以下简称《哪吒2》在中国内地电影院线正式下映,结束了自今年1月29日以来153天的线下放映.据统计,《哪吒2》在中国内地最终斩获154.4亿元票房,总观影人次3.24亿,两项数据均创下中国影史纪录,并遥遥领先第二名,成为了又一部现象级电影.下表统计了《哪吒2》上映前15天累计票房到达(单位:亿元)与所用时间(单位:天)的数据:
累计票房
20
40
60
80
100
用时
4
7
9
10
15
(1)利用表中的数据,计算相关系数(结果精确到0.01),并推断两个变量的线性相关程度;
(2)求关于的经验回归方程(系数精确到0.01),并预测153天时的累计票房,判断这种预测方法是否合理.
参考公式:经验回归方程,其中.
相关系数.
参考数据:.
9.近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆)
年份
2021
2022
2023
2024
年份代号
1
2
3
4
销量
33
69
93
129
附:相关系数;
回归方程中斜率和截距的最小二乘法估计公式分别为,
(1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001)
(2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量.
10.某景区为了更好的开发旅游资源,试产了一系列的文创产品进行销售,对今年前几月的销售额统计如下:
月份
销售额万元
(1)根据表中数据建立月份与销售额的经验回归方程;
(2)为了更好的规划文创产品,从这个月中随机抽取个月对销售情况进行分析,求抽到的月份数据含有残差(观测值减去预测值称为残差)为负的概率.
参考公式:.参考数据:,.
11.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
12.中国民间传统文化丰富多彩,涵盖了生活的方方面面,从节庆习俗、民间艺术、传统技艺到宗教信仰和民间文学等.某文化公司在某地开展中国民间传统文化宣传活动,活动期间调查了参加活动的市民对中国民间传统文化的了解程度,前5天调查情况数据如下:
宣传天数x
1
2
3
4
5
不了解的人数
120
100
90
80
70
(1)若对中国民间传统文化不了解的人数与宣传天数之间满足线性回归关系,求变量关于变量的经验回归方程.
(2)从前5天的调查表中随机抽取100份调查表,整理得如下2×2列联表:
性别
对中国民间传统文化了解的程度
合计
了解
不了解
男性
40
10
50
女性
30
20
50
合计
70
30
100
(i)依据小概率值的独立性检验,能否认为是否了解中国民间传统文化与性别有关联?
(ii)按分层随机抽样的方式,在上述“了解”的调查表中,随机抽取7份调查表,
再从这7份调查表中任意抽取3份,记X为抽到的调查表来自女性调查表的份数,求X的分布列及期望.
附:回归方程中斜率和截距的最小二乘法公式分别为,,
独立性检验常用小概率值和相应的临界值:,
0.05
0.01
0.005
3.841
6.635
7.879
试卷第1页,共3页
试卷第1页,共3页
学科网(北京)股份有限公司
$