内容正文:
专题06 统计案例
【清单01】变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
【清单02】线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
【清单03】独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【考点题型一】线性分析--相关系数、相关指数
【例1】.下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【答案】C
【详解】线性相关系数越接近1,两个变量的线性相关程度越强,故①正确;
独立性检验并不能100%确定两个变量之间是否具有某种关系,故②错误;
回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;
回归分析中,可用判断模型的拟合效果,越大,模型的拟合效果越好,故④正确;
故选:C.
【变式1-1】.下列说法错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;
B.用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好;
C.设,且,则;
D.若变量x和y满足关系,则x与y负相关.
【答案】C
【详解】对于A,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故A正确;
对于B,用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好,故B正确;
对于C,,,
则,故C错误;
对于D,变量x和y满足关系,由,得x与y负相关,故D正确.
故选:C
【变式1-2】.已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【详解】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,所以残差平方和变小,所以C错误,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
故选:B.
【变式1-3】.以下关于统计分析的描述,哪一个是正确的?( )
A.样本均值越接近总体均值,样本的代表性越好.
B.样本标准差越大,数据的离散程度越小.
C.相关系数的绝对值越接近1,表示两个变量的线性关系越弱.
D.决定系数R²越接近1,模型的解释能力越强.
【答案】D
【详解】对于A,样本均值不能完全说明样本的代表性,A错;
对于B,样本标准差越大,数据的离散程度越大,B错;
对于C,相关系数的绝对值越接近1,表示两个变量的线性关系越强, C错;
对于D,决定系数R²越接近1,模型的解释能力越强,D对.
故选:D
【变式1-4】.关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数r越大,线性相关程度越强;
③决定系数越接近1拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【答案】C
【详解】对于①,回归直线一定经过样本点的中心,故①正确;
对于②,相关系数r的绝对值越接近于1,线性相关性越强,故②错误;
对于③,决定系数R越接近1拟合效果越好,故③正确;
对于④,随机误差平方和越小,拟合效果越好,故④正确.
故选:C.
【变式1-5】.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【答案】A
【详解】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,
而所在散点图比较分散,线性相关性比较弱,相关系数的绝对值越远离.
综上可得:.
故选:A.
【考点题型二】回归方程
【例2】.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.
参考数据:,,.
【答案】(1),相关程度较高 (2),9.3亿元
【详解】(1)由表中数据可知,,,
,,,
则,
故相关程度较高;
(2),,
则,,
故,
令,解得,
故研发投入至少9.3亿元.
【变式2-1】.在下表的统计量中,有一个数值不清晰,用m表示.
x
1
2
3
4
5
y
6.3
7.4
8.1
8.7
m
已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则 当;时, .
【答案】
【详解】,,
因为经验回归方程过点,
所以,解得,
由,可得,则,
当时,,
故答案为:,.
【变式2-2】.(多选)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
A
B
C
D
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
下列说法正确的是( )
(参考公式:,;参考数据:)
A.经验回归直线经过点 B.经验回归方程为
C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元
【答案】BC
【详解】A选项,,,
故经验回归直线经过点,A错误;
B选项,,
,
故经验回归方程为,B正确;
C选项,将代入中得,
故样本点的残差为,C正确;
D选项,将代入中得,
预测广告支出10万元时的销售额为87万元,D错误.
故选:BC
【变式2-3】.某大学组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:
时间x(天)
1
2
3
4
5
6
7
8
9
每天普及的人数y
80
98
129
150
203
190
258
292
310
(1)从这9天的数据中任选2天的数据,以X表示2天中普及人数不少于200人的天数,求X的分布列和数学期望;
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的线性回归方程.
参考数据:,,.附:对于一组数据(,),(,),……,(,),其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)分布列见解析, (2)
【详解】(1)普及人数不少于200人的天数为4天,则X的所有可能取值为0,1,2,
又,
,
.
故X的分布列为:
0
1
2
.
(2)去掉第天的数据可得统计表如下:
时间天
1
2
3
4
6
7
8
9
每天普及的人数
80
98
129
150
190
258
292
310
设原来数据的样本中心点为,去掉第5天的数据后样本中心点为,
所以,,,;
去掉第5天数据后,.
所以,,
所以剩下的数据求得的回归直线方程为:.
【变式2-4】.某学院为了加强学生身体素质,特推出“校园轻氧打卡”活动,以下是前9天的打卡人数散点图.
(1)求出每天打卡人数y关于天数x的经验回归方程;
(2)利用经验回归方程试着预测第10天的打卡人数;
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1) (2)340
【详解】(1)由题得,,
,
,
所以,
每天打卡人数y关于天数x的经验回归方程为.
(2)由(1)当时,,
所以第10天的打卡人数预测为人.
【考点题型三】独立性检验
【例3】.新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.
名女生成绩频数分布表:
成绩
频数
10
10
6
4
附:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;
男生
女生
合计
防疫标兵
非防疫标兵
合计
(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.
【答案】(1)表格见解析,有%的把握认为“防疫标兵”与性别有关
(2)分布列见解析,
【详解】(1)由频率分布直方图,
可得名男生中成绩大于等于分的频率为,
故名男生中“防疫标兵”人数为人,“非防疫标兵”人数为人.
由频数分布表,可得名女生中“防疫标兵”人数为人,“非防疫标兵”人数为人.
男生
女生
合计
防疫标兵
18
非防疫标兵
合计
故,所以有%的把握认为“防疫标兵”与性别有关.
(2)名女生样本中有人成绩在分以上,所以女生样本中“防疫标兵”的频率为.
用样本估计总体,以频率估计概率,从该校女生中随机抽取人,
则“防疫标兵”的人数服从二项分布,即.
X的可能取值为.
,,,,.
所以随机变量的分布列为
X
0
1
2
3
4
P
数学期望为.
【变式3-1】.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵严重的A城市和交通拥堵不严重的B城市分别随机调查了20名市民,得到了一个市民是否认可的样本,具体数据如下列联表:
A
B
总计
认可
15
8
23
不认可
5
12
17
总计
20
20
40
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
附:.
根据表中的数据,下列说法中,正确的是( )
A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”
B.有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”
C.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”
D.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”
【答案】C
【详解】由
对于A,因,故有95%以上的把握认为“是否认可与城市的拥堵情况有关”,即A错误;
对于B,因,故没有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”,即B错误;
对于C,因,故可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”,即C正确;
对于D,因,故在犯错误的概率不超过0.01的前提下不能认为“是否认可与城市的拥堵情况有关”,即D错误.
故选:C.
【变式3-2】.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
【答案】B
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
30
15
45
非篮球迷
45
10
55
合计
75
25
100
所以,
所以在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关,
即有的把握认为是否是篮球迷与性别有关,
又,所以没有的把握认为是否是篮球迷与性别有关.
故选:B.
【变式3-3】.(多选)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
【答案】AD
【详解】由表可知,女生有21人,其中经常锻炼的有7人,频率为,
男生有19人,其中经常锻炼的有11人,频率为,
因为,依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响,故A正确,B错误;
,所以根据小概率值的独立性检验,
没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响,故D正确,C错误.
故选:AD
【变式3-4】.学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
【答案】(1)列联表见解析,有关; (2)分布列见解析,.
【详解】(1)这100位学生中,“公序良俗”达人有20人,由此补全列联表如下:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
13
30
43
女性
7
50
57
总计
20
80
100
零假设:“公序良俗”达人与性别无关,
可得,
所以根据小概率值的独立性检验,我们可推断不成立,即认为“公序良俗”达人与性别有关.
(2)由题意,随机变量的可能有,,,,
可得,
,
,
,
所以的分布列如下:
0
1
2
3
所以数学期望.
【变式3-5】.电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)列联表见解析,能 (2) (3)分布列见解析,
【详解】(1)被调查的女性市民人数为,
其中偏好铅酸电池电动车的女性市民人数为.
偏好石墨烯电池电动车的女性市民人数为,
所以2×2列联表为:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
300
女性市民
80
120
200
合计
280
220
500
零假设:市民对这两种电池的电动车的偏好与市民的性别无关,
根据列联表中的数据可以求得
,
由于,
根据小概率值的独立性检验,我们推断不成立,
即认为市民对这两种电池的电动车的偏好与市民的性别有关.
(2)因为偏好石墨烯电池电动车的市民中,男性市民与女性市民的比为,
所以采用分层抽样的方法抽取7的人中,男性市民有5人,女性市民有2人,
设“有女性市民参加座谈”为事件A,“恰有一名女性市民参加座谈”为事件B,
则,,
所以.
(3)因为所有参加调查的市民中,男性市民和女性市民的比为,
所以由分层抽样知,随机抽取的5名市民中,男性市民有3人,女性市民有2人.
根据频率估计概率知,男性市民偏好石墨烯电池电动车的概率为,偏好铅酸电池电动车的概率为,
从选出的5名市民中随机抽取2人进行座谈,则X可能的取值为0,1,2.
“3名被抽取的男性市民中,恰好抽到k人参加座谈”记为事件,
则.
“参加座谈的2名市民中是偏好石墨烯电池电动车的男性市民的人数恰好为m人”记为事件,
则,,
,,
,,
所以
,
,
,
故X的分布列如下:
X
0
1
2
P
.
1.已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【答案】D
【详解】易知样本数据的中心点在回归直线方程上,
易知,所以,
即,可得.
故选:D
2.高温可以使病毒中的蛋白质失去活性,从而达到杀死病毒的效果,某科研团队打算构建病毒的成活率与温度的某种数学模型,通过实验得到部分数据如下表:
温度x(℃)
6
8
10
病毒数量y(万个)
30
22
20
由上表中的数据求得回归方程为,可以预测当温度为14℃时,病毒数量为( )
参考公式:,
A.12 B.10 C.9 D.11
【答案】C
【详解】y关于x的线性回归方程为,直线过样本中心点
由表格数据得,,
,
,
故根据最小二乘原理知,
所以,
即线性回归方程为;
将代入方程,得,
即可预测病毒数量为.
故选:C
3.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则( )
A. B. C.1 D.3
【答案】A
【详解】由样本数据可知解释变量与响应变量之间具有负相关性,
所以
又因为对应的点均在直线上,
故,故A正确.
故选:A
4.已知变量与变量线性相关,与的样本相关系数为,且由观测数据算得样本平均数,,则由该观测数据算得经验回归方程可能是( )
A. B.
C. D.
【答案】D
【详解】因为与的样本相关系数为,可知与为负相关,故A,B错误;
又因为经验回归方程过样本中心点,
对于,则,故C错误;
对于,则,故D正确.
故选:D.
5.白术是常见的大宗药材,最早记载于《神龙本草经》,又叫于术、片术,具有补脾健胃,燥湿利水等功效.今年白术从1月份到5月份每公斤的平均价格(单位:元)的数据如右表:根据上表可得回归方程,则实数的值为( )
月份
1
2
3
4
5
每公斤平均价格
77
109
137
168
199
A.46 B.47 C.48 D.49
【答案】C
【详解】依题意,,
又回归直线方程必过样本中心点,
所以,解得.
故选:C
6.下列说法正确的是( )
A.某班共有学生50人,现按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,则该班女生共有20人
B.数据,,,,,,,的第80百分位数为8
C.线性回归分析中,样本相关系数的绝对值越大,成对样本数据的线性相关性越强
D.线性回归模型分析中,模型的决定系数越小,模型的拟合效果越好
【答案】C
【详解】对于A,按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,
则样本中女生有3人,该班女生共有人,A错误;
对于B,数据2,3,3,5,7,8,10,12,共8个,,则该组数据的第80百分位数为10,B错误;
对于C,线性回归分析中,样本相关系数r的绝对值越大,成对样本数据的线性相关性越强,C正确;
对于D,线性回归模型分析中,模型的决定系数越小,模型的拟合效果越差,D错误.
故选:C
7.(多选)下列说法中正确的是( )
A.数据1,2,2,3,4,5的极差与众数之和为7
B.若随机变量X服从二项分布,且,则
C.X和Y是分类变量,若值越大,则判断“X与Y独立”的把握性越大
D.若随机变量X服从正态分布,且,则
【答案】BD
【详解】A:该组数据的极差为4,众数为2,所以该组数据的极差与众数之和为6,故A错误;
B:由,得,解得,
所以,故B正确;
C:值越大,X和Y有关系的可能性就越大,则“X与Y独立”的把握越小,故C错误;
D:由,得,
所以,故D正确.
故选:BD
8.(多选)下列说法正确的是( )
A.若随机变量,则
B.残差平方和越大,模型的拟合效果越好
C.若随机变量,则当减小时,保持不变
D.一组数据的极差不小于该组数据的标准差
【答案】ACD
【详解】由于,所以A正确;
残差平方和越小,模型的拟合效果越好,所以B错误;
根据正态分布的概率分布特点知为定值,C正确;
由于,
标准差,故D正确.
故选:ACD.
9.(多选)下列命题正确的是( )
A.线性回归直线不一定经过样本点的中心
B.设,若,,则
C.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量X表示样本中黄球的个数,则服从二项分布,且
【答案】BC
【详解】对于A,线性回归直线一定经过样本点的中心,故A错误;
对于B,由,,,得,解得,故B正确;
对于C,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故C正确;
对于D,由于是不放回地随机摸出20个球作为样本,
所以由超几何分布的定义知服从超几何分布,得,故D错误.
故选:BC
10.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:
15
16
18
19
22
102
98
115
120
若由表中样本数据求得线性回归方程为,则实数 .
【答案】115
【详解】依题意,,,
而线性回归方程为,则,
所以.
故答案为:115
11.一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
【答案】 满意度与性别有关联,推断犯错误的概率不大于0.05(或:有的把握认为满意度与性别有关).
【详解】,
所以满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
故答案为:;满意度与性别有关联,推断犯错误的概率不大于(或:有的把握认为满意度与性别有关)
12.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
(3)0.3
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以,
可得在上为增函数,在上为减函数,
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为0.3.
13.随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)有关联
(2),该经验回归方程有价值.
【详解】(1)2×2列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
零假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,我们推断不成立,即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,得,,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
14.某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.该公司统计了七个部门测试的平均成绩(满分100分)与绩效等级优秀率,如下表所示:
32
41
54
68
74
80
92
0.28
0.34
0.44
0.58
0.66
0.74
0.94
根据数据绘制散点图,初步判断,选用作为回归方程.令,经计算得,
(1)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(2)根据统计分析,大致认为各部门测试平均成绩,其中近似为样本平均数,近似为样本方差.经计算,求某个部门绩效等级优秀率不低于的概率.
参考公式与数据:
①.
②线性回归方程中,,.
③若随机变量,则,,.
【答案】(1) (2)
【详解】(1)依题意,两边取对数,得,
即,其中,
由提供的参考数据,可知,又,故,所以,
由提供的参考数据,可得,故,
当时,,即估计其绩效等级优秀率为;
(2)由(1)及提供的参考数据可知,,,
又,即,可得,即.
又,且,
由正态分布的性质,得,
记“绩效等级优秀率不低于”为事件,则,
15.文旅部门统计了某网红景点在2022年3月至7月的旅游收入y(单位:万),得到以下数据:
月份x
3
4
5
6
7
旅游收入y
10
12
11
12
20
(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由(精确到0.001);
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,并判断能否有的把握认为“游客是否喜欢该网红景点与性别有关”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:,线性回归方程:,其中,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1)可用线性回归模型拟合与的关系,.
(2)列联表见解析,有的把握认为游客是否喜欢该网红景点与性别有关.
【详解】(1)由已知得:,,
所以,
,
,
所以,
因为,说明与的线性相关关系很强,可用线性回归模型拟合与的关系,
所以,
所以关于的线性回归方程为:.
(2)列联表如下所示:
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
零假设:游客是否喜欢该网红景点与性别无关,
根据列联表中数据,,
依据小概率值的独立性检验推断不成立,
即有的把握认为游客是否喜欢该网红景点与性别有关.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司3
学科网(北京)股份有限公司
$$
专题06 统计案例
【清单01】变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
【清单02】线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
【清单03】独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【考点题型一】线性分析--相关系数、相关指数
【例1】.下列说法正确的个数是( )
①线性相关系数越接近1,两个变量的线性相关程度越强;
②独立性检验可以100%确定两个变量之间是否具有某种关系;
③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;
④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.
A.1 B.2 C.3 D.4
【变式1-1】.下列说法错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;
B.用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好;
C.设,且,则;
D.若变量x和y满足关系,则x与y负相关.
【变式1-2】.已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【变式1-3】.以下关于统计分析的描述,哪一个是正确的?( )
A.样本均值越接近总体均值,样本的代表性越好.
B.样本标准差越大,数据的离散程度越小.
C.相关系数的绝对值越接近1,表示两个变量的线性关系越弱.
D.决定系数R²越接近1,模型的解释能力越强.
【变式1-4】.关于线性回归的描述,有下列命题:
①回归直线一定经过样本点的中心;
②相关系数r越大,线性相关程度越强;
③决定系数越接近1拟合效果越好;
④随机误差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【变式1-5】.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【考点题型二】回归方程
【例2】.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)
参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.
参考数据:,,.
【变式2-1】.在下表的统计量中,有一个数值不清晰,用m表示.
x
1
2
3
4
5
y
6.3
7.4
8.1
8.7
m
已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则 当;时, .
【变式2-2】.(多选)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:
超市
A
B
C
D
广告支出
2
4
5
6
8
销售额
30
40
60
60
70
下列说法正确的是( )
(参考公式:,;参考数据:)
A.经验回归直线经过点 B.经验回归方程为
C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元
【变式2-3】.某大学组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:
时间x(天)
1
2
3
4
5
6
7
8
9
每天普及的人数y
80
98
129
150
203
190
258
292
310
(1)从这9天的数据中任选2天的数据,以X表示2天中普及人数不少于200人的天数,求X的分布列和数学期望;
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的线性回归方程.
参考数据:,,.附:对于一组数据(,),(,),……,(,),其回归直线的斜率和截距的最小二乘估计分别为:,.
【变式2-4】.某学院为了加强学生身体素质,特推出“校园轻氧打卡”活动,以下是前9天的打卡人数散点图.
(1)求出每天打卡人数y关于天数x的经验回归方程;
(2)利用经验回归方程试着预测第10天的打卡人数;
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【考点题型三】独立性检验
【例3】.新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.
名女生成绩频数分布表:
成绩
频数
10
10
6
4
附:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;
男生
女生
合计
防疫标兵
非防疫标兵
合计
(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.
【变式3-1】.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵严重的A城市和交通拥堵不严重的B城市分别随机调查了20名市民,得到了一个市民是否认可的样本,具体数据如下列联表:
A
B
总计
认可
15
8
23
不认可
5
12
17
总计
20
20
40
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
附:.
根据表中的数据,下列说法中,正确的是( )
A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”
B.有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”
C.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”
D.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”
【变式3-2】.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
【变式3-3】.(多选)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
【变式3-4】.学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:
选答④、⑥、⑧、⑩的题目数
1道
2道
3道
4道
人数
(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:
性别
“公序良俗”达人
非“公序良俗”达人
总计
男性
女性
总计
请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.
(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.
参考公式:,其中.附表见上图.
【变式3-5】.电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:
偏好石墨烯电池电动车
偏好铅酸电池电动车
合计
男性市民
200
100
女性市民
合计
500
(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;
(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;
(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.
参考公式:,其中.
参考数据:
0.100
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
1.已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
2.高温可以使病毒中的蛋白质失去活性,从而达到杀死病毒的效果,某科研团队打算构建病毒的成活率与温度的某种数学模型,通过实验得到部分数据如下表:
温度x(℃)
6
8
10
病毒数量y(万个)
30
22
20
由上表中的数据求得回归方程为,可以预测当温度为14℃时,病毒数量为( )
参考公式:,
A.12 B.10 C.9 D.11
3.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则( )
A. B. C.1 D.3
4.已知变量与变量线性相关,与的样本相关系数为,且由观测数据算得样本平均数,,则由该观测数据算得经验回归方程可能是( )
A. B.
C. D.
5.白术是常见的大宗药材,最早记载于《神龙本草经》,又叫于术、片术,具有补脾健胃,燥湿利水等功效.今年白术从1月份到5月份每公斤的平均价格(单位:元)的数据如右表:根据上表可得回归方程,则实数的值为( )
月份
1
2
3
4
5
每公斤平均价格
77
109
137
168
199
A.46 B.47 C.48 D.49
6.下列说法正确的是( )
A.某班共有学生50人,现按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,则该班女生共有20人
B.数据,,,,,,,的第80百分位数为8
C.线性回归分析中,样本相关系数的绝对值越大,成对样本数据的线性相关性越强
D.线性回归模型分析中,模型的决定系数越小,模型的拟合效果越好
7.(多选)下列说法中正确的是( )
A.数据1,2,2,3,4,5的极差与众数之和为7
B.若随机变量X服从二项分布,且,则
C.X和Y是分类变量,若值越大,则判断“X与Y独立”的把握性越大
D.若随机变量X服从正态分布,且,则
8.(多选)下列说法正确的是( )
A.若随机变量,则
B.残差平方和越大,模型的拟合效果越好
C.若随机变量,则当减小时,保持不变
D.一组数据的极差不小于该组数据的标准差
9.(多选)下列命题正确的是( )
A.线性回归直线不一定经过样本点的中心
B.设,若,,则
C.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量X表示样本中黄球的个数,则服从二项分布,且
10.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:
15
16
18
19
22
102
98
115
120
若由表中样本数据求得线性回归方程为,则实数 .
11.一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:
男性
女性
合计
满意
560
540
1100
不满意
40
60
100
合计
600
600
1200
根据列联表中的数据,经计算得到 (精确到0.001);依据数据可作出的判断是 .
附:.
0.1
0.05
0.01
2.706
3.841
6.635
12.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
13.随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
14.某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.该公司统计了七个部门测试的平均成绩(满分100分)与绩效等级优秀率,如下表所示:
32
41
54
68
74
80
92
0.28
0.34
0.44
0.58
0.66
0.74
0.94
根据数据绘制散点图,初步判断,选用作为回归方程.令,经计算得,
(1)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(2)根据统计分析,大致认为各部门测试平均成绩,其中近似为样本平均数,近似为样本方差.经计算,求某个部门绩效等级优秀率不低于的概率.
参考公式与数据:
①.
②线性回归方程中,,.
③若随机变量,则,,.
15.文旅部门统计了某网红景点在2022年3月至7月的旅游收入y(单位:万),得到以下数据:
月份x
3
4
5
6
7
旅游收入y
10
12
11
12
20
(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由(精确到0.001);
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,并判断能否有的把握认为“游客是否喜欢该网红景点与性别有关”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:,线性回归方程:,其中,其中.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司3
学科网(北京)股份有限公司
$$