内容正文:
第七章 统计案例(题型清单)
01 考点归纳
考点一、一元线性回归
考点二、成对数据的线性相关性
考点三、独立性检验问题
02 知识速记
1、 一元线性回归
1.回归直线方程的定义
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n,任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使残差平方和即(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
2.回归直线方程的求法及作用
给定两个变量y与x的一组数据后,回归直线方程=x+总是存在的,而且
,
其中,称为回归系数.它实际上是回归直线方程的斜率,回归直线方程确定之后,就可用于预测.
3.回归直线方程的性质
(1)回归直线一定过点(,).
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0,这说明:y与x正相关的充要条件是>0;y与x负相关的充要条件是<0.
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义.
2、 成对数据的线性相关性
1.两个变量的关系
(1)一类是两变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了;
(2)另一类是变量之间确定有一定的关系,但没有达到可以互相决定的程度.它们之间的关系带有一定的随机性,这些两个变量之间的关系,在统计学上都称为相关关系.
2.线性相关、正相关与负相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
3.线性相关系数
r=
=
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
4.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
3、 向独立性检验问题
1.2×2列联表及有关概率
如果随机事件A与B的样本数据的2×2列联表如下,
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则由表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
2.独立性检验的基本思想
(1)在2×2列联表中,令χ2=,任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著水平α对应的分位数).
χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.
(2)如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
(3)统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
03 题型归纳
题型一、一元线性回归
例题:1-1.下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
1-2.某产品的广告费用与销售额的统计数据如下表:
广告费用/万元
4
2
3
5
销售额/万元
49
26
39
54
根据上表可得线性回归方程 中的为9.4,据此模型预测广告费用为6万元时销售额为( )
A.9.1万元 B.9.2万元
C.67.7万元 D.65.5万元
巩固训练
1-1.已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
1-2.根据如下样本数据得到的回归直线方程为,则下列结论不正确的是( )
2
3
4
5
6
4.0
2.5
-0.5
0.5
-2
A. B.
C. D.预计时,
1-3.下图是根据的观测数据得到的散点图,则变量能用一元线性回归模型来刻画,且的是( )
A. B.
C. D.
题型二、成对数据的线性相关性
例题:2-1.下列说法错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;
B.用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好;
C.设,且,则;
D.若变量x和y满足关系,则x与y负相关.
2-2.下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
巩固训练
2-1.某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数分别为,则拟合效果最好的模型是( )
A.甲 B.乙 C.丙 D.丁
2-2.已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
2-3.一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
题型三、独立性检验问题
例题:3-1.为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握至少为( )
A. B. C. D.
3-2.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若的值大于,则有的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患肺癌
B.由独立性检验可知,有的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有的可能患有肺癌
C.若从统计量中求出有的把握认为吸烟与患肺癌有关系,是指有不超过的可能性使得判断出现错误
D.以上三种说法都不正确
巩固训练
3-1.某班主任对全班50名学生进行了作业量的调查,数据如表:
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
则推断“学生的性别与认为作业量大有关”的把握至少为( )
A. B. C. D.
3-2.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
3-3.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵严重的A城市和交通拥堵不严重的B城市分别随机调查了20名市民,得到了一个市民是否认可的样本,具体数据如下列联表:
A
B
总计
认可
15
8
23
不认可
5
12
17
总计
20
20
40
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
附:.
根据表中的数据,下列说法中,正确的是( )
A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”
B.有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”
C.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”
D.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”
题型四 统计案例综合应用
例题:4-1.随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择名青年游客对哈尔滨出行体验进行满意度评分(满分分),分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;
(2)若采用按比例分层抽样的方法从评分在,的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的4人中评分等级为良好的人数X的分布列和数学期望;
(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120名.请根据小概率值的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.
附:,
0.05
0.01
0.001
3.841
6.635
10.828
4-2.由于人们健康意识的提升,运动爱好者人群不断扩大,运动相关行业得到快速发展.某运动品牌专卖店从2019年至2023年的年销售额如下表:
年份
2019
2020
2021
2022
2023
年份编号
1
2
3
4
5
年销售额/万元
30
35
45
60
80
(1)请根据表中的数据用最小二乘法求与的经验回归方程,并预测2024年该店的年销售额.
(2)该专卖店为了回馈广大消费者,推出了消费抽奖返现活动,规则如下:凡一次性消费满500元可抽奖1次,满1000元可抽奖2次.其中一次抽奖返现金额及概率如下表:
返现金额
50
100
概率
已知一位消费者一次性消费满500元的概率为,满1000元的概率为,求这位消费者抽奖返现金额的分布列与期望.
附:经验回归方程中,.
巩固训练
4-1.随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
4-2.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
4-3.今年全国两会召开前,有人大代表提议:要大力提高国产芯片的应用率,推动“卡脖子”及高端芯片的研发及应用,并加大政策刺激力度,在芯片的研发端、应用端等多方面研究和出台针对国产芯片全产业链条的鼓励措施.芯片作为集成电路上的载体,是影响一个国家现代工业的重要因素.某公司过去七年在芯片技术上的研发投入x(单位:亿元)与收益y(单位:亿元)的数据统计如图:
(1)由折线图可知y与x的关系可以用一元线性回归模型拟合,请根据折线图的数据,求出y关于x的经验回归方程(数据均保留整数);
(2)利用(1)中经验回归方程,求折线图中数据残差的平方和.
附:.
原创精品资源学科网独家享有版权,侵权必究!8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
第七章 统计案例(题型清单)
01 考点归纳
考点一、一元线性回归
考点二、成对数据的线性相关性
考点三、独立性检验问题
02 知识速记
1、 一元线性回归
1.回归直线方程的定义
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n,任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使残差平方和即(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
2.回归直线方程的求法及作用
给定两个变量y与x的一组数据后,回归直线方程=x+总是存在的,而且
,
其中,称为回归系数.它实际上是回归直线方程的斜率,回归直线方程确定之后,就可用于预测.
3.回归直线方程的性质
(1)回归直线一定过点(,).
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0,这说明:y与x正相关的充要条件是>0;y与x负相关的充要条件是<0.
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义.
2、 成对数据的线性相关性
1.两个变量的关系
(1)一类是两变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了;
(2)另一类是变量之间确定有一定的关系,但没有达到可以互相决定的程度.它们之间的关系带有一定的随机性,这些两个变量之间的关系,在统计学上都称为相关关系.
2.线性相关、正相关与负相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
3.线性相关系数
r=
=
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
4.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
3、 向独立性检验问题
1.2×2列联表及有关概率
如果随机事件A与B的样本数据的2×2列联表如下,
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则由表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
2.独立性检验的基本思想
(1)在2×2列联表中,令χ2=,任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著水平α对应的分位数).
χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.
(2)如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
(3)统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
03 题型归纳
题型一、一元线性回归
例题:1-1.下列命题是真命题的是( )
A.经验回归方程至少经过其样本数据点,,…,中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的绝对值越小,说明两个变量线性相关程度越强
C.线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.残差点分布在以横轴为对称轴的水平带状区域内,该区域越窄,拟合效果越好
【答案】D
【分析】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.
【详解】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A错误;
对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B错误;
对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是错误;
对于D,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,
模型的拟合效果越好,故D正确.
故选:D.
1-2.某产品的广告费用与销售额的统计数据如下表:
广告费用/万元
4
2
3
5
销售额/万元
49
26
39
54
根据上表可得线性回归方程 中的为9.4,据此模型预测广告费用为6万元时销售额为( )
A.9.1万元 B.9.2万元
C.67.7万元 D.65.5万元
【答案】D
【分析】线性回归方程一定过样本中心,得到线性回归方程,然后带值求结果.
【详解】,,
∵线性归回方程经过样本中心,
∴,∴,
∴,当时,,
故选:D.
巩固训练
1-1.已知一组数据满足线性回归关系,且经验回归方程为,若,则( )
A.30 B.60 C.630 D.1200
【答案】D
【分析】根据样本中心点在回归直线方程上代入计算可得结果.
【详解】易知样本数据的中心点在回归直线方程上,
易知,所以,
即,可得.
故选:D
1-2.根据如下样本数据得到的回归直线方程为,则下列结论不正确的是( )
2
3
4
5
6
4.0
2.5
-0.5
0.5
-2
A. B.
C. D.预计时,
【答案】D
【分析】根据表格中的数据,求得样本中点的坐标,结合由随着的增大而趋于减小,逐项判定,即可求解.
【详解】由表格中的数据,可得,,
所以样本点的中心的坐标为,
对于A中,当时,可得,所以A正确;
对于B中,由随着的增大而趋于减小,可得的斜率,所以B正确;
对于C中,将样本中心代入回归方程,可得,所以C正确;
对于D中,由由随着的增大而趋于减小,预计时,,所以D错误.
故选:D.
1-3.下图是根据的观测数据得到的散点图,则变量能用一元线性回归模型来刻画,且的是( )
A. B.
C. D.
【答案】A
【分析】由一元线性回归模型的散点图特征判断.
【详解】根据变量具有线性相关关系,则散点在某条直线附近,又,所以散点从左上至右下.
故选:A.
题型二、成对数据的线性相关性
例题:2-1.下列说法错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;
B.用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好;
C.设,且,则;
D.若变量x和y满足关系,则x与y负相关.
【答案】C
【分析】根据相关系数、残差平方和的性质,以及正态分布的性质,对每个选项进行逐一分析即可.
【详解】对于A,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故A正确;
对于B,用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好,故B正确;
对于C,,,
则,故C错误;
对于D,变量x和y满足关系,由,得x与y负相关,故D正确.
故选:C
2-2.下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【答案】B
【分析】由正、负相关的概念逐项判断即可.
【详解】从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则这两个变量为负相关.
结合散点图可知,①②满足题意,即两个变量呈负相关的个数为2个.
故选:B
巩固训练
2-1.某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数分别为,则拟合效果最好的模型是( )
A.甲 B.乙 C.丙 D.丁
【答案】D
【分析】线性回归模型中越接近1,效果越好,即可得出答案.
【详解】越大,则回归模型的拟合效果越好,
因为,所以拟合效果最好的是模型丁.
故选:D.
2-2.已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【答案】D
【分析】计算增加样本点后的新的样本中心点,代入经验回归方程可求得;根据经验回归方程可求得,由残差定义可得结果.
【详解】,增加两个样本点后的平均数为;
,,增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的残差为.
故选:D.
2-3.一唱片公司欲知唱片费用(十万元)与唱片销售量(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:,则与的相关系数的绝对值为( )(相关系数:)
A.0.6 B.0.5 C.0.4 D.0.3
【答案】D
【分析】运用相关系数公式进行求解即可.
【详解】因为,,所以,
,
故选:D.
题型三、独立性检验问题
例题:3-1.为了研究性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握至少为( )
A. B. C. D.
【答案】C
【分析】根据列联表的相关知识求解即可.
【详解】因为,所以有的把握认为“性别与喜欢乡村音乐有关系”.
故选:
3-2.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若的值大于,则有的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患肺癌
B.由独立性检验可知,有的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有的可能患有肺癌
C.若从统计量中求出有的把握认为吸烟与患肺癌有关系,是指有不超过的可能性使得判断出现错误
D.以上三种说法都不正确
【答案】C
【分析】利用独立性检验的定义逐个选项判断即可.
【详解】若的值大于,则在犯错误的概率不超过的前提下认为吸烟与患肺癌有关系,
不是在100个吸烟的人中必有99人患有肺癌,故A错误,
也不是说某人吸烟,那么他有的可能患有肺癌,故B错误,
若有的把握认为吸烟与患肺癌有关系,
则有不超过的可能性使得判断出现错误,故C正确,D错误.
故选:C
巩固训练
3-1.某班主任对全班50名学生进行了作业量的调查,数据如表:
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
则推断“学生的性别与认为作业量大有关”的把握至少为( )
A. B. C. D.
【答案】C
【分析】根据列联表中数据计算,对照临界值即可得出结论.
【详解】由公式得.
所以“学生的性别与认为作业量大有关”的把握至少为.
故选:C.
3-2.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是( )
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
【答案】B
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
30
15
45
非篮球迷
45
10
55
合计
75
25
100
所以,
所以在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关,
即有的把握认为是否是篮球迷与性别有关,
又,所以没有的把握认为是否是篮球迷与性别有关.
故选:B.
3-3.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵严重的A城市和交通拥堵不严重的B城市分别随机调查了20名市民,得到了一个市民是否认可的样本,具体数据如下列联表:
A
B
总计
认可
15
8
23
不认可
5
12
17
总计
20
20
40
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
附:.
根据表中的数据,下列说法中,正确的是( )
A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”
B.有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”
C.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”
D.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”
【答案】C
【分析】先计算出卡方值,再分别与各选项中的相应的小概率值比较,根据独立性检验的原理,即可作出判断
【详解】由
对于A,因,故有95%以上的把握认为“是否认可与城市的拥堵情况有关”,即A错误;
对于B,因,故没有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”,即B错误;
对于C,因,故可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”,即C正确;
对于D,因,故在犯错误的概率不超过0.01的前提下不能认为“是否认可与城市的拥堵情况有关”,即D错误.
故选:C.
题型四 统计案例综合应用
例题:4-1.随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择名青年游客对哈尔滨出行体验进行满意度评分(满分分),分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.
(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;
(2)若采用按比例分层抽样的方法从评分在,的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的4人中评分等级为良好的人数X的分布列和数学期望;
(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120名.请根据小概率值的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.
附:,
0.05
0.01
0.001
3.841
6.635
10.828
【详解】(1)由频率分布直方图可知,,解得;
因为的频率为,且为最后一组,
所以评分的上四分位数位于区间中,
所以上四分位数为:;
(2)评分在与两组的频率分别为,
所以内抽取人数为,内抽取人数为,
故人中评分等级为良好的有人,
由题意可知,的可取值为,
,,,
所以的分布列为:
数学期望;
(3)青年游客评分等级良好的有人,所以老年游客评分等级良好的有人,
由上可得如下列联表,
青年游客
老年游客
总计
评分等级良好
评分等级非良好
总计
零假设:游客的评分等级是否良好与年龄段无关,
由表中数据可得,
根据小概率值的独立性检验,可知零假设成立,
即无法认为游客的评分等级是否良好与年龄段有关.
4-2.由于人们健康意识的提升,运动爱好者人群不断扩大,运动相关行业得到快速发展.某运动品牌专卖店从2019年至2023年的年销售额如下表:
年份
2019
2020
2021
2022
2023
年份编号
1
2
3
4
5
年销售额/万元
30
35
45
60
80
(1)请根据表中的数据用最小二乘法求与的经验回归方程,并预测2024年该店的年销售额.
(2)该专卖店为了回馈广大消费者,推出了消费抽奖返现活动,规则如下:凡一次性消费满500元可抽奖1次,满1000元可抽奖2次.其中一次抽奖返现金额及概率如下表:
返现金额
50
100
概率
已知一位消费者一次性消费满500元的概率为,满1000元的概率为,求这位消费者抽奖返现金额的分布列与期望.
附:经验回归方程中,.
【详解】解:(1)因为,
,
所以,
所以与的经验回归方程为.
当时,,所以预测2024年该店的年销售额为87.5万元.
(2)可以取.
,
所以的分布列为
50
100
150
200
所以.
.
巩固训练
4-1.随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模y(单位:亿元)与x的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得y关于x的经验回归方程为,求相关系数r,并判断该经验回归方程是否有价值.
参考公式:,其中,.
,相关系数..
若,则认为经验回归方程有价值.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【详解】(1)2×2列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
零假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,我们推断不成立,即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,得,,
因为经验回归方程为,
所以,
所以,
所以.
因为,所以该经验回归方程有价值.
4-2.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以,
可得在上为增函数,在上为减函数,
所以,
由题意得:,即,
,
即该公司年净利润大于1000(百万元)的概率为0.3.
4-3.今年全国两会召开前,有人大代表提议:要大力提高国产芯片的应用率,推动“卡脖子”及高端芯片的研发及应用,并加大政策刺激力度,在芯片的研发端、应用端等多方面研究和出台针对国产芯片全产业链条的鼓励措施.芯片作为集成电路上的载体,是影响一个国家现代工业的重要因素.某公司过去七年在芯片技术上的研发投入x(单位:亿元)与收益y(单位:亿元)的数据统计如图:
(1)由折线图可知y与x的关系可以用一元线性回归模型拟合,请根据折线图的数据,求出y关于x的经验回归方程(数据均保留整数);
(2)利用(1)中经验回归方程,求折线图中数据残差的平方和.
附:.
【详解】(1)解:由统计图的数据,可得,
,
又由
所以,
所以关于的经验回归方程为.
(2)解:由统计图中的数据,以及(1)中的回归直线方程,可得如图所示的统计表:
2
3
4
6
8
10
13
13
22
31
42
50
56
58
19
23
27
35
43
51
63
残差
4
7
7
5
所以该组数据残差的平方和为.
原创精品资源学科网独家享有版权,侵权必究!8
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$