内容正文:
专题06 统计案例(期末复习讲义)
核心考点
复习目标
考情规律
一元线性回归
理解用最小二乘法求回归直线的思想,会求线性相关的两个变量的回归直线方程;
常考题型,小题考查。
成对数据的线性相关性
理解并掌握相关系数的概念及性质,并能判断两个变量之间的线性相关性强弱.
常考题型,小题或多选题考查。
独立性检验
能够根据条件列出2×2列联表并会由公式求“卡方”,会用独立性检验解决一些实际问题.
重点考查题型,综合性强,考查思维能力和综合运用能力。
知识点01 一元线性回归模型
1.回归直线方程的定义
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n,任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使残差平方和即(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
2.回归直线方程的求法及作用
给定两个变量y与x的一组数据后,回归直线方程=x+总是存在的,而且
,
其中,称为回归系数.它实际上是回归直线方程的斜率,回归直线方程确定之后,就可用于预测.
知识点02 回归直线方程的性质
(1)回归直线一定过点(,).
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0,这说明:y与x正相关的充要条件是>0;y与x负相关的充要条件是<0.
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义.
知识点03 相关系数、非线性回归
1.线性相关系数
r=
=
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
2.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
3.非线性回归
随机变量y与x不再是线性相关关系时,称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).
一般地,非线性回归方程的曲线类型可以通过作出散点图进行猜测,而回归方程有时可以通过变量替换后,借助求回归直线的过程确定.当然,确定了非线性回归方程之后,也可以利用它进行预测.
知识点04 独立性检验
1.2×2列联表及有关概率
如果随机事件A与B的样本数据的2×2列联表如下,
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则由表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
2.独立性检验的基本思想
(1)在2×2列联表中,令χ2=,任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著水平α对应的分位数).
χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.
(2)如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
(3)统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
题型一 相关关系的判断
解|题|技|巧
由散点图可知销售价格与房屋面积这两个变量是正相关的关系.
判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【典例1】(22-23高二下·上海徐汇·月考)下列关于散点图的说法中,正确的是( )
A.任意给定统计数据,都可以绘制散点图 B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系 D.从散点图中无法看出数据的分布情况
【答案】B
【分析】根据散点图的概念判断即可.
【详解】散点图不适合用于展示百分比占比的数据,另外数据量较少的数据也不适合用散点图表示,故A错误;
散点图能看出两个量是否具有一定关系,但是并一定是因果关系,故B正确,C错误;
散点图中能看出数据的分布情况,故D错误.
故选:B
【变式1】(22-23高二上·上海浦东新·期末)小明同学每天阅读数学文化相关的书籍,他每天阅读的页数分别为:4、5、4.5、5、6、8、7、5、4.5、6(单位:页).下列图形中不利于描述这些数据的是( )
A.条形图 B.茎叶图 C.散点图 D.扇形图
【答案】C
【分析】根据相关图的特征理解判断.
【详解】条形图:是用宽度相同的条形的高度(或长度)表示数据的频数,故符合题意;
茎叶图:即可以保留原始数据又可以方便记录数据,故符合题意;
散点图:用两组数据构成多个坐标点,通常用于比较跨类别的成对数据,不符合题意;
扇形图:是用整个圆表示总体,用圆内各个扇形的大小表示各个部分占总体的百分数,扇形图可以容易看出各个部分所占总体的比例,故符合题意;
故选:C.
【变式2】(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号
1
2
3
4
5
6
1
1.2
1.4
1.6
1.8
2.0
3.08
3.76
4.31
5.02
5.51
6.25
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3 B.2 C.1 D.0
【答案】C
【分析】根据散点图判断.
【详解】画出弹簧伸长长度x和相应所受外力F的散点图,
可以判断这两变量相关,且为正相关,故①②错误,③正确.
故选:C
题型二 一元线性回归方程
解|题|技|巧
求一元线性回归直线方程的步骤
(1)计算平均数,.
(2)计算xi与yi的积,求xiyi.,(3)计算∑n,i=1,n,x.
(4)将结果代入公式=,求.
(5)用=-,求.
(6)写出一元线性回归直线方程.,
【典例1】(24-25高二下·甘肃定西·期末)根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【答案】B
【分析】根据线性回归直线经过样本中心点,求的值.
【详解】由题意:,.
因为一元线性回归直线经过点,
可得: .
故选:B
【典例2】(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【答案】D
【分析】对于A,由回归方程可判断变量y与x的负相关;对于B,利用回归方程过可判断选项正误;对于C,由回归方程及残差定义可判断选项正误;对于D,由回归方程可得预测值.
【详解】对于A,因回归方程斜率为负值,则变量y与x负相关,故A正确;
对于B,,,
因回归方程过,则,故B正确;
对于C,当时,由B分析,,则残差为:
故C正确;
对于D,当,由B分析,,故D错误.
故选:D
【变式1】(24-25高二下·山东济宁·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
【答案】A
【分析】先根据原经验回归方程和求出原样本数据的,再计算去除两个样本点后的和,最后根据经验回归方程的性质求出新的经验回归方程.
【详解】因为经验回归方程为,,
所以.
原样本有10个数据点,,
则.
去除两个样本点后,样本有8个数据点,且,
所以新样本的
因为新的经验回归直线的斜率不变,则设新的经验回归方程为,
将代入方程得,
所以新的经验回归方程为.
故选:A.
题型三 线性回归方程的应用
解|题|技|巧
1.进行回归分析前必须进行相关性检验,相关性检验主要有以下两种方法:一是通过作散点图,观察由所给的数据确定的点是否在一条直线附近,这样既直观又方便,因而在解决相关性检验问题中比较常用;二是利用相关系数r来检验两个变量之间线性相关关系的强弱,利用相关系数r来检验线性相关关系,适用于任何情况,但计算繁琐.
2.用线性回归方程求预报值需注意以下几点:①线性回归方程只适用于所研究的样本的总体;②所建立的线性回归方程一般都有时间性;③样本的取值范围会影响回归方程的适用范围;④不能期望由回归方程得到的预报值就是预报变量的精确值,事实上,它是预报变量的可能取值的平均值.
【典例1】(24-25高二下·广东江门·期末)电视剧《狂飙》于2023年1月在央视八套黄金档首播,承载着深厚的历史底蕴的《狂飙》取景拍摄地之一的江门三十三墟街即成网红打卡地,吸引了大量游客前来打卡,寻觅剧中的足迹.某文创商店为了了解游客人流量x(单位:百人次)与文创产品销售额y(单位:百元)的关系,对文创商店近期的销售情况作了统计,如下表:
2
3
4
5
6
3.8
6.1
7.8
9.9
12.4
由表中的数据得到了y关于x的线性回归方程,其中已知,由此当预测游客人流量为700人次时,文创产品的销售额大约为( )
A.1430元 B.1420元 C.1455元 D.1416元
【答案】A
【分析】由题意可得,,代入回归方程可得,从而得,即可求解.
【详解】由题意可得,,
则,解得,所以方程,
所以当时,,即元,故A正确.
故选:A.
【典例2】(24-25高二下·广东梅州·期末)我国新能源汽车的卓越性能赢得全球人民的信赖,某品牌新能源汽车凭借科研创新、广告宣传和可靠的售后保障,在全球赢得了很好的营销局面,下表为该品牌新能源汽车的科研经费投入和全球市场规模统计.
科研经费(单位:百亿元)
2
4
6
12
16
市场规模(单位:百万辆)
1
1.5
2
3
3.5
如此得到y关于x的经验回归方程:,估计当该品牌新能源汽车的科研经费投入20(百亿元)时,全球市场规模将达到( )百万辆.
A.4 B.4.14 C.4.36 D.4.58
【答案】C
【分析】求出样本中心代入方程可得值,即可根据代入求解.
【详解】由表中数据可得,
故样本中心为,
故,
故当时,,
故选:C
【变式1】(24-25高二下·湖北荆门·期末)如果某地的财政收入x与支出y满足线性回归方程(单位:亿元),其中,,,.若今年该地区财政收入为10亿元,则年支出预计不会超过( )
A.12亿元 B.12.5亿元 C.10亿元 D.10.5亿元
【答案】B
【分析】写出回归方程,求出时的表达式,再利用不等式性质得解.
【详解】依题意,,而,则当时,,
所以年支出预计不会超过12.5亿元.
故选:B.
题型四 非线性回归方程及其应用
解|题|技|巧
非线性回归分析的步骤
非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决,其一般步骤为:
【典例1】(24-25高二下·江苏南京·期末)用模型拟合一组数据时,为了求出非线性回归方程,设,其变换后得到线性回归方程为,则c等于( )
A. B. C.2 D.
【答案】B
【分析】由回归模型,两边取对数,得到,根据题意,得到,即可求解.
【详解】由回归模型,可得,即,
因为变换后得到线性回归方程为,可得,所以.
故选:B.
【典例2】(22-23高二下·辽宁·期末)已知指数曲线进行适当变换后得到的方程为,则二次函数的单调递增区间为( )
A. B. C. D.
【答案】C
【分析】对作线性变化得,对比系数得到, 的值,由二次函数的对称轴以及开口即可得到函数的单调增区间
【详解】
两边取对数,可得作线性变化得,
由于指数曲线进行线性变换后得到的回归方程为,
则 ,,,即
由于函数为二次函数即,
抛物线开口向上,对称轴为 ,
则函数的单调增区间为,
故选:C
【变式1】(2023·湖南·模拟预测)若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B.
C. D.
【答案】D
【分析】根据题意,结合各项对应函数的性质判断回归方程即可.
【详解】由预报变量随着解释变量的增大而减小,即回归方程对应一个递减函数,排除A、C;
由随解释变量的增大,预报变量大致趋于一个确定的值,即趋向正无穷,预报变量趋向于某一个值,而不是趋向负无穷,排除B.
故选:D
题型五 独立性检验的简单应用
解|题|技|巧
独立性检验的方法和步骤
1.利用2×2列联表求χ2的值,把所求值与常用的显著性水平α以及对应的分位数k比较,而得出相应结论.
2.解决独立性检验问题的步骤
【典例1】(25-26高二上·全国·单元测试)给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关
B.一个未被识别的甲骨文文字一年内被识别出来的概率
C.购买食品是否看生产日期与性别是否有关
D.喜欢看新闻时政与年龄是否有关
【答案】B
【分析】根据独立性检验是对两个分类变量是否有关进行检验,逐个分析判断即可.
【详解】独立性检验主要是对两个分类变量是否有关进行检验,
对于A,喜欢参加体育锻炼有喜欢和不喜欢,性别有男和女,是对两个分类变量是否进行检验,
对于B,一个未被识别的甲骨文文字一年内被识别出来,只涉及一个变量,不可以用独立性检验解决,
对于C,购买食品有看生产日期和不看生产日期,性别有男和女,是对两个分类变量是否进行检验,
对于D,看新闻时政有喜欢和不喜欢,年龄有大有小,是对两个分类变量是否进行检验.
故不可以用独立性检验解决的问题是B.
故选:B.
【典例2】(24-25高二下·山东青岛·期末)为调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下列联表:
性别
晚上
白天
总计
女
30
男
30
总计
40
90
则的值最接近(附:,)( )
A.18 B.11 C.8 D.6
【答案】B
【分析】完善列联表,计算得解.
【详解】由题意可得列联表:
性别
晚上
白天
总计
女
30
20
50
男
10
30
40
总计
40
50
90
所以,
所以的值最接近11,
故选:B
【变式1】(24-25高二下·河北保定·月考)AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):
性别
使用情况
合计
经常使用
不经常使用
男性
女性
合计
依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为( )
(附:,,)
A.48 B.49 C.50 D.51
【答案】D
【分析】根据卡方的计算式计算出卡方的结果,和去比较,计算即可得出结果.
【详解】将列联表中的数据代入公式计算得 ,
解得 48.726,又 ,
所以 的最小值为 51 .
故选:D.
题型六 综合应用
解|题|技|巧
1.利用统计图表提取相关的数据信息是概率问题的解决基础,需要掌握各类图表中数据的提取方法,常见有频率分布直方图、频率分布表、扇形图、条形图等.
2.独立性检验可以判断两个变量是否有关,并能较为准确地给出这种判断的可信度,χ2越大,说明两个变量有关的可能性越大.
3.高考试卷中的概率统计的命题方向主要是将统计中用样本估计总体的思想与概率的数理分析有机地结合起来进行考查,更为重视数据处理能力在解决问题的过程中的应用.这似乎也是今后概率统计命题的发展方向.
【典例1】(2025·云南·模拟预测)近年来,某公司以电影和动漫中的一些元素为主题,开发了一些豪车模型玩具,现抽取了部分孩童,调查他们是否喜爱豪车模型,所得数据统计如下表所示.
性别
男孩
女孩
喜欢豪车模型
340
160
不喜欢豪车模型
300
200
(1)现按照性别进行分层,用分层随机抽样的方法在不喜欢豪车模型的样本孩童中随机抽取10人,再从这10人中随机抽取3人,求至少1人是女孩的概率;
(2)根据的独立性检验,能否认为是否喜欢豪车模型与性别具有相关性.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
【详解】(1)抽取的10人中,男孩有6人,女孩有4人,
故至少有1人是女孩的概率为.
(2)零假设:是否喜欢豪车模型与性别无关,
则
故不能拒绝零假设,即根据的独立性检验,不能认为是否喜欢豪车模型与性别具有相关性.
【典例2】(25-26高二上·全国·单元测试)据统计,某省2018年~2024年水果人均占有量(单位:kg)和年份代码绘制的散点图(2018年~2024年的年份代码分别为1~7)如图所示.
(1)根据散点图分析与之间的相关关系;
(2)根据散点图相应数据计算得,,求关于的线性回归方程.
【详解】(1)根据散点图可知,与呈正线性相关关系
(2)由题中的数据可知,,,
,
所以关于的线性回归方程为
【变式1】(25-26高三上·江苏南通·月考)为促进消费,扩大内需,江苏省体育局主办了年城市足球联赛,简称“苏超”.随着赛事的进行,引发全省乃至全国人民的关注,城市旅游人数显著提升.下表是比赛五个月来的某城市旅游人数(百万)与第个月的数据:
(月份)
(人数)
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)该市随机抽取了部分市民及游客,调查他们对赛事的关注情况,得到如下列联表:
性别
不关注赛事
关注赛事
男性
女性
请依据小概率值的独立性检验,能否认为关注“苏超”赛事与性别有关.
参考公式:,,其中.
【详解】(1)由表格中的数据可得,,
所以,
,
故关于的线性回归方程为.
(2)零假设关注“苏超”赛事与性别无关,
由表格中的数据可得,
依据小概率值的独立性检验,能认为关注“苏超”赛事与性别有关.
题型七 与其他知识的综合应用
解|题|技|巧
1.利用统计图表提取相关的数据信息是概率问题的解决基础,需要掌握各类图表中数据的提取方法,常见有频率分布直方图、频率分布表、扇形图、条形图等.
2.独立性检验可以判断两个变量是否有关,并能较为准确地给出这种判断的可信度,χ2越大,说明两个变量有关的可能性越大.
3.高考试卷中的概率统计的命题方向主要是将统计中用样本估计总体的思想与概率的数理分析有机地结合起来进行考查,更为重视数据处理能力在解决问题的过程中的应用.这似乎也是今后概率统计命题的发展方向.
【典例1】(2025·甘肃武威·模拟预测)某兴趣小组为宣传传统非遗文化制定了两种宣传方法,为了解两种宣传方法的宣传效果,该小组在人群中随机对84人进行了宣传(宣传前所有人均未了解过),其中42人采用宣传方法一,其余采用宣传方法二,宣传后的人群对传统非遗文化的了解程度分为“比较了解”和“有点了解”.经统计发现,采用宣传方法一宣传后的人中有30人是“比较了解”,采用宣传方法二宣传后的人中有18人是“比较了解”.
(1)以频率估计概率,现给2人采用宣传方法一宣传传统非遗文化(宣传前均未了解过),记宣传后“比较了解”的人数为,求的分布列和数学期望;
(2)列出列联表,并依据的独立性检验,是否可以认为宣传效果与宣传方法有关?
(3)若按照宣传方法进行分层抽样,从这84人中随机抽取14人,再从这14人中等可能依次抽取2人,求在第一次抽到“有点了解”的人的情况下,第二次抽到采用宣传方法二宣传且了解程度为“有点了解”的人的概率.
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【详解】(1)依题意可得,采用宣传方法一宣传后的人是“比较了解”的概率为,
所以,
则,,,
所以的分布列为
0
1
2
则.
(2)由题意,列联表如下:
宣传方法
了解程度
合计
有点了解
比较了解
方法一
12
30
42
方法二
24
18
42
合计
36
48
84
零假设:宣传效果与宣传方法无关.
经计算得,
所以依据的独立性检验,我们推断不成立,
即可以认为宣传效果与宣传方法有关,此推断犯错误的概率不超过0.01.
(3)14人中,采用宣传方法一宣传且了解程度为“有点了解”的有人,
采用宣传方法二宣传且了解程度为“有点了解”的有人,
记事件表示“第一次抽到‘有点了解’的人”,
事件表示“第二次抽到采用宣传方法二宣传且了解程度为‘有点了解’的人”,
则,,
所以.
【典例2】(24-25高二下·云南曲靖·期末)2025年,教育部推广“人工智能线上课程”试点应用.某中学随机抽取100名学生(男生与女生的人数之比为)对该线上课程进行评分(满分100分).规定:评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,已知评分不低于70分的频率为0.85.
(1)估计100名学生对人工智能线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“人工智能线上课程是否满意与性别有关”.
性别态度
满意
不满意
合计
男生
女生
10
合计
100
,其中.
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
【详解】(1)由已知得,解得,
又,解得,
评分的平均值为.
(2)不满意的学生人数为人,
完成列联表如下表:
态度性别
满意
不满意
合计
男生
25
35
60
女生
30
10
40
合计
55
45
100
则,
有的把握认为对“人工智能线上课程是否满意与性别有关”.
【变式1】(25-26高二上·全国·单元测试)近几年,我国促进新能源汽车产业发展的政策频出,积极推动新能源汽车市场的迅速发展.某新能源汽车公司为了解其对型充电桩进行投资后所获得的利润(单位:百万元)关于投资金额(单位:百万元)之间的关系,统计后得到10组样本数据,根据统计数据计算得到,利润的方差,投资金额的方差,以及样本相关系数.
(1)根据样本相关系数判断利润与投资金额的相关性强弱,并求出关于的线性回归方程(精确到0.01).
(2)为了解使用型充电桩的车主性别与使用满意度(分为满意与不满意)的情况,该公司又随机调查了该地区150名使用型充电桩的车主,其中男性车主有60名对型充电桩的使用表示满意,有30名对型充电桩的使用表示不满意;女性车主中有60%对型充电桩的使用表示满意.将频率视为概率,用样本估计总体.已知该地区一位车主对型充电桩的使用表示满意,求这位车主是男性的概率.
附:当时,相关性较强,当时,相关性一般;,
.
【详解】(1)由于,即,所以利润与投资金额相关性较强.
因为 ,
,,所以.
又,,所以.
由题,得,,所以,
则关于的线性回归方程为.
(2)设该地区“一位车主对型充电桩的使用表示满意”为事件,“车主是男性”为事件,
则已知该地区一位车主对型充电桩的使用表示满意,那么这位车主是男性的概率为.
又,,
则 .
期末基础通关练(测试时间:10分钟)
一、单选题
1.根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
【答案】A
【分析】由散点可得变量和变量负相关,且相关性较强,可得结论.
【详解】由散点图知,变量和变量负相关,且相关性较强,所以样本相关系数.
故选:A.
2.为了考察某种营养液对有机蔬菜的增产效果,某研究所进行试验,获得数据,经过计算得到,其中,那么可以认为该营养液对有机蔬菜的增产有效果的把握为( )
A.以上 B.以上 C.以上 D.以下
【答案】B
【分析】根据独性检验的相关概念可得答案.
【详解】因为,所以认为该营养液对有机蔬菜的增产有效果的把握为以上.
故选:B.
3.最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
【答案】A
【分析】根据相关系数公式计算即可求解.
【详解】,,
,
.
故选:A.
二、多选题
4.下列选项正确的是( )
A.相关系数r越大,成对样本数据的线性相关程度越强
B.已知y关于x的回归方程为,则样本点的残差为
C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其经验回归方程为,若其中一个散点坐标为,则
D.若经验回归方程为,则当变量x增加1个单位时,平均增加3个单位
【答案】BD
【分析】根据相关系数、残差及经验回归方程的知识逐项判断即可.
【详解】对于A,的值越大,相关性越强,故A错误;
对于B,由可得:,所以残差为:,故B正确;
对于C,散点不一定满足回归方程,不能直接代入方程,故C错误;
对于D,经验回归方程为,变量x增加1个单位时,平均增加3个单位,故D正确.
故选:BD.
三、填空题
5.下面是一个2×2列联表:
项目
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则由上表可得 .
【答案】74
【分析】根据联表性质计算求解.
【详解】由题意知,所以.
故答案为:.
四、解答题
6.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】有关
【分析】根据独立性检验的基本思想,求出,然后与小概率值对应的临界值比较,即可判断.
【详解】由题意,零假设为:超声波检查结果与患病无关,
根据表中数据可得,,
根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.
期末重难突破练(测试时间:10分钟)
一、单选题
1.有一散点图如图所示,在5个数据中去掉后,下列说法正确的是( )
A.解释变量与响应变量的线性相关性变弱 B.方差变大
C.决定系数变小 D.残差平方和变小
【答案】D
【分析】利用散点图分析数据,判断相关系数,方差,决定系数,残差的平方和的变化情况.
【详解】从散点图可分析出,若去掉点,则剩下的点更能集中在一条直线附近,
所以解释变量与响应变量的线性相关性变强,
数据的离散程度减小,所以方差变小,决定系数越接近1,会变大,
因为拟合效果越好,所以残差平方和变小.
故选:D
2.某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
a
25
28
35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
【答案】C
【分析】根据回归直线过样本中心点即可依次求出、回归方程和估计值.
【详解】由题,
所以,所以回归直线方程,
所以当时,.
故ABD正确,C错误.
故选:C
3.在性别与吃零食这两个分类变量的计算中,下列说法正确的是( )
①若的观测值为,我们有的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②从独立性检验可知有的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为;
③若从统计量中求出有的把握认为吃零食与性别有关系,是指有的可能性使得出的判断出现错误.
A.①② B.①③ C.②③ D.③
【答案】D
【分析】由独立性检验相关概念可得答案.
【详解】①若的观测值为,我们有的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性,故①不正确;
②独立性检验是用来考察两个分类变量是否具有关联性,并且能较精确地给出这种判断的可靠程度,
而不是给出事件的概率,故②不正确;
③若从统计量中求出有的把握认为吃零食与性别有关系,是指有的可能性使得出的判断出现错误,③正确。
故选:D
二、多选题
4.下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
【答案】BCD
【分析】对于A根据相关系数的性质分析判断;对于B根据决定系数的性质分析判断;对于C根据回归方程过样本中心点分析判断;对于D根据独立性检验思想分析判断.
【详解】因为相关系数绝对值越接近1两个变量的线性相关程度越强,故A选项错误.
因为决定系数越接近0,表示模型对数据的拟合效果越差,故B选项正确.
因为回归直线一定经过样本均值点,故C选项正确.
因为,则没有充分证据推断不成立,即认为与有无,故D选项正确.
故选:BCD
三、填空题
5.对两个具有非线性关系的相关变量进行回归分析,设,利用最小二乘法,得到线性回归模型为,则变量的最大值的估计值为 .
【答案】
【分析】由题意,只需求得的最大值即可.
【详解】由题意,所以当时,有最大值2,此时变量的最大值的估计值为.
故答案为:.
四、解答题
6.一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:
月份
1月
2月
3月
4月
月广告费用(万元)
3
4
5
6
月销量(万件)
5
6
8
9
已知与线性相关.
(1)求关于的经验回归方程;
(2)求与的相关系数(精确到0.01).
参考公式:回归直线方程为,其中,.
相关系数.
【答案】(1)
(2)
【分析】(1)根据线性相关系数公式求解相关系数,再利用最小二乘估计求解回归方程即可;
(2)结合(1)及相关系数的公式求解即可.
【详解】(1)依题意有,,
列表可得:
可得,
,
可得,,
故y关于x的经验回归方程为.
(2)由,
所以y与x的相关系数为.
期末综合拓展练(测试时间:15分钟)
一、单选题
1.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
【答案】D
【分析】根据回归直线方程必过样本中心建立方程,解方程即可求出结果.
【详解】由回归直线过样本中心点,得,
,代入,得,
方程两边同时乘5,得.
故选:D.
2.已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
【答案】B
【分析】先根据条件求出样本点中心为,再将其代入经验回归方程中即可.
【详解】根据题意可得,,,
则5对样本数据的样本点中心为,
将其代入方程中得,,则.
故选:B.
3.目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别
对汽车的偏好
体验流
技术流
总计
男
30
50
女
40
总计
100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
【答案】D
【分析】对于A,由题可完善列联表,据此可判断选项正误;对于BCD,由题意及独立性检验知识可判断选项正误.
【详解】对于A,由题意,补充完整的列联表如下:
性别
对汽车的偏好
体验流
技术流
总计
男
20
30
50
女
40
10
50
总计
60
40
100
则在样本中的女性中,按分层随机抽样的方法再抽取10人,应从“体验流”中抽取(人).故A错误;
对于BCD,对于成员甲有,
故小组成员甲有99%的把握认为对汽车的偏好与性别有关;
对于成员乙有,
故小组成员乙认为对汽车的偏好与性别无关.
综上,小组成员甲、乙计算出的值不同,他们得出的结论也不同.故B错误,C错误,D正确.
故选:D
二、多选题
4.2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高堆积条形图.
根据图中的信息,下列结论中一定正确的是( ).
A.样本中男性比女性更关注地铁1号线全线开通
B.样本中多数女性是35岁及以上
C.样本中35岁以下的男性人数比35岁及以上的女性人数多
D.样本中35岁及以上的人对地铁1号线的开通关注度更高
【答案】ABD
【分析】通过等高堆积条形图构建列联表,根据条形图所呈现的信息得出列联表中各部分数量的大小关系,再依据这些关系对各个选项进行分析.
【详解】设等高堆积条形图对应的列联表如下:
项目
35岁及以上
35岁以下
合计
男性
a
c
女性
b
d
合计
根据第1个等高堆积条形图可知,35岁及以上的男性比女性多,即;
35岁以下的男性也比女性多,即,
根据第2个等高堆积条形图可知,男性中35岁及以上的比35岁以下的多,即;
女性中35岁及以上的也比35岁以下的多,即,
对于选项A,男性人数为,女性人数为,,,故A正确,
对于选项B,35岁及以上女性人数为,35岁以下女性人数为d,,故B正确,
对于选项C,35岁以下男性人数为c,35岁及以上女性人数为b,由,无法直接判断b与c的大小关系,故C不一定正确,
对于选项D,35岁及以上的人数为,35岁以下的人数为,, ,故D正确,
故选:ABD.
三、填空题
5.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则 , .
【答案】
【分析】两边同时取对数,求得,结合,求得,得到的值,再由,求得,结合,即可求解.
【详解】由,两边同时取对数,可得,
因为变换后的线性回归方程为,可得,
即,所以,
又因为,且,
所以,
因为,可得,所以.
故答案为:;.
四、解答题
6.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限(单位:年)与失效费(单位:万元)的统计数据如下表所示:
使用年限(单位:年)
2
4
5
6
8
失效费(单位:万元)
3
4
5
6
7
(1)根据上表数据,计算与的相关系数,并说明与的线性相关性的强弱.
(已知:,则认为与线性相关性很强;,则认为与线性相关性一般;,则认为与线性相关性较弱)(的结果精确到0.0001)
(2)求关于的线性回归方程,并估算该种机械设备使用10年的失效费.
附:样本的相关系数,经验回归方程 的斜率和截距的最小二乘估计分别为,.
【答案】(1),线性相关性很强
(2),8.5万元
【分析】(1)根据相关系数公式,分别求出变量的均值及和值,代入公式求得相关系数,并判断相关性强弱即可;
(2)根据第一问求得的值,结合线性回归方程求解公式求得参数,写出回归方程,并预测10年的失效费即可.
【详解】(1)由表知,,,
,
,,
,
故,认为与线性相关性很强;
(2)由(1)知,,
又,,
故关于的线性回归方程为,
当时,,即估算10年的失效费为8.5万元.
7.在“一带一路”倡议推动下,中国与中亚国家合作日益紧密.2025年,某省计划向海外“郑和学院”项目派遣教师,为此举办了专项教学能力培训.参会人员包括600名高职院校教师和400名企业工程师转岗教师.培训后均参加教学能力考核,考核结果为优秀、合格两种情况,统计得到如下列联表:
高职院校教师
企业工程师
总计
优秀
350
170
520
合格
250
230
480
总计
600
400
1000
(1)根据小概率值的独立性检验,能否认为这次考核结果与教师背景类型有关?
(2)若从参会人员中,采用分层抽样的方法随机抽取10名教师,再从这10人中随机抽取3人进行海外教学意愿调研,设抽取的3人中企业工程师的人数为,求的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
【答案】(1)能认为这次考核结果与教师背景类型有关
(2)分布列见解析,
【分析】(1)根据卡方的计算公式,结合独立性检验的思想即可下结论;
(2)易知,利用超几何分布求出对应的概率,列出分布列,求出数学期望,即可求解.
【详解】(1)零假设为:这次考核结果与教师背景类型无关,
查临界值表,对应的临界值,由于,
故依据小概率值的独立性检验,我们推断不成立,
即认为这次考核结果与教师背景类型有关,此推断犯错的概率不大于0.01.
(2)分层抽样时,总抽取比例为
因此:高职院校教师抽取人数:(人),
企业工程师抽取人数:(人)
从10人中抽取3人,设企业工程师人数为X,则X服从超几何分布,
可能取值为,
则,
,
,
则的分布列为:
0
1
2
3
数学期望由超几何分布性质得:
1 / 33
学科网(北京)股份有限公司
$
专题06 统计案例(期末复习讲义)
核心考点
复习目标
考情规律
一元线性回归
理解用最小二乘法求回归直线的思想,会求线性相关的两个变量的回归直线方程;
常考题型,小题考查。
成对数据的线性相关性
理解并掌握相关系数的概念及性质,并能判断两个变量之间的线性相关性强弱.
常考题型,小题或多选题考查。
独立性检验
能够根据条件列出2×2列联表并会由公式求“卡方”,会用独立性检验解决一些实际问题.
重点考查题型,综合性强,考查思维能力和综合运用能力。
知识点01 一元线性回归模型
1.回归直线方程的定义
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n,任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使残差平方和即(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
2.回归直线方程的求法及作用
给定两个变量y与x的一组数据后,回归直线方程=x+总是存在的,而且
,
其中,称为回归系数.它实际上是回归直线方程的斜率,回归直线方程确定之后,就可用于预测.
知识点02 回归直线方程的性质
(1)回归直线一定过点(,).
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0,这说明:y与x正相关的充要条件是>0;y与x负相关的充要条件是<0.
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义.
知识点03 相关系数、非线性回归
1.线性相关系数
r=
=
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
2.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
3.非线性回归
随机变量y与x不再是线性相关关系时,称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).
一般地,非线性回归方程的曲线类型可以通过作出散点图进行猜测,而回归方程有时可以通过变量替换后,借助求回归直线的过程确定.当然,确定了非线性回归方程之后,也可以利用它进行预测.
知识点04 独立性检验
1.2×2列联表及有关概率
如果随机事件A与B的样本数据的2×2列联表如下,
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则由表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
2.独立性检验的基本思想
(1)在2×2列联表中,令χ2=,任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著水平α对应的分位数).
χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.
(2)如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
(3)统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
题型一 相关关系的判断
解|题|技|巧
由散点图可知销售价格与房屋面积这两个变量是正相关的关系.
判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【典例1】(22-23高二下·上海徐汇·月考)下列关于散点图的说法中,正确的是( )
A.任意给定统计数据,都可以绘制散点图 B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系 D.从散点图中无法看出数据的分布情况
【变式1】(22-23高二上·上海浦东新·期末)小明同学每天阅读数学文化相关的书籍,他每天阅读的页数分别为:4、5、4.5、5、6、8、7、5、4.5、6(单位:页).下列图形中不利于描述这些数据的是( )
A.条形图 B.茎叶图 C.散点图 D.扇形图
【变式2】(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号
1
2
3
4
5
6
1
1.2
1.4
1.6
1.8
2.0
3.08
3.76
4.31
5.02
5.51
6.25
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3 B.2 C.1 D.0
题型二 一元线性回归方程
解|题|技|巧
求一元线性回归直线方程的步骤
(1)计算平均数,.
(2)计算xi与yi的积,求xiyi.,(3)计算∑n,i=1,n,x.
(4)将结果代入公式=,求.
(5)用=-,求.
(6)写出一元线性回归直线方程.,
【典例1】(24-25高二下·甘肃定西·期末)根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【典例2】(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【变式1】(24-25高二下·山东济宁·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
题型三 线性回归方程的应用
解|题|技|巧
1.进行回归分析前必须进行相关性检验,相关性检验主要有以下两种方法:一是通过作散点图,观察由所给的数据确定的点是否在一条直线附近,这样既直观又方便,因而在解决相关性检验问题中比较常用;二是利用相关系数r来检验两个变量之间线性相关关系的强弱,利用相关系数r来检验线性相关关系,适用于任何情况,但计算繁琐.
2.用线性回归方程求预报值需注意以下几点:①线性回归方程只适用于所研究的样本的总体;②所建立的线性回归方程一般都有时间性;③样本的取值范围会影响回归方程的适用范围;④不能期望由回归方程得到的预报值就是预报变量的精确值,事实上,它是预报变量的可能取值的平均值.
【典例1】(24-25高二下·广东江门·期末)电视剧《狂飙》于2023年1月在央视八套黄金档首播,承载着深厚的历史底蕴的《狂飙》取景拍摄地之一的江门三十三墟街即成网红打卡地,吸引了大量游客前来打卡,寻觅剧中的足迹.某文创商店为了了解游客人流量x(单位:百人次)与文创产品销售额y(单位:百元)的关系,对文创商店近期的销售情况作了统计,如下表:
2
3
4
5
6
3.8
6.1
7.8
9.9
12.4
由表中的数据得到了y关于x的线性回归方程,其中已知,由此当预测游客人流量为700人次时,文创产品的销售额大约为( )
A.1430元 B.1420元 C.1455元 D.1416元
【典例2】(24-25高二下·广东梅州·期末)我国新能源汽车的卓越性能赢得全球人民的信赖,某品牌新能源汽车凭借科研创新、广告宣传和可靠的售后保障,在全球赢得了很好的营销局面,下表为该品牌新能源汽车的科研经费投入和全球市场规模统计.
科研经费(单位:百亿元)
2
4
6
12
16
市场规模(单位:百万辆)
1
1.5
2
3
3.5
如此得到y关于x的经验回归方程:,估计当该品牌新能源汽车的科研经费投入20(百亿元)时,全球市场规模将达到( )百万辆.
A.4 B.4.14 C.4.36 D.4.58
【变式1】(24-25高二下·湖北荆门·期末)如果某地的财政收入x与支出y满足线性回归方程(单位:亿元),其中,,,.若今年该地区财政收入为10亿元,则年支出预计不会超过( )
A.12亿元 B.12.5亿元 C.10亿元 D.10.5亿元
题型四 非线性回归方程及其应用
解|题|技|巧
非线性回归分析的步骤
非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决,其一般步骤为:
【典例1】(24-25高二下·江苏南京·期末)用模型拟合一组数据时,为了求出非线性回归方程,设,其变换后得到线性回归方程为,则c等于( )
A. B. C.2 D.
【典例2】(22-23高二下·辽宁·期末)已知指数曲线进行适当变换后得到的方程为,则二次函数的单调递增区间为( )
A. B. C. D.
【变式1】(2023·湖南·模拟预测)若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B.
C. D.
题型五 独立性检验的简单应用
解|题|技|巧
独立性检验的方法和步骤
1.利用2×2列联表求χ2的值,把所求值与常用的显著性水平α以及对应的分位数k比较,而得出相应结论.
2.解决独立性检验问题的步骤
【典例1】(25-26高二上·全国·单元测试)给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关
B.一个未被识别的甲骨文文字一年内被识别出来的概率
C.购买食品是否看生产日期与性别是否有关
D.喜欢看新闻时政与年龄是否有关
【典例2】(24-25高二下·山东青岛·期末)为调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下列联表:
性别
晚上
白天
总计
女
30
男
30
总计
40
90
则的值最接近(附:,)( )
A.18 B.11 C.8 D.6
性别
晚上
白天
总计
女
30
20
50
男
10
30
40
总计
40
50
90
【变式1】(24-25高二下·河北保定·月考)AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):
性别
使用情况
合计
经常使用
不经常使用
男性
女性
合计
依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为( )
(附:,,)
A.48 B.49 C.50 D.51
题型六 综合应用
解|题|技|巧
1.利用统计图表提取相关的数据信息是概率问题的解决基础,需要掌握各类图表中数据的提取方法,常见有频率分布直方图、频率分布表、扇形图、条形图等.
2.独立性检验可以判断两个变量是否有关,并能较为准确地给出这种判断的可信度,χ2越大,说明两个变量有关的可能性越大.
3.高考试卷中的概率统计的命题方向主要是将统计中用样本估计总体的思想与概率的数理分析有机地结合起来进行考查,更为重视数据处理能力在解决问题的过程中的应用.这似乎也是今后概率统计命题的发展方向.
【典例1】(2025·云南·模拟预测)近年来,某公司以电影和动漫中的一些元素为主题,开发了一些豪车模型玩具,现抽取了部分孩童,调查他们是否喜爱豪车模型,所得数据统计如下表所示.
性别
男孩
女孩
喜欢豪车模型
340
160
不喜欢豪车模型
300
200
(1)现按照性别进行分层,用分层随机抽样的方法在不喜欢豪车模型的样本孩童中随机抽取10人,再从这10人中随机抽取3人,求至少1人是女孩的概率;
(2)根据的独立性检验,能否认为是否喜欢豪车模型与性别具有相关性.
附:.
0.05
0.01
0.001
3.841
6.635
10.828
【典例2】(25-26高二上·全国·单元测试)据统计,某省2018年~2024年水果人均占有量(单位:kg)和年份代码绘制的散点图(2018年~2024年的年份代码分别为1~7)如图所示.
(1)根据散点图分析与之间的相关关系;
(2)根据散点图相应数据计算得,,求关于的线性回归方程.
【变式1】(25-26高三上·江苏南通·月考)为促进消费,扩大内需,江苏省体育局主办了年城市足球联赛,简称“苏超”.随着赛事的进行,引发全省乃至全国人民的关注,城市旅游人数显著提升.下表是比赛五个月来的某城市旅游人数(百万)与第个月的数据:
(月份)
(人数)
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)该市随机抽取了部分市民及游客,调查他们对赛事的关注情况,得到如下列联表:
性别
不关注赛事
关注赛事
男性
女性
请依据小概率值的独立性检验,能否认为关注“苏超”赛事与性别有关.
参考公式:,,其中.
题型七 与其他知识的综合应用
解|题|技|巧
1.利用统计图表提取相关的数据信息是概率问题的解决基础,需要掌握各类图表中数据的提取方法,常见有频率分布直方图、频率分布表、扇形图、条形图等.
2.独立性检验可以判断两个变量是否有关,并能较为准确地给出这种判断的可信度,χ2越大,说明两个变量有关的可能性越大.
3.高考试卷中的概率统计的命题方向主要是将统计中用样本估计总体的思想与概率的数理分析有机地结合起来进行考查,更为重视数据处理能力在解决问题的过程中的应用.这似乎也是今后概率统计命题的发展方向.
【典例1】(2025·甘肃武威·模拟预测)某兴趣小组为宣传传统非遗文化制定了两种宣传方法,为了解两种宣传方法的宣传效果,该小组在人群中随机对84人进行了宣传(宣传前所有人均未了解过),其中42人采用宣传方法一,其余采用宣传方法二,宣传后的人群对传统非遗文化的了解程度分为“比较了解”和“有点了解”.经统计发现,采用宣传方法一宣传后的人中有30人是“比较了解”,采用宣传方法二宣传后的人中有18人是“比较了解”.
(1)以频率估计概率,现给2人采用宣传方法一宣传传统非遗文化(宣传前均未了解过),记宣传后“比较了解”的人数为,求的分布列和数学期望;
(2)列出列联表,并依据的独立性检验,是否可以认为宣传效果与宣传方法有关?
(3)若按照宣传方法进行分层抽样,从这84人中随机抽取14人,再从这14人中等可能依次抽取2人,求在第一次抽到“有点了解”的人的情况下,第二次抽到采用宣传方法二宣传且了解程度为“有点了解”的人的概率.
附:,.
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
0
1
2
宣传方法
了解程度
合计
有点了解
比较了解
方法一
12
30
42
方法二
24
18
42
合计
36
48
84
【典例2】(24-25高二下·云南曲靖·期末)2025年,教育部推广“人工智能线上课程”试点应用.某中学随机抽取100名学生(男生与女生的人数之比为)对该线上课程进行评分(满分100分).规定:评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,已知评分不低于70分的频率为0.85.
(1)估计100名学生对人工智能线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“人工智能线上课程是否满意与性别有关”.
性别态度
满意
不满意
合计
男生
女生
10
合计
100
,其中.
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
态度性别
满意
不满意
合计
男生
25
35
60
女生
30
10
40
合计
55
45
100
【变式1】(25-26高二上·全国·单元测试)近几年,我国促进新能源汽车产业发展的政策频出,积极推动新能源汽车市场的迅速发展.某新能源汽车公司为了解其对型充电桩进行投资后所获得的利润(单位:百万元)关于投资金额(单位:百万元)之间的关系,统计后得到10组样本数据,根据统计数据计算得到,利润的方差,投资金额的方差,以及样本相关系数.
(1)根据样本相关系数判断利润与投资金额的相关性强弱,并求出关于的线性回归方程(精确到0.01).
(2)为了解使用型充电桩的车主性别与使用满意度(分为满意与不满意)的情况,该公司又随机调查了该地区150名使用型充电桩的车主,其中男性车主有60名对型充电桩的使用表示满意,有30名对型充电桩的使用表示不满意;女性车主中有60%对型充电桩的使用表示满意.将频率视为概率,用样本估计总体.已知该地区一位车主对型充电桩的使用表示满意,求这位车主是男性的概率.
附:当时,相关性较强,当时,相关性一般;,
.
期末基础通关练(测试时间:10分钟)
一、单选题
1.根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
2.为了考察某种营养液对有机蔬菜的增产效果,某研究所进行试验,获得数据,经过计算得到,其中,那么可以认为该营养液对有机蔬菜的增产有效果的把握为( )
A.以上 B.以上 C.以上 D.以下
3.最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
二、多选题
4.下列选项正确的是( )
A.相关系数r越大,成对样本数据的线性相关程度越强
B.已知y关于x的回归方程为,则样本点的残差为
C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其经验回归方程为,若其中一个散点坐标为,则
D.若经验回归方程为,则当变量x增加1个单位时,平均增加3个单位
三、填空题
5.下面是一个2×2列联表:
项目
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则由上表可得 .
四、解答题
6.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1000
根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050
0.010
0.001
3.841
6.635
10.828
期末重难突破练(测试时间:10分钟)
一、单选题
1.有一散点图如图所示,在5个数据中去掉后,下列说法正确的是( )
A.解释变量与响应变量的线性相关性变弱 B.方差变大
C.决定系数变小 D.残差平方和变小
2.某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x
5
6
8
9
12
y
17
a
25
28
35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
3.在性别与吃零食这两个分类变量的计算中,下列说法正确的是( )
①若的观测值为,我们有的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②从独立性检验可知有的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为;
③若从统计量中求出有的把握认为吃零食与性别有关系,是指有的可能性使得出的判断出现错误.
A.①② B.①③ C.②③ D.③
二、多选题
4.下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
三、填空题
5.对两个具有非线性关系的相关变量进行回归分析,设,利用最小二乘法,得到线性回归模型为,则变量的最大值的估计值为 .
四、解答题
6.一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:
月份
1月
2月
3月
4月
月广告费用(万元)
3
4
5
6
月销量(万件)
5
6
8
9
已知与线性相关.
(1)求关于的经验回归方程;
(2)求与的相关系数(精确到0.01).
参考公式:回归直线方程为,其中,.
相关系数.
期末综合拓展练(测试时间:15分钟)
一、单选题
1.若变量线性相关,由数据求得回归方程为,则下列结论一定成立的是( )
A. B.
C. D.
2.已知变量之间具有线性相关关系,根据5对样本数据求得经验回归方程为,若,,则( )
A.18 B.3.6 C.2.4 D.1.2
3.目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别
对汽车的偏好
体验流
技术流
总计
男
30
50
女
40
总计
100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
性别
对汽车的偏好
体验流
技术流
总计
男
20
30
50
女
40
10
50
总计
60
40
100
二、多选题
4.2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高堆积条形图.
根据图中的信息,下列结论中一定正确的是( ).
A.样本中男性比女性更关注地铁1号线全线开通
B.样本中多数女性是35岁及以上
C.样本中35岁以下的男性人数比35岁及以上的女性人数多
D.样本中35岁及以上的人对地铁1号线的开通关注度更高
项目
35岁及以上
35岁以下
合计
男性
a
c
女性
b
d
合计
三、填空题
5.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则 , .
四、解答题
6.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限(单位:年)与失效费(单位:万元)的统计数据如下表所示:
使用年限(单位:年)
2
4
5
6
8
失效费(单位:万元)
3
4
5
6
7
(1)根据上表数据,计算与的相关系数,并说明与的线性相关性的强弱.
(已知:,则认为与线性相关性很强;,则认为与线性相关性一般;,则认为与线性相关性较弱)(的结果精确到0.0001)
(2)求关于的线性回归方程,并估算该种机械设备使用10年的失效费.
附:样本的相关系数,经验回归方程 的斜率和截距的最小二乘估计分别为,.
7.在“一带一路”倡议推动下,中国与中亚国家合作日益紧密.2025年,某省计划向海外“郑和学院”项目派遣教师,为此举办了专项教学能力培训.参会人员包括600名高职院校教师和400名企业工程师转岗教师.培训后均参加教学能力考核,考核结果为优秀、合格两种情况,统计得到如下列联表:
高职院校教师
企业工程师
总计
优秀
350
170
520
合格
250
230
480
总计
600
400
1000
(1)根据小概率值的独立性检验,能否认为这次考核结果与教师背景类型有关?
(2)若从参会人员中,采用分层抽样的方法随机抽取10名教师,再从这10人中随机抽取3人进行海外教学意愿调研,设抽取的3人中企业工程师的人数为,求的分布列和数学期望.
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
0
1
2
3
1 / 22
学科网(北京)股份有限公司
$