内容正文:
预习06 一元线性回归模型及独立性检验
模块一 思维导图串知识
模块二 基础知识全梳理
模块三 核心考点举一反三
模块四 小试牛刀过关测
1.通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系;
2.经历用不同估算方法描述两个变量线性相关的过程;
3.知道最小二乘法的思想,能根据给出的经验回归方程系数公式建立经验回归方程;
4.通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.
知识点一、相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
知识点二、回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
知识点三、独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
考点一:变量间的相关关系及判断
例1.某统计部门对四组数据进行统计分析后,获得如图所示的散点图.
下面关于样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】C
【详解】由题图可知,所对应的图中的散点呈现正相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
所对应的图中的散点呈现负相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
因此.
故选:C.
变式1-1.给出下列两组数据,用分别表示与与的线性相关系数,则下列说法正确的是( )
2
4
6
7
9
3
4
7
9
11
2
4
6
7
9
10
9
8
5
2
A. B. C. D.
【答案】C
【详解】根据两组数据的可知,变量与呈现出正相关,变量与呈现出负相关,即.
故选:C.
变式1-2.已知气候温度和海水表层温度相关,且相关系数为负数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【答案】D
【详解】由于相关系数表示一个变量变化对另一个变量变化趋势的影响,
所以随着气候温度由低到高,海水表层温度呈下降趋势.
故选:D
变式1-3.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
【答案】D
【详解】由线性相关系数知与正相关,
由线性相关系数知与负相关,
又,所以变量与变量的线性相关性比变量与变量的线性相关性更强.
故选:D.
考点二:求线性回归方程
例2.两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
【答案】(1)138
(2)
【详解】(1)
,
代入数据可得.
(2)由已知得,,∵,
∴,
,
∴关于的经验回归方程为.
变式2-1.近日我国相关企业研究表明,随着锂离子电池充放电循环次数的增加,电池内阻增大,可用容量和能量衰减,削弱了电动汽车的续航里程.相关科研团队利用数学建模的方法构建理离子电池充放电循环次数单位:百次与锂离子电池性能指数的回归模型,通过实验得到部分数据如下表:
充放电循环次数x
3
4
5
6
电池性能指数y
91
88
82
79
由上表中的数据求得回归方程为,则计算可得( )(参考公式及数据:,)
A. B. C. D.
【答案】D
【详解】由,,
且,,
故
故选:D.
变式2-2.某地为响应“绿水青山”的号召,经过多年的环境治理,将荒山改造成了林区.为了解该林区某种树木的材积量与根部横截面面积之间的关系,随机选取了一定量的这种树木进行测量,得到每棵树的根部横截面面积x(单位:)和对应的平均材积量y(单位:)如下表所示,则y关于x的经验回归方程为 .
根部横截面面积
0.04
0.05
0.06
0.07
0.08
材积量
0.25
0.34
0.40
0.46
0.50
附:经验回归方程,其中.
【答案】
【详解】由于,,
,
,所以,,
所以关于的经验回归方程为.
故答案为:
变式2-3.下表提供了某厂进行技术改造后生产产品过程中记录的产能(单位:)与相应的生产能耗(单位:标准煤)的几组对应数据:
3
4
5
6
标准煤
3.5
4
5
5.5
(1)求关于的经验回归方程;
(2)已知该厂技术改造前产品的生产能耗为标准煤,试根据(1)中求出的经验回经验回归方程,预测该厂技术改造后产品的生产能耗比技术改造前降低了多少标准煤.
参考公式:
【答案】(1)
(2)
【详解】(1)
(2),即改造后预测生产能耗为
.
预测该厂改造后100t产品的生产能耗比技术改造前降低了标准煤.
考点三:回归直线方程的性质及应用
例3.第19届亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如下表所示:( )
时间
1
2
3
4
5
销售量/万只
5
4.5
4
3.5
2.5
若与线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
【答案】B
【详解】对于选项A,从数据看,随的增大而减小,所以变量与负相关,
故正确,A不符合题意;
对于选项B,由表中数据知,,
所以样本中心点为,将样本中心点代入中得,
所以线性回归方程为,
所以,残差,故错误,B符合题意;
对于选项C,当时销量约为(万只),故正确,C不符合题意;
对于选项D,由B选项可知,故正确,D不符合题意.
故选:B.
变式3-1.生物兴趣小组在研究某种流感病毒的数量与环境温度之间的关系时,发现在一定温度范围内,病毒数量与环境温度近似存在线性相关关系,为了寻求它们之间的回归方程,兴趣小组通过实验得到了下列三组数据,计算得到的回归方程为:,但由于保存不妥,丢失了一个数据(表中用字母m代替),则( )
温度()
病毒数量(万个)
A. B. C. D.m的值暂时无法确定
【答案】B
【详解】由已知,,
即样本中心为,
又回归方程为,
即,
解得,
故选:B.
变式3-2.在一次体育课上,有6位男同学掷沙包,他们身高分别为,,依次掷出了.如果他们掷出的距离与身高呈线性相关,根据以上数据可得身高与掷沙包的距离的回归方程为,其中,据此模型预测 .
【答案】9.304
【详解】由已知,掷出的距离与身高呈线性相关,得出数据,
所以,代入,其中,求得,
即.当时,.
故答案为:.
变式3-3.为了研究某种菌在特定环境下随时变化的繁殖情况,得如下实验数据:
天数(天)
繁殖个数(个)
由以上信息,计算得回归直线方程为,则的值为 .
【答案】
【详解】由题意可得:,
回归方程过样本中心点,则:,即:,解得:,
所以的值为3.
故答案为:
考点四:相关系数的计算及应用
例4.近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2018-2022年某市家庭平均教育支出占家庭总支出的比例(百分比)与年份编号之间的关系:
年份
2018
2019
2020
2021
2022
1
2
3
4
5
21
26
40
49
54
则与的样本相关系数 (保留3位小数).
附:,.
【答案】0.976
【详解】由题意可知:,
可得,
所以.
故答案为:0.976.
变式4-1.某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
附:.
【答案】
【详解】由表格中的数据,可得,,
则,
,,
故.
故答案为:.
变式4-2.广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
【答案】(1)700
(2)0.94
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样,理由见解析
【详解】(1)由已知得样本平均数,
从而广阳岛这种鸟数量的估计值为.
(2),
,
故样本的相关系数
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样.
理由如下:由(2)知各样区的这种鸟数量与植物覆盖面积有很强的正相关,
由于各地块间植物覆盖面积差异很大,从而各地块间这种鸟数量差异也很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得广阳岛这种鸟数量更准确的估计.
变式4-3.某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:.
参考数据:.
【答案】0.98,与高度正相关.
【详解】解:,
,
,
,
,
故相关系数,
,
与高度正相关.
考点五:非线性回归模型及应用
例5.近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
【答案】
【详解】由,将两边同时取对数可得,
令,由最小二乘法得经验回归方程为,
所以,
又
,
所以.
故答案为:;.
变式5-1.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得线性回归方程为,则该模型的非线性回归方程为 .
【答案】
【详解】由回归直线方程,得:,
整理得:,
所以该模型的回归方程为.
故答案为: .
变式5-2.某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度()与灭死率的数据,得下表:
浓度()
灭死率
0.1
0.24
0.46
0.76
0.94
(1)以为解释变量,为响应变量,在和中选一个作为灭死率关于浓度()的经验回归方程,不用说明理由;
(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;
(ii)依据(i)中所求经验回归方程,要使灭死率不低于,估计该灭草剂的浓度至少要达到多少?
参考公式:对于一组数据,,,,其经验回归直线的斜率和截距的最小二乘法估计分别为,.
【答案】(1)选
(2)(i),(ii)
【详解】(1)根据表格数据可知解析变量呈现指数增长,而响应变量增长幅度不大,且相应的增加量大约相等,
故选.
(2)(i)令,则,
所以可得如下数据
0.1
0.24
0.46
0.76
0.94
则,,
,
,
所以,,
所以,即;
(ii)依题意,即,即,
所以,即要使灭死率不低于,则该灭草剂的浓度至少要达到.
变式5-3.某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:
选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:
31.5
15
15
49.5
(1)求出与的回归方程;
(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.
【答案】(1)
(2)498万元
【详解】(1)因为
由表中数据得,
所以,所以,
所以年该材料费用和年利润额的回归方程为;
(2)令,得,
所以(十万),
故下一年应至少投入498万元该材料费用.
考点六:列联表
例6.下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
【答案】C
【详解】因为.所以.又,所以.
故选:C.
变式6-1.某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
【答案】D
【详解】因为抽取的村民中,老年人有25名,年轻人有25名,所以,
所以,A、B对;
所以,则对;
则错.
故选:.
变式6-2.下面是一个列联表,其中a、b处填的值分别为( )
总计
a
21
73
2
25
27
总计
b
46
100
A.52、54
B.54、52
C.94、146
D.146、94
【答案】A
【详解】由题意可得,解得,
所以a、b值分别为52、54.
故选:A.
变式6-3.下面是一个列联表:
总计
35
70
15
15
30
总计
50
100
其中、处填的值分别为 .
【答案】35,50
【详解】在第二行中,,
在第三列中,,
故答案为:35,50
考点七:利用独立性检验思想解决实际问题
例7.(多选)为了研究某校高三年级学生的性别和身高是否低于的关联性,研究小组从该校高三学生中获取容量为500的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别
身高
合计
低于
不低于
女
140
60
200
男
120
180
300
合计
260
240
500
附:,其中.
α
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.依据的独立性检验,小组成员甲可以认为该中学高三年级学生的性别与身高有关联
B.依据的独立性检验,小组成员甲不能认为该中学高三年级学生的性别与身高有关联
C.小组成员甲、乙计算出的值相同,依据的独立性检验,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,依据的独立性检验,他们得出的结论也不同
【答案】AD
【详解】由题设,零假设该中学高三年级学生的性别与身高没有关联,
对于成员甲有,
对于成员乙有,
依据的独立性检验,小组成员甲可认为该中学高三年级学生的性别与身高有关联;
依据的独立性检验,小组成员乙不能认为该中学高三年级学生的性别与身高有关联;
小组成员甲、乙计算出的值不同,他们得出的结论也不同.
故选:AD
变式7-1.“一带一路”是促进各国共同发展,实现共同繁荣的合作共嬴之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿元人民币/天),整理数据得下表:
进口贸易量
出口贸易量
32
18
4
6
8
12
3
7
10
(1)用频率估计概率,试估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿元人民币”的概率.
(2)根据所给数据,完成下面的列联表.
进口贸易量
出口贸易量
(3)依据的独立性检验,能否认为我国与该国贸易中一天的进口贸易量与出口贸易量有关?
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)
(2)列联表见解析
(3)有关
【详解】(1)解:由题表中的信息可知,
在这100天中,进口贸易量与出口贸易量均不超过100亿元人民币的天数为,
用频率估计概率,可得所求概率.
(2)列出列联表如下:
进口贸易量
出口贸易量
64
16
10
10
(3)零假设为:我国与该国贸易中一天的进口贸易量与出口贸易量无关.
由(2)得,
所以依据的独立性检验,推断不成立,即认为我国与该国贸易中一天的进口贸易量与出口贸易量有关
变式7-2.某社区对随机抽取的120名居民进行“安全卫生服务满意度”问卷调查,其中对社区“安全卫生服务”满意的男性居民占抽取调查人数的.
满意
不满意
合计
男性居民
60
女性居民
20
60
合计
120
(1)请根据调查结果将上面的列联表补充完整,依据小概率值的独立性检验分析居民对“安全卫生服务”的满意程度是否有差异;
(2)用分层随机抽样方法,从对社区“安全卫生服务”满意的居民中随机抽取9人,再从9人中随机抽取4人到其他社区交流学习,记这4人中女性居民的人数为,求的分布列与期望.
附:,其中.
0.100
0.050
0.025
2.706
3.841
5.024
【答案】(1)列联表见解析,有差异
(2)分布列见解析,
【详解】(1)因为对社区“安全卫生服务”满意的男性居民占抽取调查人数的,
所以对社区“安全卫生服务”满意的男性居民有(人),
所以列联表如下:
满意
不满意
合计
男性居民
50
10
60
女性居民
40
20
60
合计
90
30
120
零假设为:居民对“安全卫生服务”满意程度无差异.
根据题表中的数据可得,
根据小概率值的独立性检验,没有充分证据推断成立,
因此可以认为不成立,
即认为居民对“安全卫生服务”的满意程度有差异,此推断犯错误的概率不大于0.05.
(2)由(1)知对社区“安全卫生服务”满意的男性居民有50人,女性居民有40人,
用分层随机抽样的方法随机抽取9人,
则男性居民应抽取5人,女性居民应抽取4人,
再从9人中随机抽取4人到其他社区交流学习,记这4人中女性居民的人数为,
所以的所有可能取值为,
所以,,
,,
,
所以随机变量的分布列为
0
1
2
3
4
所以.
变式7-3.微生物生态学的研究表明,水生生物中存在大量的有益微生物,这些有益水生微生物对于维持水质平衡具有非常重要的作用.研究人员为了研究某种有益水生微生物在特定营养物质浓度下的增长速率与水体类型(淡水或咸水)的关系,对100个水体环境样本中的有益水生微生物在一段时间内的数量进行了观察,经统计得到如下的列联表:
水体环境类型
增长情况
合计
快速增长
未快速增长
淡水环境
25
咸水环境
10
合计
100
已知从这100个水体环境样本中随机抽取1个,该水体环境中的有益水生微生物属于“快速增长”的概率为.
(1)求;
(2)根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?
附:,
0.01
0.005
0.001
6.635
7.879
10.828
【答案】(1),;
(2)答案见解析.
【详解】(1)因为从这100个样本中随机抽取1个,该有益水生微生物属于“快速增长”的概率为,
则,解得,又,解得,
所以,.
(2)由(1)得,列联表如下:
水体环境类型
增长情况
合计
快速增长
未快速增长
淡水环境
30
25
55
咸水环境
10
35
45
合计
40
60
100
令零假设为:该有益水生微生物“快速增长”与水体环境类型无关,
由,根据小概率值的独立性检验,推断不成立,
即认为该有益水生微生物“快速增长”与水体环境类型有关,此推断犯错误的概率不超过0.01.
因为,根据小概率值的独立性检验,没有充分证据推断不成立,
即认为成立,即认为该有益水生微生物“快速增长”与水体环境类型无关.
考点八:独立性检验中的参数与最值问题
例8.第19届亚运会将于2023年9月23日至10月8日在杭州举行,某网络直播平台调研“大学生是否喜欢观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100人进行问卷调查,得到如下数据.
喜欢观看
不喜欢观看
男生
女生
通过计算,有95%以上的把握认为大学生喜欢观看直播体育比赛与性别有关,则在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为( )
附:,其中.
0.15
0.10
0.05
0.010
0.001
2.072
2.706
3.841
6.635
10.828
A.55 B.57 C.58 D.60
【答案】C
【详解】因为
,
所以,
又,所以,解得,
故在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为58.
故选:
变式8-1.通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数的最小整数为( )
A.150 B.170 C.240 D.180
【答案】D
【详解】解:设男、女大学生各有人,根据题意画出列联表如下:
看
不看
合计
男
女
合计
所以,
因为有的把握认为性别与对产品是否满意有关,所以,解得,所以总人数的最小整数为180.
故选:D.
变式8-2.某校乒乓球社团为了解喜欢乒乓球运动是否与性别有关,随机抽取了若干人进行调查.已知抽查的男生、女生人数均为,其中男生喜爱乒乓球运动的人数占男生人数的,女生喜爱乒乓球运动的人数占女生人数的.若本次调查得出“有的把握认为喜爱乒乓球运动与性别有关”的结论,则的最小值为( )
附:参考公式及数据:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.20 B.21 C.22 D.23
【答案】D
【详解】依题意,作出列联表:
男生
女生
合计
喜爱乒乓球运动
不喜爱乒乓球运动
合计
则,
因本次调查得出“有的把握认为喜爱乒乓球运动与性别有关”的结论,故得,
解得,因,故的最小值为23.
故选:D.
变式8-3.某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.若有的把握认为喜欢短视频和性别相关联,则的最小值为( )
附:.
临界值表:
0.050
0.010
3.841
6.635
A.18 B.20 C.22 D.24
【答案】B
【详解】根据题意,列联表如下:
喜欢
不喜欢
合计
男
女
合计
;
∵有的把握认为喜欢短视频和性别相关联,即,
,,又,
则的最小值为.
故选:B
一、单选题
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A. B.
C. D.
【答案】D
【详解】观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
故选:D.
2.某学校为了解校庆期间不同时段的校门人流量,从上午8点开始第一次反馈校门人流量,以后每过2小时反馈一次,共统计了前3次的数据,其中,2,3,为第i次人流量数据(单位:千人),由此得到y关于i的回归方程.已知,根据回归方程,可预测下午2点时校门人流量为( )千人.
参考数据:
A.9.6 B.10.8 C.12 D.13.2
【答案】B
【详解】令,则,
,又,
由,得,所以,
则,
下午2点时对应,可得.
故选:B.
3.某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【答案】D
【详解】由表格中数据,得,
则,解得,因此,
由两边取对数,得,又,
所以,即.
故选:D
4.为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下,可以认为“是否对主办方表示满意与运动员的性别有关”;③在犯错误的概率不超过的前提下,不可以认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
【答案】B
【详解】因为对主办方表示满意的男性运动员的人数为,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,
又因为,
所以在犯错误的概率不超过的前提下,不可以认为“是否对主办方表示满意与运动员的性别有关”;所以命题②错误,命题③正确.
故选:B.
5.为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
【答案】C
【详解】由题意被调查的文理科教师人数相同,设理科教师的人数为,由题意可列出列联表:
理科教师
文科教师
合计
喜欢用平板教学
不喜欢用平板教学
合计
.
由于有的把握认为是否喜欢用平板教学和文理学科有关,
所以,
解得,因为,
故的可能取值为:12,13,14,15,16,17,18,19,
即理科教师的人数可以是:12,13,14,15,16,17,18,19,且考虑到喜欢用平板的人数占理科教师总人数的,故人数为15人时,有实际意义.
故选:C
6.已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
【答案】D
【详解】,增加两个样本点后的平均数为;
,,增加两个样本点后的平均数为,
,解得:,新的经验回归方程为:,
则当时,,样本的残差为.
故选:D.
二、多选题
7.某社会机构统计了某市四所大学年毕业生人数及自主创业人数如下表:
A大学
B大学
C大学
D大学
毕业生人数(千人)
自主创业人数(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.与正相关 B.
C.当时,残差为 D.样本的相关系数为负数
【答案】ABC
【详解】对于A选项,因为回归直线的斜率为,所以,与正相关,A对;
对于B选项,由表格中的数据可得,,
所以,样本中心点为,
将样本中心点的坐标代入回归直线方程得,解得,B对;
对于C选项,当时,,
所以,当时,残差为,C对;
对于D选项,因为与正相关,所以,样本的相关系数为正数,D错.
故选:ABC.
8.为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
【答案】AD
【详解】由表可知,女生有21人,其中经常锻炼的有7人,频率为,
男生有19人,其中经常锻炼的有11人,频率为,
因为,依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响,故A正确,B错误;
,所以根据小概率值的独立性检验,
没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响,故D正确,C错误.
故选:AD
三、填空题
9.为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
0.05
0.025
3.841
5.024
根据表中数据,得到.则认为选修文科与性别有关系出错的可能性不大于 .
【答案】0.05
【详解】因为,这表明小概率事件发生.
根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,
并且这种判断出错的可能性不大于0.05.
故答案为:0.05.
10.某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
参考公式:,其中.
【答案】3
【详解】由题设,零假设社交电商用户与性别无关,
而,
则,
所以根据的独立性检验认为是不是社交电商用户与性别有关,则的最小值3.
故答案为:3
11.已知和之间的一组数据如下表,与线性相关,且回归方程为为的方差的1.2倍,则当时, .
0
1
2
3
5
【答案】/
【详解】由表格中的数据,可得,
所以这组数据的样本中心点是,
又样本中心点满足线性回归方程,
代入得,即,
又因为数据的方差,
因为等于数据的方差的倍,所以,所以,
所以,所以时,.
故答案为:.
四、解答题
12.某研究性学习小组为研究两个变量x和y之间的关系,测量了对应的五组数据如下表:
2
3
4
5
6
4
7
12
13
14
(1)求y关于x的经验回归方程;
(2)请估计时,对应的y值.
附:在经验回归方程中,,其中为样本平均值.
【答案】(1)
(2)
【详解】(1),
,
,所以回归方程为.
(2)时,.
13. 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
【答案】列联表见解析,有关
【详解】由题意分析可得,签约企业共45家,线上销售时间不少于8小时的企业有20家,
那么线上销售时间少于8小时的企业有25家,每天的销售额不足30万元的企业占,
共有.
完成列联表如下:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
3
20
线上销售时间不足8小时
10
15
25
合计
27
18
45
所以.
对应的参数为6.635.而,
所以可判断赞助企业每天的销售额与每天线上销售时间有关.
14.近年来,我国铁路事业取得历史性成就、发生历史性变革,路网规模质量大幅提升,建成世界最大的高速铁路网.截至2023年底,我国铁路营业里程达15.9万公里,其中高铁营业里程4.5万公里,继续稳居世界第一.如图,是我国2015-2023年高铁营业里程的发展情况(单位:万公里).
(1)由散点图看出,可用线性回归模型拟合高铁营业里程与年份代码的关系,请用相关系数加以说明(结果精确到0.001;当时,认为线性相关性较强;时,认为线性相关性一般;,认为线性相关性较弱);
(2)求关于的线性回归方程,并预测到哪一年我国高铁的营业里程将达到7万公里(结果精确到0.01).
附:参考公式:相关系数;
回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,,,.
【答案】(1)答案见解析
(2),预测到2030年我国高铁的营业里程将会达到7万公里
【详解】(1)由散点图数据得
,
,
又,,,
所以,
故与的线性相关性较强,所以可以用线性回归模型拟合与的关系.
(2)由(1)得,
则,
所以关于的线性回归方程为,
令,即,解得,
即时,高铁的营业里程将会达到7万公里,
所以预测到2030年我国高铁的营业里程将会达到7万公里.
15.统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
【答案】(1)亿人
(2),
【详解】(1)设,则,
因为,,,
所以,,
所以,与的拟合函数关系式为
当时,,
则估计年我国在线直播生活购物用户的规模为亿人.
(2)由题意知,所以,,
,
由,可得,
因为,解得,
所以,,.
(
3
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
$$
预习06 一元线性回归模型及独立性检验
模块一 思维导图串知识
模块二 基础知识全梳理
模块三 核心考点举一反三
模块四 小试牛刀过关测
1.通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系;
2.经历用不同估算方法描述两个变量线性相关的过程;
3.知道最小二乘法的思想,能根据给出的经验回归方程系数公式建立经验回归方程;
4.通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.
知识点一、相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
知识点二、回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
知识点三、独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
考点一:变量间的相关关系及判断
例1.某统计部门对四组数据进行统计分析后,获得如图所示的散点图.
下面关于样本相关系数的比较,正确的是( )
A. B.
C. D.
变式1-1.给出下列两组数据,用分别表示与与的线性相关系数,则下列说法正确的是( )
2
4
6
7
9
3
4
7
9
11
2
4
6
7
9
10
9
8
5
2
A. B. C. D.
变式1-2.已知气候温度和海水表层温度相关,且相关系数为负数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
变式1-3.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
考点二:求线性回归方程
例2.两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.
(1)求;
(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.
附:,,.
变式2-1.近日我国相关企业研究表明,随着锂离子电池充放电循环次数的增加,电池内阻增大,可用容量和能量衰减,削弱了电动汽车的续航里程.相关科研团队利用数学建模的方法构建理离子电池充放电循环次数单位:百次与锂离子电池性能指数的回归模型,通过实验得到部分数据如下表:
充放电循环次数x
3
4
5
6
电池性能指数y
91
88
82
79
由上表中的数据求得回归方程为,则计算可得( )(参考公式及数据:,)
A. B. C. D.
变式2-2.某地为响应“绿水青山”的号召,经过多年的环境治理,将荒山改造成了林区.为了解该林区某种树木的材积量与根部横截面面积之间的关系,随机选取了一定量的这种树木进行测量,得到每棵树的根部横截面面积x(单位:)和对应的平均材积量y(单位:)如下表所示,则y关于x的经验回归方程为 .
根部横截面面积
0.04
0.05
0.06
0.07
0.08
材积量
0.25
0.34
0.40
0.46
0.50
附:经验回归方程,其中.
变式2-3.下表提供了某厂进行技术改造后生产产品过程中记录的产能(单位:)与相应的生产能耗(单位:标准煤)的几组对应数据:
3
4
5
6
标准煤
3.5
4
5
5.5
(1)求关于的经验回归方程;
(2)已知该厂技术改造前产品的生产能耗为标准煤,试根据(1)中求出的经验回经验回归方程,预测该厂技术改造后产品的生产能耗比技术改造前降低了多少标准煤.
参考公式:
考点三:回归直线方程的性质及应用
例3.第19届亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如下表所示:( )
时间
1
2
3
4
5
销售量/万只
5
4.5
4
3.5
2.5
若与线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
变式3-1.生物兴趣小组在研究某种流感病毒的数量与环境温度之间的关系时,发现在一定温度范围内,病毒数量与环境温度近似存在线性相关关系,为了寻求它们之间的回归方程,兴趣小组通过实验得到了下列三组数据,计算得到的回归方程为:,但由于保存不妥,丢失了一个数据(表中用字母m代替),则( )
温度()
病毒数量(万个)
A. B. C. D.m的值暂时无法确定
变式3-2.在一次体育课上,有6位男同学掷沙包,他们身高分别为,,依次掷出了.如果他们掷出的距离与身高呈线性相关,根据以上数据可得身高与掷沙包的距离的回归方程为,其中,据此模型预测 .
变式3-3.为了研究某种菌在特定环境下随时变化的繁殖情况,得如下实验数据:
天数(天)
繁殖个数(个)
由以上信息,计算得回归直线方程为,则的值为 .
考点四:相关系数的计算及应用
例4.近年来,随着社会对教育越来越重视,家庭的平均教育支出呈现出逐年增长的趋势,下表反映了2018-2022年某市家庭平均教育支出占家庭总支出的比例(百分比)与年份编号之间的关系:
年份
2018
2019
2020
2021
2022
1
2
3
4
5
21
26
40
49
54
则与的样本相关系数 (保留3位小数).
附:,.
变式4-1.某企业不断扩大规模,提高经营收入.统计得到该企业2018-2022年产值(单位:亿元)与企业员工数(单位:千人)之间的数据如下:
年份
2018
2019
2020
2021
2022
千人
1
2
3
4
5
亿元
5
8
10
24
28
从表中数据可知与呈线性相关,根据这5年的数据计算与的相关系数 (保留三位小数).
附:.
变式4-2.广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
变式4-3.某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:.
参考数据:.
考点五:非线性回归模型及应用
例5.近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模稳定增长,有关部门整理了2017—2022年中国夜间经济的数据,把市场发展规模记为(单位:万亿元),并把2017—2022年对应的年份代码依次记为,经分析,判断可用函数模型拟合与的关系(为参数).令,计算得,,由最小二乘法得经验回归方程为,则的值为 .为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数 .
(参考公式:决定系数,参考数据:);
变式5-1.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得线性回归方程为,则该模型的非线性回归方程为 .
变式5-2.某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度()与灭死率的数据,得下表:
浓度()
灭死率
0.1
0.24
0.46
0.76
0.94
(1)以为解释变量,为响应变量,在和中选一个作为灭死率关于浓度()的经验回归方程,不用说明理由;
(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;
(ii)依据(i)中所求经验回归方程,要使灭死率不低于,估计该灭草剂的浓度至少要达到多少?
参考公式:对于一组数据,,,,其经验回归直线的斜率和截距的最小二乘法估计分别为,.
变式5-3.某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:
选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:
31.5
15
15
49.5
(1)求出与的回归方程;
(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.
考点六:列联表
例6.下面是列联表:
合计
21
73
22
25
47
合计
46
120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
变式6-1.某村庄对该村内50名村民每年是否体检的情况进行了调查,统计数据如下表所示:
每年体检(人)
每年未体检(人)
合计(人)
老年人
7
年轻人
6
合计
50
已知抽取的村民中老年人、年轻人各25名,则对列联表数据的分析错误的是( )
A. B. C. D.
变式6-2.下面是一个列联表,其中a、b处填的值分别为( )
总计
a
21
73
2
25
27
总计
b
46
100
A.52、54
B.54、52
C.94、146
D.146、94
变式6-3.下面是一个列联表:
总计
35
70
15
15
30
总计
50
100
其中、处填的值分别为 .
考点七:利用独立性检验思想解决实际问题
例7.(多选)为了研究某校高三年级学生的性别和身高是否低于的关联性,研究小组从该校高三学生中获取容量为500的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别
身高
合计
低于
不低于
女
140
60
200
男
120
180
300
合计
260
240
500
附:,其中.
α
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.依据的独立性检验,小组成员甲可以认为该中学高三年级学生的性别与身高有关联
B.依据的独立性检验,小组成员甲不能认为该中学高三年级学生的性别与身高有关联
C.小组成员甲、乙计算出的值相同,依据的独立性检验,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,依据的独立性检验,他们得出的结论也不同
变式7-1.“一带一路”是促进各国共同发展,实现共同繁荣的合作共嬴之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿元人民币/天),整理数据得下表:
进口贸易量
出口贸易量
32
18
4
6
8
12
3
7
10
(1)用频率估计概率,试估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿元人民币”的概率.
(2)根据所给数据,完成下面的列联表.
进口贸易量
出口贸易量
(3)依据的独立性检验,能否认为我国与该国贸易中一天的进口贸易量与出口贸易量有关?
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
变式7-2.某社区对随机抽取的120名居民进行“安全卫生服务满意度”问卷调查,其中对社区“安全卫生服务”满意的男性居民占抽取调查人数的.
满意
不满意
合计
男性居民
60
女性居民
20
60
合计
120
(1)请根据调查结果将上面的列联表补充完整,依据小概率值的独立性检验分析居民对“安全卫生服务”的满意程度是否有差异;
(2)用分层随机抽样方法,从对社区“安全卫生服务”满意的居民中随机抽取9人,再从9人中随机抽取4人到其他社区交流学习,记这4人中女性居民的人数为,求的分布列与期望.
附:,其中.
0.100
0.050
0.025
2.706
3.841
5.024
变式7-3.微生物生态学的研究表明,水生生物中存在大量的有益微生物,这些有益水生微生物对于维持水质平衡具有非常重要的作用.研究人员为了研究某种有益水生微生物在特定营养物质浓度下的增长速率与水体类型(淡水或咸水)的关系,对100个水体环境样本中的有益水生微生物在一段时间内的数量进行了观察,经统计得到如下的列联表:
水体环境类型
增长情况
合计
快速增长
未快速增长
淡水环境
25
咸水环境
10
合计
100
已知从这100个水体环境样本中随机抽取1个,该水体环境中的有益水生微生物属于“快速增长”的概率为.
(1)求;
(2)根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?根据小概率值的独立性检验,判断该有益水生微生物“快速增长”与水体环境类型是否有关?
附:,
0.01
0.005
0.001
6.635
7.879
10.828
考点八:独立性检验中的参数与最值问题
例8.第19届亚运会将于2023年9月23日至10月8日在杭州举行,某网络直播平台调研“大学生是否喜欢观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100人进行问卷调查,得到如下数据.
喜欢观看
不喜欢观看
男生
女生
通过计算,有95%以上的把握认为大学生喜欢观看直播体育比赛与性别有关,则在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为( )
附:,其中.
0.15
0.10
0.05
0.010
0.001
2.072
2.706
3.841
6.635
10.828
A.55 B.57 C.58 D.60
变式8-1.通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数的最小整数为( )
A.150 B.170 C.240 D.180
变式8-2.某校乒乓球社团为了解喜欢乒乓球运动是否与性别有关,随机抽取了若干人进行调查.已知抽查的男生、女生人数均为,其中男生喜爱乒乓球运动的人数占男生人数的,女生喜爱乒乓球运动的人数占女生人数的.若本次调查得出“有的把握认为喜爱乒乓球运动与性别有关”的结论,则的最小值为( )
附:参考公式及数据:.
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.20 B.21 C.22 D.23
变式8-3.某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.若有的把握认为喜欢短视频和性别相关联,则的最小值为( )
附:.
临界值表:
0.050
0.010
3.841
6.635
A.18 B.20 C.22 D.24
一、单选题
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A. B.
C. D.
2.某学校为了解校庆期间不同时段的校门人流量,从上午8点开始第一次反馈校门人流量,以后每过2小时反馈一次,共统计了前3次的数据,其中,2,3,为第i次人流量数据(单位:千人),由此得到y关于i的回归方程.已知,根据回归方程,可预测下午2点时校门人流量为( )千人.
参考数据:
A.9.6 B.10.8 C.12 D.13.2
3.某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
4.为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下,可以认为“是否对主办方表示满意与运动员的性别有关”;③在犯错误的概率不超过的前提下,不可以认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )
男性运动员(人)
女性运动员(人)
对主办方表示满意
200
220
对主办方表示不满意
50
30
注:
0.600
0.050
0.010
0.001
2.706
3.841
6.635
10.828
A.0 B.1 C.2 D.3
5.为了更好地开展多媒体化教学,杭州市某小学对“文理学科教师与喜欢用平板教学”是否有关做了一次研究调查,其中被调查的文科、理科教师人数相同,理科教师喜欢用平板教学的人数占理科教师总人数的80%,文科教师喜欢用平板教学的人数占文科教师总人数的40%,若有95%的把握认为是否喜欢用平板教学和文理学科有关,则调查人数中理科教师人数最少可能是( )
附:,其中.
0.05
0.010
3.841
6.635
A.8 B.12 C.15 D.20
6.已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.
二、多选题
7.某社会机构统计了某市四所大学年毕业生人数及自主创业人数如下表:
A大学
B大学
C大学
D大学
毕业生人数(千人)
自主创业人数(千人)
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.与正相关 B.
C.当时,残差为 D.样本的相关系数为负数
8.为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40 名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:
性别
锻炼情况
合计
不经常
经常
女生/人
14
7
21
男生/人
8
11
19
合计/人
22
18
40
临界值表如下:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
根据这些数据,给出下列四个结论中正确的是( )
A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响
B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响
C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05
D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响
三、填空题
9.为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
0.05
0.025
3.841
5.024
根据表中数据,得到.则认为选修文科与性别有关系出错的可能性不大于 .
10.某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
参考公式:,其中.
11.已知和之间的一组数据如下表,与线性相关,且回归方程为为的方差的1.2倍,则当时, .
0
1
2
3
5
四、解答题
12.某研究性学习小组为研究两个变量x和y之间的关系,测量了对应的五组数据如下表:
2
3
4
5
6
4
7
12
13
14
(1)求y关于x的经验回归方程;
(2)请估计时,对应的y值.
附:在经验回归方程中,,其中为样本平均值.
13. 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:
销售额不少于30万元
销售额不足30万元
合计
线上销售时间不少于8小时
17
20
线上销售时间不足8小时
合计
45
请完成上面的列联表,并依据的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关?
附:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
参考公式:,其中.
14.近年来,我国铁路事业取得历史性成就、发生历史性变革,路网规模质量大幅提升,建成世界最大的高速铁路网.截至2023年底,我国铁路营业里程达15.9万公里,其中高铁营业里程4.5万公里,继续稳居世界第一.如图,是我国2015-2023年高铁营业里程的发展情况(单位:万公里).
(1)由散点图看出,可用线性回归模型拟合高铁营业里程与年份代码的关系,请用相关系数加以说明(结果精确到0.001;当时,认为线性相关性较强;时,认为线性相关性一般;,认为线性相关性较弱);
(2)求关于的线性回归方程,并预测到哪一年我国高铁的营业里程将达到7万公里(结果精确到0.01).
附:参考公式:相关系数;
回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,,,.
15.统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
(
2
)原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
$$