内容正文:
第八章《成对数据的统计分析》章末复习提升与检测
(
知识体系
)
(
能力整合
)
一、线性回归分析
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图和经验选择经验回归方程的类型,然后通过一定的规则确定出相应的经验回归方程,通过一定的方法进行检验,最后应用于实际或对响应变量进行预测.
2.主要培养数学建模和数据分析的素养.
【例1】某村在推进乡村振兴的过程中,把做活乡村产业作为强村富民的重要抓手,因地制宜推进茶叶种植,成立了茶叶合作社.为了对茶叶在销售旺季进行合理定价,合作社进行了市场调研,得到了销售旺季时销量(吨)关于售价(元/公斤)的散点图.
(1)求关于的线性回归方程;
(2)该合作社2023年茶叶总产量为150吨,如果在销售旺季时售价为250元/公斤,在销售旺季没能售出的,年底以每公斤100元的价格卖给批发商,则该合作社2023年的总销售额为多少万元?
公式及参考数据:关于的线性回归方程为,其中,;,,,.
【解题技法】解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求,,然后写出经验回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的经验回归方程解决实际问题.
【跟踪训练】
如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
二、独立性检验
1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.
【例2】(2023•甲卷(文))一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:.试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
25.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
26.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
27.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
28.820.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数,再分别统计两样本中小于与不小于的数据的个数,完成如下列联表;
对照组
试验组
(ⅱ)根据中的列联表,能否有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【解题技法】独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)查表比较χ2与临界值的大小关系,作出统计判断.
【跟踪训练】
(2022•甲卷)甲、乙两城之间的长途客车均由和两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
240
20
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:.
0.100
0.050
0.010
2.706
3.841
6.635
三、数形结合思想在独立性检验中的应用
1.数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.
2.主要培养数学抽象和数学运算的素养.
【例3】某机构为了了解患色盲是否与性别有关,随机抽取了1 000名成年人进行调查,在调查的480名男性中有38名患色盲,520名女性中有6名患色盲,分别利用图形和独立性检验(α=0.001)的方法来判断患色盲与性别是否有关.
【解题技法】解独立性检验的应用问题的关注点
(1)两个明确:①明确两类主体;②明确研究的两个问题.
(2)两个准确:①准确画出2×2列联表;②准确理解χ2.
【跟踪训练】
某电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,依据小概率值α=0.05的独立性检验,能否据此认为“体育迷”与性别有关?
性别
“体育迷”情况
合计
非体育迷
体育迷
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).
附:χ2=,其中n=a+b+c+d.
α
0.05
0.01
xα
3.841
6.635
四、转化与化归思想在非线性回归分析中的应用
1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.
2.主要培养数学建模和数学运算的素养.
【例4】数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫()内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度(秒)与训练天数(天)有关,经统计得到如表的数据:
(天)
1
2
3
4
5
6
7
(秒)
990
990
450
320
300
240
210
(1)现用作为回归方程模型,请利用表中数据,求出该回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度约为多少秒?
参考数据(其中)
1845
0.37
0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
【解题技法】 非线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.
【跟踪训练】
中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用的水泡制,再等到茶水温度降至时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是).
泡制时间
0
1
2
3
4
水温
85
79
74
71
65
4.2
4.1
4.0
3.9
3.8
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即)就不能再降的事实,决定选择函数模型来刻画.
①令,求出关于的线性回归方程;
②利用①的结论,求出中的与.
(2)你认为该品种绿茶用的水大约泡制多久后饮用,可以产生最佳口感?
参考数据:.参考公式:.
(
章末检测
)
(时间:120分钟,满分:150分)
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.为调查中学生近视情况,随机抽取某校男生150名,女生140名,其中,男生中有80名近视,女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时,最有说服力的方法是( )
A.均值与方差 B.排列与组合
C.概率 D.独立性检验
2.观察下列散点图,则①正相关,②负相关,③不相关,图中的甲、乙、丙三个散点图按顺序相对应的是( ).
A.①②③ B.②①③ C.①③② D.③①②
3.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
D.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
4.独立性检验中,假设:变量与变量没有关系,则在上述假设成立的情况下,估算概率,表示的意义是
A.变量与变量有关系的概率为
B.变量与变量没有关系的概率为
C.变量与变量没有关系的概率为
D.变量与变量有关系的概率为
5.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查发现,y与x具有相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )
A.83% B.72% C.67% D.66%
6.某科研机构为了研究中年人秃头是否与患有心脏病有关,随机调查了一些中年人的情况,具体数据如下表所示:
有心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得,由断定秃发与患有心脏病有关,那么这种判断出错的可能性为
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.0.1 B.0.05
C.0.01 D.0.001
7.相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则( )
A. B.
C. D.
8.用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.70 D.35
二、多项选择题(本大题共3小题,每小题6分,共18分.在每小题给出的四个选项中,有多个选项是符合题目要求的,全部选对的得6分,选对但不全的得3分,有选错的得0分)
9.下列说法正确的是( )
A.在两个变量与的列联表中,当越大,两个变量有关联的可能性越大
B.若所有样本点都在经验回归方程上,则变量间的相关系数是
C.决定系数越接近1,拟合效果越好
D.独立性检验一定能给出明确的结论
10.已知在最小二乘法原理下,具有相关关系的变量x,y之间的线性回归方程为,且变量之间的相关数据如表所示,则下列说法错误的是( )
x
6
8
10
12
y
6
m
3
2
A.变量之间呈正相关关系
B.可以预测,当时,
C.可求得表中
D.由表格数据知,该回归直线必过点
11.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每名学生对食堂的服务给出满意或不满意的评价,得到如下列联表.经计算,则可以推断出( ).
满意
不满意
男
30
20
女
40
10
A.该学校男生对食堂服务满意的概率的估计值为
B.该学校男生比女生对食堂服务更满意
C.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
D.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
三、填空题(本大题共3小题,每小题5分,共15分.把答案填在题中横线上)
12.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得经验回归方程=0.67x+54.9.
零件数x/个
10
20
30
40
50
加工时间y/min
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
13.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,经验回归方程为=10.47-1.3x,估计该台机器使用________年最合算.
14.某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:
单位:人
性别
休闲方式
读书
健身
合计
女
24
31
55
男
8
26
34
合计
32
57
89
在犯错误的概率不超过________的前提下认为性别与休闲方式有关系.
四、解答题(本大题共5小题,共77分.解答时应写出必要的文字说明、证明过程或演算步骤)
15.(本小题满分13分)冶炼某种金属可以用旧设备或新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示.
设备
所含杂质
杂质高
杂质低
旧设备
37
121
新设备
22
202
根据表中数据试判断含杂质的高低与设备新旧有无关系.
16.(本小题满分15分)在改革开放40年成就展上某地区某农产品近几年的产量统计表:
年份
2014
2015
2016
2017
2018
2019
年份代码
1
2
3
4
5
6
年产量(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立关于的线性回归方程.
(2)根据线性回归方程预测2020年该地区该农产品的年产量.
17.(本小题满分15分)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
单位:人
性别
是否为体育迷
合计
非体育迷
体育迷
男
女
合计
(1)根据已知条件完成2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
(2)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
附:参考公式:χ2=,n=a+b+c+d.
α
0.05
0.01
xα
3.841
6.635
18.(本小题满分17分)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日
2日
3日
4日
5日
外卖甲日接单(百单)
5
2
9
8
11
外卖乙日接单(百单)
2
3
10
5
15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系.
①请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
②经计算求得与之间的回归直线方程为,假定每单外卖业务企业平均能获纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围.(值精确到0.01)
参考数据:,.
19.(本小题满分17分)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫()内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:
x(天)
1
2
3
4
5
6
7
y(秒)
990
990
450
320
300
240
210
现用作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,每天解题的平均速度y约为多少秒?
(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为,已知在前3局中小明胜2局,小红胜1局.若每局不存在平局,请你估计小明最终赢得比赛的概率.
参考数据(其中):
1845
0.37
0.555
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
学科网(北京)股份有限公司
$$
第八章《成对数据的统计分析》章末复习提升与检测
(
知识体系
)
(
能力整合
)
一、线性回归分析
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图和经验选择经验回归方程的类型,然后通过一定的规则确定出相应的经验回归方程,通过一定的方法进行检验,最后应用于实际或对响应变量进行预测.
2.主要培养数学建模和数据分析的素养.
【例1】某村在推进乡村振兴的过程中,把做活乡村产业作为强村富民的重要抓手,因地制宜推进茶叶种植,成立了茶叶合作社.为了对茶叶在销售旺季进行合理定价,合作社进行了市场调研,得到了销售旺季时销量(吨)关于售价(元/公斤)的散点图.
(1)求关于的线性回归方程;
(2)该合作社2023年茶叶总产量为150吨,如果在销售旺季时售价为250元/公斤,在销售旺季没能售出的,年底以每公斤100元的价格卖给批发商,则该合作社2023年的总销售额为多少万元?
公式及参考数据:关于的线性回归方程为,其中,;,,,.
【解】(1)由已知,
,
所以关于的线性回归方程为;
(2)由(1)得当时,,
即旺季时的销量约为吨,剩下的约为吨,
所以该合作社2023年的总销售额(元),
即该合作社2023年的总销售额为万元.
【解题技法】解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求,,然后写出经验回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的经验回归方程解决实际问题.
【跟踪训练】
如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.
注:年份代码1-7分别对应年份2016-2022.
求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.
参考数据:,,,
参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.
【解】,,
,
得,
又,,
y关于t的回归方程为.
,将2024对应的代入回归方程得:,
预测2024年该地区生活垃圾无害化处理量将约万吨.
二、独立性检验
1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.
【例2】(2023•甲卷(文))一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:.试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
25.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
26.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
27.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
28.820.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数,再分别统计两样本中小于与不小于的数据的个数,完成如下列联表;
对照组
试验组
(ⅱ)根据中的列联表,能否有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【解析】(1)根据题意,计算试验组样本平均数为
.
(2)由题意知,这40只小鼠体重的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,
因为原数据的第11位数据是18.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6,,
所以第20位为23.2,第21位数据为23.6,
所以这组数据的中位数是;
填写列联表如下:
合计
对照组
6
14
20
试验组
14
6
20
合计
20
20
40
根据列联表中数据,计算,
所以有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
【解题技法】独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)查表比较χ2与临界值的大小关系,作出统计判断.
【跟踪训练】
(2022•甲卷)甲、乙两城之间的长途客车均由和两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
240
20
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:.
0.100
0.050
0.010
2.706
3.841
6.635
【解析】(1)公司一共调查了260辆车,其中有240辆准点,故公司准点的概率为;
公司一共调查了240辆车,其中有210辆准点,故公司准点的概率为;
(2)由题设数据可知,准点班次数共450辆,未准点班次数共50辆,公司共260辆,公司共240辆,
,
有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
三、数形结合思想在独立性检验中的应用
1.数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.
2.主要培养数学抽象和数学运算的素养.
【例3】某机构为了了解患色盲是否与性别有关,随机抽取了1 000名成年人进行调查,在调查的480名男性中有38名患色盲,520名女性中有6名患色盲,分别利用图形和独立性检验(α=0.001)的方法来判断患色盲与性别是否有关.
【解】根据题目所给的数据作出如下的列联表:
性别
色盲
合计
患色盲
未患色盲
男
38
442
480
女
6
514
520
合计
44
956
1 000
根据列联表作出相应的等高堆积条形图,如图所示.
图中两个深色条的高分别表示男性和女性中患色盲的频率,从图中可以看出,男性中患色盲的频率明显高于女性中患色盲的频率,因此我们可认为患色盲与性别有关.
零假设为H0:患色盲与性别无关.
根据列联表中所给的数据,得
χ2=
≈27.139>10.828=x0.001,
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为患色盲与性别有关,此推断犯错误的概率不超过0.001.
【解题技法】解独立性检验的应用问题的关注点
(1)两个明确:①明确两类主体;②明确研究的两个问题.
(2)两个准确:①准确画出2×2列联表;②准确理解χ2.
【跟踪训练】
某电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,依据小概率值α=0.05的独立性检验,能否据此认为“体育迷”与性别有关?
性别
“体育迷”情况
合计
非体育迷
体育迷
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).
附:χ2=,其中n=a+b+c+d.
α
0.05
0.01
xα
3.841
6.635
【解】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
性别
“体育迷”情况
合计
非体育迷
体育迷
男
30
15
45
女
45
10
55
合计
75
25
100
零假设为H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,得
χ2==
≈3.030<3.841=x0.05,
根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,即认为“体育迷”与性别无关.
(2)由频率分布直方图,知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知X~B,从而X的分布列为
X
0
1
2
3
P
E(X)=3×=,D(X)=3××=.
四、转化与化归思想在非线性回归分析中的应用
1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.
2.主要培养数学建模和数学运算的素养.
【例4】数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫()内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度(秒)与训练天数(天)有关,经统计得到如表的数据:
(天)
1
2
3
4
5
6
7
(秒)
990
990
450
320
300
240
210
(1)现用作为回归方程模型,请利用表中数据,求出该回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度约为多少秒?
参考数据(其中)
1845
0.37
0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
【解析】(1)由题意,
令,设关于的线性回归方程为,
则有,
则,
所以,
又,所以关于的回归方程为;
(2)当时,,
所以经过100天训练后,小明每天解题的平均速度约为140秒.
【解题技法】 非线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.
【跟踪训练】
中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用的水泡制,再等到茶水温度降至时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是).
泡制时间
0
1
2
3
4
水温
85
79
74
71
65
4.2
4.1
4.0
3.9
3.8
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即)就不能再降的事实,决定选择函数模型来刻画.
①令,求出关于的线性回归方程;
②利用①的结论,求出中的与.
(2)你认为该品种绿茶用的水大约泡制多久后饮用,可以产生最佳口感?
参考数据:.参考公式:.
【解析】(1)①由已知得出与的关系,如下表:
泡制时间
0
1
2
3
4
4.2
4.1
4.0
3.9
3.8
设线性回归方程,
由题意,得,
,
,
,
则,
,
则关于的线性回归方程为;
②由,得,
两边取对数得,,
利用①的结论得:,
,;
(3)由(1)得,,
令,得.
∴该品种绿茶用的水泡制后饮用,口感最佳.
(
章末检测
)
(时间:120分钟,满分:150分)
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.为调查中学生近视情况,随机抽取某校男生150名,女生140名,其中,男生中有80名近视,女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时,最有说服力的方法是( )
A.均值与方差 B.排列与组合
C.概率 D.独立性检验
【答案】D
【解析】检验两个变量是否相关时,应选择独立性检验,故选D.
2.观察下列散点图,则①正相关,②负相关,③不相关,图中的甲、乙、丙三个散点图按顺序相对应的是( ).
A.①②③ B.②①③ C.①③② D.③①②
【答案】C
【解析】对于图①,显然是正的线性相关,对于图②,不相关,对于图③,负的线性相关,故选C.
3.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
D.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
【答案】B
【解析】由线性相关系数知与负相关,
由线性相关系数知与正相关,
又,所以变量与变量的线性相关性比变量与变量的线性相关性更强,故选B.
4.独立性检验中,假设:变量与变量没有关系,则在上述假设成立的情况下,估算概率,表示的意义是
A.变量与变量有关系的概率为
B.变量与变量没有关系的概率为
C.变量与变量没有关系的概率为
D.变量与变量有关系的概率为
【答案】D
【解析】若估算概率,则犯错概率不超过0.01,即变量与变量有关系的概率为,故选D.
5.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查发现,y与x具有相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )
A.83% B.72% C.67% D.66%
【答案】A
【解析】当居民人均消费水平为7.675时,
则7.675=0.66x+1.562,即职工人均工资水平x≈9.262,
∴人均消费额占人均工资收入的百分比为,故选A.
6.某科研机构为了研究中年人秃头是否与患有心脏病有关,随机调查了一些中年人的情况,具体数据如下表所示:
有心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得,由断定秃发与患有心脏病有关,那么这种判断出错的可能性为
附表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.0.1 B.0.05
C.0.01 D.0.001
【答案】D
【解析】由题意,,根据附表可得判断秃发与患有心脏病有关出错的可能性为.故选D.
7.相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则( )
A. B.
C. D.
【答案】D
【解析】由散点图得负相关,所以,因为剔除点后,剩下点数据更线性相关性更强,则更接近,所以,故选D.
8.用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.70 D.35
【答案】B
【解析】因为,
所以,则,
即,
即,所以,故选B.
二、多项选择题(本大题共3小题,每小题6分,共18分.在每小题给出的四个选项中,有多个选项是符合题目要求的,全部选对的得6分,选对但不全的得3分,有选错的得0分)
9.下列说法正确的是( )
A.在两个变量与的列联表中,当越大,两个变量有关联的可能性越大
B.若所有样本点都在经验回归方程上,则变量间的相关系数是
C.决定系数越接近1,拟合效果越好
D.独立性检验一定能给出明确的结论
【答案】AC
【解析】A选项:根据独立性检验的公式可知,当越大,两个变量有关的可能性越大,故A正确;
B选项:相关系数,故B错误;
C选项:决定系数越接近1,拟合效果越好,故C正确;
D选项:独立性检验与样本的选取有关,不一定正确,故D项错误.
故选:AC
10.已知在最小二乘法原理下,具有相关关系的变量x,y之间的线性回归方程为,且变量之间的相关数据如表所示,则下列说法错误的是( )
x
6
8
10
12
y
6
m
3
2
A.变量之间呈正相关关系
B.可以预测,当时,
C.可求得表中
D.由表格数据知,该回归直线必过点
【答案】ABC
【解析】对于A,由x与y的线性回归方程可知,回归系数为,且,
∴变量之间呈负相关关系,故A错误;
对于B,当时,,故B错误;
对于C,由表中数据可知,,由点必在回归直线上,得,解得m=5,故C错误;
对于D,∵,∴,∴回归直线必过点(9,4),故D正确.
故选:ABC.
11.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每名学生对食堂的服务给出满意或不满意的评价,得到如下列联表.经计算,则可以推断出( ).
满意
不满意
男
30
20
女
40
10
A.该学校男生对食堂服务满意的概率的估计值为
B.该学校男生比女生对食堂服务更满意
C.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
D.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
【答案】AC
【解析】该学校男生对食堂服务满意的概率的估计值为,故A正确;
该学校女生对食堂服务满意的概率的估计值为,故B错误;
因为,
所以依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异,故C正确,D错误,故选AC.
三、填空题(本大题共3小题,每小题5分,共15分.把答案填在题中横线上)
12.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得经验回归方程=0.67x+54.9.
零件数x/个
10
20
30
40
50
加工时间y/min
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
【答案】68
【解析】由表格知=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a.
则a+62+75+81+89=75×5,所以a=68.
13.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,经验回归方程为=10.47-1.3x,估计该台机器使用________年最合算.
【答案】8
【解析】只要预计利润不为负数,使用该机器就算合算,即≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
14.某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:
单位:人
性别
休闲方式
读书
健身
合计
女
24
31
55
男
8
26
34
合计
32
57
89
在犯错误的概率不超过________的前提下认为性别与休闲方式有关系.
【答案】0.1
【解析】由列联表中的数据,得
χ2=≈3.689>2.706,
因此,在犯错误的概率不超过0.1的前提下认为性别与休闲方式有关系.
四、解答题(本大题共5小题,共77分.解答时应写出必要的文字说明、证明过程或演算步骤)
15.(本小题满分13分)冶炼某种金属可以用旧设备或新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示.
设备
所含杂质
杂质高
杂质低
旧设备
37
121
新设备
22
202
根据表中数据试判断含杂质的高低与设备新旧有无关系.
【解析】由已知数据得到如下2×2列联表:
设备
所含杂质
合计
杂质高
杂质低
旧设备
37
121
158
新设备
22
202
224
合计
59
323
382
χ2=≈13.11>10.828=x0.001,根据小概率值α=0.001的独立性检验,故有99.9%的把握认为含杂质的高低与设备新旧是有关的.
16.(本小题满分15分)在改革开放40年成就展上某地区某农产品近几年的产量统计表:
年份
2014
2015
2016
2017
2018
2019
年份代码
1
2
3
4
5
6
年产量(万吨)
6.6
6.7
7
7.1
7.2
7.4
(1)根据表中数据,建立关于的线性回归方程.
(2)根据线性回归方程预测2020年该地区该农产品的年产量.
【解析】(1)由题意可知:
,
,
,
所以,
又,
故关于的线性回归方程为.
(2)由(1)可得,当年份为2020年时,年份代码为,此时.
所以可预测2020年该地区该农产品的年产量约为7.56万吨.
17.(本小题满分15分)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
单位:人
性别
是否为体育迷
合计
非体育迷
体育迷
男
女
合计
(1)根据已知条件完成2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
(2)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
附:参考公式:χ2=,n=a+b+c+d.
α
0.05
0.01
xα
3.841
6.635
【解析】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,
从而2×2列联表如下:
单位:人
性别
是否为体育迷
合计
非体育迷
体育迷
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,
得χ2==≈3.030<3.841=x0.05,根据小概率值α=0.05的独立性检验,没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图可知,“超级体育迷”为5人,
从而一切可能结果所组成的样本空间为:
Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中ai表示男性,i=1,2,3,bj表示女性,j=1,2.
Ω包含10个样本点,而且这些样本的出现是等可能的,
设A=“任选2人中,至少有1人是女性”,
则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.
事件A包含7个样本点,因而P(A)=.
18.(本小题满分17分)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日
2日
3日
4日
5日
外卖甲日接单(百单)
5
2
9
8
11
外卖乙日接单(百单)
2
3
10
5
15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系.
①请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
②经计算求得与之间的回归直线方程为,假定每单外卖业务企业平均能获纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围.(值精确到0.01)
参考数据:,.
【解析】(1)由表格中的数据,可得,,
外卖甲的日接单量的方差,
外卖乙的日接单量的方差,
因为,即外卖甲平均日接单量与外卖乙平均日接单量相同,但外卖甲日接单量更集中一些,所以外卖甲比外卖乙经营状况更好.
(2)①因为
又,,
所以代入计算可得,相关系数,
所以可认为与之间有较强的线性相关关系.
②令,可得,解得,
又,
所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6006元.
19.(本小题满分17分)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫()内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:
x(天)
1
2
3
4
5
6
7
y(秒)
990
990
450
320
300
240
210
现用作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,每天解题的平均速度y约为多少秒?
(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为,已知在前3局中小明胜2局,小红胜1局.若每局不存在平局,请你估计小明最终赢得比赛的概率.
参考数据(其中):
1845
0.37
0.555
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
【解析】 (1)由题意,,
令,设y关于t的线性回归方程为,
则,
则.
∴,又,
∴y关于x的回归方程为,
故时,.
∴经过50天训练后,每天解题的平均速度y约为150秒.
(2)设比赛再继续进行X局小明最终赢得比赛,则最后一局一定是小明获胜,
由题意知,最多再进行4局就有胜负.
当时,小明4:1胜,∴;
当时,小明4:2胜,∴;
当时,小明4:3胜,∴.
∴小明最终赢得比赛的概率为.
学科网(北京)股份有限公司
$$