内容正文:
专题08 成对数据的统计分析(考点清单,知识导图+4大考点清单&题型解读)
一、变量间的相关关系
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
二、相关系数
两组数据和的线性相关系数是度量两个变量与之间线性相关程度的统计量,其计算公式为其中,,,它们分别是这两组数据的算术平均数。
三、相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
四、一元线性回归模型参数的最小二乘法
(1)经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
四、分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
五、独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
一.变量间的相关关系(共2小题)
1.(2023•奉贤区校级三模)已知两组数据,,,和,,,,其中且时,;且时,,,我们研究这两组数据的相关性,在集合,11,12,中取一个元素作为的值,使得相关性最强,则
A.8 B.11 C.12 D.13
2.(2023秋•黄浦区校级月考)鸢是鹰科的一种鸟,《诗经大雅旱麓》曰“鸢飞戾天,鱼跃于渊”.鸢尾花因花瓣形如鸢尾而得名(图,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:,绘制对应散点图(图如下:
计算得样本相关系数为0.8642,利用最小二乘法求得相应的经验回归方程为.根据以上信息,如下判断正确的为
A.花萼长度和花瓣长度不存在相关关系
B.花萼长度和花瓣长度负相关
C.花萼长度为的该品种鸢尾花的花瓣长度的平均值约为
D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为0.8642
二.相关系数(共7小题)
3.(2024•浦东新区校级模拟)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是
A. B.
C. D.
4.(2022春•浦东新区校级期末)要判断成对数据的线性相关程度的强弱,可以通过比较它们的样本相关系数的大小,以下是四组数据的相关系数的值,则线性相关最强的是
A. B. C. D.
5.(2023春•浦东新区校级期末)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
年份
1
2
3
4
5
羊只数量万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
若利用这五组数据得到的两变量间的相关系数为,去掉第一年数据后得到的相关系数为,则 (填,,,,.
6.(2023春•金山区校级期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
7.(2023•浦东新区校级三模)在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是
A.样本数据由正相关变成负相关
B.样本的相关系数不变
C.样本的相关性变弱
D.样本的相关系数变大
8.(2023春•杨浦区校级期中)在实验“利用单摆周期估计重力加速度”中,我们依据的理论是单摆的周期公式,其中为单摆周期,为重力加速度,为单摆的摆长.改变单摆的摆长,并多次记录数据.若对以下各组数据做相关分析,相关系数最大的一组是
A.与 B.与 C.与 D.与
9.(2023春•奉贤区校级期中)已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数 .
6
8
10
12
6
5
3
2
三.线性回归方程(共12小题)
10.(2023春•徐汇区校级期末)给出下列有关线性回归分析的四个命题,其中为真命题的是
A.线性回归直线未必过样本数据点的中心
B.回归直线就是散点图中经过数据点最多的那条直线
C.当相关系数时,两个变量正相关
D.如果两个变量的相关性越强,则相关系数就越接近于1
11.(2023•杨浦区二模)对成对数据,、,、、,用最小二乘法求回归方程是为了使
A. B.
C.最小 D.最小
12.(2023春•浦东新区校级期末)用最小二乘法求回归方程是为了使
A. B.
C.最小 D.最小
13.(2023春•宝山区校级期中)已知,的对应值如下表所示:
0
2
4
6
8
1
13
若与线性相关,且回归直线方程为,则 .
14.(2023•徐汇区校级三模)受新冠肺炎的影响,部分企业转型生产口罩,如表为某小型工厂月份生产的口罩数(单位:万)
2
3
4
5
2.2
3.8
5.5
若与线性相关,且回归直线方程为,则表格中实数的值为 .
15.(2023春•松江区校级期末)某产品的广告费用与销售额的统计数据如表
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
根据上表可得回归方程中的为10,据此模型预报广告费用为6万元时销售额为 万元.
16.(2024春•杨浦区校级期中)“守得住经典,当得了网红”,这是时下人们对国货最高的评价,网络平台的发展让越来越多的消费者熟悉了国货品牌的优势,使得各大国货品牌都受到高度关注,销售额迅速增长,已知某国货品牌2023年月在网络平台的月销售额(单位:百万元)与月份具有线性相关关系,并根据这5个月的月销售额,求得回归方程为,则该国货品牌2023年月在网络平台的总销售额为 百万元.
17.(2024春•宝山区校级期中)2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
区
区
区
区
区
外来务工人员数
5000
4000
3500
3000
2500
留在当地的人数占比
根据这5个地区的数据求得留在当地过年人员数与外来务工人员数的线性回归方程为.该市对外来务工人员选择留在当地过年的每人补贴2000元,该市区有10000名外来务工人员,根据线性回归方程估计区需要给外来务工人员中留在当地过年的人员的补贴总额为 万元(参考数据:取.
18.(2023春•金山区校级期末)2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
区
区
区
区
区
外来务工人员数
5000
4000
3500
3000
2500
留在当地的人数占比
根据这5个地区的数据求得留在当地过年人员数与外来务工人员数的线性回归方程为.该市对外来务工人员选择留在当地过年的每人补贴0.2万元,该市区有10000名外来务工人员,根据线性回归方程估计区需要给外来务工人员中留在当地过年的人员的补贴总额为 万元(参考数据:取
19.(2023•普陀区二模)“民生”供电公司为了分析“康居”小区的用电量(单位与气温(单位:之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系见下表:
气温
18
13
10
用电量
24
34
38
64
若上表中的数据可用回归方程来预测,则当气温为时该小区相应的用电量约为 .
20.(2023春•金山区校级期末)一场始于烟火,归于真诚的邂逅,让无数人赴山赶海“进淄赶烤”,淄博某烧烤店趁机推出150元烧烤套餐.某同学调研发现,烧烤店成本(单位:千元,包含人工成本、原料成本、场地成本、设备损耗等各类成本)与每天卖出套餐数(单位:份)的关系如下:
1
3
4
6
7
5
6.5
7
7.5
8
与可用回归方程(其中为常数)进行模拟.
参考数据与公式:设,则:
0.54
6.8
1.53
0.45
线性回归直线中,.
(1)试预测该烧烤店一天卖出100份的利润是多少元?(利润售价成本,结果精确到1元)
(2)据统计,由于烧烤的火爆,饮料需求也激增.4月份的连续16天中某品牌饮料每天为淄博配送的箱数的频率分布直方图如图,用这16天的情况来估计相应的概率.供货商拟购置辆小货车专门运输该品牌饮料,一辆货车每天只能运营一趟,每辆车每趟最多只能装载40箱该饮料,满载发车,否则不发车.若发车,则每辆车每趟可获利500元;若不发车,则每辆车每天平均亏损200元.若或4,请从每天的利润期望角度给出你的建议.
21.(2023春•浦东新区校级期末)某收费(手机应用程序)自上架以来,凭借简洁的界面设计、方便的操作方式和强大的实用功能深得用户的喜爱.该所在的公司统计了用户一个月月租减免的费用(单位:元)及该月对应的用户数量(单位:万人),得到如下数据表格:
用户一个月月租减免的费用(元
3
4
5
6
7
用户数量(万人)
1
1.1
1.5
1.9
2.2
已知与线性相关.
(1)求关于的线性回归方程;
(2)据此预测,当月租减免费用为10元时,该月用户数量为多少?
参考公式:对于一组具有线性相关关系的数据,,2,,,其回归直线的斜率和截距的最小二乘估计公式分别为,
四.独立性检验(共8小题)
22.(2024春•徐汇区校级期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是 附:
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
23.(2024春•杨浦区校级期中)在一个列联表中,通过数据计算,则有 的把握认为这两个分类变量有关.
参考表格:
0.05
0.025
0.010
0.001
3.841
5.024
6.635
10.828
24.(2023春•徐汇区校级期中)某校举行了一次数学竞赛,为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的分数作为样本(样本容量为进行统计,按照,,,,,,,,,的分组作出如图所示的频率分布直方图,已知得分在,,,的频数分别为16,4.
(1)求样本容量和频率分布直方图中的,的值;
(2)在选取的样本中,若男生和女生人数相同,我们规定在70分以上称为“优秀”,70分以下称为“不优秀”,其中男、女生中成绩优秀的分别有24人和30人,请完成列联表,并判断是否有的把握认为“学生的成绩优秀与性别有关”?
男生
女生
总计
优秀
不优秀
总计
附:,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
25.(2022春•浦东新区校级期末)一医疗队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
45
55
对照组
12
88
问:能否有的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
0.05
0.01
3.841
6.635
26.(2022春•青浦区校级期末)为了解学生每天的运动情况,随机抽取了100名学生进行调查,下图是根据调查结果绘制的学生每天运动时间的频率分布直方图,并将每天运动时间不低于40分钟的学生称为“运动达人”.
(1)根据题意完成下面的列联表;
(2)能否有的把握认为“运动达人”与性别有关?
非运动达人
运动达人
合计
男
女
10
55
合计
100
独立性检验临界值表:
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
27.(2023•嘉定区二模)李先生是一名上班族,为了比较上下班的通勤时间,记录了20天个工作日内,家里到单位的上班时间以及同路线返程的下班时间(单位:分钟),如下茎叶图显示两类时间的共40个记录:
(1)求出这40个通勤记录的中位数,并完成下列列联表:
超过
不超过
上班时间
下班时间
(2)根据列联表中的数据,请问上下班的通勤时间是否有显著差异?并说明理由.
附:,
28.(2022•青羊区校级模拟)第24届冬季奥运会将于2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为,统计得到以下列联表,经过计算可得.
男生
女生
合计
了解
不了解
合计
(1)求的值,并判断有多大的把握认为该校学生对冬季奥运会项目的了解情况与性别有关;
(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不理解冬季奥运会项目的学生中随机抽取9人,再从这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率;
附表:
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:.
29.(2022春•金山区校级期末)2021年9月,教育部印发《关于全面加强和改进新时代学校卫生与健康教育工作的意见》中指出:中小学生各项身体素质有所改善,大学生整体下降.某高校为提高学生身体素质,号召全校学生参加体育锻炼,结合“微信运动” 每日统计运动情况,对每日平均运动10000步或以上的学生授予“运动达人”称号,低于10000步称为“参与者”,统计了200名学生在某月的运动数据,结果如下:
运动达人
参与者
合计
男生
70
女生
80
合计
80
200
(1)完善列联表并说明:是否有的把握认为获得“运动达人”称号与性别有关?
(2)从全校运动“运动达人”中按性别分层抽取8人,再从8人中选取4人参加特训,将男生人数记为,求的分布列.
参考公式:.
2.072
2.706
3.841
6.635
7.879
10.828
0.15
0.10
0.05
0.010
0.005
0.001
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司1
学科网(北京)股份有限公司
$$
专题08 成对数据的统计分析(考点清单,知识导图+4大考点清单&题型解读)
一、变量间的相关关系
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
二、相关系数
两组数据和的线性相关系数是度量两个变量与之间线性相关程度的统计量,其计算公式为其中,,,它们分别是这两组数据的算术平均数。
三、相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
四、一元线性回归模型参数的最小二乘法
(1)经验回归方程的求解法:最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
四、分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
五、独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
一.变量间的相关关系(共2小题)
1.(2023•奉贤区校级三模)已知两组数据,,,和,,,,其中且时,;且时,,,我们研究这两组数据的相关性,在集合,11,12,中取一个元素作为的值,使得相关性最强,则
A.8 B.11 C.12 D.13
【分析】根据相关性与线性回归方程的关系得到答案.
【解答】解:由题意前9个点位于直线上,而,要使相关性最强,就要最接近10,四个选项中11最接近10.
故选:.
【点评】本题考查了两组数据的相关性强弱的判断,属于基础题.
2.(2023秋•黄浦区校级月考)鸢是鹰科的一种鸟,《诗经大雅旱麓》曰“鸢飞戾天,鱼跃于渊”.鸢尾花因花瓣形如鸢尾而得名(图,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:,绘制对应散点图(图如下:
计算得样本相关系数为0.8642,利用最小二乘法求得相应的经验回归方程为.根据以上信息,如下判断正确的为
A.花萼长度和花瓣长度不存在相关关系
B.花萼长度和花瓣长度负相关
C.花萼长度为的该品种鸢尾花的花瓣长度的平均值约为
D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为0.8642
【分析】根据散点图及线性相关的知识,即可求解.
【解答】解:相关系数,且散点图呈左下角到右上角的带状分布,
花瓣长度和花萼长度呈正相关,且相关性较强,,选项错误;
当时,代入经验回归方程为,可得,
花萼长度为的该品种鸢尾花的花瓣长度的平均值约为,选项正确;
若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数不一定是0.8642,选项错误.
故选:.
【点评】本题考查线性相关问题,属基础题.
二.相关系数(共7小题)
3.(2024•浦东新区校级模拟)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是
A. B.
C. D.
【分析】根据题目给出的散点图,先判断是正相关还是负相关,然后根据点的集中程度分析相关系数的大小.
【解答】解:由给出的四组数据的散点图可以看出,
图1和图3是正相关,相关系数大于0,
图2和图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,所以相关性要强,所以接近于1,接近于,
由此可得.
故选:.
【点评】本题考查了两个变量的线性相关,考查了相关系数,散点分布在左下角至右上角,说明两个变量正相关;分布在左上角至右下角,说明两个变量负相关,散点越集中在一条直线附近,相关系数越接近于1(或,此题是基础题.
4.(2022春•浦东新区校级期末)要判断成对数据的线性相关程度的强弱,可以通过比较它们的样本相关系数的大小,以下是四组数据的相关系数的值,则线性相关最强的是
A. B. C. D.
【分析】利用相关系数的含义,判断每个选项里的相关系数的绝对值的大小即可.
【解答】解:当时,表明两个变量正相关;当时,表明两个变量负相关;,且越接近于1,相关程度越大;越接近于0,相关程度越小,因此线性相关最强的是.
故选:.
【点评】本题考查相关系数的概念,是基础题.
5.(2023春•浦东新区校级期末)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
年份
1
2
3
4
5
羊只数量万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
若利用这五组数据得到的两变量间的相关系数为,去掉第一年数据后得到的相关系数为,则 (填,,,,.
【分析】因为是离群值,去掉后相关性更强可判断.
【解答】解:用这五组数据得到的两变量间的相关系数为,因为第一年数据是离群值,去掉后得到的相关系数为,其相关性更强,所以,
又因为数据呈现负相关,所以、均为负数,
所以.
故答案为:.
【点评】本题考查相关系数,属于基础题.
6.(2023春•金山区校级期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
【分析】根据相关系数的意义直接判定即可.
【解答】解:,两种证券完全同向联动,同涨或同跌,相关系数必须为1,但题目中说的是相关系数为正数,不一定为1,故选项错误;
,两种证券完全反向联动,涨和跌是完全相反的,相关系数必须为,但题目中说的是相关系数为正数,故选项错误;
,题目中说的是相关系数为正数,也就是说两种证券之间变化是正相关,因此是同向变动,故选项正确;
,两种证券收益反向变动为负相关,与题目中的相关系数为正数不符,故选项错误.
故选:.
【点评】本题考查相关系数的意义,属基础题.
7.(2023•浦东新区校级三模)在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是
A.样本数据由正相关变成负相关
B.样本的相关系数不变
C.样本的相关性变弱
D.样本的相关系数变大
【分析】根据题意,由数据作出散点图,再根据散点图分析判断得解.
【解答】解:根据题意,散点图如图所示,
在5个数据中去掉后,与的相关性加强.所以样本相关系数变大,
故选:.
【点评】本题考查两个变量的线性相关,涉及相关系数的定义,是基础题.
8.(2023春•杨浦区校级期中)在实验“利用单摆周期估计重力加速度”中,我们依据的理论是单摆的周期公式,其中为单摆周期,为重力加速度,为单摆的摆长.改变单摆的摆长,并多次记录数据.若对以下各组数据做相关分析,相关系数最大的一组是
A.与 B.与 C.与 D.与
【分析】整理单摆的周期公式,与正相关,故,越接近于1,相关越大,逐项判断即可.
【解答】解:,即,即,故与的相关系数最大.
故选:.
【点评】本题考查相关系数的应用,属于基础题.
9.(2023春•奉贤区校级期中)已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数 .
6
8
10
12
6
5
3
2
【分析】根据相关系数公式求解即可.
【解答】解:根据表中数据计算可知,,
变量,之间的相关系数.
故答案为:.
【点评】本题考查相关系数的定义,属于基础题.
三.线性回归方程(共12小题)
10.(2023春•徐汇区校级期末)给出下列有关线性回归分析的四个命题,其中为真命题的是
A.线性回归直线未必过样本数据点的中心
B.回归直线就是散点图中经过数据点最多的那条直线
C.当相关系数时,两个变量正相关
D.如果两个变量的相关性越强,则相关系数就越接近于1
【分析】由回归直线的性质逐一分析四个选项得答案.
【解答】解:线性回归直线必过样本数据点的中心,故错误;
回归直线一定经过样本点的中心,但不一定经过散点图中的点,故错误;
当相关系数时,两个变量正相关,故正确;
如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故错误.
故选:.
【点评】本题考查线性回归方程,是基础题.
11.(2023•杨浦区二模)对成对数据,、,、、,用最小二乘法求回归方程是为了使
A. B.
C.最小 D.最小
【分析】利用最小二乘法求回归方程的定义,判断选项的正误即可.
【解答】解:最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.
故选:.
【点评】本题考查线性回归直线方程的性质,最小二乘法的定义的应用,是基础题.
12.(2023春•浦东新区校级期末)用最小二乘法求回归方程是为了使
A. B.
C.最小 D.最小
【分析】由最小二乘法的求解即可知.
【解答】解:根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小.
故选:.
【点评】本题考查最小二乘法相关知识,属于基础题.
13.(2023春•宝山区校级期中)已知,的对应值如下表所示:
0
2
4
6
8
1
13
若与线性相关,且回归直线方程为,则 1 .
【分析】根据样本中心必在回归直线上求解.
【解答】解:,,
所以这组数据的样本中心点是,
又点,在回归直线上,
所以,解得.
故答案为:1.
【点评】本题考查回归方程的应用,属于基础题.
14.(2023•徐汇区校级三模)受新冠肺炎的影响,部分企业转型生产口罩,如表为某小型工厂月份生产的口罩数(单位:万)
2
3
4
5
2.2
3.8
5.5
若与线性相关,且回归直线方程为,则表格中实数的值为 7.1 .
【分析】根据线性回归直线方程经过样本中心,将代入求解.
【解答】解:,故,
故,
故,
故答案为:7.1.
【点评】本题主要考查了线性回归方程的求解,属于基础题.
15.(2023春•松江区校级期末)某产品的广告费用与销售额的统计数据如表
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
根据上表可得回归方程中的为10,据此模型预报广告费用为6万元时销售额为 67 万元.
【分析】根据表中数据,求出、,利用回归方程过样本中心点,求出的值,再利用回归方程预测广告费用为6万元时的销售额.
【解答】解:根据表中数据,得:
,;
且回归方程过样本中心点,,
所以,解得,
所以回归方程.
当时,,
即广告费用为6万元时销售额为67万元.
故答案为:67.
【点评】本题考查了线性回归方程的应用问题,是基础题目.
16.(2024春•杨浦区校级期中)“守得住经典,当得了网红”,这是时下人们对国货最高的评价,网络平台的发展让越来越多的消费者熟悉了国货品牌的优势,使得各大国货品牌都受到高度关注,销售额迅速增长,已知某国货品牌2023年月在网络平台的月销售额(单位:百万元)与月份具有线性相关关系,并根据这5个月的月销售额,求得回归方程为,则该国货品牌2023年月在网络平台的总销售额为 225 百万元.
【分析】分别将2023年月每个月份代入回归方程,得到对应的销售额,然后将这些销售额相加即可.
【解答】解:将,9,10,11,12,分别代入该方程;
;;;
,这5个月的销售额相加,
即,
所以该国货品牌在这五个月的销售额为225百万元.
故答案为:225.
【点评】本题考查回归方程的应用,属于中档题.
17.(2024春•宝山区校级期中)2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
区
区
区
区
区
外来务工人员数
5000
4000
3500
3000
2500
留在当地的人数占比
根据这5个地区的数据求得留在当地过年人员数与外来务工人员数的线性回归方程为.该市对外来务工人员选择留在当地过年的每人补贴2000元,该市区有10000名外来务工人员,根据线性回归方程估计区需要给外来务工人员中留在当地过年的人员的补贴总额为 1637.2 万元(参考数据:取.
【分析】求出,利用中心点求得,然后令代入可得估计值,求得留在当地过年的人员数,可得补贴总额.
【解答】解:由已知,,
所以,则,即,
当时,,
估计应补贴(万元).
故答案为:1637.2.
【点评】本题主要考查了线性回归方程的求解和应用,属于中档题.
18.(2023春•金山区校级期末)2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
区
区
区
区
区
外来务工人员数
5000
4000
3500
3000
2500
留在当地的人数占比
根据这5个地区的数据求得留在当地过年人员数与外来务工人员数的线性回归方程为.该市对外来务工人员选择留在当地过年的每人补贴0.2万元,该市区有10000名外来务工人员,根据线性回归方程估计区需要给外来务工人员中留在当地过年的人员的补贴总额为 1637.2 万元(参考数据:取
【分析】求出,利用中心点求得,然后令代入可得估计值,求得留在当地过年的人员数,可得补贴总额.
【解答】解:由已知,
,
所以,则,即,
当时,,
估计应补贴(万元).
故答案为:1637.2.
【点评】本题主要考查了线性回归方程的求解和应用,属于中档题.
19.(2023•普陀区二模)“民生”供电公司为了分析“康居”小区的用电量(单位与气温(单位:之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系见下表:
气温
18
13
10
用电量
24
34
38
64
若上表中的数据可用回归方程来预测,则当气温为时该小区相应的用电量约为 68 .
【分析】根据回归直线方程的性质,计算出,将其代入到回归方程可解,再令,即可解.
【解答】解:根据题意,,,
则将代入回归方程可得,,得,
则回归直线方程为,
当时,用电量约为,
故答案为:68.
【点评】本题考查回归直线方程的性质,属于中档题.
20.(2023春•金山区校级期末)一场始于烟火,归于真诚的邂逅,让无数人赴山赶海“进淄赶烤”,淄博某烧烤店趁机推出150元烧烤套餐.某同学调研发现,烧烤店成本(单位:千元,包含人工成本、原料成本、场地成本、设备损耗等各类成本)与每天卖出套餐数(单位:份)的关系如下:
1
3
4
6
7
5
6.5
7
7.5
8
与可用回归方程(其中为常数)进行模拟.
参考数据与公式:设,则:
0.54
6.8
1.53
0.45
线性回归直线中,.
(1)试预测该烧烤店一天卖出100份的利润是多少元?(利润售价成本,结果精确到1元)
(2)据统计,由于烧烤的火爆,饮料需求也激增.4月份的连续16天中某品牌饮料每天为淄博配送的箱数的频率分布直方图如图,用这16天的情况来估计相应的概率.供货商拟购置辆小货车专门运输该品牌饮料,一辆货车每天只能运营一趟,每辆车每趟最多只能装载40箱该饮料,满载发车,否则不发车.若发车,则每辆车每趟可获利500元;若不发车,则每辆车每天平均亏损200元.若或4,请从每天的利润期望角度给出你的建议.
【分析】(1)根据所给数据求出,即可求出回归方程,再代入求出预测值,即可得到利润;
(2)根据频率分布直方图,得到送货箱数的概率分布表,设该运输户购3辆车和购4辆车时每天的利润分别为、元,求出分布列,计算出期望,即可判断.
【解答】解:(1)根据题意,,
所以,
所以,
又,所以,
所以时,(千元),
即卖出100份的成本为11764元,故利润(元;
(2)根据频率分布直方图,可知送货箱数的概率分布表为:
箱数
,
,
,
,
设该运输户购3辆车和购4辆车时每天的利润分别为、元,
则的可能取值为1500,800,100,其分布列为:
1500
800
100
故,
则的可能取值为2000,1300,600,,其分布列为:
2000
1300
600
故,
因为,即购置3辆小货车的利润更高,建议购买3辆车.
【点评】本题考查了离散型随机变量的分布列与期望计算,属于中档题.
21.(2023春•浦东新区校级期末)某收费(手机应用程序)自上架以来,凭借简洁的界面设计、方便的操作方式和强大的实用功能深得用户的喜爱.该所在的公司统计了用户一个月月租减免的费用(单位:元)及该月对应的用户数量(单位:万人),得到如下数据表格:
用户一个月月租减免的费用(元
3
4
5
6
7
用户数量(万人)
1
1.1
1.5
1.9
2.2
已知与线性相关.
(1)求关于的线性回归方程;
(2)据此预测,当月租减免费用为10元时,该月用户数量为多少?
参考公式:对于一组具有线性相关关系的数据,,2,,,其回归直线的斜率和截距的最小二乘估计公式分别为,
【分析】(1)根据已知数据,先求得,然后利用公式计算回归方程中的系数,得到回归方程;
(2)利用回归方程估计.
【解答】(1)解:由,
,
有,
故关于的线性回归方程为;
(2)解:由(1)知回归方程为,
当时,,所以预测该月的用户数量为3.14万人.
【点评】本题考查了线性回归方程的应用,属于中档题.
四.独立性检验(共8小题)
22.(2024春•徐汇区校级期中)为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算,根据这一数据分析,下列说法正确的是 附:
A.有的人认为该电视栏目优秀
B.有的人认为该电视栏目是否优秀与改革有关系
C.在犯错误的概率不超过的前提下,认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
【分析】利用卡方的值,对照临界表中的数据进行分析,即可得到答案.
【解答】解:因为时,才能有的把握认为该栏目是否优秀与改革有关,
而,
所以没有理由认为电视栏目是否优秀与改革有关系,故选项正确.
故选:.
【点评】本题考查了独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关,是基础题.
23.(2024春•杨浦区校级期中)在一个列联表中,通过数据计算,则有 的把握认为这两个分类变量有关.
参考表格:
0.05
0.025
0.010
0.001
3.841
5.024
6.635
10.828
【分析】根据所给的观测值,把观测值同临界值表中的临界值进行比较,看出所求的结果比哪一个临界值大,得到可信度.
【解答】解:由,
有的把握说两个变量有关系,
故答案为:.
【点评】本题考查独立性检验的应用,解题的关键是会看临界值表,是基础题.
24.(2023春•徐汇区校级期中)某校举行了一次数学竞赛,为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的分数作为样本(样本容量为进行统计,按照,,,,,,,,,的分组作出如图所示的频率分布直方图,已知得分在,,,的频数分别为16,4.
(1)求样本容量和频率分布直方图中的,的值;
(2)在选取的样本中,若男生和女生人数相同,我们规定在70分以上称为“优秀”,70分以下称为“不优秀”,其中男、女生中成绩优秀的分别有24人和30人,请完成列联表,并判断是否有的把握认为“学生的成绩优秀与性别有关”?
男生
女生
总计
优秀
不优秀
总计
附:,.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【分析】(1)根据得分,的频数,结合其在频率直方图中的频率计算总的样本容量,并由此求得的值,进而利用各组的频率之和等于1求得的值;
(2)根据已知男、女生中不优秀的人数,填写列联表,并利用公式计算的观测值,与临界值比较,得到结论.
【解答】解:(1)由题意可知,样本容量,
,
.
(2)100位学生中男女生各有50名,成绩优秀共有54名,所以学生的成绩优秀与性别列联表如下表:
男生
女生
总计
优秀
24
30
54
不优秀
26
20
46
总计
50
50
100
,
没有的把握认为“学生的成绩优秀与性别有关”.
【点评】本题考查频率分布直方图的应用,考查独立性检验,是中档题.
25.(2022春•浦东新区校级期末)一医疗队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
45
55
对照组
12
88
问:能否有的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
0.05
0.01
3.841
6.635
【分析】根据题目所给的数据填写列联表,计算,对照题目中的表格,得出统计结论.
【解答】解:由题意得列联表:
不够良好
良好
合计
病例组
45
55
100
对照组
12
88
100
合计
57
143
200
,
有的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
【点评】本题主要考查了独立性检验的应用,属于基础题.
26.(2022春•青浦区校级期末)为了解学生每天的运动情况,随机抽取了100名学生进行调查,下图是根据调查结果绘制的学生每天运动时间的频率分布直方图,并将每天运动时间不低于40分钟的学生称为“运动达人”.
(1)根据题意完成下面的列联表;
(2)能否有的把握认为“运动达人”与性别有关?
非运动达人
运动达人
合计
男
女
10
55
合计
100
独立性检验临界值表:
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.879
【分析】(1)根据已知条件,结合频率与频数的关系,先求出运动达人的人数,再结合列联表之间的关系,即可求解.
(2)根据已知条件,结合独立性检验公式,即可求解.
【解答】解:(1)由频率分布直方图可得,抽取的100名学生中,
运动达人的人数为,
故列联表如下:
非运动达人
运动达人
合计
男
30
15
45
女
45
10
55
合计
75
25
100
(2),
有的把握认为“运动达人”与性别有关.
【点评】本题主要考查独立性检验公式,属于基础题.
27.(2023•嘉定区二模)李先生是一名上班族,为了比较上下班的通勤时间,记录了20天个工作日内,家里到单位的上班时间以及同路线返程的下班时间(单位:分钟),如下茎叶图显示两类时间的共40个记录:
(1)求出这40个通勤记录的中位数,并完成下列列联表:
超过
不超过
上班时间
下班时间
(2)根据列联表中的数据,请问上下班的通勤时间是否有显著差异?并说明理由.
附:,
【分析】(1)根据茎叶图计数中位数即可;(2)根据独立性检验公式,计算并判断即可.
【解答】解:(1)根据茎叶图可知,这40个通勤记录的中位数是,故,
列联表:
超过
不超过
上班时间
8
12
下班时间
7
13
(2)根据题意,由,则,
故上下班的通勤时间没有显著差异.
【点评】本题考查独立性检验的应用,属于基础题.
28.(2022•青羊区校级模拟)第24届冬季奥运会将于2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为,统计得到以下列联表,经过计算可得.
男生
女生
合计
了解
不了解
合计
(1)求的值,并判断有多大的把握认为该校学生对冬季奥运会项目的了解情况与性别有关;
(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不理解冬季奥运会项目的学生中随机抽取9人,再从这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率;
附表:
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
附:.
【分析】(1)完善列联表,根据的计算可得出关于的等式,即可求得正整数的值,结合临界值,即可求解.
(2)根据已知条件,结合分层抽样的定义,以及古典概型的概率公式,即可求解.
【解答】解:(1)列联表如下:
男生
女生
合计
了解
不了解
合计
,
,可得,
又,
有的把握认为该校学生对冬季奥运会项目的了解情况与性别有关.
(2)采用分层抽样的方法从抽取的不理解冬季奥运会项目的学生中随机抽取9人,
这9人中男生的人数为4人,设为,,,,女生的人数为5人,设为1,2,3,4,5,
一共的情况有,,,,,,,,
,,,,,,,
,,,,,,
,,,,,
,,,,,,,,,共36种情况,其中“至少抽到一名女生”有30种,
故这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率.
【点评】本题主要考查独立性检验的公式,考查分层抽样的定义,属于中档题.
29.(2022春•金山区校级期末)2021年9月,教育部印发《关于全面加强和改进新时代学校卫生与健康教育工作的意见》中指出:中小学生各项身体素质有所改善,大学生整体下降.某高校为提高学生身体素质,号召全校学生参加体育锻炼,结合“微信运动” 每日统计运动情况,对每日平均运动10000步或以上的学生授予“运动达人”称号,低于10000步称为“参与者”,统计了200名学生在某月的运动数据,结果如下:
运动达人
参与者
合计
男生
70
女生
80
合计
80
200
(1)完善列联表并说明:是否有的把握认为获得“运动达人”称号与性别有关?
(2)从全校运动“运动达人”中按性别分层抽取8人,再从8人中选取4人参加特训,将男生人数记为,求的分布列.
参考公式:.
2.072
2.706
3.841
6.635
7.879
10.828
0.15
0.10
0.05
0.010
0.005
0.001
【分析】(1)先完善列联表,通过卡方检验中计算与6.635比较大小从而判断在犯错误概率不超过0.01的前提下认为获得“运动达人”称号与性别的相关性;
(2)判断服从超几何分布概型,得到的分布列.
【解答】解:(1)由题意完善列联表:运动达人参与者合计男生为人,易知列联表数据如下:
运动达人
参与者
合计
男生
50
70
120
女生
30
50
80
合计
80
120
200
此时:.
查表可知,
所以没有的把握认为获得“运动达人”称号与性别有关.
(2)由题意知:选取的8人运动参与者中男生5人,女生3人,
的所有可能情况为:1、2、3、4,
且,,
,,
的分布列为:
1
2
3
4
【点评】本题主要考查独立性检验,离散型随机变量分布列,考查运算求解能力,属于中档题.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司1
学科网(北京)股份有限公司
$$