内容正文:
专题06 成对数据的统计分析
目录(Ctrl并单击鼠标可跟踪链接)
【题型一 线性回归方程与相关系数】 4
【题型二 非线性回归方程】 7
【题型三 残差与决定系数】 10
【题型四 独立性检验】 15
【压轴能力测评(15题)】 19
一、样本相关系数
1、样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
2、相关系数r与相关程度
(1)当时,称成对样本数据正相关;
当时,成对样本数据负相关;
当时,成对样本数据间没有线性相关关系;
(2)样本相关系数r的取值范围为[-1,1];
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
二、求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
注:①经验回归直线一定过点,点通常称为样本点的中心
三、残差
1、残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2、残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
3、残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
四、决定系数
1、残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
2、决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
五、常见的非线性函数转换方法
1、幂型函数y=axm(a为正数,x,y取正值)
对y=axm两边取常用对数,有lg y=lg a+mlg x,
令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,
该式表示u,v的线性函数.
2、指数型函数y=c·ax(a,c>0,且a≠1):
对y=cax两边取常用对数,则有lg y=lg c+xlg a,
令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,
该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
3、反比例函数y= (k>0):令u=,则y=ku,该式表示y,u的线性函数.
4、二次函数y=ax2+c:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
5、对数型函数y=clogax:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
六、独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【题型一 线性回归方程与相关系数】
一、单选题
1.(24-25高二下·河南驻马店·阶段练习)已知随机变量X,Y的组样本观测值都落在经验回归直线上,则随机变量X,Y的样本相关系数为( )
A. B. C.1 D.
2.(24-25高二下·江西上饶·阶段练习)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
3.(2025·辽宁锦州·二模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了1至5月份5G手机的实际销量,如下表所示:
月份x
1月
2月
3月
4月
5月
销售量y(千只)
0.5
0.6
1.0
1.4
1.7
若y与x线性相关,且求得线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,
B.由题中数据可知,6月份该商城5G手机的实际销量为2(千只)
C.由题中数据可知,变量x和y正相关,且相关系数一定小于1
D.若不考虑本题中的数据,回归直线可能不过,,…,中任一个点
4.(24-25高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
5.(2025·江西景德镇·模拟预测)用最小二乘法得到一组数据的线性回归方程为,若,则的值为( )
A. B.3 C.104 D.
二、解答题
6.(24-25高二·上海·随堂练习)春节期间,由于高速免费,车流量逐步增加,某高速口统计了5天中的车流量与空气质量指数的关系,所得数据如下表所示:
车流量x(万辆)
12
12.5
13
13.5
14
空气质量指数y
74
76
78
77
80
(1)在下列网格纸中绘制出散点图;
(2)观察散点图的趋势,如果能看成线性关系,请在图中画出一条直线来近似地表示这种关系,并计算车流量与空气质量指数的相关系数.
7.(24-25高二上·重庆·阶段练习)广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
8.(23-24高二下·福建宁德·阶段练习)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
材积量
0.25
0.40
0.22
0.54
0.51
0.34
样本号i
7
8
9
10
总和
根部横截面积
0.05
0.07
0.07
0.06
0.6
材积量
0.36
0.46
0.42
0.40
3.9
并计算得,,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数,.
9.(23-24高二下·陕西安康·阶段练习)某食品加工厂新研制出一种袋装食品(规格:/袋),下面是近六个月每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号
每袋出厂价格
月销售量
并计算得,,.
(1)计算该食品加工厂这六个月内这种袋装食品的每袋出厂价格的平均数、平均月销售量和平均月销售收入;
(2)求每袋出厂价格与月销售量的样本相关系数(精确到);
(3)若样本相关系数,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定的每袋食品的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数,.
【题型二 非线性回归方程】
一、解答题
1.(23-24高二下·湖北·期末)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
2.(2025高二·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份
1
2
3
4
5
销售量(万件)
4.9
5.8
6.8
8.3
10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
3.(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
4.(23-24高二上·重庆沙坪坝·阶段练习)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
5.(24-25高二下·湖南长沙·阶段练习)众所周知,乒乓球被称为中国的“国球”,是一种世界流行的球类体育项目,包括进攻、对抗和防守.某学校为了丰富学生的课后活动内容,增强学生体质,决定组织乒乓球活动社.以下是接下来7个星期(用x=1表示第1个星期,用x=2表示第二个星期,以此类推)参加活动的累计人数y(人)的统计数据.
x
1
2
3
4
5
6
7
y
6
14
20
37
74
108
203
(1)根据表中数据可以判断y与x大致满足回归模型,试建立y与x的回归方程(精确到0.01);
(2)为了更好地开展体育类型活动,学校继续调查全校同学的身高情况.采用按比例分层抽样抽取了男生30人,其身高的平均数和方差分别为171.5和13.0;抽取了女生20人,其身高的平均数和方差分别为161.5和27.0,试求全体学生身高的平均数和方差.
参考数据:,其中;
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【题型三 残差与决定系数】
一、单选题
1.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
2.(24-25高二上·四川自贡·期中)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
3.(24-25高二上·江西南昌·期末)已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为( )(残差=观察值-估计值)
A.2 B. C. D.
二、解答题
4.(24-25高二下·重庆沙坪坝·阶段练习)2025年春晚最火的节目无疑是机器人扭秧歌. 其中表演的机器人出自宇树科技, 宇树科技是一家专注于高性能四足机器人研发和生产的中国科技公司. 该公司以其创新的四足机器人在全球范围内广受关注,主要应用于教育、科研、娱乐和工业等领域,其中四大产品之一的机器人Unitree A1具备较强的负载能里和环境适应性, 可用于巡检与监控、物流和运用、安防与救援. 现统计出机器人Unitree A1在某地区2024年2月到6月的销售量如下表所示:
月份
2
3
4
5
6
销量
42
53
66
109
用最小二乘法得到Unitree A1的销售量关于月份的回归直线方程为,且相关系数,销量的方差.
(1)求的值(结果精确到0.1);
(2)求的值,并根据(1)的结果计算5月销售量的残差.
附: 回归系数,相关系数 .
5.(24-25高二上·河北沧州·阶段练习)近年来,政府相关部门引导乡村发展旅游业的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲、乙两名同学一起收集了6家农户的数据,进行回归分析,得到两个回归模型:模型①;模型②.对以上两个回归方程进行残差分析,得到下表:
种植面积亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
0.38
0.28
模型②
估计值
26.84
20.17
18.83
17.31
16.46
残差
0.83
3.17
注:表中.
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求其经验回归方程.
参考公式:.
种植面积/亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
16
14
模估计值
25.27
23.62
21.97
20.32
17.02
13.72
①残差
0.38
1.68
.02
0.28
模估计值
26.84
22.39
20.17
18.83
17.31
16.46
②残差
.84
1.61
0.83
3.17
6.(23-24高二下·重庆·阶段练习)某公司为了解年研发资金(单位:亿元)对年产值(单位:亿元)的影响,对公司近8年的年研发资金和年产值(,)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的关于的经验回归方程:
①;②.
(1)求的值;
(2)已知①中的残差平方和,②中的残差平方和,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:,,,.
参考公式;刻画回归模型拟合效果的决定系数.
7.(23-24高二下·重庆·开学考试)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响我们的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量y(单位:千件)的数据统计表.
1
2
3
4
5
6
1
1.5
3
6
12
(1)公司拟分别用①和②两种方案作为年销售量关于年投入额的回归分析模型,请根据已知数据,确定方案①和②的经验回归方程;(计算过程保留到小数点后两位,最后结果保留到小数点后一位)
(2)根据下表数据,用决定系数(只需比较出大小)比较两种模型的拟合效果哪种更好,并选择拟合精度更高的模型,预测年投入额为百万元时,产品的销售量是多少?
经验回归方程
残差平方和
参考公式及数据:,,,,,,,, .
8.(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
【题型四 独立性检验】
一、单选题
1.(24-25高二上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.789
附:
A.有99.5%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
2.(24-25高二下·全国·课后作业)假设有两个分类变量和,它们的可能取值分别为和,其列联表如下:
总计
总计
对于以下数据,对同一样本能说明与有关的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
3.(24-25高二上·辽宁·期末)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若有的把握认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能为( )
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.54 B.48 C.42 D.36
4.(2024高二·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
二、解答题
5.(2025·陕西·模拟预测)某生产工厂生产优质钢索,现需要通过不同场次进行钢索检索抽查.现从机器内随机选取了40组(各20组),记录了他们不同米数,并将数据整理如下表:
米数组别
0~20
21~50
51~80
81~100
A
1
2
3
8
6
B
0
3
7
8
2
米数超过被系统评定为“优质”,否则被系统评定为“备选”.
(1)利用样本估计总体的思想,试估计工厂中米数超过的概率;
(2)根据题意完成下面的列联表,并据此判断能否有的把握认为“评定类型”与“组别”有关?
优质
备选
总计
A
B
总计
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
6.(24-25高二下·辽宁沈阳·阶段练习)2024年9月16日,沈阳市举行马拉松比赛,全球马拉松爱好者积极参与本场比赛,某服务部门为提升服务质量,随机采访了120名参赛人员,得到下表:
满意度
性别
合计
女性
男性
比较满意
50
非常满意
40
70
合计
60
120
(1)求的值;
(2)能否有的把握认为不同性别的参赛人员对该部门服务质量的评价有差异?
(3)用频率估计概率,现随机采访本场比赛的1名女性参赛人员与2名男性参赛人员,已知3人中恰有一人对该部门服务非常满意,求该人为女性的概率.
附:.
0.1
0.01
0.001
2.706
6.635
10.828
7.(24-25高二下·辽宁丹东·期中)某社区为推进智慧社区建设,给居民提供了一款手机构建智能化社区管理服务模式.为了解居民对该的满意度,从管辖范围内的某小区居民中随机抽查了200人,其中男女各占一半,得到如下表格:单位:人
使用
不使用
总计
女性
60
男性
70
总计
(1)请补全题表,并判断是否有的把握认为居民是否使用该与性别有关;
(2)从以上使用该的居民中按性别进行分层抽样抽取6人,再从这6人中随机抽取3人了解居民对该的满意度,记抽取的3人中男性用户的人数为,求的分布列与数学期望.
附:(其中).
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【压轴能力测评】
一、单选题
1.(24-25高二上·山东威海·期末)下列散点图中,线性相关系数最小的是( )
A. B.
C. D.
2.(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号
1
2
3
4
5
6
1
1.2
1.4
1.6
1.8
2.0
3.08
3.76
4.31
5.02
5.51
6.25
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3 B.2 C.1 D.0
3.(23-24高二下·吉林长春·期中)2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,在犯错误的概率大于0.001且不超过0.01的前提下认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
A.130 B.190 C.240 D.250
4.(23-24高二下·全国·课堂例题)假设有两个分类变量和的列联表如下:注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
总计
a
10
a+10
c
30
总计
A. B.
C. D.
5.(23-24高二下·新疆克孜勒苏·期末)下列四个命题中,真命题的序号为( ).
①甲乙两组数据分别为:甲:28,31,39,42,46,55,57,58,66;乙:29,34,35,44,46,48,53,55,55,67.则甲乙的中位数分别为46和45.
②相关系数,表明两个变量的相关程度较弱.
③若由一个列联表中的数据计算得的值约为7.866,那么有的把握认为这两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.①③ B.①③④ C.①②③ D.③④
6.(23-24高二下·山东枣庄·期末)学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
7.(2025·山东烟台·一模)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
8.(2025·上海浦东新·二模)研究变量,得到一组成对数据,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差变大
二、解答题
9.(2025·甘肃·一模)为了解高二学生整理数学错题与提高数学成绩的相关性,某小组通过随机抽样,获得了每天整理错题和未每天整理错题的各20名学生3次数学考试成绩的平均分,绘制了如图1,2的频率分布直方图,并且已知高二学生3次数学考试成绩的总体均分为115分.
(1)依据频率分布直方图,完成以下列联表:
成绩不低于总体均分
成绩低于总体均分
合计
每天整理错题
未每天整理错题
合计
(2)依据小概率值的独立性检验,分析数学成绩不低于总体均分是否与每天整理数学错题有关.
附
0.10
0.01
0.001
2.706
6.635
10.828
10.(24-25高二下·江西抚州·阶段练习)为了解消费者购买新能源汽车意向与年龄是否具有相关性,某汽车公司通过问卷调查对200名消费者进行调查.数据显示200名消费者中,青年人共有125人,且中老年中愿意购买新能源车的人数是愿意购买燃油车的2倍:青年中愿意购买新能源车的人数是愿意购买燃油车的4倍.
(1)完善列联表,请根据小概率值的独立性检验,分析消费者对新能源车和燃油车的意向购买与年龄是否有关;
年龄段
购车意向
合计
愿意购买新能源车
愿意购买燃油车
青年
中老年
合计
(2)采用分层随机抽样从愿意购买新能源车的消费者中抽取6人,再从这6人中随机抽取2人,求这2人中青年人数的分布列和期望.
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
11.(24-25高二下·江苏镇江·期中)根据统计,某蔬菜基地西红柿亩产量的增加量(单位:百千克)与某种液体肥料每亩使用量(单位:千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数,并说明线性相关性的强弱(相关系数精确到小数点后2位,若,则线性相关程度很高);
(2)求关于的线性回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少百千克.
附:数据和公式:;回归方程:,其中.相关系数:.
12.(24-25高二下·浙江宁波·阶段练习)某企业前8个月月底的盈利金额(万元)与月份之间的关系如下表所示:
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用模拟与的关系,求出回归方程;
(2)根据(1)的结果计算,在几月份的月底统计的盈利金额开始超过60万元?
附:①;
②;
③回归直线中斜率和截距的最小二乘估计公式为:.
13.(23-24高二上·湖南衡阳·阶段练习)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1∼10分别对应年份2013∼2022.
根据散点图,分别用模型①,②作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75
2.25
82.5
4.5
120
28.35
表中,.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型?并说明理由;
(2)(i)根据(1)中所选模型,求出y关于x的经验回归方程;
(ii)设该科技公司的年利润(单位:亿元)和年研发投入y(单位:亿元)满足(且),问该科技公司哪一年的年利润最大?
附:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为,.
14.(23-24高二下·河北沧州·期中)2024年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.参考公式:,.
15.(23-24高二上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.
x
141
152
168
182
195
204
223
254
277
y
23.1
24.2
27.2
27.8
28.7
31.4
32.5
34.8
36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?
(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.
附:相关系数,决定系数,.
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$
专题06 成对数据的统计分析
目录(Ctrl并单击鼠标可跟踪链接)
【题型一 线性回归方程与相关系数】 4
【题型二 非线性回归方程】 11
【题型三 残差与决定系数】 18
【题型四 独立性检验】 27
【压轴能力测评(15题)】 35
一、样本相关系数
1、样本相关系数:设由变量x和y获得的两组数据分别为和(i=1,2,…,n),其对应关系如下表所示:
变量x
…
变量y
…
两组数据和的线性相关系数是度量两个变量x与y之间线性相关程度的统计量,
其计算公式为,
其中,,,它们分别是这两组数据的算术平均数.
2、相关系数r与相关程度
(1)当时,称成对样本数据正相关;
当时,成对样本数据负相关;
当时,成对样本数据间没有线性相关关系;
(2)样本相关系数r的取值范围为[-1,1];
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
二、求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
注:①经验回归直线一定过点,点通常称为样本点的中心
三、残差
1、残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2、残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
3、残差分析
残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.
四、决定系数
1、残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
2、决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
五、常见的非线性函数转换方法
1、幂型函数y=axm(a为正数,x,y取正值)
对y=axm两边取常用对数,有lg y=lg a+mlg x,
令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,
该式表示u,v的线性函数.
2、指数型函数y=c·ax(a,c>0,且a≠1):
对y=cax两边取常用对数,则有lg y=lg c+xlg a,
令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,
该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
3、反比例函数y= (k>0):令u=,则y=ku,该式表示y,u的线性函数.
4、二次函数y=ax2+c:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
5、对数型函数y=clogax:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
六、独立性检验
1、计算公式:,其中.
2、临界值的定义:对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,概率值越小,临界值越大.
3、独立性检验:,通常称为零假设或原假设.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
4、独立性检验中几个常用的小概率值和相应的临界值
0. 1
0. 05
0. 01
0. 005
0. 001
2. 706
3. 841
6. 635
7. 879
10. 828
5、独立性检验的一般方法
(1)根据题目信息,完善列联表;
(2)提出零假设:假设两个变量相互独立,并给出在问题中的解释。
(3)根据列联表中的数据及计算公式求出的值;
(4)当时,我们就推断不成立,即两个变量不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为两个变量相互独立。
【题型一 线性回归方程与相关系数】
一、单选题
1.(24-25高二下·河南驻马店·阶段练习)已知随机变量X,Y的组样本观测值都落在经验回归直线上,则随机变量X,Y的样本相关系数为( )
A. B. C.1 D.
【答案】D
【分析】根据线性相关系数的意义分析求解即可.
【详解】因为样本观测值都在直线上,
则线性相关性最强,可知,
且,可知随机变量X,Y满足负相关,所以样本相关系数为.
故选:D.
2.(24-25高二下·江西上饶·阶段练习)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】根据相关系数的概念即可判断.
【详解】由图可知图(1)和图(3)是正相关,故相关系数为正,又因为图(1)的点较图(3)的点分布密集,故相关性图(1)更好,相关系数较大,即;
图(2)和图(4)是负相关,故相关系数为负,又因为图(2)的点较图(4)的点分布密集,故相关性图(2)更好,相关系数的绝对值较大,即,故;
综上可知:,
故选:A.
3.(2025·辽宁锦州·二模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了1至5月份5G手机的实际销量,如下表所示:
月份x
1月
2月
3月
4月
5月
销售量y(千只)
0.5
0.6
1.0
1.4
1.7
若y与x线性相关,且求得线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,
B.由题中数据可知,6月份该商城5G手机的实际销量为2(千只)
C.由题中数据可知,变量x和y正相关,且相关系数一定小于1
D.若不考虑本题中的数据,回归直线可能不过,,…,中任一个点
【答案】B
【分析】根据题意,由回归直线方程的性质,对选项逐一判断,即可得到结果.
【详解】对于A,由表格可知,,,
则,故A正确;
对于B,将代入,可得,
所以6月份该商城5G手机的实际销量预测为2(千只),故B错误;
对于C,因为回归方程为,所以变量x和y正相关,
且样本点不全在回归方程上,所以相关系数一定小于1,故C正确;
对于D,回归直线可能不过样本点中的任何一个点,故D正确;
故选:B
4.(24-25高二下·江西·阶段练习)某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【答案】C
【分析】根据给定条件,求出样本的中心点并求出经验回归方程,进而求出身高的估计值.
【详解】由,,得样本的中心点为,
则,解得,因此经验回归方程为,
当时,(cm).
故选:C
5.(2025·江西景德镇·模拟预测)用最小二乘法得到一组数据的线性回归方程为,若,则的值为( )
A. B.3 C.104 D.
【答案】D
【分析】根据给定条件,利用回归直线一定过样本中心点列式求解.
【详解】依题意,,而,
因此,解得.
故选:D
二、解答题
6.(24-25高二·上海·随堂练习)春节期间,由于高速免费,车流量逐步增加,某高速口统计了5天中的车流量与空气质量指数的关系,所得数据如下表所示:
车流量x(万辆)
12
12.5
13
13.5
14
空气质量指数y
74
76
78
77
80
(1)在下列网格纸中绘制出散点图;
(2)观察散点图的趋势,如果能看成线性关系,请在图中画出一条直线来近似地表示这种关系,并计算车流量与空气质量指数的相关系数.
【答案】(1)画图见解析
(2)画图见解析,
【分析】(1)根据表里数据标点即可;
(2)根据公式计算相关系数;
【详解】(1)
(2)可以看成线性关系,如图所示,
计算得:,
;
,
;
则.
7.(24-25高二上·重庆·阶段练习)广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据,其中和分别表示第个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
1
2
3
4
5
0.171
0.152
0.192
0.189
0.196
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,,.
【答案】(1)700
(2)0.94
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样,理由见解析
【分析】(1)求出样本平均数,再乘以地块数可得出结果;
(2)根据题中所给数据,代入,可得出结果;
(3)由(2)知知各样区的这种鸟数量与植物覆盖面积有很强的正相关,各地块间这种植物数量差异也很大,适合采用分层抽样.
【详解】(1)由已知得样本平均数,
从而广阳岛这种鸟数量的估计值为.
(2),
,
故样本的相关系数
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样.
理由如下:由(2)知各样区的这种鸟数量与植物覆盖面积有很强的正相关,
由于各地块间植物覆盖面积差异很大,从而各地块间这种鸟数量差异也很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得广阳岛这种鸟数量更准确的估计.
8.(23-24高二下·福建宁德·阶段练习)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
材积量
0.25
0.40
0.22
0.54
0.51
0.34
样本号i
7
8
9
10
总和
根部横截面积
0.05
0.07
0.07
0.06
0.6
材积量
0.36
0.46
0.42
0.40
3.9
并计算得,,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数,.
【答案】(1)
(2)0.97
(3)
【分析】(1)根据平均数的计算个数即可求解,
(2)根据相关系数的计算公式即可求解,
(3)根据比例即可求解.
【详解】(1)估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为.
(2)样本相关系数
.
(3)设这种树木的根部横截总面积为X ,总材积量为Y ,则,则,
所以该林区这种树木的总材积量的估计值为.
9.(23-24高二下·陕西安康·阶段练习)某食品加工厂新研制出一种袋装食品(规格:/袋),下面是近六个月每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号
每袋出厂价格
月销售量
并计算得,,.
(1)计算该食品加工厂这六个月内这种袋装食品的每袋出厂价格的平均数、平均月销售量和平均月销售收入;
(2)求每袋出厂价格与月销售量的样本相关系数(精确到);
(3)若样本相关系数,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定的每袋食品的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数,.
【答案】(1)平均每袋出厂价格为(元),平均月销售量为(万袋),平均月销售收入为(万元)
(2)
(3)该食品加工厂制定的每袋食品的出厂价格与月销售量有较强的相关性
【分析】(1)由表格中数据和参考数据进行计算即可;
(2)将样本相关系数公式转化为,利用表中数据和参考数据进行计算即可;
(3)将(2)中样本相关系数的绝对值与进行比较即可.
【详解】(1)该食品加工厂这六个月内这种袋装食品每袋出厂价格的平均数:
(元),
平均月销售量为(万袋),
平均月销售收入为(万元).
(2)由已知,每袋出厂价格与月销售量的样本相关系数为:
.
(3)由于每袋出厂价格与月销售量的样本相关系数,所以该食品加工厂制定的每袋食品的出厂价格与月销售量有较强的相关性.
【题型二 非线性回归方程】
一、解答题
1.(23-24高二下·湖北·期末)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费(单位:万元)和增加收益(单位:万元)的数据如下表:
4
6
8
10
12
27
42
55
56
60
为了进一步了解技术革新投入经费对增加收益的影响,通过对表中数据进行分析,分别提出了两个回归模型:①,②.
(1)根据以上数据,计算模型①中与的相关系数(结果精确到0.01);
(2)若,则选择模型①;否则选择模型②.根据(1)的结果,试建立增加收益关于技术革新投入经费的回归模型,并预测时的值(结果精确到0.01).
附:i)回归直线的斜率、截距的最小二乘估计以及相关系数分别为:,,
ii)参考数据:设,,,,,.
【答案】(1)
(2),约为万元
【分析】(1)根据所给数据求出,,,,,即可求出相关系数;
(2)根据(1)的结论,可判断选择模型②,令,求出关于的线性回归方程,即可求出关于的经验方程,再代入计算可得.
【详解】(1)因为,
,
所以,
,
,
模型①中,相关系数,
(2)因为,所以选择模型②,
令,先建立关于的线性回归方程,
由于,
,
所以关于的线性回归方程为,
即,
当时,(万元),
所以若投入经费万元,收益约为万元.
2.(2025高二·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份
1
2
3
4
5
销售量(万件)
4.9
5.8
6.8
8.3
10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
【答案】(1)
(2)第9个月的月利润预报值最大.
【分析】(1)将非线性回归方程问题转化线性回归方程问题,根据最小二乘法求解即可.
(2)先求得的表达式,然后利用导数来求得最值问题.
【详解】(1)令,则,
,
,,
所以关于的回归方程为.
(2)由(1)知,
,
令(),
(),
令,得,单调递增,
令,得,单调递减,
令,得,
所以()在处取得极大值,也是最大值,
所以,
所以第9个月的月利润预报值最大.
3.(24-25高二下·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【答案】(1)选择,回归方程为
(2)万
【分析】(1)根据散点图可作出判断,令,所以,利用最小二乘法求出、的值,即可得出回归方程;
(2)将代入回归方程,可得结果.
【详解】(1)由散点图可知,更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型.
因为,所以.
因为,,,,
所以,
所以,所以回归方程为.
所以每年月份来哈尔滨的游客数量关于年份代码的回归直线方程为.
(2)当时,,
所以预测年月份来哈尔滨的游客数量为万.
4.(23-24高二上·重庆沙坪坝·阶段练习)某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响.结合近12年的年研发资金投入量和年销售额,该团队建立了两个函数模型:①,②,其中均为常数,为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令,计算得到如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设变量和变量的样本相关系数为,变量和变量的样本相关系数为,请从样本相关系数的角度,选择一个与相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立关于的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:;样本相关系数;经验回归方程,其中.
【答案】(1)模型中与的相关性较强.
(2)(i);(ii)27.1亿元.
【分析】(1)分别将表中数据代入相关系数公式求出,比较大小即可判断;
(2)(i)由取对数,换元得,由表中数据分别求和,得经验回归方程,利用指数式和对数式的互化,即得;
(ii)将代入回归方程,利用题设条件,即可预测下一年的研发资金投入量.
【详解】(1)由题意知
.
因为,所以,
故从样本相关系数的角度,模型中与的相关性较强.
(2)(i)由,得,即.
因为,
所以,
故关于的经验回归方程为,即
,所以.
(ii)将代入得.
,故得,解得,
故预测下一年的研发资金投入量是27.1亿元.
5.(24-25高二下·湖南长沙·阶段练习)众所周知,乒乓球被称为中国的“国球”,是一种世界流行的球类体育项目,包括进攻、对抗和防守.某学校为了丰富学生的课后活动内容,增强学生体质,决定组织乒乓球活动社.以下是接下来7个星期(用x=1表示第1个星期,用x=2表示第二个星期,以此类推)参加活动的累计人数y(人)的统计数据.
x
1
2
3
4
5
6
7
y
6
14
20
37
74
108
203
(1)根据表中数据可以判断y与x大致满足回归模型,试建立y与x的回归方程(精确到0.01);
(2)为了更好地开展体育类型活动,学校继续调查全校同学的身高情况.采用按比例分层抽样抽取了男生30人,其身高的平均数和方差分别为171.5和13.0;抽取了女生20人,其身高的平均数和方差分别为161.5和27.0,试求全体学生身高的平均数和方差.
参考数据:,其中;
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)平均数为167.5,方差为42.6
【分析】(1)利用对数变换将非线性回归模型转化为线性回归模型,再根据给定的参考公式求出线性回归方程的系数,进而得到与的回归方程;
(2)根据分层抽样的性质,利用平均数和方差的计算公式来求解全体学生身高的平均数和方差.
【详解】(1)已知,两边取常用对数可得,
设,,,则回归方程变为.
先计算,,,.
根据参考公式,,将,,,代入可得:
.
.
则,
因为,,所以,则;,则.
所以与的回归方程为.
即
(2)全体学生身高的平均数.
根据方差公式(其中为各层人数,为各层方差,为各层平均数,为总平均数).
将,,,,,,代入可得:
则全体学生身高的平均数为167.5,方差为42.6.
【题型三 残差与决定系数】
一、单选题
1.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
【答案】C
【分析】从图中分析得到加入点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关性的概念和性质作出判断即可.
【详解】对于A,加入点后,变量与预报变量相关性变弱,
但不能说,不具有线性相关性,所以A不正确
对于B,决定系数越接近于1,拟合效果越好,所以加上点后,决定系数变小,故B不正确;
对于C,从图中可以看出点较其他点,偏离直线远,所以加上点后,回归效果变差.
所以相关系数的绝对值越趋于0,故C正确;
对于D,残差平方和变大,拟合效果越差,所以加上点后,残差平方和变大,故D不正确;
故选:C.
2.(24-25高二上·四川自贡·期中)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
【答案】A
【分析】根据一元线性回归模型中对随机误差的假定进行判断.
【详解】对于A,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,故A正确;
对于B,残差与观测时间有线性关系,故B错误;
对于C,残差的方差不是一个常数,随着观测时间变大而变小再变大,故C错误;
对于D,残差与观测时间是非线性关系,故D错误.
故选:A.
3.(24-25高二上·江西南昌·期末)已知变量x和变量y的一组成对样本数据为,其中,其回归直线方程为,当增加两个样本数据和后,重新得到的回归直线方程斜率为3,则在新的回归直线方程的估计下,样本数据所对应的残差为( )(残差=观察值-估计值)
A.2 B. C. D.
【答案】B
【分析】先计算新的数据的平均值,后得到经验回归方程,再结合残差概念计算即可.
【详解】∵,
∴增加两个样本点后的平均数为;
∵,∴,
∴增加两个样本点后y的平均数为,
∴,解得,
∴新的经验回归方程为,则当时,,
∴样本点的残差为
故选:B.
二、解答题
4.(24-25高二下·重庆沙坪坝·阶段练习)2025年春晚最火的节目无疑是机器人扭秧歌. 其中表演的机器人出自宇树科技, 宇树科技是一家专注于高性能四足机器人研发和生产的中国科技公司. 该公司以其创新的四足机器人在全球范围内广受关注,主要应用于教育、科研、娱乐和工业等领域,其中四大产品之一的机器人Unitree A1具备较强的负载能里和环境适应性, 可用于巡检与监控、物流和运用、安防与救援. 现统计出机器人Unitree A1在某地区2024年2月到6月的销售量如下表所示:
月份
2
3
4
5
6
销量
42
53
66
109
用最小二乘法得到Unitree A1的销售量关于月份的回归直线方程为,且相关系数,销量的方差.
(1)求的值(结果精确到0.1);
(2)求的值,并根据(1)的结果计算5月销售量的残差.
附: 回归系数,相关系数 .
【答案】(1)
(2);残差为
【分析】(1)根据题中数据可得,,,代入即可求的值;
(2)根据线性回归方程必过样本中心点求的值,令,可得,即可得残差.
【详解】(1)由表可得:,,
因为,可得,
又因为,
可得,
所以.
(2)由表可知:,
由(1)可知回归直线方程为,且,
则,解得,
此时,,可得,符合题意,
所以,
对于回归直线方程,令,可得,
所以5月销售量的残差.
5.(24-25高二上·河北沧州·阶段练习)近年来,政府相关部门引导乡村发展旅游业的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲、乙两名同学一起收集了6家农户的数据,进行回归分析,得到两个回归模型:模型①;模型②.对以上两个回归方程进行残差分析,得到下表:
种植面积亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
0.38
0.28
模型②
估计值
26.84
20.17
18.83
17.31
16.46
残差
0.83
3.17
注:表中.
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求其经验回归方程.
参考公式:.
【答案】(1)表格见解析,模型①拟合效果更好.
(2)
【分析】(1)根据回归模型①②分别代入求出相应每亩种植管理成本的估计值,再由实际值与估计值的差求出相应残差,然后分别计算残差平方和,比较大小判断拟合效果即可;
(2)根据残差的绝对值剔除异常数据,由参考公式求解可得经验回归方程.
【详解】(1)当时,
当时,,
完成表格如下:
种植面积/亩
2
3
4
5
7
9
每亩种植管理成本/百元
25
24
16
14
模估计值
25.27
23.62
21.97
20.32
17.02
13.72
①残差
0.38
1.68
.02
0.28
模估计值
26.84
22.39
20.17
18.83
17.31
16.46
②残差
.84
1.61
0.83
3.17
注:表中.
模型①的残差平方和为5.0994,
模型②的残差平方和为24.4832,
因为,
即模型①的残差平方和比模型②的残差平方和小,所以模型①拟合效果更好.
(2)由题意及(1)可知,模型①中仅第四组数据残差的绝对值超过1.5,
故应剔除第四组数据,剔除后,
则,
所以
,
则,
所以所求经验回归方程为.
6.(23-24高二下·重庆·阶段练习)某公司为了解年研发资金(单位:亿元)对年产值(单位:亿元)的影响,对公司近8年的年研发资金和年产值(,)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的关于的经验回归方程:
①;②.
(1)求的值;
(2)已知①中的残差平方和,②中的残差平方和,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:,,,.
参考公式;刻画回归模型拟合效果的决定系数.
【答案】(1)
(2)经验回归方程②的拟合效果更好;亿元.
【分析】(1)求出样本中心点,代入经验回归方程求出;
(2)根据公式求出两个经验回归方程的决定系数,并判断拟合效果;利用方程预测.
【详解】(1)根据题意,,,
所以样本中心点为,代入经验回归方程,
得,解得.
所以的值为.
(2)设经验回归方程①的决定系数为,由,
则,
设经验回归方程②的决定系数为,由,
则,
因为,所以经验回归方程②的拟合效果更好;
当时,,
所以年研发资金为20亿元时的年产值约为亿元.
7.(23-24高二下·重庆·开学考试)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响我们的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量y(单位:千件)的数据统计表.
1
2
3
4
5
6
1
1.5
3
6
12
(1)公司拟分别用①和②两种方案作为年销售量关于年投入额的回归分析模型,请根据已知数据,确定方案①和②的经验回归方程;(计算过程保留到小数点后两位,最后结果保留到小数点后一位)
(2)根据下表数据,用决定系数(只需比较出大小)比较两种模型的拟合效果哪种更好,并选择拟合精度更高的模型,预测年投入额为百万元时,产品的销售量是多少?
经验回归方程
残差平方和
参考公式及数据:,,,,,,,, .
【答案】(1),
(2)②的拟合效果好,预测销售量是千件
【分析】(1)根据经验回归方程的求法求得正确答案.
(2)通过计算决定系数确定拟合效果较好的方案,并由此进行预测.
【详解】(1),
所以,
所以.
由,两边取以为底的对数得,即,
,
所以,所以.
(2),
对于,;对于,,
所以②的拟合效果好,当时,预测值千件.
8.(23-24高二下·宁夏银川·阶段练习)某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y(万人)与年份x的数据:
第x年
1
2
3
4
5
6
7
8
9
10
旅游人数y(万人)
300
283
321
345
372
435
486
527
622
800
该景点为了预测2021年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法公式求得y与x的线性回归方程;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线的附近.
(1)根据表中数据,求模型②的回归方程.(a精确到个位,b精确到0.001).
(2)根据下列表中的数据,比较两种模型的决定系数,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).
回归方程
①
②
30407
14607
参考公式、参考数据及说明:
①,
②刻画回归效果的决定系数;
③参考数据: ,
5.5
449
6.05
83
4195
9.00
表中.
【答案】(1)
(2)答案见解析
【分析】(1)对取对数,得,设,,先建立关于的线性回归方程.再回代,得到建立关于的非线性回归方程.
(2)先求出两种模型的决定系数,再根据大小决定选哪种模型,再代值,计算即可预测2021年该景区的旅游人数.
【详解】(1)对取对数,得,设,,先建立关于的线性回归方程.
,,
,
模型②的回归方程为.
(2)由表格中的数据,有3040714607,即,
即,,
模型①的相关指数小于模型②的,说明回归模型②的拟合效果更好.
2021年时,,预测旅游人数为(万人).
【题型四 独立性检验】
一、单选题
1.(24-25高二上·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生
女生
篮球迷
90
20
非篮球迷
60
30
0.10
0.05
0.01
0.005
2.706
3.841
6.635
7.789
附:
A.有99.5%的把握认为是否是篮球迷与性别有关
B.有99%的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【答案】D
【分析】根据所给数据完善列联表,计算出卡方,即可判断.
【详解】依题意可得列联表如下:
男生
女生
合计
篮球迷
90
20
110
非篮球迷
60
30
90
合计
150
50
200
所以,
所以没有99%的把握认为是否是篮球迷与性别有关,进而没有99.5%的把握认为是否是篮球迷与性别有关,A,B选项错误;
又,最准确的是在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关,D选项正确.
故选:D.
2.(24-25高二下·全国·课后作业)假设有两个分类变量和,它们的可能取值分别为和,其列联表如下:
总计
总计
对于以下数据,对同一样本能说明与有关的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【答案】B
【分析】对于同一样本,越大,说明与之间的关系越强.
【详解】根据(其中),
值越大,说明“与有关系”的可能性越大,
对于同一样本,越大,说明与之间的关系越强
对于A,当,,,时,;
对于B,当,,,时,;
对于C,当,,,时,;
对于D,当,,,时,;
因为,所以B中的值最大,即B对应的值最大,说明与之间的关系越强.
故选:B.
3.(24-25高二上·辽宁·期末)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若有的把握认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能为( )
附:,.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.54 B.48 C.42 D.36
【答案】D
【分析】设男生人数为,结合卡方计算可得,即,进而可判断.
【详解】设男生人数为,因为被调查的男、女生人数相同,所以女生人数也为,根据题意列出列联表:
男生
女生
合计
喜欢冰雪运动
不喜欢冰雪运动
合计
则,因为有的把握认为是否喜欢冰雪运动与学生性别有关,所以,即,解得,又,所以A,B,C项正确,D项错误.
故选:D
4.(2024高二·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【答案】C
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
岁及以上
岁以下
总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
二、解答题
5.(2025·陕西·模拟预测)某生产工厂生产优质钢索,现需要通过不同场次进行钢索检索抽查.现从机器内随机选取了40组(各20组),记录了他们不同米数,并将数据整理如下表:
米数组别
0~20
21~50
51~80
81~100
A
1
2
3
8
6
B
0
3
7
8
2
米数超过被系统评定为“优质”,否则被系统评定为“备选”.
(1)利用样本估计总体的思想,试估计工厂中米数超过的概率;
(2)根据题意完成下面的列联表,并据此判断能否有的把握认为“评定类型”与“组别”有关?
优质
备选
总计
A
B
总计
附:,其中.
0.100
0.050
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)
(2)列联表见解析,没有的把握认为“评定类型”与“组别”有关.
【分析】(1)根据样本估计总体即可;
(2)利用独立性检验思想求解.
【详解】(1)由题可得,样本米数超过的频率为,
根据样本估计总体的思想,估计工厂中米数超过的概率为.
(2)根据题意,列联表完成如下,
优质
备选
总计
A
14
6
20
B
10
10
20
总计
24
16
40
零假设:“评定类型”与“组别”无关,
则,
所以零假设成立,即“评定类型”与“组别”无关,
所以没有的把握认为“评定类型”与“组别”有关.
6.(24-25高二下·辽宁沈阳·阶段练习)2024年9月16日,沈阳市举行马拉松比赛,全球马拉松爱好者积极参与本场比赛,某服务部门为提升服务质量,随机采访了120名参赛人员,得到下表:
满意度
性别
合计
女性
男性
比较满意
50
非常满意
40
70
合计
60
120
(1)求的值;
(2)能否有的把握认为不同性别的参赛人员对该部门服务质量的评价有差异?
(3)用频率估计概率,现随机采访本场比赛的1名女性参赛人员与2名男性参赛人员,已知3人中恰有一人对该部门服务非常满意,求该人为女性的概率.
附:.
0.1
0.01
0.001
2.706
6.635
10.828
【答案】(1)
(2)有的把握认为不同性别的参赛人员对该部门服务质量的评价有差异,理由见解析
(3)
【分析】(1)根据列联表即可求解,,,得解;
(2)计算卡方,即可与临界值比较作答;
(3)根据相互独立乘法事件的概率公式及条件概率公式即可求解.
【详解】(1)解:完善列联表为:
满意度
性别
合计
女性
男性
比较满意
30
20
50
非常满意
30
40
70
合计
60
60
120
故,,,,故;
(2)假设:依据小概率值的独立性检验,认为不同性别的参赛人员对该部门服务质量的评价没有差异,根据题目所给公式:.
,
故依据小概率值的独立性检验,有的把握认为不同性别的参赛人员对该部门服务质量的评价有差异.
(3)女性对服务满意的概率为,女性对服务不满意的概率为,男性对服务满意的概率为,男性对服务不满意的概率为;
设事件为“采访1名女性参赛人员与2名男性参赛人员中,3人中恰有一人对该部门服务非常满意”,事件为“该人为女性”;
;
,
由条件概率.
7.(24-25高二下·辽宁丹东·期中)某社区为推进智慧社区建设,给居民提供了一款手机构建智能化社区管理服务模式.为了解居民对该的满意度,从管辖范围内的某小区居民中随机抽查了200人,其中男女各占一半,得到如下表格:单位:人
使用
不使用
总计
女性
60
男性
70
总计
(1)请补全题表,并判断是否有的把握认为居民是否使用该与性别有关;
(2)从以上使用该的居民中按性别进行分层抽样抽取6人,再从这6人中随机抽取3人了解居民对该的满意度,记抽取的3人中男性用户的人数为,求的分布列与数学期望.
附:(其中).
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【答案】(1)列联表见解析,有
(2)分布列见解析,
【分析】(1)填写列联表,进行独立性检验即可;
(2)求出概率再列出分布列,最后计算数学期望即可.
【详解】(1)表格如下:单位:人
使用APP
不使用APP
总计
女性
60
40
100
男性
30
70
100
总计
90
110
200
因为,
所以有的把握认为居民是否使用该APP与性别有关.
(2)从使用该APP的居民中按性别进行分层抽样抽取的6人中,女性有4人,男性有2人,
所以可能取.
因为,
所以的分布列为
0
1
2
所以.
【压轴能力测评】
一、单选题
1.(24-25高二上·山东威海·期末)下列散点图中,线性相关系数最小的是( )
A. B.
C. D.
【答案】A
【分析】利用散点图变化趋势,判断相关系数的正负,由散点的集中程度确定大小,即可得到答案.
【详解】观察选项A的散点图,这些点紧密地聚集在一条直线附近.其线性相关系数接近于;
选项B的散点图中,线性负相关程度不及A,比较分散,即线性相关系数要比选项A的大.
选项C的散点图里,散点呈现出一定的上升趋势,变量和之间具有强的线性相关关系,其线性相关系数为正数.
选项D的散点图中,散点比较分散,线性相关程度比选项A要弱,线性相关系数的比选项A的大.
综合比较四个选项,选项A,线性负相关程度最强,所以线性相关系数最小.
故选:A.
2.(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号
1
2
3
4
5
6
1
1.2
1.4
1.6
1.8
2.0
3.08
3.76
4.31
5.02
5.51
6.25
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3 B.2 C.1 D.0
【答案】C
【分析】根据散点图判断.
【详解】画出弹簧伸长长度x和相应所受外力F的散点图,
可以判断这两变量相关,且为正相关,故①②错误,③正确.
故选:C
3.(23-24高二下·吉林长春·期中)2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,在犯错误的概率大于0.001且不超过0.01的前提下认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:,其中.
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
A.130 B.190 C.240 D.250
【答案】B
【分析】设男、女学生的人数都为,可得列联表,由独立性检验算出,结合观测值和选项可得答案.
【详解】依题意,设男、女学生的人数都为,则男、女学生的总人数为,可得列联表如下,
喜欢网络课程
不喜欢网络课程
总计
男生
女生
总计
故,
由题意可得,
所以,结合选项可知,只有B符合题意.
故选:B.
4.(23-24高二下·全国·课堂例题)假设有两个分类变量和的列联表如下:注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
总计
a
10
a+10
c
30
总计
A. B.
C. D.
【答案】A
【分析】当一定时,相差越大,与相差越大,的观测值就越大,得出分类变量和有关系的可能性越大.
【详解】根据独立性检验的方法和列联表可得,当与相差越大,则分类变量和有关系的可能性越大,
即相差越大,与相差越大.
由各选项可得A满足条件,
故选:A.
5.(23-24高二下·新疆克孜勒苏·期末)下列四个命题中,真命题的序号为( ).
①甲乙两组数据分别为:甲:28,31,39,42,46,55,57,58,66;乙:29,34,35,44,46,48,53,55,55,67.则甲乙的中位数分别为46和45.
②相关系数,表明两个变量的相关程度较弱.
③若由一个列联表中的数据计算得的值约为7.866,那么有的把握认为这两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A.①③ B.①③④ C.①②③ D.③④
【答案】D
【分析】①利用中位数概念求解即可;②相关系数时,两个变量的相关程度较强;③对照表格判断即可;④按照残差定义判断即可.
【详解】①由甲的数据可知它的中位数为46,乙的中位数为,故①错误;
②相关系数时,两个变量的相关程度较强,故②错误;
③由于的值约为7.866,大于6.635,故有的把握认为两个变量有关,故③正确;
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指,故④正确.
故选:D.
6.(23-24高二下·山东枣庄·期末)学校开设了游泳选修课.某教练为了解学生对游泳运动的喜好和性别是否有关,在全校学生中选取了男、女生各人进行调查,并绘制如下图所示的等高堆积条形图.则( )
参考公式及数据:,其中.
0.1
0.01
0.001
2.706
6.635
10.828
A.参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数多
B.全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多
C.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
D.若,依据的独立性检验,可以认为游泳运动的喜好和性别有关
【答案】D
【分析】根据等高堆积条形图即可判断A,B选项,计算出的值即可判断C,D选项.
【详解】对于A,由等高堆积条形图可知,参与调查的女生中喜欢游泳运动的人数比不喜欢游泳运动的人数少,故A错误;
对于B,全校学生中男生和女生人数比不确定,故不能确定全校学生中喜欢游泳运动的男生人数比喜欢游泳运动的女生人数多,故B错误;
对于C,结合等高堆积条形图可得:
性别
游泳
合计
喜欢
不喜欢
男生
0.6n
0.4n
n
女生
0.4n
0.6n
n
合计
n
n
2n
故,
若,则,
故依据的独立性检验,不可以认为游泳运动的喜好和性别有关,故C错误;
对于D,若,则,
依据的独立性检验,可以认为游泳运动的喜好和性别有关,故D正确.
故选:D
7.(2025·山东烟台·一模)已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
【答案】A
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线,估计的对应值,最后由残差的定义求解.
【详解】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以,有,故残差的绝对值为.
故选:A
8.(2025·上海浦东新·二模)研究变量,得到一组成对数据,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差变大
【答案】C
【分析】设变量,的平均数分别为,,分析可知,.对于AB:根据相关系数的计算公式和性质分析判断;对于CD:根据回归方程和拟合误差的性质分析判断.
【详解】设变量,的平均数分别为,,
则,,即,,
可知新数据的样本中心点不变,仍为,
对于AB:可得,
同理可得,
则相关系数,
可知相关系数的值不变,变量与变量的相关性不变,故AB错误;
对于C:因为,且线性回归方程过样本中心点,
即均不变,所以线性回归方程不变,故C正确;
因为即为样本中心点,即,
可知残差平方和不变,
所以拟合误差不变,故D错误;
故选:C.
二、解答题
9.(2025·甘肃·一模)为了解高二学生整理数学错题与提高数学成绩的相关性,某小组通过随机抽样,获得了每天整理错题和未每天整理错题的各20名学生3次数学考试成绩的平均分,绘制了如图1,2的频率分布直方图,并且已知高二学生3次数学考试成绩的总体均分为115分.
(1)依据频率分布直方图,完成以下列联表:
成绩不低于总体均分
成绩低于总体均分
合计
每天整理错题
未每天整理错题
合计
(2)依据小概率值的独立性检验,分析数学成绩不低于总体均分是否与每天整理数学错题有关.
附
0.10
0.01
0.001
2.706
6.635
10.828
【答案】(1)答案见解析
(2)有关
【分析】(1)根据数表分析计算即可完善列联表;
(2)利用卡方计算公式,及独立性检验思想分析即可;
【详解】(1)根据频率分布直方图,可得
成绩不低于总体均分
成绩低于总体均分
合计
每天整理错题
14
6
20
未每天整理错题
5
15
20
合计
19
21
40
(2)假设:数学成绩不低于总体均分与每天整理数学错题无关.
计算可得
根据小概率值的独立性检验,可推断不成立,
即认为数学成绩不低于总体均分与每天整理错题有关.
10.(24-25高二下·江西抚州·阶段练习)为了解消费者购买新能源汽车意向与年龄是否具有相关性,某汽车公司通过问卷调查对200名消费者进行调查.数据显示200名消费者中,青年人共有125人,且中老年中愿意购买新能源车的人数是愿意购买燃油车的2倍:青年中愿意购买新能源车的人数是愿意购买燃油车的4倍.
(1)完善列联表,请根据小概率值的独立性检验,分析消费者对新能源车和燃油车的意向购买与年龄是否有关;
年龄段
购车意向
合计
愿意购买新能源车
愿意购买燃油车
青年
中老年
合计
(2)采用分层随机抽样从愿意购买新能源车的消费者中抽取6人,再从这6人中随机抽取2人,求这2人中青年人数的分布列和期望.
附:,.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】(1)表格见解析;消费者对新能源车和燃油车的意向购买与年龄有关;
(2)分布列见解析;.
【分析】(1)填写列联表,求出卡方值,比较临界值即可判断;
(2)由超几何分布求出分布列及其期望.
【详解】(1)
年龄段
购车意向
合计
愿意购买新能源车
愿意购买燃油车
青年
100
25
125
中老年
50
25
75
合计
150
50
200
零假设:费者对新能源车和燃油车的意向购买与年龄无关,
因,
则根据小概率值的独立性检验,消费者对新能源车和燃油车的意向购买与年龄有关.
(2)愿意购买新能源车的消费者中,青年与中老年的人数之比为,
所以采用分层随机抽样抽取的6人中,4人是青年,2人是中老年,
记抽取的2人中,青年的人数为,则的可能取值为0,1,2,
,, ,
所以的分布列如下:
0
1
2
.
11.(24-25高二下·江苏镇江·期中)根据统计,某蔬菜基地西红柿亩产量的增加量(单位:百千克)与某种液体肥料每亩使用量(单位:千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数,并说明线性相关性的强弱(相关系数精确到小数点后2位,若,则线性相关程度很高);
(2)求关于的线性回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少百千克.
附:数据和公式:;回归方程:,其中.相关系数:.
【答案】(1)0.95,与线性相关性很强.
(2),6.1
【分析】(1)根据题意,结合相关系数的公式,求得,即可得到结论;
(2)根据最小二乘法的公式,求得,得出的值,求得回归方程,令,求得的值,即可得到预测值.
【详解】(1)根据题意,可得,
且,
,
,
可得,
因为时线性相关程度很高,所以与线性相关性很强.
(2)由,则,
所以线性回归方程为,
当时,,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为6.1百千克.
12.(24-25高二下·浙江宁波·阶段练习)某企业前8个月月底的盈利金额(万元)与月份之间的关系如下表所示:
1
2
3
4
5
6
7
8
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
(1)用模拟与的关系,求出回归方程;
(2)根据(1)的结果计算,在几月份的月底统计的盈利金额开始超过60万元?
附:①;
②;
③回归直线中斜率和截距的最小二乘估计公式为:.
【答案】(1)
(2)10月
【分析】(1)对两边同时取自然对数得,令,利用最小二乘法可求得,由此可得经验回归方程;
(2)根据回归方程代入计算求解.
【详解】(1)令,则,
,
,
故.
(2)令,
故,
故10月开始超过.
13.(23-24高二上·湖南衡阳·阶段练习)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1∼10分别对应年份2013∼2022.
根据散点图,分别用模型①,②作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75
2.25
82.5
4.5
120
28.35
表中,.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型?并说明理由;
(2)(i)根据(1)中所选模型,求出y关于x的经验回归方程;
(ii)设该科技公司的年利润(单位:亿元)和年研发投入y(单位:亿元)满足(且),问该科技公司哪一年的年利润最大?
附:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)选择模型②更适宜,理由见解析
(2)(i);(ii)该公司2028年的年利润最大
【分析】(1)根据残差图确定;
(2)根据最小二乘法求非线性回归方程即可求解;
【详解】(1)根据图2可知,模型①的残差波动性很大,说明拟合关系较差;
模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.
(2)(i)设,所以,
所以,,
所以关于的经验回归方程为
(ii)由题设可得,
当取对称轴即,即时,年利润L有最大值,
故该公司2028年的年利润最大.
14.(23-24高二下·河北沧州·期中)2024年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
步频(单位:)
0.28
0.29
0.30
0.31
0.32
步长(单位:)
90
95
99
103
117
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【答案】(1), 0.27秒,;
(2)成立,证明见解析.
【分析】(1)根据已知条件求得回归方程的系数,即可得回归方程,将代入回归方程,即可得到答案;
(2)结合题中数据进行计算,可求得步长的残差和,从而可得结论,结合回归方程系数的计算公式即可证明.。
【详解】(1),,
,,
所以回归直线方程为,
将代入得,解得,所以当步长为时,步频约是0.27秒.
(2)根据(1)得到,;
,;
,;
,;
,,
所以,即步长残差和为0.
对任意具有线性相关关系的两个变量都成立,证明如下:
.
15.(23-24高二上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.
x
141
152
168
182
195
204
223
254
277
y
23.1
24.2
27.2
27.8
28.7
31.4
32.5
34.8
36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?
(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.
附:相关系数,决定系数,.
【答案】(1),答案见解析
(2)(ⅰ)0;(ⅱ)0.9847
【分析】(1)根据相关系数的计算公式即可求解,由相关系数的定义结合统计学知识即可求解,
(2)根据残差公式以及决定系数的计算公式即可求解.
【详解】(1)不妨设选择的成对数据分别为,,则
.又由表格数据得,当时,,则.
因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.
样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推新变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠.
(2)(ⅰ)(直线经过数据的中心).
(ⅱ)∵,∴,
则,
越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好,为最优模型.
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$