内容正文:
第八章 成对数据的统计分析(思维导图+知识清单+四大易错点总结)
【人教A版】
8.1 成对数据的统计相关性
【知识点1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
【知识点2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
8.2 一元线性回归模型及其应用
【知识点1 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.随机误差
在线性回归模型Y=bx+a+e中,a和b为模型的未知参数,e是Y与bx+a之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方程D(e)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
【知识点2 一元线性回归模型参数的最小二乘估计】
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【注】
1.经验回归直线过点.
2.求时,常用公式.
8.3 列联表与独立性检验
【知识点1 分类变量与列联表】
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
【知识点2 独立性检验】
1.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值,如下表所示.
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
2.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【注】
1.独立性检验是基于成对样本观测数据进行估计或推断,得出的结论可能犯错误.
【易错点1 残差计算反了】
易错点分析:记错了残差的计算方式,在计算残差时计算反了,错误的用预测值减去观测值来计算残差,导致结果出错.
【注】:观测值减去预测值称为残差.
【典例1】(24-25高二下·河南新乡·月考)若变量与之间存在线性相关关系,且根据最小二乘法得到的经验回归方程为,则样本点的残差为( )
A. B. C. D.2.5
【答案】A
【解题思路】根据回归直线方程,令,可得,进而求得样本点的残差,得到答案.
【解答过程】由回归方程为,令,可得,
所以样本点的残差为.
故选:A.
【跟踪训练1.1】(24-25高二下·福建泉州·月考)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【答案】D
【解题思路】利用回归方程过样本点,可求参数,然后再根残差概念即可求解.
【解答过程】由表格中数据可求得:,
,
根据关于的经验回归方程必过点得:
,故经验回归方程为,
当时,预报值,
所以在样本点处的残差为,
故选:D.
【跟踪训练1.2】(24-25高二下·福建泉州·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【解题思路】利用线性回归方程必过样本中心点这个性质来求解,结合残差为实际值减去预测值,即可作出判断.
【解答过程】由回归直线方程为必过点,所以,
由于去掉两个样本点和后,
得到新的样本数据的平均数为:
因为新的回归直线的斜率为3,根据必过点,
可得回归直线方程为:,即,
当时,,
在新的经验回归方程下,样本的残差为,
故选:B.
【跟踪训练1.3】(24-25高二下·河南驻马店·月考)某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【答案】C
【解题思路】根据相关系数的绝对值不超过1可得选项A错误;根据回归直线方程可得选项B错误;根据残差的概念可得选项C正确,选项D错误.
【解答过程】A.相关系数的绝对值不超过1,A错误;
B.由回归直线方程知,每增加一个单位,平均减少个单位,B错误;
C.第二个样本点对应的残差,C正确;
D.第三个样本点对应的残差,D错误.
故选:C.
【跟踪训练1.4】(24-25高二下·河北保定·阶段检测)某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
【答案】(1);
(2);
(3).
【解题思路】(1)由得到,再由平均数的求法列方程,即可得;
(2)根据已知可得、,结合(1)及已知得,再应用最小二乘法求回归直线方程;
(3)由(2)所得方程估计,对应数据,再由残差的求法求残差,即可得.
【解答过程】(1),可得,
所以,则,即;
(2)由,且,
所以,可得,结合,,,所以,
则 ,
,
所以,则,
所以回归直线为;
(3)当,,则,
当,,则,
所以.
【易错点2 回归直线方程计算错误】
易错点分析:没有掌握回归直线方程过样本中心点而不是过大部分点这个关键点,随便选了一个点代入方程计算,导致回归直线方程求解错误.
【注】:1.经验回归直线过点.
【典例2】(24-25高二下·广东广州·期末)随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
【答案】D
【解题思路】利用正负相关的概念即可作出选项A的判断,利用经验回归直线经过样本中心点,可通过计算判断B,利用公式求参数和,即可判断C,利用相关系数接近于1可判断D.
【解答过程】由样本相关系数可得y与x呈正相关关系,故A错误;
由数据可得: ,
故经验回归直线经过点,故B错误;
由,
则,故经验回归方程为,故C错误;
由于样本相关系数较接近于1,则y与x的线性相关程度较强,故D正确;
故选:D.
【跟踪训练2.1】(24-25高二下·江西赣州·期中)已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【答案】D
【解题思路】根据已知数据求,代入回归直线方程即可求解.
【解答过程】由题意得.
,,
所以,
故线性回归方程为.
故选:D.
【跟踪训练2.2】(24-25高二下·安徽·月考)某公司为了预测2025年度公司收益,对2020至2024年的投入与收益情况进行统计,得到统计数据表:
年份
2020
2021
2022
2023
2024
投入x(百万元)
6.3
7.4
8.1
8.5
9.7
收益y(百万元)
8.3
8.8
9.9
11.1
11.9
据上表得回归直线方程,其中,据此估计,该公司2025年计划投入15百万元,则该公司在2025年收益(单位:百万元)为( )
A.18.75 B.18.05 C.17.85 D.17.25
【答案】B
【解题思路】首先根据表格数据求的平均值,然后根据公式求出的值,得到回归直线方程,最后将投入代入方程中即可得到收益.
【解答过程】由表格计算得到,,
由,可得,
所以回归方程为,
则时,百万元.
故选:B.
【跟踪训练2.3】(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
【答案】D
【解题思路】由题意求得样本中心,从而求得回归直线方程,代入数据,可得答案.
【解答过程】依题意,.
又线性回归方程为必过点,所以,解得,
所以,2026年的年份代号为6,所以当时,,
所以根据回归方程预测该店2026年“五一”黄金周的销售额是111万元.
故选:D.
【跟踪训练2.4】(24-25高二下·江西·期末)某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:
营业时间
1
2
3
4
5
饮品销量
17
36
56
77
99
已知与线性相关.
(1)根据以上数据求饮品销量关于营业时间的回归直线方程;
(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?
参考公式:回归直线方程中,,.
【答案】(1)
(2)能,理由见详解
【解题思路】(1)根据回归方程相关参数的计算公式计算即可;
(2)根据(1)中的回归方程,先估计销量即可判断总利润是否超过1000元.
【解答过程】(1)根据题意,,
,,
,
,
所以回归直线方程为.
(2)由(1)知,回归方程为,
早上9点开始营业,晚上9点结束营业,共营业12小时,
所以估计共销售杯,盈利元,
所以试预测当日饮品的总利润能超过1000元.
【易错点3 非线性回归模型的方程求解错误】
易错点分析:处理非线性回归模型问题时,没有合理把所给函数模型进行变形构造为一元线性回归模型,或者带入错误的数据进行计算,导致结果错误.
【注】:非线性回归模型问题要先变形为一元线性回归模型问题,再进行求解.
【典例3】(24-25高二下·福建漳州·月考)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】B
【解题思路】令,由,得,因为,所以,则,即可求解.
【解答过程】令,则,
又,由,得,
因为,所以,
则,
下午4点时对应的是,
可得,
故选:B.
【跟踪训练3.1】(24-25高二下·四川广安·期中)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【答案】(1)选.
(2);690
【解题思路】(1)观察散点图,结合散点图的特征选择合适的回归方程类型.
(2)由,得.再根据所给数据,结合线性回归方程的有关计算公式,可求回归方程,再令求值即可.
【解答过程】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,
所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.
(2)因为表示活动推出的天数,,则.
.
因为,所以.
所以 ,所以.
又,所以.
所以.
当时,.
所以预测活动推出第8天售楼部来访的人次为690.
【跟踪训练3.2】(24-25高三上·四川眉山·月考)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
【解题思路】(1)分别求出两种模型的相关系数,再根据相关系数的几何意义即可得出结论;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解.
【解答过程】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好;
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
【跟踪训练3.3】(24-25高二下·黑龙江哈尔滨·期中)即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使机构的服务需求持续增长.数据显示,近年来中国市场规模迅速扩大.下表为2018年年中国市场规模(单位:百亿元),其中2018年年对应的代码依次为.
年份代码x
1
2
3
4
5
中国市场规模y
1.12
1.68
2.45
3.35
4.32
(1)由上表数据可知,可用指数函数模型拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国市场规模(单位:百亿元):
(2)从2018年年中国市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58
0.84
46.83
15.99
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:
【答案】(1)①;②12.61
(2)分布列见解析,
【解题思路】(1)两边同时取自然对数得,设,则,从而将非线性方程转化为线性方程,利用题中数据可求得,,可得y关于x的回归方程,进而可预测2025年中国市场规模;
(2)X的可能取值为1,2,3,计算出对应的概率,可得分布列,再利用期望公式计算期望即可.
【解答过程】(1)两边同时取自然对数得.
设,则,
因为,
所以.
把代入,得,
所以,则,
所以,即y关于x的回归方程为.
2025年的年份代码是8,
故预测2025年中国市场规模为(单位:百亿元)
(2)2018年年中国市场规模的5个数据中,与的差的绝对值小于1的数据有,共3个,
所以的可能取值为,
,
所以的分布列为
1
2
3
.
【跟踪训练3.4】(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【解题思路】(1)利用函数①②③的性质及表中的数据,即可求解;
(2)先将非线性回归方程转化成线性回归方程,再根据题设条件,利用最小二乘法,即可求解.
【解答过程】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
【易错点4 独立性检验的卡方计算错误】
易错点分析:利用卡方的计算公式计算卡方时,代入了错误的公式或数据,导致计算结果错误.
【注】:公式.
【典例4】(25-26高二·全国·寒假作业)第三十一届世界大学生夏季运动会于2023年8月8日晚在四川省成都市胜利闭幕.来自113个国家和地区的6500名运动员在此届运动会上展现了青春力量,绽放青春光彩,以饱满的热情和优异的状态谱写了青春、团结、友谊的新篇章.外国运动员在返家时纷纷购买纪念品,尤其对中国的唐装颇感兴趣,现随机对200名外国运动员(其中男性120名,女性80名)就是否有兴趣购买唐装进行了解,统计结果如下的列联表,则认为“外国运动员对唐装感兴趣与性别有关”的把握约为( )
有兴趣
无兴趣
总计
男性运动员
80
40
120
女性运动员
40
40
80
总计
120
80
200
附表:
0.025
0.010
0.001
5.024
6.635
10.828
A.97.5% B.99% C.99.5% D.99.9%
【答案】A
【解题思路】利用独立性检验的卡方公式计算统计量,再与临界值比较,确定“外国运动员对唐装感兴趣与性别有关”的把握程度.
【解答过程】根据卡方检验公式,其中,,,,.
, .
因为(对应犯错误的概率不超过,即有把握程度约为).
故选:A.
【跟踪训练4.1】(24-25高二下·河北保定·月考)AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):
性别
使用情况
合计
经常使用
不经常使用
男性
女性
合计
依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为( )
(附:,,)
A.48 B.49 C.50 D.51
【答案】D
【解题思路】根据卡方的计算式计算出卡方的结果,和去比较,计算即可得出结果.
【解答过程】将列联表中的数据代入公式计算得:,
解得 48.726,又,
所以的最小值为51 .
故选:D.
【跟踪训练4.2】(24-25高二下·全国·课后作业)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
运动
性别
总计
男
女
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
下列结论正确的是( )
A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01
B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01
C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001
D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001
【答案】A
【解题思路】由独立性检验卡方计算卡方后,结合独立性检验相关概念可得答案.
【解答过程】由公式,
由可知,认为“爱好该项运动与性别有关”,
犯错误的概率不超过0.01.
故选:A.
【跟踪训练4.3】(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【解题思路】求得卡方值,比对临界值,逐个判断即可.
【解答过程】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
【跟踪训练4.4】(24-25高二下·甘肃临夏·期末)某校食堂为了解学生对牛奶、豆浆的喜欢情况是否存在性别差异,随机抽取了100名学生进行问卷调查,得到了如下的统计结果:
项目
喜欢牛奶
喜欢豆浆
合计
男生
40
a
女生
b
25
合计
100
已知从这100名学生的问卷中随机抽取1份,喜欢牛奶的概率为.
(1)求a,b;
(2)根据表中数据,能否认为该校学生对牛奶、豆浆的喜欢情况与性别有关?
附:.
0.010
0.005
0.001
6.635
7.879
10.828
【答案】(1);
(2)该校学生对牛奶、豆浆的喜欢情况与性别有关.
【解题思路】(1)求出喜欢牛奶的人数即可依据喜欢牛奶的男生人数和喜欢豆浆的女生人数依次求出;
(2)计算卡方值即可依据独立性检验思想得解.
【解答过程】(1)由题可知喜欢牛奶的人数有人,所以,
所以喜欢豆浆的人数为,所以.
所以.
(2)由(1)可得统计表格如下:
项目
喜欢牛奶
喜欢豆浆
合计
男生
40
15
55
女生
20
25
45
合计
60
40
100
零假设该校学生对牛奶、豆浆的喜欢情况与性别无关,
由表格数据得,
所以根据小概率值的独立性检验,推断不成立,即认为该校学生对牛奶、豆浆的喜欢情况与性别有关.
第 1 页 共 11 页
学科网(北京)股份有限公司
$
第八章 成对数据的统计分析(思维导图+知识清单+四大易错点总结)
【人教A版】
8.1 成对数据的统计相关性
【知识点1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
【知识点2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
8.2 一元线性回归模型及其应用
【知识点1 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.随机误差
在线性回归模型Y=bx+a+e中,a和b为模型的未知参数,e是Y与bx+a之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方程D(e)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
【知识点2 一元线性回归模型参数的最小二乘估计】
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|= |ei|,显然|ei|越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.求经验回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【注】
1.经验回归直线过点.
2.求时,常用公式.
8.3 列联表与独立性检验
【知识点1 分类变量与列联表】
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道两个分类变量有关系的概率大小.
【知识点2 独立性检验】
1.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值,如下表所示.
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
2.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【注】
1.独立性检验是基于成对样本观测数据进行估计或推断,得出的结论可能犯错误.
【易错点1 残差计算反了】
易错点分析:记错了残差的计算方式,在计算残差时计算反了,错误的用预测值减去观测值来计算残差,导致结果出错.
【注】:观测值减去预测值称为残差.
【典例1】(24-25高二下·河南新乡·月考)若变量与之间存在线性相关关系,且根据最小二乘法得到的经验回归方程为,则样本点的残差为( )
A. B. C. D.2.5
【跟踪训练1.1】(24-25高二下·福建泉州·月考)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【跟踪训练1.2】(24-25高二下·福建泉州·期末)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【跟踪训练1.3】(24-25高二下·河南驻马店·月考)某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
【跟踪训练1.4】(24-25高二下·河北保定·阶段检测)某农科研究所想要研究某种农产品的亩产量(单位:吨)与施肥量(单位:千克)之间的关系,通过调研得到一些数据如下表:
施肥量
5
7
9
11
13
15
亩产量
6
8
11
12
已知且,且,的相关系数,说明,满足线性回归.
参考数据:,,参考公式:,,.
(1)求的值;
(2)求关于的回归直线方程;
(3)若施肥量为9,11时的残差分别为,,求的值.
【易错点2 回归直线方程计算错误】
易错点分析:没有掌握回归直线方程过样本中心点而不是过大部分点这个关键点,随便选了一个点代入方程计算,导致回归直线方程求解错误.
【注】:1.经验回归直线过点.
【典例2】(24-25高二下·广东广州·期末)随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
【跟踪训练2.1】(24-25高二下·江西赣州·期中)已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【跟踪训练2.2】(24-25高二下·安徽·月考)某公司为了预测2025年度公司收益,对2020至2024年的投入与收益情况进行统计,得到统计数据表:
年份
2020
2021
2022
2023
2024
投入x(百万元)
6.3
7.4
8.1
8.5
9.7
收益y(百万元)
8.3
8.8
9.9
11.1
11.9
据上表得回归直线方程,其中,据此估计,该公司2025年计划投入15百万元,则该公司在2025年收益(单位:百万元)为( )
A.18.75 B.18.05 C.17.85 D.17.25
【跟踪训练2.3】(24-25高二下·贵州黔南·期末)网上直播带货已成为电商主流模式之一,已知某一家网上官方旗舰店近五年“五一”黄金周期间的销售额如下表:
年份
2021
2022
2023
2024
2025
年份代号
1
2
3
4
5
销售额(万元)
51
63
75
87
99
若关于的线性回归方程为,则根据回归方程预测该店2026年“五一”黄金周的销售额是( )
A.84万元 B.98万元 C.104万元 D.111万元
【跟踪训练2.4】(24-25高二下·江西·期末)某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:
营业时间
1
2
3
4
5
饮品销量
17
36
56
77
99
已知与线性相关.
(1)根据以上数据求饮品销量关于营业时间的回归直线方程;
(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?
参考公式:回归直线方程中,,.
【易错点3 非线性回归模型的方程求解错误】
易错点分析:处理非线性回归模型问题时,没有合理把所给函数模型进行变形构造为一元线性回归模型,或者带入错误的数据进行计算,导致结果错误.
【注】:非线性回归模型问题要先变形为一元线性回归模型问题,再进行求解.
【典例3】(24-25高二下·福建漳州·月考)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【跟踪训练3.1】(24-25高二下·四川广安·期中)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.
(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84
58.55
6.9
【跟踪训练3.2】(24-25高三上·四川眉山·月考)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44
4.8
10
40.3
1.612
19.5
8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
【跟踪训练3.3】(24-25高二下·黑龙江哈尔滨·期中)即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使机构的服务需求持续增长.数据显示,近年来中国市场规模迅速扩大.下表为2018年年中国市场规模(单位:百亿元),其中2018年年对应的代码依次为.
年份代码x
1
2
3
4
5
中国市场规模y
1.12
1.68
2.45
3.35
4.32
(1)由上表数据可知,可用指数函数模型拟合y与x的关系,
①建立y关于x的回归方程;
②预测2025年中国市场规模(单位:百亿元):
(2)从2018年年中国市场规模中随机抽取3个数据,记这3个数据中与的差的绝对值小于1的个数为X,求X的分布列与期望.
参考数据:
2.58
0.84
46.83
15.99
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
参考数据:
【跟踪训练3.4】(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【易错点4 独立性检验的卡方计算错误】
易错点分析:利用卡方的计算公式计算卡方时,代入了错误的公式或数据,导致计算结果错误.
【注】:公式.
【典例4】(25-26高二·全国·寒假作业)第三十一届世界大学生夏季运动会于2023年8月8日晚在四川省成都市胜利闭幕.来自113个国家和地区的6500名运动员在此届运动会上展现了青春力量,绽放青春光彩,以饱满的热情和优异的状态谱写了青春、团结、友谊的新篇章.外国运动员在返家时纷纷购买纪念品,尤其对中国的唐装颇感兴趣,现随机对200名外国运动员(其中男性120名,女性80名)就是否有兴趣购买唐装进行了解,统计结果如下的列联表,则认为“外国运动员对唐装感兴趣与性别有关”的把握约为( )
有兴趣
无兴趣
总计
男性运动员
80
40
120
女性运动员
40
40
80
总计
120
80
200
附表:
0.025
0.010
0.001
5.024
6.635
10.828
A.97.5% B.99% C.99.5% D.99.9%
【跟踪训练4.1】(24-25高二下·河北保定·月考)AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):
性别
使用情况
合计
经常使用
不经常使用
男性
女性
合计
依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为( )
(附:,,)
A.48 B.49 C.50 D.51
【跟踪训练4.2】(24-25高二下·全国·课后作业)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
运动
性别
总计
男
女
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
下列结论正确的是( )
A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01
B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01
C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001
D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001
【跟踪训练4.3】(24-25高二下·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【跟踪训练4.4】(24-25高二下·甘肃临夏·期末)某校食堂为了解学生对牛奶、豆浆的喜欢情况是否存在性别差异,随机抽取了100名学生进行问卷调查,得到了如下的统计结果:
项目
喜欢牛奶
喜欢豆浆
合计
男生
40
a
女生
b
25
合计
100
已知从这100名学生的问卷中随机抽取1份,喜欢牛奶的概率为.
(1)求a,b;
(2)根据表中数据,能否认为该校学生对牛奶、豆浆的喜欢情况与性别有关?
附:.
0.010
0.005
0.001
6.635
7.879
10.828
第 1 页 共 11 页
学科网(北京)股份有限公司
$