内容正文:
成对数据的统计分
■成都经济技术开发】
一、内容定位与核心思想
成对数据的统计分析属于“统计”板块的
延伸,核心是研究两个变量之间的相关关系,
而不再局限于单一变量的分析。它打破了传
统函数关系中“确定性”的束缚,转而探究现
实世界中普遍存在的“相关关系”。
二、高考主要考点与考查方式分析
高考对此内容的考查,侧重于基础概念
的理解、公式的应用和结果的解释,极少涉及
复杂计算(通常会给出公式)。主要题型为选
择题、填空题和解答题,尤其是解答题,常作
为统计应用题的主体。
三、题型呈现
题型1成对数据的相关性
例1(多选题)如图1,某同学将搜集
的六组成对数据(x:,y:)(i=1,2,…,6)绘制
成散点图,若把图中的E点去掉,对比原数
据重新进行线性回归分析,则下列结论正确
的是()。
E
B.C.D.
F·
图1
A.数据的残差平方和变大
B.数据的决定系数R2变大
C.解释变量x与响应变量y的线性相
关程度变强
D.样本相关系数r的绝对值更趋于0
解:由散点图可知,样本数据中的变量
x,y正相关,由于E点较其他点偏离程度
大,删除E点后,回归效果更好,决定系数R
解樱敬轻典突染有清中学生款理化
析的题型剖析
区实验中学校
杜海洋
变大,故B正确。从而相关系数x的绝对值
更接近于1,所以D错误。因为拟合效果更
好,决定系数R变大,所以新样本的残差平
方和变小,故A错误。从而解释变量x与响
应变量y的相关性增强,所以C正确。故
选BC。
解题点拨:判定两个变量相关性的方法。
(1)画散点图:若点的分布从左下角到右
上角,则两个变量正相关;若点的分布从左上
角到右下角,则两个变量负相关。
(2)计算样本相关系数:样本相关系数”
的取值范围为[一1,1];当r>0时,正相关;
当r<0时,负相关;|x|越接近于1,线性相
关性越强。
(3)求解经验回归方程y=ix十a:当
6>0时,正相关;当6<0时,负相关。
(4)在残差的散点图中,残差分布的水平
带状区域的宽度越窄,表明数据越集中,模型
的拟合效果越好。
(5)决定系数R2越大,表示残差平方和
越小,数据就越集中,模型的拟合效果越好。
题型2回归模型
命题点1一元线性回归模型
例2夏天是冷藏饮料的销售旺季,某生
活超市统计近几天的偏温差(超出常温度数)x
(单位:℃,x≥3)和某种饮料的销售量y(单位:
瓶)的有关数据如表1所示。
表1
x
x
y81114
20
2326
其中之x,=54.9,2(x,-x)(y:-y)=
=1
i=1
942(x,-)=6。
(1)请用相关系数说明是否可用线性回
17
解题篇经典题突破方法
中学生数理化离二数学206年5月
归模型拟合销售量y与偏温差x的关系;
(2)建立y关于x的回归方程(精确到
0.01),预测当偏温差升高4℃时,该种饮料的
销售量会有什么变化?(销售量精确到整数)
参考数据和公式:√7≈2.646。相关系数
2(x,-x)(y:一y)
=1
。
回归直线方
√2x,-),-
;=1
程是=a+bx,其中a=y一bx,i=
(x:-x)(y:-y)
i=1
含(2-)
解:(1)y=
8+11+14+20+23+26
6
17,(y:-y)=252,之x:=54.9,(x:-
:三1
=1
x)(y:-y)=94,
∑(x:一x)2=6,故r=
2(x:-x)(y:一y)
94
≈0.99。
√,-2-)
6X6√7
所以可用线性回归模型拟合y与x的关系。
(2)因为-54.9=9.156-36
6
_94≈2.61
a=17-2.61×9.15≈-6.88,所以y关于x
的回归方程为y=2.61x一6.88。当△x=4
时,△y=2.61×4≈10。故预测当偏温差升
高4℃时,该种饮料的销售量会增加10瓶。
解题点拨:一元线性回归模型的求解。
(1)将=ix十a称为y关于x的经验
回归方程,其中6=
2(x:-x)(y:-y)
a=
2(x:-x)
=1
y-bx。
(2)求解经验回归方程的关键是确定a,,
并充分利用回归直线过样本点的中心(xy)。
(3)残差:观测值减去预测值所得的差称
为残差。
命题点2非线性回归模型
例3近年来,新能源汽车因其动力充
沛、提速快、用车成本低等特点得到民众的追
捧。某机构为研究汽油价格x(单位:元/升)
与新能源汽车的月销售量y(单位:万辆)之
18
间的关系,收集整理得到如表2所示的数据。
表2
66.5
7
7.5
8
y
1.5
2
3
4.56.8
(1)若用模型y=blnx十a模拟y与x
之间的关系,求出回归方程。
(2)根据建立的回归方程,预测当汽油价
格上涨至9元/升时,新能源汽车的销量。
(3)假设当汽油价格为9元/升时,实际
销量超过预测值的概率为0.6。现进行5次
独立观测,记这5次观测中销量超过预测值
的次数为,求的数学期望。
参考数据和公式:ln3≈1.1。∑(x:
x)(y:-y)=6.55,∑(x:-x)=2.5.1nx
=1
=424,=9.7,2(4,-u)(y,-y)=0.93,
:=
之(u-u)2=0.05。对于一组数据(x,y)
(i=1,2,3,…,n),其回归直线y=bx十a的
斜率和截距的最小二乘估计分别为=
2(x:-x)(y:一y
=1
-,a=y一bx。
含x,-)
解:(1)令lnx:=u:,则b=
(u:-u)(y:一y)0.93
=1
2(u:-u)
0.05=186。易知y=
i=1
5×(1.5+2+3+4.5+6.8)=3.56,u3
628;1.94。由y=m+a,得3.56□
18.6×1.94+a,解得a=-32.524。所以y关
于x的回归方程为y=18.61nx一32.524。
(2)当x=9时,代入回归方程可得y=
18.6×1n9-32.524≈18.6×2.2-32.524=
8.396。故预测当汽油价格上涨至9元/升
时,新能源汽车的销量约为8.396万辆。
(3)由题意知,B(5,0.6),所以E()
=5×0.6=3,即的数学期望为3。
解题点拨:求非线性回归方程的步骤。
(1)将非线性方程通过取对数、换元等方
式转化为线性方程。
(2)利用公式计算线性回归方程。
(3)反解出非线性回归方程。
题型3列联表与独立性检验
例4随着科技的发展,A1技术已经
深度介入普通人的生活,正在改变着人们的
生活和工作。为了解AI技术在普通人中的
使用情况,某机构进行了调查,并从参与调查
的市民中分别抽取男,女各100人进行统计
分析,整理得到如表3所示的列联表。
表3
性别经常借助AI技术不经常借助AI技术合计
男
女
%
合计
120
(1)完成上述列联表,并参考表4,根据
小概率值a=0.005的独立性检验,分析是否
经常借助A】技术与性别有关联;
(2)采用按比例分配的分层随机抽样的方
法,从不经常借助A1技术的人中抽取8人,再
从这8人中随机抽取3人,记3人中男性人数
为随机变量X,求X的分布列和数学期望。
附:X2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)'
n=a+b+c+d。
表4
a
0.050
0.010
0.005
3.841
6.635
7.879
解:(1)完整的列联表如表5所示。
表5
性别
经常借助AI技术不经常借助AI技术合计
男
70
30
100
女
50
50
100
合计
120
80
200
零假设为H。:是否经常借助AI技术与
性别无关联。根据表中数据得X=
200×(70×50-50×30)2
=25
100×100×120×80
3
≈8.333>
x.0:=7.879。根据小概率值a=0.005的独
立性检验,可以推断H。不成立,即是否经常
借助A】技术与性别有关联,这种推断犯错误
的概率不超过0.005。
数攀典要方清中学生教理化
解题篇经典题突破方法
(2)采用按比例分配的分层随机抽样,男
性抽取人数为8×
30=3,女性抽取人数为
80
8十50
=5。
80
所以随机变量X的可能取值为0,1,2,
3,则P(X=0)=
CC
C
=28,P(X=1)=
5
CC-5,p(x=2)=
C28
C=5,P(X=3)
CC
一56。所以X的分布列如表6所示。
1
C
表6
0
3
5
P
15
15
1
28
56
56
5
15
所以E(X)=0×8+1X28十2X5
56
.19
3×56=8
解题点拨:(1)独立性检验的一般步骤:
根据样本数据制成2×2列联表:根据公式X
n(ad-bc)*
(a+b)(c+d)(a+c)(b+d)计算X的
值;比较X与临界值的大小关系,作统计推
断。(2)根据X的值可以判断两个分类变量
有关的可信程度,若X2越大,则两个分类变
量有关的把握越大。(3)回归分析和独立性
检验都是基于成对样本观测数据进行估计或
推断,得出的结论都可能犯错误。
四、命题趋势与学习建议
1.情景化、生活化:问题背景多源于社会经
济、生活科技、生物医学等实际研究,如广告投
入与销售额、身高与体重、药物疗效等。要求同
学们具备阅读材料、提取数据信息的能力。
2,重思想、轻计算:侧重于对统计思想
(如用样本估计总体、模型思想)的理解,及对
计算结果合理解释的能力。
3.步骤完整,表述严谨:解答题有严谨的分
析流程(画散点图→判断·求方程→预测→检
验),需步骤清晰,结论明确。
4.常见易错点:混淆“相关关系”与“因果
关系”,独立性检验结论的或然性。
(责任编辑赵倩)
19