内容正文:
快乐假期
假期作业8成对数据的统计分析
业精于勤,而荒于嬉。
完成日期:
月
思维整合室
3.一元线性回归模型
(1)经验回归方程与最小二乘法
1.变量的相关关系
我们将y=ix十a称为Y关于x的经验回
(1)相关关系
归方程,也称经验回归函数或经验回归公
两个变量有关系,但又没有确切到可由其
式,其图形称为经验回归直线.这种求经验
中的一个去精确地决定另一个的程度,这
回归方程的方法叫做最小二乘法,求得的
种关系称为相关关系.
,a叫做b,a的最小二乘估计,
(2)相关关系的分类:正相关和负相关
2(x,-a)y一可
(3)线性相关
其中
2(x
一般地,如果两个变量的取值呈现正相关
-
或负相关,而且散点落在
附近,我
a=y-b元.
(2)利用决定系数R刻画回归效果
们就称这两个变量线性相关,
一般地,如果两个变量具有相关性,但不是
(y-)
R2=1
i=1
,R2越
,即拟合
线性相关,那么我们就称这两个变量非线
性相关或曲线相关。
效果越好,R越
模型拟合效果越差.
2.样本相关系数
4.列联表与独立性检验
(1)相关系数r的计算
(1)2×2列联表
变量x和变量y的样本相关系数r的计算
般地,假设有两个分类变量X和Y,它们
的取值分别为{x1,x2}和{y1y2},其2×2
公式如下:
列联表为
(x,-)(y:一
y
合计
2(y,-)
y=y
y=y2
x-x
a
b
a+b
(2)相关系数r的性质
①当r>0时,称成对样本数据
相关:
x=x,
d
c+d
当r<0时,成对样本数据
相关;当r=0
合计
a十c
b+d
n=a+b+cd
时,成对样本数据间没有线性相关关系,
(2)临界值
②样本相关系数r的取值范围为
n(ad-bc)2
X=(a+b+(ac(6+d忽略X
的实际分布与该近似分布的误差后,对于
当r越接近1时,成对样本数据的线性相
任何小概率值α,可以找到相应的正实数
关程度越;
xa,使得P(x≥x)=a成立.我们称x。为
当|r越接近0时,成对样本数据的线性相
。的临界值,这个临界值就可作为判断x
关程度越
大小的标准。
18
三0022
(3)独立性检验
A.沸点与海拔高度正相关
基于小概率值α的检验规则是:
B.沸点与气压正相关
当x≥x。时,我们就推断H。不成立,即认
C.沸点与海拔高度负相关
为X和Y不独立,该推断犯错误的概率不
D.沸点与海拔高度、沸点与气压都线性
超过a;
相关
当x<x。时,我们没有充分证据推断H。
4.对两个变量x,y进行分析,计算得到样本相
不成立,可以认为X和Y独立
这种利用x的取值推断分类变量X和Y
关系数r=一0.9962,则下列说法正确的是
是否独立的方法称为x2独立性检验,读作
(
“卡方独立性检验”,简称独立性检验,
A.x与y正相关
下表给出了x独立性检验中几个常用的
B.x与y具有较强的线性相关关系
小概率值和相应的临界值
C.x与y几乎不具有线性相关关系
Q
0.1
0.05
0.01
0.005
0.001
D.x与y的线性相关关系还需进一步确定
2.7063.841
6.635
7.879
10.828
5.在吸烟与患肺癌是否相关的研究中,下列说
〈《技能提升台
法正确的是
1.(多选)下列关系中,属于相关关系的是
A.若x2>6.635,我们有99%的把握认为吸
烟与患肺癌有关,则在100个吸烟的人
A.正方形的边长与面积之间的关系
中必有99个人患肺癌
B.农作物的产量与施肥量之间的关系
B.由独立性检验可知,当有99%的把握认
C.出租车打车费与行驶的里程
为吸烟与患肺癌有关时,若某人吸烟,则
D.降雪量与交通事故的发生率之间的关系
他有99%的可能患有肺癌
2.以下关于独立性检验的说法中,错误的是
C.通过计算推断出吸烟与患肺癌有关联,
(
且此推断犯错误的概率不大于0.05,是
A.独立性检验的依据是小概率原理
指有95%的把握认为吸烟与患肺癌有
B.独立性检验的结论一定正确
关联
C.样本不同,独立性检验的结论可能有
差异
D.以上三种说法都不正确
D.独立性检验不是判定两个分类变量是否
6.(多选)在统计中,由一组样本数据(x1,y1),
相关的唯一方法
(x2y2),…,(xm,yn)利用最小二乘法得到
3.某中学的兴趣小组在某座山测得了海拔高
两个变量的经验回归方程为y=ix+a,那
度、气压和沸点的若干个数据,并绘制成如
么下列说法正确的是
图所示的散点图,则下列说法错误的是
A.相关系数r不可能等于1
B.直线y=ix十a必经过点(x,y)
沸点/℃
气压/千帕
C.直线y=ix十a表示最接近y与x之间
100
80
真实关系的一条直线
0
20
D.相关系数为r,且r越接近于1,相关程
60.511.522.533.544.5
405060708090100110
海拔高度/千米
气压/千帕
(1)
(2)
度越大;越接近于0,相关程度越小
19
火受快乐假期
0M=
7.随着国家三孩政策的全面放开,为了调查一线
(1)求该地区这种野生动物数量的估计值
城市和非一线城市的三孩生育意愿,某机构用
(这种野生动物数量的估计值等于样区这种
简单随机抽样的方法从不同地区调查了100
野生动物数量的平均数乘以地块数);
位育龄妇女,结果如下表,
(2)求样本(x,y,)(i=1,2,…,20)的相关系
城市级别
数(精确到0.01);
三孩生育意愿
合计
(3)根据现有统计资料,各地块间植物覆盖
非
一线
一线
面积差异很大.为提高样本的代表性以获得
愿生
45
20
65
该地区这种野生动物数量更准确的估计,请
不愿生
13
22
35
给出一种你认为更合理的抽样方法,并说明
合计
58
42
100
理由
n(ad-bc)2
2(x,-x)(y一y)
x-(ab)(cFd)(a+c)(b+d)'
附:相关系数r
=1
得x=
100×(45×22-20×13)2
58×42×35×65
≈9.616.
√2≈1.414.
参照下表:
0.1
0.05
0.01
0.001
2.706
3.841
6.635
10.828
根据小概率值α=0.01的独立性检验,可以
得到的结论是
8.已知n组成对样本数据确定的经验回归方
程为y=一x十2且y=4,通过残差分析,发
现两组成对样本数据(一1.7,2.9),(一2.3,
5.1)误差较大,除去这两组成对样本数据后,
重新求得经验回归直线的斜率估计值为
10.(2023·甲卷(文))一项试验旨在研究臭氧
-1.5,则当x=-4时,y=
效应,试验方案如下:选40只小白鼠,随机
9.某沙漠地区经过治理,生态系统得到很大改
地将其中20只分配到试验组,另外20只
善,野生动物数量有所增加.为调查该地区
分配到对照组,试验组的小白鼠饲养在高
某种野生动物的数量,将其分成面积相近的
浓度臭氧环境,对照组的小白鼠饲养在正
200个地块,从这些地块中用简单随机抽样
常环境,一段时间后统计每只小白鼠体重
的方法抽取20个作为样区,调查得到样本
的增加量(单位:g).试验结果如下:
数据(xy,)(i=1,2,…,20),其中x和y
对照组的小白鼠体重的增加量从小到大排
分别表示第讠个样区的植物覆盖面积(单
序为
位:公顷)和这种野生动物的数量,并计算得
15.218.820.221.322.523.225.8
x=60.=1202(z-2=80.
26.527.530.1
32.634.334.835.635.635.836.2
5(yyP=900,.2(00yD=80.
37.340.543.2
20
三0022
高三数地)
试验组的小白鼠体重的增加量从小到大排
2.某地区响应“节能减排,低碳生活”的号召,
序为
开展一系列的措施控制碳排放.环保部门收
7.89.211.412.413.215.5
集到近5年内新增碳排放数量,如下表所
16.518.018.819.2
示,其中x为年份代号,y(单位:万吨)代表
19.820.221.622.823.623.9
25.128.232.336.5
新增碳排放量
(1)计算试验组的样本平均数;(2)(ⅰ)求
年份
20192020
2021
20222023
40只小白鼠体重的增加量的中位数m,再
年份代号x
1
2
3
5
分别统计两样本中小于m与不小于m的
数据的个数,完成如下列联表:
新增碳排
6.1
5.2
4.9
3.8
放y万吨
≥m
(1)请计算并用相关系数r的数值说明x与
对照组
y间具有较强的线性相关性(若|r>0.75,
试验组
则线性相关程度较高);
(iⅱ)根据(ⅰ)中的列联表,能否有95%的
(2)求y关于x的线性回归方程,并据此估
把握认为小白鼠在高浓度臭氧环境中与在
计该地区2024年的新增碳排放.
正常环境中体重的增加量有差异?
附:K2
n(ad-bc)2
参考数据:x=3,y=4.8,之xy,=66.2,
(a+b)(c+d)(a+c)(b+d)'
-1
P(K2>k)
0.100
0.050
0.010
x=55,2y=118.7,V3.5≈1.87W35≈
5.92.
2.706
3.841
6.635
参考公式:对于一组数据(x1y1),(x2y2),
…,(xnyn)其回归直线的斜率和截距的最
小二乘法估计公式,相关系数r的公式分别
为=面
xy:一y
a=y-bx,r
x-n
i=1
之xy,一n)
=
2-n)(-)
《益智欢乐谷
新题快递
顽强的华罗庚华罗庚是我国著名的数
1.若到2035年底我国人口数量增长至14.4亿,
学家,为我国数学事业做出突出贡献,而在他
由2013年到2019年的统计数据可得国内生
因病左腿残疾后,走路不得不左腿先画一个大
产总值(GDP)y(万亿元)关于年份代号x的
圆圈,右腿再迈上一小步,对于这种奇特而费
回归方程为y=6.6x十50.4(x=1,2,3,4,5,
力的步履,他曾幽默地戏称为“圆与切线的运
6,7),则由回归方程预测我国在2035年底人
动”.在逆境中,他顽强地与命运抗争,誓言:
均国内生产总值约为
万元.(保留一
位小数)
“我要用健全的头脑,代替不健全的双腿!”
21三022.
x=6×0.03+7×0.1+8×0.2+9×0.35+10×0.19+11
×0.09+12×0.04=9,
s2=(6-9)2×0.03+(7-9)2×0.1+(8-9)2×0.2+(9
9)2×0.35+(10-9)2×0.19+(11-9)2×0.09+(12
9)2×0.04=1.78,
所以样本平均数x和样本方差2分别为9,1.78.
(2)①由题意知=9,02=1.78,
则有X~N(9,1.78),
g=8=≈专
10
P(X≤10)=PY≤109)=PY≤0.75)
3
=0.7734,
②由①知P(X>10)=1-P(X10)=0.2266,
可得Z~B(20,0.2266),
所以Z的均值E(Z)=20×0.2266=4.532.
新题快递
1.BC[对于A项,由配重X(单位:kg)符合正态分布
N(27.5,4)可知,配重的平均数为27.5kg,故A项错误;
对于B项,由配重X(单位:kg)符合正态分布N(27.5,4)可
知=27.5,o=2,故P(23.5<X29.5)=P(-2a<X以
+o)=P(g-2a<X≤-2o)-2{P(g-2o<X≤+2o)
P(4-o<X≤十σ)}
=0.9545-号(0.9545-0.6827)=0.8186.故B项正确;对
于C项,显然正确:对于D项,因P(X>33.5)=P(X>十
3a)=2[1-P(-3a<X<+3)]=21-0.9973)=
0.00135.故1000个使用该器材的人中,配重超过33.5kg
的约有1000×0.00135=1.35≈2人,故D项错误.]
2.解析:由题意可知从家里到达公司所用的时间不超过48分
钟,小明就不会迟到:
若选择自驾,则P(X>48)=P(X>+20)≈1-95,4%
2
若选择地铁,则P(X>48)=P(X>十o)≈1-一68.3%
2
若选择公交,则P(X>48)=P(X>u十30)≈1-99.7必
而1一68.3%>1一954%>1一90.7%,故选择公交上班迟
2
2
2
到的可能性最小
答案:公交
假期作业8
思维整合室
1.(3)一条直线
2.(2)正负[-1,1]强弱
x,-n7
3.(1)-
(2)大小
-n
技能提升台
1.BD[在A中,正方形的边长与面积之间的关系是函数关
系:在B中,农作物的产量与施肥量之间不具有严格的函数
关系,但具有相关关系;C为确定的函数关系:在D中,降雪
量与交通事故的发生率之间具有相关关系.]
二数学)
2.B[独立性检验会犯随机性错误,犯错误的概率不会超过
小概率值.门
3.A[由题图知气压随海拔高度的增加而减小,由图知沸,点
随气压的升高而升高,所以沸点与气压正相关,沸点与海拔
高度负相关,由图易得两个散,点图中的点都落在一条直线附
近,所以沸点与海拔高度、沸点与气压都线性相关,故B,C,
D正确,A错误.」
4.B[由r=-0.9962可知,x与y负相关,并且具有较强的
线性相关关系.]
5.C[依据小概率值a=0.01的独立性检验,若x2>6.635,
我们有99%的把握认为吸烟与患肺癌有关,而不是在100
个吸烟的人中必有99个人患肺癌,故A不正确.99%是指
吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能
患有肺癌,故B不正确.C显然正确,D不正确.]
6.BCD[相关系数的取值范围是|r|1,故A错误;直线y=
i.x十a必过样本中心点即点(x,y),故B正确;直线y=ix十
ā是采用最小二乘法求解出的直线方程,接近真实关系,故
C正确:相关系数r的绝对值越接近于1,表示相关程度越
强,越接近于0,表示相关程度越弱,故D正确.」
7.解析:因为X≈9.616>6.635,所以有99%以上的把握认为
“生育意愿与城市级别有关”
答案:生育意愿与城市级别有关
8.解析:由样本数据点集{(x·y,)i=1,2,…,}求得的经验
回归方程为y=一x十2,且y=4,
所以元=一2,
故数据的样本中心,点为(一2,4),
去掉(-1.7,2.9),(-2.3,5.1),
重新求得的经验回归直线的斜率估计值为一1.5,
经验回归方程设为y=-1.5x+a,代入(-2,4),求得a=1,
所以经验回归直线a的方程为y=一1.5x十1,将x=一4代
入经验回归方程,求得y的估计值为一1.5×(一4)十1=7.
答案:7
19
9.解:1)由已知得样本平均数)=20三y=60,从而诚地区这
种野生动物数量的估计值为60×200=12000.
(2)样本(x,y)(i=1,2,…,20)的相关系数
(x,-x)y-》
=1
800=22≈0.94.
/(x,-)22(y-)
V80X90003
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对
200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖
面积有很强的正相关性.由于各地块间植物覆盖面积差异很
大,从而各地块间这种野生动物数量差异也很大,采用分层
抽样的方法较好地保持了样本结构与总体结构的一致性,提
高了样本的代表性,从而可以获得该地区这种野生动物数量
更准确的估计
10.解:(1)试验组样本平均数为20(7.8+9.2+11,4+12.4十
13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+
8+23.6+23.9+25.1+28.2+32.3+36.
=19.8.
(2)(ⅰ)依题意,可知这40只小鼠体重的中位数是将两组
数据合在一起,从小到大排列后,第20位与第21位数据的
平均数,
由原数据可得第11位数据为18.8,后续依次为19.2,
19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6,…,
故第20位为23.2,第21位数据为23.6,
快乐假明
00M=
所以m=28.223.6=23.4,
3.A[因为U={1,2,3,4,5},CvM={1,3},所以M={2,4,
2
5},所以2∈M,3∈M,4∈M,5∈M,故选A.]
故列联表为:
4.B[量词“存在”否定后为“任意”,结论“它的平方是有理
<m
≥m
合计
数”否定后为“它的平方不是有理数”,故选B.]
对照组
14
20
5.C[因为xy≠0,且x+义=-2,
实验组
20
所以x2+y2=-2xy,即x2+y2+2xy=0,即(x+y)2=0,
合计
20
20
40
所以x十y=0,
(i)由(i)可得,K=40×(6×6-14×14)
所以“x十y=0”是“工十义=一2”的充分必要条件.]
20×20×20×20
y
=6.400>3.841,
所以能有95%的把握认为小白鼠在高浓度臭氧环境中与
6.BC[A中十x+3=(+是)+>0,故A是假伞
在正常环境中体重的增加量有差异,
题:B中,x∈Q,号十号十1一定是有显数,故B是真命
新题快递
题;C中,当x=4,y=1时,3x-2y=10成立,故C是真命
1.解析:根据题意,2035年对应年号x=23,所以y=6.6×23
题;对于D,当x=0时,左边=右边=0,故D为假命题.]
+50.4=202.2(万亿元),所以我国在2035年底人均国内生
产总值约为202,2≈14.0万元.
14.4
7.解折:A=(0,号]B=-101AnB=-10,
答案:14.0
答案:{-1,0}
8.解析:(1)由题意得M={2},当m=2时,
2.解析:(1)依题意,r
N={xx2-3.x+2=0}=〈1,2},则M∩N={2.
(②x2-)(
-ny2)
(2)因为M∩N=M,所以MN,
66.2-5×3×4.8
因为M=(2},所以2∈N.
/55-5×32×/118.7-5×4.82
所以2是关于x的方程x2-3.x十m=0的解,
66.2-5×3×4.8
即4-6+m=0,解得m=2.
V55-5×32×W/118.7-5×4.8
答案:(1){2}(2)2
-5.8
-5.8≈-5.8≈-0.9797,
9.解:由题可知B={2,3},AUB=B,A≤B,
√10×√3.5√355.92
A≠B,A=B.又☑(A∩B),.A≠0,
所以|r=0.9797>0.75,所以线性相关程度较高.
.A={2}或A={3},
,y:一zy
.方程x2-ax十a-12=0只有一解,
(2)==1
-
-5.8=-0.58,
10
由△=(-a)2-4(a2-12)=0,得a2=16,
∴.a=4或a=-4.
a=y-bx=4.8+0.58×3=6.54,
当a=4时,集合A=(xx2-4x十4=0}={2}符合;
所以y=-0.58x+6.54,
当x=6时,y=-0.58×6+6.54=3.06万吨
当a=-4时,集合A={xx2十4x十4=0}={-2}(舍去).
答案:(1)r=一0.9797,线性相关程度较高
综上可知,a=4.
(2)y=一0.58.x十6.54,估计该地区2024年的新增碳排放
10.解:(1)欲使x∈A是x∈B成立的充分条件,
3.06万吨
则只要{<-受}x<-1或>3,则只要-受
假期作业9
≤一1即m≥2,故存在实数m≥2时使x∈A是x∈B成立
思维整合室
的充分条件.
1.(1)N N'N.Z Q R (2)ACC ASC
(2)欲使x∈A是x∈B成立的必要条件,
(3)①{xx∈A且x∈B}②{xx∈A或x∈B}③{xx∈U
且x∈A}2.(2)①充分必要
则只受{<-受}P<-1成>3,则这是不可
②充要
能的,故不存在实数m,使x∈A是x∈B成立的必要条件.
技能提升台
新题快递
1.A[由题意,M={xx+2≥0}={xx≥-2},N={xx-1
1.B[若a-2=0,则a=2,此时A={0,-2},B={1,0,2},不
<0}={xx<1},
满足题意;若2a-2=0,则a=1,此时A={0,-1},B={1,
根据交集的运算可知,M∩N={x一2≤x<1}.]
2.A[由题意可得MUN={xx<2},则C。(MUN)={xz
一1,0},满足题意.]
≥2},选项A正确;
2.解析:由题意可得a=0,b=1,或a=0,b=2,或a=1,b=2,
CuM={xx≥1},则NUCM={x|x>-1},选项B错
当a=0,b=1时,2(a⊕b)十a☒b=-1:
误:M∩V={x-1<x<1},
当a=0,b=2时,2(a①b)+a☒b=-2;
则Cu(M∩N)={xx≤-1或x≥1},选项C错误;
当a=1,b=2时,2(a①b)十a☒b=6.
CuN=(xx≤-1或x≥2,则MU CN=
所以A={-2,-1,6).
(xx<1或x≥2},选项D错误.]
答案:A={-2,-1,6}
46