内容正文:
第5讲 成对数据的统计分析
[考情分析] 成对数据的统计分析是高考的重点,主要考查回归方程、独立性检验等知识,中等难度,热点是概率与统计的交汇问题.
考点一 独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
(2025·全国一卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
超声波检
查结果
组别
正常
不正常
合计
患该疾病
20
180
200
未患该疾病
780
20
800
合计
800
200
1 000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:χ2=,
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解】 (1)根据题表数据可知,超声波检查结果不正常的有200人,其中患该疾病的有180人,因此估计超声波检查结果不正常者患该疾病的概率p==.
(2)零假设为H0:超声波检查结果与患该疾病无关.
χ2==765.625>10.828.
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为超声波检查结果与患该疾病有关,此推断犯错误的概率不大于0.001.
【解题技法】 独立性检验的一般步骤
(2025·湛江二模)为了研究观众对某档节目的喜爱情况与性别的关联性,分别调查了该档节目男、女观众各100人,发现共有70名观众喜爱该档节目,且不喜爱该档节目的女性观众数是喜爱该档节目的男性观众数的2倍.
(1)根据题中信息,完成下面列联表;
单位:人
性别
喜爱情况
合计
喜爱
不喜爱
男
女
合计
(2)根据(1)中的列联表,依据小概率值α=0.1的独立性检验,能否认为观众对该档节目的喜爱情况与性别有关?
附:χ2=,n=a+b+c+d.
α
0.1
0.05
0.01
xα
2.706
3.841
6.635
解:(1)设喜爱该档节目的男性观众数为x,则喜爱该档节目的女性观众数为70-x,不喜爱该档节目的女性观众数为2x,则70-x+2x=100,解得x=30.
故列联表完成如下.
单位:人
性别
喜爱情况
合计
喜爱
不喜爱
男
30
70
100
女
40
60
100
合计
70
130
200
(2)零假设为H0:观众对该档节目的喜爱情况与性别无关.
根据(1)中列联表的数据,计算得到
χ2=≈2.198<2.706=x0.1.
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为观众对该档节目的喜爱情况与性别无关.
考点二 回归分析
1.经验回归直线一定过样本点的中心(,).
2.当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.决定系数R2越大,拟合效果越好;R2越小,拟合效果越差.
4.残差图中带状区域宽度越窄,拟合效果越好;残差图中带状区域宽度越宽,拟合效果越差.
在乒乓球练习中有一项打定点练习,就是把乒乓球打到对方球台的指定位置(称为“准点球”).每个周末,某乒乓球训练室教练会记录每个学员在练习时打的所有球中“准点球”所占的百分比,A学员已经练习了1年,下表记录了A学员最近七周“准点球”所占的百分比.
第x周
1
2
3
4
5
6
7
“准点球”所占的百分比y (%)
52
52.8
53.5
54
54.5
54.9
55.3
令z=.
(1)根据上表数据,计算y与z的样本相关系数r,并说明y与z的线性相关程度的强弱(若0.75≤|r|≤1,则认为y与z的线性相关程度很强;若0.3≤|r|<0.75,则认为y与z的线性相关程度一般;若|r|<0.3,则认为y与z的线性相关程度较弱).
(2)求y关于x的经验回归方程,并预测A学员第9周“准点球”所占的百分比(精确到0.01).
参考公式和数据:变量u和变量v的样本相关系数经验回归直线的斜率和截距的最小二乘估计公式分别为
-72≈2.05,iyi≈729.99,≈1.925,≈53.86,≈103.7,≈4.12.
【解】 (1)依题意得r=≈≈0.99,
因为0.99>0.75,
所以y与z的线性相关程度很强.
(2)依题意得=≈≈2.00,
所以=- ≈53.86-2×1.925=50.01,
所以=2z+50.01,又z=,
所以=2+50.01.
当x=9时,=2×+50.01=56.01,所以预测A学员第9周“准点球”所占的百分比为56.01%.
【解题技法】 求经验回归方程的步骤
(2025·烟台一模)已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9),满足xi=33,用最小二乘法用最小二乘法得到的经验回归方程为=2x-1.若增加一个数据(-3,3)后,得到修正的经验回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为( )
A.0.1 B.0.2
C.0.3 D.0.4
解析:选A.由题设知==,则=2-1=2×-1=,增加数据(-3,3)后,1==3,1==6,且经验回归直线为=2.1x+,所以6=2.1×3+,解得=-0.3,则=2.1x-0.3,所以当x=4时,=2.1×4-0.3=8.1,故残差的绝对值为|8-8.1|=0.1.
考点三 概率与统计的综合问题
(2025·日照一模)某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和天数x间的数据,列表如下:
x
1
2
3
4
5
y
75
84
93
98
100
(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和天数x之间的关系?若可用,估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若样本相关系数|r|>0.75,则认为y与x的线性相关程度很强,可以用线性回归模型拟合,r精确到0.01);
(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店买1 000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
附:≈65.88.样本相关系数r=,经验回归方程=x+,=,=- .
【解】 (1)由题表中数据可得=3,=90,
(xi-)2=10,(yi-)2=434,(xi-)·(yi-)=64,
所以r==≈0.97>0.75,
所以可用线性回归模型拟合人数y与天数x之间的关系.
而===6.4,
则=- =90-6.4×3=70.8,
所以=6.4x+70.8,
令x=6,可得=109.2,所以1月10日到该专营店购物的人数约为109.
(2)若选方案一,需付款1 000-50=950元.
若选方案二,设需付款X元,则X的取值可能为600,800,900,1 000,则P(X=600)=C×()3=,P(X=800)=C×()2×=,P(X=900)=C××()2=,P(X=1 000)=C×()3=,所以E(X)=600×+800×+900×+1 000×=<950,因此选择方案二更优惠.
【解题技法】 解决成对数据的统计分析与概率综合问题的策略
(1)从已知数表中获取关键信息,厘清数据及事件之间的关系.
(2)建立适当的数学模型,转化成各种概型或随机变量的分布、回归分析、独立性检验等问题.
(3)求解数学模型再回到实际问题.
(2025·淄博一模)为调查某地大型水域的水质情况,设置若干站点检测水质指数(“M指数”),以这些站点所测“M指数”的平均值为依据,播报此大型水域的水质情况.下图是2024年11月份30天内该大型水域“M指数”的频率分布直方图,其中分组区间分别为[12,20),[20,28),[28,36),[36,44),[44,52),[52,60),[60,68),[68,76].
(1)规定:“M指数”不超过50为“优质水源日”,否则称为“非优质水源日”.对该地区50名到此水域郊游的市民进行调查,得到如下列联表:
单位:人
出游
性别
合计
男
女
优质水源日
12
30
非优质水源日
6
合计
50
请完成上述列联表,并根据小概率值α=0.05的独立性检验,能否认为优质水源日出游与性别有关?
(2)从“M指数”在第一组[12,20)和第二组[20,28)的所有天数中选取3天的数据进行评价,记这3天的数据来自第一组的数据有X天,求X的分布列和数学期望.
附:χ2=,n=a+b+c+d.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
解:(1)
单位:人
出游
性别
合计
男
女
优质水源日
12
18
30
非优质水源日
14
6
20
合计
26
24
50
零假设为H0:优质水源日出游与性别无关.
所以χ2=≈4.327>3.841=x0.05,
根据小概率值α=0.05的独立性检验,推断H0不成立,即认为优质水源日出游与性别有关,此推断犯错误的概率不大于0.05.
(2)根据题意,第一组有30×8×=3天,第二组有30×8×=4天,所以X的可能取值为0,1,2,3,
P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
所以X的分布列为
X
0
1
2
3
P
所以E(X)=0×+1×+2×+3×=(或E(X)=3×=).
学科网(北京)股份有限公司
$