内容正文:
专题08 成对数据的统计分析
相关分析和一元线性回归分析是研究两个变量关系的两个互为补充的方法。相关分析描述了两个变量的相关程度,而回归分析则描述了因变量是怎样受自变量影响的。
1.散点图:为了得到两个变量之间是否具有一定关系的直观印象,可以用散点图来描述这些数据.
2.相关系数r:相关系数可以度量两个随机变量之间的线性关系.相关系数 的值满足 ,且 |r| 越接近 1 ,两个随机变量的线性关系越密切。
3.回归方程与回归直线的核心性质:回归方程代表了两个变量间的关系,回归直线经过散点图中数据点的中心.回归直线斜率的绝对值越大,解释变量 的一个单位变化所引起的反应变量 的波动就越大.
4.最小二乘法,回归方程的求解方法与功能:回归方程可以通过最小二乘法得到.回归直线能较好地反映一个变量对另一个变量的依赖情况,具有解释因果关系和预测的功能。利用回归方程可以由解释变量的值来预测反应变量的值,从而给出反应变量真实值的一个估计.
5.分类变量的独立性检验: 列联表描述两个分类变量所有值的组合数据是如何分布的.判断 列联表中出现的两个分类变量是否独立可采用 检验. 检验的一般步骤是:(1)提出原假设 ;(2)确定显著性水平 ;(3)计算统计量 的值;(4)统计决断:当 3.841 时,拒绝原假设,推断两个变量相关,否则,接受原假设,推断两个变量不相关 (即两个变量是独立的).在实际情况下,是否完全拒绝原假设,还需要老虑样本量的大小。
一、相关系数的计算
【例1】(2024高二下·上海·期末)已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数______.
6
8
10
12
6
5
3
2
【变式1】(24-25高二下·上海期末)已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数__________.(计算结果精确到0.01)
6
8
10
12
6
5
3
2
【变式2】(23-24高二下·上海·期末)党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
二、残差的计算
【例2】(24-25高二下·上海浦东新·期末)由表格数据得到的线性回归方程为,则此回归方程在样本点处的离差是_______
x
3
4
5
6
y
2.5
4
4.5
【变式1】(24-25高二下·上海松江·月考)为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则______.
【变式2】(25-26高二下·上海模拟检测)绝对零度()是一个只能逼近而不能达到的最低温度,那么这个数据是如何得到的?小张同学通过查询资料了解到:①气体温度和气体压强存在线性关系;②当气体压强为时,气体温度达到绝对零度.小张同学在实验时,记录了某种气体温度和气体压强一组相关数据:
数据
1
2
3
4
5
6
温度
4.07
16.69
29.42
45.67
57.06
73.05
压强
103.095
107.734
112.461
118.469
122.706
128.758
(1)用上表数据建立气体压强与气体温度的线性回归方程,若这组实验数据的拟合误差小于0.05,则认为得到的线性回归是理想的.求出回归方程(精确到0.001),并判断所得回归方程是否理想?附:拟合误差
(2)估计该次实验下绝对零度的数值.(精确到)
三、解释回归直线方程的意义
【例3】(24-25高二下·上海·期末)下列说法正确的是( )
A.若随机变量,则
B.经验回归直线至少经过点中的一个
C.一组数据11,12,12,13,14,15,16,18,20,22的第80百分位数为19
D.若,,,则事件A与事件B相互独立
【变式1】(22-23高二下·上海浦东新·期末)给出下列有关线性回归分析的四个命题,其中为真命题的是( )
A.线性回归直线未必过样本数据点的中心;
B.回归直线就是散点图中经过数据点最多的那条直线;
C.当相关系数时,两个变量正相关;
D.如果两个变量的相关性越强,则相关系数r就越接近于1.
【变式2】(2024·上海 阶段检测)设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
四、用回归直线方程对总体进行估计
【例4】(23-24高二下·上海长宁·期末)某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为______度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
【变式1】(23-24高二下·上海阶段检测)某公司为了解用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天气温,并制作了如下对照表:
气温
用电量
由表中数据可得回归方程中.试预测当气温为时,用电量约为 __.
【变式2】(22-23高二下·上海浦东新·月考)已知,则___________.
五、根据回归方程求原数据中的值
【例5】(24-25高二下·上海·期末)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下,根据表格可得回归方程,则实数的值为__________.
零件数x(个)
2
3
4
5
加工时间y(分钟)
30
a
40
50
【变式1】(21-22高二下·上海阶段检测)已知两个具有线性相关关系的变量的一组数据,根据上述数据可得关于的回归直线方程,则实数__________.
【变式2】(2025·上海模拟检测)某游乐园的活动项目共有三类,分别是“过山车”等10个体验类项目、“海豚之舞”等4个表演类项目、“智力闯关”等3个互动类项目.因设备维护需要,项目并非每日都全部开放.以下数据是项目开放的数量(个)和游客平均等待时间(分钟/个)的关系:
项目类别
体验类
演出类
互动类
开放数量(个)
4
5
6
7
8
2
4
2
3
平均等待时间(分钟/个)
76
73
67
60
53
30
46
30
(1)体验类项目中,若关于的回归方程为,请计算的值,并依据该模型预测所有体验类项目均开放时的平均等待时间(精确到整数);
(2)小王游玩当日,体验类、演出类、互动类项目分别开放了8个、4个、3个,他计划随机游玩其中的3个项目,已知他选择的项目中至少包含1个互动类项目,求他的等待总时间恰为120分钟的概率;
(3)为提高游客的参与度,园方在互动类项目“智力闯关”中设计了两关.通过第一关的游客奖励20个游园币,游客可以选择结束或继续闯关.若继续闯关,则必须完成第二关的所有题目.第二关包含2道相互独立的选择题,每答对1题可再奖励20个游园币,每答错1题则要扣除10个游园币.每个游园币可兑换园区内任意一个项目的1分钟等待时间.小王已通过第一关,假设他在第二关中每道题答对的概率均为,为了获得更多项目等待时间的兑换奖励,小王是否应该继续闯关?请你帮他做出决策.
六、求回归直线方程
【例6】(25-26高二下·上海模拟检测)已知变量和之间的一组相关数据如下表所示,设变量和满足回归方程,则下列说法错误的是( )
5
6
9
12
8
7
5
2.4
A. B.
C.变量和具有很强的线性相关性 D.该回归直线过点
【变式1】(23-24高二下·上海松江·阶段检测)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量与温度的关系可以用模型(其中为自然对数的底数)拟合,设,其变换后得到一组数据:
x
20
23
25
27
30
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则当时,蝗虫的产卵量的估计值为__________.
【变式2】(21-22高二下·上海奉贤·阶段检测)为迎接年北京冬奥会,践行“更快、更高、更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.
(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如图,根据这个散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?
月份
1
2
3
4
5
6
体重超标人数
99
77
54
48
32
27
4.58
4.34
3.98
3.87
3.46
3.29
(2)在某次足球训练课上,球首先由A队员控制,此后足球仅在A、B、C三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:
控球队员
A
B
C
接球队员
B
C
A
C
A
B
概率
若传球次,B队员控球次数的期望值C队员控球次数的期望值的两倍,求实数的值.
附:线性回归方程: 中,,;
参考数据:,,,.
【变式3】(2023·上海·模拟预测)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.
73.5
3.85
表中:,
(1)根据散点图判断: ①与②哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程
(3)已知该茶水温度降至口感最佳,根据(2)中的经验回归方程,求在相同条件下,刚泡好的茶水,大约需要放置多长时间才能达到最佳饮用口感.
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,.
七、独立性检验的基本思想
【例7】(22-23高二下·上海松江·阶段检测)下列命题为真命题的有( )
A.若随机变量的方差为,则.
B.已知经验回归方程,则与具有正线性相关关系.
C.对于随机事件与,若则事件与独立.
D.根据分类变量与的成对样本数据,计算得到,根据的独立性检验,有的把握认为与有关.
【变式1】(24-25高二下·上海黄浦·期末)已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别________(选填“有关”或“无关”).
【变式2】(23-24高二下·上海·期末)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某销售网点为了调查是否购买该款盲盒与性别的关系,得到如下列联表:
女生
男生
总计
购买
40
20
60
未购买
70
70
140
总计
110
90
200
则认为______(填有或没有)的把握认为改款盲盒与性别有关.()
【变式3】(23-24高二下·上海·期末)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取30名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,取显著性水平为,我们可以认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重________.(填入有关或无关)
身高
体重
超重
不超重
总计
偏高
12
3
15
不偏高
5
10
15
总计
17
13
30
附表:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中
【变式4】(22-23高二下·上海·期末)为了研究某种疾病的治愈率,某医院从过往病例中随机抽取了名患者,其中一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如图.
(1)根据图表完善以下关于治疗方法和治愈情况的列联表:
疗法
疗效
合计
未治愈
治愈
外科疗法
化学疗法
合计
(2)依据小概率值的独立性检验,分析此种疾病治愈率是否与治疗方法有关.
附:,
八、独立性检验解决实际问题
【例8】(24-25高二下·上海·期末)某学生兴趣小组从一年365天中随机调查了100天中每天的空气质量等级和当天到莘庄公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)一年365天中到莘庄公园锻炼的人次大于400人的约有多少天(精确到1天);
(2)估计一天中到莘庄公园锻炼的平均人次;
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.判断是否有95%的把握认为一天中到莘庄公园锻炼的人次不超过400人与当天的空气质量有关?()
【变式1】(24-25高二下·上海·期末)2024年末公司的一经发布,引发全球轰动,其科技水准直接对标公司的.某调研公司随机抽取公司和公司各25名客户,对其使用时产生的技术成本进行调研,并绘制成如图所示的茎叶图.(茎为十位数,叶为个位数)
(1)请根据茎叶图判断,与哪家公司的技术成本较低?并说明理由;
(2)若将技术成本小于80称为低成本运营,反之称为高成本运营.结合图表数据,补全下方列联表;
低成本运营
高成本运营
公司
公司
(3)根据(2)中的列联表,能否有95%的把握认为运营成本与公司有关?
附:,.
【变式2】(24-25高二下·上海·期末)某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表单位:天
锻炼人次
空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为,,,的概率;并求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(2)若某天的空气质量等级为或,则称这天“空气质量好”若某天的空气质量等级为或,则称这天“空气质量不好”
①根据所给数据,完成下面的列联表,并计算第一行第一列数据的预期值.
②根据上一小问的列联表,判断是否有的把握认为一天中到该公园锻炼的人次超过400人与该市当天的空气质量有关.
锻炼人次
空气质量
人次
人次
空气质量好
空气质量不好
【变式3】(24-25高二下·上海浦东新·期末)某经销商在某地5个位置对甲乙两种类型的网络进行掉线次数测试,得到数据如表所示:
A
B
C
D
E
甲
4
3
8
6
12
乙
5
7
4
4
3
(1)如果在测试中掉线次数超过5次,则网络状况为“糟糕”,否则为“良好”,根据小概率值的独立性检验,能否说明网络状况与网络的类型有关?
(2)若该经销商要在上述接受测试的甲地5个地区中任选3个,求A,B两个地区同时被选到的概率;
(3)若该经销商要在上述接受测试的甲地5个地区中任选3个,以X表示所选位置中网络状况为“糟糕”的位置个数,求随机变量X的分布及数学期望.
附:其中.
α
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.01
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【变式4】(24-25高二下·上海·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有的把握认为患慢性气管炎与吸烟有关?
(2)常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.现从340人中任选一人,表示“选到的人是吸烟者”,表示“选到的人患慢性气管炎者”请利用样本数据,估计的值;
附:.
【变式5】(24-25高二下·上海松江·月考)在探索数智技术赋能学科学习的过程中,某中学鼓励学生使用某听说平台进行英语口语自主练习.该中学有初中生1200人,高中生800人.为了解全校学生近一个月内使用此听说平台进行英语口语自主练习的次数,从全校学生中随机抽取200名学生进行问卷调查,将他们的使用次数按照,,,,,五个区间进行分组,所得样本数据如下表:
使用次数分组区间
初中生
4
38
48
24
6
高中生
3
19
38
17
3
(1)从上面参与问卷调查且使用此听说平台进行英语口语自主练习次数不足10次的学生中随机抽取3人,己X为这3人中高中生的人数,求X的分布和数学期望;
(2)若将自主练习次数不少于20次称为积极,试完成下列联表,并根据判断“学段”与“自主练习的积极性”是否有关.附:,
练习不积极
练习积极
合计
初中生
高中生
合计
【变式6】(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
一、相关系数的意义及辨析
【例1】(24-25高二下·上海浦东新·期末)通过随机抽样,收集了若干朵鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的回归方程为,根据以上信息,下列命题正确的是( )
A.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为5.8612cm
B.若从样本中抽取一部分,则这部分的相关系数一定是0.8642
C.花瓣长度和花萼长度负相关
D.花瓣长度和花萼长度存在一次函数关系
【变式1】(23-24高二下·上海·期末)为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
【变式2】(24-25高二下·上海·期末)下列关于统计概率知识的判断,则下列结论正确的是( )
①若样本数据,,…,的方差为4,则数据,,…,的标准差为4;
②在研究成对数据的相关关系时,相关关系越强,相关系数越接近于1;
③若事件,满足,则事件与事件相互独立;
④某医院住院的位新冠患者的潜伏天数分别为,则该样本数据的第百分位数为.
A.只有一个正确 B.只有两个正确
C.只有一个错误 D.四个题是错误的
【变式3】(24-25高二下·上海浦东新·期末)某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
【变式4】(24-25高二下·上海浦东新·期末)已知线性相关系数r是描述成对数据线性相关程度的统计量,也称为皮尔逊相关系数;一元线性回归分析是基于拟合误差Q取最小值的假设进行的,最终可得回归方程(回归直线).现有5个数据点,小明对它们进行了一元线性回归分析,得到线性相关系数和回归方程,随后发现自己漏掉了一个数据点且恰好.重新计算6个数据点得到线性相关系数和回归方程,对于下面两个说法:
①一定小于 ②与一定重合
则( )
A.①正确②错误 B.①正确②正确 C.①错误②正确 D.①错误②错误
【变式5】(24-25高二下·上海·月考)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
二、卡方的计算
【例2】(25-26高二下·上海·阶段检测)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
【变式1】(24-25高二下·上海·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查.在全校学生中随机抽取(是正整数)个学生,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有________人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【变式2】(25-26高二下·上海·阶段检测)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
附:;
0.10
0.01
0.001
2.706
6.635
10.828
【变式3】(25-26高二下·上海·阶段检测)利用错题去学习是比较高效的学习方法.为了研究学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了60名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
不是每天都整理数学错题人数
22
合计
60
(1)完成上述列联表,并估计本校高三年级学生中不是每天都整理数学错题且数学成绩总评优秀的概率;
(2)根据小概率值的独立性检验,分析数学成绩总评优秀与每天都整理数学错题是否有关联?
附:,其中;
0.10
0.01
0.001
2.706
6.635
10.828
【变式4】(25-26高二下·上海·阶段检测)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【变式5】(25-26高二下·上海·阶段检测)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况及其对学生视力的影响,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下表格:
每周活动总时长(单位:小时)
频数
15
25
35
15
10
同时,对这100名学生的视力进行了检查,将视力达到5.0及以上定为“视力良好”,低于5.0定为“视力一般”,得到如下2×2列联表:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
活动时间未达标(低于14小时)
30
合计
100
(1)求正整数、的值;
(2)从活动时长在和的学生中共抽取2名学生,求这两名学生每周活动总时长的差的绝对值超过7小时的概率;
(3)依据的独立性检验,判断是否有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
参考公式及数据:,其中.
,,,.
【变式6】(24-25高二下·上海·期末)某汽车生产企业对其生产的四款新能源汽车进行市场调研,从购买者中选取50名车主对车辆进行性能评分,每款车都有、、、、、5分五个等级,各评分的相应人数统计结果如下表所示.
性能评分汽车款式
基础版
基础版1
2
2
3
1
0
基础版2
4
4
5
3
1
豪华版
豪华版1
1
3
5
4
1
豪华版2
0
0
3
5
3
(1)约定当得分为或时,认为该款车型性能优秀,否则认为性能一般,根据上述样本数据,完成以下列联表,取显著性水平,能否认为汽车的性能与款式有关?说明理由.
汽车性能
汽车款式
合计
基础版
豪华版
一般
20
优秀
13
合计
(2)为进一步提升产品品质,现从样本评分为的6位基础版车主中,有放回地随机抽取2人征求意见,并做进一步打分.若基础版1的车主会打1分,而基础版2的车主会打4分,设随机变量为总得分,求的方差.
附:;,
,,.
【变式7】(23-24高二下·上海奉贤·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有95%的把握认为患慢性气管炎与吸烟有关?
(2)现从不患慢性气管炎者的样本中,按分层抽样的方法选出7人,从这7人里再随机选取3人,求这3人中,不吸烟者的人数X的数学期望.
附:,.
2 / 50
1 / 50
学科网(北京)股份有限公司
$
专题08 成对数据的统计分析
相关分析和一元线性回归分析是研究两个变量关系的两个互为补充的方法。相关分析描述了两个变量的相关程度,而回归分析则描述了因变量是怎样受自变量影响的。
1.散点图:为了得到两个变量之间是否具有一定关系的直观印象,可以用散点图来描述这些数据.
2.相关系数r:相关系数可以度量两个随机变量之间的线性关系.相关系数 的值满足 ,且 |r| 越接近 1 ,两个随机变量的线性关系越密切。
3.回归方程与回归直线的核心性质:回归方程代表了两个变量间的关系,回归直线经过散点图中数据点的中心.回归直线斜率的绝对值越大,解释变量 的一个单位变化所引起的反应变量 的波动就越大.
4.最小二乘法,回归方程的求解方法与功能:回归方程可以通过最小二乘法得到.回归直线能较好地反映一个变量对另一个变量的依赖情况,具有解释因果关系和预测的功能。利用回归方程可以由解释变量的值来预测反应变量的值,从而给出反应变量真实值的一个估计.
5.分类变量的独立性检验: 列联表描述两个分类变量所有值的组合数据是如何分布的.判断 列联表中出现的两个分类变量是否独立可采用 检验. 检验的一般步骤是:(1)提出原假设 ;(2)确定显著性水平 ;(3)计算统计量 的值;(4)统计决断:当 3.841 时,拒绝原假设,推断两个变量相关,否则,接受原假设,推断两个变量不相关 (即两个变量是独立的).在实际情况下,是否完全拒绝原假设,还需要老虑样本量的大小。
一、相关系数的计算
【例1】(2024高二下·上海·期末)已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数______.
6
8
10
12
6
5
3
2
【答案】
【知识点】相关系数的计算
【分析】利用相关系数公式就可以求出结果.
【详解】解:根据表中数据计算可知,,
所以变量,之间的相关系数.
故答案为:.
【变式1】(24-25高二下·上海期末)已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数__________.(计算结果精确到0.01)
6
8
10
12
6
5
3
2
【答案】
【知识点】相关系数的计算
【分析】根据相关系数公式求解即可.
【详解】根据表中数据计算可知
,
,
变量之间的相关系数,
故答案为: .
【变式2】(23-24高二下·上海·期末)党的十九大提出实施乡村振兴战略以来,农民收入大幅提升,2022年9月23日某市举办中国农民丰收节庆祝活动,粮食总产量有望连续十年全省第一.据统计该市2017年至2021年农村居民人均可支配收入(单位:万元)与年份代码(见下表)具有线性相关关系,计算得,,.
年份
2017
2018
2019
2020
2021
年份代码
1
2
3
4
5
(1)根据上表数据,计算与的相关系数,并判断与是否具有较高的线性相关程度(若,则线性相关程度一般,若,则线性相关程度较高,精确到;
(2)求出关于的线性回归方程.
参考公式:
相关系数,,.
【答案】(1),与具有较高的线性相关程度
(2)
【知识点】相关系数的计算、求回归直线方程
【分析】(1)根据题意求得,利用相关系数公式求得相关系数,比较可得结论;
(2)利用回归方程的系数公式求得,继而求得,即可求得与的回归方程.
【详解】(1)由表数据可得的平均数,
所以,
所以相关系数,
由,所以与具有较高的线性相关程度;
(2)依题意可得,
,
,
所以,
所以关于的线性回归方程为.
二、残差的计算
【例2】(24-25高二下·上海浦东新·期末)由表格数据得到的线性回归方程为,则此回归方程在样本点处的离差是_______
x
3
4
5
6
y
2.5
4
4.5
【答案】/
【知识点】残差的计算、求回归直线方程
【分析】先计算出样本的中心点坐标,将其代入中可求得m的值,再结合离差的定义求解即可.
【详解】因为,,且线性回归方程恒过,
所以,解得,
将代入回归方程得,
所以此回归方程在样本点处的离差是.
故答案为:
【变式1】(24-25高二下·上海松江·月考)为研究变量x,y的相关关系,收集得到如下数据:
x
1
2
3
4
5
y
60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则______.
【答案】290
【知识点】根据样本中心点求参数、残差的计算
【分析】先利用残差的计算公式求出,再根据回归直线过样本点的中心求出,即可得解.
【详解】因为在样本点处的残差为0,
所以,得,
则y关于x的线性回归方程为.
因为,所以,
所以.
故答案为:
【变式2】(25-26高二下·上海模拟检测)绝对零度()是一个只能逼近而不能达到的最低温度,那么这个数据是如何得到的?小张同学通过查询资料了解到:①气体温度和气体压强存在线性关系;②当气体压强为时,气体温度达到绝对零度.小张同学在实验时,记录了某种气体温度和气体压强一组相关数据:
数据
1
2
3
4
5
6
温度
4.07
16.69
29.42
45.67
57.06
73.05
压强
103.095
107.734
112.461
118.469
122.706
128.758
(1)用上表数据建立气体压强与气体温度的线性回归方程,若这组实验数据的拟合误差小于0.05,则认为得到的线性回归是理想的.求出回归方程(精确到0.001),并判断所得回归方程是否理想?附:拟合误差
(2)估计该次实验下绝对零度的数值.(精确到)
【答案】(1),回归方程是理想的
(2)
【知识点】求回归直线方程、残差的计算、根据回归方程进行数据估计
【详解】(1),
,
,
将,即代入,
解得
回归方程为 ,
,
因为 ,所以回归方程是理想的.
(2)回归方程为,
令,解得(),
预估该次实验下绝对零度的数值为.
三、解释回归直线方程的意义
【例3】(24-25高二下·上海·期末)下列说法正确的是( )
A.若随机变量,则
B.经验回归直线至少经过点中的一个
C.一组数据11,12,12,13,14,15,16,18,20,22的第80百分位数为19
D.若,,,则事件A与事件B相互独立
【答案】C
【知识点】总体百分位数的估计、二项分布的方差、独立事件的判断、解释回归直线方程的意义
【分析】根据二项分布方差公式,求出二项分布方差,判断A的正误,根据回归直线性质,判断B的正误,根据第百分位数定义,求出第80百分位数,判断C的正误,根据独立事件的判定方法,判断D的正确.
【详解】对A,,故A错误;
对B,经验回归直线必过样本中心点,但不一定过样本点,故B错误;
对C,数据组共10个数据,故第80百分位数为从小到大第8,9个数据的平均数,即,故C正确;
对D,,,故,故事件与事件不相互独立,故D错误;
故选:C.
【变式1】(22-23高二下·上海浦东新·期末)给出下列有关线性回归分析的四个命题,其中为真命题的是( )
A.线性回归直线未必过样本数据点的中心;
B.回归直线就是散点图中经过数据点最多的那条直线;
C.当相关系数时,两个变量正相关;
D.如果两个变量的相关性越强,则相关系数r就越接近于1.
【答案】C
【知识点】相关系数的意义及辨析、解释回归直线方程的意义
【分析】由回归直线的性质逐一分析四个选项得答案.
【详解】线性回归直线必过样本数据点的中心,故A错误;
回归直线一定经过样本点的中心,但不一定经过散点图中的点,故B错误;
当相关系数时,两个变量正相关,故C正确;
如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误.
故选:C.
【变式2】(2024·上海 阶段检测)设一组成对数据的相关系数为r,线性回归方程为,则下列说法正确的为( ).
A.越大,则r越大 B.越大,则r越小
C.若r大于零,则一定大于零 D.若r大于零,则一定小于零
【答案】C
【知识点】相关系数的意义及辨析、解释回归直线方程的意义
【分析】利用与r的含义判断AB,根据r大于零时两变量正相关即可得一定大于零判断CD.
【详解】影响的是回归直线的斜率,r影响是两个变量之间的相关性,
所以与r之间数值大小没有关系,但符号有影响,故选项AB错误;
若r大于零,则说明两个变量之间成正相关,故一定大于零,故选项C正确,D错误.
故选:C
四、用回归直线方程对总体进行估计
【例4】(23-24高二下·上海长宁·期末)某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与气温.由表中数据所得回归直线方程为,据此预测当气温为5℃时,用电量的度数约为______度.
气温(℃)
14
12
8
6
用电量(度)
22
26
34
38
【答案】40
【知识点】根据样本中心点求参数、根据回归方程进行数据估计、计算样本的中心点、用回归直线方程对总体进行估计
【分析】先求解,代入方程求得,然后可得气温为时用电量的度数.
【详解】,
,
所以,所以当时,.
故答案为:40.
【变式1】(23-24高二下·上海阶段检测)某公司为了解用电量(单位:)与气温(单位:)之间的关系,随机统计了天的用电量与当天气温,并制作了如下对照表:
气温
用电量
由表中数据可得回归方程中.试预测当气温为时,用电量约为 __.
【答案】
【知识点】根据样本中心点求参数、用回归直线方程对总体进行估计
【分析】根据样本中心在回归直线上可得回归直线方程,进而可得估计值.
【详解】,,
样本点的中心为,
代入,
,
则线性回归方程为,
取,得,
故答案为:.
【变式2】(22-23高二下·上海浦东新·月考)已知,则___________.
【答案】
【知识点】用回归直线方程对总体进行估计
【分析】根据求和符号的意义,准确运算,即可求解.
【详解】由题意知,则:
.
故答案为:.
五、根据回归方程求原数据中的值
【例5】(24-25高二下·上海·期末)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下,根据表格可得回归方程,则实数的值为__________.
零件数x(个)
2
3
4
5
加工时间y(分钟)
30
a
40
50
【答案】36
【知识点】根据回归方程求原数据中的值
【分析】根据回归方程经过样本中心点,代入即可求得的值.
【详解】根据表中数据可知,,
因为回归方程经过样本中心点,
代入回归直线方程可得,解得,
故答案为:36.
【变式1】(21-22高二下·上海阶段检测)已知两个具有线性相关关系的变量的一组数据,根据上述数据可得关于的回归直线方程,则实数__________.
【答案】20
【知识点】根据样本中心点求参数、根据回归方程求原数据中的值
【分析】由回归直线经过点即可计算.
【详解】由题中数据可知,因为回归直线一定经过点,所以.
故答案为:20.
【变式2】(2025·上海模拟检测)某游乐园的活动项目共有三类,分别是“过山车”等10个体验类项目、“海豚之舞”等4个表演类项目、“智力闯关”等3个互动类项目.因设备维护需要,项目并非每日都全部开放.以下数据是项目开放的数量(个)和游客平均等待时间(分钟/个)的关系:
项目类别
体验类
演出类
互动类
开放数量(个)
4
5
6
7
8
2
4
2
3
平均等待时间(分钟/个)
76
73
67
60
53
30
46
30
(1)体验类项目中,若关于的回归方程为,请计算的值,并依据该模型预测所有体验类项目均开放时的平均等待时间(精确到整数);
(2)小王游玩当日,体验类、演出类、互动类项目分别开放了8个、4个、3个,他计划随机游玩其中的3个项目,已知他选择的项目中至少包含1个互动类项目,求他的等待总时间恰为120分钟的概率;
(3)为提高游客的参与度,园方在互动类项目“智力闯关”中设计了两关.通过第一关的游客奖励20个游园币,游客可以选择结束或继续闯关.若继续闯关,则必须完成第二关的所有题目.第二关包含2道相互独立的选择题,每答对1题可再奖励20个游园币,每答错1题则要扣除10个游园币.每个游园币可兑换园区内任意一个项目的1分钟等待时间.小王已通过第一关,假设他在第二关中每道题答对的概率均为,为了获得更多项目等待时间的兑换奖励,小王是否应该继续闯关?请你帮他做出决策.
【答案】(1),51分钟;
(2);
(3)答案见解析.
【知识点】根据回归方程进行数据估计、求离散型随机变量的均值、计算条件概率、根据回归方程求原数据中的值
【分析】(1)根据表中数据分别求出,代入回归方程即可求出,将代入回归方程可求出平均等待时间;
(2)利用条件概率公式,结合分步计数乘法原理和分类计数加法原理以及组合数,计算即可求得概率;
(3)通过计算得到小王参加第二关获得的游园币数的期望,根据每道题答对的概率的取值分类讨论,做出相关决策.
【详解】(1),
代入回归方程,得,解得.
当时,,即开放所有体验类项目时的平均等待时间约为51分钟.
(2)记事件“等待总时间恰为120分钟”,事件“选择的3个项目中至少包含1个互动类项目”,
因为全部的项目数为15个,其中互动类项目有3个,则事件共包含了种;
在事件的条件下,等待总时间恰为120分钟,此时的可能情况有:
①一个互动类项目,一个体验类项目,一个演出类项目,此时共有种情况;
②两个互动类项目,一个体验类项目,此时共有种情况.
由条件概率公式得.
(3)设小王参加第二关获得的游园币数为随机变量,则所有可能取值为,
则
所以.
所以,当时,,不建议小王继续闯关;
当时,,小王可根据自己的情况随机选择;
当时,,建议小王继续闯关.
六、求回归直线方程
【例6】(25-26高二下·上海模拟检测)已知变量和之间的一组相关数据如下表所示,设变量和满足回归方程,则下列说法错误的是( )
5
6
9
12
8
7
5
2.4
A. B.
C.变量和具有很强的线性相关性 D.该回归直线过点
【答案】D
【知识点】求回归直线方程、相关系数的意义及辨析、计算样本的中心点、根据样本中心点求参数
【详解】样本均值:,;
回归系数:,其中;;;;
;;;
.
分子和为:;分母和为.所以.
回归系数:.
回归直线方程为:.
相关系数:,
选项A:,正确;
选项B:,正确;
选项C:,接近1,具有很强的线性相关性,正确;
选项D:回归直线必过点,不过点,错误.
【变式1】(23-24高二下·上海松江·阶段检测)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量与温度的关系可以用模型(其中为自然对数的底数)拟合,设,其变换后得到一组数据:
x
20
23
25
27
30
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则当时,蝗虫的产卵量的估计值为__________.
【答案】
【知识点】根据样本中心点求参数、根据回归方程进行数据估计、求回归直线方程
【分析】根据题意,求得样本中心代入回归方程,求得,进而求得,令时,求得的值,即可得到答案.
【详解】由表格数据得,,
因为数对满足,解得,
所以,即,可得,
当时,可得,
即当时,蝗虫的产卵量的估计值为.
故答案为:.
【变式2】(21-22高二下·上海奉贤·阶段检测)为迎接年北京冬奥会,践行“更快、更高、更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.
(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如图,根据这个散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?
月份
1
2
3
4
5
6
体重超标人数
99
77
54
48
32
27
4.58
4.34
3.98
3.87
3.46
3.29
(2)在某次足球训练课上,球首先由A队员控制,此后足球仅在A、B、C三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:
控球队员
A
B
C
接球队员
B
C
A
C
A
B
概率
若传球次,B队员控球次数的期望值C队员控球次数的期望值的两倍,求实数的值.
附:线性回归方程: 中,,;
参考数据:,,,.
【答案】(1);从第十个月开始,该年级体重超标的人数降至人以下.
(2)
【知识点】根据回归方程进行数据估计、求离散型随机变量的均值、写出简单离散型随机变量分布列、求回归直线方程
【分析】(1)通过两边取对数,把非线性相关问题转化为线性相关问题进行处理.
(2)分别求出B队员控球次数和C队员控球次数的分布列,建立方程求解.
【详解】(1)由得.
由题意得,
,
所以,
.
所以,即关于的经验回归方程为.
令,所以,解得,
由于,所以,
所以从第十个月开始,该年级体重超标的人数降至人以下.
(2)设随机变量分别表示队员的控球次数,
由题意得的可能取值为,,.
,
,
,
所以的分布列为:
所以.
同理可得的分布列为:
所以.
由,有,解得.
【变式3】(2023·上海·模拟预测)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.
73.5
3.85
表中:,
(1)根据散点图判断: ①与②哪一个更适宜作为该茶水温度y关于时间x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程
(3)已知该茶水温度降至口感最佳,根据(2)中的经验回归方程,求在相同条件下,刚泡好的茶水,大约需要放置多长时间才能达到最佳饮用口感.
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,.
【答案】(1)②更适宜
(2)
(3)
【知识点】由散点图画求近似回归直线、用回归直线方程对总体进行估计、求回归直线方程、根据回归方程进行数据估计
【分析】(1)根据散点图选择②;
(2)取对数,再利用最小二乘法公式求出回归直线方程即可;
(3)利用(1)中回归方程,列出关于的方程求解即得.
【详解】(1)由散点图知,点的分布呈现出曲线的趋势,因此更适宜的回归方程为②,即.
(2)由,得,对等式两边取自然对数,得,
令,则,
,
,
结合表中数据,得,
结合参考数据可得,由,得结合参考数据可得,
所以茶水温度y关于时间x的回归方程为.
(3)依题意,室温下,茶水温度降至口感最佳,
即,整理得,
于是,解得,
所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳饮用口感.
七、独立性检验的基本思想
【例7】(22-23高二下·上海松江·阶段检测)下列命题为真命题的有( )
A.若随机变量的方差为,则.
B.已知经验回归方程,则与具有正线性相关关系.
C.对于随机事件与,若则事件与独立.
D.根据分类变量与的成对样本数据,计算得到,根据的独立性检验,有的把握认为与有关.
【答案】C
【知识点】方差的性质、条件概率性质的应用、独立性检验的基本思想、判断正、负相关
【分析】A利用方差性质求新方差;B根据回归方程系数的正负判断;C应用对立事件的概率、条件概率公式及独立事件的判定即可判断;D根据独立检验的基本思想即可得结论.
【详解】A:由,则,错;
B:由的一次项系数为负,故与具有负线性相关关系,错;
C:由,而,则,
所以,即事件与相互独立,对;
D:由,故没有的把握认为与有关,错.
故选:C
【变式1】(24-25高二下·上海黄浦·期末)已知,.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到,则根据小概率值的独立性检验,分析喜欢该体育运动与性别________(选填“有关”或“无关”).
【答案】有关
【知识点】独立性检验的基本思想、独立性检验解决实际问题
【分析】根据题中所给数据,结合独立性检验的基本思想即可求解.
【详解】∵,∴根据小概率值的独立性检验,喜欢该体育运动与性别有关.
故答案为:有关.
【变式2】(23-24高二下·上海·期末)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某销售网点为了调查是否购买该款盲盒与性别的关系,得到如下列联表:
女生
男生
总计
购买
40
20
60
未购买
70
70
140
总计
110
90
200
则认为______(填有或没有)的把握认为改款盲盒与性别有关.()
【答案】有
【知识点】独立性检验解决实际问题、独立性检验的基本思想、卡方的计算
【分析】根据列联表数据和的计算公式求出即可根据小概率值的独立性检验得到结论.
【详解】零假设为改款盲盒与性别无关联.
由列联表数据计算得,
所以根据小概率值的独立性检验,推断不成立,故有的把握认为改款盲盒与性别有关.
故答案为:有.
【变式3】(23-24高二下·上海·期末)某研究小组为了研究中学生的身体发育情况,在某学校随机抽取30名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,取显著性水平为,我们可以认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重________.(填入有关或无关)
身高
体重
超重
不超重
总计
偏高
12
3
15
不偏高
5
10
15
总计
17
13
30
附表:
0.1
0.05
0.01
0.005
2.706
3.841
6.635
7.879
其中
【答案】有关
【知识点】独立性检验解决实际问题、独立性检验的基本思想、卡方的计算
【分析】根据列联表,计算的值并与比较即得结论.
【详解】零假设为假设该学校15至16周岁的30名男生的身高是否偏高与体重是否超重无关,
由,
由小概率值的独立性检验,零假设不成立,
即认为该学校15至16周岁的30名男生的身高是否偏高与体重是否超重有关,这个判断犯错误的概率不超过0.05.
故答案为:有关.
【变式4】(22-23高二下·上海·期末)为了研究某种疾病的治愈率,某医院从过往病例中随机抽取了名患者,其中一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如图.
(1)根据图表完善以下关于治疗方法和治愈情况的列联表:
疗法
疗效
合计
未治愈
治愈
外科疗法
化学疗法
合计
(2)依据小概率值的独立性检验,分析此种疾病治愈率是否与治疗方法有关.
附:,
【答案】(1)列联表见解析
(2)答案见解析
【知识点】独立性检验的基本思想、独立性检验的概念及辨析、完善列联表、根据条形统计图解决实际问题
【分析】(1)根据题意即可完善列联表;
(2)求出即可求解.
【详解】(1)
疗法
疗效
合计
未治愈
治愈
外科疗法
化学疗法
合计
(2)假设此种疾病治愈率是否与治疗方法无关,
则根据列联表中的数据计算,
所以依据小概率值的独立性检验,认为此种疾病治愈与治疗方法有关,此推断犯错误的概率不大于.
八、独立性检验解决实际问题
【例8】(24-25高二下·上海·期末)某学生兴趣小组从一年365天中随机调查了100天中每天的空气质量等级和当天到莘庄公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)一年365天中到莘庄公园锻炼的人次大于400人的约有多少天(精确到1天);
(2)估计一天中到莘庄公园锻炼的平均人次;
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.判断是否有95%的把握认为一天中到莘庄公园锻炼的人次不超过400人与当天的空气质量有关?()
【答案】(1)天
(2)天
(3)有把握,理由见解析
【知识点】独立性检验解决实际问题、完善列联表、计算几个数的平均数、抽样比、样本总量、各层总数、总体容量的计算
【分析】(1)算出天中到莘庄公园锻炼的人次大于400人的天数后可求365天中到莘庄公园锻炼的人次大于400人的天数;
(2)写出各锻炼人次区间对应的频数,利用中间值作代表,利用公式求解即可;
(3)先根据题目中给的数据补充列联表,利用公式求出,再与临界值比较即可.
【详解】(1)由题设可得天中到莘庄公园锻炼的人次大于400人的约有天,
故天中到莘庄公园锻炼的人次大于400人的约有天.
(2)锻炼人次为的有天,
锻炼人次为的有天,
锻炼人次为有天,
利用中间值作代表,一天中到该莘庄公园锻炼的平均人次的估计值为:
.
(3)根据所给数据,可得列联表:
人次≤400
人次>400
合计
空气质量好
33
37
70
空气质量不好
22
8
30
合计
55
45
100
设一天中到该公园锻炼的人次与该市当天的空气质量无关,
根据列联表得,
因为,,由小概率事件原理否定,
故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【变式1】(24-25高二下·上海·期末)2024年末公司的一经发布,引发全球轰动,其科技水准直接对标公司的.某调研公司随机抽取公司和公司各25名客户,对其使用时产生的技术成本进行调研,并绘制成如图所示的茎叶图.(茎为十位数,叶为个位数)
(1)请根据茎叶图判断,与哪家公司的技术成本较低?并说明理由;
(2)若将技术成本小于80称为低成本运营,反之称为高成本运营.结合图表数据,补全下方列联表;
低成本运营
高成本运营
公司
公司
(3)根据(2)中的列联表,能否有95%的把握认为运营成本与公司有关?
附:,.
【答案】(1)D公司技术成本较低;A公司平均技术成本为83.4,D公司平均技术成本为75.96
(2)8,17;17,8
(3),有95%把握
【知识点】独立性检验解决实际问题、完善列联表、由茎叶图计算平均数
【分析】(1)计算出两家公司的技术成本,再比较即可得出结论;
(2)根据低成本运营的定义即可得解;
(3)计算卡方,对比临界值即可得解.
【详解】(1)A公司平均技术成本为:,
公司平均技术成本为:,
所以D公司技术成本较低;
(2)由题意补全下方列联表:
低成本运营
高成本运营
公司
8
17
公司
17
8
(3)由(2)可知,
,
有95%的把握认为运营成本与公司有关.
【变式2】(24-25高二下·上海·期末)某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表单位:天
锻炼人次
空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为,,,的概率;并求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(2)若某天的空气质量等级为或,则称这天“空气质量好”若某天的空气质量等级为或,则称这天“空气质量不好”
①根据所给数据,完成下面的列联表,并计算第一行第一列数据的预期值.
②根据上一小问的列联表,判断是否有的把握认为一天中到该公园锻炼的人次超过400人与该市当天的空气质量有关.
锻炼人次
空气质量
人次
人次
空气质量好
空气质量不好
【答案】(1)概率见解析;350;
(2)①列联表见解析;38.5;②有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【知识点】独立性检验解决实际问题、由频率分布直方图估计平均数、计算古典概型问题的概率
【分析】(1)用频率估计概率,结合平均数计算公式求解即可;
(2)①得出列联表,进一步求得预期值.②计算卡方值,对比临界值即可判断.
【详解】(1)由所给数据,该市一天的空气质量等级为,,,的概率的估计值如下表:
空气质量等级
概率的估计值
一天中到该公园锻炼的平均人次的估计值为.
(2)根据所给数据,可得列联表:
锻炼人次空气质量
人次
人次
空气质量好
33
37
空气质量不好
22
8
第一行第一列数据的预期值为.
根据列联表得的观测值.由于,
故有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【变式3】(24-25高二下·上海浦东新·期末)某经销商在某地5个位置对甲乙两种类型的网络进行掉线次数测试,得到数据如表所示:
A
B
C
D
E
甲
4
3
8
6
12
乙
5
7
4
4
3
(1)如果在测试中掉线次数超过5次,则网络状况为“糟糕”,否则为“良好”,根据小概率值的独立性检验,能否说明网络状况与网络的类型有关?
(2)若该经销商要在上述接受测试的甲地5个地区中任选3个,求A,B两个地区同时被选到的概率;
(3)若该经销商要在上述接受测试的甲地5个地区中任选3个,以X表示所选位置中网络状况为“糟糕”的位置个数,求随机变量X的分布及数学期望.
附:其中.
α
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.01
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)能
(2)
(3)分布见解析,数学期望为1.8
【知识点】独立性检验解决实际问题、计算古典概型问题的概率、超几何分布的分布列、求超几何分布的概率
【分析】(1)根据题干信息,填写列联表,再代入公式计算,下结论即可.
(2)在5个地区中任选3个,有种选法,其中A,B两个地区同时被选到的选法有种,再根据古典概型列式计算即可.
(3)根据题意知,随机变量的所有可能取值为1,2,3,再根据超几何分布求解对应概率,计算数学期望即可.
【详解】(1)根据题意列出列联表如下:
糟糕
良好
合计
甲
3
2
5
乙
1
4
5
合计
4
6
10
零假设:网络状况与网络类型无关,则,
根据小概率值的独立性检验,零假设不成立,即网络状况与网络的类型有关.
(2)在5个地区中任选3个,有种选法,
其中两个地区同时被选到的选法有种,
因此所求概率.
(3)随机变量的所有可能取值为1,2,3,
.
故的分布列为:
1
2
3
P
.
【变式4】(24-25高二下·上海·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有的把握认为患慢性气管炎与吸烟有关?
(2)常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.现从340人中任选一人,表示“选到的人是吸烟者”,表示“选到的人患慢性气管炎者”请利用样本数据,估计的值;
附:.
【答案】(1)有的把握认为患慢性气管炎与吸烟有关:
(2)
【知识点】计算条件概率、独立性检验解决实际问题
【分析】(1)利用卡方计算公式求解并判断即可;
(2)利用条件概率公式进行化简,再计算交事件发生的概率,最后比较频数即可.
【详解】(1)假设:患慢性气管炎与吸烟无关,
根据的列联表中的数据,可得,
从而否定原假设,所以有的把握认为患慢性气管炎与吸烟有关.
(2)根据表格中的数据,可得:
【变式5】(24-25高二下·上海松江·月考)在探索数智技术赋能学科学习的过程中,某中学鼓励学生使用某听说平台进行英语口语自主练习.该中学有初中生1200人,高中生800人.为了解全校学生近一个月内使用此听说平台进行英语口语自主练习的次数,从全校学生中随机抽取200名学生进行问卷调查,将他们的使用次数按照,,,,,五个区间进行分组,所得样本数据如下表:
使用次数分组区间
初中生
4
38
48
24
6
高中生
3
19
38
17
3
(1)从上面参与问卷调查且使用此听说平台进行英语口语自主练习次数不足10次的学生中随机抽取3人,己X为这3人中高中生的人数,求X的分布和数学期望;
(2)若将自主练习次数不少于20次称为积极,试完成下列联表,并根据判断“学段”与“自主练习的积极性”是否有关.附:,
练习不积极
练习积极
合计
初中生
高中生
合计
【答案】(1)分布列见解析;
(2)列联表见解析;无关
【知识点】求离散型随机变量的均值、写出简单离散型随机变量分布列、独立性检验解决实际问题
【分析】(1)根据古典型概率公式求出对应的概率,列出分布列,结合数学期望的公式进行求解即可;
(2)由题意完成表格,由卡方的计算判断可得.
【详解】(1)参与问卷调查且使用此听说平台进行英语口语自主练习次数不足10次的学生中,初中生有4人,高中生有3人.
所以的取值范围为.
,
,
所以的分布列为
0
1
2
3
的数学期望.
(2)易知列联表如下:
练习不积极
练习积极
合计
初中生
42
78
120
高中生
22
58
80
合计
64
136
200
零假设为“学段”与“自主练习的积极性”无关,
易知,因此零假设成立;
所以根据判断“学段”与“自主练习的积极性”无关.
【变式6】(23-24高二下·上海·期末)随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
45
不是微短剧消费者
合计
100
200
(1)补全列联表,并根据显著性水平的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?
(2)记2020~2024年的年份代码依次为1,2,3,4,5,下表为2020~2023年中国微短剧市场规模及2024年中国微短剧预测的市场规模(单位:亿元)与的统计数据:
年份代码x
1
2
3
4
5
市场规模y
9.4
36.8
101.7
373.9
m
根据上表数据求得关于的经验回归方程为,求表中m的值,并求相关系数,判断该经验回归方程是否有价值.
参考公式:,其中,.
回归方程,其中,相关系数.若,则认为经验回归方程有价值.
【答案】(1)列联表见解析,有关联;
(2),,有价值;
【知识点】独立性检验解决实际问题、完善列联表、相关系数的计算、根据回归方程求原数据中的值
【分析】(1)先补全列联表,再计算卡方,根据独立性检验原则即可判断;
(2)根据回归直线过样本点中心可求得,再根据相关系数公式求得,从而可判断.
【详解】(1)补全列联表如下:
年龄不超过40岁
年龄超过40岁
合计
是微短剧消费者
30
15
45
不是微短剧消费者
70
85
155
合计
100
100
200
假设“是微短剧消费者”与“年龄不超过40岁”无关联,
因为,
根据小概率值的独立性检验,推断不成立,
即认为“是微短剧消费者”与“年龄不超过40岁”有关联,此推断犯错误的概率不超过0.05.
(2)由x的取值依次为1,2,3,4,5,可得,
因为经验回归方程为,可得,
则,求得,
所以,
所以,,
所以,
因为,所以该经验回归方程有价值.
一、相关系数的意义及辨析
【例1】(24-25高二下·上海浦东新·期末)通过随机抽样,收集了若干朵鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的回归方程为,根据以上信息,下列命题正确的是( )
A.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为5.8612cm
B.若从样本中抽取一部分,则这部分的相关系数一定是0.8642
C.花瓣长度和花萼长度负相关
D.花瓣长度和花萼长度存在一次函数关系
【答案】A
【知识点】相关关系与函数关系的概念及辨析、判断正、负相关、相关系数的意义及辨析、根据回归方程进行数据估计
【分析】根据散点图的特点及回归方程可判断ACD选项,根据相关系数的定义可以判断B选项.
【详解】当时,,故A正确,
部分数据的相关系数未必和总体相同,故B错误;
从散点图可以看出花瓣长度和花萼长度正相关,故C错误;
花瓣长度和花萼长度之间不存在函数关系,为相关关系,只是用一次函数近似拟合它们的关系,
故D错误.
故选:A.
【变式1】(23-24高二下·上海·期末)为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A. B.与的样本是负相关
C.当时,的预估值为2.2 D.去掉样本点后,与的样本相关系数不会改变
【答案】D
【知识点】求回归直线方程、相关系数的意义及辨析、根据样本中心点求参数
【分析】由表格数据求出样本点的中心坐标,代入可得的值由此即可判断A;由的正负即可判断B;.根据回归方程代入计算即可判断C,由相关系数公式即可判断D.
【详解】,所以样本点的中心坐标为,
将它代入得,解得,故A错误;
因为,所以与的样本是正相关,故B错误;
当时,的预估值为,故C错误;
由相关系数公式可知,去掉样本点后,与的样本相关系数不会改变,故D正确.
故选:D.
【变式2】(24-25高二下·上海·期末)下列关于统计概率知识的判断,则下列结论正确的是( )
①若样本数据,,…,的方差为4,则数据,,…,的标准差为4;
②在研究成对数据的相关关系时,相关关系越强,相关系数越接近于1;
③若事件,满足,则事件与事件相互独立;
④某医院住院的位新冠患者的潜伏天数分别为,则该样本数据的第百分位数为.
A.只有一个正确 B.只有两个正确
C.只有一个错误 D.四个题是错误的
【答案】B
【知识点】总体百分位数的估计、独立事件的判断、计算条件概率、相关系数的意义及辨析
【分析】利用方差的运算性质得①正确,利用相关系数的性质得②错误,利用条件概率公式和相互独立事件的判断方法可得③错误,利用百分位数的求法可得④错误,即可求解.
【详解】对于命题①,因为样本数据,,…,的方差为4,则数据,,…,的方差为,
标准差为,所以命题①正确,
对于命题②,相关关系越强,相关系数越接近于1,所以命题②错误,
对于命题③,因为,得到,
则事件与事件相互独立,所以命题③正确,
对于命题④,将数据从小排到大得到,
又,所以该样本数据的第百分位数为,故命题④错误,
故选:B.
【变式3】(24-25高二下·上海浦东新·期末)某兴趣小组研究光照时长和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,如下表所示.若去掉最后一组数据后,下列说法正确的是( )
光照时长
1
2
3
8
10
种子发芽数量y(颗)
4
6
5
11
2
A.相关系数r的绝对值变小 B.相关变量具有负相关关系
C.拟合误差变大 D.解释变量与响应变量的相关性变强
【答案】D
【知识点】残差的计算、相关系数的意义及辨析
【分析】观察图象,较其他的点偏离回归直线最大,去掉后,回归效果更好,结合相关系数、正负相关性、残差平方和以及相关性逐项分析判断.
【详解】观察图象知:较其他的点偏离回归直线最大,因此去掉后,回归效果更好,
对于A,相关系数越接近于1,线性相关性越强,
因此去掉后,相关系数的绝对值变大,A错误;
对于B,由表格数据可知越大,越大,所以相关变量具有正相关关系,B错误;
对于C,因为残差平方和越大,拟合效果越差,因此去掉后,残差平方和变小,拟合误差变小,C错误;
对于D,由选项A知,去掉后,相关系数的绝对值变大,
因此解释变量与响应变量的相关性变强,D正确.
故选:D
【变式4】(24-25高二下·上海浦东新·期末)已知线性相关系数r是描述成对数据线性相关程度的统计量,也称为皮尔逊相关系数;一元线性回归分析是基于拟合误差Q取最小值的假设进行的,最终可得回归方程(回归直线).现有5个数据点,小明对它们进行了一元线性回归分析,得到线性相关系数和回归方程,随后发现自己漏掉了一个数据点且恰好.重新计算6个数据点得到线性相关系数和回归方程,对于下面两个说法:
①一定小于 ②与一定重合
则( )
A.①正确②错误 B.①正确②正确 C.①错误②正确 D.①错误②错误
【答案】C
【知识点】相关系数的意义及辨析、解释回归直线方程的意义
【分析】根据相关系数的定义,以及得到回归直线方程的过程,即可判断选项.
【详解】当增加一个与回归直线完全拟合的数据点后,这个点没有产生新的拟合误差,整体数据点与回归直线的拟合程度变得更好,所以,不一定,故①错误;
回归方程是基于5个数据点通过最小二乘法(使拟合误差取最小值)得到的,当加入新的数据点,因为它在回归直线上,它不会改变原来使取得最小的直线的位置,所以与一定重合,故②正确.
故选:C
【变式5】(24-25高二下·上海·月考)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【知识点】相关系数的计算、相关系数的意义及辨析、非线性回归、求回归直线方程
【分析】(1)计算相关系数,根据相关系数的绝对值大小得出结论;
(2)(i)两边取自然对数,转化为线性回归方程求解,再转化为指数式即可;
(ii)根据(i)的结论预测销售额y达到80亿元时研发投入即可得解.
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
二、卡方的计算
【例2】(25-26高二下·上海·阶段检测)学校对社团展演活动满意度进行调研,随机抽取高一高二学生各50名,每位同学给出满意或不满意的评价,得到列联表.依据,若没有95%的把握认为年级会对满意度评价有差异,则的最小值为__________.附:,
满意
不满意
高一
高二
【答案】21
【知识点】卡方的计算、独立性检验解决实际问题
【分析】根据定义算出的表达式,由题意得,可得出的最小值.
【详解】由题意得,并令,即,近似解得,即,注意到,故的最小值为.
【变式1】(24-25高二下·上海·期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查.在全校学生中随机抽取(是正整数)个学生,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有________人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
参考公式:,其中.
【答案】
【知识点】独立性检验解决实际问题、卡方的计算
【分析】设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,求出观测值同临界值进行比较,列不等式即可得出结论.
【详解】因为抽取个学生,女生人数是男生人数的,
所以抽取个男生,个女生,为了便于计算,我们令,
设男生人数为,依题意可得列联表如下:
喜欢追星
不喜欢追星
总计
男生
女生
总计
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,由,解得,
由题知应为6的整数倍,
而根据小概率值的独立性检验,判断中学生追星与性别有关,
则男生至少有30人,
故答案为:30.
【变式2】(25-26高二下·上海·阶段检测)为了研究高三学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了40名学生,调查他们平时的数学成绩和整理数学错题的情况,现统计得部分数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
不是每天都整理数学错题人数
15
20
合计
40
(1)完成上述样本数据的列联表,并计算:每天都整理数学错题且数学成绩总评优秀的经验概率;
(2)是否有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”?
(3)从不是每天都整理数学错题的学生中随机抽取3名学生做进一步访谈,设恰好抽取到数学成绩总评优秀的人数为,求的分布列和期望.
附:;
0.10
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且数学成绩总评优秀的经验概率为0.35.
(2)有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)的分布列如下表:
0
1
2
3
期望为.
【知识点】完善列联表、卡方的计算、写出简单离散型随机变量分布列、求离散型随机变量的均值
【分析】(1)完善列联表,求出经验概率;
(2)求出的观测值,与临界值比对得解;
(3)求出的可能值及对应概率,列出分布列并求出期望.
【详解】(1)完善列联表如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
14
6
20
不是每天都整理数学错题人数
5
15
20
合计
19
21
40
每天都整理数学错题且成绩优秀的人数为14,总样本数为40,因此经验概率为.
(2)由(1)得 ,
所以有的把握认为“数学成绩总评优秀与每天都整理数学错题有关”.
(3)不是每天都整理数学错题的学生有20人,其中数学成绩总评优秀人数为5,
的所有可能值为0,1,2,3,
,
,
所以的分布列如下表:
0
1
2
3
期望.
【变式3】(25-26高二下·上海·阶段检测)利用错题去学习是比较高效的学习方法.为了研究学生每天整理数学错题的情况,某校数学建模兴趣小组的同学在本校高三年级学生中采用随机抽样的方法抽取了60名学生,调查他们的数学成绩和整理数学错题的情况,统计数据如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
不是每天都整理数学错题人数
22
合计
60
(1)完成上述列联表,并估计本校高三年级学生中不是每天都整理数学错题且数学成绩总评优秀的概率;
(2)根据小概率值的独立性检验,分析数学成绩总评优秀与每天都整理数学错题是否有关联?
附:,其中;
0.10
0.01
0.001
2.706
6.635
10.828
【答案】(1)列联表见解析,
(2)有关联
【知识点】完善列联表、卡方的计算、独立性检验解决实际问题、计算古典概型问题的概率
【分析】(1)完善列联表后,计算概率即可得;
(2)计算卡方后与比较即可得.
【详解】(1)完善列联表,如下:
数学成绩总评优秀人数
数学成绩总评非优秀人数
合计
每天都整理数学错题人数
20
10
30
不是每天都整理数学错题人数
8
22
30
合计
28
32
60
估计不是每天都整理数学错题且数学成绩总评优秀的概率约为;
(2)零假设:数学成绩总评优秀与每天都整理数学错题无关联,
利用(1)中数据,得,
根据小概率值的独立性检验,可以判断不成立,
所以数学成绩总评优秀与每天都整理数学错题有关联.
【变式4】(25-26高二下·上海·阶段检测)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.
(1)现用线性回归模型拟合违章人次与月份之间的关系,设随波动的回归方程为,已知监测月份的均值,违章人次的均值,,求的值,并预测该路口7月份不“礼让行人”违规驾驶人次;
(2)交警从监测的5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下面的列联表.
不礼让行人
礼让行人
驾龄不超过2年
①
16
驾龄2年以上
26
②
已知不“礼让行人”违规驾驶共计50人,请补充填写上面的2×2列联表(在答题纸上的相应位置填空),并判断能否认为“礼让行人”行为与驾龄有关?附:,.
【答案】(1),人次
(2)
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
不能认为“礼让行人”行为与驾龄有关
【知识点】卡方的计算、独立性检验解决实际问题、根据回归方程进行数据估计、根据样本中心点求参数
【分析】(1)代入样本中心点求出的值,进而得到线性回归方程并进行预测;(2)根据已知条件补全列联表后计算的观测值,并与临界值比较得出结论.
【详解】(1)由题意可得,线性回归方程必过样本中心点,
代入可得,,
所以线性回归方程.
当时,,
预测该路口7月份不“礼让行人”违规驾驶人次为人次.
(2)已知不“礼让行人”违规驾驶的共计50人次,所以①,
抽查总人数为人,所以“礼让行人”的总人数为人,
②.
补充完整列联表如下:
不礼让行人
礼让行人
驾龄不超过2年
24
16
驾龄2年以上
26
24
根据列联表数据,计算的观测值
,
因为,
所以不能认为“礼让行人”行为与驾龄有关.
【变式5】(25-26高二下·上海·阶段检测)2025年11月,教育部等五部门联合印发《关于实施学生体质强健计划的意见》,明确要求“中小学生每天综合体育活动时间不少于2小时”.某学校为了解政策落实情况及其对学生视力的影响,随机抽取了100名学生进行每周累计体育活动时长的调查,得到如下表格:
每周活动总时长(单位:小时)
频数
15
25
35
15
10
同时,对这100名学生的视力进行了检查,将视力达到5.0及以上定为“视力良好”,低于5.0定为“视力一般”,得到如下2×2列联表:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
活动时间未达标(低于14小时)
30
合计
100
(1)求正整数、的值;
(2)从活动时长在和的学生中共抽取2名学生,求这两名学生每周活动总时长的差的绝对值超过7小时的概率;
(3)依据的独立性检验,判断是否有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
参考公式及数据:,其中.
,,,.
【答案】(1),;
(2);
(3)有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
【知识点】完善列联表、卡方的计算、独立性检验解决实际问题、计算古典概型问题的概率
【详解】(1)由每周活动总时长频数分布表可知:活动时间达标(不少于14小时)的人数为:;活动时间未达标(低于14小时)的人数为:.由列联表,达标人数为,未达标人数为.
因此,,.
所以,.
(2)活动时长在的学生有15人,在的学生有10人,共25人.从这25人中任取2人,总的基本事件数为:.
“差的绝对值超过7小时”意味着两个人分别来自和,有利事件数为:,所以所求概率为:.
(3)由(1)得,,完整的列联表为:
视力良好
视力一般
合计
活动时间达标(不少于14小时)
40
20
60
活动时间未达标(低于14小时)
10
30
40
合计
50
50
100
所以,因为,所以有95%的把握认为“视力情况”与“体育活动时长是否达标”有关.
【变式6】(24-25高二下·上海·期末)某汽车生产企业对其生产的四款新能源汽车进行市场调研,从购买者中选取50名车主对车辆进行性能评分,每款车都有、、、、、5分五个等级,各评分的相应人数统计结果如下表所示.
性能评分汽车款式
基础版
基础版1
2
2
3
1
0
基础版2
4
4
5
3
1
豪华版
豪华版1
1
3
5
4
1
豪华版2
0
0
3
5
3
(1)约定当得分为或时,认为该款车型性能优秀,否则认为性能一般,根据上述样本数据,完成以下列联表,取显著性水平,能否认为汽车的性能与款式有关?说明理由.
汽车性能
汽车款式
合计
基础版
豪华版
一般
20
优秀
13
合计
(2)为进一步提升产品品质,现从样本评分为的6位基础版车主中,有放回地随机抽取2人征求意见,并做进一步打分.若基础版1的车主会打1分,而基础版2的车主会打4分,设随机变量为总得分,求的方差.
附:;,
,,.
【答案】(1)列联表见解析,汽车的性能与款式有关,理由见解析
(2)
【知识点】卡方的计算、独立性检验解决实际问题、写出简单离散型随机变量分布列、离散型随机变量的方差与标准差
【分析】(1)由题意根据数据关系写出列联表,再提出原假设,确定显著性水平,计算值,做出统计决断;
(2)用,分别表示在第次抽取中,企业获得的得分,则,故,再求的分布列,由方程公式求,再求,可得结论.
从而求解分布列和期望.
【详解】(1)由题意,列联表如下:
汽车性能
汽车款式
合计
基础版
豪华版
一般
20
12
32
优秀
5
13
18
合计
25
25
50
(1)提出原假设:两种款式的汽车的性能没有显著差异,
(2)确定显著性水平,
(3)计算,
(4)统计决断:由于,而,的值超过了所确定的界限,从而否定原假设,即认为汽车的性能与款式有关;
(2)评分为的位基础版车主中,基础版的车主有位,基础版的车主有位,
用,分别表示在第次抽取中,企业获得的得分,
则,且相互独立,则,
又随机变量的取值有,
,,
所以的分布列为,
所以,,
随机变量的取值有,
,,
所以的分布列为,
所以,,
所以
【变式7】(23-24高二下·上海奉贤·期末)某疾病预防中心随机调查了340名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表所示.
不吸烟者
吸烟者
总计
不患慢性气管炎者
120
160
280
患慢性气管炎者
15
45
60
总计
135
205
340
(1)是否有95%的把握认为患慢性气管炎与吸烟有关?
(2)现从不患慢性气管炎者的样本中,按分层抽样的方法选出7人,从这7人里再随机选取3人,求这3人中,不吸烟者的人数X的数学期望.
附:,.
【答案】(1)有的把握认为患慢性气管炎与吸烟有关
(2)
【知识点】卡方的计算、独立性检验解决实际问题、求离散型随机变量的均值
【分析】(1)利用表格中的数据计算的观测值,再与临界值比对得解.
(2)求出的可能值及对应的概率,进而求出数学期望.
【详解】(1)零假设:患慢性气管炎与吸烟无关,
,
由,而,从而否定原假设,
即有的把握认为患慢性气管炎与吸烟有关.
(2)按分层抽样,不吸烟者3人,吸烟者4人,
的可能值为0,1,2,3,
,,,,
所以.
2 / 50
1 / 50
学科网(北京)股份有限公司
$