内容正文:
第25天-搞定概率统计小题综合
第25天寄语:
请记住:你不是要和所有人比,而是要比昨天的自己更接近理想。
识·必备知识
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)常用方法:抽签法和随机数法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.频率分布直方图
(1)纵轴表示,即小长方形的高=;
(2)小长方形的面积=组距×=频率;
(3)各个小方形的面积总和等于1.
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
4.频率分布表的画法
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
5.条形图、折线图及扇形图
(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.
(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.
(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
6.百分位数、众数、平均数的定义
(1)如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.
一般地,一组数据的第p百分位数是这样一个值,
它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)第25百分位数又称第一四分位数或下四分位数;
第75百分位数又称第三四分位数或上四分位数.
(3)众数
一组数据中出现次数最多的数据叫做这组数据的众数.
(4)平均数
一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数=(x1+x2+…+xn).
7.样本的数字特征之方差
如果有n个数据x1,x2,…,xn,那么这n个数的
(1)标准差s= .
(2)方差s2=[(x1-)2+(x2-)2+…+(xn-)2].
8. 平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.
9. 两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
10. 回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
11. 回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
12. 独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ>3.841时,有95%的把握判定变量A,B有关联;
当χ>6.635时,有99%的把握判定变量A,B有关联.
明·直击考点
序号
考点
考点01
随机抽样
考点02
数字特征
考点03
随机变量分布列及期望方差
考点04
独立性检验
考点05
回归分析
练·抢分演练
一、随机抽样
1.(2025·山东·二模)某市开展“全民阅读”实施效果的调查研究,按区域划分为核心区、开发区、远郊区,各区的人口比例为.现采用分层抽样的方法从各区中抽取人员进行调研.已知从开发区抽取的人数为300,则从核心区抽取的人数为( )
A.90 B.120 C.180 D.200
2.(2025·江西宜春·一模)某地为促进消费,向当地市民随机发放了面值10元、20元、50元的线下消费满减电子券,每位市民可以领取一张,且每笔消费仅能使用一张.某支持使用该消费券的大型商场统计到某日使用了10元、20元、50元消费券的消费账单的数量之比为5∶3∶2,若对这些账单用等比例分层随机抽样的方法进行抽样调查,抽取一个容量为50的样本,则样本中使用了50元消费券的消费账单的份数为( )
A.5 B.10 C.20 D.30
3.(2025·河北·模拟预测)某市在2025高考模拟测试评卷中,实行双评加抽样三评的评卷方法.已知收到有效的数学答卷为5万份,有效的物理答卷为3万份,有效的化学答卷为2.5万份.若双评后利用分层抽样的方法抽取210份样卷进行三评,则应抽取数学样卷的份数为 .
4.(2025·广东·一模)某学校为了了解学生美育培养的情况,用分层随机抽样方法抽样调查,拟从美术、音乐、舞蹈兴趣小组中共抽取30名学生,已知该校美术、音乐、舞蹈兴趣小组分别有20,30,50名学生,则不同的抽样结果共有( )
A. B.
C. D.
二、数字特征
5.(2025·江苏·三模)第九届亚冬会在哈尔滨举行,参加自由式滑雪女子大跳台决赛的六位选手的得分如下:119.50,134.75,154.75,159.50,162.75,175.50,则该组数据的第40百分位数为( )
A.134.75 B.144.75 C.154.75 D.159.50
6.(2025·安徽·三模)已知一组样本数据7,9,5,8,4,a的极差为5,则a的取值范围是( )
A. B. C. D.
7.(2025·湖南湘潭·三模)某市AI智能机器人比赛项目有29位同学参赛,他们在预赛中所得的积分互不相同,只有积分在前15名的同学才能进入决赛.若某同学知道自己的积分后,要判断自己能否进入决赛,则他只需要知道这29位同学的预赛积分的( )
A.中位数 B.众数 C.平均数 D.极差
8.(2025·山东临沂·二模)若样本数据的均值为10,则样本数据的均值为 .
9.(2025·湖北武汉·二模)随着Deepseek的流行,各种AI大模型层出不穷,现有甲、乙两个AI大模型,在对甲、乙两个大模型进行深度体验后,6位评委分别对甲、乙进行打分(满分10分),得到如图所示的统计表格,则下列结论不正确的是( )
评委编号模型名称
1
2
3
4
5
6
甲
7.0
9.3
8.3
9.2
8.9
8.9
乙
8.1
9.1
8.5
8.6
8.7
8.6
A.甲得分的平均数大于乙得分的平均数 B.甲得分的众数大于乙得分的众数
C.甲得分的中位数大于乙得分的中位数 D.甲得分的方差大于乙得分的方差
10.(2025·湖南长沙·一模)(多选)设的极差为,平均值为,中位数为,方差为,,其中的极差为,平均值为,中位数为 ,方差为,则( )
A. B. C. D.
11.(2025·广东·一模)若样本数据的平均数为的平均数为22,则样本数据的方差为 .
12.(2025·上海闵行·二模)已知数据的平均数为2,方差为5,则的平均数为 .
13.(2025·宁夏石嘴山·三模)下图1是2020-2024年国内生产总值及其增长速度,图2是2020-2024年三次产业增加值占国内生产总值比重(三次产业包括第一产业,第二产业,第三产业).根据图1,图2,以下描述不正确的是( )
A.2022年第二产业增加值较2021年有所减少
B.2020-2024年国内生产总值呈逐年增长的趋势
C.2022年与2024年国内生产总值的增长速度较上一年有明显回落
D.2020-2024年第三产业增加值占国内生产总值比重的极差为
14.(2025·天津南开·二模)某中学三个不同选课组合的学生在一次高三质量监测的数学平均分分别为,若按不同选课组合采用分层抽样的方法抽取了一个120人的样本,抽到三个不同选课组合的学生人数分别为20,40,60,则估计这三个不同选课组合学生的数学平均分为( ).
A. B. C. D.
15.(2025·重庆·模拟预测)“缤纷艺术节”的表演比赛中,某节目结束后,100位观众评委的打分情况如下图所示(仅有一个最低分).计算该节目最终得分时,需去掉一个最高分和一个最低分,关于处理后的打分数据,下列说法一定正确的是( ).
A.中位数不变,极差变小 B.极差不变,平均数变小
C.平均数变大,方差变小 D.方差变小,中位数变大
16.(2025·福建南平·三模)(多选)已知甲组数据的平均数为8,方差为2,由这组数据得到乙组数据,其中,则( )
A.数据的平均数为
B.乙组数据的方差为11
C.数据的方差小于2
D.甲组数据的第25百分位数是乙组数据的第25百分位数的2倍
17.(2025·广东揭阳·二模)(多选)洛阳是我国著名的牡丹之乡,以“洛阳地脉花最宜,牡丹尤为天下奇”流传于世.某种植基地通过植株高度研究牡丹的生长情况,从同一批次牡丹中随机抽取100株的植株高度(单位:)作为样本,得到如图所示的频率分布直方图,则下列结论正确的是( )
A.基地牡丹植株高度的极差的估计值大于50
B.基地牡丹植株高度不高于70的频率估计值为30%
C.基地牡丹植株高度的众数与中位数的估计值相等
D.基地牡丹植株高度的第75百分位数的估计值小于80
三、随机变量分布列及期望方差
18.(2025·湖北宜昌·二模)已知随机变量X,Y均服从两点分布,若,,且,则( )
A. B. C. D.
19.(2025·甘肃金昌·二模)已知随机变量的分布列如下:
X
1
2
3
0.4
则数学期望( )
A.0.8 B.1.4 C. D.2
20.(2025·浙江·三模)(多选)在足球训练课上,A,B两位同学进行“点球”比赛,规则为:比赛共进行5轮,在每轮比赛中,两人各罚点球一次,射中得1分,射不中得0分.已知A,B每次点球命中的概率分别为,,,若5轮比赛后A,B的总得分分别为,,则下列结论正确的是( )
A.若,则
B.
C.若,则
D.若当且仅当时,取得最大值,则
21.(2025·贵州安顺·二模)(多选)关于随机变量的期望与方差,以下说法正确的是( )
A.设为随机变量,为常数,则
B.若,则与试验次数无关
C.若,则
D.两点分布中,时,方差最大
22.(2025·山东·模拟预测)小王到某公司面试,一共要回答道题,每道题答对得分,答错倒扣分,设他每道题答对的概率均为,且每道题答对与否相互独立,记小王答完道题的总得分为,则当取得最大值时,( )
A. B. C. D.
23.(2025·江苏盐城·三模)设正数,随机变量的分布列,若随机变量的期望为1,则最小值为( )
0
A.1 B. C.4 D.2
四、独立性检验
24.(2025·辽宁·三模)已知某社区有200人计划暑假去云南或河南旅游,他们每人从云南与河南中选择一个省份去旅游,将这200人分为东、西两小组,经过统计得到如下列联表:
去云南旅游
去河南旅游
合计
东小组
60
40
100
西小组
70
30
100
合计
130
70
200
由表中数据可知,这200人选择去云南旅游的频率为 (用百分数表示), (填入“有”或“没有”)的把握认为游客的选择与所在的小组有关.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
25.(2025·山东济南·一模)(多选)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到,根据小概率值为的独立性检验,则( )
附:
0.100
0.050
0.010
2.706
3.841
6.635
A.若,则认为“毛色”和“角”无关
B.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若,则认为“毛色”和“角”无关
D.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
26.(2025·广东汕头·二模)(多选)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”进行调查,调查样本中女生人数是男生人数的,男生追星人数占男生人数的,女生追星的人数占女生人数的.若根据小概率值的独立性检验,可以推断追星和性别有关,则调查样本中男生人数可以是( )
(参考公式及数据:,临界值)
A.10 B.11 C.12 D.18
27.(2025·四川·三模)为考察某种药物对预防疾病的效果,进行了动物试验,根据120个有放回随机样本的数据,得到如下列联表:
药物
疗效
合计
未患疾病
患疾病
未服用
10
50
60
服用
18
42
60
合计
28
92
120
经计算得到,根据小概率值的独立性检验(已知独立性检验中),结论为( )
A.药物对预防疾病没有效果
B.药物对预防疾病没有效果,这种判断犯错误的概率不超过
C.药物对预防疾病有效果
D.药物对预防疾病有效果,这种判断犯错误的概率不超过
28.(2025·辽宁·二模)某实验中学为调查本校高三学生的学习成绩是否与坚持体育锻炼有关,随机选取了高三300名学生的某次联考成绩进行统计,得到如下表格:
分数
锻炼
合计
坚持锻炼
不坚持锻炼
分数
100
80
180
分数<600
50
70
120
合计
150
150
300
依据小概率值的独立性检验,可以认为高三学生的学习成绩与坚持进行体育锻炼有关,则m的值可能是( )
附:,.
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.0.001 B.0.005 C.0.01 D.0.05
29.(2025·辽宁·模拟预测)某医疗研究机构为了解某种地方性疾病与当地居民的生活习惯(生活习惯分良好和不够良好)的关系,现从该地区随机抽取名居民,统计数据如下:
生活习惯
合计
良好
不够良好
患有该疾病居民
0.6n
1.4n
2n
未患有该疾病居民
1.2n
0.8n
2n
合计
1.8n
2.2n
4n
若根据小概率值的独立性检验,分析发现居民是否患有该疾病与生活习惯有关联,则从该地区抽取居民人数至少为( )
附:,.
A.60 B.76 C.80 D.100
30.(2025·甘肃金昌·二模)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
五、回归分析
31.(2025·江苏盐城·三模)(多选)下列说法正确的是( )
A.回归直线经过样本点的中心
B.对于独立性检验,随机变量的值越大,判定“两个变量有关系”犯错误的概率就越小
C.在一元线性回归模型中,若决定系数,则残差的平方和为0
D.和的方差分别为和,若且,则.
32.(2025·河北·模拟预测)(多选)甲乙二人统计变量和变量,得到一组数据并进行回归分析,甲同学首先求出变量的8个数据平均值为2,回归直线方程,乙同学对甲的计算过程进行检查,发现甲将一数据错看成,甲乙二人将错误修正后得到正确回归直线方程,则( )
A.变量的8个数据正确平均值为
B.
C.变量和变量正相关
D.变量和变量的相关系数为4
33.(2025·安徽·三模)(多选)已知由样本数据得到的回归直线方程为,且,剔除一个偏离回归直线较远的异常点后,得到的新回归直线经过点,则( )
A.变量x,y负相关
B.剔除异常点后;样本相关系数的绝对值变大
C.新回归直线经过点
D.新回归直线的斜率是
34.(2025·黑龙江哈尔滨·一模)由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
35.(2025·天津南开·一模)如图是由一组实验数据得到的散点图,以下四个回归方程类型中适合作为与的回归方程类型的是( )
A. B.
C. D.
36.(2025·山东聊城·二模)为了研究某市高中生的脚长(单位:cm)和身高(单位:cm)的关系,市卫健委从该市随机抽取若干名高中生做调查,经统计,所调查数据的,根据最小二乘法算得脚长和身高的经验回归方程为.已知被调查的某学生的脚长为25cm,身高180cm,则该样本点的残差为( )
A.1cm B.cm C.4cm D.cm
37.(2025·甘肃平凉·模拟预测)对于变量和变量,经过随机抽样获得成对样本数据,且,若关于的经验回归方程为,其样本相关系数为,则( )
(参考数据:)
A.1 B.2 C.3 D.4
38.(2025·河南·三模)人工智能技术(简称AI技术)已成为引领世界新一轮科技革命和产业改革的战略性技术,AI技术加持的电脑(以下简称AI电脑)也在全国各地逐渐热销起来.下表为市统计的2024年11月至2025年3月这5个月该市AI电脑的月销量,其中为月份代号,(单位:万台)为AI电脑的月销量.
月份
2024年11月
2024年12月
2025年1月
2025年2月
2025年3月
月份代号
1
2
3
4
5
月销量
0.5
0.9
1
1.2
1.4
经过分析,与线性相关,且其线性回归方程为,则2025年3月的残差为( )(实际值与预计值之差)
A. B. C.0.02 D.0.04
1
学科网(北京)股份有限公司
$$
第25天-搞定概率统计小题综合
第25天寄语:
请记住:你不是要和所有人比,而是要比昨天的自己更接近理想。
识·必备知识
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)常用方法:抽签法和随机数法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.频率分布直方图
(1)纵轴表示,即小长方形的高=;
(2)小长方形的面积=组距×=频率;
(3)各个小方形的面积总和等于1.
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
4.频率分布表的画法
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
5.条形图、折线图及扇形图
(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.
(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.
(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
6.百分位数、众数、平均数的定义
(1)如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.
一般地,一组数据的第p百分位数是这样一个值,
它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)第25百分位数又称第一四分位数或下四分位数;
第75百分位数又称第三四分位数或上四分位数.
(3)众数
一组数据中出现次数最多的数据叫做这组数据的众数.
(4)平均数
一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数=(x1+x2+…+xn).
7.样本的数字特征之方差
如果有n个数据x1,x2,…,xn,那么这n个数的
(1)标准差s= .
(2)方差s2=[(x1-)2+(x2-)2+…+(xn-)2].
8. 平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.
9. 两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
10. 回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
11. 回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
12. 独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ>3.841时,有95%的把握判定变量A,B有关联;
当χ>6.635时,有99%的把握判定变量A,B有关联.
明·直击考点
序号
考点
考点01
随机抽样
考点02
数字特征
考点03
随机变量分布列及期望方差
考点04
独立性检验
考点05
回归分析
练·抢分演练
一、随机抽样
1.(2025·山东·二模)某市开展“全民阅读”实施效果的调查研究,按区域划分为核心区、开发区、远郊区,各区的人口比例为.现采用分层抽样的方法从各区中抽取人员进行调研.已知从开发区抽取的人数为300,则从核心区抽取的人数为( )
A.90 B.120 C.180 D.200
【答案】D
【分析】设从核心区抽取的人数为人,根据题意,列出方程,即可求解.
【详解】设从核心区抽取的人数为人,
因为各区的人口比例为,且从开发区抽取的人数为300,
可得,解得,即从核心区抽取的人数为人.
故选:D.
2.(2025·江西宜春·一模)某地为促进消费,向当地市民随机发放了面值10元、20元、50元的线下消费满减电子券,每位市民可以领取一张,且每笔消费仅能使用一张.某支持使用该消费券的大型商场统计到某日使用了10元、20元、50元消费券的消费账单的数量之比为5∶3∶2,若对这些账单用等比例分层随机抽样的方法进行抽样调查,抽取一个容量为50的样本,则样本中使用了50元消费券的消费账单的份数为( )
A.5 B.10 C.20 D.30
【答案】B
【分析】根据分层抽样特点,利用抽样比计算即可.
【详解】样本中使用了50元消费券的消费账单的份数为.
故选:B.
3.(2025·河北·模拟预测)某市在2025高考模拟测试评卷中,实行双评加抽样三评的评卷方法.已知收到有效的数学答卷为5万份,有效的物理答卷为3万份,有效的化学答卷为2.5万份.若双评后利用分层抽样的方法抽取210份样卷进行三评,则应抽取数学样卷的份数为 .
【答案】100
【分析】根据分层抽样的定义列式求解即可.
【详解】由题意,应抽取数学样卷的份数为.
故答案为:100
4.(2025·广东·一模)某学校为了了解学生美育培养的情况,用分层随机抽样方法抽样调查,拟从美术、音乐、舞蹈兴趣小组中共抽取30名学生,已知该校美术、音乐、舞蹈兴趣小组分别有20,30,50名学生,则不同的抽样结果共有( )
A. B.
C. D.
【答案】C
【分析】根据分层抽样的定义,分别求出每个兴趣小组要抽取的学生人数,结合分步乘法计数原理计算即可.
【详解】由题意,美术组要抽取的学生数为,音乐组要抽取的学生数为,舞蹈组要抽取的学生数为,由分步乘法计数原理可知,不同的抽样结果.
故选:C.
二、数字特征
5.(2025·江苏·三模)第九届亚冬会在哈尔滨举行,参加自由式滑雪女子大跳台决赛的六位选手的得分如下:119.50,134.75,154.75,159.50,162.75,175.50,则该组数据的第40百分位数为( )
A.134.75 B.144.75 C.154.75 D.159.50
【答案】C
【分析】根据百分位数的定义求解.
【详解】六位选手得分由小到大排列如下:
119.50,134.75,154.75,159.50,162.75,175.50,
因为,
所以该组数据的第40百分位数为第三个数154.75.
故选:C
6.(2025·安徽·三模)已知一组样本数据7,9,5,8,4,a的极差为5,则a的取值范围是( )
A. B. C. D.
【答案】A
【分析】根据的取值范围进行讨论,即可得出答案.
【详解】当时,数据中最大的数是,最小的数是,极差为,符合题意;
当时,数据中最大的数是,最小的数是,极差为,不符合题意;
当时,数据中最大的数是,最小的数是,极差为,不符合题意;
综上所述,a的取值范围是.
故选:A.
7.(2025·湖南湘潭·三模)某市AI智能机器人比赛项目有29位同学参赛,他们在预赛中所得的积分互不相同,只有积分在前15名的同学才能进入决赛.若某同学知道自己的积分后,要判断自己能否进入决赛,则他只需要知道这29位同学的预赛积分的( )
A.中位数 B.众数 C.平均数 D.极差
【答案】A
【分析】根据中位数的概念进行判断即可.
【详解】因为29位同学的积分,中位数是第15名,所以知道中位数即可判断是否在前15.
故选:A.
8.(2025·山东临沂·二模)若样本数据的均值为10,则样本数据的均值为 .
【答案】19
【分析】由均值的性质即可求解.
【详解】若样本数据的均值为10,则样本数据的均值为.
故答案为:19.
9.(2025·湖北武汉·二模)随着Deepseek的流行,各种AI大模型层出不穷,现有甲、乙两个AI大模型,在对甲、乙两个大模型进行深度体验后,6位评委分别对甲、乙进行打分(满分10分),得到如图所示的统计表格,则下列结论不正确的是( )
评委编号模型名称
1
2
3
4
5
6
甲
7.0
9.3
8.3
9.2
8.9
8.9
乙
8.1
9.1
8.5
8.6
8.7
8.6
A.甲得分的平均数大于乙得分的平均数 B.甲得分的众数大于乙得分的众数
C.甲得分的中位数大于乙得分的中位数 D.甲得分的方差大于乙得分的方差
【答案】A
【分析】根据已知数据分别应用中位数,众数,平均数及方差定义分别计算判断各个选项.
【详解】甲、乙的得分从小到大排列如下:
甲:,乙:,
甲得分的中位数为,乙得分的中位数为,甲得分的中位数大于乙得分的中位数,故C正确;
甲得分的众数,乙得分的众数为,甲得分的众数大于乙得分的众数,故B正确;
甲得分的平均数,
乙得分的平均数,所以甲得分的平均数等于乙得分的平均数,故A错误;
甲的方差,
乙的方差为
故甲得分的方差大于乙得分的方差,故D正确.
故选:A.
10.(2025·湖南长沙·一模)(多选)设的极差为,平均值为,中位数为,方差为,,其中的极差为,平均值为,中位数为 ,方差为,则( )
A. B. C. D.
【答案】BC
【分析】根据题意,结合数据的极差,平均数,中位数和方差的性质,即可求解.
【详解】由的极差为,平均值为,中位数为m,方差为,
若,
则数据的极差为,平均值为,中位数为,方差为.
故选:BC.
11.(2025·广东·一模)若样本数据的平均数为的平均数为22,则样本数据的方差为 .
【答案】20
【分析】根据给定条件,利用平均数的定义、方差的性质列式计算得解.
【详解】由样本数据的平均数为4,得的平均数为4,
由的平均数为22,得,
则的平均数为,
因此的方差为,所以的方差为.
故答案为:20
12.(2025·上海闵行·二模)已知数据的平均数为2,方差为5,则的平均数为 .
【答案】9
【分析】由方差和平均数的计算公式结合已知计算即可.
【详解】由题意可得,,
所以,
又,
即,即,
所以的平均数为9.
故答案为:9.
13.(2025·宁夏石嘴山·三模)下图1是2020-2024年国内生产总值及其增长速度,图2是2020-2024年三次产业增加值占国内生产总值比重(三次产业包括第一产业,第二产业,第三产业).根据图1,图2,以下描述不正确的是( )
A.2022年第二产业增加值较2021年有所减少
B.2020-2024年国内生产总值呈逐年增长的趋势
C.2022年与2024年国内生产总值的增长速度较上一年有明显回落
D.2020-2024年第三产业增加值占国内生产总值比重的极差为
【答案】A
【分析】根据给定的柱状图及折线图逐项分析判断即可.
【详解】对于A,结合图1图2知,2021年第二产业的增加值为:亿元;
2022年第二产业的增加值为:亿元,
而,因此2022年第二产业增加值较2021年有所增加,A错误;
对于B,由图1可以看出柱状图逐年增高,则2020-2024年国内生产总值呈逐年增长的趋势,B正确;
对于C,由图1可以看出折线在2022年与2024年处与上一年连线的斜率小于0,C正确;
对于D,由图2可以得出2020-2024年第三产业增加值占国内生产总值比重最大值为:54.5%,
最小值为:52.8%,所以极差,D正确;
故选:A
14.(2025·天津南开·二模)某中学三个不同选课组合的学生在一次高三质量监测的数学平均分分别为,若按不同选课组合采用分层抽样的方法抽取了一个120人的样本,抽到三个不同选课组合的学生人数分别为20,40,60,则估计这三个不同选课组合学生的数学平均分为( ).
A. B. C. D.
【答案】C
【分析】先求出三个不同选课组合的学生的人数的比列,总体平均分需用各组合的平均分乘以对应比列后相加即可.
【详解】因为三个不同选课组合的学生人数分别为20,40,60,
所以三个不同选课组合的学生的人数的比列分别为:,
所以估计这三个不同选课组合学生的数学平均分为.
故选:C.
15.(2025·重庆·模拟预测)“缤纷艺术节”的表演比赛中,某节目结束后,100位观众评委的打分情况如下图所示(仅有一个最低分).计算该节目最终得分时,需去掉一个最高分和一个最低分,关于处理后的打分数据,下列说法一定正确的是( ).
A.中位数不变,极差变小 B.极差不变,平均数变小
C.平均数变大,方差变小 D.方差变小,中位数变大
【答案】A
【分析】根据去掉最大最小值的影响求解即可.
【详解】去掉一个最大值和一个最小值,所以中位数没有变化,
因为极差为极大值与极小值之差,所以极差会变小.
所以BD错误;
由于去掉最大值与最小值,平均值的变化不确定,故C错误.
故选:A
16.(2025·福建南平·三模)(多选)已知甲组数据的平均数为8,方差为2,由这组数据得到乙组数据,其中,则( )
A.数据的平均数为
B.乙组数据的方差为11
C.数据的方差小于2
D.甲组数据的第25百分位数是乙组数据的第25百分位数的2倍
【答案】AC
【分析】对于A,由平均数和方差性质求出两组数据综合即可求解判断;对于B,由方差性质即可直接计算求解判断;对于C,由新数据的平均数和方差公式计算即可判断;对于D,由百分位数定义即可判断;
【详解】数据的平均数为8,数据,
对于A,由题,,
,
所以数据的平均数为
,故A正确;
对于B,由题乙组数据的方差为,故B错误;
对于C,由题可得数据的平均数为8,
所以数据的方差为
,故C正确;
对于D,因为,
所以甲组数据的第25百分位数是第二大数据设为,则乙组数据的第25百分位数是,
甲组数据的第25百分位数小于乙组数据的第25百分位数的2倍,故D错误.
故选:AC
17.(2025·广东揭阳·二模)(多选)洛阳是我国著名的牡丹之乡,以“洛阳地脉花最宜,牡丹尤为天下奇”流传于世.某种植基地通过植株高度研究牡丹的生长情况,从同一批次牡丹中随机抽取100株的植株高度(单位:)作为样本,得到如图所示的频率分布直方图,则下列结论正确的是( )
A.基地牡丹植株高度的极差的估计值大于50
B.基地牡丹植株高度不高于70的频率估计值为30%
C.基地牡丹植株高度的众数与中位数的估计值相等
D.基地牡丹植株高度的第75百分位数的估计值小于80
【答案】BC
【分析】根据频率分布直方图中的数据可得出极差,判断A项;计算各小组频率可判断B项;分析可知中位数位于,列方程计算即可得出中位数,根据频率分布直方图可直接估算众数;根据各小组的概率可知基地牡丹植株高度的第75百分位数的估计值应在内.
【详解】对于A项,由图象可知,基地牡丹植株高度范围在之间,所以极差的估计值应不大于50,故A错误;
对于B项,基地牡丹植株高度不高于70的频率为.故B正确;
对于C项,由频率分布直方图可知,基地牡丹植株高度不高于70的频率为,不高于的频率为,
所以中位数位于,设为,
则应有,计算可得.
众数估计为的中点,也是,与中位数相同.故C正确;
对于D项,基地牡丹植株高度不高于的频率为,不高于的频率为,
所以,基地牡丹植株高度的第75百分位数的估计值应在内.故D错误.
故选:BC.
三、随机变量分布列及期望方差
18.(2025·湖北宜昌·二模)已知随机变量X,Y均服从两点分布,若,,且,则( )
A. B. C. D.
【答案】A
【分析】列举法即可求解.
【详解】因为随机变量X,Y均服从两点分布,且,,
所以,,
所以,
又因为,所以,
所以.
故答案为:A.
19.(2025·甘肃金昌·二模)已知随机变量的分布列如下:
X
1
2
3
0.4
则数学期望( )
A.0.8 B.1.4 C. D.2
【答案】D
【分析】根据概率之和为1得到方程,求出,利用期望公式得到答案.
【详解】由题意,,所以,
所以.
故选:D.
20.(2025·浙江·三模)(多选)在足球训练课上,A,B两位同学进行“点球”比赛,规则为:比赛共进行5轮,在每轮比赛中,两人各罚点球一次,射中得1分,射不中得0分.已知A,B每次点球命中的概率分别为,,,若5轮比赛后A,B的总得分分别为,,则下列结论正确的是( )
A.若,则
B.
C.若,则
D.若当且仅当时,取得最大值,则
【答案】ACD
【分析】利用随机变量二项分布的期望、方差以及概率计算公式,逐项计算判断即可.
【详解】由题意,随机变量,,
对于A,故,,若,则,故A正确;
对于B,若,则,
化简整理得,即,
所以时,,故B错误;
对于C,由题意,,,
所以,
由得,,
故,即,故C正确;
对于D,由题意,,
则,解得,故D正确.
故选:ACD.
21.(2025·贵州安顺·二模)(多选)关于随机变量的期望与方差,以下说法正确的是( )
A.设为随机变量,为常数,则
B.若,则与试验次数无关
C.若,则
D.两点分布中,时,方差最大
【答案】ABD
【分析】对于A:根据期望和方差的性质即可判断;对于B:根据二项分布的期望和方差公式直接判断即可;对于C:根据正态分布的期望和方差公式直接判断即可;对于D:根据两点分别的方差公式结合基本不等式即可判断.
【详解】对于选项A:根据期望和方差的性质可知:,故A正确;
对于选项B:若,则,与试验次数无关,故B正确;
对于选项C:若,则,故C错误;
对于选项D:设成功的概率为,
则方差,
当且仅当,即时,等号成立,
所以当时,方差最大,故D正确;
故选:ABD.
22.(2025·山东·模拟预测)小王到某公司面试,一共要回答道题,每道题答对得分,答错倒扣分,设他每道题答对的概率均为,且每道题答对与否相互独立,记小王答完道题的总得分为,则当取得最大值时,( )
A. B. C. D.
【答案】C
【分析】设答对题的个数为,由条件可得,结合二项分布期望公式和方差公式求,,根据关系,结合期望性质和方差性质求,,由此可得的解析式,再根据二次函数性质求结论.
【详解】设答对题的个数为,由已知可得,
所以,,
因为每道题答对得分,答错倒扣分,为小王答完道题的总得分,
所以,
所以,
,
所以,又,
所以当时,取最大值,最大值为.
故选:C.
23.(2025·江苏盐城·三模)设正数,随机变量的分布列,若随机变量的期望为1,则最小值为( )
0
A.1 B. C.4 D.2
【答案】D
【分析】根据离散型随机变量分布列的性质求出的值,再利用期望公式得到与的关系,然后换元,将所求式子进行变形,结合与的关系,运用基本不等式求出其最小值.
【详解】根据离散型随机变量分布列的性质:所有概率之和为,即.解得.
已知随机变量的期望为,可得.
化简可得:,进一步变形为.
设,则,
将进行变形,
给式子乘以得到.
展开式子:
根据基本不等式,有.
所以,当且仅当,即时等号成立.
故选:D.
四、独立性检验
24.(2025·辽宁·三模)已知某社区有200人计划暑假去云南或河南旅游,他们每人从云南与河南中选择一个省份去旅游,将这200人分为东、西两小组,经过统计得到如下列联表:
去云南旅游
去河南旅游
合计
东小组
60
40
100
西小组
70
30
100
合计
130
70
200
由表中数据可知,这200人选择去云南旅游的频率为 (用百分数表示), (填入“有”或“没有”)的把握认为游客的选择与所在的小组有关.
参考公式:.
0.05
0.01
0.001
3.841
6.635
10.828
【答案】 没有
【分析】由表中数据,利用古典概型,可得空1的答案;由表中数据,根据独立性检验的解题思想,可得空2的答案.
【详解】由表中数据可知,这200人选择去云南旅游的频率为.
因为,
所以没有的把握认为游客的选择与所在的小组有关.
故答案为:,没有.
25.(2025·山东济南·一模)(多选)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到,根据小概率值为的独立性检验,则( )
附:
0.100
0.050
0.010
2.706
3.841
6.635
A.若,则认为“毛色”和“角”无关
B.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若,则认为“毛色”和“角”无关
D.若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
【答案】BC
【分析】根据独立性检验的判断原则一一分析即可.
【详解】对AB,若,因为 ,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A 错,B 对;
对CD,若,因为,则认为“毛色”和“角”无关,故C正确,D错误.
故选:BC.
26.(2025·广东汕头·二模)(多选)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”进行调查,调查样本中女生人数是男生人数的,男生追星人数占男生人数的,女生追星的人数占女生人数的.若根据小概率值的独立性检验,可以推断追星和性别有关,则调查样本中男生人数可以是( )
(参考公式及数据:,临界值)
A.10 B.11 C.12 D.18
【答案】CD
【分析】设样本中男生人数为,得列联表,计算,计算可得结论.
【详解】设样本中男生人数为,得列联表
追
不追
合计
男
女
合计
所以,即,又,故C、D正确.
故选:CD.
27.(2025·四川·三模)为考察某种药物对预防疾病的效果,进行了动物试验,根据120个有放回随机样本的数据,得到如下列联表:
药物
疗效
合计
未患疾病
患疾病
未服用
10
50
60
服用
18
42
60
合计
28
92
120
经计算得到,根据小概率值的独立性检验(已知独立性检验中),结论为( )
A.药物对预防疾病没有效果
B.药物对预防疾病没有效果,这种判断犯错误的概率不超过
C.药物对预防疾病有效果
D.药物对预防疾病有效果,这种判断犯错误的概率不超过
【答案】A
【分析】根据独立性检验的判断方法,结合已知条件,即可判断和选择.
【详解】设零假设:药物对预防疾病没有效果;因为,
故零假设不成立,药物对预防疾病没有效果.
故选:A.
28.(2025·辽宁·二模)某实验中学为调查本校高三学生的学习成绩是否与坚持体育锻炼有关,随机选取了高三300名学生的某次联考成绩进行统计,得到如下表格:
分数
锻炼
合计
坚持锻炼
不坚持锻炼
分数
100
80
180
分数<600
50
70
120
合计
150
150
300
依据小概率值的独立性检验,可以认为高三学生的学习成绩与坚持进行体育锻炼有关,则m的值可能是( )
附:,.
α
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
A.0.001 B.0.005 C.0.01 D.0.05
【答案】D
【分析】先求出的值,结合独立性检验的结论求解即可.
【详解】由题意,,
结合表格数据及选项,可以认为高三学生的学习成绩与坚持进行体育锻炼有关,
则m的值可能是0.05.
故选:D.
29.(2025·辽宁·模拟预测)某医疗研究机构为了解某种地方性疾病与当地居民的生活习惯(生活习惯分良好和不够良好)的关系,现从该地区随机抽取名居民,统计数据如下:
生活习惯
合计
良好
不够良好
患有该疾病居民
0.6n
1.4n
2n
未患有该疾病居民
1.2n
0.8n
2n
合计
1.8n
2.2n
4n
若根据小概率值的独立性检验,分析发现居民是否患有该疾病与生活习惯有关联,则从该地区抽取居民人数至少为( )
附:,.
A.60 B.76 C.80 D.100
【答案】C
【分析】由卡方的计算结合题意可得.
【详解】,又,所以,且,,,均为整数,所以的最小值为20,则从该地区抽取居民人数至少为80.
故选:C
30.(2025·甘肃金昌·二模)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是( )
附表:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.有的把握认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【分析】求得卡方值,比对临界值,逐个判断即可.
【详解】由题意,列出列联表:
接受
不接受
合计
男
40
60
100
女
20
80
100
合计
60
140
200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
五、回归分析
31.(2025·江苏盐城·三模)(多选)下列说法正确的是( )
A.回归直线经过样本点的中心
B.对于独立性检验,随机变量的值越大,判定“两个变量有关系”犯错误的概率就越小
C.在一元线性回归模型中,若决定系数,则残差的平方和为0
D.和的方差分别为和,若且,则.
【答案】ABC
【分析】根据回归直线的求解,可判断A选项正确;根据独立性检验的标准,可判断B选项正确;根据决定系数的求解,可知当时,其残差平方和为0,故C正确,根据方差的线性运算性质,可知D错误.
【详解】对于A,根据最小二乘法可知,一元线性回归直线一定过样本中心点,故A正确;
对于B,卡方检验中,值越大,概率值越小,拒绝原假设时犯错误的概率就越小,故B正确;
对于C,由决定系数,当时,可得残差平方和,故C正确;
对于D,因为且,则,所以,故D错误.
故选:ABC.
32.(2025·河北·模拟预测)(多选)甲乙二人统计变量和变量,得到一组数据并进行回归分析,甲同学首先求出变量的8个数据平均值为2,回归直线方程,乙同学对甲的计算过程进行检查,发现甲将一数据错看成,甲乙二人将错误修正后得到正确回归直线方程,则( )
A.变量的8个数据正确平均值为
B.
C.变量和变量正相关
D.变量和变量的相关系数为4
【答案】ABC
【分析】根据回归方程过样本中心点,利用题干数据求出正确的样本中心点,判断AB;根据回归直线方程斜率的正负判断C;根据相关系数的范围判断D.
【详解】由甲同学所得错误的回归直线方程过点得,
并得到,,
所以,,
又甲将一数据错看成,
所以实际应为,,
故正确的,,故A正确;
又,,满足,所以,解得,故B正确;
又因为回归直线方程的斜率为,所以变量和变量正相关,故C正确;
根据变量和变量的相关系数的范围为,故,故D错误.
故选:ABC
33.(2025·安徽·三模)(多选)已知由样本数据得到的回归直线方程为,且,剔除一个偏离回归直线较远的异常点后,得到的新回归直线经过点,则( )
A.变量x,y负相关
B.剔除异常点后;样本相关系数的绝对值变大
C.新回归直线经过点
D.新回归直线的斜率是
【答案】ABD
【分析】由回归直线方程的斜率判断A,由样本相关系数的性质判断B,求出剔除异常点后的回归直线方程,过样本点中心,计算斜率,即可判断CD
【详解】对于A,由回归直线的斜率为,可知变量x,y负相关,故A正确;
对于B,剔除异常点后,拟合精度变好,故样本相关系数的绝对值变大,故B正确;
对于C,因为原回归直线方程为,且,
所以,
则剔除异常点后,,,
故新回归直线经过点,故C错误;
对于D,因为新回归直线经过点和,
所以新回归直线的斜率为,故D正确.
34.(2025·黑龙江哈尔滨·一模)由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
【答案】
【分析】首先求剩余数据的中心点,再代入回归直线方程求,再代入求,即可求残差值.
【详解】由于回归直线过样本中心点,当时,,
去除偏离点后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,所以,新的回归直线方程为,当时,,
所以,去除偏离点后,相应于样本点的残差值为.
故答案为:.
35.(2025·天津南开·一模)如图是由一组实验数据得到的散点图,以下四个回归方程类型中适合作为与的回归方程类型的是( )
A. B.
C. D.
【答案】C
【分析】根据散点图的变化趋势及散点的分布情况判断回归方程的类型.
【详解】由散点图中各点的变化趋势:非线性、且上单调递增,所以适合指数型模型.
故选:C.
36.(2025·山东聊城·二模)为了研究某市高中生的脚长(单位:cm)和身高(单位:cm)的关系,市卫健委从该市随机抽取若干名高中生做调查,经统计,所调查数据的,根据最小二乘法算得脚长和身高的经验回归方程为.已知被调查的某学生的脚长为25cm,身高180cm,则该样本点的残差为( )
A.1cm B.cm C.4cm D.cm
【答案】D
【分析】根据回归方程必过点求出,即可得到回归方程,再根据残差的定义计算可得.
【详解】因为,又经验回归方程必过点,
所以,解得,所以,
当时,
所以该样本点的残差为.
故选:D
37.(2025·甘肃平凉·模拟预测)对于变量和变量,经过随机抽样获得成对样本数据,且,若关于的经验回归方程为,其样本相关系数为,则( )
(参考数据:)
A.1 B.2 C.3 D.4
【答案】C
【分析】根据样本相关系数的公式计算出,再根据回归系数的公式计算出,最后根据计算即可.
【详解】因为,
所以,
因为,所以,
所以,所以.
故选:C.
38.(2025·河南·三模)人工智能技术(简称AI技术)已成为引领世界新一轮科技革命和产业改革的战略性技术,AI技术加持的电脑(以下简称AI电脑)也在全国各地逐渐热销起来.下表为市统计的2024年11月至2025年3月这5个月该市AI电脑的月销量,其中为月份代号,(单位:万台)为AI电脑的月销量.
月份
2024年11月
2024年12月
2025年1月
2025年2月
2025年3月
月份代号
1
2
3
4
5
月销量
0.5
0.9
1
1.2
1.4
经过分析,与线性相关,且其线性回归方程为,则2025年3月的残差为( )(实际值与预计值之差)
A. B. C.0.02 D.0.04
【答案】B
【分析】求出样本中心点,带入回归方程求出,在求出对应的月销量预测值,结合月销量求出残差
【详解】因为,
所以,所以关于的线性回归方程为,
2025年3月对应的,故此时残差为.
故选:B.
1
学科网(北京)股份有限公司
$$