内容正文:
课后限时练(十七) 统计与成对数据的统计分析
1.(多选)(2025·广西模拟)某超市在两周内的蓝莓每日促销量如图,根据此折线图,下面结论正确的有( )
A.这两周的日促销量低于200盒的比例低于50%
B.这两周的日促销量的众数是214
C.这两周的日促销量的极差是195
D.这两周的日促销量的第30百分位数是155
2.(多选)(2025·四川攀枝花模拟)小张同学对具有线性相关的两个变量x和y进行了统计分析,得到了表格,其中一些数据丢失,只记得这组数据拟合出的y关于x的经验回归方程为y=0.65x-1.8,若a,b,c成等差数列,则( )
x
4
6
8
10
12
y
a
2
b
c
6
A.变量x与y的样本相关系数r<0
B.b=3
C.x=6时,残差为-0.1
D.x=20时,y的预测值为11.2
3.[人教A版必修第二册P213例6]在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62,那么由这些数据计算出总样本的方差后,可估计高一年级全体学生的身高方差为________.
4.(2025·河北唐山二模)某学术平台引入AI智能检测系统对所收到的文本进行筛查.检测系统对AI生成文本的识别准确率为98%,对人
类撰写文本的识别准确率为96.5%.检测系统对所收到的文本进行筛查时,会对每篇文本输出一个“AI生成概率”得分y(单位:分).y与文本长度x(单位:字)可以用一元线性回归模型来刻画,其经验回归方程为y=bx+0.95,且=480,=0.35.已知该平台中15%的文本由AI生成.
(1)求回归系数b;
(2)从该平台随机选取一篇文本,求该文本被检测系统识别为人类撰写文本的概率(精确到0.001);
(3)现从平台中随机抽取200篇文本进行统计分析,填写列联表(篇数四舍五入取整数):
单位:篇
文本
真实性
检测结果
合计
识别为AI生成
识别为人类撰写
真实AI生成
真实人类撰写
合计
200
依据小概率值α=0.01的χ2独立性检验,能否认为“检测结果”与“文本真实性”有差异?
1 / 2
学科网(北京)股份有限公司
$
课后限时练(十七)
1.BC [根据题意得蓝莓每日促销量从小到大排列得到数据为80,83,138,155,157,165,179,214,214,221,243,260,263,275.
对于A,这两周的日促销量低于200盒的有7天,
所以这两周的日促销量低于200盒的比例为50%,故A错误;
对于B,这14天蓝莓每日促销量的众数是214,故B正确;
对于C,这14天蓝莓每日促销量的极差是 275-80=195,故C正确;
对于D,因为14×30%=4.2,
所以这两周的日促销量的第30百分位数是157,故D错误.故选BC.]
2.BCD [对于A,因为经验回归方程=0.65x-1.8中=0.65>0,
所以变量x与y正相关,所以样本相关系数r>0,故A错误;
对于B,由题意可知,=8,
因为经验回归方程=0.65x-1.8过样本中心点(),
所以=0.65×8-1.8=3.4,
所以a+2+b+c+6=3.4×5,即a+b+c=9,
又因为a,b,c成等差数列,所以2b=a+c,
所以3b=9,即b=3,故B正确;
对于C,因为经验回归方程为=0.65x-1.8,
所以x=6时,残差为2-(0.65×6-1.8)=-0.1,故C正确;
对于D,因为经验回归方程为=0.65x-1.8,
所以x=20时,y的预测值为0.65×20-1.8=11.2,故D正确.
故选BCD.]
3.51.486 2 [把男生样本记为x1,x2,…,x23,其平均数记为;把女生样本记为y1,y2,…,y27,其平均数记为,方差记为s2.根据方差的定义,总样本方差为s2=(xi-)2+(yj-)2]=(xi-)2+(yj-)2].
由(xi-)=xi-23=0,可得2(xi-)=2((xi-)=0.
同理可得2(yj-)=0.
因此,s2=(xi-)2+)2+(yj-)2+)2]={23[+
()2]+27[+()2]}①.
由=170.6,=160.6,根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,可得总样本平均数为=165.2.
把已知的男生、女生样本平均数和方差的取值代入①,
可得s2={23×[12.59+(170.6-165.2)2]+27×[38.62+(160.6-165.2)2]}=51.486 2.
可以计算出总样本的方差为51.486 2,并据此估计高一年级学生身高的总体方差为51.486 2.]
4.解:(1)因为x+0.95,且=480,=0.35,所以回归系数=
-0.001 25.
(2)记A=“由AI生成的文本”,B=“由人类撰写的文本”,
C=“被检测系统识别为人类撰写的文本”,
则由题意知P(A)=0.15,P(B)=0.85,
P(C|A)=1-98%=0.02,P(C|B)=0.965,
由全概率公式知文本被检测系统识别为人类撰写文本的概率:
P(C)=P(A)P(C|A)+P(B)P(C|B)=0.15×0.02+0.85×0.965≈0.823.
即文本被检测系统识别为人类撰写文本的概率约为0.823.
(3)由题意知,这200篇文本中,真实AI生成的篇数为200×15%=30,
真实人类撰写的篇数为200-30=170,
真实AI生成且检测系统识别为AI生成的篇数为30×0.98=29.4≈29,
真实人类撰写且检测系统识别为人类撰写的篇数为170×0.965=164.05≈164,
所以列联表为:
单位:篇
文本真实性
检测结果
合计
识别为AI生成
识别为人类撰写
真实AI生成
29
1
30
真实人类撰写
6
164
170
合计
35
165
200
零假设为
H0:“检测结果”与“文本真实性”无差异.
根据列联表中的数据,经计算得到
χ2=≈153.213>6.635=x0.01,
依据小概率值α=0.01的χ2独立性检验,我们推断H0不成立,即认为“检测结果”与“文本真实性”有差异,此推断犯错误的概率不大于0.01.
易错提醒:χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性越小.
3 / 3
学科网(北京)股份有限公司
$