内容正文:
第二节 用样本估计总体
1.统计图表
(1)频率分布直方图的画法步骤
①求极差(即一组数据中__最大值__与__最小值__的差);
②决定__组距__与__组数__;
③将数据__分组__;
④列__频率分布表__;
⑤画__频率分布直方图__.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的__中点__,就得到频率分布折线图;
②总体密度曲线:随着样本容量的增加,作图时__所分组数__增加,__组距__减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
2.样本的数字特征
(1)众数:一组数据中__出现次数最多__的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于 最中间 位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把 称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s= ,
s2=[(x1-)2+(x2-)2+…+(xn-)2].
3.百分位数
如果将一组数据按从小到大排序,并计算相应的累计百分位,那么某一百分位所对应数据的值就称为这一百分位的百分位数,可表示为一组n个观测值按数值大小排列.如,处于p%位置的值称为第p百分位数或p%分位数.
频率分布直方图
某大学生在开学季准备销售一种文具盒进行试创业,在一个开学季内,每售出1盒该产品获得利润30元,未售出的产品每盒亏损10元.根据历史资料,得到开学季市场需求量的频率分布直方图,如图所示.该同学为这个开学季购进了160盒该产品,以x(单位:盒,100≤x≤200)表示这个开学季内的市场需求量,y(单位:元)表示这个开学季内经销该产品的利润.
(1)根据频率分布直方图估计这个开学季内市场需求量x的众数和平均数;
(2)将y表示为x的函数;
(3)根据频率分布直方图估计利润y不少于4 000元的概率.
【解】 (1)由频率分布直方图得,这个开学季内市场需求量x的众数是150盒,
需求量在[100,120)内的频率为0.005 0×20=0.1,
需求量在[120,140)内的频率为0.010 0×20=0.2,
需求量在[140,160)内的频率为0.015 0×20=0,3,
需求量在[160,180)内的频率为0.012 5×20= 0.25,
需求量在[180,200]内的频率为0.007 5×20=0.15.
则平均数=110×0.1+130×0.2+150×0.3+170×0.25+190×0.15=153(盒).
(2)因为每售出1盒该产品获得利润30元,未售出的产品每盒亏损10元,所以当100≤x<160时,y=30x-10(160-x)=40x-1 600,
当160≤x≤200时,y=160×30=4 800,
所以y=
(3)因为利润y不少于4 000元,
所以当100≤x<160时,
由40x-1 600≥4 000,解得140≤x<160.
当160≤x≤200时,y=4 800>4 000恒成立,
所以140≤x≤200时,
利润y不少于4 000元.
所以由(1)知利润y不少于4 000元的概率P=1-0.1-0.2=0.7.
频率、频数、样本容量的计算方法
(1)×组距=频率.
(2)=频率,=样本容量,样本容量×频率=频数.
[针对训练]
1.( 2025·辽宁丹东二模)某医院职工总数为200人,在2023年1月份,每人约有25次到超市或市场购物,为调查职工戴口罩购物的次数,随机抽取了40名职工进行调查,得到这个月职工戴口罩购物次数的频率分布直方图如下,根据该直方图估计,2023年1月份,该院职工戴口罩购物次数不低于15的职工人数约为__60__.
解析:由频率分布直方图得,2023年1月份,该院职工戴口罩购物次数不低于15的职工所占频率为(0.05+0.01)×5=0.3,故2023年1月份,该院职工戴口罩购物次数不低于15的职工人数约为0.3×200=60.
样本的数字特征
(2019·高考全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【解】 (1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[针对训练]
2.(2025·湖北武昌区调研考试)对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.
(1)根据直方图完成以下表格;
成绩
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
(2)求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩?
解:(1)填表如下:
成绩
[50,60)
[60,70)
[70,80)
[80,90)
[90,100)
频数
50
150
350
350
100
(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78,
方差s2=(-23)2×0.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101.
(3)进入复赛选手的成绩为80+×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.
(说明:回答82分以上,或82分及其以上均可)
学科网(北京)股份有限公司
$