内容正文:
表2-3“海上丝路"贸易指数情况
时间
进▣贸易指数出口贸易指数
2018年12月
115.80
153.18
2019年12月
134.67
164.76
2019年12月
134.67
164.76
2020年12月
143.78
195.46
2021年12月
173.61
236.07
2021年12月
173.61
236.07
2022年12月
160.93
212.21
2023年12月
161.08
210.50
数据来源:中国一带一路网。
第9课
常见的数据
处理过程
目录
问题情境
有效处理数据的方法
拓展与深化
数据处理的基本方法
问题情境
在准备“一带一路”主题报告过程中我们收集了大量的相关资料,这些资料有些需要合并对比,有些存在不完整、不一致、重复等问题。面对这样的数据表格,如何将其整理成符合需要的数据呢?
有效处理数据的方法
数据标准化
04
数据变换
03
数据清洗
02
数据合并
01
数据处理过程:
有效处理数据的方法
数据合并:能将数据进行简单归类,为分析数据创建好数据分类集。
有效处理数据的方法
数据标准化
04
数据变换
03
数据清洗
02
数据合并
01
数据处理过程:
有效处理数据的方法
数据清洗:可以将数据中的缺陷、错误数据等问题处理掉,最大限度地提高数据分析结果的准确度。
有效处理数据的方法
数据标准化
04
数据变换
03
数据清洗
02
数据合并
01
数据处理过程:
有效处理数据的方法
数据变换:可以将数据加工成建模时需要的形式,为数据建模做准备。通常数据标准化和数据变换作为同一步骤执行。
数据处理的基本方法
图2-16 2017年我国四大区域与共建“一带一路”国家贸易额及占本区域对外贸易的比重
图2-16是2017年我国四大区域与共建“一带一路”国家贸易额及占本区域对外贸易的比重,在整理这部分数据时,需要将两组数据按照区域进行合并,我们应该如何操作呢?
数据处理的基本方法
1.合并数据集
将来自不同渠道的两个表格放在一个工作表中
图2-17 选择数据
数据处理的基本方法
图2-18 合并数据
1.合并数据集
选中‘占本区域对外贸易比重’右击→复制或者剪切
在‘对共建一带一路国家贸易额’后列进行粘贴,然后调整列宽
数据处理的基本方法
图2-18 合并数据
1.合并数据集
成品展示
2.数据清洗
处理数据缺失值、删除重复数据和修正异常值是数据清洗的三个主要表现方面。
数据处理的基本方法
2.数据清洗
请观察表2-3,你发现什么问题?
数据处理的基本方法
2.数据清洗
(1)数据缺失值的检测。
数据缺失是指数据中某个或某些特征的值是不完整的,这些值称为缺失值。
数据处理的基本方法
2.数据清洗
(2)处理重复数据。
由于数据分布、数据共享等原因,在数据的采集和处理过程中,会产生大量的重复数据,增加存储成本。重复数据包括记录重复、特征重复两种类型。
数据处理的基本方法
2.数据清洗
(3)异常值处理。
异常值是指数据中存在的不合理的个别值。产生异常值的主要原因包括人为错误和自然错误两大类。
数据处理的基本方法
数据处理的基本方法
如何处理这些异常值?
我的处理方法:
(一)删除异常值
适用情况:
当异常值的出现是由于数据录入错误、测量仪器故障等明显的错误原因导致时,且这些异常值对整体分析影响较大,可以考虑直接删除。
例如:在一份学生考试成绩数据中,发现某学生成绩被错误记录为 999 分(明显高于正常的满分值),这种情况下可删除该异常值。
数据处理的基本方法
如何处理这些异常值?
我的处理方法:
(二)修正异常值
适用情况:
当异常值是由于一些可纠正的因素导致的,比如数据转换错误、单位换算错误等,可以通过修正这些错误来使异常值变为合理值。
例如:在记录物体重量数据时,将千克误写成克,导致出现异常大的值,此时可通过正确换算来修正该异常值。
数据处理的基本方法
如何处理这些异常值?
我的处理方法:
(三)数据转换
适用情况:
当异常值的存在是因为数据本身的分布特性,且通过转换数据可以使异常值变得相对不那么突出时,可以采用数据转换的方法。
例如:对于一些具有偏态分布的数据(如右偏态,存在少数极大值导致的异常值),可通过对数转换、平方根转换等方法将其分布向正态分布靠拢,从而使异常值在新的尺度下不那么偏离整体数据。
数据处理的基本方法
如何处理这些异常值?
我的处理方法:
(四)视为缺失值处理
适用情况:
当不确定异常值产生的原因,或者无法直接删除或修正异常值时,可以将异常值视为缺失值,然后采用处理缺失值的方法来处理。
例如:在一些复杂的社会调查数据中,出现个别异常高或低的回答值,难以判断其合理性,就可将其作为缺失值处理。
数据处理的基本方法
如何处理这些异常值?
我的处理方法:
(五)使用稳健统计方法
适用情况:
在不希望删除或修改异常值,而是希望在存在异常值的情况下依然能得到相对可靠的统计分析结果时,可以采用稳健统计方法。
例如:在分析金融市场数据时,即使存在个别极端的股价波动异常值,也希望能基于整体数据得出有意义的分析结果,可使用稳健统计方法。
拓展与深化
想要通过数据直观展现我国与共建“一带一路”国家的经济合作情况,同学们可以访问中国一带一路网,并关注其“数据”板块下的“各国数据”区域。下面以“波兰”为例进行操作展示。
第一步:在浏览器内搜索“中国一带一路网”
拓展与深化
第二步:
在首页找到“数据”单击
拓展与深化
第三步:
单击:“国家/地区”→欧洲→波兰
拓展与深化
第四步:
单击:指标→选择所需要的内容→“查询”
拓展与深化
这种数据驱动的视角,能够帮助我们对两国合作情况一个全面而深入的了解,揭示出两国间经济合作的广度、深度及发展趋势。
拓展与深化
仿照上述操作方法,通过访问中国一带一路网并利用其提供的数据和信息,深入分析我国与某一个或几个共建“一带一路”国家的经济合作情况。
①我选择的国家是:
②我选择的指标是:
③我的结论是:
感谢观看
Overview Of Network
$$1
区域 对共建“一带一路”国家贸易额(亿美元)
东部 11494.11
西部 1434.16
中部 858.02
东北部 616.85
2
区域 占本区域对外贸易比重
东部 35.09%
西部 48.09%
中部 33.35%
东北部 41.68%
3
区域 对共建“一带一路”国家贸易额(亿美元) 占本区域对外贸易比重
东部 11494.11 35.09%
西部 1434.16 48.09%
中部 858.02 33.35%
东北部 616.85 41.68%
$$