内容正文:
常见的数据处理过程
沧州市第十四中学 张洪静
一、处理数据的过程
沧州市第十四中学 张洪静
数据合并
数据标准化
数据变换
数据清洗
一、数据处理过程
数据处理过程
四个基本步骤
沧州市第十四中学 张洪静
3
数据合并能将数据进行简单归类,为分析数据创建好数据分类集;
一、数据处理过程
数据变换可以将数据加工成建模时需要的形式,为数据建模做准备。通常数据标准化和数据变换作为同一步骤执行。
数据清洗可以将数据中的缺陷、错误数据等问题处理掉,最大限度地提高数据分析结果的准确度;
数据处理过程可以大致分为数据合并、数据清洗、数据变换、数据标准化四个基本步骤。
沧州市第十四中学 张洪静
4
一、有效处理数据的方法
数据处理是数据分析过程中的关键环节,直接影响到分析建模的效率。为了确保数据的准确性和完整性,我们需要收集庞杂的数据,并对数据进行整理和清洗。为了更好地组织和理解数据,我们需要对数据进行分类和合并,这可能涉及按照一定规则进行分组、合并或排序。此外,为了进行后续的数据分析,我们还需要进行数据转换和计算。
沧州市第十四中学 张洪静
5
二、数据处理的基本方法
沧州市第十四中学 张洪静
二、数据处理的基本方法
任务一:合并数据集
沧州市第十四中学 张洪静
二、数据处理的基本方法
图2-16 2017年四大区域与共建“一带一路”国家贸易额及占本区域对外贸易的比重
数据来源:国家信息中心“一带一路”大数据中心《“一带一路”大数据报告(2018)》,商务印书馆2018年。
沧州市第十四中学 张洪静
8
二、数据处理的基本方法
相同部分
沧州市第十四中学 张洪静
9
二、数据处理的基本方法
图2-18 合并数据
沧州市第十四中学 张洪静
10
二、数据处理的基本方法
任务二:数据清洗
沧州市第十四中学 张洪静
二、数据处理的基本方法
数据清洗的三个主要表现方面
修正
异常值
删除
重复数据
处理
数据缺失值
想要在数据清洗方面做得更好,需要具备严谨的态度和所探究领域型面、系统的知识,也需要在数据探索的道路上不断积累成功的经验和失败。
沧州市第十四中学 张洪静
二、数据处理的基本方法
( 1 ) 数据缺失值的检测
数据缺失是指数据中某个或某些特征的值是不完整的,这些值称为缺失值。造成数据缺失的原因很多,可能是由于疏忽或遗漏无意造成的,也可能是某些数据特征根本不存在等。在很多数据应用场景中都会碰到数据缺失的情况。
( 2 ) 处理重复数据
由于数据分布、数据共享等原因,在数据的采集和处理过程中,会产生大量的重复数据,增加存储成本。重复数据包括记录重复、特征重复两种类型。记录重复是指对数据进行检测,存在多行数据,其中存在一个或多个特征的值完全相同的情况。特征重复是指数据中存在一个或多个行/列名称不同但数据完全相同的情况,如表2-3所列。
对重复数据的有效检查和删除,在不损坏数据真实性和完整性的前提下,可以减少重复数据对存储成本的影响,以优化和节省更多的存储空间。
( 3 ) 异常值处理
如表2-3所列,可以去掉重复数据,也可以尝试在电子表格中删除数据行。异常值是指数据中存在的不合理的个别值。产生异常值的主要原因包括人为错误和自然错误两大类。数据录入错误属于人为错误,而数据采集过程中由于外部干扰产生的数据错误则为自然错误。如何处理这些异常值?我的处理方法:除电子表格外,也有其他处理数据的工具,在后面的学习中会接触到。
沧州市第十四中学 张洪静
二、数据处理的基本方法
沧州市第十四中学 张洪静
二、数据处理的基本方法
?
?
沧州市第十四中学 张洪静
三、拓展与深化
沧州市第十四中学 张洪静
三、拓展与深化
沧州市第十四中学 张洪静
三、拓展与深化
图2-19中国与波兰在多个关键领域的合作情况
沧州市第十四中学 张洪静
三、拓展与深化
图2-19中国与波兰在多个关键领域的合作情况
平台将以图表的形式,展示出所选时间段内,中国与波兰在多个关键领域的合作情况,包括但不限于中国对波兰进出口的活跃度、中国对波兰直接投资的存量规模增长趋势,以及双方港口间集装箱吞吐量的变动情况(如图2-19)。单击图表上方的“表格下载”按钮,即可下载数据表格,进而对数据进行更深入的分析。这种数据驱动的视角,能够帮助我们对两国合作情况一个全面而深入的了解,揭示出两国间经济合作的广度、深度及发展趋势。
沧州市第十四中学 张洪静
二、数据处理的基本方法
任务三:自选国家、指数进行分析
沧州市第十四中学 张洪静
三、拓展与深化
一带一路网站 https://www.yidaiyilu.gov.cn/
我选择的国家是:
我选择的指标是:
我的结论是:
进行数据分析的目的,是了解数据背后的意义。通过以上数据,可以看到“一带一路”倡议对周边国家经济的影响以及我国做出的巨大贡献。
沧州市第十四中学 张洪静
感谢观看
沧州市第十四中学 张洪静
$$