内容正文:
第3章
数据预处理
将原本大量杂乱无章,难以理解的原始数据变得统一,准确,完整,转化成适合数据分析所需要的数据格式。
1
目录contents
03
数据预处理方法
02
数据预处理内容
01
数据预处理认知
Part / 01
数据预处理认知
3.1.1 数据预处理的作用
集中,系统地反应客观实际:通过数据量化,清晰地了解当前情况,有效地监控运营过程和目标
确保数据的内容完善和格式统一:保证数据内容的完整,准确,有效,方便后续数据分析使用
发现规律,实现深度挖掘:对数据预处理的维度越多,进而后续数据分析所能提取的信息越丰富
3.1.2 数据预处理的原则
数据预处理的原则
客观性原则:处理结果准确客观,准确反馈现状
1
完整性原则:包含数据属性的约束,例如数据的值域,类型,有效性等
2
针对性原则:对于不同目标和不同数据,要用合适的方法来处理
4
严谨性原则:数据处理时要谨慎,细心,敏锐,保持严谨的态度
便捷性原则:处理结果便于观察,对比,分析
3
5
3.1.2 数据预处理的原则
Part / 02
数据预处理内容
2.1 数据预处理内容
● 收集数据存在的问题
不完整性:数据存在遗漏或者不确定
不一致性:数据缺乏统一认定标准
有噪音:存在异常值(不符合预期)
冗余性:重复数据
2.1 数据预处理内容
● 数据审核
准确性审核:数据的真实性和精确性
适用性审核:判定数据是否符合项目需求
及时性审核:判定数据是否在项目需求时间内
一致性审核:保证数据从多个源头获取的含义保持一致
● 数据筛选
筛选改正:改正数据中出现问题的部分
筛选剔除:删除数据中出现问题的部分
● 数据排序
2.1 数据预处理内容
Part / 03
数据预处理方法和技巧
3.1 数据预处理内容
● 分类统计
分类汇总:对单张表进行汇总处理,处理流程为先排序后汇总
3.1 数据预处理内容
● 分类统计
分类汇总:对单张表进行汇总处理,处理流程为先排序后汇总
3.1 数据预处理内容
● 分类统计
分类汇总:对单张表进行汇总处理,处理流程为先排序后汇总
3.1 数据预处理内容
● 分类统计
分类汇总:对单张表进行汇总处理,处理流程为先排序后汇总
3.1 数据预处理内容
● 分类统计
合并计算:对多张表进行汇总处理
3.1 数据预处理内容
● 分类统计
数据透视表:对单表进行交互式处理,能够动态计算,汇总
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
缺失及特定数据清洗(基于小计或者空值练习)
重复数据清洗
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
缺失及特定数据清洗(基于小计或者空值练习)
重复数据清洗
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
缺失及特定数据清洗(基于小计或者空值练习)
重复数据清洗
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
格式内容清洗(表头清洗)
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
格式内容清洗(对跨多行的单元格进行分割并填充)
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
格式内容清洗(日期格式统一处理)
3.1 数据预处理内容
● 数据清洗:将不规范的数据(不一致的数据,错误的数据,不完整的数据和重复的数据)等规范化其作用
逻辑错误清洗
3.1 数据预处理内容
● 数据转化
数据列分列(根据列表中数据的长度或者特殊字符进行分列)
3.1 数据预处理内容
● 数据排序
简单排序及高级排序(针对数值和字体颜色)
3.1 数据预处理内容
● 数据排序
自定义排序(针对多个条件排序)
3.1 数据预处理内容
● 数据筛选
自动筛选
3.1 数据预处理内容
● 数据筛选
高级筛选
$$