内容正文:
1
3.2.2 数据整理
3.2.2 数据整理
@
导入
上节课我们已经知道怎么利用网络爬虫采集网上的数据了,本节课是对所采集的数据做进一步整理。
首先我们回顾一下网络爬虫的使用。思考:我们得到的数据怎么使用?是直接使用还是加工后使用?
3.2.2 数据整理
@
数据整理
1.数据整理含义及基本保存格式
2.pandas简介与安装
3.pandas实例操作
4.数据保存方式
数据整理含义及基本保存格式
3.2.2 数据整理
@
数据整理含义
数据整理的目的是对数据进行校验和标准化。采集到的数据可能是非标准化的、不完整或重复的。通常,将这样的数据形象地称作“脏数据”。而用于分析的数据必须保证数据质量,即保证数据的完整性、统一性和准确性。完整性是指数据不能有缺失,统一性要求数据符合统一的标准,准确性即数据不能有错误。
数据整理就是通过去重、补漏和勘误等方法,删除重复数据、补全缺失数据和校正错误数据,并对数据进行统一性和标准化处理,以确保数据是相关和准确的,从而将“脏数据”变为“清洁数据”。
3.2.2 数据整理
@
数据整理基本保存格式
采集到的数据通常保存为文本文件、CSV 文件、Excel 文件或其他类型的文件。其中,CSV 文件将数据表格存储为纯文本,每一行代表一条数据,每条数据包含了一个或由逗号分隔的多个值。
pandas简介与安装
3.2.2 数据整理
@
pandas简介
pandas 是Python的一个数据分析库。
pandas最初是被作为金融数据分析工具而开发出来的,它提供了许多高效易用的数据分析工具和适合科学计算的数据结构,使得处理更加简洁,同时在处理速度上也做了不少优化。
调用pandas库可实现数据查找、删除、排序和索引等功能。
3.2.2 数据整理
@
Series:
一维数组,与Numpy中的一维数组类似,与Python中的基本数据结构list也很相近。它能保存不同数据类型的数据,包括字符串、布尔值和数字等。
TimeSeries:
以时间为索引的Series。
DataFrame:
二维表格型数据结构,可以将DataFrame理解为Series的容器。
Panel :
三维数组,可以理解为DataFrame的容器。
pandas数据结构
3.2