内容正文:
5.3-1 特征探索
数据的特征探索
系统日志采集法
网络数据采集法(网络爬虫)
其他数据采集法
0.数据分析的步骤
2
【练习一】阅读教材P111,思考下列问题:
数据分析的作用是:
探索数据内在的结构和规律,构建教学模型,并进行可视化表达
通过验证将模型转化为知识,为预测诊断过去、预测未来发挥作用
数据分析的常用方法有:
特征探索
关联分析
聚类分析
数据分类
建立模型
模型评价
一、数据分析的作用
3
二、特征探索
数据预处理——数据特征探索
数据清洗:利用散点图发现并处理缺失值、异常值、重复值
求最大、最小、极差等描述性统计量
绘制直方图
观察分析数据的分布特征
二、特征探索
数据预处理——数据特征探索
利用散点图发现和处理缺失数据、异常数据、重复数据
1.重复值处理
重复值一般采取删除法来处理
但有些重复值不能删除,例如订单明细数据或交易明细数据等
2.缺失值处理:需要根据实际情况定义
可以采取直接删除法
有时候需要使用替换法或者插值法
常用的替换法有均值替换、前向、后向替换和常数替换
二、特征探索
数据预处理——数据特征探索
利用散点图发现和处理缺失数据、异常数据、重复数据
3.异常值处理
指那些偏离正常范围的值,不是错误值
异常值出现频率较低,但又会对实际项目分析造成偏差
一般用过箱线图法(分位差法)或者分布图(标准差法)判断异常值
异常值往往采取盖帽法或者数据离散化
二、特征探索的过程
1.创建MySQL数据库
启动本地web服务和数据库服务
创建数据库
创建数据表
导入数据
#导入数据
conn=pymysql.connect(host=“127.0.0.1”,user=“root”,passwd=“”,db=“taobao”)
sql=“select * from taobao” #编写SQL语句
data=pda.read_sql(sql,conn) #执行SQL语句,从数据库中导入名为taobao的表
数据库的IP地址 127.0.0.1
user=“root” :用户名为root
passwd=“”:无密码
db=“taobao”:数据库的名字
用python进行数据分析的套路 - 知乎
https://zhuanlan.zhihu.com/p/119416560
7
2.数据清洗:发现并处理缺失值
二、特征探索的过程
#1