内容正文:
数据的分析
与可视化表达
1
2
目 录
CONTENT
01
02
数据的分析
数据的可视化表达
2
3
目 录
CONTENT
01
02
数据的分析
数据的可视化表达
特征探索
关联分析
聚类分析
数据分类
3
数据的分析
4
01
运用数字化工具和技术,探索数据内在的结构和规律
数据
进行预测
做出决策
采集
存储
保护
分析
可视化表达
4
5
数据的分析
01
特征探索
关联分析
数据分类
01
03
02
04
预处理
分布特征
描述性统计量
分析并发现存在于大量数据之间的关联性或相关性
从样本数据出发,自动进行分类
K-平均算法
基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。
聚类分析
5
6
数据的分析
01
特征探索
预处理
分布特征
描述性统计量
检查数据是否缺失,是否有异常
6
7
数据的分析
01
特征探索
关联分析
数据分类
01
03
02
04
预处理
分布特征
描述性统计量
分析并发现存在于大量数据之间的关联性或相关性
从样本数据出发,自动进行分类
K-平均算法
基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。
聚类分析
7
8
数据的分析
01
关联分析
分析并发现存在于大量数据之间的关联性或相关性
全国零售业巨头沃尔玛再对消费者购物行为分析时,发现:男性顾客在购买尿布时,常常会顺便搭几瓶啤酒来犒劳自己。
8
9
数据的分析
01
订单编号 商品1 商品2 商品3 商品4 商品5 商品6
1 啤酒 苹果 奶酪
2 奶酪 薯片
3 薯片 面包 苹果 牛奶
4 薯片 面包 牛奶 香蕉
5 面包
6 奶酪 苹果 牛奶 薯片
7 牛奶 奶酪 香蕉 面包 啤酒
8 薯片 奶酪 香蕉 啤酒 牛奶
9 面包 薯片 奶酪 苹果 香蕉
10 薯片 面包 香蕉 牛奶 啤酒 苹果
9
10
数据的分析
01
支持度:某商品(或组合)在所有订单中出现的频率。
订单编号 商品1 商品2 商品3 商品4 商品5 商品6
1 啤酒 苹果 奶酪
2 奶酪 薯片
3 薯片 面包 苹果 牛奶
4 薯片 面包 牛奶 香蕉
5 面包
6 奶酪 苹果 牛奶 薯片
7 牛奶 奶酪 香蕉 面包 啤酒
8 薯片 奶酪 香蕉 啤酒 牛奶
9 面包 薯片 奶酪 苹果 香蕉
10 薯片 面包 香蕉 牛奶 啤酒 苹果
支持度(面包牛奶) =(面包+牛奶)/ 记录总数
= 4/10
置信度:在所有包含A的订单中出现B商品的概率。
置信度(面包牛奶) =(面包+牛奶)/ 面包
= 4/6
提升度:销售A商品对B商品带来的提升率。
提升度(面包牛奶) =(面包+牛奶)/ 有牛奶无面包
= 4/10
频繁项集:支持度大于或等于某个阈值的项集。
项集:包含一个或多个商品的组合。写作:AB
10
11
数据的分析
01
支持度:某商品(或组合)在所有订单中出现的频率。
支持度(面包牛奶) =(面包+牛奶)/ 记录总数
= 4/10
置信度:在所有包含A的订单中出现B商品的概率。
置信度(面包牛奶) =(面包+牛奶)/ 面包
= 4/6
提升度:销售A商品对B商品带来的提升率。
提升度(面包牛奶) =(面包+牛奶)/ 有牛奶无面包
= 4/10
频繁项集:支持度大于或等于某个阈值的项集。
项集:包含一个或多个商品的组合。写作:AB
找出频繁项集(即一个商品组合):按照“支持度≥最小支持度”的标准筛选出频繁项集。
找出强关联原则:在所有的销售记录中,找出所有的强关联原则。
11
12
数据的分析
01
特征探索
关联分析
数据分类
01
03
02
04
预处理
分布特征
描述性统计量
分析并发现存在于大量数据之间的关联性或相关性
从样本数据出发,自动进行分类
K-平均算法
基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。
聚类分析
12
13
数据的分析
01
聚类分析
从样本数据出发,自动进行分类
K-平均算法
1
3
2
4
5
6
13
14
数据的分析
01
聚类分析
从样本数据出发,自动进行分类
K-平均算法
1
3
2
4
5
6
14
15
数据的分析
01
聚类分析
从样本数据出发,自动进行分类
K-平均算法
1
3
2
4
5
6
15
16
数据的分析
01
K-平均算法步骤
随机选取K个点作为质心;
计算每个点到K个质心的距离,分成K个簇;
计算K个簇样本的平均值作为新的