内容正文:
5.3.2 关联分析
《数据与计算》P113-118
数据的特征探索
系统日志采集法
网络数据采集法(网络爬虫)
其他数据采集法
数据分析的步骤
2
1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
2.常见案例:
价格和年龄之间的关系:个性化推荐
购买相关商品之间的关系:捆绑销售
3.常用的算法:aprior算法(关联规则挖掘算法)
一、关联分析
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
3
2.常见案例:捆绑销售
一、关联分析
3.关联分析的基本算法及流程图
扫描数据,并统计数据出现的频率次数
构建候选项集C1
计算支持度:数据出现的频率次数/总数
形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度
连接频繁项集L1,生成候选项集C2
重复步骤③-⑤,得到最大的频繁项集
一、关联分析
扫描数据库,统计数据出现的频率次数
构建候选项集Cn
支持度>最小支持度
形成频繁项集Ln
开始
结束
是
否
计算支持度:频率次数/总数
构建候选项集Cn+1
Aprioir-Gen运算
扫描数据库
统计数据出现的频率次数
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
5
4.案例分析
一、关联分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计每种食物出现的次数
候选项集C1
食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
6
4.案例分析
一、关联分析
支持度大于2的频繁项集L1
候选项集C1
食物 数目
牛奶 4