内容正文:
5.3.3+4聚类分析与数据分类
《数据与计算》P113-118
数据的特征探索
系统日志采集法
网络数据采集法(网络爬虫)
其他数据采集法
数据分析的步骤
2
1.概念:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
2.特点:
不需要先给定分类标准
能够自动进行分类
达到“物以类聚、人以群分”的效果
3.常用的算法:k-Means算法
中文名:K-平均算法
特点:自下而上的聚类分析方法
一、聚类分析
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
3
3.k-Means算法的基本算法及流程图
初始化随机选择K个点作为中心聚类点
依次计算其余数据点与中心点的距离
将数据点分配给最近的中心点
计算每个聚集中心的平均值,即为中心点
重复步骤②-④, 满足下列条件时,结束聚类。
中心点的位置变化小于指定的阈值(默认为 0.0001)
达到最大迭代次数得到最大的频繁项集
一、聚类分析
从文件读取数据
初始化聚类中心(随机)
计算其余数据点与中心点的距离
将数据点分配到最近的中心点
中心点的位置变化小于指定的阈值
开始
结束
否
否
是
计算每个聚集的平均值,即中心点
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
4
好友关系聚类
从文件读取数据
初始化聚类中心(随机)
计算其余数据点与中心点的距离
将数据点分配到最近的中心点
中心点的位置变化小于指定的阈值
开始
结束
否
否
是
计算每个聚集的平均值,即中心点
4.案例赏析
一、聚类分析
4.案例赏析:层次关系聚类
一、聚类分析
一、聚类分析
【项目练习】运行程序5-6-1聚类分析(教材范例),体验聚类分析。需要的数据存储在comany. CSV文件中,包括“客户年龄”、 “平均每次消费金额”、 “平均消费周期(天)。由于一起对3个数据的关系进行分析很难操作,所以分别选取2个类别进行比较。程序运行结果如下图:
图1:
图2:
图3: