内容正文:
5.3 数据的分析
---发现世界的隐藏密码
1
问题导入
如果现在我们要给一个班级预测谁当班长,我们要收集哪些信息?
身高
成绩
人缘
能力
性格
荣誉
品德
潜力
收集分析这些信息的过程就是数据分析
特征探索
01
关联分析
02
聚类分析
03
目录
04
数据分类
√
√
√
√
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
一、特征探索
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
实践:
打开并运行配套学习资源包“第五章\课本素材\程序5---3数据预处理”,观察数据预处理结果.
知识拓展
*.xls文件 由一系列行与列构成的网格。电子表格文件可以输入输出、显示数据。帮助用户制作各种复杂的表格文档,进行繁琐的数据计算,并能对输入的数据进行各种复杂统计运算后显示为可视性极佳的表格。
通配符 * 可以代表任何字符串;? 仅代表单个字符串
*.csv 逗号分隔值文件,其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。
知识拓展
文件
通过软件打开文件
EXCEL
记事本
二、关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
简单关联关系
购买面包的顾客中 80% 会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购买时,如果你把这两样摆在一起时,就会刺激顾客的潜意识联系了二者的关系,并刺激购买。这是一种简单的关联关系。
二、关联分析
三、聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
三、聚类分析
聚类分析的基本算法
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
K-平均算法是一种经典的自下而上的聚类分析方法.
K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚焦点,以达到”物以类聚,人以群分”的效果.
四、数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。
贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数利用训练得到的分类器实现对未分类数据的分类。
对离散变量的预测称作分类,对连续变量的分类称为回归
活动---垃圾分类
?
特征探索 —数据预处理(直方图、最大最小值)
01
关联分析--发现关联性或相关性
02
聚类分析—K平均算法
03
小结
04
数据分类 —贝叶斯分类
√
√
√
√
思政育人
数据分析技术本身没有好坏,但使用它的人需要守住诚信底线——这既是法律要求,也是我们中华文化‘以义制利’的智慧。这就像《论语》中说的‘见利思义’,看到利益要先思考是否符合道义。未来你们如果成为数据分析师,请记住:真正的能力不是算出多少隐藏规律,而是用这些规律让世界更公平美好。
数据的分析
谢 谢!
$$