内容正文:
第五章 数据处理和可视化表达
5.3 数据的分析
(第1课时)
粤版高中信息技术
《数据与计算》
一 、本章情况
学习目标
(1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别;
(2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义;
(3)知道数据预处理及分析,体验多种数据分析技术;
(4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤;
(5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
教学内容
粤版高中信息技术《数据与计算》
http://www.gjs.cn
二、项目指导
交流分享
依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。
1. 项目完成基本情况。
2. 根据选定的主题,对数据收集情况分析汇报。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、知识回顾
5.2 数据的采集
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
思考
数据可以进行哪些处理?
数据处理是否有一定过程?
使用Python如何进行数据分析?
数据分析涉及到哪些技术方法?
数据预处理
关联分析
聚类分析
数据分类
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
什么是数据分析?
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
5.3.1 特征探索
数据特征探索的主要任务是对数据进行预处理。
预处理包括:发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
数据预处理程序
数据清洗,发现缺失值
异常值处理,发现异常
求最大值和最小值
求极差
求组距
绘制价格直方图
绘制评论数直方图
四、学习新知
探究活动
(1)数据清洗,发现缺失值。
变量“price”的内容是产品的价格信息。
如果数据缺失,可以删除这行数据。
如果数据缺失,也可以补一个固定值,这里修改为64。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
探究活动
(2)异常值处理中,利用画散点图发现异常值部分。
(3)求最大值和最小值。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
探究活动
(4)求极差。
(5)求组距。
(6)绘制价格直方图。
(7)绘制评论数直方图。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
数据分析的类型
数据分析的算法很多,最常见的有:
关联分析
聚类分析
分类分析
回归分析
粤版高中信息技术《数据与计算》
http://www.gjs.cn
关联
数据项之间存在关系
如超市某两种商品销量存在关联
聚类
根据数据的相似性和差异性分类
如文章词频分析
分类
数据划分成不同种类
如手写数字识别
回归
分析数据变量间的相关关系
交通状况预测
四、学习新知
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
关联分析的基本算法如下:
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
5.3.2 关联分析
(1)自定义连接函数,用于实现L_{k-1}到C_k的连接。
(2)寻找关联规则。
(3)创建连接数据。
(4)遍历可能的推理。
(5)计算置信度序列。
(6)置信度筛选。
什么是置信度?
如购买2个商品的问题,购买了商品A的顾客,有50%也购买了商品B,那么置信度就是50%。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
5.3.2 关