内容正文:
粤教版普通高中教科书
信息技术 必修1 数据与计算
第五章 数据处理和可视化表达
5.1 认识大数据
5.2 数据的采集
5.3 数据的分析
5.4 数据的可视化表达
数据分析
-数据分析就是在一堆杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。
数据分析常用方法
特征探索
关联分析
聚类与分类
建立模型
模型评价
回顾与导入
特征探索
-数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直
方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
回顾与导入
2.数据清洗,发现缺失值
3.异常值处理中,利用画散点图发现异常值部分
4.求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图
1.创建MySQL数据库
特征探索一般过程
高中信息技术必修1 数据与计算
5.3.2 关联分析
数据分析常用方法
特征探索
关联分析
聚类与分类
建立模型
模型评价
1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
2.常见案例:
价格和年龄之间的关系:个性化推荐
购买相关商品之间的关系:捆绑销售
3.常用的算法:aprior算法(关联规则挖掘算法)
4
案例:捆绑销售
5.3.2 关联分析
3.关联分析的基本算法及流程图
扫描数据,并统计数据出现的频率次数
构建候选项集C1
计算支持度:数据出现的频率次数/总数
形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度
连接频繁项集L1,生成候选项集C2
重复步骤③-⑤,得到最大的频繁项集
扫描数据库,统计数据出现的频率次数
构建候选项集Cn
支持度>最小支持度
形成频繁项集Ln
开始
结束
是
否
计算支持度:频率次数/总数
构建候选项集Cn+1
Aprioir-Gen运算
扫描数据库
统计数据出现的频率次数
5.3.2 关联分析
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
6
4.案例分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计每种食物出现的次数
候选项集C1
食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
5.3.2 关联分析
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
7
4.案例分析
支持度大于2的频繁项集L1
候选项集C1
食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
频繁项集L1
食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
候选项集C2
食物组合
牛奶、面包
牛奶、尿布
牛奶、啤酒
面包、尿布
面包、啤酒
尿布、啤酒
根据算法,
生成候选项集C2
5.3.2 关联分析
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
8
4.案例分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计候选项集C2食物组合出现的次数
候选项集C2
食物组合
[牛奶、面包]
[牛奶、尿布]
[牛奶、啤酒]
[面包、尿布]
[面包、啤酒]
[尿布、啤酒]
候选项集C2
食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[牛奶、啤酒] 2
[面包、尿布] 3
[面包、啤酒] 2
[尿布、啤酒] 3
5.3.2 关联分析
Apriori算法详解_Trident_lin的博客-CSDN博客_apriori
https://blog.csdn.net/weixin_39220714/article/details/83595519
9
4.案例分析
候选项集C2
食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[牛奶、啤酒] 2
[面包、尿布] 3
[面包、啤酒] 2
[尿布