内容正文:
第五章 数据处理与可视化表达
信息技术 必修1
粤教版普通高中教科书
数据与计算
内容回顾
下一步要做什么?
下面是利用爬虫程序爬取的淘宝进口零食的部分数据:
回顾与导入
回顾与导入
数据分析
就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,数据分析可以帮助我们:了解事物的现状、剖析事物的发展、预测事物的未来
回顾与导入
李海青
水资源分布现状
过去旅游业的发展情况
了解事物的现状
诊断过去的发展历程
预测房价走向
预测未来的走向
例如:
课时内容安排
网络购物平台客户行为数据分析和可视化表达
网购行为分析
网购数据的采集
网购数据的分析
网购数据的可视化表达
5.1
认识大数据
5.2
数据的采集
子项目主题
内容目录
5.3
数据的分析
5.4
数据的可视化表达
5.3 数据的分析(1)
子项目三:网购数据的分析
5.3.1特征探索&5.3.2关联分析
数据分析的过程
数据采集
数据分析
特征探索
关联分析
聚类分析
数据分类
分析呈现
分析报告
..........
3.创建MySQL数据库
1)启动本地web服务和数据库服务
2)创建数据库
3)创建数据表
4)导入数据
在进行数据分析前,一般要建立数据库:
创建MySQL数据库
1、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。
2、MySQL 是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性
创建MySQL数据库
用python进行数据分析的套路 - 知乎
https://zhuanlan.zhihu.com/p/119416560
9
1. 观看微课视频“数据分析”、“数据库” ;
2. 安装运行xampp,启动本地web服务和数据库服务;
3. 创建数据库csdn和数据表taob,并导入文件taob.sql中的数据;
4. 创建数据库taobao和数据表taobao,并导入文件taobao.xls中的数据;
创建MySQL数据库
探究活动一
创建MySQL数据库
5.3.1 特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
发现和处理缺失值、异常数据
绘制直方图
数据预处理
观察数据的分布特征
求最大值、最小值、极差等描述性统计量
5.3.1 特征探索
特征探索的作用:
通过可视化对数据构建初始认知
对于数据集中的某些现象原因提出假设
论证该使用何种统计推断进行分析
为后续使用合适的统计工具及技术提供支持
对进一步的数据收集及调查做基础
通常情况,对于未知的数据先进行特征探索
5.3.1 特征探索
1、数据清洗,发现缺失值
特征探索的过程:
5.3.1 特征探索
特征探索的过程:
2、异常值处理中,利用画散点图发现异常值部分
5.3.1 特征探索
特征探索的过程:
3、求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图
5.3.1 特征探索
1.“数据特征探索程序介绍” ;
2. 运行“程序5-5-1 数据预处理(教材范例).py”,体验数据预处理过程。
程序5-5-1 数据预处理过程
探究活动二
结果展示:
数据分析的算法类型
数据分析的算法很多,最常见的有:
关联分析
聚类分析
分类分析
回归分析
关联
数据项之间存在关系
如超市某两种商品销量存在关联
聚类
根据数据的相似性和差异性分类
如文章词频分析
分类
数据划分成不同种类
如手写数字识别
回归
分析数据变量间的相关关系
交通状况预测
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
通过查看哪些商品经常在一起出售,帮助商店了解用户的购物行为,用于商品定价、市场促销、存货管理等环节
从新闻网站点击流中挖掘新闻流行趋势
搜索引擎推荐,在用户输入查询时推荐同时相关的查询词项
通过不同专业学生借书情况的分析,进行书目的推荐
2、关联分析的应用
1、关联分析的概念
3、关联分析的基本算法及流程图
扫描数据,并统计数据出现的频率次数
构建候选项集C1
计算支持度:数据出现的频率次数/总数
形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度
连接频繁项集L1,生成候选项集C2
重复步骤③-⑤,得到最大的频繁项集
扫描数据库,统计数据出现的频率次数
构建候选项集Cn
支持度>最小支持度
形成频繁项集Ln
开始
结束
是
否
计算支持度:频率次数/总数
构建候选项集Cn+1
Aprioir-Gen运算