内容正文:
数据分析基础
年 级:高中
学 科:信息技术(浙教版)
数据分析基础
数据分析及其发展
数据分析的一般过程
常用的数据分析软件
统计分析
数据挖掘
大数据分析
SPSS
SAS
MATLAB
Minitab
Tableau
R语言
4.1.2数据分析一般过程
本节课教学目标:
知道数据分析的步骤
4.1.2数据分析一般过程
对中外在线教育的数据进行分析并形成一份数据报告
挑战一下
数据分析过程通常可以分为六个步骤:
4.1.2数据分析一般过程
制定方案
数据预处理
数据可视化
收集数据
分析数据
报告撰写
这六个步骤的顺序不是固定的,视实际需要而定。
4.1.2数据分析一般过程
若先有数据,则根据数据特点制定分析目标和分析思路
若数据呈现复杂、非结构化,数据分析和数据可视化可同时进行
(1)制定方案
在接收到数据分析的任务时,首先需要分析目的,
理清具体的分析思路,搭建分析框架。搞清数据分析需要从哪几个角度来进行,采用怎样的分析方法最有效,最后制订出具体的数据分析方案。
4.1.2数据分析一般过程—制定方案
(1)制定方案
4.1.2数据分析一般过程—制定方案
(1)制定方案
4.1.2数据分析一般过程—制定方案
中外在线教育
从那些角度来写?
用什么方法实现?
形成数据分析方案
分析出中外在线教育的热点,加以对比,从而为我们的在线教育提供建议
(1)制定方案
4.1.2数据分析一般过程—制定方案
中外在线教育
从那些角度来写?
用什么方法实现?
形成数据分析方案
可以采用文献计量分析原理,搜集在线教育主题的文献,提取其中的主题、学科分类等数据对其进行分析,从而得到热点
(2)收集数据
数据分析的核心是数据。收集数据是为数据分析提供直接的素材和依据;
全面、准确地收集数据是科学开展数据分析的前提和保障。
尽可能获取一手数据,如原始数据。
4.1.2数据分析一般过程—收集数据
(2)收集数据
4.1.2数据分析一般过程—收集数据
(2)收集数据
4.1.2数据分析一般过程—收集数据
可以搜集在线教育主题的文献
对 CNKI 和 SCIE 两个数据库中主题为在线教育的文献进行收集,获取一手数据
(3)数据预处理
在获取数据后,需要对数据进行审查、验证、清洗、转换、分组等操作,
将数据整理成数据分析的样式。
4.1.2数据分析一般过程—数据预处理
我们对搜索过后的文献进行审查
排除不符合要求的文献
并对文献进行整理方便我们进行操作
(3)数据预处理
比如根据实际情况对噪声数据进行删除或转化,
对缺失数据进行删除或预估,
对重复数据进行合并,
对错误数据进行修改或删除等。
去噪声会引起信息损失,
并且不同的去噪方法造成的信息损失各不相同。
4.1.2数据分析一般过程—数据预处理
(4)分析数据
选择合适的分析方法和工具,对预处理过的数据进行分析,提取有价值的信息,形成有效结论。
4.1.2数据分析一般过程—分析数据
(4)分析数据
在这一过程中,可以采用数据统计、数值计算、信息处理等方法,采用已知的模型分析数据,计算与数据匹配的模型参数。
4.1.2数据分析一般过程—分析数据
采用文献计量分析原理、VOSviewer软件
(5)数据可视化
数据分析后得到的数据往往是原始数据的简化和抽象,
可视化借助人眼快速的视觉感知和人脑的智能认知能力,直接提高对信息认识的效率,起到清晰有效的传达和沟通的作用。可视化也能引导用户分析和推理出有效信息。
4.1.2数据分析一般过程—数据可视化
(5)数据可视化
4.1.2数据分析一般过程—数据可视化
俗话说“一图胜千言”,数据可视化能有效、直观地传递分析人员要表达的观点。
可视化也是数据分析的重要手段。
(6)报告撰写
在完成数据分析之后,需要展示分析结果并形成分析报告。
数据分析报告是对数据分析过程的总结和归纳,需要描述出分析的目的和思路、数据来源、分析的过程、分析的结论和要点。
4.1.2数据分析一般过程—报告撰写
(6)报告撰写
一份好的数据分析报告,需要有一个好的分析框架,层次明晰、图文并茂,能够让阅读者一目了然。
数据分析报告必须有明确的结论、建议或解决方案。
4.1.2数据分析一般过程—报告撰写
数据分析过程通常可以分为六个步骤:
本课小结:
制定方案
数据预处理
数据可视化
收集数据
分析数据
报告撰写
4.1.2数据分析一般过程
4.1.2数据分析一般过程
一份数据分析报告由以下几个部分组成:
(1)标题:展示分析报告的主要目的和关键结论。
(2)目录:体现数据分析报告的整体架构。
(3)前言:分析报告的目的和背景,现状或存在的的问题,需要解决的问题,分析思路、分析方法和模型,总结性的结论或者效果,数据来源。
(4)正文:架构清晰,结论明确,逻辑性强,可视化,术语说明。
4.1.2数据分析一般过程
4.1.2数据分析一般过程
数据挖掘是从大量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。
4.1.2数据分析一般过程
这个问题要求不是基于大数据的数据挖掘,所以寻找时要考虑被挖掘的数据源不能是大数据。
4.1.2数据分析一般过程
参考的例子:手机浏览器对用户进行画像,根据用户特征调整推荐条目和推送广告。首先,分析任务是属于预测性非描述性的,因此不属于统计分析。其次,浏览器分析的数据源是用户以往访问的数据,不是基于云端大数据的分析,因此不属于大数据分析。
4.1.2数据分析一般过程
分析时要抓住数据挖掘与统计分析的区别,数据源的数据量和复杂性。比如,超市预测用户购买行为进而推送广告;沃尔玛将啤酒和尿布摆在一起的促销手段;从写作风格对《红楼梦》前80回和后40回的分析判断作者是否同一人等。
谢谢
$$