内容正文:
第五章 数据处理和可视化表达
5.2数据的采集
(第1课时)
粤版高中信息技术
《数据与计算》
一 、本章情况
学习目标
(1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别;
(2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义;
(3)知道数据预处理及分析,体验多种数据分析技术;
(4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤;
(5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
教学内容
粤版高中信息技术《数据与计算》
http://www.gjs.cn
二、项目指导
交流分享
依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。
1. 项目完成基本情况。
2.对所选定主题的大数据特征进行分析。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、知识回顾
5.1 认识大数据
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
思考
处理大数据需要哪些步骤?
如何获取大数据?
如何加工大数据?
如何表达大数据?
粤版高中信息技术《数据与计算》
http://www.gjs.cn
数据采集
数据分析
数据可视化表达
四、学习新知
5.2.1 数据的采集
数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。
采集数据首先要明确数据应用项目的需求,围绕选定的项目主题,制订数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
5.2.1 数据采集的方法与工具
1.系统日志采集法
2.网络数据采集法
3.其他数据采集法
四、学习新知
1. 系统日志采集法
在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。
系统日志包括操作系统日志、应用程序日志和安全日志。
系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
查看计算机的日志:
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
1. 系统日志采集法
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
例如,安全管理信息系统就是以系统日志服务器采集原始日志数据,以日志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信息的管理工作。
某安全管理信息系统的日志:
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
2. 网络数据采集法
网络数据采集是指通过网络爬虫或网站公开API (Application Programming Interface,应用程序接口)等方式从网站上获取数据信息。
网络爬虫从一个或若干初始网页的URL ( Uniform Resource Locator, 统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
2. 网络数据采集法
新华网科技专栏,大国科技栏目的URL:http://www.news.cn/tech/dgkj
通过URL访问这个网页,在网页中有其他网页的URL,这样就是获取这些网页的内容。
思考:能不能用程序自动获取这些网页的内容?
粤版高中信息技术《数据与计算》
http://www.gjs.cn
四、学习新知
2. 网络数据采集法
“网络数据采集法” 可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
可以进行网络数据采集的程序,常被称为“网络爬虫”。
使用Python程序实现网络数据采集,需要使用“扩展库”。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
获取网页的URL
爬取网页的内容
分析网页内容
提取有用的数据(文字、图片、声音等)
条件满足前,获取其他URL,重复前面的过程
四、学习新知
2. 网络数据采集法
认识Python扩展库,常用的库:
NumPy
SciPy
Pandas
Matplotlib
运行“程序5-2-1 绘制正弦函数.py”,分析import语句的功能。
探究活动
使用扩展库中