内容正文:
中物理
第五章 数据处理和可视化表达
粤教版(2019) 信息技术(高中)
5.2.1 数据采集的方法和工具
(必修一)
1
课堂导入
淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。
1
课堂导入
完成前期调研工作,需要获取到哪些数据呢?怎样获取到这些数据呢?从获取数据中怎样提炼出有价值的信息呢?以小组为单位,通过学习、交流,探索和实践,得出可视化结论。
1
学习目标
1、明确数据应用项目的需求,能制定数据采集的需求清单。
2、知道数据采集的方法和工具。
3、了解数据采集、分析和可视化表达的基本方法。(信息社会责任、计算思维)
4、能够利用软件工具或者平台对数据进行整理、组织计算和呈现。(信息社会责任、计算思维)
任务一
一
数据的采集
各小组根据选择的项目范例的主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。
编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式
1
2
3
任务一
一
数据的采集
各小组根据选择的项目范例的主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。
编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存方式
1
2
3
商品销售数据:包括商品名称、店铺名称、商品价格、商品销量
淘宝网-实惠热卖-零食类别
方法:网络数据采集法
工具:爬虫程序
data_sample.csv
商品销售数据:包括商品价格、商品销量、商品评论
店铺销售订单数据:包括每个订单购买的商品名称
淘宝网-实惠热卖-零食类别
方法:网络数据采集法
工具:爬虫程序
淘宝网店铺后台
方法:网络数据采集法
工具:系统导出、手工记录等
taobao.xls
sale_orders.xls
二
数据采集的工具
任务二
体验安装numpy,scipy,pandas,matplotib四个Python第三方库。
任务三
运行“绘制正弦函数.py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。
语句 语句作用
import numpy as np
import matplotlib.pyplot as plt
from pylab import *
二
数据采集的工具
任务三
运行“绘制正弦函数.py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。
语句 语句作用
Import numpy as np
import matplotlib.pyplot as plt
from pylab import *
引入numpy库模块,用np替代
引入matplotlib库模块中的pyplot方法,用plt替代
引入pylab库模块中的所有方法
二
数据采集的工具
任务四
1、体验安装、运行xampp并搭建、启动本地网页服务。
2、运行“爬取本地网页数据.py”,数据文件内容如下图所示,体验使用爬虫程序采集本地网页数据。
二
数据采集的工具
运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。
思考
关键信息 具体内容 获取方法
网页数据网址
商品每项数据的
标签和属性类名
二
数据采集的工具
运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。
思考
关键信息 具体内容 获取方法
网页数据网址
商品每项数据的
标签和属性类名
http://127.0.0.1/wholesale.html
商品名称标签:a 该标签属性类名:item-title
商品价格标签:span 该标签属性类名:price-current
订单量标签:a 该标签属性类名:sale-value-link
店铺名称标签:a 该标签属性类名:store-name
chrome浏览
器的检查工具
二
数据采集的工具
用chrome浏览器打开淘宝网-实惠热卖-零食类别,需要爬取的数据内容包括每