内容正文:
第五章 数据处理和可视化表达
5.2数据的采集
(第二课时)
粤版高中信息技术
《数据与计算》
一 、本章情况
学习目标
(1)了解大数据的概念,理解大数据的特征,知道大数据对日常生活的影响,明晰传统数据与大数据的区别;
(2)了解数据采集的方法和工具,掌握数据的存储方式,理解对数据进行保护的意义;
(3)知道数据预处理及分析,体验多种数据分析技术;
(4)学会选用恰当的工具处理数据,学会总结和归纳数据分析的方法和步骤;
(5)了解数据可视化两种呈现类型,学会选用恰当的工具可视化表达数据。
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
教学内容
粤版高中信息技术《数据与计算》
http://www.gjs.cn
二、项目指导
交流分享
依据自己小组项目实施的实际情况,对于项目实施过程的进度、亮点、困难予以分享,交流。
1. 项目完成基本情况。
2.对所选定主题的大数据特征进行分析。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、学习新知
2. 网络数据采集法
探究活动
分析网页“wholesale.html”的内容,网页通过本地网站访问,网址http://127.0.0.1/wholesale.html。
网页为鞋类销售数据。
打开程序文件“程序5-2-2 爬取程序.py”,分析程序代码中使用了哪些库?URL是什么?
本程序只使用1个网页的数量,暂时不爬取其他 URL 的数据。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、学习新知
探究活动
运行程序 “程序5-2-2 爬取程序.py”,得到导出的电子表格。
对比网页“wholesale.html”和电子表格中的数据,分析网络爬虫程序获取了哪些数据?
分析本程序的基本结构。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、学习新知
2. 网络数据采集法
程序分析
(1)爬取网页的内容
for i in range(0, 5): # 循环5次,就是5个页的商品数据
payload['page'] = i+ 1 # 此处为页码,根据网页参数具体设置
resp = requests.get(url, params=payload)
soup = bs4.BeautifulSoup(resp.text, "html.parser")
print(resp.url) # 打印访问的网址
resp.encoding = 'utf-8' # 设置编码
注:演示网页 http://127.0.0.1/wholesale.html 只有1页,只爬取1页内容。
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、学习新知
2. 网络数据采集法
程序分析
(2)爬取商品标题
# 标题
all_title = soup.find_all('a', class_='item-title')
for j in all_title:
soup_title = bs4.BeautifulSoup(str(j), "html.parser",)
title.append(soup_title.a.string)
网页标签: a data-p4p="true" class="item-title"
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、学习新知
2. 网络数据采集法
程序分析
(3)爬取商品价格
# 价格
all_price = soup.find_all('span', class_="price-current")
for k in all_price:
soup_price = bs4.BeautifulSoup(str(k), "html.parser")
price.append(soup_price.span.string)
网页标签: span class="price-current"
粤版高中信息技术《数据与计算》
http://www.gjs.cn
三、学习新知
2. 网络数据采集法
程序分析
(4)爬取订单量
# 订单量
all_order = soup.find_all('a', class_="sale-value-link")
for l in all_order: