Python基础案例教程第8章 Python编程实战课件 中职 高三 工信版 教学课件
2022-12-27
|
61页
|
159人阅读
|
1人下载
普通
资源信息
| 学段 | 中职 |
| 学科 | 职教专业课 |
| 课程 | 程序设计基础 |
| 教材版本 | - |
| 年级 | 高三 |
| 章节 | - |
| 类型 | 课件 |
| 知识点 | Python语言 |
| 使用场景 | 同步教学 |
| 学年 | 2022-2023 |
| 地区(省份) | 全国 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | PPTX |
| 文件大小 | 7.11 MB |
| 发布时间 | 2022-12-27 |
| 更新时间 | 2023-10-26 |
| 作者 | 匿名 |
| 品牌系列 | - |
| 审核时间 | 2022-12-27 |
| 下载链接 | https://m.zxxk.com/soft/36711394.html |
| 价格 | 0.50储值(1储值=1元) |
| 来源 | 学科网 |
|---|
内容正文:
《Python基础案例教程》(微课版)
第8章 Python编程实战
第8章 Python编程实战
Python语言强大之处在于它拥有众多的第三方库,构建起了一个庞大的生态圈。比如在网页开发、网络编程、网络爬虫、云计算、人工智能、自动化运维、科学计算以及游戏开发等领域,都可以非常方便地使用Python编写程序解决问题,这使得Python几乎无所不能。
本章主要介绍Python爬虫、数据处理以及人工智能几个方面的应用。通过三个较大的实战项目,经历程序开发的完整过程,学习在第三方库的帮助下,解决较为复杂的实际问题。
教学内容
01 新书推荐榜
02 就业信息管理
03 人脸识别考勤系统
目录
CONTENTS
8.1.1 项目分析
李明作为学校读书会的成员,需要定期向同学们推荐新书。当当网定期根据销售及评论数据,更新许多图书榜单,其中有各类新书榜单,这正是李明同学所需要的。一般做法是,复制每本书的相关信息,保存下来,但是这种方法费时费力,能否通过Python编写程序,自动从当当网的榜单页面,提取其中的书名、作者、出版社等信息,生成自己的新书推荐榜单呢?
新书推荐榜
8.1.1 项目分析
新书推荐榜
如何编写一个网络爬虫程序,自动访问当当网的新书榜单页面?
如何将HTML页面中指定的信息提取出来?
提出问题
分析目标页面
8.1.1 项目分析
新书推荐榜
从页面中可以看出,榜单共有25页,每页20本,共列出了500本图书信息。单击某个页码,网址最后一个数字会变化,根据这个规则,即可得到每个页面的URL地址
页码 图书信息 URL地址
1 第1~20条 http://bang.dangdang.com/books/newhotsales/01.05.00.00.00.00-recent7-0-0-1-1
2 第21~30条 http://bang.dangdang.com/books/newhotsales/01.05.00.00.00.00-recent7-0-0-1-2
5 第81~100条 http://bang.dangdang.com/books/newhotsales/01.05.00.00.00.00-recent7-0-0-1-5
确定信息需求
8.1.1 项目分析
新书推荐榜
图书信息 标签类型 标签层级位置
书名 <a>标签 li> div.name > a
作者 <a>标签 li> div.publisher_info > a
出版社 <a>标签 li> div.publisher_info > a
推荐指数 <span>标签 li> div.star > span.tuijian
例如:书名“2020武汉日记…”文字是一个<a>标签,其父标签是一个名为name的div标签,再往上级是一个li标签,通过这些层级关系,就可以准确定位一个标签在HTML代码中的位置。
明确项目目标
8.1.1 项目分析
新书推荐榜
(1)根据榜单页码规则,拼接每页的URL地址;
(2)向服务器发送HTTP请求;
(3)获取反馈结果,取出图书信息部分源码;
(4)解析出每本书的书名、作者、出版社、推荐指数;
(5)将每本书的信息保存到列表中,并显示出来。
知识准备
8.1.1 项目分析
新书推荐榜
1.网络爬虫的工作过程
网络爬虫工作过程如图8.4所示,首先由客户端爬虫程序向目标网站服务器发送一个URL请求,服务器返回一个HTML页面,客户端爬虫程序解析出需要的数据,保存起来,再向服务器发送下一个URL请求,如此循环往复,直至爬取所需的全部页面。
知识准备
8.1.1 项目分析
新书推荐榜
2.发送HTTP请求
网络爬虫程序工作的第一步是向目标网站发起HTTP请求。Python中的requests库,专门用于向服务器发送HTTP请求,并获得返回数据。使用前,需要先用pip命令安装。
requests库中最常用的请求方式是GET,只需要将URL地址作为参数,就可以向URL指定的服务器发送请求,服务器接收到请求后,返回一个response对象,里面包括状态码、头部信息以及HTML源码文本。
知识准备
8.1.1 项目分析
新书推荐榜
3.解析HTML标签
获取到网页源码后,如何将指定的标签内容提取出来呢?除了字符串搜索以外,Python提供了许多优秀的第三方库,可以快速定位并提取源码中的HTML标签,其中BeautifulSoup4比较常用。使用之前,需要使用pip install bs4安装。
解题思路
8.1.2 项目规划
新书推荐榜
算法设计
8.1.2 项目规划
新书推荐榜
编程实现
8.1.3
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。