内容正文:
互联网搜索新发展
信息科技七年级第三单元第14课
人教版(2024)第三单元 《便捷的互联网服务》
Theme template
04
01
分析对比——浏览器与搜索引擎
05
知识之窗——搜索引擎的新技术
02
实验探究——搜索引擎的工作过程
我要揭秘——搜索引擎技术的发展
目录
03
实验验证——网络爬虫工具的使用
06
拓展探究——分词测试实验
分析对比——浏览器与搜索引擎
浏览器是一种软件程序(必须安装),用于访问和查看网页内容。它通过解析网页的HTML、CSS和JavaScript代码,将网页以可视化的形式展开给用户
思考:在庞大的网络世界中获取信息,我们需要借助浏览器、搜索引擎等工具,二者究竟有何不同?
搜索引擎是什么?
3
分析对比——浏览器与搜索引擎
输入搜索引擎网址http://www.baidu.com
习近平:我是一贯支持民营企业的
分析对比——浏览器与搜索引擎
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
实验探究——搜索引擎的工作过程
实验任务:运行《七年级_互联网_实验工具集》中的“简易搜索系统”,按实验顺序完成任务并填写实验效果和结论。
Ctrl+C复制
粘贴网址
实验探究——搜索引擎的工作过程
服务器响应
服务器接收到请求后,处理并返回相应的网页内容,如HTML文档。
实验一:
实验任务 实验效果 实验结论
打开“简易搜索系统”,将访问地址复制后粘贴在浏览器地址栏中,使用关键词”中国探月“查看检索结果? ①搜索引擎搜到的信息是(搜索前放进去的 实时在网络中或缺的)
②本次实验网页的数据都保存在:
桌面
Web文件夹
C:/programfiles/
将教师下发的web文件夹中的文件复制到”素材文件夹/第14课/web/”中,再次刷新网址,,使用关键词”中国探月“重新检索再次查看结果?
7
实验探究——搜索引擎的工作过程
服务器响应
服务器通过会话跟踪技术管理用户状态,如使用Cookies记录用户登录信息。
实验结论
实验任务 实验效果 实验结论
打开“简易搜索系统”,将访问地址复制后粘贴在浏览器地址栏中,使用关键词”中国探月“查看检索结果? ①搜索引擎搜到的信息是(搜索前放进去的 实时再网络中或缺的)
②本次实验网页的数据都保存在:
桌面
Web文件夹
C:/programfiles/
将教师下发的web文件夹中的文件复制到”素材文件夹/第14课/web文件夹”中,再次运行简易搜索系统,使用关键词”中国探月“重新检索再次查看结果?
√
√
8
实验探究——搜索引擎的工作过程
服务器响应
服务器接收到请求后,处理并返回相应的网页内容,如HTML文档。
实验二:Web文件夹中的pages.csv中记录网页文件的文件名和对应的网址,如果将其改名或删除是否影响搜索结果?
实验任务 实验效果 实验结论
将web文件夹中的pages.csv文件重命名为page.csv,重新运行“建议搜索系统”,输入关键词“中国探月”进行搜索 ①搜索引擎工作过程中存储网页文件和实际网址的关系文件
必须存在
可以没有,并不影响
②若需要将存储网页文件和实际网址的关系文件存储Web文件夹中,存储的文件名是什么?
page.csv
pages.csv
pages.html
page.html
将web文件夹中的page.csv文件重命名为pages.csv,并将其删除,重新运行“建议搜索系统”,输入关键词“中国探月”进行搜索
9
实验探究——搜索引擎的工作过程
服务器响应
会话管理
服务器通过会话跟踪技术管理用户状态,如使用Cookies记录用户登录信息。
实验结论
实验任务 实验效果 实验结论
将web文件夹中的pages.csv文件重命名为page.csv,重新运行“建议搜索系统”,输入关键词“中国探月”进行搜索 ①搜索引擎工作过程中存储网页文件和实际网址的关系文件
必须存在
可以没有,并不影响
②若需要将存储网页文件和实际网址的关系文件存储Web文件夹中,存储的文件名是什么?
page.csv
pages.csv
pages.html
page.html
将web文件夹中的page.csv文件重命名为pages.csv,并将其删除,重新运行“建议搜索系统”,输入关键词“中国探月”进行搜索
√
√
10
实验探究——搜索引擎的工作过程
会话管理
服务器接收到请求后,处理并返回相应的网页内容,如HTML文档。
观察搜索引擎的搜索结果,当前网页排序是按照什么规则?
根据关键词出现的次数进行排序,
次数越多越靠前
11
实验探究——搜索引擎的工作过程
服务器接收到请求后,处理并返回相应的网页内容,如HTML文档。
网页数据
建立索引
索引数据
获取信息
网页排序
第一步 第二步 第三步 第四步 第五步
思考:回顾实验流程,请完成“简易搜索系统”工作步骤的正确排序。
12
我要揭秘——搜索引擎的技术发展
思考:将新保存的网页存储在Web文件夹中,使用“简易搜索系统”能否搜索到刚保存的内容?
思考:为何检索结果仍然和之前未添加网页的时候一样呢?
我要揭秘——搜索引擎的技术发展
思考:将新保存的网页存储在Web文件夹中,使用“简易搜索系统”能否搜索到刚保存的内容?
我要揭秘——搜索引擎的技术发展
人工操作扩充搜索系统中的网页数据非常繁琐,可利用网络爬虫自动获取相关网页
我要揭秘——搜索引擎的技术发展
我要揭秘——搜索引擎的技术发展
http://www.moe.gov.cn/jyb_xwfb/xw_zt/moe_357/2025/2025_zt01/
我要揭秘——搜索引擎的技术发展
网络爬虫前
网络爬虫后
18
实验验证——网络爬虫工具使用
实验三:
实验任务 实验效果
实验结论
1、运行《网络爬虫测试》软件,输入“http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/202501/t20250110_1175123.html”单击“启动网络爬虫”按钮,记录实验效果和实验结论 该网址能否通过爬虫自动获取相关网页?
能
不能
2、把spider.pyc文件复制到搜索系统文件夹,重新运行《简易搜索系统》,界面发生了改变,输入爬虫测试网址,单击“启动网络爬虫”按钮,查看Web文件夹是否增加新的网页文件?打开page.csv文件查看是否增加记录? ①网络爬虫之后,Web文件夹中网页的数目变化情况?
增多 不变 减少
②打开page.csv文件查看索引记录变化情况?
增多 不变 减少
19
实验验证——网络爬虫工具使用
实验结论:
实验任务 实验效果
(粘贴截图) 实验结论
1、运行《网络爬虫测试》软件,输入“http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/202501/t20250110_1175123.html”单击“启动网络爬虫”按钮,记录实验效果和实验结论 该网址能否通过爬虫自动获取相关网页?
能
不能
2、把spider.pyc文件复制道搜索系统文件夹,重新运行《简易搜索系统》,界面发生了改变,输入爬虫测试网址,单击“启动网络爬虫”按钮,查看Web文件夹是否增加新的网页文件?打开page.csv文件查看是否增加记录? ①网络爬虫之后,Web文件夹中网页的数目变化情况?
增多 不变 减少
②打开page.csv文件查看索引记录变化情况?
增多 不变 减少
√
√
√
20
知识链接——搜索引擎的新技术
实际使用的搜索引擎会根据多个指标(关键词
的数量、更新日期等)为网页排序,当前已经
出现pagerank等成熟算法用于网页排序、人工
智能提高搜索的准确性、大数据相关技术提高
搜索效率
21
拓展探究——分词测试实验
实验任务:
实验任务 实验效果 实验结论
1、运行《分词测试》软件,输入“中国探月”进行分词,观察分词效果
2、把tokenizer.pyc文件复制到素材文件夹/第14课/web文件夹中,重新运行《简易搜索系统》,界面有无发生变化,再次运行简易搜索系统,使用关键词”中国探月“重新检索再次查看结果?
22
谢谢!!!
变化是常态,一路向前,知识无界
$$