内容正文:
第14课
互联网搜索新发展
搜索引擎的奥秘
八年级信息科技课
学习目标
了解搜索引擎的工作原理
知道搜索引擎的简单工作过程
了解网络爬虫等自动化技术给搜索带来的影响
理解技术,善用工具
本课探究问题
?
?
?
为什么搜索引擎搜得那么快?
搜索系统是如何完成搜索的?搜索引擎技术发生了哪些改变?
带着问题去学习
生活情境:读书节的挑战
60%
40%
读书节线上活动需要收集资料,
搜索引擎的出现
网络信息浩如烟海,如何快速找
到需要的信息?
快速定位所需信息
好的工具让效率提升十倍
为什么搜得这么快?
互联网上有难以计数的网站
搜索速度却非常快
以空间换时间
存储空间
响应速度
用存储空间换取查询速度
学习活动:简易搜索系统实验
实验目的:
中国探月
熟悉搜索引擎的工作过程
实验工具:
简易搜索系统软件、Web文件夹
实验内容:
搜索中国探月
亲自动手,理解原理
实验步骤(一)
运行搜索系统软件
打开程序动作
用关键词「中国探月」进行搜索
输入
3
复制Web文件夹到系统目录
数据复制动作
按步骤操作,观察变化
实验步骤(二)
步骤4:保存网
步骤5:在pages.
步骤
6:
继续搜
页到Web文件夹
csv记录文件
观察能否搜到
名和网址
保存的内容
数据关系记录
验证搜索结果
网页数据进入文件夹
数据准备好了,搜索才能成功
实验结论
搜到的信息是搜索前放进去的
网页数据保存在Web文件夹
不是实时从网络上获取的
数据存储的位置
pages.csv保存网址对应关系
按关键词出现次数排序
文件名与网址的映射
次数越多,排名越靠前
提前准备是快速响应的关键
核心思想:以空间换时间
搜索引擎提前保存海量网页
耗费大量存储空间
占用存储
换来对查询需求的快速响应
快速反馈
提前准备,才能快速响应
搜索引擎工作流程
2
2
3
抓取网页
获取信息
存储网页
建立索引
保存网页数据
建立搜索索引
5
6
网页
排序
等待⽤⼾查询
接收搜索请求
按相关性排序
返回结果展⽰给⽤⼾
每一步都很重要
技术创新:网络爬虫
①问题发现
②解决方案
③核心优势
提高工作效率
人工添加网页太
网络爬虫自动抓取
烦琐,效率低下
自动化工具
速度大幅提升
自动化是技术发展的必然方向
网络爬虫的工作流程
1.输入起始网址
2.自动抓取网页内容
3.提取网页中的超链接
3.提取网页中的超链接
4.跟随链接继续抓取
5.自动更新索引数据库
像蜘蛛一样织网,覆盖更多页面
技术拓展:分词与排序算法
分词技术
排序算法进化
将短语拆分为多个关键词
初级:关键词出现次数
示例:发展中心→
改进
:
多个指标综
发展+中心
(更新时间、网页质量)
提高搜索准确度
成熟:PageRank算法
算法让搜索更智能
搜索技术发展趋势
人工智能提升
大数据技术提
语义理解
个性化推荐
搜索准确性
智能理解⽤⼾意图
海量数据处理
针对个人偏好
理解自然语言
技术一直在进步
课堂总结
以空间换时间,
网络爬虫、
从人工工到
善用工具,
提前保存信息
索引建立、
自动化,从
提高学习
排序算法
简单到智能
效率
学知识,更要懂原理
谢谢观看
期待你的思考与创新
$