内容正文:
1
2.4.3 算法与程序实现的综合应用
@
2.4.3 算法与程序实现的综合应用
“新”字是十九大报告的“亮点”,一个“新”字贯穿整个报告。通过选取“新”开头的词并进行分析与词云图展现,醒目的“新时代”三个字以强烈的视觉冲击效果呈现在我们眼前, 该词在全文中出现36次,高居榜首。其他还有“新格局”“新形势”“新征程”“新成果”“新发展理念”等词汇也频频出现。这意味着,我们党和国家进入了新时代,开启了新征程,人民的幸福之路也将越走越宽、越走越美。
@
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
2.4.3 算法与程序实现的综合应用
@
学校开展经典诵读活动,小明在阅读《三国演义》时,为了分析小说的写作特色,想把小说中出现次数最多的20个词查找出来。想一想,小明是否能从纸质小说中找出这20个高频词?如果用计算机解决该问题,又应如何实现?
项目描述
2.4.3 算法与程序实现的综合应用
@
1.分析问题
2.设计算法
3.编程实现与调试
4.保存文件,调试运行程序
使用计算机解决问题的步骤
2.4.3 算法与程序实现的综合应用
@
学校开展经典诵读活动,小明在阅读《三国演义》时,为了分析小说的写作特色,想把小说中出现次数最多的20个词查找出来。
1.分析问题
手工方法:费时费力,难度很大。
计算机解决:已知条件为文本文件《三国演义》,求解目标为《三国演义》中出现次数最多的20个词。
2.4.3 算法与程序实现的综合应用
@
在问题求解中,除了要完成读取文件和显示输出内容,还要重点实现分词、词频统计和排序等功能。如图所示:
2.设计算法
2.4.3 算法与程序实现的综合应用
查找文章中高频词
读取文件
中文分词
词频统计
排序词频
显示输出
@
由于中文文本是由连续的字序列构成,没有明显的词语界限,因此分词处理的算法比较复杂。有同学知道分词的算法吗?
jieba 是目前最好的 Python 中文分词组件,它主要有以下特性:支持3种分词模式,支持繁体分词,支持自定义词典。
通过jieba的分词功能,我们可以将《三国演义》中的汉字字符序列切分成一个个单独的词,组合成一个“词汇表”。
2.设计算法
2.