内容正文:
课程基本信息
课题
算法与程序综合应用2
教科书
书名: 《信息技术》必修1
出版社:人民教育出版社;中国地图出版社 出版日期:2019 年 6 月
教学目标
教学目标:
了解文本分析的一般思路,体验解决文本问题的全过程;
能利用读取文本文件的方式获取数据;
认识字典数据类型,能利用字典存储和管理数据;
知道jieba库的功能,能利用jieba库实现中文分词;
能选择并利用已学算法,实现词频统计;
学习程序调试方法,提高编程能力;
教学重点:
文本分析的思路;读取文件的方法;字典及其使用;jieba库的功能及使用;
教学难点:
运用算法与编程知识来解决问题
教学过程
时间
教学环节
主要师生活动
2分钟
情境引入
利用python进行编程,我们不仅能处理数值数据、解决数学问题。它在处理文本数据 ,进行文本分析方面也颇具优势。比如,我们看到的热词榜、词云图、舆情趋势、文本情感分析等,这些都是利用编程来对文本进行分析处理的结果。这节课,我们就一起来分析解决一个文本数据处理的问题。
小明在阅读时萌生了利用编程分析文学作品的想法,来看看他具体的需求。小明在阅读《三国演义》时,为了分析这部文学作品的内容及其写作特色,想把作品中出现次数最多的20个词查找出来。如何利用编程来实现呢?
3分钟
问题分解
要解决的核心问题是查找文章的高频词
已知条件是待处理的文本数据;编程实现时需要有读取模块。
求解目标:输出高频词20个。编程时需要有显示输出模块。
如何求解的呢?我们可以根据结果 逆推一下。
求解过程分析:分析统计、输出的是词语。但原始文本数据是整篇文章。人能识别提取文章中的词语,但计算机不行。因此,需要想办法将整篇文章切分或转换成相应的词语集合。这需要中文分词功能。
需要统计每个词语的出现次数。这需要词频统计功能。
根据词语的出现次数进行排序比较,选出符合要求的前20个词语。这需要词频排序功能。
据前面的分析,我们可以将这个较为复杂的大问题分解为读取文件、中文分词、统计词频、词频排序和显示输出五个功能模块。
16分钟
实践探究
5
实践探究
实践探究
实践探究
1、读取文件
实践活动一:
请同学们自行阅读任务单活动一学习材料。
输入并尝试理解相关语句