内容正文:
第5章 数据表达我做主
抽取文本汇词云
第24课
人教版
学习目标
01
课堂导入
02
新知探究
03
知识总结
04
智慧挑战
05
兴趣园地
06
目录
CONTENTS
2
能熟练收集问题和场景的相关数据
学会抽取关键词,用词云图对文本数据进行可视化呈现的方法
学习目标
掌握对非数值类数据进行可视化呈现的基本方法
课堂导入
上节课同学们制作了“西游记师徒多角度对比”的雷达图,从图表上看,唐玄奘取经的坚定性最强,沙悟净比较均衡,孙悟空综合最强。
谁是《西游记》书里的第一主角?说说你的原因。
新知探究
《西游记》开篇便讲述了孙悟空诞生的故事,我认为孙悟空是第一主角。
可是《西游记》讲的是唐僧带着几个徒弟去西天取经,途经九九八十一难,终于取得真经。我认为唐僧是第一主角。
怎么用数据证明呢?
一、用词云图展现关键词语
词云图是一种能直观反映文本数据中不同词语之间的重要性和相关性的可视化表达方式,能传输关键信息,让文本数据释放活力。
新知探究
左侧的词云图有哪些特点?
词云图每个词的大小代表着什么含义?
新知探究
词云图一般由词标签构成,每个词的面积大小由其出现的次数决定,出现次数越多的词语,在词云图中显示的面积就越大。
由于词云图涉及的数据量比较大,基本都是借助数字设备绘制。
词云图有各种形状的呈现方式
词云图对分析长篇文本中的关键词有很大帮助,我们可以从数据分析的角度出发,通过词云图找出《西游记》的第一主角。
观察这几幅根据《西游记》节选片段生成的词云图,若以图中词语出现频率的角度看,孙悟空可以被认为是这些节选片段的第一主角。
新知探究
二、学做词云图
相比于前面学到的数值类可视化,词云图是一种对非数值类数据进行可视化呈现的方法。
新知探究
1.对提供的《西游记》片段内容进行可视化呈现,学做词云图。
2.以不同的标准,进行关键词取舍、同义词合并、低频词处理,可能会生成不同的词云图。请进行多种尝试,生成不同词云图,查看效果差异。
学习任务单 活动1
动手做——选用一段《西游记》节选片段学做词云图
第1步:选择一段文字。
节选《西游记》大闹天宫中的片段,并保存为文本文件。
新知探究
第2步:将句子分割成词语。
借助数字化工具,进行分词。
第3步:保留关键词语。
有些词语,如“那”“他”等不属于词云分析文本数据时需要统计的关键词,可以去除。【删除的词语没有标准依据,但删改后的文本要能体现出原文的基本内容和含义。】
新知探究
www.weiciyun.com
新知探究
第4步:进行词频统计。统计每一个关键词语出现的次数,并忽略出现次数少的词语,将统计结果记录在数字化工具中。
第5步:合并同义词。
例如,“悟空”“猴王”“大圣”都指向同一个角色,“哪吒”“太子”“三太子”也指向同一个角色,可以考虑合并处理。
新知探究
同义词合并1
同义词合并2
合并后
第6步:生成词云图。
可使用微词云工具生成词云图。还可以根据喜好选择不同的形状。
新知探究
新知探究
微词云平台功能强大,能帮助我们制作精美的词云图,但需要提前注册账号,登录平台使用。
在WPS表格中,也可以根据统计好的词频表生成词云图。
新知探究
知识总结
抽取文本汇词云
词云图能直观展示文本关键词,词语出现次数越多,字体越大
制作词云要先分词、筛除无用词,再统计词频、生成图表
词云是非数值数据可视化的好方法,能快速找到文本重点
2.制作词云时,下列词语需要筛除的无用词是()
A.孙悟空
B.唐僧
C.的
1.关于词云图的特点,说法正确的是()
A.词语字体一样大
B.出现次数越多,字体越大
C.只能展示数字数据
智慧挑战
智慧挑战
解析:词云图中词语出现次数(词频)越多,字体越大,它用于展示文本类非数值数据。
答案: B
解析:“的”是无实际意义的助词,属于无用词,需要筛除。
答案:C
兴趣园地
班级姓氏词云图
对本班同学的姓氏进行词频统计,生成词云图,找出班级中人数最多的姓氏。
1.制作本班同学姓氏词云图。
2.班上人数最多的姓氏是:___________。
谢谢
下节课见!
Thanks!
人教版
$