内容正文:
第四章
数据处理与应用
1、常用表格数据的处理
2、大数据处理
3、大数据典型应用
学习目标:
1、文本数据处理、分析及应用
2、了解数据可视化的作用、基本方法和常用工具
3、能发现数据中隐藏的特征、关系和模式
文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
文本处理数据
文本处理数据
使用百度搜索“春节”,如图所示,找到相关结果约100,000,000个,这些返回的结果数据对“春节”的关键特征描述是什么?
如何处理这些数据才能获得答案? --要提炼对“春节”的关键特征描述,需要采集返回结果页面中的文本数据进行分析
文本处理数据
文本处理的一般过程
1、中文分词
(1)基于词典的分词方法
(2)基于统计的分词方法
(3)基于规则的分词方法
2、特征提取
(1)标签云
文本数据分析与应用
标签云将关键词按照一定的顺序和规律排列,并以文字大小的形式代表词语的重要性。是文本可视化的一种方式 ,文本可视化将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来。
文本数据分析与应用
(2)文本情感分析
文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。主要应用于网络舆情监控、用户评论与决策、信息预测等众多领域。
数据可视化
阅读教材133-138页,回答问题?
1.什么是可视化?
2.可视化的作用?
3.可视化的基本方法?
什么是数据可视化
以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等表达方式。
可视化的作用
1.快捷观察与追踪数据
2. 实时分析数据
可视化的作用
3. 增强数据的解释力与吸引力
可视化的作用
可视化的基本方法
1. 有关时间趋势的可视化
可视化的基本方法
2. 有关比例的可视化
3. 有关关系的可视化
可视化的基本方法
4. 有关差异的可视化
可视化的基本方法
可视化的基本方法
5. 有关空间关系的可视化
可视化的工具
大数据魔镜 (免费的大数据可视化分析工具)
Gephi(动态和分层图的交互可视化与探测开源工具)
Tableau(