内容正文:
20
第四章 数据处理与应用
1. 数据处理的核心是数据,数据的质量直接影响数据分析的结果。
2. 在数据分析和数据 挖掘前, 通常先对数据进行整理。
3. 数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、
提高数据质量。
4. 数据缺失问题是数据集中普遍存在的问题,通常采用平均值、中间值或概率
统计值来填充缺失值
5. 数据重复问题在多数据源进行合并集成时经常出现,通常在进一步审核的基
础上进行合并或删除等处理
6. 异常数据指数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,
也可能是含有重要信息的数据对象。
7. 逻辑错误问题指数据集中的属性值与实际值不符,一般通过检测字段中各属
性有效数据值的范围可以判断该值错误。
8. 数据计算是数据处理的常用方法之一
9. 日常简单的数据处理可以使用 Excel 软件完成, 专业的数据处理和统计分析
工具有 SPSS、SAS、MATLAB 等,也可以通过 R、Python、 Java 等计算机语言编
程进行数据处理。
10. 在 Excel 软件中,可以应用公式进行数据的计算。公式是以“=”开头,由
常数、函数、 单元格引用和运算符组成的式子。
11. 单元格引用是指对工作表中的单元格或单元格区域的引用。默认情况下,单
元格引用 是相对的,如 Al;单元格绝对引用,如$A$1;连续的单元格区域引用,
如 A2:D5;不连续的单元格区域引用,如 A2:A5,D2:D5。
12. 算术运算符有^、%、*、/、十、-,用于进行基本的数学运算。比较运
算符有=、>、<、 >=、<=、<>,用于比较两个值,结果为逻辑值 TRUE
或 FALSE。文本连接运算符"&", 可以连接一个或多个文本字符串
13. Excel 范围写法:单个单元格写法:列标行号,例如 A1。区域范围:左上角:
右下角。例如当前的范围为 A1:C8
14. Excel 内置函数
函数名 使用 说明
SUM SUM(A1:A10) 求和
AVERAGE AVERAGE(A1:A10) 求平均值
MAX MAX(A1:A10) 求最大值
MIN MIN(A1:A10) 求最小值
COUNT COUNT(A1:A10) 求数量
21
15. 相对引用与绝对引用:Excel 中对单元格的引用可以是相对的,也可以是绝
对的,相对的例如 A1:A10,绝对引用一般用$符号标识,例如$A1 就是锁定列,在
填充的时候 A不会随着,单元格位置的变换的变换而变换,同理 A$1 就是锁定行,
$A$1 就是锁定行列。
16. 图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型有柱形图、
折线图、 饼图、 雷达图、 散点图、 气泡图
17. 大数据具有数据量大、数据来源与类型多样、处理速度快等特点
18. 处理大数据时,一般采用分治思想
19. 处理大数据的基本方法有批处理计算、流计算、图计算三种
20. 分布式计算 (Distributed Computing) 是把一个需要非常巨大的计算能力
才能解决的问题 分成许多小部分,然后把这些部分分配给许多计算机进行处理,
最后把这些计算结果综合起来得到最终的结果
21. 并行处理 (Parallel Processing) 是计算机系统中能同时执行两个或更多
处理的一种计算方法
22. 大数据处理按照类型可划分为对静态数据的批处理、 对流数据的实时计算
和对图结构数据的图计算【如下图】
23. Hadoop 计算平台主要包括 Common 公共库、分布式文件系统 HDFS、分布式数
据库 HBase、分布式数据库 HBase、分布式并行计算模型 MapReduce 等多个模块
24. Windows 的 文 件 系 统 采 用 FAT32 或 NTFS, Linux 的 文 件 系 统 为
Ext2/Ext3/Ext4、云盘、网盘的底层一般采用 HDFS 实现
25. HBase 是一个高可靠、高性能、 可伸缩、分布式的列式数据库
26. Map Reduce 是一种分布式并行编程模型,能够处理大规模数据集的并行运算,
主要由 Map(映射)和 Reduce(归纳)2 个函数构成
27. 使用计算机语言编程,可以更加灵活、深入地进行数据分析和挖掘
28. numpy 模块是 Python 中做科学计算的基础库,主要提供科学计算中常用的随
机数、数组运算等基础函数。
29. scipy 模块是基于 numpy 构建的一个模块,增强了在高等数学、信号处理、
图像处理、统计等方面的处理能力。
30. pandas 模块基于 numpy 实现,主要用于数据的处理和分析。它提供了大量处
理数据的函数和方法,能方便地操作大型数据集。
31. pandas 提供了 Series 和 DataFrame 两种数据结构。使用这两种数据结构,
可完成数据 的整理、计算、统计、分析及简单可视化。
32. 在 Python 中引入 pandas 模块的方法:import pandas as pd
33. Series 是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索
引 (index),索引值默认是从0起递增的整数。列表、字典等可以用来创建Series
22
数据结构, 与列表不同的是,Series 的索引可以指定,类型可以为字符串型。
34. Series 样例使用如下图
35. 通过索引可以选取 Series 对象中的值, 通过赋值语句可以修改 Series 对
象中的值。如:s1[0]=168 、s2["s01 "]=168, 可将 sl、s2 对象中的“ 166"
改为“ 168 ”。
36. DataFrame 是一种二维的数据结构由 1个索引列(index)和若干个数据列组
成,每个数据列可以是不同的类型。DataFrame 可以看作是共享同一个 index 的
Series 的集合。 创建 DataFrame 对象的方法很多, 通常用一个相等长度的列
表或字典来创建。如下图
37. Pandas 也可以读取 Excel,代码如下图
38. matplotlib 是一个绘图库 ,使用其中的 pyplot 子库所提供的函数可以快速
绘图和设置图 表的坐标轴、 坐标轴刻度、图例等。常用绘图函数如下表
23
39. 样例代码:绘制正弦函数图 左 1代码图,左 2结果图
40. 文本数据处理是大数据处理的重要分支之一, 目的是从大规模的文本数据
中提取出符合需要的、 感兴趣的和隐藏的信息。 目前, 文本数据处理主要应
用在搜索引擎、 情报分析、 自动摘要、 自动校对、 论文查重、 文本分类、 垃
圾邮件过滤、 机器翻译、 自动应答等方面。
41. 文本处理的一般步骤:文本内容是非结构化的数据, 要从大量的文本中提
取出有用的信息, 需要将文本从无结构的原始状态转化为结构化的、 便于计算
机处理的数据。 典型的文本处理过程主要包括:分词、 特征提取、 数据分析、
结果呈现
42. 中文分词是中文文本信息处理的基础, 机器翻译、 全文检索等涉及中文的
相关应用中都离不开中文分词。 分词是将连续的字序列按照一定的规范重新组
合成词序列的过程
43. 分词的三种方法 基于词典(jieba)的分词方法、基于统计的分词方法、基
于规则的分词方法
44. 标签云用词频表现文本特征, 将关键词按照一定的顺序和规律排列 , 如
频度递减、 字母顺序等, 并以文字大小的形式代表词语的重要性
45. 文本情感分析是指通过计算机技术对文本的主观性、 观点、 情绪、 极性
进行挖掘和分析, 对文本的情感倾向做出分类判断
46. 数据可视化的作用:快捷观察与追踪数据、实时分析数据、增强数据的解释
力与吸引力
47. 数据可视化的基本方法:有关时间趋势的可视化[柱形图、折线图]、有关比
例的可视化[饼图、环形图(也称面包圈图)]、有关关系的可视化[散点图、气
泡图]、有关差异的可视化[雷达图]、有关空间关系的可视化
48. 数据可视化的工具:用于数据可视化的工具有大数据魔镜、Gephi、Tableau
等,也可以使用 Python、R 等 计算机语言编写程序实现数据的可视化
49. 随着大数据在各行业的应用, 数据成为核心资产, 数据规模以及运用数据
的能力成为各行业发展的推动力
50. 智慧交通包括:交通信息服务系统、交通管理系统、电子收费系统
51. 大数据在电子商务的使用:精准营销、供应链管理、智能网站