内容正文:
数据仓库与数据挖掘
1
仓库
1.数据仓库的产生
数据处理大致可分为两类,一类是分析型处理,另一类是操作型处理。操作型处理也叫联机事务处理(On-Line Transaction Processing,简称OLTP),是指对数据库联机的日常操作,通常是对记录的增、删、改和查询,主要是为企业的特定应用服务的,人们所关心的是响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析,需要经常访问大量的历史数据。
3
两种应用差别的具体表现如表5-1所示。
联机事务处理 分析处理
性能特点 要求存储效率高 决策分析对时间的要求比较宽松,决策分析应用程序可能需要连续运行几个小时
数据特点 详细数据 综合数据
数据的集成 某一方面的数据 多方面、完整的数据,多个不同数据的来源
历史数据 主要是当前的数据 需要历史数据,以便分析变化发展趋势
图5-1 联机事务处理与分析处理的差别
4
以上分析表明,联机事务处理和分析处理在实时性、对处理数据的要求等方面都存在着明显的差异,在传统的事务处理型数据库应用环境中不宜构建分析型应用。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。数据仓库正是为了满足对数据的分析处理而出现的新的数据库技术。
5
数据仓库的概念是什么?
6
2.数据仓库的概念
数据仓库(Data Warehouse,简称DW)是用来更好地支持企业或组织决策分析处理的、面向主题的、集成的、稳定的、随时间变化的一种数据集合。
数据仓库通常有以下特点:
7
(1)面向主题。
(2)集成。
(3)稳定性。
(4)随时间变化。
(5)数据量大。
(6)硬件要求高。
8
3.数据仓库的结构
数据仓库的结构如图所示,它至少包括三个部分:数据源与数据集成、数据存储、数据查询与分析工具。
9
2
数据挖掘
1.数据挖掘技术的产生
面对浩如烟海的数据,人们呼唤能从数据汪洋中去粗取精、去伪存真的技术。从数据库中发现知识及有价值信息的技术一数据挖掘(Data Mining,简称DN)便应运而生了。
数据挖掘不是对数据库的简单检索、查询和调用,它是一门广义的交叉学科,需要利用人工智能、数理统计、可视化、并行计算等领域中的技术,通过对大量数据进行各种技术处理,找出潜在的对用户