《数据仓库与数据挖掘》第一章 概述(34P).ppt
《《数据仓库与数据挖掘》第一章 概述(34P).ppt》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》第一章 概述(34P).ppt(34页珍藏版)》请在三一文库上搜索。
1、1,数据仓库与数据挖掘 (DATA WAREHOUSING AND DATA MINING),2,第一章 数据仓库与数据挖掘概述,本章要点 数据仓库的发展 数据仓库的基本概念 数据挖掘的发展 数据挖掘的基本概念 数据仓库与数据挖掘的集成,3,数据仓库的发展,自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业。 客户/服务器结构-分布式对象。 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。,4,数据仓库的发展,IBM: 在其DB2
2、UDB发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。 Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等。,5,数据仓库的发展,微软公司: 在其SQ
3、L Server7.0以及SQL Server2000中集成了代号为Plato的OLAP服务器。 Sybase: 提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio 。 Oracle公司: 则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。,6,数据仓库在我国的发展,现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。 原因: 尚不存在可靠的、完善的、被广泛接受的数据仓库标准; 现有的数据库系统
4、不健全,数据积累还不够,无法提出决策支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才; 缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等); 由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。,7,数据仓库的我国的发展,前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如: 由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需
5、求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。,8,从数据库到数据仓库,数据库应用的规模和深度 点 线 面 互联网 在线分析处理(OLAP) 在线事务处理 决策支持(DS) (OLTP) 数据挖掘(Data Mining),9,事务型处理与分析型处理,事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增
6、、删、改以及简单查询等。,10,分析型处理,分析型处理:用于管理人员的决策分析,例如DSS、 EIS、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境 中得到的细节数据进行分析。分析型处理过程中经常用到外部数据。,11,事务型处理数据和分析型处理数据的区别,事务型处理数据 分析型处理数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不可更新,只读的 操作需求事先可知道 操作需求事先不知 生命周期符合SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松 一个时刻操作
7、一个单元 一个时刻操作一个 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理需求,12,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。 决策分析型数据是多维性,分析内容复杂。 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。,13,数据库系统的局限性,当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取
8、操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力的。,14,多库系统的限制,可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥; 系统开销: 每次查询要启动多
9、个局部系统, 通信和运行开销大。,15,数据仓库(Data Warehouse)的定义,数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,16,数据仓库的适用范围,信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能 而降低精度要求,17,数据仓库中数据的特点,面向主题 集成性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库与数据挖掘第一章 概述34P 数据仓库 数据 挖掘 第一章 概述 34
链接地址:https://www.31doc.com/p-4917953.html