欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    《数据仓库与数据挖掘》第一章 概述(34P).ppt

    • 资源ID:4917953       资源大小:347KB        全文页数:34页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据仓库与数据挖掘》第一章 概述(34P).ppt

    1,数据仓库与数据挖掘 (DATA WAREHOUSING AND DATA MINING),2,第一章 数据仓库与数据挖掘概述,本章要点 数据仓库的发展 数据仓库的基本概念 数据挖掘的发展 数据挖掘的基本概念 数据仓库与数据挖掘的集成,3,数据仓库的发展,自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业。 客户/服务器结构-分布式对象。 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。,4,数据仓库的发展,IBM: 在其DB2UDB发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。 Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等。,5,数据仓库的发展,微软公司: 在其SQL Server7.0以及SQL Server2000中集成了代号为Plato的OLAP服务器。 Sybase: 提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio 。 Oracle公司: 则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。,6,数据仓库在我国的发展,现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。 原因: 尚不存在可靠的、完善的、被广泛接受的数据仓库标准; 现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才; 缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等); 由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。,7,数据仓库的我国的发展,前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如: 由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。,8,从数据库到数据仓库,数据库应用的规模和深度 点 线 面 互联网 在线分析处理(OLAP) 在线事务处理 决策支持(DS) (OLTP) 数据挖掘(Data Mining),9,事务型处理与分析型处理,事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。,10,分析型处理,分析型处理:用于管理人员的决策分析,例如DSS、 EIS、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境 中得到的细节数据进行分析。分析型处理过程中经常用到外部数据。,11,事务型处理数据和分析型处理数据的区别,事务型处理数据 分析型处理数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不可更新,只读的 操作需求事先可知道 操作需求事先不知 生命周期符合SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松 一个时刻操作一个单元 一个时刻操作一个 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理需求,12,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。 决策分析型数据是多维性,分析内容复杂。 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。,13,数据库系统的局限性,当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力的。,14,多库系统的限制,可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥; 系统开销: 每次查询要启动多个局部系统, 通信和运行开销大。,15,数据仓库(Data Warehouse)的定义,数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,16,数据仓库的适用范围,信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能 而降低精度要求,17,数据仓库中数据的特点,面向主题 集成性 稳定性 时变性,18,面向主题,主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系。,19,集成性,数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。,20,稳定性,数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。,21,时变性,时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。,22,支持管理决策,数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。,23,数据仓库的技术要求,大量数据的组织和管理:包含了大量的历史数据,不必关心它的数据安全性和数据完整性。 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。 对提取出来的数据进行集成:数据仓库中的数据在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。,24,数据挖掘的发展,数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的”现象。 自80年代后期以来,联机分析处理(OLAP)和数据挖掘技术应运而生。,25,数据挖掘的发展,数据挖掘(Data Mining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database, 简记为KDD),它是OLAP的高级阶段。 自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。,26,数据挖掘的定义,数据挖掘(Data Mining,简记为DM):是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的高级处理过程。 模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。 数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。,27,数据挖掘的类型,数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有: 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性挖掘 Web数据挖掘,28,预测模型,预测模型(Predictive Modeling):所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。 建立预测模型的常用方法: 回归分析 线性模型 关联规则 决策树预测 遗传算法 神经网络,29,关联分析,关联(Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。 关联规则挖掘近几年研究较多。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRM)和其他各种商业决策过程中。 关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等。,30,分类分析,分类(Classification)分析:所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。 分类分析的常用方法: 约略(Rough)集 决策树 神经网络 统计分析法,31,聚类分析,聚类(Clustering)分析:所谓聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。聚类分析的常用方法: 随机搜索聚类法 特征聚类 CF树,32,序列分析,序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。,33,偏差检测与模式相似性挖掘,偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。,34,Web数据挖掘,Web数据挖掘包括Web使用模式挖掘、Web结构挖掘和Web内容挖掘等。 基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。,

    注意事项

    本文(《数据仓库与数据挖掘》第一章 概述(34P).ppt)为本站会员(椰子壳)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开