欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    《数据仓库与数据挖掘》第二章 数据仓库的数据模型与数据组织(26P).ppt

    • 资源ID:4917955       资源大小:588.50KB        全文页数:26页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据仓库与数据挖掘》第二章 数据仓库的数据模型与数据组织(26P).ppt

    1,第二章 数据仓库的数据模型与数据组织,本章要点 数据仓库的数据模型 概念模型 逻辑模型 物理模型 数据仓库数据组织的基本概念 粒度 维度 元数据 数据分割 数据仓库的数据组织 数据仓库的数据组织方式 数据仓库的数据存储组织,2,数据仓库中的数据组织,高度综合级,轻度综合级,当前综合级,早期细节级,多级数据,3,数据仓库的数据模型 与数据库系统数据模型的区别,数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。,4,星型图模型 物理数据模型,概念模型,逻辑模型,物理模型,面向用户的需求,细 化层次,更详细的 技术细节,数据仓库的数据模型,信息包图,5,信息包图(概念模型),信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。 工作: 确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键码、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息,6,信息包图,信息包: 维度 类别 空白信息包图样式,7,信息包图,例试画出销售分析的信息包图。 解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,8,销售分析的信息包图,信息包: 销售分析 维度,类别,9,星型图模型(逻辑模型),星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。 星形图包括了三种逻辑实体: 指标 维度 详细类别,10,星型图模型(逻辑模型) 例销售分析的星型图模型。,时间维,产品维,地区维,组别维,其他维,销售分析: 实际销售 预测销售 预测偏差,11,物理数据模型,物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,12,粒度第一种形式,粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。 粒度越小,综合程度越低,回答查询的种类越多; 粒度越高,综合程度越高,查询的效率也越高。 在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。,13,粒度第二种形式:样本数据库,样本数据库:在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。 样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,14,维度,维度:是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。 例如: 一个销售系统中的数据可分为时间维、产品维和地理位置维等; 一个财务系统中的数据可分为时间维、支出维和收入维等; 一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。,15,聚合,在数据仓库技术中,每一维可包括多个层次,这些层次反过来可以向用户提供某一层次的数据。例如,在地理位置维中,由所有的街区组成了地区,由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据,从而构成维内不同层次的数据集,使用户不仅能够在一个维度内观察数据,而且能够在维度内的不同层次上观察数据。,16,分解与合成,分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如,当以地理位置维观察数据时,用户可以首先以国家(如中国)为单位观察数据,然后可以选择观察某一个地区(如华东地区)的数据,接下来可以选择观察某一个省或城市(如上海)的数据,这就是数据分解的过程。而合成则是分解的逆过程,例如用户开始以省市为观察对象,接着再以地区、国家等为观察对象,就是一个数据合成的过程。,17,分割及其标准,分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。 数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。 数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描,18,数据分割的方法,垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。 水平分割:水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。 图解分割:经由多个分布系统把一个图分解成两部分。可以从指定的服务器或在多个服务器之间建立连接而得到一个表所需要的全部数据。这种类型的分割被用来把小的、静止的表从不稳定的、越变越大的表中分割出来。,19,元数据,元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。 要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。,20,元数据的种类,转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。 DSS元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,这种元数据常称为DSS元数据,常用来开发更先进的决策支持工具。,21,数据仓库中的元数据的内容,关于源数据的元数据:数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其它系统中具有相同业务含义的数据项的清单。 关于数据仓库映射的元数据。 关于系统安全的元数据。,22,与传统数据库系统的数据字典中相似的内容。 数据仓库的主题描述。 外部数据和非结构化数据的描述。 记录系统定义。 逻辑模型的定义。 数据进入数据仓库的转换规则。 数据的提取历史。 粒度的定义。 数据分割的定义。 广义索引。 有关存储路径和结构的描述。,23,数据仓库的数据组织,数据仓库是构建这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。,24,数据仓库的数据组织方式,基于关系表的存储方式:这种方式的主要问题是在多维数据模型定义好后,从数据库中提取数据往往需要编制独立、复杂的程序,因此,通用性较差,且很难维护。 多维数据库存储方式:多维数据库的组织方式是直接面向OLAP分析操作的数据组织形式。这种数据库产品也比较多,实现方法也不尽相同。其数据组织采用多维数据结构文件进行存储,并有维索引及相应的元数据与其对应。,25,数据仓库中文件的存储方式,简单堆积文件: 轮转综合文件:,26,数据仓库的数据组织形式,简化直接文件:简单直接文件是按一定时间操作型数据库的一个快照,即按一定所时间间隔对数据库的采样。 连续文件:它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件。,

    注意事项

    本文(《数据仓库与数据挖掘》第二章 数据仓库的数据模型与数据组织(26P).ppt)为本站会员(椰子壳)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开