欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt

    • 资源ID:4917954       资源大小:379.50KB        全文页数:31页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt

    1,第三章 数据仓库的设计,本章要点 数据仓库的设计步骤 高层设计 技术准备工作 中层设计 低层设计 数据仓库生成,2,数据仓库的数据组织:简单堆积,3,数据仓库的数据组织轮转综合,4,高细节:低粒度 低细节:高粒度 例:顾客一个月内通话细节 顾客一个月内通话综合,日期 月份 时间 通话总次数 通话人姓名 通话人姓名 通话人ID 通话人ID 接线员帮助 长途次数 电话接通状态 中断次数 通话时间 平均时长 长途 移动电话 特别折扣率,5,李三 2005年四月份 2005年月日下午 : 李三 54000345 54000345 接线员帮助 通话次数 2005年月日下午 :018:12 通话平均长度分钟 长途 长话次数个 2005年月日下午 : 接线员帮助个 未接通电话个 2005年月日下午 :9: 2005年月日下午 : 未接通 2005年月日下午 : 号码错误,6,综合数据表-细节数据表,7,数据仓库的数据组织简单直接,2001年1月采购表 2001年2月采购表,8,数据仓库的数据组织连续文件,9,收集应用需求,分析应用需求,构建数据库,数据仓库建模,数据获取与集成,构建数据仓库,系统实施,应用编程,系统测试,DSS应用编程,系统测试,理解需求,DB,应用B,应用A,DB,DB,外部 数据,DW,SDLC方法,10,数据仓库设计的技术要求,对大量数据的组织和管理。 支持高性能的复杂分析。 对提取出来的数据进行集成。 对高层决策的最终用户提供工具。,11,数据仓库的设计步骤,高层设计 技术准备工作 中层设计 低层设计 数据仓库生成,12,高层设计(概念模型设计),高层设计: 创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。 分析用户需求(确定系统边界): 确定用户要做的决策类型 确定用户决策时需要的信息 确定原始信息 决定数据仓库所需要的信息的级别,采用多级信息包图,13,制造业E-R图,零件,供应商,订单,生产线,14,高层设计(概念模型设计),定义关键性能指标(确定主要的主题域): 主题域的公共键码 主题域间的联系 充分代表主题的属性 定义维度: 定义类别:,15,数据仓库应用实例,航空公司的佣金计算系统 座位(是否还有剩余 座位是否可以优先使用 涉及哪些转换航班 是否能转换得上) 票价 佣金 零售个性化系统 市场(男/女,职业/其他,城市/乡村) 顾客(上次购买时间,上次所购商品,产品市场分类) 信用审核 偿还历史 私有财产 收入 开销,16,高层设计(概念模型设计),创建信息包图: 确定涉及的主题域,例如:时间、顾客、地理位置和产品。 设计可以跟踪的确定一个事件怎样被完成和运行的关键指标。 决定在给定的用户分析或查询中实际包含了多少数据。 确定用户如何按层次聚合数据和移动数据。 决定数据层次。 估计数据仓库的大小。 确定一个数据仓库里数据的更新频率。 定义如何访问数据。 决定数据如何被传递给仓库的用户。,17,保险公司: 2-3年 银行信托: 2-5年 电话公司: 顾客使用情况: 30-60天 供货商/销售商活动: 2-3年 普通银行: 小额客户: 30天 销售商: 1 年 贷款: 2-5年 零售业: 1-14天,销售商 1 个月 航空公司:座位30-90天, 供应/销售1-2年 公用事业:顾客60-90天, 供应商1-5年,18,技术准备工作,技术评估 技术环境准备 确定软硬件的配备要求,19,中层设计(逻辑模型设计),中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息包图转换成星形图模型。 主要工作: 定义指标实体。 定义维度实体。 定义详细类别实体。 设计成果: 适当的粒度划分 合理的数据分割策略 适当的表划分 定义适当的数据源,20,银行活动,帐号 业 存款 票据 日期 务 需要邮寄 金额 类 地点 型 提款 余额需要核实 类型 现金/支票/其他 出纳员 服 ATM ID号 务 请求超出限额 类 时间戳 型 出纳员 出纳员ID 自动核实 顺序号 现金库余额 ,21,低层设计(物理数据模型设计),低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的存储结构、数据的存储位置和索引策略。 设计人员需要了解和考虑的问题: 所选用的数据库系统,特别是存储结构和存取方法; 数据环境、数据的使用频率、使用方式以及响应时间; 存储设备的特性等。 主要工作: 确定数据的存储结构。 确定数据的存储位置。 确定索引策略。,22,零件表 很少修改 不常修改 经常修改,零件ID 是 主要替换件 是 库存量 是 订单单位 是 最低应达库存 主要供应商 订货到交货的时间 是 可以接受的废品率 是 加急 上次的订单日期 上次订货量 上次发往地 发货清单 订货量,23,数据仓库生成,设计接口 从面向应用和操作的环境生成完整的数据 基于时间的数据转换 数据的聚合 对记录系统进行扫描,以便追加数据 数据装入 确定数据装入的顺序 过滤无效或错误数据 数据老化 数据粒度管理 数据刷新,24,接口设计,数据仓库中的数据是从数据库系统中提取出来的,所以在需要在数据库系统和数据仓库之间建立一个接口。建立这种接口,并不是简单的编制一个提取程序。由于数据库中的数据与数据仓库中的数据有很大区别,所以在设计接口时,除了提取外还要完成数据的净化、集成等。接口应包括转换器、监控器和集成器等,以完成对数据的提取、净化和集成。,25,数据提取,数据的提取是数据仓库成功的关键。在提取过程中,为了支持实际应用中的趋势分析,它还必须对数据基于时间进行转换。在大多数情况下,把数据库系统中的数据变化提取出来是通过访问数据库日志进行的。在数据提取时应考虑建立可靠的复制机制,使复制不受诸如系统失败之类问题的影响,保证传送符合数据完整性规则的一致数据,并优化传送过程,减少在捕获或修改数据和传送复制结果之间的等待时间。复制机制包括数据发布器和数据阅读器。数据发布器是原始的或控制的源,它控制了从企业内部来的数据的捕获和净化;数据阅读器是一种对数据访问的系统。,26,数据装入,数据装入:即运行数据仓库的接口程序,将数据装入数据仓库中。 主要工作: 按顺序装入数据。最初只装入一部分数据来生成第一个主题域,这样能使设计人员轻易而迅速的对所做的工作进行调整,然后再依次装入全部数据。 检查数据的有用性。数据仓库的设计过程是一个反馈、循环的过程,原先对决策分析起作用的数据随着时间的推移越来越陈旧无法再支持决策分析,清除老化、无效和错误数据,不断的适应用户的需求。,27,数据仓库的使用与维护,构建数据仓库的最终目的是为了使用,如果数据仓库中存放了大量的数据而没有开发相应的应用程序就失去了其存在的价值。 数据仓库的目的是用于决策分析而不是事务管理。决策分析应用可分为两种类型:例行分析处理和启发式分析处理。例行分析处理是指一些要求比较明确、需要重复进行的分析处理,通常属于部门级的应用,如部门的销售分析、财务分析、报表分析等;启发式分析是指随机性较大的、即时进行的分析处理,通常属于企业高层决策者级的应用,这种决策分析并没有固定的模式,决策者受到某种信息的启发而进行一些随机的决策分析。,28,数据仓库的使用与维护,对于例行分析处理,由于其分析模式固定,因此可以使用查询/报表工具、固定模式的验证工具或OLAP工具来实现。对于启发式分析处理则需要在验证工具、OLAP工具和数据挖掘工具中为用户提供一个灵活的、功能强大的交互式界面,使决策者能够方便地利用这些工具循环渐进地进行决策分析,最终获得分析结果。,29,数据仓库的维护,系统维护:是在系统已经交付使用之后为了改正错误和为了满足新的需要而修改系统的过程。 数据仓库中数据的日常管理工作: 清除过时的、不再使用的数据; 定期从源数据中提取数据,刷新数据仓库中的数据; 管理元数据等。,30,连续文件,王一落 1月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 3月份顾客表 王一落 江南区9街7号 新的连续文件 王一落 1月-2月 五华区1街2号 王一落 3月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 考虑出错情况,31,数据仓库系统的完善工作:,改正性维护:在数据仓库设计与开发过程中,虽然已经进行了严格的测试,但对于一个大型的系统可能还潜藏着一些错误,改正性维护就是为了发现和改正这些错误而进行的过程。 适应性维护:数据仓库的构建是基于当时的技术条件的,由于计算机科学技术发展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大的变革,适应性维护就是为了与变化了的环境相配合而进行的对系统进行修改的活动。 完善性维护:因为数据仓库系统一般是采用快速原型法开发的,需要在系统的运行过程中不断地听取用户对已有功能的修改建议和增加新功能的需求,使系统日趋完善,这项工作称为完善性维护。 预防性维护:预防性维护则是指为了改进系统未来的性能和功能打下基础而进行的修改工作。,

    注意事项

    本文(《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt)为本站会员(椰子壳)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开