欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PDF文档下载  

    商务智能复习.pdf

    • 资源ID:5349012       资源大小:1.06MB        全文页数:22页
    • 资源格式: PDF        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    商务智能复习.pdf

    商 务 智 能 第 1 章商务智能概述 1.1 商业决策需要商务智能 一、数据、信息和知识 1、数据:符号、事实和数字信息:有用的数据 关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体, 信息是对数 据的解释。 知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。 2、决策离不开信息、知识 决策需要信息,更离不开知识; 知识更多地表现为经验-学习的结晶; 学习的过程是不断地对信息加工处理; 信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。 信息已成为企业经营中重要性仅次于人才的第二大要素。 决策 =信息 +经验 +冒险 商务智能是对企业信息的科学管理。 3、商务智能支持商业决策 商务智能如何创造知识和价值 1.2 商务智能简介 商务智能这一术语1996年由Gartner 公司的分析师Howard Dresner 首次提出 ,他提出商务智能描述了一系 列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。 一、商务智能概念 商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提 取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力, 涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的 绩效。 先进信息技术:商务智能是多项技术的综合应用; 集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次; 企业战略:商务智能服务于企业战略; 管理层、业务层:商务智能用户多样性; 更好的绩效:商务智能提升企业绩效。 二、商务智能的价值 1、在商务智能背后有一些商业驱动力,如: 增加收入,减少费用和更有效地竞争的需求。管理和模拟当前商业环境复杂性的需求。减少IT 费用和 事物运动数据信息 记录解释 利用已有公司业务信息的需求。 2、商务智能的价值 制定合适的市场营销策略;改善顾客智能;经营成本与收入分析;提高风险管理能力;改善业务 洞察力;提高市场响应能力。 1.3 商务智能系统的功能 数据集成:数据是决策分析的基础; 信息呈现:商务智能的初步功能; 经营分析:运营指标、运营业绩和财务分析; 战略决策支持:合理的投资组合。 1.4 商务智能应用领域 银行:美国银行家协会(ABA) 预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。 分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等 电子商务:网上商品推荐;个性化网页;自适应网站 生物制药、基因研究:DNA 序列查询和匹配;识别基因序列的共发生性 电信:欺诈甄别;客户流失 保险、零售 政府部门、教育机构、医疗机构和公用事业等。利用商务智能的企业现在已越来越多,遍及各行各业。 第 13 章商务智能发展 一、商务智能的发展 事务处理系统TPS管理信息系统MIS 主管信息系统EIS决策支持系统DSS智能决策支持系统IDSS 二、商务智能应用趋势 更成熟的数据分析和展现技术;从战略型的BI 到操作型或者实时型的BI;关注绩效、关注价值、关注 数据质量。 三、商务智能在中国的发展 商务智能在中国的发展尚处于起步阶段,大部分企业对商务智能仍然缺乏必要的了解。 国、内外商务智能软件企业的实施和应用水平有很大的差距,目前国外有一些企业已进入多维分析和数 据挖掘阶段,而国内商务智能的发展只是近几年的事情,商务智能应用的范围和程度都与国外企业有很大差 距。绝大多数实施商务智能的企业的应用水平停留在基本的数据整合阶段和简单的统计分析阶段,真正实现 深度数据分析的项目很少。 四、中国商务智能应用存在的问题 起步较晚:国内管理者想要利用商务智能解决缺乏有效信息支持决策的管理模式和操作准则越来越体现出 缺乏理性的缺点。因此国内企业管理者试图通过商务智能解决上述问题,但这种需求比国外发达国家滞后了。 差距拉大:目前国内各行业商务智能的发展水平仍是参差不齐,商务智能在行业内也存在差距,不同规模 的企业应用商务智能的差距也在拉大。 普及有待时日:技术、观念和管理水平的相对落后,商务智能的普及还需要较长时间 供应商有待成长 五、商务智能动态 1、商务智能发展的特点 实时;标准化;嵌入式商务智能;移动商务智能;大众化趋势;供应商的动向;易用性。 2、2012 年商业智能的6 大预测 内存中的分析;可视化发掘;大数据;移动商业智能;云商业智能;社交,协作的商业智能。 第 2 章商务智能系统架构 2.1 商务智能系统组成 1、体系结构 (Architecture) :体系结构是指一整套的规则和结构,为一个系统或产品的整体设计提供主框架。 2、商务智能的体系结构 一个商务智能的体系结构是通过识别和理解数据在系统中的流动过程和数据在企业中的应用过程来提供 商业智能系统应用的主框架。 商务智能系统构架(见书P27) 3、商务智能系统的组成 数据源与数据提取;数据仓库;访问工具;决策支持工具;商务智能应用;系统管理;元数 据管理。 2.2 数据集成 数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整合,从而为企业提供全面的数 据共享。 目的:运用一定的技术手段把分布在异构系统中的数据按一定的规则组织成一个整体,使用户能有效地对其 进行共享、分析,因此数据集成是构建数据仓库的基础。 1、数据集成的常用方法 数据联邦;基于中间件模型;数据仓库;主数据管理 2、主数据管理与数据仓库的关系 联系:二者相辅相成,都是减少数据冗余和不一致性的跨部门集中式系统,都依赖ETL 、元数据管理等技 术保证数据质量。数据仓库系统的分析结果可以输入到主数据管理系统中。 区别: 主数据管理是为呼叫中心、电子商务和CRM 等业务系统提供联机服务,数据仓库面向分析型的应用; 主数据管理涉及的数据量相对较小,在运行中对主数据的集成实时性要求比数据仓库高。 3、主数据管理与ODS 的关系 实时性要求具有共性,但主数据管理系统不储存ODS 系统的交易数据。 第 3 章数据仓库 3.1 从数据库到数据仓库 1、企业数据处理分为:事务型处理和分析型处理 2、事务型处理 即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常 商务活动进行处理。 它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复 和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操 作处理的时间短。 3、分析型处理 分析型处理:用于管理人员的决策分析,例如DSS、 EIS 和多维分析等。它帮助决策者分析数据以察看趋 向、判断问题。 分析型处理经常要访问大量的历史数据,支持复杂的查询。 分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数 据源。 4、事务型处理数据和分析型处理数据的区别(见书P36) 5、数据库系统的局限性 数据库适于存储高度结构化的日常事务细节数据。决策分析型数据是多维性,分析内容复杂。 在决策分析环境中,如果事务处理的细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据 会分散决策者的注意力。 当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作 处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又 可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些 非结构化数据,数据库系统常常是无能为力。 6、多库系统的限制 可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥; 系统开销:每次查询要启动多个局部系统, 通信和运行开销大。 3.2 数据仓库 1、数据仓库的发展 1981 年NCR 公司为 Wal Mart 建立了第一个数据仓库。 1988 年IBM 公司的研究员Barry Devlin 和 Paul Murphy 创造性的提出了一个新术语?a?a数据仓库 1991 年Bill Inmon正式出版 Building the Data 、Warehouse ,第一次给出了数据仓库的清晰定义和操 作性极强的指导意见 1993 年拉尔夫 .金博尔出版了The Data Warehouse Toolkit ,在具体构建方法上提出不同意见 1996 年加拿大的IDC 公司调查了62 家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供 了巨大的收益。 2、数据仓库 (Data Warehouse) 含义:数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一用户接口,完成 数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息 及导出信息。 Bill Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用 以支持管理决策的过程。 3、数据仓库的技术要求 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、 分类、排序等操作。 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不 同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。 4、数据仓库结构 3.7 数据仓库模型 1、概念模型设计 概念模型用来表达信息世界中的信息结构,通常人们利用概念模型定义实际的数据需求。 概念模型最常用的表示方法是实体关系法(E-R 法) ,E-R 图将现实世界表示成信息世界,便于向计算机 的表示形式进行转化。 目前的数据仓库实际上是通过主题分析表示概念模型,每个主题用若干维和度量表示。维度是人们观察世 界的特定角度,度量是确定与维度分析有关的数值信息。 2、逻辑模型设计 主要工作:a 分析主题域进行概念模型到逻辑模型的转换;b 确定粒度层次划分;c 确定数据分割策略;d 关系模式定义;e 定义记录系统。 3、数据仓库常用的两种基本逻辑模型: 星型模型:星型模型的核心是事实表,事实表把各种不同的维表连接起来。 雪花模型:雪花模型是星型模型的扩展,某些维表中的数据可以进一步分解到附加的表中。 4、物理模型设计 物理模型设计因素:a I/O 存取时间; b 空间利用率;c 维护的代价。 主要工作: a全面了解所选用的数据库管理系统,确定一个最适合应用要求的物理结构,特别是存储结构和 存取方法。 b 了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。c 了解外部存储设 备的特征。 5、确定一个最适合应用要求的物理结构 估计存储容量;确定数据的存储计划;确定索引策略;确定数据存放位置;确定存储分配。 3.4 元数据 数据仓库的所有数据都要通过元数据来管理和控制。 1、元数据 元数据:是用来描述数据的数据。 元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存 储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。 2、元数据的分类 技术元数据:与数据仓库开发、管理和维护相关的数据。(如数据源的元数据、数据模型的源数据、数据仓 库映射的源数据) 业务元数据:从业务角度描述数据,为管理及业务分析人员服务。(如数据仓库使用的元数据) 3、元数据的存储方式 元数据有两种常见存储方式:以数据集为基础,第个数据集对应元数据文件; 以数据库为基础的,即元数据库(推荐)。 3.5 数据抽取、转换和加载 ETL 是构建数据仓库的重要环节,也是企业数据管理的核心,对数据仓库的后续环节影响较大。 1、数据抽取( Extraction ) 确认数据源;数据抽取技术 2、数据转换(Transform) 数据转换的的主要任务是对数据粒度以及不一致的数据进行转换。 数据转换的形式:格式修正;计算值和导出值;度量单位的转化化;日期/时间转化;特征集合转;信息的 合并;汇总等 3、数据清洗( Cleaning) 数据清洗也称数据净化,主要指对数据字段的有效值检验。 有效值的检验通常包括:范围检验;枚举字段取值;相关检验要求。 4、数据装载(Load) 数据装载方式: a 基本装载:按照装载的目标表,将转换过的数据输入到目标表中去。 b 追加:如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。 c 破坏性合并:用新输入数据更新目标记录数据。 d 建设性合并:保留已有的记录,增加输入的记录,并标记为旧记录的替代。 数据装载类型: a 初始装载:这是第一次对整个数据仓库进行装载。 b 增量装载:由于源系统的变化,数据仓库需要装载变化的数据。 c 完全刷新:这种类型的数据装载用于周期性重写数据仓库。 5、数据处理的有关讨论 数据库中的空缺值;不一致的数据;样本空间的大小;与分析无关的数据不要装入数据仓库;数 据离散化;数据规范化 3.6 操作数据存储 很多情况下,DB-DW 的两层体系结构并不能涵盖企业所有的数据处理要求。 日常管理和控制决策的问题并不是联机事务处理,又算不上高层决策分析,需要企业全局一致的、细节的、 当前或接近当前的数据,又需要面向主题、集成的数据环境。因此需要DB-DW 之间存在着一个中间层次,即 操作型数据存储ODS(Operational Data Store ) 。 1、ODS 和 DW 的比较(见书P44) 3.7 数据集市( Data Mart ) 1、数据集市:数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中 将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称 它为部门数据仓库。 2、数据集市类型: 按照数据获取来源:独立型:直接从操作型环境获取数据;从属型:从企业级数据仓库获取数据。 3、数据仓库VS 数据集市 数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。 数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过 程。 注:数据集市不是数据仓库 数据集市并非小的数据仓库 多个数据集市集合并不构成数据仓库 第 4 章在线分析处理 OLAP 发展背景 60 年代,关系数据库之父E.F.Codd 提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形 式而非文件方式存储)。 注: OLTP 在线事务处理通常是一个或一组记录的查询和修改,用于处理短暂的交易事务。 1993 年, E.F.Codd 提出了多维数据库和多维分析的概念,即OLAP 。 (认为 OLTP 已不能满足终端用户对数 据库查询分析的需要,SQL 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析 需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求) 4.1 OLAP 简介 联机分析处理 (OnLine Analysis Processing ,OLAP )在数据仓库系统中,联机分析处理是重要的数据分析 工具。 OLAP 的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。 OLAP 是独立于数据仓库的一种技术概念。 当 OLAP 与数据仓库结合时,OLAP 的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。 1、OLAP 的定义 OLAP委员会的定义:OLAP( 联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始 数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解的一类软件技术。 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 OLAP 也可以说是多维数据分析工具的集合。 2、OLAP 的基本概念 维:是人们观察数据的特定角度,是考虑问题时的一类属性。 维的层次:人们观察数据的某个特定角度(即某个维 )还可以存在细节程度不同的各个描述方面。 维的成员:维的一个取值。是数据项在某维中位置的描述。 多维数组:维和变量的组合表示。一个多维数组可以表示为:(维 1,维 2,?-,维 n,变量 ) 数据单元 (单元格 ):多维数组的取值 3、超立方结构(Hypercube)多维数据集 立方体或超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。 数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性(收缩超立方结构,这种结构的数 据密度更大 ,数据的维数更少,并可加入额外的分析维)。 4、OLAP 的特点 快速性Fast:用户对OLAP 的快速反应能力有很高的要求。 可分析性Analysis :OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性Multidimensional :多维性是OLAP 的关键属性。 系统必须提供对数据的多维视图和分析,包括对层次 维和多重层次维的完全支持。 信息性Information :OLAP 系统应能及时获得信息,并且管理大容量信息。 4.2 OLTP VS OLAP (见书 P65) 4.3 OLAP 操作 E.F.Codd 从可视化角度提出,主要基于统计的方法: 切片和切块(Slice and Dice) :切片与切块的作用是对分析的数据进行过滤,使用户专注于局部数据。 钻取 (Drill) :钻取能够帮助用户获得更多的细节性数据。 旋转 (Rotate):旋转 (Pivot) 通过旋转可以得到不同视角的数据。 辅之于各种图形展示分析结果。 1、切片、切块(Slice and Dice) 多维数据是由多个维度组成的,如果在某个维度上选定一个取值,则多维数据从n 维下降成n-1 维。 切片与切块在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片; 如果有两个以上,则是切块。 切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。 2、钻取 (Drill) 钻取改变维的层次,变换分析的粒度。钻取有向下钻取(drill down )和向上钻取(drill up )操作。 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,即从汇总数据深入到细节数据进 行观察或增加新维。 向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。 3、旋转 (Rotate) 通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。 例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面 外的维进行交换(令其成为新的行或列中的一个)。 4.4 OLAP 分类(见书P69) 1、ROLAP ROLAP 是基于关系数据库的OLAP 。 它是一个平面结构,用关系数据库表示多维数据时,采用星型模型、雪花模型。 2、MOLAP MOLAP 是基于多维数据库存储方式建立的OLAP ;表现为“超立方”结构,采用类似于多维数组的结构。 3、ROLAP 与 MOLAP 的比较(见书P71) 数据存取速度MOLAP 在数据存储速度上性能好 数据存储的容量ROLAP 在存储容量上基本没有限制 多维计算的能力MOLAP 能够支持高性能的决策支持计算 维度变化的适应性ROLAP 对于维表的变更有很好的适应性 数据变化的适应性ROLAP 中灵活性较好,对于数据变化的适应性高 软硬件平台的适应性ROLAP 对软硬件平台的适应性很好 元数据管理MOLAP 和 ROLAP 都没有成形的标准 4、HOLAP HOLAP (Hybrid OLAP ) ,即混和型OLAP,介于 MOLAP 和 ROLAP 之间。在HOLAP 中,对最常用的维度 和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP 星型结构来存储。 HOLAP 得宜于 ROLAP 的可伸缩性 ,和 MOLAP 的快速计算。 (如 MS SQL SERVER) 在 HOLAP 的多维数据表中的数据维度少于MOLAP 中的维度表,数据存储容量也少于MOLAP 方式。 HOLAP 在数据存取速度上又低于MOLAP 。 4.6 OLAP 工具 目前许多公司已经推出了相应的OLAP 支持工具: ORACLE ;IBM ; Business Object;SAS;NCR。 第 5 章数据挖掘 5.1 数据挖掘概述 1、数据挖掘的由来:数据爆炸但知识贫乏;网络之后的下一个技术热点;支持数据挖掘技术的基础; 从商业数据到商业信息的进化。 注:如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用效率:要学会抛弃信息! 2、从商业数据到商业信息的进化(见书P84) 3、数据挖掘软件的发展 第一代数据挖掘软件:独立的,可以支持少数几种数据挖掘算法。 第二代数据挖掘软件:和数据库系统进行了集成,能够处理在规模的数据,但缺少对业务的预测能力。 第三代数据挖掘软件:增加了预测功能,还可在分布式系统中运行,可挖掘网络环境下的数据。 第四代数据挖掘软件:支持移动计算和各种嵌入式系统,扩展了应用领域。 4、数据挖掘的定义 定义:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、 综合的以及人们感兴趣的知识并用于决策支持的过程。 目的:不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 5、数据挖掘受多学科影响:数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器 学习、可视化和信息科学。 6、数据挖掘与传统数据分析方法的区别 数据挖掘的数据源与以前相比有了显著的改变:数据是海量的;数据有噪声;数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证。 数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来。 7、数据挖掘与数据仓库 8、数据挖掘与OLAP 完全不同的工具,基于的技术也大相径庭 OLAP 基于用户假设:a what happened查询和报表工具是告诉你数据库中都有什么 b what next OLAP 更进一步告诉你下一步会怎么样 c what if 如果我采取这样的措施又会怎么样 数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自 己寻找模型。 数据挖掘和OLAP 有一定的互补性。 9、数据挖掘模型及流程 数据挖掘模型: a 为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM 。 b CRISP-DM ( Cross Industry Standard Process for Data Mining )模型,最先在1996 年被提出,当前的白皮书版 本是 1.0。 c 目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。 10、为保证项目的可靠性和可管理性,CRISP-DM 规定一个数据挖掘项目应该产生11 个报告: 业务理解报告;原始数据收集报告;数据描述报告;数据探索报告;数据质量报告;数据集描 述报告;模型训练报告;模型评估报告;部署计划;监控和维护计划; 11总结报告。 通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。 11、数据挖掘的过程(见书P85 图) 数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类: A 业务分析人员: 要求精通业务, 能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的 业务需求。 B 数据分析人员: 精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各 步操作 ,并为每步操作选择合适的技术。 C 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。 注: 数据挖掘过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优化问题的解决方案。 5.2 数据挖掘的应用及其发展 1、数据挖掘的应用 数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。 具体涉及数据挖掘的商业问题:数据库营销 (Database Marketing) ;客户群体划分 (Customer Segmentation i=1,2,k-1) 。 L1 和 L2 是可连 接的 L1XL2 ,需满足: L11=L21 ,L12=L22, ., L1k-2=L2k-2, L1k-1 L2k-1 ,产生的项是: L11L12 .L1k-2L1k-1L2k-1(Lji是有序的) 例: L1=A,B,C , L2=A,B,D,L3=A,C,F 则: L1 X L2=A,B,C,D L1 X L3 ,L2 X L3 均为空 2.修剪 : 一个 k-项集,如果它的一个k-1 项子集不是频繁的,那它本身也不可能是频繁的。 Apriori 的性能瓶颈 A、Apriori 算法的核心:a 用频繁的 (k-1)_项集生成候选的频繁k_项集 b 用数据库扫描和模式匹配计算候选集的支持度 B、Apriori 的瓶颈:候选集生成 a 巨大的候选集:104 个频繁 1_项集要生成107 个候选2_项集 要找尺寸为100 的频繁模式, 如 a1, a2, ?- , a100, 你必须先产生2100 1030 个 候选集( 1_项集) b 多次扫描数据库:如最长的模式是n 的话,则需要n 次数据库扫描 注:为提高Apriori 算法的性能,有许多改进的算法。 3、其他关联规则算法 FP 树;约束性关联规则挖掘算法;增量式关联规则挖掘算法;多层关联规则挖掘。 5.6 序列模式分析 序列模式的发现是由RAgrawal 于 1995 年首先提出的。序列模式寻找的是事件之间在顺序上的相关性。 例如,“凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒”,就是一个序列关联规则。 序列模式挖掘在交易数据库分析、Web 访问日志分析以及通信网络分析等领域具有广泛的应用前景。 1、序列模式 序列模式定义:给定一个由不同序列组成的集合,其中每个序列由不同的元素按顺序有序排列,每个元素 由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即 该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。 5.7 时间序列 时间序列的数据库内某个字段的值是随着时间而不断变化的。 时间序列数据是包含时间属性的序列数据的一种特殊形式,序列数据库中既可以包含时间属性,也可以不 包含时间属性。 有关时序和序列数据挖掘的研究内容包括趋势分析,在时序分析中的相似度搜索以及与时间相关数据中序 列模式和周期模式的挖掘等。 1、时间序列几种基本运动 趋势 :趋势是时间序列在较长时间内呈现出的某种上升或下降的大体方向。确定趋势的典型方法包括加权 移动平均法和最小二乘法等。 周期运动 :周期运动是时间序列呈现出的围绕长期趋势的一种“ 波浪形 ” 周期性变动。 季节性变化。时间序列在一年内重复出现的周期运动称为季节性变化。这里的季节不限于一年中的四季,可 以广义地表示周期性的变化。 不规则运动:由各种偶然、突发或不可预见的因素引起的时间序列变动,称为不规则运动,例如自然灾害 等。 2、主要的时间序列分析模型 自回归( auto-regressive, AR) 、移动平均(moving average,MA) 以及自回归综合移动平均(auto-regressive integrated moving average, ARIMA) 等模型。 第 6 章移动商务智能 6.1 移动商务 1、移动商务:移动商务是通过移动网络进行的交易。 移动商务是通过手机、PDA 等移动终端与因特网有机结合,进行在线商品买卖和服务交易的 过程,可以提供给消费者个性化的服务。 从接受者的角度,认为移动商务是信息技术发展过程中的新阶段,它是现代信息技术对传统 商务活动的一场革命。 2、移动商务的特点:方便;安全;个性化服务;定位。 3、移动商务模式:移动信息服务;移动广告;移动销售;移动办公。 6.2 商务智能在移动商务中的应用 1、移动商务智能 移动商务智能是商务智能在移动商务领域的应用,一般通过移动终端采集相关数据,经企业商务智能系 统查询分析、在线分析处理或数据挖掘后把结果在移动终端显示,为顾客提供个性化的信息,辅助移动员工 做出决策的过程。 特点: 智能型;移动性;个性化;主动性。 2、移动商务智能的应用:商务智能与移动CRM; 商务智能与移动支付;商务智能与移动证券 第 7 章商务智能与知识管理 1、知识已成为企业重要的生产要素 21 世纪是知识经济的时代,今天,知识已成为企业重要的生产要素。企业需要把专门知识融入组织流程和日 常工作中。 2、知识可带来难以模仿的竞争力 1990 年代中期,知识管理开始盛行。 1999 年,比尔 ?¤盖茨在数字神经系统中指出:未来的企业是以知识与网络为基础的企业,未来的竞争 则是植基于知识与网络的竞争。一个组织获取知识以及将知识快速转化为行动的能力决定其竞争优势(原 通用电气公司首席执行官Jack Welch) 。 未来企业的主要竞争优势来自:知识资源( Knowledge Resource) ;人力资本( Intellectual Capital ) 。 知识影响企业存活 3、组织面临的问题 资料凌乱存放,企业的大量知识,分散保存在各个地方,导致工作效率低下,撰写方案、编制标书时,相 关资料找不到。 员工,尤其是新员工找不到所需要的文件、知识。 过多的垃圾信息和无价值文件。 公司各类历史资料没有存档,大量资料散失。 如何快速拟订策略。 寻找文件资料而浪费大量宝贵的时间。 员工期望学习,分享他人经验。 分布的资源整合。 知识因人员的离开而流失,例如某企业的营销负责人离开,客户跟着走掉一大批;软件企业的系统分析师 跳槽,引起新接项目未能开展下去。 4、知识管理 知识管理就是对一个企业集体的知识与技能的捕获,是为增强组织的绩效而创造、获取和使用知识的过程 (知识的创造、储存、分享、应用和更新)。 目标: 就是将恰当的知识在恰当的时候传递给恰当的人,以便使他们能够作出最好的决策。 5、知识管理的分类 注:知识管理的重要任务:引导这种新的个人隐性知识显性化,使它从个人所有转变成组织所有。 6、商务智能与知识管理 7、商务智能与知识管理的区别: 内涵不同;知识的管理过程和技术不同;关注的只是类型不同;面向的用户不同。 8、商务智能与知识管理的联系 支持决策 商务智能是知识获取的一种手段 特征隐性知识显性知识 性质 个人的、特定的隐含结构可编辑的、可表达的 形式 非结构化、难以记录、难以编码,难以 语言表达 结构化,可以用语言、文字进行 口头和书面表达 开发过程 在实践中摸索,在错误中尝试阐述隐性知识,理解和解释信息 存在地点 存在于人的大脑、心灵深处存在文件、数据库、网页、电子 邮件、书籍、图表等 转换过程 通过比喻和类推的形象化的方法将隐 性知识转化成显性知识 通过理解、消化吸收,将显性知 识转化成隐性知识 信息技术支持 难以用信息技术进行管理、共享和支持可用现有的信息技术支持 媒介 需要丰富的、 多媒介的渠道进行沟通和 传递 通过传统的电子渠道传递 第 8 章Web 挖掘 1、Web 挖掘概念 Web 挖掘是从大量Web 文档的集合C 中发现隐含的、有用的模式P 的过程: CP 。 Web 挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web 文档、 Web 服务器 的日志、用户cookies 等 。 2、Web 挖掘分类 Web 内容挖掘Web 结构挖掘Web 日志挖掘 处理数据类型IR 方法:无结构数据、 半结构数据 Web 结构数据用户访问 Web 数据 主要数据 自由化文本、HTML 标 记的超文本 Web 文档内及文档间的 超链 Serverlog, Proxy serverlog, Client log 表示方法 词集、段落、概念、IR 的三种经典模型 图关系表、图 处理方法 统计、机器学习、自然 语言理解 机器学习、专有算法 统计、机器学习、关联 规则 主要应用分类、聚类、模式发现 页面权重、分类聚类、 模式发现 Web 站点重建,商业决 策 3、Web 内容挖掘 基于网页内容或其描述中抽取知识的过程。 Web 内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种 类型的数据。 4、Web 文本挖掘 Web 文本挖掘针对包括Web 页面内容、页面结构和用户访问信息等在内的各种Web 数据,应用数据挖掘 方法发现有用的知识帮助人们从大量Web 文档集中发现隐藏的模式。 5、Web 多媒体挖掘 Web 多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的 模式,得出事件的趋向和关联,为用户提供决策支持。 注:包含有图像挖掘,视频挖掘,音频挖掘等。 多媒体挖掘的典型应用: 文本挖 掘 Web 挖掘 Web 内容挖掘 Web 结构挖掘 Web 使用挖掘 URL 挖掘多媒体挖 掘 一般访问模式 追踪 内外部结构挖 掘 个性化访问模 式追踪 We b 挖 掘 类 项 目 A、视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化, 并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。 B、在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。 6、Web 结构挖掘 有用的知识不仅存在于Web 页面间的链接结构和Web 页面内部结构,而且也存在于URL 中的目录路径结构 (页面之间的目录结构关系)。 注: Web 结构挖掘是指挖掘Web 链接结构模式,即通过分析页面链接的数量和对象,从而建立Web 的链接结 构模式。 7、Web 结构挖掘的应用:信息检索;社区识别;网站优化 8、Web 日志挖掘 Web 日志挖掘 是从用户访问日志 (包括搜索引擎日志等)中获取有价值的信息,即通过分析Web 日志数据, 发现访问者存取Web 页面的模式。 理解用户的行为 改进站点结构 发现潜在用户 为用户提供个性化的服务 增强网站的竞争力 9、Web 日志挖掘的应用 获取用户访问模式信息,理解用户的意图和行为 分析用户的存取模式,为用户提供个性化的服务 确定网站的潜在客户群,合理制订网络广告策略等 改进 Web 站点的结构,使网站点随时间、用户需求的变化而不断调整 对日志数据进行多种统计,包括频繁访问页

    注意事项

    本文(商务智能复习.pdf)为本站会员(白大夫)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开