欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    常见几种大数据技术比较分析.doc

    • 资源ID:3434418       资源大小:18KB        全文页数:4页
    • 资源格式: DOC        下载积分:2
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要2
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    常见几种大数据技术比较分析.doc

    常见几种大数据技术比较分析1. Hadoop 的神话正在破灭IBM leads BigInsights for Hadoop out behind barn. Shots heardIBM has announced the reTIrement of the basic plan for its data analyTIcs software platform, BigInsights for Hadoop.The basic plan of the service will be reTIred in a month, on December 7 of this year.IBM把BigInsights for Hadoop牵到牧棚后面,只听一声枪响这个是前不久英国知名媒体The Register对IBM 产品BigInsights产品下线的报道。BigInsights 是IBM在Apache Hadoop上增加了不少IBM分析技术能力后形成的一个大数据分析产品。 在面临近乎2年的前途未卜的窘境之后,IBM终于决定将其关闭。无独有偶,前不久Gartner的一篇文章也指出 70%以上的Hadoop部署未能天线的业务价值Hadoop大数据是怎么了呢?我们从DBMS数据库管理系统的角度,来剖析下常见产品的能力:RDBMS,MPP,Hadoop,NoSQL以及NewSQL。 这几类产品对数据处理的能力各有什么样的特点?2. 常见几种数据技术比较我们首先试图对大数据这个被第一滥用的名词来统一一下概念。按照Gartner的说法,大数据具备以下几个特征(3个V):Volume: 数据量够大Velocity: 数据访问并发够高,够实时Variety: 数据的类型多从另一方面讲,大数据也是数据,对常规数据的管理离不开我们熟悉的ACID事务性来保证对数据操作时候的原子性,一致性,隔离性和持久性。有了这个几个衡量标准以后,我们可以来对上述几个产品列表比较一下。在这里根据4个维度给几种流行的数据库管理技术打分,以5分制为例,5分即最高分,表明具备最佳能力。1分为最低分,表明相对而言能力最弱。其实最近已经有类似于TIDB或者CockroachDB的NewSQL产品出现,但是数据库软件是最为复杂的软件之一, 因为它要满足各种应用的使用场景。如果历史是面镜子,那么最少还要3年左右这些NewSQL的表现才能被足够的评测。所以这里我们暂时略过。下面我们来解读一下各种数据库的得分原因。3. 关系型数据库RDBMS全称关系型数据库(Relational Database Management System)是历史最悠久的数据库类型。关系型数据库以Oracle,SQLServer,MySQL,PostgreSQL等为代表,是我们最熟悉的数据库。特点是:1、单机架构限制,处理数据量有限, 通常在小几个TB以下(得分2)2、受事务之累,并发不高,但是通常是毫秒级响应(得分3)3、严谨的关系模型,无法处理非结构化数据(得分1)4、事务性强,无与伦比(得分5)4. MPP 数仓MPP,全称Massive Parallel Processing数据库,通常被用来实现企业的数据仓库和ODS等需求。MPP的产生主要是用来解决关系型数据库的数据量管理能力的问题。MPP数据库通过把数据进行分区分片,并分布到各个横向扩展节点,并由调度节点进行统一管理计算。每一次你执行查询的时候,该查询会被分解为多个子查询并交付给每一个计算节点去做并行的查询。这个架构可以通过增加节点的方式来扩展容量。数据在MPP系统里是分片的(Sharded), 每个节点会存取自己本地的一部分数据。这个较之共享存储(如Oracle RAC)方案来说又有不少性能上的优势。因此大部分MPP系统,如Teradata,Greenplum,Vertica等都采用了这种shared nothing及DAS 直挂存储的架构。一般来说MPP系统都具备完备且成熟的SQL优化器,支持主流的SQL标准,包括地理分析,全文检索以及数据挖掘功能。除了GP之外,几乎所有的MPP系统都是闭源系统,并且一般都是和昂贵、复杂这些词联系在一起的。MPP理论上是可以无限横向扩展的,但是实际上由于控制节点或协调节点的原因,往往很难超出一百左右的节点数量。所以VOLUME得分为4分而不是满分。MPP系统上主要运行的是分析型的应用场景,并发数往往较低,是为多节点并行分析能力而不是高并发能力优化的,因此VELOCITY上得分为2分。MPP大致也是基于关系模型的,对非结构化数据的处理上和RDBMS基本一样无能为力,因此得分为1。5. Hadoop下一个出场的是Hadoop,按时间顺序来排的话。 Apache Hadoop是2007年发布的开源软件。Hadoop是基于Google 公开的MapReduce和HDFS技术研发而成的。它的最伟大之处就是让企业能够以非常廉价的x86服务器把大量的数据管理起来。在那之前,机构需要购买机器昂贵的企业级存储设备来管理海量数据。就从这一点上,Hadoop技术已经为企业带来了很大的价值。这个确实是Hadoop的强处所在。然而,Hadoop的弱点也是一箩筐:安全,数据管理,查询速度,复杂等等。10年的发展,很多这些地方都已经有了比较不错的解决,唯有这个数据查询速度依然是很多Hadoop部署的痛中之痛。这个性能低下的原因,是和HDFS,Hadoop用来存储文件的机制,HDFS,分不开的。HDFS不支持索引,举个例子来说,你想要在词典里找一个不认识的生僻词的发音和释义,为了找到这个生僻词,你可能需要翻遍整本词典,因为你无法使用拼音来检索。在HDFS里面找内容都是通过扫描(SCAN)的方式,也即是从头读到尾来找到你想要的数据。可以想象这种操作的性能如何。Hadoop的打分情况:1、基于x86廉价服务器及低端存储海量扩展,轻松支持 TB/PB级数据量,VOLUME得分5分2、HDFS文件存储系统对所有格式的数据照单全收,在VARIETY上面也尽得高分5分。3、性能方面Hadoop毫不客气的占了倒数第一,但是并发接入能力还是okay,所以给2分4、ACID事务性更是八杆子打不着,得1分。

    注意事项

    本文(常见几种大数据技术比较分析.doc)为本站会员(白大夫)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开