MarkLogic数据架构师Kurt Cagle分享了他的洞见.doc
《MarkLogic数据架构师Kurt Cagle分享了他的洞见.doc》由会员分享,可在线阅读,更多相关《MarkLogic数据架构师Kurt Cagle分享了他的洞见.doc(3页珍藏版)》请在三一文库上搜索。
1、MarkLogic数据架构师Kurt Cagle分享了他的洞见编者按:MarkLogic数据架构师Kurt Cagle分享了他的洞见,缺乏良好的数据收集、整理、储存过程,数据分析的结果只能是垃圾。大约四年前,兴起了数据科学家这一不可或缺的行当。搞技术的纷纷扔掉读大学时老旧的统计学课本,花了很多时间重新学习Python Pandas和R,还有最新的机器学习理论,添置了新款的白大褂。我知道我就是这么做的。如果你曾经是个Hadoop开发者,那数据科学也是一个好去处。毕竟所有人都以为不会map/reduce的数据科学家不是一个好数据科学家。这甚至可能延缓即将到来的Hadoop企业的崩溃到几年之后,伴随
2、着印度程序员作坊大量炮制数以千计的新Hadoop程序员和数据科学“专家”,以赶上下一个大趋势。公司以最高的价格为此买单。Nasdaq上的每家公司都给数据科学家开出高薪,以免因为后知后觉而受到竞争对手的冲击。同时销售经理和C开头的那些执行官也可以指望早上启动iPad后可以实时看到公司运转得有多好。控制面板曾经变成一大社会地位象征资深的执行官享有超级奢侈的执行面板,基于3D可视化技术和实时动画散点图,而相对初级的同事得到的是2D平面版本,只有最少的总结。然而,到目前为止,并没有什么真正的改变。数据科学家(大多数是高学历人士,在制药分析和高级材料工程这样的领域具有多年经验)将逐渐意识到,他们需要处理
3、的数据的质量好吧,不带任何贬低地说,糟透了。人们被引导了,相信因为他们有遍布各处的成千个数据库,因此他们的组织有海量的数据,并且大部分如果不是全部的话数据是有价值的。那些数据科学家将发现,情况与此相反,大部分数据都是过时的,格式不对,数据模型适用于创建数据的程序员当时需要的应用。大量数据是在电子表格中,在缺乏任何流程、控制和远见的情况下,被反复修改。这些记录离真相很远,有太多数据是缺乏文档的一次性数据,列名会是MFGRTL3QREVPRJ之类的,键也绝对是不一致的。换句话说,他们拥有的数据基本上对任何分析而言都毫无用处,离那些擅长制药试验日常测试结果分析的人心目中的分析更是差了十万八千里。现在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MarkLogic数据架构师Kurt Cagle分享了他的洞见 MarkLogic 数据 架构 Kurt Cagle 分享 洞见
链接地址:https://www.31doc.com/p-3255898.html