模板淘宝分布式数据处理实践.ppt

资源ID：2596245 资源大小：635.01KB 全文页数：17页
资源格式： PPT 下载积分：4元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

模板淘宝分布式数据处理实践.ppt

1,淘宝分布式数据处理实践,主要内容,淘宝的数据云梯介绍对Hadoop的主要功能扩展与改造 Hive实践对Hive的改造分布式数据仓库构思,淘宝的数据,Oracle 备库,MySQL 备库,日志系统,云梯1,TimeTunnel,JDBCDUMP,数据平台,搜索,支付宝,B2B,云梯2,Gateway Servers,数据魔方,量子统计,口碑,DataExchange,爬虫数据,Map Reduce Java Jobs,Streaming Jobs,Hive Jobs,广告,BI,淘数据,推荐系统,搜索排行,淘宝数据的形状,核心数据来源于Oracle备库大部分数据结构化，数据具有模式稠密,云梯1规模,总容量9.3PB, 利用率77.09% 总共1100台机器 Master：8CPU(HT)，48G内存，SAS Raid Slave节点异构 8CPU/8CPU(HT) 16G/24G内存 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD 12/20 slots 约18000道作业/天, 扫描数据：约500TB/天用户数474人, 用户组38个,云梯1规模-slave,Slave机器异构 6T机器磁盘利用率较高 Rebalance 单机速度控制：10M/s 每天9:00 23:30运行 Slave故障率每周10 20次硬盘故障每周1 2次主板或其他故障,云梯1 Hadoop版本,基于0.19.1 大量Patch 主要来自官方社区0.19.2, 0.20, 0.21等自己开发的 Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容,云梯主要功能扩展,安全性密码认证（hadoop.job.ugi）扩展ACL，用户访问其他组的数据（开发中） Scheduler 基于FairScheduler的改造 slots动态调整（网页形式，每小时更新）各个组使用自己的资源 Slave单磁盘容错 DataNode坏掉一块磁盘不需要停止，减少数据分发 TaskTracker坏掉一块磁盘后不对作业造成影响,Master节点容灾方案,3个Master + 1个Standby节点配置文件一致，上传至SVN Virtual IP （NameNode和JobTracker） JobTracker无元数据，JobHistory每天备份七天前的历史文件 NameNode和SecondaryNameNode Check point 1天做一次（晚上8点之后），降低NameNode启动时间 Fsimage和edits同时通过NFS写到SNN上，元数据保存两份 Standby在NN或JT宕机时启用,将来的工作,开发一种新型的调度器调度效率低下导致集群利用率不足基于红黑树的调度器 NameNode HA Namenode 内存瓶颈 Heap Size 40G，CMS gc之后 23G 分布式NameNode, Dynamic Partition Tree Hadoop 升级 OSD及CRUSH算法,Hive使用,2009年3月调研,4月投入生产 CLI与Thrift Server并用 Web/SSH 界面模板化 & 预加载 86个统一发布UDF Lineage Analysis 极限存储增量存储表按数据的生命周期分目录,实践经验,数据倾斜内存优化 I/O优化 Multi-Insert 数据压缩,淘宝对Hive的贡献与改造,UDFs 建立/删除临时函数多线程 Thrift server GBK支持完全JDBC Multi Distinct Aggregation支持认证与权限 bug fix,将来的工作,Hive IDE Multi Distinct Aggregation优化 Multi Group By优化极限存储的索引与文件表统计信息的支持采用TFile做列存储尝试,分布式数据仓库构思,Hadoop 集群,JobTracker,TaskTracker,Postgres 实例,MapTask ReduceTask,TaskTracker,Postgres 实例,MapTask ReduceTask,TaskTracker,Postgres 实例,MapTask ReduceTask,提交MapReduce作业,Anthill 服务器,元数据库,分析器,优化器,规划器,执行器,Anthill客户端,网络,链接,淘宝数据魔方 http:/data.taobao.com 淘宝数据平台团队博客 http:/www.tbdata.org/ 个人 http:/coderplay.javaeye.com http:/twitter.com/minzhou,

注意事项

本文（模板淘宝分布式数据处理实践.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。