hadoop数据[Hadoop] 实际应用场景之 - 阿里

上班之余抽点时间出来写写博文，希望对新接触的朋友有帮助。明天在这里和大家一起学习一下hadoop数据

Hadoop在淘宝和支付宝的应用从09年开始，用于对海量数据的离线处置，例如对日志的分析，也涉及内容部分，结构化数据等。应用Hadoop重要基于可扩展性的斟酌，规模从当初的3-4百节点增长到明天单一集群3000节点以上，2-3个集群，支付宝的集群规模也达700台，应用Hbase，个人消费记载，key-value型。

阿里对Hadoop的源码做了如下修改：

改良Namenode单点问题
增加安全性
改善Hbase的稳定性
改良反哺Hadoop社区

阿里数据处置的团体架构图如下：

架构分为五层，分别是数据源、盘算层、存储层、查询层和产品层。

数据源：这里有淘宝主站的用户、店铺、商品和交易等数据库，还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
盘算层：在数据源层实时产生的数据，通过淘宝主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到Hadoop集群“云梯”，是盘算层的重要组成部分。在“云梯”上，天天有大约40000个作业对1.5PB的原始数据按照产品需求停止不同的MapReduce盘算。一些对实效性要求很高的数据采取“云梯”来盘算效率比较低，为此做了流式数据的实时盘算平台，称之为“银河”。“银河”也是一个分布式系统，它接收来自TimeTunnel的实时消息，在内存中做实时盘算，并把盘算结果在尽可能短的时间内刷新到NoSQL存储设备中，供前端产品调用。
存储层：针对前端产品设计了专门的存储层。在这一层，有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom。

MyFOX的结构图如下：

每日一道理
成功的花朵开放在啊勤劳的枝头，失败的苦果孕育在懒惰的温床之中。

Prom（即普罗米修斯）结构图如下：

查询层（glider）

产品层：数据魔方、量子恒道等

文章结束给大家分享下程序员的一些笑话语录：问答
Q：你是怎么区分一个内向的程序员和一个外向的程序员的？ A：外向的程序员会看着你的鞋和你说话时。
Q：为什么程序员不能区分万圣节和圣诞节？ A：这是因为 Oct 31 == Dec 25！（八进制的 31==十进制的 25）

--------------------------------- 原创文章 By
数据和集群
---------------------------------

posted @ 2013-06-22 22:12 xinyuyuanm 阅读(680) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

xinyuyuanm

hadoop数据[Hadoop] 实际应用场景之 - 阿里

公告