摘要: What is ZooKeeper? ZooKeeper为分布式应用设计的高性能(使用在大的分布式系统)、高可用(防止单点失败)、严格地有序访问(客户端可以实现复杂的同步原语)的协同服务。 ZooKeeper提供的服务包括:maintaining configuration information, 阅读全文
posted @ 2018-04-09 21:47 sodawoods 阅读(650) 评论(0) 推荐(0) 编辑
摘要: 由于需要分析算法的最好时间复杂度和最坏时间复杂度,因此这篇文章中写的排序都是从小到大的升序排序。 带排序的数组为arr,arr的长度为N。时间复杂度使用TC表示,额外空间复杂度使用SC表示。 好多代码都用到了交换arr[i]和arr[j]的地方,这里先给出代码。 (1)插入排序 1.1直接插入排序 阅读全文
posted @ 2018-03-31 10:45 sodawoods 阅读(234) 评论(0) 推荐(0) 编辑
摘要: (1)Customer和Customer Group (1)两种常用的消息模型 队列模型(queuing)和发布-订阅模型(publish-subscribe)。 队列的处理方式是一组消费者从服务器读取消息,一条消息只由其中的一个消费者来处理。 发布-订阅模型中,消息被广播给所有的消费者,接收到消息 阅读全文
posted @ 2018-05-02 16:10 sodawoods 阅读(103898) 评论(4) 推荐(12) 编辑
摘要: (1)生产者概览 (1)不同的应用场景对消息有不同的需求,即是否允许消息丢失、重复、延迟以及吞吐量的要求。不同场景对Kafka生产者的API使用和配置会有直接的影响。 例子1:信用卡事务处理系统,不允许消息的重复和丢失,延迟最大500ms,对吞吐量要求较高。 例子2:保存网站的点击信息,允许少量的消 阅读全文
posted @ 2018-04-28 20:36 sodawoods 阅读(68559) 评论(2) 推荐(5) 编辑
摘要: (1)FIFO Scheduler 将所有的Applications放到队列中,先按照作业的优先级高低、再按照到达时间的先后,为每个app分配资源。如果第一个app需要的资源被满足了,如果还剩下了资源并且满足第二个app需要的资源,那么就为第二个app分配资源,and so on。 优点:简单,不需 阅读全文
posted @ 2018-04-18 19:52 sodawoods 阅读(7147) 评论(0) 推荐(1) 编辑
摘要: NameNode High Availability Background Hadoop2.0.0之前,NameNode存在单点失败(single point of failure) (SPOF) 问题。 出现单点失败的原因: (1)NameNode所在的机器挂了; (2)NameNode所在的机器 阅读全文
posted @ 2018-04-18 13:33 sodawoods 阅读(1072) 评论(0) 推荐(0) 编辑
摘要: Apache YARN (Yet Another Resource Negotiator)从Hadoop2开始。YARN为集群提供资源管理和Applications的调度。YARN的API用于操作集群的资源。 MapReduce1: JobTracker的职责: (1)Job调度(将Tasks与Ta 阅读全文
posted @ 2018-04-04 21:07 sodawoods 阅读(1036) 评论(0) 推荐(0) 编辑
摘要: 在Hadoop中,调度框架YARN(Yet Another Resource Negotiater)是基于事件的,调度的是MapReduce的Application。Application有一系列的状态变化(NEW/NEW_SAVING/SUBMITTED/ACCEPTED/RUNNING/FINI 阅读全文
posted @ 2018-04-04 16:25 sodawoods 阅读(1872) 评论(0) 推荐(0) 编辑
摘要: Writing YARN Applications 文档中的启动过程: Application submission client向Yarn ResourceManager提交一个Application,RM、NM、AM处理流程。 首先,创建一个YarnClient对象并start它,然后Clien 阅读全文
posted @ 2018-04-04 09:42 sodawoods 阅读(714) 评论(0) 推荐(0) 编辑
摘要: ResourceManger Restart ResourceManager负责资源管理和应用的调度,是YARN的核心组件,有可能存在单点失败的问题。ResourceManager Restart是使RM在重启动时能够使Yarn集群正常工作的feature,并且使RM的出现的失败不被用户知道。 Re 阅读全文
posted @ 2018-04-04 09:36 sodawoods 阅读(1237) 评论(0) 推荐(0) 编辑
摘要: YARN Architecture Link: http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/YARN.html YARN结构图。图中有两个Application,因此有两个ApplicationMaster。4个 阅读全文
posted @ 2018-04-03 22:30 sodawoods 阅读(446) 评论(0) 推荐(0) 编辑