sodawoods

[置顶] ZooKeeper-基础介绍

摘要： What is ZooKeeper? ZooKeeper为分布式应用设计的高性能（使用在大的分布式系统）、高可用（防止单点失败）、严格地有序访问（客户端可以实现复杂的同步原语）的协同服务。 ZooKeeper提供的服务包括：maintaining configuration information, 阅读全文

posted @ 2018-04-09 21:47 sodawoods 阅读(671) 评论(0) 推荐(0)

[置顶] 常用排序算法的Java实现与分析

摘要：由于需要分析算法的最好时间复杂度和最坏时间复杂度，因此这篇文章中写的排序都是从小到大的升序排序。带排序的数组为arr，arr的长度为N。时间复杂度使用TC表示，额外空间复杂度使用SC表示。好多代码都用到了交换arr[i]和arr[j]的地方，这里先给出代码。（1）插入排序 1.1直接插入排序阅读全文

posted @ 2018-03-31 10:45 sodawoods 阅读(256) 评论(0) 推荐(0)

2018年5月2日

Kafka消费者-从Kafka读取数据

摘要：（1）Customer和Customer Group （1）两种常用的消息模型队列模型（queuing）和发布-订阅模型（publish-subscribe）。队列的处理方式是一组消费者从服务器读取消息，一条消息只由其中的一个消费者来处理。发布-订阅模型中，消息被广播给所有的消费者，接收到消息阅读全文

posted @ 2018-05-02 16:10 sodawoods 阅读(105531) 评论(4) 推荐(12)

2018年4月28日

Kafka生产者-向Kafka中写入数据

摘要：（1）生产者概览（1）不同的应用场景对消息有不同的需求，即是否允许消息丢失、重复、延迟以及吞吐量的要求。不同场景对Kafka生产者的API使用和配置会有直接的影响。例子1：信用卡事务处理系统，不允许消息的重复和丢失，延迟最大500ms，对吞吐量要求较高。例子2：保存网站的点击信息，允许少量的消阅读全文

posted @ 2018-04-28 20:36 sodawoods 阅读(68958) 评论(2) 推荐(5)

2018年4月18日

YARN中FIFO、Capacity以及Fari调度器的详细介绍

摘要：（1）FIFO Scheduler 将所有的Applications放到队列中，先按照作业的优先级高低、再按照到达时间的先后，为每个app分配资源。如果第一个app需要的资源被满足了，如果还剩下了资源并且满足第二个app需要的资源，那么就为第二个app分配资源，and so on。优点：简单，不需阅读全文

posted @ 2018-04-18 19:52 sodawoods 阅读(7296) 评论(0) 推荐(1)

HDFS- High Availability

摘要： NameNode High Availability Background Hadoop2.0.0之前，NameNode存在单点失败（single point of failure） (SPOF) 问题。出现单点失败的原因：（1）NameNode所在的机器挂了；（2）NameNode所在的机器阅读全文

posted @ 2018-04-18 13:33 sodawoods 阅读(1150) 评论(0) 推荐(0)

2018年4月4日

YARN与MapReduce1的对比

摘要： Apache YARN (Yet Another Resource Negotiator)从Hadoop2开始。YARN为集群提供资源管理和Applications的调度。YARN的API用于操作集群的资源。 MapReduce1： JobTracker的职责：（1）Job调度（将Tasks与Ta 阅读全文

posted @ 2018-04-04 21:07 sodawoods 阅读(1066) 评论(0) 推荐(0)

Yarn源码分析1（Hadoop2.7.2）

摘要：在Hadoop中，调度框架YARN（Yet Another Resource Negotiater）是基于事件的，调度的是MapReduce的Application。Application有一系列的状态变化（NEW/NEW_SAVING/SUBMITTED/ACCEPTED/RUNNING/FINI 阅读全文

posted @ 2018-04-04 16:25 sodawoods 阅读(1898) 评论(0) 推荐(0)

（2）YARN的工作流程

摘要： Writing YARN Applications 文档中的启动过程： Application submission client向Yarn ResourceManager提交一个Application，RM、NM、AM处理流程。首先，创建一个YarnClient对象并start它，然后Clien 阅读全文

posted @ 2018-04-04 09:42 sodawoods 阅读(742) 评论(0) 推荐(0)

YARN的重启动问题：RM Restart/RM HA/Timeline Server/NM Restart

摘要： ResourceManger Restart ResourceManager负责资源管理和应用的调度，是YARN的核心组件，有可能存在单点失败的问题。ResourceManager Restart是使RM在重启动时能够使Yarn集群正常工作的feature，并且使RM的出现的失败不被用户知道。 Re 阅读全文

posted @ 2018-04-04 09:36 sodawoods 阅读(1305) 评论(0) 推荐(0)

2018年4月3日

YARN结构分析与工作流程

摘要： YARN Architecture Link：　http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/YARN.html YARN结构图。图中有两个Application，因此有两个ApplicationMaster。4个阅读全文

posted @ 2018-04-03 22:30 sodawoods 阅读(473) 评论(0) 推荐(0)

公告