摘要:
datalink,数据同步,数据交换 阅读全文
摘要:
当集群出现block missing异常时,一般的排查流程如下: 首先检查是否有datanode处于dead或Decommissioned状态,如果是,尝试恢复datanode,一般block missing会自行消失 如果所有datanode都处于健康状态,则查看是否有datanode的block 阅读全文
摘要:
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。关于该目录的生成位置策略可参考该文章:ht 阅读全文
摘要:
一、租约详解 Why租约 HDFS的读写模式为 "write-once-read-many",为了实现write-once,需要设计一种互斥机制,租约应运而生租约本质上是一个有时间约束的锁,即:在一定时间内对租约持有者(也就是客户端)赋予一定的权限 HDFS租约模型 <Lease>Lease和DFS 阅读全文
摘要:
一、概述 为了提升集群的HA,Kafka从0.8版本开始引入了副本(Replica)机制,增加副本机制后,每个副本可以有多个副本,针对每个分区,都会从副本集(Assigned Replica,AR)中,选取一个副本作为Leader副本,所有读写请求都由Leader副本处理,其余的副本被称为Follw 阅读全文
摘要:
一,什么是 StreamCQL StreamCQL(Stream Continuous Query Language)是一个类似SQL的声明式语言, 目的是在流计算平台(目前也就是jstrom)的基础之上提供简单易用的类SQL语言,从而能够降低开发人员开发流计算拓扑的门槛,使得相关拓扑任务的开发人员 阅读全文
摘要:
公司datalink平台负责从各种数据源读取数据并同步到其他的同步或者异构数据源,最近增加的HBase的reader利用到了Hbase的Replication特性。 正常情况下,我们配置HBase的Replication需要在主集群上Hbase的shell里进行如下一系列的配置。 登录到HMaste 阅读全文
摘要:
由于ZooKeeper的数据模型简单且全部在内存中,ZooKeeper的速度非常快。它提供了一系列保证(Guarantees): • 顺序一致性(Sequential Consistency) • 原子性(Atomicity) • 单一视图(Single System Image) • 可靠性(Re 阅读全文
摘要:
一、ZooKeeper是什么? ZooKeeper是一个高性能的分布式协调服务。 那么什么又是分布式协调服务呢? 背景:互联网的快速发展以及对系统性能要求的不断提高,使计算机系统由集中式逐渐衍变成分布式。分布式系统的出现,大幅度提高了系统的整体处理速度、降低了对单台服务器硬件的需求、减少了由于单点问 阅读全文
摘要:
elasticsearch6.0.0 源码本地环境搭建步骤如下: 1、资源准备 ElasicSearch版本:6.0.0: https://github.com/elastic/elasticsearch 安装jdk(jdk1.8以上,本人用的是1.8.0_131) 安装gradle(3.3以上,本 阅读全文