摘要:
前言 打算跟着 MIT 的20年春季课程节奏一起通过4个 lab 来更加深刻和系统的来认识和实现分布式系统。我会坚持把每个学习节点和心得和笔记给记录下来。 每个 lec 之前一般要先看甩上来的论文,我之前虽然知晓大数据三驾马车论文大名,但是也从来没有仔细看过。这次花了2天认认真真看了 MapRedu 阅读全文
摘要:
简介 是因为某天发现 kill 不掉一个 process,当时那个 process 的状态已经被至为了 killed 却一直在 run 无法结束,于是想强制结束搜到了下面的文章。 结论是无法强制结束,无法关闭可能是因为有事物在回滚 or 磁盘满了无法写入等等等。 Have you ever trie 阅读全文
摘要:
今天是继续对之前 kafka 集群遗留问题的查漏补缺。 扩容后对副本进行再平衡: 今天检查 kafka manager 发现了一个 __consumer_offsets 主题(消费者分区位移保存主题)的 leader 副本只被部署在了已有三节点中的两个节点上。并没有将三个 broker 上都平均分布 阅读全文
摘要:
我在要完成这个需求的时候大概有两个思路。 第一种方法: 我们直接使用 Kafka 提供的 bin 工具,去把我们关心的 lag 值 show 出来然后通过代码处理一下报出来。例如: 我们可以起个远程的 cmd 脚本,定期去执行 kafka-consumer-groups.sh 工具然后通过 awk 阅读全文
摘要:
xtrabackup相信目前使用已经非常广泛了,备份innodb表的首选工具,但是其中还是有点小坑,虽然发生的概率不大,但是我还是踩坑了。关于xtrabackup的详细参考请查阅官方文档http://www.percona.com/doc/percona-xtrabackup/2.2/intro.h 阅读全文
摘要:
在 jupyter 上启用 local 交互环境和 spark 进行交互使用 imapla 来帮助 spark 取数据却失败了 可以清楚的看到报出的错误 No suitable driver ,我们需要添加上 impala 的 jdbc driver 才能正常运行。 首先我们下载一个 impala 阅读全文
摘要:
Spark 的官方从 Cluster Mode Overview 中,官方向我们介绍了 cluster 模式的部署方式。 Spark 作为独立进程在集群上运行,他们通过 SparkContext 进行协调。 SparkContext 可以通过多种方式来连接 Cluster Managers 资源调度 阅读全文
摘要:
前言Impala采用了比较奇葩的多个impalad同时提供服务的方式,并且它会由catalogd缓存全部元数据,再通过statestored完成每一次的元数据的更新到impalad节点上,Impala集群会缓存全部的元数据,这种缓存机制就导致通过其他手段更新元数据或者数据对于Impala是无感知的, 阅读全文
摘要:
要好好使用 Impala 就得好好梳理一下他得结构以及他存在得一些问题或者需要注意得地方。本系列博客主要想记录一下对 Impala 架构梳理以及使用上的 workaround。 Impala 简介 首先我们来了解一下在 Impala Guide 中 Impala 对自己的定位 Impala is a 阅读全文
摘要:
目前我们使用的一个 b 端软件的报错日志分散在集群各处,现在想把它收集到一个地方然后统一丢进 Kafka 提供给下游业务进行消费。 我想到了 flume,之前让同事搭建的这次自己想多了解一些细节于是就开搞了。 首先还是下载 flume 的客户端,这里我使用最新版本 1.9.0 设置需要的 java 阅读全文