摘要:
今天遇到一个情况使用了 Kafka-python 1.3.3 来操作读取 broker 1.0.1 版本的 kafka。出现了 rebalance 之后分配到了客户端,但是 cpu 利用率很高且无法消费的情况。 先是排查了连接方面和代码方面的问题,后来发现都没有问题就把注意力转移到了 kafka-c 阅读全文
摘要:
MySQL is one of the most popular database management systems. In this tutorial we will cover the steps needed to create new MySQL user and grant permi 阅读全文
摘要:
Yarn 工作架构 最近随着集群大家开始频繁使用集群,资源调度的问题越发的凸显出来。需要更加深入的了解 yarn 资源调度的原理,以及到底在背后做了一些什么事情。 来看一下下面这张图。 yarn 里面有两个大的角色,这个也很容易在 yarn 里面的配置看到。 一个是 Resource Manager 阅读全文
摘要:
之后可能会整理成文章。。还有一些坑没趟完。 Reference: https://cloud.tencent.com/developer/article/1078473 Sqoop抽取Hive Parquet表数据到MySQL异常分析 https://stackoverflow.com/questi 阅读全文
摘要:
Parquet 是面向分析型业务的列式存储格式,由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目,最新的版本是 1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩 阅读全文
摘要:
上个月参加了一个云存储的技术讨论会。这一个月里,陆续收到几位同学讨论大数据保存和处理的邮件。今天是周末,索性把这个月的交流内容整理写下来,供各位参考。 目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是: 谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。 阅读全文
摘要:
网上提交 scala spark 任务的攻略非常多,官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少,能查阅到的资料非常少导致是有非常多的坑需要踩。 官方文档对于任务提交有这么一段介绍,但是初次使用者依然会非常疑惑: Bundling 阅读全文
摘要:
其实怎么部署 airflow 又哪些特性,然后功能又是如何全面都可以在 Reference 的文章里面找到,都不是重点这里就不赘述了。 这里重点谈一下我在部署完成仔细阅读文档之后觉得可以总结的一些东西,或者踩到的一些坑。 首选明确 airflow 中最重要的几个概念: DAG DAG 意为有向无循环 阅读全文
摘要:
Sqoop 是 Cloudera 公司创造的一个数据同步工具,现在已经完全开源了。 目前已经是 hadoop 生态环境中数据迁移的首选,另外还有 ali 开发的 DataX 属于同类型工具,由于社区的广泛使用和文档的健全,调研之后决定使用 Sqoop 来做我们之后数据同步的工具。 我们首先来看下 S 阅读全文
摘要:
集群搭建完成之后其实还有很多配置工作要做,这里我列举一些我去做的一些。 首先是去把 zk 的角色重新分配一下,不知道是不是我在配置的时候遗漏了什么在启动之后就有报警说目前只能检查到一个节点。去将 zk 角色调整到三个节点。 上一张目前的角色图 下面我将分别列出各应用的各个简写代表的意义: Hbase 阅读全文