BigData - 随笔分类 - piperck

如何在 BigQuery 中实现对 array<struct<a string, b string>> 的 group by 操作

摘要：最近做的需求又开始贴近 SQL 了，感觉有点手生。毕竟最近半年切换上下文有点频繁，做的东西有点杂。之前比较少对复合字段进行操作，涉及到数组操作和结构体操作， SQL 竟也提供了一大套完整的操作函数。越发觉得现在 SQL 真是强大啊。。。谈论 group by array<struct<a str 阅读全文

posted @ 2022-11-03 18:17 piperck 阅读(402) 评论(2) 推荐(0)

使用 Zendesk maxwell 对接 kinesis (include producer and consumer)

摘要：之前有写过对接 kafka 的教程，kinesis 作为 aws 的 MQ 中间件，在国外公司以及使用 aws 体系的公司有非常重要的地位。因为对比 kafka 使用 aws 提供的 kinesis 不仅可以大幅节约成本，而且可以非常方便的通过调整 shards 去平衡处理能力和费用。(shard 阅读全文

posted @ 2021-01-13 16:55 piperck 阅读(696) 评论(0) 推荐(0)

6.824 Spring 2020 feb14 Lab1MapReduce 笔记

摘要：简介这个实验要求我们使用 golang 自行实现一个支持并发和简单容错的分布式 MR ,支持一个 master 多个 wokrer 的工作模式。我做完实验之后去看了一下之前网上发布的一些 lab1 的作业。感觉今年是不是改版了？后来我去看了一下 2018 年的 lab1 作业，果然改版了。。。阅读全文

posted @ 2020-02-21 17:23 piperck 阅读(1159) 评论(6) 推荐(1)

Kafka 进行机器扩容后的副本再平衡和为已有分区增加 replica 实践

摘要：今天是继续对之前 kafka 集群遗留问题的查漏补缺。扩容后对副本进行再平衡：今天检查 kafka manager 发现了一个 __consumer_offsets 主题（消费者分区位移保存主题）的 leader 副本只被部署在了已有三节点中的两个节点上。并没有将三个 broker 上都平均分布阅读全文

posted @ 2020-01-09 17:49 piperck 阅读(3904) 评论(0) 推荐(0)

在交互环境下使用 Pyspark 提交任务给 Spark 解决 : java.sql.SQLException: No suitable driver

摘要：在 jupyter 上启用 local 交互环境和 spark 进行交互使用 imapla 来帮助 spark 取数据却失败了可以清楚的看到报出的错误 No suitable driver ，我们需要添加上 impala 的 jdbc driver 才能正常运行。首先我们下载一个 impala 阅读全文

posted @ 2019-12-17 18:59 piperck 阅读(1727) 评论(0) 推荐(0)

Spark 部署提交模式意义解析

摘要：Spark 的官方从 Cluster Mode Overview 中，官方向我们介绍了 cluster 模式的部署方式。 Spark 作为独立进程在集群上运行，他们通过 SparkContext 进行协调。 SparkContext 可以通过多种方式来连接 Cluster Managers 资源调度阅读全文

posted @ 2019-12-11 21:03 piperck 阅读(572) 评论(0) 推荐(0)

【转】Impala 中的 Invalidate Metadata 和 Refresh

摘要：前言Impala采用了比较奇葩的多个impalad同时提供服务的方式，并且它会由catalogd缓存全部元数据，再通过statestored完成每一次的元数据的更新到impalad节点上，Impala集群会缓存全部的元数据，这种缓存机制就导致通过其他手段更新元数据或者数据对于Impala是无感知的，阅读全文

posted @ 2019-11-27 14:57 piperck 阅读(1008) 评论(0) 推荐(0)

Impala 架构探索-Impala 系统组成与使用调优

摘要：要好好使用 Impala 就得好好梳理一下他得结构以及他存在得一些问题或者需要注意得地方。本系列博客主要想记录一下对 Impala 架构梳理以及使用上的 workaround。 Impala 简介首先我们来了解一下在 Impala Guide 中 Impala 对自己的定位 Impala is a 阅读全文

posted @ 2019-11-27 02:54 piperck 阅读(1745) 评论(0) 推荐(0)

Flume 实战，将多台机器日志直接收集到 Kafka

摘要：目前我们使用的一个 b 端软件的报错日志分散在集群各处，现在想把它收集到一个地方然后统一丢进 Kafka 提供给下游业务进行消费。我想到了 flume，之前让同事搭建的这次自己想多了解一些细节于是就开搞了。首先还是下载 flume 的客户端，这里我使用最新版本 1.9.0 设置需要的 java 阅读全文

posted @ 2019-11-15 17:48 piperck 阅读(1240) 评论(0) 推荐(0)

CDH 版本 6.0.1 升级到 6.2.0 当前最新版本（CentOS 7.x）

摘要：前文「CDH CM版本 6.0.1 升级到 CM 6.2.0 当前最新版本（CentOS 7.x）」承接上文，当我们完成 CM 6.2.0 的升级之后，我们已经相当于完成了80% minor 的升级。让人意外的是 CDH 自己版本的升级远比 CM 的升级来得容易。先对 CM 数据进行备份，步骤阅读全文

posted @ 2019-07-31 18:24 piperck 阅读(2045) 评论(0) 推荐(0)

CDH CM版本 6.0.1 升级到 CM 6.2.0 当前最新版本（CentOS 7.x）

摘要：CDH 的 6.0.1 是一个尴尬的版本，那时候 cloudera 还没有将 spark 更新到 2.4 还使用的是 spark 2.2版本。但后来我们发现 2.3 | 2.4 更新了非常多的 feature 和修复了一些 bug 以及更新了很多包括 structed streaming 特性。并阅读全文

posted @ 2019-07-29 18:12 piperck 阅读(2182) 评论(0) 推荐(0)

【转】Resource Localization in YARN

摘要：一个Applciation运行在YARN上的流程为，从YARN Client向ResourceManager提交任务，将Applciation所需资源提交到HDFS中，然后ResourceManager启动APPMaster，APPMaster通知各个NodeManager启动container执行阅读全文

posted @ 2019-07-24 12:09 piperck 阅读(1195) 评论(0) 推荐(0)

什么是 Kafka Rebalance 以及关于 Rebalance Kafka-Python 社区客户端应该关注的地方

摘要：什么是 Rebalance? Rebalance 为什么会发生？ Rebalance 的过程记得之前在一段时间密集面试的时候总会问候选人这些问题。什么是 Rebalance 重平衡 Rebalance 就是让整个 Consumer Group 下的所有的 Consumer 实例久如何消费订阅主题阅读全文

posted @ 2019-07-17 16:39 piperck 阅读(4273) 评论(0) 推荐(0)

Kafka 消费者到底是什么以及消费者位移主题到底是什么（Python 客户端 1.01 broker）

摘要：Kafka 中有这样一个概念消费者组，所有我们去订阅 topic 和 topic 交互的一些操作我们都是通过消费者组去交互的。在 consumer 端设置了消费者的名字之后，该客户端可以对多个 topic 进行订阅。我们也可以通过 group-id 来识别是谁在消费消息，或者在消费哪些组的消息。阅读全文

posted @ 2019-07-15 15:12 piperck 阅读(886) 评论(0) 推荐(0)

CDH 6.0.1 版本默认配置下 HUE | happybase 无法访问 Hbase 的问题

摘要：第一个问题 HUE 无法直接连接到 HBase 在默认配置下 CDH 6.0.1 版本下的 HBase2.0 使用了默认配置也就是是被勾选的状态，但是 HUE 我找了半天发现无法配置 thift.compact 的启用。所以要使用 hue 来使用 HBase 2.0 就需要把这个 HBase 的参阅读全文

posted @ 2019-07-10 20:56 piperck 阅读(1504) 评论(0) 推荐(0)

Kafka 幂等生产者和事务生产者特性（讨论基于 kafka-python | confluent-kafka 客户端）

摘要：Kafka 提供了一个消息交付可靠性保障以及精确处理一次语义的实现。通常来说消息队列都提供多种消息语义保证最多一次 (at most once): 消息可能会丢失，但绝不会被重复发送。至少一次 (at least once): 消息不会丢失，但有可能被重复发送。精确一次 (exactly on 阅读全文

posted @ 2019-07-04 20:48 piperck 阅读(1258) 评论(0) 推荐(0)

我们使用 Kafka 生产者在发消息的时候我们关注什么（Python 客户端 1.01 broker）

摘要：之前使用 Kafka 的客户端消费者比较多一点，而且也是无脑订阅使用也没有深入了解过具体的参数。总的来说使用不够细节。这次公司项目活动期间暴露非常多的问题，于是有了这篇文章。首先我们来拆解一下 Kafka KafkaProducer 类给我们暴露的参数，我会依次介绍一下这些参数的功能以及效果，其阅读全文

posted @ 2019-07-01 19:13 piperck 阅读(781) 评论(0) 推荐(1)

【转】Python 访问 HDFS

摘要：1.前言 hdfs , Hadoop Distributed File System。Hadoop的分布式文件系统,安全行和扩展性没得说。访问HDFS的方式有以下几种：使用python访问HDFS比较容易： python 封装FS Shell，这种方式本地必须部署了Hadoop 的 FS Sh 阅读全文

posted @ 2019-06-25 11:36 piperck 阅读(4288) 评论(0) 推荐(0)

HIVE 乱码以及 HUE SQL 语句兼容性的记录（遇到应该会一直更新）

摘要：最近在 HUE 里面查询有中文字段相关的东西被报错警告。。。通过调整 HUE 使用的某些元数据表的表编码来解决这个问题：在书写在 MySQL 中能使用的语句的时候还遇到一些无法直接在 hive 或者 presto 中运行的兼容性问题。例如： presto 可以运行的版本 hive 可以运行个的阅读全文

posted @ 2019-06-19 18:38 piperck 阅读(1143) 评论(0) 推荐(0)

Kafka 深入核心参数配置

摘要：Kafka 真是一个异常稳定的组件，服务器上我们部署了 kafka_2.11-1.0.1 版本的 kafka 除了几次计算时间太长触发了 rebalance 以外，基本没有处理过什么奇怪的问题。但是还是感觉 Kafka 的配置非常全面非常多，也非常容易把人搞懵逼。有时候看官方文档也就是一句话，经常阅读全文

posted @ 2019-06-18 19:44 piperck 阅读(1634) 评论(0) 推荐(0)

吱吱吱 (piperck) XD

Be more cautious.
github.com/piperck weibo.com/pieprck

随笔分类 - BigData

公告

吱吱吱 (piperck) XD

Be more cautious. github.com/piperck weibo.com/pieprck

随笔分类 - BigData

公告

Be more cautious.
github.com/piperck weibo.com/pieprck