walkwalkwalk - 博客园

mapStruct笔记

摘要：背景 mapStruct 是一个方便对象转换的工具，类似的工具还有 Dozer, BeanUtils。实现 mapStruct的核心是在编译期生成基于转换规则的 Impl 文件，运行时直接调用 Impl 文件中的函数。整个 mapStruct 分成三个部分： 1. 自定义注解，指定转换的规则。例如阅读全文

posted @ 2018-10-15 20:59 walkwalkwalk 阅读(412) 评论(0) 推荐(0)

KafkaZookeeper2-ZookeeperClient

摘要：介绍 ZookeeperClient 是 kafka 新写的客户端，它允许用户流水线式（并行）访问 zookeeper。为什么放弃了 zkClient? zkClient 是一个第三方的客户端。它的优点： 1. 在session loss和session expire时自动创建新的ZooKeep 阅读全文

posted @ 2018-02-23 16:04 walkwalkwalk 阅读(725) 评论(0) 推荐(0)

KafkaZookeeper1-整体介绍

摘要：版本 1.0.0 概述本文介绍了 kafka 中 zookeeper 的整体实现。最初 kafka 使用同步的方式访问 zookeeper。但是对于 partition 个数很多的cluster，同步的访问方式会使得集群陷入瓶颈。新的 zookeeper 主要分为这两大部分： " 3472" 阅读全文

posted @ 2018-02-23 16:01 walkwalkwalk 阅读(930) 评论(0) 推荐(0)

spark thrift server configuration

摘要： ```bash # MainApplicationProperties # --master yarn --deploy-mode client 下的配置， client 模式表示，driver 是在本地机器上跑的，thrift server 设置就是 client 模式，这样会方便从 driver 中拿数 # spark job 临时保存的目录 spark.local.dir ... 阅读全文

posted @ 2017-12-08 16:27 walkwalkwalk 阅读(2115) 评论(0) 推荐(0)

Spark Streaming 总结

摘要：这篇文章记录我使用 Spark Streaming 进行 ETL 处理的总结，主要包含如何编程，以及遇到的问题。环境我在公司使用的环境如下： 1. Spark: 2.2.0 2. Kakfa: 0.10.1 这两个版本算是比较新的。业务从 Kafka 中读取数据，用 SQL 处理，写入 Ka 阅读全文

posted @ 2017-10-24 22:25 walkwalkwalk 阅读(5809) 评论(2) 推荐(0)

SparkSession - Spark SQL 的入口

摘要： SparkSession Spark SQL 的入口翻译自：https://jaceklaskowski.gitbooks.io/mastering apache spark/content/spark sql SparkSession.html 概述 SparkSession 是 Spark 阅读全文

posted @ 2017-09-06 16:21 walkwalkwalk 阅读(13651) 评论(0) 推荐(0)

Spark SQL - 对大规模的结构化数据进行批处理和流式处理

摘要： Spark SQL 对大规模的结构化数据进行批处理和流式处理大体翻译自：https://jaceklaskowski.gitbooks.io/mastering apache spark/content/spark sql.html 如同一般的 Spark 处理， Spark SQL 本质上也是大阅读全文

posted @ 2017-09-05 15:14 walkwalkwalk 阅读(2405) 评论(0) 推荐(0)

Kafka Consumer2

摘要：本文记录了和conumser相关的几个类。首先是RequestFuture这个类，consumer和服务端通信使用它作为返回值。其次是HeartBeat机制，consumer和coordinator通过它来获取对方的状态，并进行相应的处理。然后是SubscriptionState，consum 阅读全文

posted @ 2017-07-28 17:41 walkwalkwalk 阅读(271) 评论(0) 推荐(0)

Kafka Consumer1

摘要：本文的代码基于kafka的的版本。重新设计的原因 0.9以前的consumer是通过zookeeper来进行状态管理里的。羊群效应任何Broker或者Consumer的增减都会触发所有的Consumer的Rebalance Split brain（大脑分裂）每个Consumer分别单独通过阅读全文

posted @ 2017-07-27 22:09 walkwalkwalk 阅读(353) 评论(0) 推荐(0)

Storm Spout

摘要：本文主要介绍了Storm Spout，并以KafkaSpout为例，进行了说明。概念数据源（Spout）是拓扑中数据流的来源。一般 Spout 会从一个外部的数据源读取元组然后将他们发送到拓扑中。根据需求的不同，Spout 既可以定义为可靠的数据源，也可以定义为不可靠的数据源。一个可靠的 Spo 阅读全文

posted @ 2017-07-12 17:18 walkwalkwalk 阅读(2327) 评论(0) 推荐(0)

导航