2018年10月15日

mapStruct笔记

摘要: 背景 mapStruct 是一个方便对象转换的工具,类似的工具还有 Dozer, BeanUtils。 实现 mapStruct的核心是在编译期生成基于转换规则的 Impl 文件,运行时直接调用 Impl 文件中的函数。整个 mapStruct 分成三个部分: 1. 自定义注解,指定转换的规则。例如 阅读全文

posted @ 2018-10-15 20:59 walkwalkwalk 阅读(392) 评论(0) 推荐(0) 编辑

2018年2月23日

KafkaZookeeper2-ZookeeperClient

摘要: 介绍 ZookeeperClient 是 kafka 新写的客户端,它允许用户流水线式(并行)访问 zookeeper。 为什么放弃了 zkClient? zkClient 是一个第三方的客户端。 它的优点: 1. 在session loss和session expire时自动创建新的ZooKeep 阅读全文

posted @ 2018-02-23 16:04 walkwalkwalk 阅读(692) 评论(0) 推荐(0) 编辑

KafkaZookeeper1-整体介绍

摘要: 版本 1.0.0 概述 本文介绍了 kafka 中 zookeeper 的整体实现。 最初 kafka 使用同步的方式访问 zookeeper。但是对于 partition 个数很多的cluster,同步的访问方式会使得集群陷入瓶颈。 新的 zookeeper 主要分为这两大部分: " 3472" 阅读全文

posted @ 2018-02-23 16:01 walkwalkwalk 阅读(914) 评论(0) 推荐(0) 编辑

2017年12月8日

spark thrift server configuration

摘要: ```bash # MainApplicationProperties # --master yarn --deploy-mode client 下的配置, client 模式表示,driver 是在本地机器上跑的,thrift server 设置就是 client 模式,这样会方便从 driver 中拿数 # spark job 临时保存的目录 spark.local.dir ... 阅读全文

posted @ 2017-12-08 16:27 walkwalkwalk 阅读(2024) 评论(0) 推荐(0) 编辑

2017年10月24日

Spark Streaming 总结

摘要: 这篇文章记录我使用 Spark Streaming 进行 ETL 处理的总结,主要包含如何编程,以及遇到的问题。 环境 我在公司使用的环境如下: 1. Spark: 2.2.0 2. Kakfa: 0.10.1 这两个版本算是比较新的。 业务 从 Kafka 中读取数据,用 SQL 处理,写入 Ka 阅读全文

posted @ 2017-10-24 22:25 walkwalkwalk 阅读(5748) 评论(2) 推荐(0) 编辑

2017年9月6日

SparkSession - Spark SQL 的 入口

摘要: SparkSession Spark SQL 的 入口 翻译自:https://jaceklaskowski.gitbooks.io/mastering apache spark/content/spark sql SparkSession.html 概述 SparkSession 是 Spark 阅读全文

posted @ 2017-09-06 16:21 walkwalkwalk 阅读(13537) 评论(0) 推荐(0) 编辑

2017年9月5日

Spark SQL - 对大规模的结构化数据进行批处理和流式处理

摘要: Spark SQL 对大规模的结构化数据进行批处理和流式处理 大体翻译自:https://jaceklaskowski.gitbooks.io/mastering apache spark/content/spark sql.html 如同一般的 Spark 处理, Spark SQL 本质上也是大 阅读全文

posted @ 2017-09-05 15:14 walkwalkwalk 阅读(2290) 评论(0) 推荐(0) 编辑

2017年7月28日

Kafka Consumer2

摘要: 本文记录了和conumser相关的几个类。 首先是RequestFuture这个类,consumer和服务端通信使用它作为返回值。 其次是HeartBeat机制,consumer和coordinator通过它来获取对方的状态,并进行相应的处理。 然后是SubscriptionState,consum 阅读全文

posted @ 2017-07-28 17:41 walkwalkwalk 阅读(255) 评论(0) 推荐(0) 编辑

2017年7月27日

Kafka Consumer1

摘要: 本文的代码基于kafka的 的版本。 重新设计的原因 0.9以前的consumer是通过zookeeper来进行状态管理里的。 羊群效应 任何Broker或者Consumer的增减都会触发所有的Consumer的Rebalance Split brain(大脑分裂) 每个Consumer分别单独通过 阅读全文

posted @ 2017-07-27 22:09 walkwalkwalk 阅读(332) 评论(0) 推荐(0) 编辑

2017年7月12日

Storm Spout

摘要: 本文主要介绍了Storm Spout,并以KafkaSpout为例,进行了说明。 概念 数据源(Spout)是拓扑中数据流的来源。一般 Spout 会从一个外部的数据源读取元组然后将他们发送到拓扑中。根据需求的不同,Spout 既可以定义为可靠的数据源,也可以定义为不可靠的数据源。一个可靠的 Spo 阅读全文

posted @ 2017-07-12 17:18 walkwalkwalk 阅读(2237) 评论(0) 推荐(0) 编辑

导航