非著名野生程序员

设计模式：Observer（观察者）—— Guava EventBus

摘要：本文分为三个部分： Observer（观察者） Guava EventBus详解 Guava EventBus使用示例 1. Observer（观察者） 1.1 背景我们设计系统时，常常会将系统分割为一系列相互协作的类，使得这些类之间可以各自独立地复用，系统整体结构也会比较清晰。这是一种最基本的面阅读全文

posted @ 2016-06-14 18:09 非著名野生程序员阅读(1407) 评论(0) 推荐(1) 编辑

Kafka Topic Partition Replica Assignment实现原理及资源隔离方案

摘要：本文共分为三个部分： Kafka Topic创建方式 Kafka Topic Partitions Assignment实现原理 Kafka资源隔离方案 1. Kafka Topic创建方式 Kafka Topic创建方式有以下两种表现形式：（1）创建Topic时直接指定Topic Partiti 阅读全文

posted @ 2016-06-01 20:06 非著名野生程序员阅读(9146) 评论(0) 推荐(2) 编辑

Storm On Docker

摘要： 1. 安装Docker （1）确认系统版本 sudo lsb_release -a 注：如果提示找不到命令“lsb_release”，使用“yum install redhat-lsb”进行安装。（2）安装Docker sudo yum install docker.x86_64（Docker V 阅读全文

posted @ 2016-05-30 20:06 非著名野生程序员阅读(1201) 评论(0) 推荐(0) 编辑

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

摘要：目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDFS，用于数据挖掘或机器学习。HDFS存储数据时目录的最小逻辑单位为“小时”，为了保证数据计算过程中的数阅读全文

posted @ 2016-02-17 16:24 非著名野生程序员阅读(10665) 评论(0) 推荐(3) 编辑

Hadoop Yarn内存资源隔离实现原理——基于线程监控的内存隔离方案

摘要：  阅读全文

posted @ 2015-12-23 16:14 非著名野生程序员阅读(6471) 评论(0) 推荐(3) 编辑

Camus导入中文乱码问题（源码修改、编译、部署、任务启动）

摘要： Camus使用过程中业务方反映从Kafka导入至HDFS中的数据有中文乱码问题，且业务方确认写入的数据编码为UTF-8，开始跟进。问题重现：（1）编写代码将带有中文的字符串以编码UTF-8写入Kafka的某个Topic；（2）将该Topic的数据通过Camus导入HDFS;（3）查看HDFS中导入的... 阅读全文

posted @ 2015-12-10 16:21 非著名野生程序员阅读(1868) 评论(1) 推荐(1) 编辑

DIP开放计算平台介绍

摘要：随着平台业务的发展，依赖于Portal（Web）构建的服务架构已逐渐不能满足现有的一些复杂需求（如：使用Hive SQL无法完成计算逻辑），而且对于一些具备编程能力的程序员或数据分析师而言，能够自主控制任务的诉求越来越多，这就要求我们必须把平台的计算能力开放出去，主要涉及以下三个问题：（1）用户可以... 阅读全文

posted @ 2015-12-08 17:49 非著名野生程序员阅读(1325) 评论(0) 推荐(0) 编辑

Spark RDD Persistence

摘要： Spark最为重要的特性之一就是可以在多个操作（Action）之间，将一个或多个RDD关联的数据集（Dataset）以分区（Partition）为单位进行持久化（Persist）或缓存（Cache），存储介质通常是内存（Memory）。被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用：... 阅读全文

posted @ 2015-11-15 12:41 非著名野生程序员阅读(2936) 评论(0) 推荐(2) 编辑

Spark RCFile的那些“坑”

摘要： RCFile在平台的应用场景中多数用于存储需要“长期留存”的数据文件，在我们的实践过程中，RCFile的数据压缩比通常可以达到8 : 1或者10 : 1，特别适用于存储用户通过Hive（MapReduce）分析的结果。目前平台的计算引擎正逐步由Hadoop MapReduce迁移至Spark，存储方... 阅读全文

posted @ 2015-11-11 15:26 非著名野生程序员阅读(5711) 评论(0) 推荐(1) 编辑

Spark PySpark数据类型的转换原理—Writable Converter

摘要： Spark目前支持三种开发语言：Scala、Java、Python，目前我们大量使用Python来开发Spark App（Spark 1.2开始支持使用Python开发Spark Streaming App，我们也准备尝试使用Python开发Spark Streaming App），在这期间关于数据... 阅读全文

posted @ 2015-11-10 15:57 非著名野生程序员阅读(7991) 评论(0) 推荐(0) 编辑

导航

2016年6月14日

2016年6月1日

2016年5月30日

2016年2月17日

2015年12月23日

2015年12月10日

2015年12月8日

2015年11月15日

2015年11月11日

2015年11月10日