2016年6月14日

摘要: 本文分为三个部分: Observer(观察者) Guava EventBus详解 Guava EventBus使用示例 1. Observer(观察者) 1.1 背景 我们设计系统时,常常会将系统分割为一系列相互协作的类,使得这些类之间可以各自独立地复用,系统整体结构也会比较清晰。这是一种最基本的面 阅读全文
posted @ 2016-06-14 18:09 非著名野生程序员 阅读(1407) 评论(0) 推荐(1) 编辑

2016年6月1日

摘要: 本文共分为三个部分: Kafka Topic创建方式 Kafka Topic Partitions Assignment实现原理 Kafka资源隔离方案 1. Kafka Topic创建方式 Kafka Topic创建方式有以下两种表现形式: (1)创建Topic时直接指定Topic Partiti 阅读全文
posted @ 2016-06-01 20:06 非著名野生程序员 阅读(9146) 评论(0) 推荐(2) 编辑

2016年5月30日

摘要: 1. 安装Docker (1)确认系统版本 sudo lsb_release -a 注:如果提示找不到命令“lsb_release”,使用“yum install redhat-lsb”进行安装。 (2)安装Docker sudo yum install docker.x86_64(Docker V 阅读全文
posted @ 2016-05-30 20:06 非著名野生程序员 阅读(1201) 评论(0) 推荐(0) 编辑

2016年2月17日

摘要: 目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDFS,用于数据挖掘或机器学习。HDFS存储数据时目录的最小逻辑单位为“小时”,为了保证数据计算过程中的数 阅读全文
posted @ 2016-02-17 16:24 非著名野生程序员 阅读(10665) 评论(0) 推荐(3) 编辑

2015年12月23日

摘要: <!--?xml version="1.0" encoding="UTF-8" standalone="no"?--> 阅读全文
posted @ 2015-12-23 16:14 非著名野生程序员 阅读(6471) 评论(0) 推荐(3) 编辑

2015年12月10日

摘要: Camus使用过程中业务方反映从Kafka导入至HDFS中的数据有中文乱码问题,且业务方确认写入的数据编码为UTF-8,开始跟进。问题重现:(1)编写代码将带有中文的字符串以编码UTF-8写入Kafka的某个Topic;(2)将该Topic的数据通过Camus导入HDFS;(3)查看HDFS中导入的... 阅读全文
posted @ 2015-12-10 16:21 非著名野生程序员 阅读(1868) 评论(1) 推荐(1) 编辑

2015年12月8日

摘要: 随着平台业务的发展,依赖于Portal(Web)构建的服务架构已逐渐不能满足现有的一些复杂需求(如:使用Hive SQL无法完成计算逻辑),而且对于一些具备编程能力的程序员或数据分析师而言,能够自主控制任务的诉求越来越多,这就要求我们必须把平台的计算能力开放出去,主要涉及以下三个问题:(1)用户可以... 阅读全文
posted @ 2015-12-08 17:49 非著名野生程序员 阅读(1325) 评论(0) 推荐(0) 编辑

2015年11月15日

摘要: Spark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(Memory)。被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用:... 阅读全文
posted @ 2015-11-15 12:41 非著名野生程序员 阅读(2936) 评论(0) 推荐(2) 编辑

2015年11月11日

摘要: RCFile在平台的应用场景中多数用于存储需要“长期留存”的数据文件,在我们的实践过程中,RCFile的数据压缩比通常可以达到8 : 1或者10 : 1,特别适用于存储用户通过Hive(MapReduce)分析的结果。目前平台的计算引擎正逐步由Hadoop MapReduce迁移至Spark,存储方... 阅读全文
posted @ 2015-11-11 15:26 非著名野生程序员 阅读(5711) 评论(0) 推荐(1) 编辑

2015年11月10日

摘要: Spark目前支持三种开发语言:Scala、Java、Python,目前我们大量使用Python来开发Spark App(Spark 1.2开始支持使用Python开发Spark Streaming App,我们也准备尝试使用Python开发Spark Streaming App),在这期间关于数据... 阅读全文
posted @ 2015-11-10 15:57 非著名野生程序员 阅读(7991) 评论(0) 推荐(0) 编辑