麻雀虽小五脏俱全

2016年4月18日

摘要：这个也没有什么多说的。 if (valueS.substring(valueS.length() - 1).equals("%")) { double values = Double.parseDouble(valueS.replace("%", "")) * 0.01; } 阅读全文

posted @ 2016-04-18 21:04 麻雀虽小五脏俱全阅读(858) 评论(0) 推荐(0) 编辑

2016年4月6日

partition的分配策略简单代码实现

摘要：先说说partition的好处：Partition的好处是可以并发的获取同类数据，提高效率。第一步需要实现Partitioner对象。 public class ProducerPartitioner implements Partitioner<String> { public static f 阅读全文

posted @ 2016-04-06 23:46 麻雀虽小五脏俱全阅读(680) 评论(0) 推荐(0) 编辑

Kafka中Producer端封装自定义消息

摘要：我们知道KeywordMessage就是被kafka发送和存储的对象。所以只需要模拟出这个就可以发送自定义消息了。比如我需要将用户的id，user,age,address和访问ip和访问date记录为一个消息。我就自定义一个消息格式（id-user-age-address-ip-date）。我立阅读全文

posted @ 2016-04-06 23:23 麻雀虽小五脏俱全阅读(6850) 评论(1) 推荐(1) 编辑

Consumer group理解深入

摘要：每一个consumer实例都属于一个consumer group，每一条消息只会被同一个consumer group里的一个consumer实例消费。（不同consumer group可以同时消费同一条消息）很多传统的message queue都会在消息被消费完后将消息删除，一方面避免重复消费，另阅读全文

posted @ 2016-04-06 22:14 麻雀虽小五脏俱全阅读(2187) 评论(1) 推荐(0) 编辑

Topic 与 Partition

摘要： Topic在逻辑上可以被认为是一个queue队列，每条消息都必须指定它的topic，可以简单理解为必须指明把这条消息放进哪个queue里。为了使得Kafka的吞吐率可以水平扩展，物理上把topic分成一个或多个partition，每个partition在物理上对应一个文件夹，该文件夹下存储这个p 阅读全文

posted @ 2016-04-06 22:05 麻雀虽小五脏俱全阅读(4024) 评论(0) 推荐(0) 编辑

Push OR Pull

摘要：作为一个messaging system，Kafka遵循了传统的方式，选择由producer向broker push消息并由consumer从broker pull消息。一些logging-centric system，比如Facebook的Scribe和Cloudera的Flume,采用非常不同的阅读全文

posted @ 2016-04-06 21:48 麻雀虽小五脏俱全阅读(369) 评论(0) 推荐(0) 编辑

2016年4月1日

hive的初步认识与hive的本质

摘要： Hive是什么？就从这儿开始学习。。。。 Hive是建立在Hadoop hdfs上的数据仓库基础架构。 Hive可以用来数据抽取转换加载（ETL）。 Hive定义了简单的类SQL查询语句，称为HQL。 Hive是SQL解析引擎，它将SQL语句转移成M/R Job,然后在Hadoop上执行。 Hive 阅读全文

posted @ 2016-04-01 14:48 麻雀虽小五脏俱全阅读(1519) 评论(0) 推荐(0) 编辑

Hbase的基本认识

摘要： 1、使用场景：实时查询交互说说概念性的东西，方便今后更加深入的理解。 HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的HDFS作为最基本存储基础单元，通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架( 阅读全文

posted @ 2016-04-01 14:22 麻雀虽小五脏俱全阅读(367) 评论(0) 推荐(0) 编辑

hadoop基本认识

摘要：还是hadoop专有名词进行说明。 Hadoop框架中最核心设计就是：HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储。（分布式文件系统） MapReduce提供了对数据的计算.（分布式计算框架） Hadoop的集群主要由 NameNode,DataNode,Secondar 阅读全文

posted @ 2016-04-01 14:07 麻雀虽小五脏俱全阅读(284) 评论(0) 推荐(0) 编辑

什么原因接触接触impala的

摘要：最近一个项目，关于大数据的改造项目，底层选择Impala还是sparkSQL呢？最后选择Impala.这样就开启了我的Impala学习之旅。我大部分负责Imapa接口开发工作。我是控制不住的想整个都了解和学习。所有还在impala控制台各种测试和学习。差不多一两天就熟悉了基本的命令。开发之前需阅读全文

posted @ 2016-04-01 13:19 麻雀虽小五脏俱全阅读(386) 评论(0) 推荐(0) 编辑

指尖上的艺术

爱程序爱生活

公告