摘要:
这个也没有什么多说的。 if (valueS.substring(valueS.length() - 1).equals("%")) { double values = Double.parseDouble(valueS.replace("%", "")) * 0.01; } 阅读全文
摘要:
先说说partition的好处:Partition的好处是可以并发的获取同类数据,提高效率。 第一步需要实现Partitioner对象。 public class ProducerPartitioner implements Partitioner<String> { public static f 阅读全文
摘要:
我们知道KeywordMessage就是被kafka发送和存储的对象。所以只需要模拟出这个就可以发送自定义消息了。 比如我需要将用户的id,user,age,address和访问ip和访问date记录为一个消息。我就自定义一个消息格式(id-user-age-address-ip-date)。 我立 阅读全文
摘要:
每一个consumer实例都属于一个consumer group,每一条消息只会被同一个consumer group里的一个consumer实例消费。(不同consumer group可以同时消费同一条消息) 很多传统的message queue都会在消息被消费完后将消息删除,一方面避免重复消费,另 阅读全文
摘要:
Topic在逻辑上可以被认为是一个queue队列,每条消息都必须指定它的topic,可以简单理解为必须指明把这条消息放进哪个queue里。为 了使得Kafka的吞吐率可以水平扩展,物理上把topic分成一个或多个partition,每个partition在物理上对应一个文件夹,该文件夹 下存储这个p 阅读全文
摘要:
作为一个messaging system,Kafka遵循了传统的方式,选择由producer向broker push消息并由consumer从broker pull消息。一些logging-centric system,比如Facebook的Scribe和Cloudera的Flume,采用非常不同的 阅读全文
摘要:
Hive是什么?就从这儿开始学习。。。。 Hive是建立在Hadoop hdfs上的数据仓库基础架构。 Hive可以用来数据抽取转换加载(ETL)。 Hive定义了简单的类SQL查询语句,称为HQL。 Hive是SQL解析引擎,它将SQL语句转移成M/R Job,然后在Hadoop上执行。 Hive 阅读全文
摘要:
1、使用场景:实时查询交互 说说概念性的东西,方便今后更加深入的理解。 HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架( 阅读全文
摘要:
还是hadoop专有名词进行说明。 Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储。(分布式文件系统) MapReduce提供了对数据的计算.(分布式计算框架) Hadoop的集群主要由 NameNode,DataNode,Secondar 阅读全文
摘要:
最近一个项目,关于大数据的改造项目,底层选择Impala还是sparkSQL呢? 最后选择Impala.这样就开启了我的Impala学习之旅。我大部分负责Imapa接口开发工作。 我是控制不住的想整个都了解和学习。所有还在impala控制台各种测试和学习。差不多一两天就熟悉了基本的命令。 开发之前需 阅读全文