摘要: hbase(main)> whoami hbase(main)> whoami hbase(main)> whoami hbase(main)> whoami hbase(main)> whoami hbase(main)> list hbase(main)> list hbase(main)> l 阅读全文
posted @ 2016-12-19 20:48 Boy.yu 阅读(348) 评论(0) 推荐(0) 编辑
摘要: zookeeper有这样一个特性: 集群中只要有过半的机器是正常工作的,那么整个集群对外就是可用的。 也就是说如果有2个zookeeper,那么只要有1个死了zookeeper就不能用了,因为 1没有过半,所以2个zookeeper的死亡容忍度为0;同理,要是有3个zookeeper, 一个死了,还 阅读全文
posted @ 2016-09-28 16:02 Boy.yu 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 1 海量日志数据,提取出某日访问百度次数最多的那个IP 解法1: (1)海量日志,文件太大,IP地址最多有2^32=4G,无法装入内存,,将这个大文件(hash映射:可以取模00)分成多个小文件(如1000)。 (2)对每个小文件进行hash统计,hash_map(ip,value), 得到每个文件 阅读全文
posted @ 2016-09-25 20:34 Boy.yu 阅读(2974) 评论(0) 推荐(0) 编辑
摘要: Source Flume内置了大量的Sourece,其中Avro Source(集群)、Thrift Source、Spooling Directory Source(目录)、Kafka Source具有较好的性能和较广泛的使用场景,下面主要介绍这几种Source。 类型 说明 Avro Sourc 阅读全文
posted @ 2016-09-20 14:11 Boy.yu 阅读(700) 评论(0) 推荐(0) 编辑