摘要:
用spark streamming统计单词数量时,reduceBykey只会统计局部的单词数量,每个batch的每个单词的数量,而不能统计每个key所有value值。 所以想要统计全局key的value值,就必须加入有状态计算updataStatusBykey,更新每一个key的状态。 在计算单词数 阅读全文
摘要:
SQL语句在工作中必不可少,所有在实现功能的基础上进行优化是提升价值的关键所在。 1.在进行查询过程中,尽可能的避免全表扫描,并且考虑在where和order by所涉及的列建立索引。 SELECT * FROM customer WHERE name ='阿爆' ; CREATE UNIQUE I 阅读全文
摘要:
在Spark1.6版本中,试图为RDD,DataFrame提供一个新的实验性接口Dataset api接口,所以从范围来说,下面这张图能表明: Dataframe是Dataset的row类型。 RDD 是弹性的分布式数据集。 1.懒执行且不可变,支持lambda表达式的并行数据集合 2.面向对象的编 阅读全文
摘要:
HBaseAdmin是一个类表示管理,通过这个类可执行管理角色。HBaseAdmin这个类属于org.apache.hadoop.hbase.client包。 创建HBaseAdim实例 获取表实例 创建列簇描述 向表描述中加载列簇 调用HBaseAdmin创建表 后面可以通过HBaseAdmin对 阅读全文
摘要:
1.创建一个scan扫描对象 2. scan对象中有setStartRow方法和setStopRow方法,分别指向开始扫描的rowkey和结束扫描的rowkey 3.scan对象中的addColumn方法指向所要查询的列簇中的某个列 要注意点是在指向同一列簇中的列时,要按照字典顺序指定,如果跳着指定 阅读全文
摘要:
1.过滤value的值,可以创建的有正则比较器RegexStringComparator方法,字符串比较器SubstringComparator方法,前缀比较器BinaryPrefixComparator方法,二进制比较器BinaryComparator方法 2.创建列值过滤器SingleColum 阅读全文