摘要: 由于SparkSQL不支持HBase的数据源(HBase-1.1.2),网上有很多是采用Hortonworks的SHC,而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现,我就自己写了一个Java版的SparkSQL操作HBase的小案例。 1、SparkOnHBase pac 阅读全文
posted @ 2019-06-18 19:09 孟尧 阅读(1654) 评论(0) 推荐(0) 编辑
摘要: 在大量数据需要写入HBase时,通常有Put方式和BulkLoad两种方式。 Put不做解释。 BulkLoader方式的优势在于: 1、不会触发WAL预写日志,当表还没有数据时进行数据导入不会产生Flush和Split。 2、减少接口调用的消耗,是一种快速写入的优化方式。 但如果使用Spark操作 阅读全文
posted @ 2019-06-18 19:00 孟尧 阅读(1516) 评论(0) 推荐(0) 编辑