Spark 下操作 HBase（1.0.0 新 API）

hbase1.0.0版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark 结合，进行数据的写入与读取。鉴于国内外有关 HBase 1.0.0 新 API 的资料甚少，故作此文。

本文将分两部分介绍，第一部分讲解使用 HBase 新版 API 进行 CRUD 基本操作；第二部分讲解如何将 Spark 内的 RDDs 写入 HBase 的表中，反之，HBase 中的表又是如何以 RDDs 形式加载进 Spark 内的。

为了避免版本不一致带来不必要的麻烦，API 和 HBase环境都是 1.0.0 版本。HBase 为单机模式，bread分布式模式的使用方法类似，只需要修改的配置即可。

开发环境中使用 SBT 加载依赖项

Output the RDD to any Hadoop-supported storage system, using a Hadoop JobConf object for that storage system

这个方法需要一个 JobConf 作为参数，类似于一个配置项，主要需要指定输出的格式和输出的表名。

Step 1：我们需要先创建一个 JobConf。

读取 HBase

Spark读取HBase，我们主要使用?提供的API将表的内容以 RDDs 的形式加载到 Spark 中。

完整的demo，可以关注公众号输入hbase获取。

文章来源：https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80997723

posted @ 2018-09-11 13:56 王凤霞阅读(346) 评论(0) 收藏举报

刷新页面返回顶部

王凤霞

Spark 下操作 HBase（1.0.0 新 API）

公告