随笔分类 -  spark

摘要:在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢? BulkLoad不会写WAL,也不会产生flush以及split。 如果我们大量调用PUT接口插入数据,可能会导 阅读全文
posted @ 2020-10-14 10:52 意如柳 阅读(471) 评论(0) 推荐(0) 编辑
摘要:(1)添加pom.xml中的依赖包 注意依赖包必须跟cdh中的组件版本一致。附上cdh3.2.1版的pom.xml内容: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" 阅读全文
posted @ 2020-09-25 11:21 意如柳 阅读(933) 评论(0) 推荐(0) 编辑
摘要:rdd.foreach { records => val config = HBaseConfiguration.create config.set("hbase.zookeeper.property.clientPort", "2181") config.set("hbase.zookeeper. 阅读全文
posted @ 2020-09-10 15:28 意如柳 阅读(228) 评论(0) 推荐(0) 编辑
摘要:像map一样的json直接存值: import org.json.JSONObject def main(args: Array[String]): Unit = { val jsonObj :JSONObject= new JSONObject() jsonObj.put("zxtotal", " 阅读全文
posted @ 2020-09-10 11:51 意如柳 阅读(1858) 评论(0) 推荐(0) 编辑
摘要:原因:window本地无法获取hadoop的配置 解决方法: 1)下载一个spark-2.4.6-bin-hadoop2.7压缩包到本地并解压 2)下载一个winutils.exe放到spark-2.4.6-bin-hadoop2.7\bin下 做完以上两步后,重启idea,如果还不成功,再执行下面 阅读全文
posted @ 2020-09-09 15:17 意如柳 阅读(320) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示