随笔分类 - spark

【转】Spark写入HBase（Bulk方式）

摘要：在使用Spark时经常需要把数据落入HBase中，如果使用普通的Java API，写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢？ BulkLoad不会写WAL，也不会产生flush以及split。如果我们大量调用PUT接口插入数据，可能会导阅读全文

posted @ 2020-10-14 10:52 意如柳阅读(471) 评论(0) 推荐(0) 编辑

idea中打jar包并放在Linux cdh-spark环境下运行

摘要：（1）添加pom.xml中的依赖包注意依赖包必须跟cdh中的组件版本一致。附上cdh3.2.1版的pom.xml内容： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" 阅读全文

posted @ 2020-09-25 11:21 意如柳阅读(933) 评论(0) 推荐(0) 编辑

scala读入txt文件，执行groupby后插入hbase

摘要：rdd.foreach { records => val config = HBaseConfiguration.create config.set("hbase.zookeeper.property.clientPort", "2181") config.set("hbase.zookeeper. 阅读全文

posted @ 2020-09-10 15:28 意如柳阅读(228) 评论(0) 推荐(0) 编辑

【转】Scala中json格式、字符串、map相互转换

摘要：像map一样的json直接存值： import org.json.JSONObject def main(args: Array[String]): Unit = { val jsonObj :JSONObject= new JSONObject() jsonObj.put("zxtotal", " 阅读全文

posted @ 2020-09-10 11:51 意如柳阅读(1858) 评论(0) 推荐(0) 编辑

scala程序启动时，Could not locate executable null\bin\winutils.exe in the Hadoop binaries解决方案

摘要：原因：window本地无法获取hadoop的配置解决方法： 1）下载一个spark-2.4.6-bin-hadoop2.7压缩包到本地并解压 2）下载一个winutils.exe放到spark-2.4.6-bin-hadoop2.7\bin下做完以上两步后，重启idea，如果还不成功，再执行下面阅读全文

posted @ 2020-09-09 15:17 意如柳阅读(320) 评论(0) 推荐(0) 编辑

公告

昵称：意如柳
园龄： 6年7个月
粉丝： 12
关注： 11

+加关注

2025年3月

日

一

二

三

四

五

六

学而时习之，不亦说乎

good good study, day day hahaha O(∩_∩)O~~

随笔分类 - spark

公告

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论