随笔分类 - spark
摘要:在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢? BulkLoad不会写WAL,也不会产生flush以及split。 如果我们大量调用PUT接口插入数据,可能会导
阅读全文
摘要:(1)添加pom.xml中的依赖包 注意依赖包必须跟cdh中的组件版本一致。附上cdh3.2.1版的pom.xml内容: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"
阅读全文
摘要:rdd.foreach { records => val config = HBaseConfiguration.create config.set("hbase.zookeeper.property.clientPort", "2181") config.set("hbase.zookeeper.
阅读全文
摘要:像map一样的json直接存值: import org.json.JSONObject def main(args: Array[String]): Unit = { val jsonObj :JSONObject= new JSONObject() jsonObj.put("zxtotal", "
阅读全文
摘要:原因:window本地无法获取hadoop的配置 解决方法: 1)下载一个spark-2.4.6-bin-hadoop2.7压缩包到本地并解压 2)下载一个winutils.exe放到spark-2.4.6-bin-hadoop2.7\bin下 做完以上两步后,重启idea,如果还不成功,再执行下面
阅读全文