摘要: 本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。 1、先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键。 2、spark-client 3、判重流程 4、运行方式 提交任务脚本 运行: 结果 阅读全文
posted @ 2017-07-22 23:57 扎心了老铁 阅读(1230) 评论(0) 推荐(1) 编辑
摘要: 上文介绍了hdfs集群信息的读取方式,本文说hive 1、先解决依赖 2、配置文件 这里我们给出一种简单的配置方法,就是直接将hive-site.xml通过添加文件的方式加载到配置 例如,hive-site.xml中的配置如下 3、hive client api 说明: 1、hiveConf.add 阅读全文
posted @ 2017-07-22 15:50 扎心了老铁 阅读(8821) 评论(0) 推荐(1) 编辑
摘要: 本文介绍使用hdfs java api的配置方法。 1、先解决依赖,pom 2、配置文件,存放hdfs集群配置信息,基本都是来源于core-site.xml和hdfs-site.xml,可以根据hdfs集群client端配置文件里的信息进行填写 3、java client api 4、configu 阅读全文
posted @ 2017-07-22 15:41 扎心了老铁 阅读(2705) 评论(0) 推荐(2) 编辑