2017 年 7月 22 日随笔档案 - 扎心了老铁

2017年7月22日

摘要：本文处理的场景如下，hive表中的数据，对其中的多列进行判重deduplicate。 1、先解决依赖，spark相关的所有包，pom.xml spark-hive是我们进行hive表spark处理的关键。 2、spark-client 3、判重流程 4、运行方式提交任务脚本运行：结果阅读全文

posted @ 2017-07-22 23:57 扎心了老铁阅读(1236) 评论(0) 推荐(1) 编辑

使用hive客户端java api读写hive集群上的信息

摘要：上文介绍了hdfs集群信息的读取方式，本文说hive 1、先解决依赖 2、配置文件这里我们给出一种简单的配置方法，就是直接将hive-site.xml通过添加文件的方式加载到配置例如，hive-site.xml中的配置如下 3、hive client api 说明： 1、hiveConf.add 阅读全文

posted @ 2017-07-22 15:50 扎心了老铁阅读(8888) 评论(0) 推荐(1) 编辑

使用HDFS客户端java api读取hadoop集群上的信息

摘要：本文介绍使用hdfs java api的配置方法。 1、先解决依赖，pom 2、配置文件，存放hdfs集群配置信息，基本都是来源于core-site.xml和hdfs-site.xml，可以根据hdfs集群client端配置文件里的信息进行填写 3、java client api 4、configu 阅读全文

posted @ 2017-07-22 15:41 扎心了老铁阅读(2752) 评论(0) 推荐(2) 编辑

扎心了老铁

公告