02 2017 档案

摘要:启动hive命令时指定参数或自定义参数 在hive启动命令中指定一个参数 在hive启动命令中指定多个参数,这些参数是hive site.xml中参数,也开始自定义的惨。 在resouceManager 的UI页面中查看job.xml文件中可以找到如下自定义的参数: 阅读全文
posted @ 2017-02-23 18:03 丹江湖畔养蜂子赵大爹 阅读(1169) 评论(0) 推荐(0) 编辑
摘要:spark任务提交到yarn上命令总结 1. 使用spark submit提交任务 集群模式执行 SparkPi 任务,指定资源使用,指定eventLog目录 不指定资源,使用yarn的默认资源分配。 动态的加载spark配置 客户端模式执行 SparkPi 任务:spark submit 2. 使 阅读全文
posted @ 2017-02-23 17:51 丹江湖畔养蜂子赵大爹 阅读(18911) 评论(0) 推荐(2) 编辑
摘要:spark on yarn模式下配置spark sql访问hive元数据 目的:在spark on yarn模式下,执行spark sql访问hive的元数据。并对比一下spark sql 和hive的效率。 软件环境: + hadoop2.7.3 + apache hive 2.1.1 bin + 阅读全文
posted @ 2017-02-15 19:04 丹江湖畔养蜂子赵大爹 阅读(7766) 评论(0) 推荐(0) 编辑
摘要:hive执行结果moveTask操作失败 Apache Hive 2.1.0 ,在执行"INSERT OVERWRITE TABLE ...... select "或者 "insert overwrite directory /tmp/data/hive test "操作,如果生成的结果文件是多个时 阅读全文
posted @ 2017-02-15 15:03 丹江湖畔养蜂子赵大爹 阅读(12382) 评论(0) 推荐(0) 编辑
摘要:hadoop 2.7.3伪分布式安装 hadoop集群的伪分布式部署由于只需要一台服务器,在测试,开发过程中还是很方便实用的,有必要将搭建伪分布式的过程记录下来,好记性不如烂笔头。 hadoop 2.7.3 JDK 1.8.91 到Apache的官网下载hadoop的二进制安装包。 cd /home 阅读全文
posted @ 2017-02-15 11:33 丹江湖畔养蜂子赵大爹 阅读(797) 评论(0) 推荐(0) 编辑
摘要:spark on yarn任务提交缓慢解决 spark版本:spark 2.0.0 hadoop 2.7.2。 在spark on yarn 模式执行任务提交,发现特别慢,要等待几分钟, 使用集群模式模式提交任务: ./bin/spark submit class org.apache.spark. 阅读全文
posted @ 2017-02-08 19:23 丹江湖畔养蜂子赵大爹 阅读(8142) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示