摘要: 内部表和外部表最主要的一个差别就是删除表或者删除分区时,底层的文件是否自动删除,内部表会自动删除,外部表不会自动删除,所以基础数据表一定要用外部表,即使误删表或分区之后,还可以很容易的恢复回来。 虽然外部表可以恢复,但是逐个分区恢复也很累,如果你的分区很多,或者有多级分区的时候 alter tabl 阅读全文
posted @ 2018-12-12 17:19 匠人先生 阅读(882) 评论(0) 推荐(1) 编辑
摘要: 常用格式 textfile 需要定义分隔符,占用空间大,读写效率最低,非常容易发生冲突(分隔符)的一种格式,基本上只有需要导入数据的时候才会使用,比如导入csv文件; ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' LINES TERMINATE 阅读全文
posted @ 2018-12-12 17:18 匠人先生 阅读(2485) 评论(0) 推荐(0) 编辑
摘要: 通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID : 0012077-180830142722522-oozie-hado-W Workflow N 阅读全文
posted @ 2018-12-12 17:15 匠人先生 阅读(2653) 评论(0) 推荐(0) 编辑
摘要: 当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce; 在hive中叫mapjoin(map-side join),配置为 hive. 阅读全文
posted @ 2018-12-12 17:09 匠人先生 阅读(6973) 评论(0) 推荐(0) 编辑
摘要: spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖; 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖; 这两种方式在oozie上都行不通,首先oozie上没办法也不应该通过local运行,其次通过spark.yarn.jars方 阅读全文
posted @ 2018-12-12 16:57 匠人先生 阅读(1619) 评论(0) 推荐(1) 编辑
摘要: hdfs、yarn、hbase这些组件的master支持多个,实现自动主备切换,其中hdfs、hbase无论访问主master或者备master都可以正常访问页面,但是yarn比较特别,只有主master的页面可以访问,备master会返回Refresh,3s后重定向; 一种方式是提供两个域名,分别 阅读全文
posted @ 2018-12-12 16:54 匠人先生 阅读(1657) 评论(0) 推荐(0) 编辑
摘要: java中访问hbase有两种方式,一种是hbase自带的client,一种是通过hbase thrift 1 hbase client示例 Configuration conf = HBaseConfiguration.create(); conf.set(HConstants.ZOOKEEPER 阅读全文
posted @ 2018-12-12 16:47 匠人先生 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 问题重现 select id from big_table where name = 'sdlkfjalksdjfla' limit 100; 首先看执行计划: hive> explain select * from big_table where name = 'sdlkfjalksdjfla' 阅读全文
posted @ 2018-12-12 16:41 匠人先生 阅读(2712) 评论(0) 推荐(0) 编辑
摘要: spark 2.1.1 一 问题重现 问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName("MethodPositionTest") val sc = new SparkContext(spark 阅读全文
posted @ 2018-12-12 16:28 匠人先生 阅读(3133) 评论(0) 推荐(0) 编辑
摘要: oozie中支持很多的action类型,比如spark、hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ... oozie中sharelib用于存放每个action类型需要的依赖,可以查看当前所有的action类型以及每个action类 阅读全文
posted @ 2018-12-12 16:08 匠人先生 阅读(3701) 评论(0) 推荐(0) 编辑