hive drop和恢复partition external table
摘要:在hdfs目录:/user/xx/table/test_external 保存 test_external 表数据 先建表,使用列式存储格式 CREATE external TABLE ( STRING, STRING, STRING STRING) PARTITIONED BY (day_mart
阅读全文
posted @
2019-06-28 13:51
j.liu windliu
阅读(1695)
推荐(0) 编辑
Spark编程模型
摘要:============= RDD MapReduce的不足: 计算之间数据共享只有一个办法,写入到文件系统如hdfs,引入了磁盘IO,序列化等开销,从而占据了大部分的执行时间。 RDD: 更强的容错性,如通过数据集的血统,如通过两个父集join,map,filter出子集,可以快速恢复慢节点或某个
阅读全文
posted @
2019-06-14 09:49
j.liu windliu
阅读(379)
推荐(0) 编辑
Spark如何删除无效rdd checkpoint
摘要:spark可以使用checkpoint来作为检查点,将rdd的数据写入hdfs文件,也可以利用本地缓存子系统。 当我们使用checkpoint将rdd保存到hdfs文件时,如果任务的临时文件长时间不删除,长此以往,hdfs会出现很多没有用的文件,spark也考虑到了这一点,因此,用了一些取巧的方式来
阅读全文
posted @
2019-06-06 09:56
j.liu windliu
阅读(1774)
推荐(2) 编辑
Parquet 列式存储格式
摘要:Parquet 列式存储格式 ======= 参考文章: https://blog.csdn.net/kangkangwanwan/article/details/78656940 http://parquet.apache.org/documentation/latest/ 列式存储的优势 把IO
阅读全文
posted @
2019-05-29 10:34
j.liu windliu
阅读(5777)
推荐(0) 编辑
Spark执行失败时的一个错误分析
摘要:错误分析 堆栈信息中有一个错误信息:Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent failure: Lost task 1.3 in stage 2.0 (TID 264, idc
阅读全文
posted @
2019-05-29 09:32
j.liu windliu
阅读(7592)
推荐(0) 编辑
spark load data from mysql
摘要:spark load data from mysql == code first 本机通过spark shell.cmd启动一个spark进程 执行到show时,任务开始真正执行,此时,我们单机debug,来跟踪partitionColumn的最终实现方式 debug类 org.apache.spa
阅读全文
posted @
2019-05-13 18:20
j.liu windliu
阅读(200)
推荐(0) 编辑