Spark - 随笔分类 - j.liu windliu

hive drop和恢复partition external table

摘要：在hdfs目录：/user/xx/table/test_external 保存 test_external 表数据先建表，使用列式存储格式 CREATE external TABLE ( STRING, STRING, STRING STRING) PARTITIONED BY (day_mart 阅读全文

posted @ 2019-06-28 13:51 j.liu windliu 阅读(1695) 评论(0) 推荐(0) 编辑

Spark编程模型

摘要：============= RDD MapReduce的不足：计算之间数据共享只有一个办法，写入到文件系统如hdfs，引入了磁盘IO,序列化等开销，从而占据了大部分的执行时间。 RDD: 更强的容错性，如通过数据集的血统，如通过两个父集join,map,filter出子集，可以快速恢复慢节点或某个阅读全文

posted @ 2019-06-14 09:49 j.liu windliu 阅读(379) 评论(0) 推荐(0) 编辑

Spark如何删除无效rdd checkpoint

摘要：spark可以使用checkpoint来作为检查点，将rdd的数据写入hdfs文件，也可以利用本地缓存子系统。当我们使用checkpoint将rdd保存到hdfs文件时，如果任务的临时文件长时间不删除，长此以往，hdfs会出现很多没有用的文件，spark也考虑到了这一点，因此，用了一些取巧的方式来阅读全文

posted @ 2019-06-06 09:56 j.liu windliu 阅读(1774) 评论(0) 推荐(2) 编辑

Parquet 列式存储格式

摘要：Parquet 列式存储格式 ======= 参考文章： https://blog.csdn.net/kangkangwanwan/article/details/78656940 http://parquet.apache.org/documentation/latest/ 列式存储的优势把IO 阅读全文

posted @ 2019-05-29 10:34 j.liu windliu 阅读(5777) 评论(0) 推荐(0) 编辑

Spark执行失败时的一个错误分析

摘要：错误分析堆栈信息中有一个错误信息：Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent failure: Lost task 1.3 in stage 2.0 (TID 264, idc 阅读全文

posted @ 2019-05-29 09:32 j.liu windliu 阅读(7592) 评论(0) 推荐(0) 编辑

spark load data from mysql

摘要：spark load data from mysql == code first 本机通过spark shell.cmd启动一个spark进程执行到show时，任务开始真正执行，此时，我们单机debug，来跟踪partitionColumn的最终实现方式 debug类 org.apache.spa 阅读全文

posted @ 2019-05-13 18:20 j.liu windliu 阅读(200) 评论(0) 推荐(0) 编辑

随笔分类 - Spark