Fork me on GitHub
摘要: 一、前述 本文总结了常用的Spark的troubleshooting。 二、具体 1、shuffle file cannot find:磁盘小文件找不到。 1) connection timeout shuffle file cannot find 提高建立连接的超时时间,或者降低gc,降低gc了那 阅读全文
posted @ 2018-03-04 21:11 L先生AI课堂 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 一、前述 数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。 二。具体方法 1、使用Hive ETL预处理数据 方案适用场景: 如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100万数据,其他key才对应了 阅读全文
posted @ 2018-03-04 21:06 L先生AI课堂 阅读(7824) 评论(0) 推荐(1) 编辑