摘要:
一、前述 本文总结了常用的Spark的troubleshooting。 二、具体 1、shuffle file cannot find:磁盘小文件找不到。 1) connection timeout shuffle file cannot find 提高建立连接的超时时间,或者降低gc,降低gc了那 阅读全文
摘要:
一、前述 数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。 二。具体方法 1、使用Hive ETL预处理数据 方案适用场景: 如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100万数据,其他key才对应了 阅读全文