摘要: java application项目(非web项目)改进前:-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CM... 阅读全文
posted @ 2017-10-18 19:36 柚子=_= 阅读(126) 评论(0) 推荐(0) 编辑
摘要: Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on... 阅读全文
posted @ 2017-10-18 17:59 柚子=_= 阅读(372) 评论(0) 推荐(0) 编辑
摘要: Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFu... 阅读全文
posted @ 2017-10-18 17:47 柚子=_= 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 一、Spark SQL下的Parquet使用最佳实践1)过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式:a)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL)-> HDFS Parquet -> Spark SQL/Impala -> ... 阅读全文
posted @ 2017-10-18 15:09 柚子=_= 阅读(1020) 评论(0) 推荐(0) 编辑