03 2017 档案
摘要:一.下载nmon。 根据CPU的类型选择下载相应的版本:http://nmon.sourceforge.net/pmwiki.php?n=Site.Downloadwget http://sourceforg...
阅读全文
摘要:下面是常用的shell变量:$0 Shell本身的文件名$1~$n 添加到Shell的各参数值。$1是第1参数、$2是第2参数…$$ Shell本身的PID(ProcessID)$! Shell最后运行的后台Pr...
阅读全文
摘要:概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFra...
阅读全文
摘要:一. Spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架dfsSpark基于mapreduce算法实现的分布式计算,拥有Had...
阅读全文
摘要:一般来说任意一个sql子系统都需要有parser,optimizer,execution三大功能模块,在spark中这些又都是如何实现的呢,这些实现又有哪些亮点和问题?带着这些疑问,本文准备做一些比较深入的分析。...
阅读全文
摘要:一. 整体架构总结为如下图: Dataframe本质是 数据 + 数据的描述信息(结构元信息)所有的上述SQL及dataframe操作最终都通过Catalyst翻译成spark程序RDD操作代码 spark...
阅读全文
摘要:一. spark-sql1.in 不支持子查询 eg. select * from src where key in(select key from test);支持查询个数 eg. select * from ...
阅读全文
摘要:让我们看一下我们日常在开发过程中接触内存溢出的异常: Exception in thread "main" [Full GCjava.lang.OutOfMemoryError: Java heap space...
阅读全文
摘要:java.lang.OutOfMemoryError: Java heap space原因:Heap内存溢出,意味着Young和Old generation的内存不够。解决:调整java启动参数-Xms -Xmx...
阅读全文