摘要:
Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点,从资源种类上来说,有CPU、内存、网络、磁盘,其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源,如果Spark自身不及时的清理,就势必会造成文件的堆积,直至磁盘被占满不可用。
因此有必要弄清楚Spark运行过程中产生的临时文件及其释放的时机,这样有助于部署和运维过程中采取相应的文件清理策略。 阅读全文
摘要:
2014技术领域的个人小结 阅读全文
摘要:
Scala中Range可以看成是List的特例,Range的包含的元素类型是Int, 本文介绍如何创建Range 阅读全文
摘要:
代码这东西,不写肯定不行,新学Scala不久,将实际遇到的一些问题记录下来,日后也好查找。
今天讲的是如何计算同一集合中元素两两之间的差值,即求开始集合(a,b,c,d)中(b-a,c-b,d-c) 阅读全文
摘要:
无论是github上还是Apache基金会,每过一段时间都会有一些非常优秀的项目出现。如何在较短的时间内比较好的学习和把握住新项目的精髓及要点呢? 阅读全文
摘要:
本文就spark-cassandra-connector的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra中读取到本地内存或磁盘。 阅读全文
摘要:
编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢?
本文试就此做一个小小的总结。 阅读全文