上一页 1 2 3 4 5 6 ··· 9 下一页
摘要: Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点,从资源种类上来说,有CPU、内存、网络、磁盘,其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源,如果Spark自身不及时的清理,就势必会造成文件的堆积,直至磁盘被占满不可用。 因此有必要弄清楚Spark运行过程中产生的临时文件及其释放的时机,这样有助于部署和运维过程中采取相应的文件清理策略。 阅读全文
posted @ 2015-03-08 20:25 徽沪一郎 阅读(4578) 评论(1) 推荐(1) 编辑
摘要: 2014技术领域的个人小结 阅读全文
posted @ 2015-02-15 17:01 徽沪一郎 阅读(2070) 评论(0) 推荐(0) 编辑
摘要: Scala中Range可以看成是List的特例,Range的包含的元素类型是Int, 本文介绍如何创建Range 阅读全文
posted @ 2015-01-06 17:54 徽沪一郎 阅读(611) 评论(1) 推荐(0) 编辑
摘要: 代码这东西,不写肯定不行,新学Scala不久,将实际遇到的一些问题记录下来,日后也好查找。 今天讲的是如何计算同一集合中元素两两之间的差值,即求开始集合(a,b,c,d)中(b-a,c-b,d-c) 阅读全文
posted @ 2015-01-03 15:29 徽沪一郎 阅读(2103) 评论(0) 推荐(0) 编辑
摘要: 无论是github上还是Apache基金会,每过一段时间都会有一些非常优秀的项目出现。如何在较短的时间内比较好的学习和把握住新项目的精髓及要点呢? 阅读全文
posted @ 2014-12-07 17:21 徽沪一郎 阅读(1196) 评论(1) 推荐(3) 编辑
摘要: 本文就spark-cassandra-connector的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra中读取到本地内存或磁盘。 阅读全文
posted @ 2014-11-17 21:11 徽沪一郎 阅读(4092) 评论(0) 推荐(0) 编辑
摘要: 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢? 本文试就此做一个小小的总结。 阅读全文
posted @ 2014-10-26 20:43 徽沪一郎 阅读(11234) 评论(0) 推荐(1) 编辑
摘要: 根据论坛上的信息,在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR. 阅读全文
posted @ 2014-09-28 21:18 徽沪一郎 阅读(5247) 评论(0) 推荐(1) 编辑
摘要: Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制,本文就该处理机制的实现进行初步的分析。 阅读全文
posted @ 2014-09-19 10:22 徽沪一郎 阅读(4345) 评论(2) 推荐(0) 编辑
摘要: 本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库,这是一个使用spark的综合性示例。 阅读全文
posted @ 2014-09-06 14:54 徽沪一郎 阅读(2555) 评论(1) 推荐(1) 编辑
上一页 1 2 3 4 5 6 ··· 9 下一页