徽沪一郎 - 博客园

2015年3月

Apache Spark技术实战之8：Standalone部署模式下的临时文件清理

摘要： Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点，从资源种类上来说，有CPU、内存、网络、磁盘，其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源，如果Spark自身不及时的清理，就势必会造成文件的堆积，直至磁盘被占满不可用。因此有必要弄清楚Spark运行过程中产生的临时文件及其释放的时机，这样有助于部署和运维过程中采取相应的文件清理策略。阅读全文

posted @ 2015-03-08 20:25 徽沪一郎阅读(4653) 评论(1) 推荐(1)

2015年2月

2014年末总结：对大数据处理的一点思考

摘要： 2014技术领域的个人小结阅读全文

posted @ 2015-02-15 17:01 徽沪一郎阅读(2088) 评论(0) 推荐(0)

2015年1月

Range

摘要： Scala中Range可以看成是List的特例，Range的包含的元素类型是Int, 本文介绍如何创建Range 阅读全文

posted @ 2015-01-06 17:54 徽沪一郎阅读(633) 评论(1) 推荐(0)

用Scala实现集合中相邻元素间的差值

摘要：代码这东西，不写肯定不行，新学Scala不久，将实际遇到的一些问题记录下来，日后也好查找。今天讲的是如何计算同一集合中元素两两之间的差值，即求开始集合(a,b,c,d)中(b-a,c-b,d-c) 阅读全文

posted @ 2015-01-03 15:29 徽沪一郎阅读(2125) 评论(0) 推荐(0)

2014年12月

拥抱新技术的一点思考

摘要：无论是github上还是Apache基金会，每过一段时间都会有一些非常优秀的项目出现。如何在较短的时间内比较好的学习和把握住新项目的精髓及要点呢？阅读全文

posted @ 2014-12-07 17:21 徽沪一郎阅读(1214) 评论(1) 推荐(3)

2014年11月

Apache Spark技术实战之7 -- CassandraRDD高并发数据读取实现剖析

摘要：本文就spark-cassandra-connector的一些实现细节进行探讨，主要集中于如何快速将大量的数据从cassandra中读取到本地内存或磁盘。阅读全文

posted @ 2014-11-17 21:11 徽沪一郎阅读(4137) 评论(0) 推荐(0)

2014年10月

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

摘要：编写了独立运行的Spark Application之后，需要将其提交到Spark Cluster中运行，一般会采用spark-submit来进行应用的提交，在使用spark-submit的过程中，有哪些事情需要注意的呢？本文试就此做一个小小的总结。阅读全文

posted @ 2014-10-26 20:43 徽沪一郎阅读(11403) 评论(0) 推荐(1)

2014年9月

Apache Spark技术实战之5 -- SparkR的安装及使用

摘要：根据论坛上的信息，在Sparkrelease计划中，在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR. 阅读全文

posted @ 2014-09-28 21:18 徽沪一郎阅读(5285) 评论(0) 推荐(1)

Apache Spark源码走读之24 -- Sort-based Shuffle的设计与实现

摘要： Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制，本文就该处理机制的实现进行初步的分析。阅读全文

posted @ 2014-09-19 10:22 徽沪一郎阅读(4377) 评论(2) 推荐(0)

Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra

摘要：本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库，这是一个使用spark的综合性示例。阅读全文

posted @ 2014-09-06 14:54 徽沪一郎阅读(2601) 评论(1) 推荐(1)

公告