2014年11月27日

HDFS之SequenceFile和MapFile

摘要: http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据... 阅读全文

posted @ 2014-11-27 22:58 白乔 阅读(274) 评论(0) 推荐(0) 编辑

收藏2个mongodb connector网址

摘要: https://github.com/plaa/mongo-sparkhttps://github.com/mongodb/mongo-hadoophttp://codeforhire.com/2014/02/18/using-spark-with-mongodb/ 阅读全文

posted @ 2014-11-27 22:51 白乔 阅读(139) 评论(0) 推荐(0) 编辑

Spark:用Scala和Java实现WordCount

摘要: http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Jav... 阅读全文

posted @ 2014-11-27 22:37 白乔 阅读(261) 评论(0) 推荐(0) 编辑

导航