摘要: spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始 阅读全文
posted @ 2018-12-28 20:55 匠人先生 阅读(8064) 评论(0) 推荐(5) 编辑
摘要: spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序,具体是如何实现的?来看代码: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sor 阅读全文
posted @ 2018-12-28 20:07 匠人先生 阅读(1246) 评论(0) 推荐(0) 编辑
摘要: scala 官方地址 https://www.scala-lang.org/ 本文尽可能包含了一些主要的java和scala在编程实践时的显著差异,展现scala的代码的简洁优雅;scala通吃<面向对象编程Object Oriented Programming>和<函数式编程Functional 阅读全文
posted @ 2018-12-28 19:35 匠人先生 阅读(601) 评论(0) 推荐(0) 编辑