2018 年 12月 28 日随笔档案 - 匠人先生

2018年12月28日

大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

摘要： spark 2.1.1 spark初始化rdd的时候，需要读取文件，通常是hdfs文件，在读文件的时候可以指定最小partition数量，这里只是建议的数量，实际可能比这个要大（比如文件特别多或者特别大时），也可能比这个要小（比如文件只有一个而且很小时），如果没有指定最小partition数量，初始阅读全文

posted @ 2018-12-28 20:55 匠人先生阅读(8098) 评论(0) 推荐(5) 编辑

大数据基础之Spark（6）Spark Rdd Sort实现原理

摘要： spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序，具体是如何实现的？来看代码： org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sor 阅读全文

posted @ 2018-12-28 20:07 匠人先生阅读(1254) 评论(0) 推荐(0) 编辑

大叔经验分享（17）编程实践对比Java vs Scala

摘要： scala 官方地址 https://www.scala-lang.org/ 本文尽可能包含了一些主要的java和scala在编程实践时的显著差异，展现scala的代码的简洁优雅；scala通吃<面向对象编程Object Oriented Programming>和<函数式编程Functional 阅读全文

posted @ 2018-12-28 19:35 匠人先生阅读(608) 评论(0) 推荐(0) 编辑

公告

Welcome to my blogs，

帝都仰望星空大学数学系小本

Handicraftsman
Lifelong Coder

GitHub

ありがとう

昵称：匠人先生
园龄： 6年5个月
粉丝： 88
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

Thinking in BigData

匠人先生

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (946)

随笔档案 (368)

阅读排行榜

评论排行榜

推荐排行榜

最新评论