Spark DataSet
摘要:1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优点(优化后的执行引擎)。Dataset可以通过JVM对象来构造,然后通过tran
阅读全文
spark RDD 的map与flatmap区别说明
摘要:HDFS到HDFS过程 看看map 和flatmap的位置 Flatmap 和map 的定义 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD 例子: val rdd = sc.parall
阅读全文
Spark 模块及常用实例
摘要:Apache Spark Examples These examples give a quick overview of the Spark API. Spark is built on the concept of distributed datasets, which contain arbi
阅读全文
Parquet 列式存储结构
摘要:Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, d
阅读全文
Avro 序列化
摘要:官网传送:http://avro.apache.org/docs/current/ Introduction Apache Avro™ is a data serialization system. Avro provides: Rich data structures. A compact, fa
阅读全文
Linux中的软连接与硬连接
摘要:硬链接(hard link) lnUNIX文件系统提供了一种将不同文件链接至同一个文件的机制,我们称这种机制为链接。它可以使得单个程序对同一文件使用不同的名字。这样的好处是文件系统只存在一个文件的副本。 系统简单地通过在目录中建立一个新的登记项来实现这种连接。该登记项具有一个新的文件名和要连接文件的
阅读全文