摘要:
1.压缩 在Hadoop中MR一共支持四种编码分别是:default,gzip,bzip2,lzo和snappy 下面是这几种压缩格式的说明: 压缩格式 工具 算法 后缀名 是否可切分 default 无 default .deflate 不可以切分 gzip gzip default .gzp 不 阅读全文
摘要:
1.什么是SparkRDD算子: 总的来讲RDD是Spark最小的数据抽象,每一个rdd算子都拥有五个主要的属性: 1.RDD是一组已经分好区的数据集 2.RDD拥有计算分区数据的功能 3.依赖其他RDD 4.对于key-value格式的RDD,可以自定义分区 5.RDD更喜欢在数据本地计算数据(即 阅读全文