摘要: 1.压缩 在Hadoop中MR一共支持四种编码分别是:default,gzip,bzip2,lzo和snappy 下面是这几种压缩格式的说明: 压缩格式 工具 算法 后缀名 是否可切分 default 无 default .deflate 不可以切分 gzip gzip default .gzp 不 阅读全文
posted @ 2019-12-23 15:08 悔不该放开那华佗哟 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 1.什么是SparkRDD算子: 总的来讲RDD是Spark最小的数据抽象,每一个rdd算子都拥有五个主要的属性: 1.RDD是一组已经分好区的数据集 2.RDD拥有计算分区数据的功能 3.依赖其他RDD 4.对于key-value格式的RDD,可以自定义分区 5.RDD更喜欢在数据本地计算数据(即 阅读全文
posted @ 2019-12-23 14:58 悔不该放开那华佗哟 阅读(445) 评论(0) 推荐(0) 编辑