摘要:
1. split大小的计算公式 minSize=max{minSplitSize,mapred.min.split.size} (minSplitSize大小默认为1B) maxSize=mapred.max.split.size(不在配置文件中指定时大小为Long.MAX_VALUE) splitSize=max{minSize,min{maxSize,blockSize}}(注意,blockSize为文件在hdfs中的块大小,比如我们先配置的dfs.block.size的值为67108864,也即64MB,后向分布式文件系统中存入一个1GB大小的文件A,该文件在hdfs中的块大... 阅读全文
摘要:
split方法可以根据指定的表达式regex将一个字符串分割成一个子字符串数组。 它的参数有两种形式,也即:split(String regex)和split(String regex, int limit),其中split(String regex)实际上是通过调用split(String regex, int limit)来实现的,limit的值为0。那么,当limit>0和limit0子数组的长度最大为limit,也就是如果可能的话可以进行limit-1次分割,余下的作为一个子字符串(除非经过limit-1次已经把字符串分割完毕); limit<0时表示数组的长度没有限制; 阅读全文