摘要:
先说说概念 正向代理服务器就是我们平常说的代理服务器,一般在IE-Internet选项-连接-局域网设置,目的是通过代理服务器可以访问互联网上服务器的资源等 反向代理服务器,是用在服务器的主机前面的,用户接受外部的访问,在用户和真正的主机服务器之间加了一道屏障 目前有许多反向代理软件,比较有名的有 阅读全文
摘要:
Shuffle是MR的核心和最重要的地方,也是性能弹性最大的地方 在Spark中,1.1版本之前,框架默认采用的shuffle是hash,1.1之后,默认采用了sort 从下图可以看出在数据量小,mapper和reducer都比较小的时候,二者的性能几乎一样,当数据量大的情况下,sort shuff 阅读全文
摘要:
RDD的好处很多,缺点在于不支持增量的迭代计算,比如在task的前半段只做一半数据的处理,后续的task再加上后一半处理,这种需求不支持 还有就是不支持细粒度的更新和写操作 rdd.Partitions() : 需要知道数据分配在哪里,返回一个array,里面是partition对象,该对象指向了数 阅读全文
摘要:
Tuple和List一样,是长度不变,内容也不可变的 Tuple的元素个数不能大于22个,否则编译出错 通过下标_n取数据,这是和List,Array的不同点 Tuple 不像List一样有map、flatMap 等方法直接操作元素,只能通过混入的ProductN(n代表1-22的数字) 的prod 阅读全文