2016年8月5日

摘要: 先说说概念 正向代理服务器就是我们平常说的代理服务器,一般在IE-Internet选项-连接-局域网设置,目的是通过代理服务器可以访问互联网上服务器的资源等 反向代理服务器,是用在服务器的主机前面的,用户接受外部的访问,在用户和真正的主机服务器之间加了一道屏障 目前有许多反向代理软件,比较有名的有  阅读全文
posted @ 2016-08-05 11:45 杰克再造 阅读(162) 评论(0) 推荐(0) 编辑
摘要: Shuffle是MR的核心和最重要的地方,也是性能弹性最大的地方 在Spark中,1.1版本之前,框架默认采用的shuffle是hash,1.1之后,默认采用了sort 从下图可以看出在数据量小,mapper和reducer都比较小的时候,二者的性能几乎一样,当数据量大的情况下,sort shuff 阅读全文
posted @ 2016-08-05 11:30 杰克再造 阅读(717) 评论(0) 推荐(0) 编辑
摘要: RDD的好处很多,缺点在于不支持增量的迭代计算,比如在task的前半段只做一半数据的处理,后续的task再加上后一半处理,这种需求不支持 还有就是不支持细粒度的更新和写操作 rdd.Partitions() : 需要知道数据分配在哪里,返回一个array,里面是partition对象,该对象指向了数 阅读全文
posted @ 2016-08-05 11:27 杰克再造 阅读(153) 评论(0) 推荐(0) 编辑
摘要: Tuple和List一样,是长度不变,内容也不可变的 Tuple的元素个数不能大于22个,否则编译出错 通过下标_n取数据,这是和List,Array的不同点 Tuple 不像List一样有map、flatMap 等方法直接操作元素,只能通过混入的ProductN(n代表1-22的数字) 的prod 阅读全文
posted @ 2016-08-05 11:27 杰克再造 阅读(498) 评论(0) 推荐(0) 编辑

导航