摘要:
本机 >A(中转) >B(目标服务器) 本机 XXXXX >B(目标服务器) 本机无法直接连接B服务器 第一步:本机连接中转服务器A,配置好ip,用户密码后,设置隧道,如下图 点击添加:(监听的端口可以任意改,和下边代理保持统一就行) 或者在打开A终端的下方点击转移规则 ,右键空白处直接点添加,出来 阅读全文
摘要:
spark配置项 http://www.tuicool.com/articles/zIvayyf 1.Spark 中也有一个优化版的 repartition(),叫作 coalesce()。 2.combineByKey() 的原理 3.cogroup() 使用场景--合并2个rdd 例如:合并 d 阅读全文
摘要:
(分割线前的都是废话) java8内存模型: http://www.cnblogs.com/paddix/p/5309550.html http://www.cnblogs.com/dingyingsi/p/3760447.html 帖子里提到 5、方法区: 方法区也是所有线程共享。主要用于存储类的 阅读全文
摘要:
一旦函数引用了还是外部的变量或常量,那么就称此函数为闭包函数。 阅读全文
摘要:
1.switch java代码 scala 1.scala 和java的一个优化的地方是不需要在每个分支break。 2.scala的守卫很方便,能少些代码 注意这种匹配一定要给变量名,不能这样用 case BigInt => //todo 注意,在所有匹配项都添加了右单引号。 这是case语句的一 阅读全文
摘要:
1.scala集合的null 是nil 而不是null 2.set的三个方法union,intersect,diff union--合并去重 intersect--交集 diff--a减去(a和b交集的部分) 注意::和:::的区别,::是向前追加元素的合并,是右边开始向左结合。 3.map和fla 阅读全文
摘要:
刚开始就是有个点写个点,比较乱 学习完一个阶段在做整理 1.在scala中用方法转换数据类型,而不是用强制转换,如99.toInt 2. 常见的运算符 + - * / %其实是方法,a+b 是a.+b或a.+(b) 1.to(10) 可以写成 1 to 10 3.数据自增自减没有++,--需要用+= 阅读全文
摘要:
spark优化: http://www.cnblogs.com/hark0623/p/5533803.html 董西成学生写的经验分享(很详细很强大) spark官网 API http://spark.apache.org/docs/latest/api/scala/index.html#org.a 阅读全文
摘要:
一.输入文件类型设置为 CombineTextInputFormat hadoop spark (hadoop2.7及其以上版本有这个类,虽然2.6也可能用这个类,但不兼容,会出一些bug导致任务失败;或者直接就报错找不到类) 二.再配置以下参数: (如果设置了CombineTextInputFor 阅读全文
摘要:
集合讲的是数据,流讲的是计算。 流的数据处理功能支持类似于数据库的操作,以及函数式编程语言中的常用操作,如filter、 map、 reduce、 find、 match、 sort等。 流操作可以顺序执行,也可并行执行。 两大特性: 1.流水线 2.内部迭代 3.流只能消费一次 阅读全文