摘要: 项目开始用的是spark core操作rdd进行大数据计算,后来经过高人点拨使用spark sql,发现spark sql确实好用很多,留下一些笔记。。 在OReilly即将推出的力作《High Performance Spark》中有这样一段文字,我想看了后也能增加使用spark sql的决心。 阅读全文
posted @ 2017-02-15 23:27 JamieLybo 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 最近在调优程序,总要对比程序执行的时间,之前都是在程序片段前后加上时间然后相减。 今天看了别人写的代码,使用了trait混入,减少了很多同样代码,mark一下,也加深对trait混入的理解。 执行结果 阅读全文
posted @ 2017-02-06 23:38 JamieLybo 阅读(123) 评论(0) 推荐(0) 编辑
摘要: future可以实现多线程并发,使用起来简单,但是效果很好,直接看代码吧 结果如下: f1、f2、f3同时启动,说明实现了多线程并发 阅读全文
posted @ 2017-01-18 23:23 JamieLybo 阅读(886) 评论(0) 推荐(0) 编辑
摘要: case class,样例类,有人也叫条件类。 例如: case class Person(name:String, age:Int) 好用之处: 1.新建类实例不用new Person(..),直接用Person("qh",20) 2.自动定义好getXX方法,Person("qh",20).na 阅读全文
posted @ 2017-01-08 23:48 JamieLybo 阅读(442) 评论(0) 推荐(0) 编辑
摘要: Scala的Option[T]是容器对于给定的类型的零个或一个元件。Option[T]可完美替代Java中的null,可以是Some[T]或者None。 例如,Scala Map的get方法输出即为Option[T]。 使用Option最常用的方法是模式匹配。例如: 还有一个很重要的就是getOrE 阅读全文
posted @ 2017-01-08 23:34 JamieLybo 阅读(191) 评论(0) 推荐(0) 编辑
摘要: Spark 1.6.x的新特性Spark-1.6是Spark-2.0之前的最后一个版本。主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑。1. 性能提升根据 Apache Spark 官方 2015 年 Spark Survey, 阅读全文
posted @ 2016-12-19 22:41 JamieLybo 阅读(710) 评论(0) 推荐(0) 编辑