摘要:
项目开始用的是spark core操作rdd进行大数据计算,后来经过高人点拨使用spark sql,发现spark sql确实好用很多,留下一些笔记。。 在OReilly即将推出的力作《High Performance Spark》中有这样一段文字,我想看了后也能增加使用spark sql的决心。 阅读全文
摘要:
最近在调优程序,总要对比程序执行的时间,之前都是在程序片段前后加上时间然后相减。 今天看了别人写的代码,使用了trait混入,减少了很多同样代码,mark一下,也加深对trait混入的理解。 执行结果 阅读全文
摘要:
future可以实现多线程并发,使用起来简单,但是效果很好,直接看代码吧 结果如下: f1、f2、f3同时启动,说明实现了多线程并发 阅读全文
摘要:
case class,样例类,有人也叫条件类。 例如: case class Person(name:String, age:Int) 好用之处: 1.新建类实例不用new Person(..),直接用Person("qh",20) 2.自动定义好getXX方法,Person("qh",20).na 阅读全文
摘要:
Scala的Option[T]是容器对于给定的类型的零个或一个元件。Option[T]可完美替代Java中的null,可以是Some[T]或者None。 例如,Scala Map的get方法输出即为Option[T]。 使用Option最常用的方法是模式匹配。例如: 还有一个很重要的就是getOrE 阅读全文
摘要:
Spark 1.6.x的新特性Spark-1.6是Spark-2.0之前的最后一个版本。主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑。1. 性能提升根据 Apache Spark 官方 2015 年 Spark Survey, 阅读全文