spark

spark支持语言: scala、paython、java    1:2:4 

  使用spark sql(中间的过滤、筛选)  三种性能一样。

 

spark 比 mapReduce快

  cpu与内存比为1:2,或者1:4

 

RDD:弹性数据分布集    5个特性      对RDD测操作:1、transformation   2、Action

 

spark.sparkContext

API:

  1:sc.textFile(""),从外部加载数据,返回的的是RDD类型     sc.textFile("").cache.count          备注:只有调用count时,才可以显示。

  sc.textFile("").collect

posted @ 2018-05-08 14:41  js王  阅读(355)  评论(0编辑  收藏  举报