2018年3月25日

搭建一个IntelliJ的Spark项目

摘要: 之前发现创建一个新项目之后,无法添加scala class 创建新项目 选择maven项目,然后选择simple或者quickstart; 进入项目后,在Project Structure里面,在global libraries面板中,删除已有的scala-sdk,然后再添加; 然后再工程中添加sc 阅读全文

posted @ 2018-03-25 20:58 下士闻道 阅读(278) 评论(0) 推荐(0) 编辑

Spark开发

摘要: scala中的main函数 java.lang.NoSuchMethodError: scala.tools.nsc.interpreter.ILoop.main 在Object对象中,需要添加main函数才能够右键,run CacheLoader 添加了spark-network-common依赖 阅读全文

posted @ 2018-03-25 20:32 下士闻道 阅读(780) 评论(0) 推荐(0) 编辑

什么是spark(一) 分区以及和MR的区别

摘要: 什么是spark,是一个分布式计算平台,或者说是分布式计算引擎,他的职责就是将指定的数据读入到各个node的内存中,然后计算。所以spark是具有泛化性质的,只要数据源是可读入的,读到内存里面之后,处理就和数据源没有关系了,你是HBASE,kudu,还是parquet都无所谓了。 什么是RDD,弹性 阅读全文

posted @ 2018-03-25 20:17 下士闻道 阅读(1150) 评论(0) 推荐(0) 编辑

什么是spark(二) RDD

摘要: 其实你会发现很多概念都是基于RDD提出来的,比如分区,缓存这些操作的对象其实都是RDD;所以不要讲spark的分区,这其实很不专业,分区其实是属于RDD的概念(只有pair RDD才有分区概念) RDD在(一)已经介绍了RDD,本质上是数据的描述(检索条件)以及处理描述(算法);等待着Action调 阅读全文

posted @ 2018-03-25 20:09 下士闻道 阅读(198) 评论(0) 推荐(0) 编辑

什么是Spark(三)数据的加载和保存

摘要: Spark内置了一些常见的文件格式的处理,包括text/json,csv,sequence等;Spark对于文件处理保持了开放性,还提供了可以通过InputFormat,OutputFormat来进行文件处理;这样只要是Hdfs支持文件格式,一定有对应的Format,只要有Input/OutputF 阅读全文

posted @ 2018-03-25 19:54 下士闻道 阅读(312) 评论(0) 推荐(0) 编辑

导航