2018 年 3月 25 日随笔档案 - 张叫兽的技术研究院

搭建一个IntelliJ的Spark项目

摘要：之前发现创建一个新项目之后，无法添加scala class 创建新项目选择maven项目，然后选择simple或者quickstart；进入项目后，在Project Structure里面，在global libraries面板中，删除已有的scala-sdk，然后再添加；然后再工程中添加sc 阅读全文

posted @ 2018-03-25 20:58 张叫兽的技术研究院阅读(280) 评论(0) 推荐(0) 编辑

Spark开发

摘要： scala中的main函数 java.lang.NoSuchMethodError: scala.tools.nsc.interpreter.ILoop.main 在Object对象中，需要添加main函数才能够右键，run CacheLoader 添加了spark-network-common依赖阅读全文

posted @ 2018-03-25 20:32 张叫兽的技术研究院阅读(783) 评论(0) 推荐(0) 编辑

什么是spark（一）分区以及和MR的区别

摘要：什么是spark,是一个分布式计算平台，或者说是分布式计算引擎，他的职责就是将指定的数据读入到各个node的内存中，然后计算。所以spark是具有泛化性质的，只要数据源是可读入的，读到内存里面之后，处理就和数据源没有关系了，你是HBASE，kudu,还是parquet都无所谓了。什么是RDD，弹性阅读全文

posted @ 2018-03-25 20:17 张叫兽的技术研究院阅读(1154) 评论(0) 推荐(0) 编辑

什么是spark（二） RDD

摘要：其实你会发现很多概念都是基于RDD提出来的，比如分区，缓存这些操作的对象其实都是RDD；所以不要讲spark的分区，这其实很不专业，分区其实是属于RDD的概念（只有pair RDD才有分区概念） RDD在（一）已经介绍了RDD，本质上是数据的描述（检索条件）以及处理描述（算法）；等待着Action调阅读全文

posted @ 2018-03-25 20:09 张叫兽的技术研究院阅读(200) 评论(0) 推荐(0) 编辑

什么是Spark（三）数据的加载和保存

摘要： Spark内置了一些常见的文件格式的处理，包括text/json，csv，sequence等；Spark对于文件处理保持了开放性，还提供了可以通过InputFormat，OutputFormat来进行文件处理；这样只要是Hdfs支持文件格式，一定有对应的Format，只要有Input/OutputF 阅读全文

posted @ 2018-03-25 19:54 张叫兽的技术研究院阅读(313) 评论(0) 推荐(0) 编辑

下士闻道

搭建一个IntelliJ的Spark项目

Spark开发

什么是spark（一）分区以及和MR的区别

什么是spark（二） RDD

什么是Spark（三）数据的加载和保存

导航

公告

下士闻道

搭建一个IntelliJ的Spark项目

Spark开发

什么是spark（一） 分区以及和MR的区别

什么是spark（二） RDD

什么是Spark（三）数据的加载和保存

导航

公告

什么是spark（一）分区以及和MR的区别