随笔分类 - Spark
Spark 是一种快速、通用、可扩展的大数据分析引擎
摘要:引言 spark 在读取 csv 文件时,可能会涉及到很多参数设置,这篇文章总结了 option 里面的参数,希望能够对你有所帮助 option 参数详解 参数 解释 sep 默认是, 指定单个字符分割字段和值 encoding 默认是uft-8通过给定的编码类型进行解码 quote 默认是“,其中
阅读全文
摘要:安装准备 Spark 集群和 Hadoop 类似,也是采用主从架构,Spark 中的主服务器进程就叫 Master(standalone 模式),从服务器进程叫 Worker Spark 集群规划如下: node-01:Master node-02:Worker node-03:Worker 安装步
阅读全文
摘要:引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,
阅读全文