随笔分类 -  Spark

Spark 是一种快速、通用、可扩展的大数据分析引擎
摘要:引言 spark 在读取 csv 文件时,可能会涉及到很多参数设置,这篇文章总结了 option 里面的参数,希望能够对你有所帮助 option 参数详解 参数 解释 sep 默认是, 指定单个字符分割字段和值 encoding 默认是uft-8通过给定的编码类型进行解码 quote 默认是“,其中 阅读全文
posted @ 2021-05-31 17:12 Binge-和时间做朋友 阅读(3113) 评论(0) 推荐(0) 编辑
摘要:安装准备 Spark 集群和 Hadoop 类似,也是采用主从架构,Spark 中的主服务器进程就叫 Master(standalone 模式),从服务器进程叫 Worker Spark 集群规划如下: node-01:Master node-02:Worker node-03:Worker 安装步 阅读全文
posted @ 2021-05-20 08:51 Binge-和时间做朋友 阅读(254) 评论(0) 推荐(1) 编辑
摘要:引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, 阅读全文
posted @ 2021-01-06 11:27 Binge-和时间做朋友 阅读(656) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示