随笔分类 -  Spark

关于Spark的学习和应用
摘要:Spark - RDD(图文讲解) 1. 数据源准备 准备输入文件: $ cat /tmp/in apple bag bag cat cat cat 启动pyspark: $ ./spark/bin/pyspark 使用textFile创建RDD: >>> txt = sc.textFile("fi 阅读全文
posted @ 2020-12-15 10:43 整合侠 阅读(562) 评论(0) 推荐(0) 编辑
摘要:Spark中各个角色的JVM参数设置 Spark中各个角色的JVM参数设置: 1,Driver的JVM参数:-Xmx,-Xms,如果是yarn-client模式,则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值,-Xmx,-Xms值一样大小;如果是yarn-cluster 阅读全文
posted @ 2020-07-21 10:54 整合侠 阅读(2821) 评论(0) 推荐(0) 编辑
摘要:spark-submit 提交任务及参数说明 spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 例子 一个最简单的例子,部署 spark standalone 模式后,提交到本地执行。 ./bin/spark-submit \ -- 阅读全文
posted @ 2020-07-21 10:26 整合侠 阅读(3808) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示