随笔分类 - Spark
关于Spark的学习和应用
摘要:Spark - RDD(图文讲解) 1. 数据源准备 准备输入文件: $ cat /tmp/in apple bag bag cat cat cat 启动pyspark: $ ./spark/bin/pyspark 使用textFile创建RDD: >>> txt = sc.textFile("fi
阅读全文
摘要:Spark中各个角色的JVM参数设置 Spark中各个角色的JVM参数设置: 1,Driver的JVM参数:-Xmx,-Xms,如果是yarn-client模式,则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值,-Xmx,-Xms值一样大小;如果是yarn-cluster
阅读全文
摘要:spark-submit 提交任务及参数说明 spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 例子 一个最简单的例子,部署 spark standalone 模式后,提交到本地执行。 ./bin/spark-submit \ --
阅读全文