摘要:
1 from pyspark import SparkContext,SparkConf 2 import sys 3 if __name__ == '__main__': 4 if len(sys.argv) != 2: 5 print("Usage: wordcount <input>",fil 阅读全文
摘要:
pycharm 内的环境变量配置 选择相应的spark程序文件的对应的配置信息 PYSPARK_PYTHON:python的安装路径 PYTHONPATH:spark安装路径下的python 提交pyspark应用程序 在$SPARK_HOME/bin 将HDFS上的文件作为参数传入 阅读全文
摘要:
RDD Opertions transformations:create a new dataset from an existing one RDDA --> RDDB actions: return a value to the driver program after running a co 阅读全文