摘要:
代码功能:使用sparkStreaming的updateByKey()方法统计一段时间里面接收到的文本中每个单词出现的次数。 checkpoint地址默认放在hdfs的用户目录下。 在虚拟机中使用dc -lk 9999 -v在9999端口上放入文本,StreamingContext的socketTe 阅读全文
摘要:
spark的默认url路径问题: spark默认从hdfs的当前用户目录下读取数据,即./目录,可以用/来改为hdfs的根目录,不用显式的写成 'hdfs:///192.168.16.128:9000/xx.csv' 的形式,但前提是在spark-env.sh中配置了hadoop配置文件夹的位置: 阅读全文