摘要: 代码功能:使用sparkStreaming的updateByKey()方法统计一段时间里面接收到的文本中每个单词出现的次数。 checkpoint地址默认放在hdfs的用户目录下。 在虚拟机中使用dc -lk 9999 -v在9999端口上放入文本,StreamingContext的socketTe 阅读全文
posted @ 2021-01-11 18:49 风和雨滴 阅读(167) 评论(0) 推荐(0) 编辑
摘要: spark的默认url路径问题: spark默认从hdfs的当前用户目录下读取数据,即./目录,可以用/来改为hdfs的根目录,不用显式的写成 'hdfs:///192.168.16.128:9000/xx.csv' 的形式,但前提是在spark-env.sh中配置了hadoop配置文件夹的位置: 阅读全文
posted @ 2021-01-11 17:33 风和雨滴 阅读(804) 评论(9) 推荐(0) 编辑