Spark Streaming 单词计数

Receiver

从数据源接收数据，然后把数据存储在内存中供spark streaming使用，在本地运行spark streaming不能设置master为local或者local[1]，此时运行的线程只有一个，因为需要一个线程去运行Receiver接收数据，因此，就没有线程去处理数据了

代码

def main(args: Array[String]) {
 
    val conf = new SparkConf()
    conf.setAppName("SparkStreamDemo")<br>    // 不能使用local或者local[1]，k必须大于1，准确的说是大于Receiver的数量
    conf.setMaster("local[*]")
    val sc = new SparkContext(conf)
    // 创建StreamingContext 第二个参数是多长时间产生一个RDD
    val ssc = new StreamingContext(sc, Seconds(1))
 
    // 创建DStream
    val lines = ssc.socketTextStream("m1", 9050);
 
    val wordCounts = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)
 
    wordCounts.print()
 
    // 启动spark streaming
    ssc.start()
 
    // 等待计算结束
    ssc.awaitTermination()
 
  }

使用nc命令向m1 9050端口发送数据

如果nc命令不存在，首先安装nc命令

1、sudo yum list nc,发现nc命令在nc.x86_64中
2、安装nc， sudo yum -y install nc.x86_64

1	`nc` `-lk 9050`

然后一直输入数据，就可以看到控制台的数据输出

posted @ 2017-04-28 10:11 天之涯0204 阅读(411) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：天之涯0204
园龄： 11年6个月
粉丝： 7
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

相册

blog图片(2)

Spark Streaming 单词计数

Receiver

公告

搜索

常用链接

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论