学习内容:

  • 理解Spark Streaming与流式数据处理。
  • 学习MLlib中的基本机器学习算法。

学习进度:

  • 使用Spark Streaming处理实时数据流。
  • 使用MLlib进行简单的分类和回归分析。
  • import org.apache.spark.streaming._
    import org.apache.spark.streaming.twitter._

    val ssc = new StreamingContext(sparkConf, Seconds(10))
    val stream = TwitterUtils.createStream(ssc, None)
    stream.map(status => status.getText).print()
    ssc.start()
    ssc.awaitTermination()