假期学习11

  今天开始做实验六,Spark Streaming 编程初级实践。

  对于Spark Streaming,Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时网站性能分析等,流式计算可以解决这些问题,spark Streaming就是现在常用的流式计算框架。spark Streaming原生地支持多种数据源的接入,可以与Spark MLLib、Graphx结合起来使用,具有高吞吐量,容错机制,数据可以从Kafka、flume、Twitter、zeroMQ、K inesis或者TCP的端口,同时能够被类似于使用map、reduce、join和window这种高级函数的算法所处理,最终,被处理过的数据能够被推送到磁盘、数据库。

  以上就是Spark Streaming的解释。在实验里是需要安装测试Flume的,因为Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。之前安装过很多软件,照猫画虎,这个没出现什么问题。
posted @ 2020-02-11 22:21  Triassic  阅读(199)  评论(0编辑  收藏  举报