假期学习11

　　今天开始做实验六，Spark Streaming 编程初级实践。

　　对于Spark Streaming，Hadoop的MapReduce及Spark SQL等只能进行离线计算，无法满足实时性要求较高的业务需求，例如实时网站性能分析等，流式计算可以解决这些问题，spark Streaming就是现在常用的流式计算框架。spark Streaming原生地支持多种数据源的接入，可以与Spark MLLib、Graphx结合起来使用，具有高吞吐量，容错机制，数据可以从Kafka、flume、Twitter、zeroMQ、K inesis或者TCP的端口，同时能够被类似于使用map、reduce、join和window这种高级函数的算法所处理，最终，被处理过的数据能够被推送到磁盘、数据库。

　　以上就是Spark Streaming的解释。在实验里是需要安装测试Flume的，因为Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。之前安装过很多软件，照猫画虎，这个没出现什么问题。

posted @ 2020-02-11 22:21 Triassic 阅读(199) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

triassic

假期学习11

公告