摘要: SparkStreaming SparkStreaming是一种微批处理,准实时的流式框架。数据来源包括:Kafka, Flume,TCP sockets,Twitter,ZeroMQ等 SparkStreaming与storm的区别: SparkStreaming微批处理数据,storm按条处理数 阅读全文
posted @ 2019-11-01 09:02 小布大佬 阅读(375) 评论(0) 推荐(0) 编辑
摘要: SparkSQL采用Spark on Hive模式,hive只负责数据存储,Spark负责对sql命令解析执行。 SparkSQL基于Dataset实现,Dataset是一个分布式数据容器,Dataset中同时存储原始数据和元数据(schema) 阅读全文
posted @ 2019-11-01 09:01 小布大佬 阅读(791) 评论(0) 推荐(0) 编辑
摘要: spark 阅读全文
posted @ 2019-11-01 08:56 小布大佬 阅读(277) 评论(0) 推荐(0) 编辑