摘要:
SparkStreaming SparkStreaming是一种微批处理,准实时的流式框架。数据来源包括:Kafka, Flume,TCP sockets,Twitter,ZeroMQ等 SparkStreaming与storm的区别: SparkStreaming微批处理数据,storm按条处理数 阅读全文
摘要:
SparkSQL采用Spark on Hive模式,hive只负责数据存储,Spark负责对sql命令解析执行。
SparkSQL基于Dataset实现,Dataset是一个分布式数据容器,Dataset中同时存储原始数据和元数据(schema) 阅读全文
摘要:
spark 阅读全文