随笔分类 - Spark Streaming
-
实时计算平台中的弹性集群资源管理
摘要:本文系微博运维数据平台(DIP)在实时计算平台的研发过程中集群资源管理方面的一些经验总结和运用,主要关注以下几个问题: 异构资源如何整合? 实时计算应用之间的物理资源如何隔离? 集群资源利用率如何提高? 集群运维成本如何降低? 1. 背景 这是我们初期的一个实时计算架构,大致划分为三个部分: (1) 阅读全文
-
Spark Streaming fileStream实现原理
摘要:fileStream是Spark Streaming Basic Source的一种,用于“近实时”地分析HDFS(或者与HDFS API兼容的文件系统)指定目录(假设:dataDirectory)中新近写入的文件,dataDirectory中的文件需要满足以下约束条件:(1)这些文件格式必须相同,... 阅读全文