Spark解决什么问题?
海量数据的计算,可以进行离线批处理以及实时流计算
Spark有哪些模块?
核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming
)、图计算(GraphX)、机器学习(MLlib)
Spark特点有哪些?
速度快、使用简单、通用性强、多种模式运行
park的运行模式?
• 本地模式
• 集群模式(StandAlone、YARN、K8S)
• 云模式
Spark的运行角色(对比YARN)?
• Master:集群资源管理(类同ResourceManager)
• Worker:单机资源管理(类同NodeManager)
• Driver:单任务管理者(类同ApplicationMaster)
• Executor:单任务执行者(类同YARN容器内的Task)