1.standalone是一个完整的分布式集群环境;standalone集群在进程上主要有三类进程:主节点master及昵称、从节点的worker进程、历史服务器哦historyserver(可选)

2.4040:是一个运行的application在运行的过程中临时绑定的端口,用以查看当前任务的状态。4040被占用会顺延到4041、4042等。4040是一个临时端口,当程序运行完成后,4040就会被注销

3.8080:默认是standalone下,master角色的web端口,u哦那个一查看当前master的状态

4.18080:默认是历史服务器的端口,由于每个程序运行完成后,4040端口就被注销了,以后想回看某个程序的运行状态就可以通过历史服务器查看,历史服务器长期稳定运行,可供随时查看被记录的程序的运行过程

5.standalone的运行原理:master和worker角色以独立的及昵称形式存在,并组成spark运行时环境

6.spark角色在standalone中的应用

    master角色:master进程
    worker角色:worker进程
    driver角色:以线程运行在master中
    executor角色:以线程运行在worker中

7.standalone如何提交spark应用

    bin/spark-submit --master spark://server:7077

8.一个spark程序会呗分成多个子任务运行,每个job会分成多个state来运行,每一个state内会分出多个task来执行具体任务