摘要: Spark-shell有两种使用方式: 1:直接Spark-shell 会启动一个SparkSubmit进程来模拟Spark运行环境,是一个单机版的。 2:Spark-shell --master Spark://hadoop1:7077,hadoop2:7077,hadoop3:7077 --to 阅读全文
posted @ 2017-01-06 13:06 水分子Andy 阅读(9714) 评论(0) 推荐(0) 编辑
摘要: 大数据离线部分 1、HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据 阅读全文
posted @ 2017-01-06 12:36 水分子Andy 阅读(2363) 评论(0) 推荐(1) 编辑