摘要:
为什么要用集群?企业里面,多台机器 伪分布式 每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件, 都是主从架构 master-slaveHDFS读写请求都是先到NN节点,但是,HBase 读写请求不是经过master, 建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务 (-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active... 阅读全文
摘要:
core-site.xml fs.defaultFS hdfs://ruozeclusterg6 fs.trash.checkpoint.interval 0个路径中 --> hadoop.tmp.dir /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/tmp#hadoop.tmp.dir需要自己创建[hadoop@h... 阅读全文
摘要:
shell角度API角度Zookeeper可单节点,可分布式作用: distributed coordination(分布式协调)同一时间只有一个对外提供服务,另外的就是standy.当active挂了,就想standy切过来即可,无感知.监控节点的状态信息,完全可以用过zk来实现安装配置:$ tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/apps/... 阅读全文
摘要:
官网kafka.apache.org集群部署消息中间键 --> 分布式流式平台 Kafka StreamingFlume: 1个进程包含三个角色 source channle sinkKakfa: 每个进程对应一个角色 producer broker consumer Flume --> Kafka --> Spark Streaming/Fink (场... 阅读全文
摘要:
官网地址:https://azkaban.readthedocs.ioAzkaban 有三种部署方式:单服务模式、2个服务模式、分布式多服务模式简单实用仅需单服务模式即可2个服务模式,需要配置mysql, Azkaban使用MySQL来存储项目和执行它具有如下功能特点:1、Web用户界面2、方便上传工作流3、方便设置任务之间的关系4、工作流调度5、认证/授权6、能够杀死并重启工作流7、模块化和可... 阅读全文
摘要:
一、启动历史页面监控配置:$ vi spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop000:8020/g6_directory$ vi spark-env.shSPARK_HISTORY_OPTS="-Dspark.history.fs.log... 阅读全文