随笔分类 - Hadoop技术相关
摘要:Hadoop+Spark集群部署指南 (多节点文件分发、集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slav
阅读全文
摘要:#!/bin/bash #作用:hdfs使用率取最大100个主机和最小80个主机进行数据均衡 #打印报告 hdfs dfsadmin -report>report.txt #截取主机名 cat report.txt | grep -i "hostname" | awk -F ': ' '{print
阅读全文
摘要:1.启动集群 bin/start-cluster.sh 2.jps查看进程 3.打开网页端(192.168.66.128:8081) 4.造数据:nc -lk 9000 5.执行./bin/flink run examples/streaming/SocketWindowWordCount.jar
阅读全文
摘要:1.1作业某个任务阻塞了,长时间占用资源不释放 1.2在MapTask任务运行完毕,ReduceTask运行过程中,某个MapTask节点挂了,或者某个MapTask结果存放的那磁盘坏掉了 在TaskTracker,每个任务会定期向TaskTracker汇报进度,如果进度不变则不汇报,这样一旦达到超
阅读全文
摘要:[Flink]Flink三种运行模式安装部署以及实现WordCount 前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2集群环境:Hadoop2.6开发工具: Intelli
阅读全文
摘要:1.hdfs目录配额 #设置配额目录hdfs dfsadmin -setSpaceQuota 10T /user/hive/warehouser/tmp查看配额目录信息hdfs dfs -count -q -h /user/hive/warehouser/tmp#清除配额目录信息hdfs dfsad
阅读全文
摘要:namenode机器磁盘IO负载持续承压,造成NAMENODE切换多次及访问异常。 1 初始化新机器1.1 在新器1.1.1.3部署hadoop软件(直接复制standby1.1.1.2节点)1.2 初始化/log,/data/等目录1.3 试启动namenode,zkfc,以便确认目录权限OK注:
阅读全文
摘要:Hadoop参数汇总 linux参数 以下参数最好优化一下: JVM参数 Hadoop参数大全 要配置文件: core hdfs yarn mapred 重要性表示如下: 重要 一般 不重要 core-default.xml hadoop.common.configuration.version 配
阅读全文
摘要:分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create table test.test28_partition(id string, name string)PAR
阅读全文
摘要:hadoop集群日常运维命令 #1.namenode hadoop namenode -format #格式化,慎用 su hdfs hadoop-daemon.sh start namenode hadoop-daemon.sh stop namenode #2.journalnode hadoo
阅读全文
摘要:DistCp(Distributed Copy)是用于大规模集群内部或者集群之间的高性能拷贝工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 DistCp是Apache Hadoop自带的
阅读全文
摘要:#curl http://xxx:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8020 #curl http://xxx:8088/jmx?qry=Hadoop:service=ResourceManager,name=Q
阅读全文
摘要:一、第一种方法 重启namenode(1.1.1.1 1.1.1.2)重启standby节点:1.1hadoop-daemon.sh stop zkfchadoop-daemon.sh stop namenodehadoop-daemon.sh start namenodehadoop dfsadm
阅读全文
摘要:一、datanode添加新节点 1.在dfs.include文件中包含新节点名称,该文件在名称节点的本地目录下 [白名单] [/app/hadoop/etc/hadoop/dfs.include] 2.在hdfs-site.xml文件中添加属性 <property> <name>dfs.hosts<
阅读全文
摘要:#!/bin/sh ip=xxx port=8088 export HADOOP_HOME=xxx rmstate1=$($HADOOP_HOME/yarn rmadmin -getServiceState rm1) rmstate2=$($HADOOP_HOME/yarn rmadmin -get
阅读全文
摘要:Yarn metrics参数说明 获取Yarn jmx信息:curl -i http://xxx:8088/jmx Hadoop:service=ResourceManager,name=FSOpDurationsHadoop:service=ResourceManager,name=JvmMetr
阅读全文
摘要:#!/bin/sh #yarn job status:NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED nnum=$(xx/yarn application -list -appStates NEW | wc -l) n
阅读全文
摘要:目前zookeeper获取监控指标已知的有两种方式: 1、通过zookeeper自带的 four letter words command 获取各种各样的监控指标 2、通过JMX Client连接zookeeer对外提供的MBean来 获取监控指标 (需要修改启动脚本,使其支持远程JMX连接) 上述
阅读全文
摘要:参考:http://www.lixiuliang.cn/categories/%E5%A4%A7%E6%95%B0%E6%8D%AE/ 1.修改bin/hive文件 添加jvm启动参数: 2.修改conf/hive-site.xml文件 开启MetaStore JXMReporter: 3.启动Me
阅读全文
摘要:1.hadoop-env.sh添加export HADOOP_JMX_OPTS="-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.port=6999 -Dcom.sun.manageme
阅读全文