tneduts - 博客园

Device ehth0 is not present

摘要： context: 使用virtualbox 克隆了一个新硬盘，然后配为新建虚机的使用，但ifconfig只能发现lo，没有eth0 解决方案：当前系统是centos6.6 cd /etc/udev/rules.d rm –f 70-persistent-net.rules reboot 即可阅读全文

posted @ 2016-01-16 09:23 tneduts 阅读(233) 评论(0) 推荐(0) 编辑

Containers Reserved yarn resourcemanager

摘要： yarn rm的管理页面中显示了集群的概况，其中有一个指标叫Containers Reserved . 预留的容器，为什么会预留，集群的资源使用饱合，新的app请求的资源一般会进入pending状态，为什么需要预留，查阅资料说是，如果app申请的资源不太容易分配，比如新的app是一个计算密集型的，一个task需要6个vcores，其他任务需要一个，则刚释放的资源如果不预留，就会被其他任务... 阅读全文

posted @ 2016-01-15 17:42 tneduts 阅读(532) 评论(0) 推荐(0) 编辑

mapred-site.xml 配置在线更新

摘要：环境：ibm jdk , cdh2.35.0.2 需求：更新mapred-site.xml 中的mapreduce.map.java.opts 和 mapreduce.reduce.java.opts 中部分jvm相关的参数。主要是去掉原来使用的大页面参数 Xlp 和增大xms xmx参数目标：不重启集群的nodemanager进程，修改的mapred-site.xml中的项目是否会生... 阅读全文

posted @ 2016-01-13 20:38 tneduts 阅读(808) 评论(0) 推荐(0) 编辑

虚拟机群安装多个hadoop集群时遇到的问题

摘要：背景，原来在我的虚拟机集群（nn1,nn2)中安装的是cdh23502,后来做升级实验，升到cdh26550,因为生产中使用的环境是cdh23502，所以再次切换回去。切换的过程中，遇到一些问题，特记录于此。仍然共用原来的zookeeper 1 启动nodemanager的时候，报异常如下： FATAL org.apache.hadoop.yarn.server.nodemanage... 阅读全文

posted @ 2016-01-13 20:26 tneduts 阅读(1846) 评论(0) 推荐(0) 编辑

Hadoop2.6 datanode配置在线更新

摘要： datanode 的配置可以在线更新了，http://blog.cloudera.com/blog/2015/05/new-in-cdh-5-4-how-swapping-of-hdfs-datanode-drives/ 在大的hadoop生产集群中，每一台机器都会配置多块硬盘，而硬盘的损坏也是常态，如何让硬盘的损坏不影响正常的生产呢？如果在hdfs-site.xml中把 dfs.datan... 阅读全文

posted @ 2016-01-09 11:11 tneduts 阅读(486) 评论(0) 推荐(0) 编辑

记一次ganglia的故障分析 mem_report不显示

摘要： ganglia集群中mem_report不能正确显示，有的显示有些不显示。我通过web开发工具F12,获取生成图片的路径，然后加上&debug=3 显示发现： No matching metrics detected 然后根据这个线索在官网上找到一个类似的问题。 http://sourceforge.net/p/ganglia/mailman/message/29714277/ 其实... 阅读全文

posted @ 2016-01-06 09:54 tneduts 阅读(367) 评论(0) 推荐(0) 编辑

Linux 杂记

摘要：可以用sh -x strangescript来调试。可以使用sh -n your_script来检查语法，不执行。删除大的文件，直接使用rm可能会卡死，使用>/path/to/file ,然后 rm. xargs是给命令传递参数的一个过滤器,也是组合多个命令的一个工具. 它把一个数据流分割为一些足够小的块,以方便过滤器和命令进行处理. 由此这个命令也是后置引用的一个强有... 阅读全文

posted @ 2016-01-01 21:23 tneduts 阅读(222) 评论(1) 推荐(0) 编辑

Hadoop多硬盘配置时的注意事项

摘要： dfs.datanode.fsdataset.volume.choosing.policy org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy dfs.datanode.available-space-volume-choosing-policy.balanced-s... 阅读全文

posted @ 2016-01-01 14:20 tneduts 阅读(1403) 评论(0) 推荐(0) 编辑

spark-env.sh 配置示例

摘要： #spark-env.sh JAVA_HOME=/home/hadoop/app/jdk1.7.0_60 SCALA_HOME=/home/hadoop/app/scala-2.10.3 SPARK_HOME=/home/hadoop/app/spark-1.4.0 SPARK_PID_DIR=$SPARK_HOME/tmp HADOOP_CONF_DIR=/home/hadoop/app... 阅读全文

posted @ 2015-12-29 13:53 tneduts 阅读(16918) 评论(0) 推荐(1) 编辑

Nagios监控ganglia的指标

摘要：这是nagios与ganglia整合的一部分内容。通常我们会把ganglia的监控发送给一个主机，我们可以在这个主机上执行nc localhost 8649 可以获取到所有发往这个主机的信息，以xml的形式查看。 nagios监控ganglia的指标的方法就是使用这个思路，check_ganglia.py 先连通ganglia_host,然后获取所有的xml,然后再解析xml,解析的时候... 阅读全文

posted @ 2015-12-29 11:26 tneduts 阅读(972) 评论(0) 推荐(0) 编辑

ELK日志解决方案安装配置与使用

摘要：官方网站：https://www.elastic.co/products/elasticsearch logstash,elasticsearch,kibana作用如下： logstash:分布在每一台需要采集数据的节点上，需要一个配置文件来获取数据，输入主要支持file,输出支持gangalia，nagios,kafka,elasticsearch. 而且可以简单地配置，就可以把数据结构化... 阅读全文

posted @ 2015-12-25 16:55 tneduts 阅读(816) 评论(0) 推荐(0) 编辑

zookeeper 相关学习资料

摘要： zookeeper的配置：http://www.cnblogs.com/yuyijq/p/3438829.html zookeeper运维：http://blog.csdn.net/hengyunabc/article/details/19006911 官方指导文档：http://zookeeper.apache.org/doc/r3.4.5/zookeeperAdmin.html#sc_z... 阅读全文

posted @ 2015-12-23 15:37 tneduts 阅读(220) 评论(0) 推荐(0) 编辑

Hive分析hadoop进程日志

摘要：想把hadoop的进程日志导入hive表进行分析，遂做了以下的尝试。关于hadoop进程日志的解析使用正则表达式获取四个字段，一个是日期时间，一个是日志级别，一个是类，最后一个是详细信息，然后在hive中建一个表，可以用来方便查询。 2015-12-18 22:23:23,357 INFO org.apache.hadoop.yarn.server.nodeman... 阅读全文

posted @ 2015-12-22 14:01 tneduts 阅读(973) 评论(0) 推荐(0) 编辑

hadoop2.3cdh5.0.2 upgrade to hadoop2.5cdh5.5.0

摘要：两台机器，nn1,nn2搭建的ha,同时又担任nn,dn,rm,nm,jn,zkfc,zk等职能。以下是升级回滚再升级的记录。仅供参考，同时参考了cdh官网的说明，官网主要是使用CM的。 1 官网上下载hadoop2.6cdh5.5.tar包和hadoop的rpm包 rpm2cpio hadoop.rpm | cpio –div 可以从里面找到我们需要的native的文件。 2 ... 阅读全文

posted @ 2015-12-22 13:52 tneduts 阅读(196) 评论(0) 推荐(0) 编辑

Nagios check_logfiles插件的使用记录

摘要： 1 获取与安装https://labs.consol.de/assets/downloads/nagios/check_logfiles-3.7.4.tar.gz链接可能会失效，建议去官网下载。https://labs.consol.de/nagios/check_logfiles/阅读官网的使用说... 阅读全文

posted @ 2015-12-19 07:22 tneduts 阅读(565) 评论(0) 推荐(0) 编辑

Hadoop Kernel tunning

摘要： /etc/security/limits.conf @ochadoop soft nofile 102642 @ochadoop hard nofile 102642 @ochadoop soft nproc unlimited @ochadoop hard nproc unlimited @ochadoop soft memlock unlimited ... 阅读全文

posted @ 2015-12-16 07:30 tneduts 阅读(217) 评论(0) 推荐(0) 编辑

cloudera cdh native lib

摘要：如果通过命令行的方式安装cloudera 版本的hadoop,下载它的cdh版本。解压后执行，你会发现报warning,没有native的库，lib/native是空的。如何获取native的文件呢？ 1.cdh里面有src文件，可以编译生成native的包，不过这种方式非常难搞，需要网络环境，而且编译过程复杂，耗时较长。 2.去官网下载相应版本的hadoop rpm包，然后解压即可。... 阅读全文

posted @ 2015-12-14 19:47 tneduts 阅读(739) 评论(1) 推荐(0) 编辑

namenode metadata 备份与恢复实验

摘要： https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#dfsadmin -metasave filename Save Namenode's primary data structures to filename in the directory specifie... 阅读全文

posted @ 2015-12-14 15:44 tneduts 阅读(1567) 评论(0) 推荐(0) 编辑

Hadoop 基准测试与example

摘要： #pi值示例 hadoop jar /app/cdh23502/share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar pi 20 200 #生成数据第一个参数是行数第二个参数是位置 hadoop jar /app/cdh23502/share/hadoop/mapreduce2/hadoop-mapred... 阅读全文

posted @ 2015-12-10 22:16 tneduts 阅读(462) 评论(1) 推荐(0) 编辑

container error log

摘要： learn from error… Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#21 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134) at org.a... 阅读全文

posted @ 2015-12-10 13:32 tneduts 阅读(426) 评论(0) 推荐(0) 编辑

hadoop如何处理长时间运行不完成的map/reduce 任务?

摘要：如果某一个任务在某个节点上长时间不完成,怎么手动干预来处理这种情况?董西成博客上找到的回答:hadoop中有三种特殊的任务，failed task，killed task和speculative task.其中，failed task是由于硬件、程序bug等原因异常退出的任务，比如磁盘空间不足等，k... 阅读全文

posted @ 2015-12-10 10:53 tneduts 阅读(1218) 评论(1) 推荐(0) 编辑

nodemanager execute container fail many times

摘要： ttempt_1448915696877_13139_m_000141_0 100.00 FAILED map > map px42pub:8042 logs Wed, 09 Dec 2015 06:15:17 GMT Wed, 09 Dec 2015 06:20:32 GMT 5mins, 14s... 阅读全文

posted @ 2015-12-10 07:27 tneduts 阅读(510) 评论(0) 推荐(0) 编辑

Nagios 自定义插件与安装使用之监控dead datanodes

摘要：现在我使用nagios来监控hadoop的核心进程,rm,nm,dn,nn,zkfc,jn,zk等,但是有时候进程虽然还在,但是日志不刷新,web ui上可以看到有些datanodes节点已经变为dead状态,不服务.为了在nagios中显示出dead的datanodes我写了自定义的插件,在某一台... 阅读全文

posted @ 2015-12-08 11:16 tneduts 阅读(552) 评论(1) 推荐(0) 编辑

container的生命周期

摘要： Container启动过程主要经历三个阶段：资源本地化、启动并运行container、资源回收，其中，资源本地化指创建container工作目录，从HDFS下载运行container所需的各种资源（jar包、可执行文件等）等，而资源回收则是资源本地化的逆过程，它负责清理各种资源，它们均由ResourceLocalizationService服务完成的。启动container是由Containers... 阅读全文

posted @ 2015-12-08 08:22 tneduts 阅读(1270) 评论(0) 推荐(0) 编辑

hdfs 机架感知和复制因子的设置

摘要： dfs.replication 新更新的复制因子的参数对原来的文件不起作用。譬如说，原来的复制因子是2，则原来文件上传的时候就只有两个副本。现在把dfs.replication设置为3，重新启动hdfs.不会把原来2个副本的变成三个副本。如果你需要这样，请执行下面的命令： hadoop fs -setrep -R 3 / 如果你只有2个datanode，但是... 阅读全文

posted @ 2015-12-06 21:47 tneduts 阅读(1974) 评论(0) 推荐(0) 编辑

hdfs-site.xml demo

该文被密码保护。阅读全文

posted @ 2015-12-06 17:46 tneduts 阅读(2) 评论(0) 推荐(0) 编辑

Hadoop 文件的数量怎么比block的数量多？

摘要： Total files: 23 Total symlinks: 0 Total blocks (validated): 22 (avg. block size 117723 B) Minimally replicated blocks: 22 (100.0 %) Over-replicated blocks: 0 (0.0 %... 阅读全文

posted @ 2015-12-06 17:39 tneduts 阅读(1757) 评论(0) 推荐(0) 编辑

hadoop core-site.xml

摘要： fs.defaultFS hdfs://ochadoopcluster The name of the default file system. A URI whose scheme and authority determine the FileSystem implementatio... 阅读全文

posted @ 2015-12-06 08:42 tneduts 阅读(1411) 评论(1) 推荐(0) 编辑

nagios 自定义插件demo

摘要： #!/bin/bash loadavg=$( uptime | awk -F: '{print $4}' | xargs ) load1int=$( echo $loadavg | cut -d "." -f 1 ) load5int=$( echo $loadavg | awk -F, '{print $2}' | xargs | cut -d "." -f 1 ) load15int... 阅读全文

posted @ 2015-12-04 08:03 tneduts 阅读(298) 评论(0) 推荐(0) 编辑

关于hadoop 配置文件的一些实验

摘要：机器配置如下，两台机器,nn2,nn2,搭建基于QJM的高可用集群，zk集群。如果我在yarn-site.xml中配置的nodemanager的可用资源过少，其他配置如果不一致，那么就会造成提交的job,状态是Accepted,但是一直是unassigned,没有资源可以分配，所以就不能runnin... 阅读全文

posted @ 2015-11-28 20:55 tneduts 阅读(401) 评论(1) 推荐(0) 编辑

hadoop yarn configure

摘要： The minimum allocation for every container request at the RM, in MBs. Memory requests lower than this won't take effect, and the specified value will... 阅读全文

posted @ 2015-11-28 10:05 tneduts 阅读(242) 评论(0) 推荐(0) 编辑

hadooop 运维之 container error exit code 1

摘要： hadoop container exit code: 1在执行hadoop的时候，发现nodemanager 进程日志里面有这个错误。网上搜索，一般找到的都是yarn classspath配置的问题，这个有可能是别人造成此错误的原因。exit code 1.应该是表示map or reduce 刚... 阅读全文

posted @ 2015-11-26 10:56 tneduts 阅读(608) 评论(0) 推荐(0) 编辑

hadooop 配置多网卡提供跨网段服务

摘要： http://hortonworks.com/blog/multihoming-on-hadoop-yarn-clusters/https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.... 阅读全文

posted @ 2015-11-26 06:45 tneduts 阅读(1679) 评论(0) 推荐(0) 编辑

记一次hadoop datanode进程问题分析

摘要：症状：datanode进程还在，但是在web ui接口发现该节点已经被置为dead节点。监测datanode进程日志，开始时一直狂刷很忙，后来停止刷新日志。分析datanode进程日志，发现如下一些错误：datanode.DataNode: PacketResponder java.io.IOExc... 阅读全文

posted @ 2015-11-24 16:52 tneduts 阅读(2635) 评论(0) 推荐(0) 编辑

关于HADOOP HA 中DFSZKFC的理解

摘要： [转自uc技术博客：http://tech.uc.cn/?p=252]FC是要和NN一一对应的，两个NN就要部署两个FC。它负责监控NN的状态，并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利，因为最多只... 阅读全文

posted @ 2015-11-24 16:44 tneduts 阅读(534) 评论(1) 推荐(0) 编辑

Linux运维式具之pdsh

摘要：做系统运维的时候，我们经常需要同时在多台机器上执行相同的命令，这个时候可以使用类似pssh,pdsh的并行执行shell的工具。当然，之前在没有使用这些工具之前，如果有ssh无密码互访，我们可以自己写for循环来执行，但是自己写的for循环是串行， pdsh是并发。比如，当你接管一个新的大数据集群的时候，需要做的一件事情就是要熟悉所有的配置信息，以做到心中有数，在熟悉了主配置文件之后， ... 阅读全文

posted @ 2015-11-22 14:49 tneduts 阅读(1284) 评论(3) 推荐(0) 编辑

记一次linux服务器问题处理过程

摘要：本周二的时候，涛哥找我，说明了一件事，在安装ganglia的时候，发生的一个问题。在一台suse 10 sp1的服务器上，安装ganglia的一个依赖包，libconfuse.rpm,安装完成之后，执行任何命令都会出现段错误的提示，而且无法再次ssh登录，也无法直接console登录。ssh登录，提... 阅读全文

posted @ 2015-11-12 09:25 tneduts 阅读(479) 评论(1) 推荐(0) 编辑

Kafka原理与java simple producer示例

摘要： brokers和消费者使用zk来获取状态信息和追踪消息坐标。每一个partition是一个有序的，不可变的消息序列。只有当partition里面的file置换到磁盘文件以后，才开放给消费者来消费。每一个partition是跨服务器地被复制到其他地方，为了容错的目的。这个partition可以阅读全文

posted @ 2015-11-09 17:16 tneduts 阅读(1604) 评论(3) 推荐(0) 编辑

【转载】kafka的工作原理

摘要： http://www.ibm.com/developerworks/cn/opensource/os-cn-kafka/index.html 消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列，应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中，为... 阅读全文

posted @ 2015-11-08 10:40 tneduts 阅读(257) 评论(0) 推荐(0) 编辑

Python 基本类型转换

摘要： python 有关字符串处理有哪些好用的方法？reverse len 字符串分割，合并？截取？查找？ find index join split unicode字符串的表示 """在字符串中的使用？字符数组 unicode_string = u'this is a unicode string' 字符串的正则表达式查找替换？ import re py... 阅读全文

posted @ 2015-11-08 10:19 tneduts 阅读(246) 评论(0) 推荐(0) 编辑

导航

公告