tneduts - 博客园

HADOOP HA切换后出现ＭＳＳＩＮＧ　ＢＬＯＣＫ

摘要： HDFS HA切换后missing block问题分析今天因为调整一个ＮＮ的参数，所以切换一个ＡＣＴＩＶＥ的ＮＮ，发生了ＭＩＳＳＩＮＧ　ＢＬＯＣＫ。怀疑可能是ＥＤＩＴＬＯＧ没有同步完成，可能是误报。找到这http://blog.csdn.net/u011291159/article/detai 阅读全文

posted @ 2016-08-29 15:09 tneduts 阅读(308) 评论(0) 推荐(0) 编辑

高效常用的ＳＨＥＬＬ

摘要：１.大写转为小写echo "ALLUXIO_WORKER_MEMORY_SIZE" | tr -s '[:upper:]' '[:lower:]'2.case的时候可以使用正则#enable the regexp case matchshopt -s extglob 3;删除空行　替换掉注释掉的行阅读全文

posted @ 2016-08-24 07:00 tneduts 阅读(211) 评论(2) 推荐(0) 编辑

java md5

摘要：需求是，上传文件到ＨＤＦＳ，然后生成同名的ＭＤ５文件，基本示例如下：报数据的格式不正确，提示错误不是校验失败。阅读全文

posted @ 2016-08-20 09:27 tneduts 阅读(371) 评论(0) 推荐(0) 编辑

hadoop.home.dir is not set

摘要：今天遇到一个错误，ＪＡＶＡ堆栈如下：是在获取文件系统对象的时候出错，没有找到环境变量 HADOOP_HOME or hadoop.home.dir ，但是在本地一直没有重现这个问题。这个问题是一个小ＢＵＧ，在调用ＳＨＥＬＬ的时候一个静态初始化造成的，这个ＪＡＲ包是运行在客户端去ＨＤＦＳ拉取数据，阅读全文

posted @ 2016-08-18 09:48 tneduts 阅读(2647) 评论(0) 推荐(0) 编辑

/var/log/messages文件监控

摘要：近来项目中遇到一个问题,情况是这样的,我们使用ELK中的LOGSTASH来监控LINUX的系统日志文件:/var/log/messages文件,但这个文件默认的权限是600,这样很为难, 我们使用特定的日志收集用户启动LOGSTASH进程,这样对于没有权限的文件就无法监控了. 以下记录我寻找答案的经阅读全文

posted @ 2016-08-15 22:04 tneduts 阅读(3446) 评论(0) 推荐(0) 编辑

TAR,JAR,Zip的使用

摘要：在文件归档的时候,LINUX中,我常喜欢使用tar,它可以把一个文件夹归档为一个文件,可以同时使用指定的压缩算法把其压缩归档. 最常用的语句是: tar cvzf target.tar.gz source 注意这里的Z就是GZ压缩算法,解压的时候: tar xvzf target.tar.gz 即可阅读全文

posted @ 2016-08-13 08:14 tneduts 阅读(383) 评论(0) 推荐(0) 编辑

KAFKA一异常处理记录

摘要： kafka-console-consumer.sh --topic TOPIC_KEYWORD --from-beginning --zookeeper localhost报异常,Exception in thread "main" java.lang.NoSuchMethodError: kafk 阅读全文

posted @ 2016-07-30 08:50 tneduts 阅读(971) 评论(0) 推荐(0) 编辑

Linux配置本地无密码访问

摘要：本机配置无密码访问基本操作步骤: １.ssh-keygen (效果同ssh-keygen -t rsa 一样,也可以ssh-keygen -t dsa) 2.ssh-copy-id -i ~/.ssh/id_rsa.pub root@localhost 这两步基本上可以了,如果还是需要输出密码,则执阅读全文

posted @ 2016-07-27 21:36 tneduts 阅读(311) 评论(0) 推荐(0) 编辑

hdfs 通过NFSV3 加载至本地目录

摘要：常常会有这种需求,把HDFS的目录MOUNT到本地目录,然后方便使用LINUX下面的命令直接操作. FUSE也可以达到同样的效果,但是配置比较复杂,新的HADOOP版本都建议使用NFS3来完成这个需求. 要点记录, 1. CORE-SITE.XML 修改 <property> <name>hadoo 阅读全文

posted @ 2016-07-22 07:56 tneduts 阅读(349) 评论(0) 推荐(0) 编辑

JAVA开发过程中的各种小坑

摘要： 1.有时候你在本地跑的ECLIPSE中得到的正确的结果,部署到服务器上使用其他容器,如tomcat或WARS的时候,跑出的结果也许就不一致, 我们程序员会经常抱怨,在我机器上跑的好好的. 在不同的容器中,相同的代码有时候表现出不一致的结果,甚是需要注意,例如下面这个小例子. BeanFactoryC 阅读全文

posted @ 2016-07-13 08:02 tneduts 阅读(750) 评论(0) 推荐(0) 编辑

关于LogStash运行在AIX 64位机器上的问题与临时解决方案

摘要：需求;logstash运行在SUSE,LINUX,PPC LINUX,AIX机器上,并监控文件发送日志到KAFKA中去, 问题:在AIX机器上,file插件总是报异常,无法完成数据的读取 NotImplementedError: stat.st_dev unsupported or native s 阅读全文

posted @ 2016-07-10 22:17 tneduts 阅读(2217) 评论(5) 推荐(0) 编辑

添加文件到HDFS的集中缓存

摘要：需求是这样的，有一些文件，需要常驻内存，提高读取效率的情况下，可以使用HDFS的缓存机制进行预先缓存先添加POOL，然后添加需要缓存的文件即可 hdfs cacheadmin -addPool hdfstest hdfs cacheadmin -listPools hdfs cacheadmin -addDirective -path /jdk1.7.tar.gz ... 阅读全文

posted @ 2016-06-21 22:14 tneduts 阅读(311) 评论(0) 推荐(0) 编辑

hadoop从非HA转到NAMENODE HA时需要注意的一个问题

摘要：配置core-site.xml 配置hdfs-site.xml 配置mapred-site.xml 配置yarn-site.xml 纷发至其他节点修改RM 2 ..N 上面的节点信息格式化ZK hdfs zkfc -formatZK 初始化journalnode : hdfs namenode 阅读全文

posted @ 2016-05-31 12:24 tneduts 阅读(430) 评论(0) 推荐(1) 编辑

Redis3 本地安装集群的记录

摘要：引用CSDN文章环境 centos6.7 目标 redis 三主三从的集群 step 1 编译,如果出错,则根据提示安装依赖 tar -zxvf redis-3.0.0.tar.gz mv redis-3.0.0 redis3.0 cd /usr/local/redis3.0 make & make install 根据提示进行make test ... 阅读全文

posted @ 2016-05-23 07:39 tneduts 阅读(171) 评论(1) 推荐(0) 编辑

kafka集群安装

摘要：主要需要设置的是conf文件夹中的server.properties文件， broker.id,不同的机器节点，使用不同的id号，不能重复。 num.network.threads=8 num.partitions=8 配置环境变量 vi /home/ochadoop/.bash_profile e 阅读全文

posted @ 2016-05-11 07:52 tneduts 阅读(129) 评论(0) 推荐(0) 编辑

Git的使用的简单介绍

摘要：节选自：http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 git是一个分布式的引擎，相当于在本地有一个服务器，你先把你的改动commit到本地的，然后再push到主服务器上。同时如果你想要更新，则需要先在本地commit,然后再去pull. 创建仓库 mkdi... 阅读全文

posted @ 2016-04-08 20:32 tneduts 阅读(202) 评论(4) 推荐(0) 编辑

摘要： echo "test web hdfs how to use" >> foo.txt hdfs dfs -put foo.txt / HDFS启用webhdfs之后，可以在没有安装hadoop的机器上使用shell命令或cmd命令来获取文件：例如windows机器上可以使用： "C:\Program Files (x86)\Gow\bin\wget.exe" -O foo.tx... 阅读全文

posted @ 2016-04-06 14:59 tneduts 阅读(1577) 评论(0) 推荐(0) 编辑

Virtualbox虚机无法启动因断电

摘要： The virtual machine 'nn1' has terminated unexpectedly during startup with exit code 1 (0x1). More details may be available in 'C:\Users\student\VirtualBox VMs\Hadoop\nn1\Logs\VBoxHardening... 阅读全文

posted @ 2016-04-03 12:43 tneduts 阅读(1574) 评论(0) 推荐(0) 编辑

docker

摘要： docker pull centos docker images docker run -ti centos cat /etc/redhat-release ####################################################################### 阅读全文

posted @ 2016-03-27 15:14 tneduts 阅读(276) 评论(3) 推荐(0) 编辑

手动处理datanode磁盘间使用不均的问题

摘要： http://wiki.apache.org/hadoop/FAQ#On_an_individual_data_node.2C_how_do_you_balance_the_blocks_on_the_disk.3F 关于这个问题，Hadoop暂时未提供自动解决的方案，已经提上日程，jira上有记录。 hadoop wiki上提到了手动处理的解决方案。如上链接如示。问题描... 阅读全文

posted @ 2016-03-13 08:56 tneduts 阅读(571) 评论(0) 推荐(0) 编辑

Hadoop op 1)

摘要：设置yarn.scheduler.fair.user-as-default-queue =fasle, 就会阻止每一个用户使用自己默认的队列。设置yarn.scheduler.fair.allow-underclared-pools =true 就允许用户在执行任务的时候创建指定的不存在的队列。存储在sequencefile中的key value不一定需要是实现writable接口的类，所... 阅读全文

posted @ 2016-03-07 13:51 tneduts 阅读(348) 评论(0) 推荐(0) 编辑

Python class and function json

摘要： # coding=utf-8 __author__ = 'student' ''' how to define a class how to extend a class how to make a package how to import package how to define a method ''' str = u"我是中国人" print str class Calculat... 阅读全文

posted @ 2016-03-06 11:29 tneduts 阅读(266) 评论(0) 推荐(0) 编辑

scala Basic 第三课

摘要： yield 在学习c#的时候学习过这个关键字，和这时的语义是一致的。当你生成一个新的迭代器，而并不是想立刻使用，而是在其他地方使用的时候，可以延迟生成这个集合，这时候yield关键字可以帮你完成这样的功能。这就你是一个支票，可以让你在需要的时候向jvm取到集合数据。它是延迟实现的集合。 val a=for (i "one" case 2 => "... 阅读全文

posted @ 2016-03-05 20:56 tneduts 阅读(211) 评论(0) 推荐(0) 编辑

spark streaming kafka example

摘要： // scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.... 阅读全文

posted @ 2016-03-02 19:05 tneduts 阅读(1070) 评论(0) 推荐(0) 编辑

hadoop io PART1

摘要：数据正确性检测的技术，通常使用checksum，在数据进行传输前，计算一个checksum值，传输到目标地之后，再根据新的文件计算checksum值，如果不匹配，则说明数据损坏或被改变。只能校验，不提供修复方法。建议使用ECC内存，提高校验正确率,但这又和hadoop的设计初衷违背？常见的错误侦测码是CRC-32,HADOOP的ChecksumFileSystem 使用这个编码。 cod... 阅读全文

posted @ 2016-03-01 14:51 tneduts 阅读(165) 评论(0) 推荐(0) 编辑

elasticsearch 集群搭建

摘要：需要编辑的文件是config/elasticsearch.yml文件需要配置的项目有： # Use a descriptive name for your cluster: # cluster.name: Hadoop # # ------------------------------------ Node ------------------------------------ ... 阅读全文

posted @ 2016-02-29 22:57 tneduts 阅读(596) 评论(1) 推荐(0) 编辑

Scala编程第二课

摘要：函数式编程函数式编程，结构化编程，OO编程都是编程的方法论。函数式编程主要思想是把运算过程尽量写成一系列嵌套的函数调用。特点如下： 1。函数可以像其他数据类型一样使用可以可以赋值给其他变量，可以作为参数传入另一个函数或者作为别的函数的返回值 2。只用表达式，不用语句表达式是个单纯的运算过程，总是有返回值。语句是执行某种操作，没有返回值。 3。不修改状态 ... 阅读全文

posted @ 2016-02-29 15:58 tneduts 阅读(259) 评论(0) 推荐(0) 编辑

scala 第一课

摘要： val msg="Hello,World" Scala 可以根据赋值的内容推算出变量的类型。这在Scala语言中成为“type inference”。 Scala访问数组的语法是使用()而非[]。 Scala不支持++i和i++运算符，因此需要使用i += 1 来加一当你在某个值后面使用()时，Scala将其翻译成对应对象的apply方法 REPL scala 交互式编译的工具 ... 阅读全文

posted @ 2016-02-28 11:20 tneduts 阅读(166) 评论(0) 推荐(0) 编辑

Spark standlone安装与配置

摘要： spark的安装简单，去官网下载与集群hadoop版本相一致的文件即可。解压后，主要需要修改spark-evn.sh文件。以spark standlone为例，配置dn1,nn2为master,使用zookeeper的方式进行HA。配置如下： export JAVA_HOME=/app/jdk17079 export SCALA_HOME=/app/scala2105 expo... 阅读全文

posted @ 2016-02-23 16:05 tneduts 阅读(358) 评论(1) 推荐(0) 编辑

ganglia安装简记

摘要：首先需要安装EPEL的源。 yum install -y ganglia.x86_64 ganglia-gmetad.x86_64 ganglia-web.x86_64 ganglia-gmond.x86_64 yum install -y ganglia.x86_64 ganglia-gmond.x86_64 修改/etc/httpd/conf.d/ganglia.conf ... 阅读全文

posted @ 2016-02-23 07:50 tneduts 阅读(238) 评论(0) 推荐(0) 编辑

HADOOP HDFS的设计

摘要： Hadoop提供的对其HDFS上的数据的处理方式，有以下几种， 1 批处理，mapreduce 2 实时处理：apache storm, spark streaming , ibm streams 3 交互式: 如pig , spark shell 都可以提供交互式地数据处理 4 sql: hive , impala 提供接口，可以使用sql标准语言进行数据查询分析 5 迭代处理：尤其是... 阅读全文

posted @ 2016-02-22 17:32 tneduts 阅读(300) 评论(0) 推荐(0) 编辑

2016-02-16

摘要： Linux: 鸟哥的linux私房菜第一篇： Command -简写 --全称 shutdown -f (ignore fsck) -F(force fsck) -r (restart) reboot == shutdown -r now Halt Poweroff Man Info 用于查看命令相关的详细信息 /string向下查找相关的字符 ?string 向上查找相关的字... 阅读全文

posted @ 2016-02-16 08:29 tneduts 阅读(135) 评论(0) 推荐(0) 编辑

linux运行级别[转自网络]

摘要：运行级别就是操作系统当前正在运行的功能级别。级别是从0到6，具有不同的功能。这些级别定义在/ect/inittab文件中。这个文件是init 程序寻找的主要文件，最先运行的服务是那些放在/etc/rc.d目录下的文件。 Linux下有7个运行级别： 0 系统停机模式，系统默认运行级别不能设置为0，否则不能正常启动，机器关闭。 1 单用户模式，root权限，用于系统... 阅读全文

posted @ 2016-02-09 10:17 tneduts 阅读(266) 评论(0) 推荐(0) 编辑

ssh 无密码登录非相同用户

摘要：场景，机器A 用户a,想登录机器B ,机器B上没有用户a，有用户b。已知机器B的用户密码，可以这么做。实验：两台机器都是linux centos的系统。在机器A上生成a用户的密钥。 ssh-keygen –t rsa 一路回车生成密钥。进入/home/a/.ssh 可以看到id_rsa.pub ，cat 之后复制其内容。进入机器B,/home/b/.ssh vi aut... 阅读全文

posted @ 2016-01-27 07:29 tneduts 阅读(403) 评论(0) 推荐(0) 编辑

Ganglia安装扩容

摘要：现有的环境中Hbase集群的机器需要安装ganglia,遂采取了以下步骤。查看机器的信息， uname –a cat /etc/issue 查看当前环境是x86的，安装的是red hat 6.4 之前有一些集群也是x86,安装的是red hat 6.2 决定从已安装的集群中直接复制过来。步骤如下：选中一台安装gmond的节点即可， rpm –qa | grep gangli... 阅读全文

posted @ 2016-01-25 21:37 tneduts 阅读(306) 评论(0) 推荐(0) 编辑

Hadoop安装lzo实验

摘要：参考http://blog.csdn.net/lalaguozhe/article/details/10912527 环境：hadoop2.3cdh5.0.2 hive 1.2.1 目标：安装lzo 测试作业运行与hive表创建使用lzo格式存储之前安装试用snappy的时候，发现cdh解压后的native中已经包含了libsnappy之类的本地库，但是没有包含lzo. 所以lzo的使... 阅读全文

posted @ 2016-01-23 09:07 tneduts 阅读(800) 评论(0) 推荐(0) 编辑

关于mapreduce.map.java.opts

摘要： a) Update the property in relevant mapred-site.xml(from where client load the config). b) Import the mapred-site.xml configuration file in the job startup command line using "-conf mapred-site.xml"... 阅读全文

posted @ 2016-01-21 10:47 tneduts 阅读(9385) 评论(1) 推荐(0) 编辑

指定作业提交的优先级和队列

摘要： hadoop jar /home/ochadoop/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar pi -Dmapreduce.job.queuename=ochadoop 50 100 作业提交到的队列：mapreduce.job.queuename 作业优先级：mapre... 阅读全文

posted @ 2016-01-20 07:34 tneduts 阅读(3021) 评论(0) 推荐(0) 编辑

hadoop日常运维与升级总结

摘要：日常运维升级问题处理方法日常运维进程管理由于配置文件的更改，需要重启生效，或者是进程自己因某种致命原因终止，或者发现进程工作出现异常等情况下，需要进行手动进程的关闭或启动，或者是增删节点过程中的需要，进程的关闭与启动，使用 hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfc yarn-da... 阅读全文

posted @ 2016-01-19 08:30 tneduts 阅读(5631) 评论(1) 推荐(0) 编辑

Virtualbox配置双网卡

摘要： hadoop内部的虚拟机群，使用Host-Only 因为我之前一直是把三台虚机配置成桥接网络，可以同时上网又可以互通，但有一段时间，网络一直不通畅，造成hadoop核心进程一直关闭。最后为了稳定起见，我都改成了Hostonly的方式，这样hadoop通信很顺畅，但有时候需要访问网络就不方便。添加第两块网卡，然后做以下处理，第二块网卡选择桥接网络，（NAT我没有配成功) 这里有一点... 阅读全文

posted @ 2016-01-17 09:31 tneduts 阅读(1897) 评论(0) 推荐(0) 编辑

导航

公告