摘要:sed 命令sed -i ,-ngrep 命令awk命令
阅读全文
09 2014 档案
摘要:TCP/IPTCP/IP是个协议组,可分为三个层次:网络层、传输层和应用层。在网络层有IP协议、ICMP协议、ARP协议、RARP协议和BOOTP协议。在传输层中有TCP协议与UDP协议。在应用层有:TCP包括FTP、HTTP、TELNET、SMTP等协议 UDP包括DNS、TFTP等...
阅读全文
摘要:在启动Hadoop时,NameNode节点上会默认启动一个SecondaryNameNode进程,使用JSP命令可以查看到。SecondaryNameNode光从字面上理解,很容易让人认为是NameNode的热备进程。其实不是,SecondaryNameNode是HDFS架构中的一个组成部分。它并不...
阅读全文
摘要:1.修改conf/core-site.xml增加 fs.checkpoint.period 3600 The number of seconds between two periodic checkpoints. fs.checkpoint.size 67108864 The size of ...
阅读全文
摘要:一、配置1. 在masters文件中添加 Secondary节点的主机名。*注:masters文件用于指定secondary的主机而不是namenode,slaves用于指定datanode和tasktracker,namenode由core-site.xml fs.default.name指定,j...
阅读全文
摘要:单台master的配置hbase.mastermaster:60000这是我们通常配置的,这样就定义了master是的ip和端口。但是当我们需要配置多台master进行,我们只需要提供端口,因为选择真正的master的事情会又zookeeper去处理。多台master的配置hbase.master....
阅读全文
摘要:关于Hbase的集群管理http://www.linuxidc.com/Linux/2012-07/65909.htm1、如果只增加集群的存储量,建议增加Hadoopdatanode节点。方法:停掉集群包括hadoop和hbase,当然也可以不停掉,直接在hadoop namenode的配置文件Sl...
阅读全文
摘要:1.hbase的balance策略是region数量策略,即维持每个regionserver的region数量基本一致,这并未考虑一个table的region可能都落到一个refionserver的不好情况。这就需要开发者自己开发LoadBalancer插件。有三种策略:基于表Table级别的Bal...
阅读全文
摘要:HBase中有两张特殊的Table,-ROOT-和.META..META.:记录了用户表的Region信息,它可以有多高region(这的意思是说.META.表可以分 裂成多个region,和用户表一样)-ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region(也就是说...
阅读全文
摘要:http://www.tuicool.com/articles/iieIz2一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype creat...
阅读全文
摘要:关于如何设定数据块的大小,我们应用一段HFile源码中的注释:我们推荐将数据块的大小设置为8KB至1MB。大的数据块比较适合顺序的查询(比如Scan),但不适合随机查询,想想看,每一次随机查询可能都需要你去解压缩一个大的数据块。小的数据块适合随机的查询,但是需要更多的内存来保存数据块的索引(Data...
阅读全文
摘要:一,基本命令:建表:create 'testtable','coulmn1','coulmn2'也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '...
阅读全文
摘要:NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Clus...
阅读全文
摘要:这里面说的read既包括get,也包括scan,实际底层来看这两个操作也是一样的。我们将要讨论的是,当我们从一张表读取数据的时候hbase到底是怎么处理的。分二种情况来看,第一种就是表刚创建,所有put的数据还在memstore中,并没有刷新到hdfs上;第二种情况是,该store已经进行多次的fl...
阅读全文
摘要:计算topNwords的topology,用于比如trendingtopicsortrendingimagesonTwitter.实现了滑动窗口计数和TopN排序,比较有意思,具体分析一下代码Topology这是一个稍微复杂些的topology,主要体现在使用不同的grouping方式,fields...
阅读全文
摘要:http://edu.51cto.com/roadmap/view/id-29.htmlhttp://my.oschina.net/infiniteSpace/blog/308401大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图描述本路线图是一个专门针对大数据实时处理、Hadoop工...
阅读全文
摘要:vim 查找字符串出现的次数在所有行中查找 字符串 出现的次数:%s/字符串/&/gn在m和n行之间查找 字符串 出现的次数:m,ns/字符串/&/gn
阅读全文
摘要:一、安装MySQL 1、下载源码包 从mysql官网上下载linux下的source包mysql-5.0.51b.tar.gz,注意是下载GNU tar格式的,不是rpm包。 2、解包tarxvfmysql-5.0.51b.tar.gz 3、进入mysql目录cdmysql-5.0.51b 4、安装...
阅读全文
摘要:首先安装apache、mysql和php,依次顺序安装。1.apache、mysql的安装比较简单,略过2. php的安装,我安装的是php5.3.6内置了php-fpm,所以不需要再单独下补丁了。./configure –prefix=/usr/local/php5 /--with-mysql=/...
阅读全文
摘要:http://www.92csz.com/study/linux/16.htm1.apache在如下页面下载apache的for Linux 的源码包http://www.apache.org/dist/httpd/;存至/home/xx目录,xx是自建文件夹,我建了一个wj的文件夹。命令列表: c...
阅读全文
摘要:sed 命令可以很好的进行行匹配,但从某一行中精确匹配某些内容,则使用 grep 命令并辅以 -o 和 -E 选项可达到此目的。其中 -o 表示“only-matching”,即“仅匹配”之意。光用它不够,配合 -E 选项使用扩展正则表达式则威力巨大。比如下面有一条文本 tmp.txt ,其中内容为...
阅读全文
摘要:这节详细介绍awk内置函数,主要分以下3种类似:算数函数、字符串函数、其它一般函数、时间函数一、算术函数:以下算术函数执行与 C 语言中名称相同的子例程相同的操作:函数名说明atan2( y, x )返回 y/x 的反正切。cos( x )返回 x 的余弦;x 是弧度。sin( x )返回 x 的正...
阅读全文
摘要:HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
阅读全文
摘要:本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,...
阅读全文
|