2013年10月26日
摘要: 工作中要使用HBase,刚刚开始接触HBase,理解不深,只是记录一下 。HBase基于google的bigtable论文实现,属于nosql。 几个概念:(1)列(column):最基本单位为列(column)(2)行健(row key):一列或多列形成一行,并有唯一的行健来确定存储(3)列族(column family):一行由若干列组成,若干列又构成一个列族特色:一个单元格中可以存放多条信息即不同版本,用时间戳来标识,不用sql语句操作,而是由API提供的命令执行。存储时,先写入log,在写入内存,在写入HFile。底层需要HDFS 和 zookeeper 支持。就这些吧,只是ma... 阅读全文
posted @ 2013-10-26 23:55 道法自然smile 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 前言这段时间在用hdfs,由于要处理的文件比较多,要及时产出旧文件,但是发现hdfs的blocks数一直在上涨,经分析是hdfs写入的速度较快,而block回收较慢,所以分心了一下hadoop删文件的流程,并做了调优,希望对遇到此类问题的程序猿们有帮助。正文 经分析与查看源码发现,hdfs删除文件的流程是这样的:(1)java程序中的DFSClient调用delete函数,删除文件 (2)NameNode将文件从他的namespace中删除(3)NameNode通过心跳的方式,发命令给DataNode,告诉DataNode哪些block块该删除,然后DataNode才真正将文件删除。当然这.. 阅读全文
posted @ 2013-10-26 23:32 道法自然smile 阅读(1143) 评论(0) 推荐(0) 编辑