萌@宇

hadoop unit test 问题

摘要：最近搭建了hudson服务器用于跑unit test，按说这已经是轻车熟路毫无困难了，但是当ut自动跑起来的时候发现了一个错误。错误内容是 WARN Invalid directory in dfs.data.dir: Incorrect permission forbuild/test/data/dfs/data/data1, expected: rwxr-xr-x, while actual:rwxrwxr-x WARN Invalid directory in dfs.data.dir: Incorrect permission forbuild/test/data/dfs/dat... 阅读全文

posted @ 2012-03-26 14:11 萌@宇阅读(488) 评论(0) 推荐(0) 编辑

hadoop hdfs总结 NameNode部分 3 ----DatanodeDescriptor

摘要： DatanodeDescriptor是对DataNode的抽象，它是NameNode的内部数据结构，配合BlockMap和INode，记录了文件系统中所有Datanodes包含的Block信息，以及对应的INode信息。 DatanodeDescriptor继承自DatanodeInfo,DatanodeInfo继承自DatanodeID。一、DatanodeID DatanodeID有以下属性： public String name; /// hostname:portNumber public String storageID; /// unique per clus... 阅读全文

posted @ 2012-03-25 21:11 萌@宇阅读(1145) 评论(0) 推荐(0) 编辑

rsync 使用

摘要：公司采用rsync进行集群内的数据传输以及脚本运行，不同于前公司的ssh，scp直接开搞。记录一下使用方法：服务器已经装好，配置文件在/etc/rsyncd.conf rsync source(本地文件) $USER@IP::temp/temp/ 本地到远程其中，路径是在rsyncd.conf 配置的。 rsync $USER@IP::temp/temp/$somefilesource(本地文件) 远程到本地阅读全文

posted @ 2012-03-22 17:57 萌@宇阅读(198) 评论(0) 推荐(0) 编辑

SmartHost

摘要： SmartHosts是一个在Google Code上维护更新的Hosts文件。地址是http://code.google.com/p/smarthosts/ 阅读全文

posted @ 2012-03-21 13:09 萌@宇阅读(354) 评论(0) 推荐(0) 编辑

git 使用记录

摘要： 1、git reset --hard HEAD 取消本次提交，即add之后的所有提交至上一次commit的状态，会让git diff 和git diff --cached显示为空。2、git checkout $fileName 如果只想恢复一个文件，将上次提交的状态从HEAD签出并恢复成为修改状态。上面两种方式只是在文件只是add到本地的stage转台进行恢复。如果文件已经被commit了，那么恢复就是指创建一个新的提交并修改上次的错误。3、git revert HEAD 将上次commit的进行修复。即提交一次新的commit修改上次的commit。阅读全文

posted @ 2012-03-18 21:35 萌@宇阅读(179) 评论(0) 推荐(0) 编辑

hadoop hdfs总结 NameNode部分 2

摘要：二、BlocksMap部分在NameNode 介绍1中，说明了INode部分，INode抽象了NameNode中文件属性，与之相同的是Block部分，Block是对NameNode中实际存储的Block的抽象。这两部分构成了NameNode的最重要的元信息。 Block继承结构为基类Block,BlockInfo继承自Block,是BlocksMap的内部类，BlocksMap是BlockInfo的一个hashmap存储。首先说明一下BlockInfo的意义，在hdfs中，数据实际上是存储在DataNodes中的Block，每个Block是64M(可配置)，文件较大时对应需要多个Bl... 阅读全文

posted @ 2012-03-18 11:44 萌@宇阅读(701) 评论(0) 推荐(0) 编辑

java 类内存分配计算

摘要：因为跟同事大哥一起看一个社区的jira，不得不恶补了一下java的类内存分配与使用计算方法。原文请参照http://www.codeinstructions.com/2008/12/java-objects-memory-structure.html。不得不说，一件事情做进去真的越来越复杂。在c和c++中，程序员可以自由的操纵内存数据，包括内存分配，内存释放等等，在java中这些繁琐(或者也可以说其实不错)的特性完全由虚拟机搞定，不用再管内存分配回收，看起来相当爽，但是到底类占用了多少空间，如何计算，对于大内存应用的程序，如hadoop hbase等有十分现实的意义。首先描述一下内... 阅读全文

posted @ 2012-03-13 18:02 萌@宇阅读(700) 评论(0) 推荐(0) 编辑

hadoop hdfs总结 NameNode部分 1

摘要：一、INode部分先画了一下类图，比较简单。 1、INode是抽象类，有两个子类，INodeFile和INodeDirectory，对了了file和directory。 INode定义了一些基本属性，如name,parent,modificationTime,accessTime，还有ugi信息等。INode implements Comparable是可比较的，可以通过二分查找找到树状结构中对应的INode。此外，INode中重要的方法是public final ContentSummary computeContentSummary() ，计算该INode树状结构下的统计数据，如f.. 阅读全文

posted @ 2012-03-12 00:07 萌@宇阅读(1186) 评论(0) 推荐(0) 编辑

hadoop hdfs总结 NameNode部分-- 概述

摘要：以后的代码总结全部基于cloudera CDH3B2源码进行。 NameNode需要处理三部分工作： 1、NameNode需要对内存中的数据进行管理，包括有INode信息，Block信息，其中INode信息是间断性的向磁盘刷，进行固话，而Block信息则是在启动过程中从Datanode的心跳汇报中获得的。在这个过程中，还需要对日志进行处理，包括FSImage和Editlog。 2、与DataNode进行通信。 3、与Client进行通信。其中2、3是通过底层的IPC框架完成，2、3将会在后面对DataNode和Client进行介绍时详细说明。 hdfs的设计参照了linux ext文件系统. 阅读全文

posted @ 2012-03-11 09:22 萌@宇阅读(327) 评论(0) 推荐(0) 编辑