2012年6月8日

HDFS读写数据流

摘要: 一, 读文件剖析Configuration conf = new Configuration();FileSystem fs = FileSystem.get(conf);FSDataInputStream in = fs.open(new Path(uri));客户端调用FileSystem的get()方法得到一个实例fs(即分布式文件系统DistributedFileSystem),然后fs调用open()打开希望读取的文件(步骤1)DistributedFileSystem(fs)通过使用RPC调用NameNode以确定文件起始block的位置(步骤2)。(Block位置信息存储在nam 阅读全文

posted @ 2012-06-08 14:50 liangzh123 阅读(1149) 评论(0) 推荐(0)

2012年5月22日

MultipleOutputFormat和MultipleOutputs

摘要: 一,介绍1,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.MultipleOutputsMultipleOutputFormat allowing to write the output data to different output files.MultipleOutputs creates multiple OutputCollectors. Each OutputCollector can have its own OutputFormat and types 阅读全文

posted @ 2012-05-22 22:08 liangzh123 阅读(7582) 评论(2) 推荐(2)

2012年5月19日

DataJoin: Replicated join using DistributedCache

摘要: Reduce-side join比较灵活但效率不高,因为在数据在reduce端才作join,在网络中需要shuffle所有数据,而且在join时又丢掉很多无用的数据。如果能在map端执行join则会有较高的效率,但map不容易同时获得需要作join的多个记录。在实际的应用中,需要作join的数据源可能一个很大一个比较小,如果此小数据源小到能够放到mapper的内存中,并把此数据源拷贝到所有的mapper机器上,那就可以在map端执行join. 这就是Replicated join.Hadoop has a mechanism called distributed cache that’s de 阅读全文

posted @ 2012-05-19 16:04 liangzh123 阅读(416) 评论(2) 推荐(0)

2012年5月18日

DataJoin: Reduce-side join

摘要: 首先三个概念:A data source is analogous to a table in relational databases.( a single file or multiple files)tag:Tagging the record will ensure that specifi c metadata will always go along with the record.group key: like a join key in a relational database 两个数据源data sources: Customers ... 阅读全文

posted @ 2012-05-18 21:56 liangzh123 阅读(421) 评论(0) 推荐(0)

2012年4月19日

MapReduc操作HBase

摘要: 本文来自:http://qa.taobao.com/?p=13914实例分析本文通过实例分析演示了使用MapReduce分析HBase的数据,需要注意的这只是一种常规的方式(分析表中的数据存到另外的表中),实际上不局限于此,不过其他方式跟此类似。blog例子来进行示例分析,业务需求是这样:找到具有相同兴趣的人,我们简单定义为如果author之间article的tag相同,则认为两者有相同兴趣,将分析结果保存到HBase。除了上面介绍的blog表外,我们新增一张表tag_friend,RowKey为tag,Value为authors,大概就下面这样。blog示例:我们省略了一些跟分析无关的Col 阅读全文

posted @ 2012-04-19 19:52 liangzh123 阅读(3182) 评论(0) 推荐(0)

Jave操作HBase

摘要: import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.client.Dele 阅读全文

posted @ 2012-04-19 19:51 liangzh123 阅读(767) 评论(0) 推荐(0)

2012年4月6日

HBase shell 简单使用

摘要: 引言HBase提供了丰富的访问接口。 • HBase Shell • Java clietn API • Jython、Groovy DSL、Scala • REST • Thrift(Ruby、Python、Perl、C++…) • MapReduce • Hive/Pig其中HBase Shell是常用的便捷方式首先你需要一个HBase的环境,如果需要自己搭建可以参考http://hbase.apache.org/book/quickstart.html 和http://hbase.apache.org/book/notsoquick.html。如果你在windows环境下配... 阅读全文

posted @ 2012-04-06 15:45 liangzh123 阅读(6202) 评论(2) 推荐(1)

HBase简介

摘要: HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zook 阅读全文

posted @ 2012-04-06 14:36 liangzh123 阅读(347) 评论(0) 推荐(0)

linux安装HBase

摘要: (1) 编辑$HBASE_HOME/conf/hbase-env.sh文件,设置JAVA_HOME和HBASE_CLASSPATH变量 export JAVA_HOME=/usr/lib/jvm/java1.6.0_30 (自己的JAVA_HOME主目录) export HBASE_CLASSPAT... 阅读全文

posted @ 2012-04-06 14:25 liangzh123 阅读(2076) 评论(0) 推荐(1)

运行Hadoop遇到的问题

摘要: 1, 伪分布式模式不能用root?? 以root执行start-all.sh出现 localhost: Unrecognized option: -jvm localhost: Could not create the Java virtual machine. 下面是别人的解决方案:(可以修改的地方有两个) 第一个(次要的):$HADOOP_HOME/conf/hadoop-env.sh 修改参数: export HADOOP_HEAPSIZE=256 #默认值为1000M,为Java虚拟机占用的内存的大小 第二个(主要的):查看$HADOOP_HOME/bin/hadoop 源码: i.. 阅读全文

posted @ 2012-04-06 14:11 liangzh123 阅读(4729) 评论(0) 推荐(0)

导航