2012 年 5月 14 日随笔档案 - Liqizhou

2012年5月14日

摘要：前面介绍一些怎样用户类制定自己的类，来达到减少中间数据：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成，需要多次mapreduce才能完成任务，例如Pagrank，Kmeans算法都需要多次的迭代，关于mapreduce迭代在mahout中运用较多。有兴趣的可以参考一下mahout的源码。在map/reduce迭代过程中，思想还是比较简单，就像类似for循环一样，前一个mapreduce的输出结果，作为下一个mapreduce的输.. 阅读全文

posted @ 2012-05-14 17:11 Liqizhou 阅读(18061) 评论(3) 推荐(3) 编辑

hadoop，用户制定类

摘要： mapreduce是一个很精巧的构思和设计，对于很多计算问题，程序员通常可以使用默认设置取处理诸多底层的细节，但是，这并不意味着在解决复杂问题时，程序员就可以完全使用这二个函数就可以搞定一切，它还需要更加复杂和灵活的处理机制以及高级的编程技术和方法。本节介绍hadoop中mapreduce比较高级的方法---用户制定类。为什么要用户自定义类，一种直观的猜测就是基本的mapreduce处理不了或者处理的效果不好，才有可能用到用户制定，随着深入的学习，这些问题到处可见。比如文档的倒排索引，制定(优化）的目的就是减少中间键，从而减少每次的读写I/O和网络的压力。1. 用户自定义数组类型虽然had. 阅读全文

posted @ 2012-05-14 15:55 Liqizhou 阅读(3653) 评论(0) 推荐(1) 编辑

HBase 简介

摘要： HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为阅读全文

posted @ 2012-05-14 11:39 Liqizhou 阅读(5015) 评论(0) 推荐(0) 编辑

公告