Liqizhou - 博客园

2012年5月25日

摘要：随着Hadoop的流行，其局限性也在一定程度体现，各大公司也在hadoop上做了很多修改，下面是雅虎对Hadoop下一代的重构计划。回顾海量数据业务中，使用数量少规模大的集群比使用数量多规模小集群的成本低。规模大的集群能处理大数据集，同时也能支持更多的任务和用户。 Apache Hadoop MapReduce框架大约能够支持4000台机器。下一代的Apache Hadoop MapReduce框架会纳入一个通用的资源调度器，用户可以自定义每一个应用程序的执行。相比早期，故障时间在大规模高可靠性的集群中代价更高，更大规模的集群上保证安全性和多重用户才能支持大规模的用户。新的架构要加强... 阅读全文

posted @ 2012-05-25 15:56 Liqizhou 阅读(3492) 评论(1) 推荐(0) 编辑

2012年5月17日

MapReduce操作HBase

摘要：运行HBase时常会遇到个错误，我就有这样的经历。ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times检查日志：org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch.(client = 42, server = 41)如果是这个错误，说明RPC协议不一致所造成的，解决方法：将hbase/lib目录下的hadoop-core的j 阅读全文

posted @ 2012-05-17 08:58 Liqizhou 阅读(32136) 评论(1) 推荐(2) 编辑

2012年5月16日

Hadoop,MapReduce操作Mysql

摘要：前以前帖子介绍，怎样读取文本数据源和多个数据源的合并：http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据，选择的关系数据库为MySql，因为它是开源的软件，所以大家用的比较多。以前上学的时候就没有用过开源的软件，直接用盗版，也相当与免费，且比开源好用，例如向oracle，windows7等等。现在工作了，由于公司考虑成本的问题，所以都用成开源的，ubuntu，mysql等，本人现在支持开源，特别像hadoop这样的东西，真的太好了，不但可以使用软件，也可以读到阅读全文

posted @ 2012-05-16 11:26 Liqizhou 阅读(26017) 评论(5) 推荐(2) 编辑

2012年5月15日

MapReduce，DataJoin，链接多数据源

摘要：主要介绍用DataJoin类来链接多数据源，先看一下例子，假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 孙三 021-5845-5875客户的订单号：Customer ID order ID Price Data2 1 93 2008-01-083 2 43 2012-01-211 ... 阅读全文

posted @ 2012-05-15 16:45 Liqizhou 阅读(8046) 评论(0) 推荐(1) 编辑

Hadoop，MapReduce，参数

摘要：下面介绍MapReduce的主要的六个类，只有了解了这六个类的作用，才能在编写程序中知道哪个类是要自己实现，哪些类可以调用默认的类，才能真正的做到游刃有余，关于需要自己编写的类（用户制定类）可以参考：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.htmlInputFormat类。该类的作用是将输入的文件和数据分割成许多小的split文件，并将split的每个行通过LineRecorderReader解析成<Key,Value>,通过job.setInputFromatClass()函数来设置，默认的情况为类Te 阅读全文

posted @ 2012-05-15 10:21 Liqizhou 阅读(7451) 评论(0) 推荐(0) 编辑

2012年5月14日

MapReduce，组合式，迭代式，链式

摘要：前面介绍一些怎样用户类制定自己的类，来达到减少中间数据：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成，需要多次mapreduce才能完成任务，例如Pagrank，Kmeans算法都需要多次的迭代，关于mapreduce迭代在mahout中运用较多。有兴趣的可以参考一下mahout的源码。在map/reduce迭代过程中，思想还是比较简单，就像类似for循环一样，前一个mapreduce的输出结果，作为下一个mapreduce的输.. 阅读全文

posted @ 2012-05-14 17:11 Liqizhou 阅读(18061) 评论(3) 推荐(3) 编辑

hadoop，用户制定类

摘要： mapreduce是一个很精巧的构思和设计，对于很多计算问题，程序员通常可以使用默认设置取处理诸多底层的细节，但是，这并不意味着在解决复杂问题时，程序员就可以完全使用这二个函数就可以搞定一切，它还需要更加复杂和灵活的处理机制以及高级的编程技术和方法。本节介绍hadoop中mapreduce比较高级的方法---用户制定类。为什么要用户自定义类，一种直观的猜测就是基本的mapreduce处理不了或者处理的效果不好，才有可能用到用户制定，随着深入的学习，这些问题到处可见。比如文档的倒排索引，制定(优化）的目的就是减少中间键，从而减少每次的读写I/O和网络的压力。1. 用户自定义数组类型虽然had. 阅读全文

posted @ 2012-05-14 15:55 Liqizhou 阅读(3653) 评论(0) 推荐(1) 编辑

HBase 简介

摘要： HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为阅读全文

posted @ 2012-05-14 11:39 Liqizhou 阅读(5015) 评论(0) 推荐(0) 编辑

2012年5月12日

Meanshift，聚类算法

摘要：记得刚读研究生的时候，学习的第一个算法就是meanshift算法，所以一直记忆犹新，今天和大家分享一下Meanshift算法，如有错误，请在线交流.Mean Shift算法,一般是指一个迭代的步骤,即先算出当前点的偏移均值,移动该点到其偏移均值,然后以此为新的起始点,继续移动,直到满足一定的条件结束. 阅读全文

posted @ 2012-05-12 14:02 Liqizhou 阅读(132849) 评论(19) 推荐(25) 编辑

2012年5月11日

Tri-training regression, 协同训练回归

摘要：本帖续贴（Tri-trianing ：http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496162.html）以往的半监督学习研究几乎都是关注分类问题 ,虽然在监督学习中回归问题的重要性不亚于分类问题,半监督回归却一直缺乏研究。如第二节所述,在半监督回归中由于示例的标记是实值输出,因此聚类假设不再成立,但半监督学习的流形假设仍然是成立的,而且因为回归输出通常具有平滑性,所以流形假设在回归问题中可能比在分类问题中更加有效。因此,如Zhu [Zhu06] 所述,一些基于流形假设的半监督学习技术,例如图正则化算法,在理论上是可以推广到半监督回归阅读全文

posted @ 2012-05-11 15:38 Liqizhou 阅读(3555) 评论(0) 推荐(0) 编辑

公告