上一页 1 2 3 4 5 6 7 8 9 10 ··· 22 下一页
摘要: MapReduce 1. Map: (K, V) -> (K', V') 2. 合并相同K'值的项 (K', V') -> (K', V' *) 3. Reduce (K', V'*) -> 新的(K,V) Hadoop实现自动的 Fail-over, Redistribute M/R tasks Hadoop为Master/Slave结构 1 Master ( ... 阅读全文
posted @ 2010-04-27 22:12 searchDM 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 下面是Hadoop使用过程中常见错误及解决方法的汇总 (英文部分会后续转为中文) 1. Too many open files错误 有時候 Map Reduce 的工作跑一跑,會發現 datanode 突然都陣亡,去看 log 會發現很多 Too many open files 的錯誤: 2008-09-11 20:20:22,836 ERROR org.apache.hadoop.dfs.Da... 阅读全文
posted @ 2010-04-27 22:12 searchDM 阅读(1097) 评论(0) 推荐(0) 编辑
摘要: Hadoop脚本:重新初始化所有节点在Hadoop集群调试的初期,经常需要重新初始化HDFS,下面的脚本可以实现此点 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; $masters = f2a(HADOOP_HOME . '/conf/masters'); $slaves = f2a(HA... 阅读全文
posted @ 2010-04-27 22:11 searchDM 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 为方便用Streaming方式使用Hadoop,使用如下的脚本map_reduce.sh -------------------------------------- #!/bin/bash if [ $# -lt 3 ] then echo "Usage: map_reduce.sh <input> <output> <mapper> [reducer] [... 阅读全文
posted @ 2010-04-27 22:10 searchDM 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 还是PHP当道,自动从Hadoop集群的所有节点的Log中发现异常(ERROR),并打印出来 其中作法很简单,ssh到每个节点上用grep搜索,使用PHP的SSH2扩展库 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; function check_log($host, $match, $key... 阅读全文
posted @ 2010-04-27 22:10 searchDM 阅读(293) 评论(0) 推荐(0) 编辑
摘要: Hadoop:你所不知道的一些相关项目根据Hadoop Wiki上的说法很多公司都在用Hadoop,但是并没有多少可实质上借鉴的代码 而下面这些开源的基于Hadoop的项目你听说过吗? 0. Hadoop上的机器学习Mahout http://lucene.apache.org/mahout/ 1. Cascading: 类似管道状的工作流包装库,和 Pig 项目类似 http://www... 阅读全文
posted @ 2010-04-27 22:09 searchDM 阅读(355) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个海量数据处理平台, 以下是非常高质量的学习Hadoop的入门文章 : 1. InfoQ上的分布式计算开源框架Hadoop介绍 分为三章,系统性的介绍了Hadoop , HDFS结构、集群配置方法和编程。 2. IBM DeveloperWorks上的教程:用 Hadoop 进行分布式并行编程 ,也Hadoop Eclipse Plugin.是分为三部分(如果你找不到其他两部分,... 阅读全文
posted @ 2010-04-27 22:09 searchDM 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 有哪些项目能够PK目前最红的Hadoop? 以下是目前同Hadoop一样实现MapReduce分布式处理模式的项目: 1. Sector, 自己实现了类似GFS的文件系统和处理库,被用于处理TB级的天文数据,参见http://sector.sourceforge.net/ 其自称与Hadoop的PK结果如下: Hadoop Sector Storage Unit Blocks. Better... 阅读全文
posted @ 2010-04-27 22:07 searchDM 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 关于SaaS和Salesforce 过去,传统的软件必须有购买、安装、维护、升级软件等一系列自己建造的方式。但“随需应用”在线租用模式,使用户不再需要购买任何软件包和硬件,只需每年 支付一定费用,就可以通过互联网随时使用自己所需要的服务。同时,企业可以随时开通新账户、增加新的功能模块,软件应用更简单、灵活。这被业内称为 SaaS(Software as a Service... 阅读全文
posted @ 2010-04-27 22:06 searchDM 阅读(717) 评论(0) 推荐(0) 编辑
摘要: 1. Enomalism SourceForge上的开源项目,提供类似Amazon EC2的服务,实际上是一个虚拟机的管理平台 2. Euclyptus http://eucalyptus.cs.ucsb.edu/ UCSB ( University of California, Santa Barbara )的研究项目,提供与 Amazon EC2相同的接口 3. AppDrop http:... 阅读全文
posted @ 2010-04-27 22:06 searchDM 阅读(301) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 22 下一页