摘要: 熟悉hadoop作业提交的人,只要明白streaming的参数就可以学会提交了,streaming提交作业比较灵活,支持多种语言,但是streaming有个缺陷就是,其封装的参数涉及到mapreduce类的就会默认其继承自org.apache.hadoop.mapred包中的类,因此继承自mapreduce包中的类不可用,但是有一个方法可以解决这个问题,就是将参数,通过-jobconf prop=value 的方式传进去。 这里的prop的名字必须是hadoop job file中那个名字。具体查看源代码。下面一片文章很好的展示了 stream 提交 python和c语言写的作业,可作为初学. 阅读全文
posted @ 2011-04-19 19:15 Angels-Wing 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 网站在Web 2.0时代,时常面临迅速增加的访问量(这是好事情),但是我们的应用如何满足用户的访问需求,而且基本上我们看到的情况都是性能瓶颈都是在数据库上,这个不怪数据库,毕竟要满足很大访问量确实对于任何一款数据库都是很大的压力,不论是商业数据库Oracle、MS SQL Server、DB2之类,还是开源的MySQL、PostgreSQL,都是很大的挑战,解决的方法很简单,就是把数据分散在不同的数据库上(可以是硬件上的,也可以是逻辑上的),本文就是主要讨论如何数据库分散存储的的问题。 目前主要分布存储的方式都是按照一定的方式进行切分,主要是垂直切分(纵向)和水平切分(横向)两种方式,当然,也 阅读全文
posted @ 2011-04-19 11:40 Angels-Wing 阅读(823) 评论(0) 推荐(0) 编辑
摘要: 最近,我们用hadoop做了很多批处理,然后意识到手动写mapreduce作业有多痛苦。有些工作流甚至需要多达10个作业顺序执行,才能实现我们的应用。这需要手动调整大量的中间数据和执行顺序。此外做过真正复杂的mapreduce作业的人都会感觉一直保持mapreduce的思维有多困难。幸运的是,我们发现一个很好的开源产品Cascading,这个缓解了很多问题。Cascading将mapreduce抽象为一个更自然的逻辑模型,提供了工作流管理层来控制中间数据和数据过期。Cascading的逻辑模型将mapreduce抽象为一个方便的元组,管道,丝锥模型(taps model),数据以元组的形式表示 阅读全文
posted @ 2011-04-15 15:16 Angels-Wing 阅读(775) 评论(0) 推荐(0) 编辑
摘要: Hadoop Ecosystem解决方案---数据仓库个人总结的一套基于hadoop的海量数据挖掘的开源解决方案.BI系统:Pentahopentaho是开源的BI系统中做得算顶尖的了.提供的核心功能如下: 报表功能: 可视化(client, web)的报表设计. 分析功能: 可以生成分析视图,作数据作动态分析. Dashboard功能: 可以定制动态图表(image/flash)页面. 调度功能: 可对指定的任务进行crontab式调度. e.g.: 定期发送日/周/月报 工作流: 任意组合复杂的任务流程. ETL: 原生提供在各种数据库之间进行数据提取/转换/导入,可以自行扩展数据源. w 阅读全文
posted @ 2011-04-14 18:56 Angels-Wing 阅读(244) 评论(0) 推荐(0) 编辑
摘要: Map/Reduce功能很强大,只要设定合理Key、Value,我们经常碰到的算法大部分都可以实现。假如能把下面几个算法问题,用Map/Reduce方式实现,那么Map/Reduce编程可以说已经运用很纯熟了。 初级篇0. 实现Word Count中级篇1. Map/Reduce方式实现矩阵相乘2. Map/Reduce方式实现PageRank算法3. Map/Reduce方式实现TF/IDF4. Map/Reduce实现图最短路径5. Map/Reduce实现最小生成树算法 6. Map/Reduce实现Aprori算法7. Map/Reduce实现 Kmeans算法你能做出来几个?  阅读全文
posted @ 2011-04-14 18:55 Angels-Wing 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 深入了解Hadoophadoop的mapreduce的作业运行的时候 会在hdfs上缓存数据,因此hdfs的io很大程度上影响mapreduce的执行效率HDFS是一种 覆盖型文件系统, Overlay file System. 文件分块存储,复制冗余存储是它的两个很重要的策略。HDFS的读:生成 FSDataInputStream对象,HDFS会在内存中建立 如下对象链表: 阅读全文
posted @ 2011-04-14 16:54 Angels-Wing 阅读(128) 评论(0) 推荐(0) 编辑