摘要: 熟悉hadoop作业提交的人,只要明白streaming的参数就可以学会提交了,streaming提交作业比较灵活,支持多种语言,但是streaming有个缺陷就是,其封装的参数涉及到mapreduce类的就会默认其继承自org.apache.hadoop.mapred包中的类,因此继承自mapreduce包中的类不可用,但是有一个方法可以解决这个问题,就是将参数,通过-jobconf prop=value 的方式传进去。 这里的prop的名字必须是hadoop job file中那个名字。具体查看源代码。下面一片文章很好的展示了 stream 提交 python和c语言写的作业,可作为初学. 阅读全文
posted @ 2011-04-19 19:15 Angels-Wing 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 网站在Web 2.0时代,时常面临迅速增加的访问量(这是好事情),但是我们的应用如何满足用户的访问需求,而且基本上我们看到的情况都是性能瓶颈都是在数据库上,这个不怪数据库,毕竟要满足很大访问量确实对于任何一款数据库都是很大的压力,不论是商业数据库Oracle、MS SQL Server、DB2之类,还是开源的MySQL、PostgreSQL,都是很大的挑战,解决的方法很简单,就是把数据分散在不同的数据库上(可以是硬件上的,也可以是逻辑上的),本文就是主要讨论如何数据库分散存储的的问题。 目前主要分布存储的方式都是按照一定的方式进行切分,主要是垂直切分(纵向)和水平切分(横向)两种方式,当然,也 阅读全文
posted @ 2011-04-19 11:40 Angels-Wing 阅读(823) 评论(0) 推荐(0) 编辑