摘要: 最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。 不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。 这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。 阅读全文
posted @ 2013-06-18 14:34 iBlaze 阅读(2790) 评论(0) 推荐(0) 编辑