摘要:
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。
不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。
这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。 阅读全文