摘要:
RDD可以很好地适用于支持数据并行的批量分析应用,包括数据挖掘,机器学习,图算法等,因为这些程序通常都会在很多记录上执行相同的操作。RDD不太适合那些异步更新共享状态的应用,例如并行web爬行器。因此,我们的目标是为大多数分析型应用提供有效的编程模型,而其他类型的应用交给专门的系统。关于RDD详见:弹性分布式数据集:一种基于内存的集群计算的容(二):弹性分布式数据集(RDD)硬件环境:开发机器是 3台 Intel(R) Xeon(R) CPU E5440 @ 2.83GHz双核 2.8G 4G内存操作系统:Red Hat Enterprise Linux Server release 5.7 阅读全文