大数据计算模型使用小结(持续添加)
MPI
用MPI处理栅格(图像)数据,由于使用MPI过于复杂,因此实现了基于MPI的适用于地理栅格数据处理的并行编程模型,具体参考:一种支持多种并行环境的栅格地理计算并行算子。
CUDA
用CUDA处理过图像数据,在带有gpu的普通笔记本上实现了十几倍的加速比。具体参考:多流向算法GPU并行化。
MapReduce
用MR处理过一些大规模的日志文件,实现数据清洗、聚合等工作。
Spark
用Spark来实现首页个性化推荐模型相关训练,包括feature工程、采样、模型训练(主要有逻辑斯谛回归、随机森林、SVM等)、模型评价(召回率、准确率、F1等指标)等工作。
转载请标明源地址:http://www.cnblogs.com/LBSer