随笔分类 - 大数据
摘要:http://www.cnblogs.com/LBSer/p/4612031.html1 背景 如下图所示,1、2、3这三个点是汽车的GPS定位结果,尽管汽车是在道路上,但定位结果与道路存在偏差。地图匹配(Map Matching)是指将行车轨迹的经纬度采样序列与数字地图路网匹配的过程,其本质上...
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/4605904.html Kmeans算法是一种非监督聚类算法,由于原理简单而在业界被广泛使用,一般在实践中遇到聚类问题往往会优先使用Kmeans尝试一把看看结果。本人在工作中对Kmeans有过多次实践,进行过用户行为聚类(MapR...
阅读全文
摘要:大数据集群计算利器之MPI/OpenMP---以连通域标记算法并行化为例1 背景 图像连通域标记算法是从一幅栅格图像(通常为二值图像)中,将互相邻接(4邻接或8邻接)的具有非背景值的像素集合提取出来,为不同的连通域填入数字标记,并且统计连通域的数目。通过对栅格图像中进行连通域标记,可用于静态地分...
阅读全文
摘要:转载请引用:GPU---并行计算利器源于阿里巴巴CCO《猿来如此》分享1GPU是什么 如图1所示,这台PC机与普通PC机不同的是这里插了7张显卡,左下角是显卡,在中间的就是GPU芯片。显卡的处理器称为图形处理器(GPU),它是显卡的“心脏”,与CPU类似,只不过GPU是专为执行复杂的数学和几何计...
阅读全文
摘要:MPI 用MPI处理栅格(图像)数据,由于使用MPI过于复杂,因此实现了基于MPI的适用于地理栅格数据处理的并行编程模型,具体参考:一种支持多种并行环境的栅格地理计算并行算子。CUDA 用CUDA处理过图像数据,在带有gpu的普通笔记本上实现了十几倍的加速比。具体参考:多流向算法GPU并行化。M...
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/4129481.html一、问题 使用spark join两张表(5000w*500w)总是出错,报的异常显示是在shuffle阶段。14/11/27 12:05:49 ERROR storage.DiskBlockObjectWri...
阅读全文