2015年3月12日

hadoop vs spark

摘要: http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的... 阅读全文

posted @ 2015-03-12 15:06 白乔 阅读(301) 评论(0) 推荐(0) 编辑

BSP模型

摘要: http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息... 阅读全文

posted @ 2015-03-12 11:29 白乔 阅读(1210) 评论(0) 推荐(0) 编辑

spark向量、矩阵类型

摘要: 先来个普通的数组:scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector:scala> import org.apache.spark.mllib.lin... 阅读全文

posted @ 2015-03-12 10:05 白乔 阅读(671) 评论(0) 推荐(0) 编辑

导航