友情序言 to 《Learning Spark: Lightning-fast big data analytics》
摘要:友情序言获悉Spark最近要出书了,突然有很多感慨,心想不如写点东西出来,算是友情支持,也算是个人总结。观点尽量中立,内容尽量煽情。本着牛哥“站在巨人的肩膀上”的理论,在捧Spark之前,要先捧一下她的前辈们。大数据系统中最核心的莫过于分布式处理框架,因为框架负责job执行的方方面面,如job分解、task调度与执行、错误容忍、数据流等等。较早(04年发表)也是最重要的贡献是Google的MapReduce框架,她将函数式编程思想引入到分布式数据处理中,仅仅用两个函数(map和reduce)就解决了一大类的大数据批处理问题,用户也再也不用担心分布式带来的诸多系统层面问题。MapReduce缺点
阅读全文
posted @ 2013-04-27 13:07