徽沪一郎 - 博客园

2014年9月

摘要：本文讲述如何使用datastax提供的spark-cassandra-connector来连接cassandra进行数据读取和更新。阅读全文

posted @ 2014-09-02 21:48 徽沪一郎阅读(3970) 评论(0) 推荐(1) 编辑

2014年8月

摘要：本文就拟牛顿法L-BFGS的由来做一个简要的回顾，然后就其在spark mllib中的实现进行源码走读。阅读全文

posted @ 2014-08-25 19:52 徽沪一郎阅读(3462) 评论(0) 推荐(1) 编辑

摘要：本文简要描述线性回归算法在Spark MLLib中的具体实现，涉及线性回归算法本身及线性回归并行处理的理论基础，然后对代码实现部分进行走读。阅读全文

posted @ 2014-08-15 20:04 徽沪一郎阅读(4855) 评论(3) 推荐(0) 编辑

摘要：通过一个简明的Demo程序来说明如何使用scala中的PackratParsers 阅读全文

posted @ 2014-08-11 13:40 徽沪一郎阅读(2281) 评论(0) 推荐(0) 编辑

摘要： WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口，本文将简略的过一下其内部代码实现。阅读全文

posted @ 2014-08-05 10:12 徽沪一郎阅读(4355) 评论(0) 推荐(0) 编辑

摘要： Spark应用开发实践性非常强，很多时候可能都会将时间花费在环境的搭建和运行上，如果有一个比较好的指导将会大大的缩短应用开发流程。本篇主要讲述如何运行KafkaWordCount，这个需要涉及Kafka集群的搭建，还是说越仔细越好。阅读全文

posted @ 2014-08-02 21:57 徽沪一郎阅读(9939) 评论(3) 推荐(2) 编辑

2014年7月

摘要： ShuffleMapTask的计算结果保存在哪，随后Stage中的task又是如何知道从哪里去读取的呢，reduceByKey(_ + _)中的combine计算发生在什么地方，本文将为你一一揭晓。阅读全文

posted @ 2014-07-24 12:58 徽沪一郎阅读(4224) 评论(0) 推荐(1) 编辑

摘要：本文主要讲述在standalone cluster部署模式下，应用(Driver Application)所需要的资源是如何获得，在应用退出时又是如何释放的。阅读全文

posted @ 2014-07-21 23:36 徽沪一郎阅读(3048) 评论(0) 推荐(1) 编辑

摘要：上篇博文讲述了如何通过修改源码来查看调用堆栈，尽管也很实用，但每修改一次都需要编译，花费的时间不少，效率不高，而且属于侵入性的修改，不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。阅读全文

posted @ 2014-07-17 13:47 徽沪一郎阅读(10708) 评论(4) 推荐(3) 编辑

摘要：今天不谈Spark中什么复杂的技术实现，只稍为聊聊如何进行代码跟读。众所周知，Spark使用scala进行开发，由于scala有众多的语法糖，很多时候代码跟着跟着就觉着线索跟丢掉了，另外Spark基于Akka来进行消息交互，那如何知道谁是接收方呢？阅读全文

posted @ 2014-07-05 20:15 徽沪一郎阅读(4623) 评论(0) 推荐(0) 编辑