上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: 本文讲述如何使用datastax提供的spark-cassandra-connector来连接cassandra进行数据读取和更新。 阅读全文
posted @ 2014-09-02 21:48 徽沪一郎 阅读(3960) 评论(0) 推荐(1) 编辑
摘要: 本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读。 阅读全文
posted @ 2014-08-25 19:52 徽沪一郎 阅读(3456) 评论(0) 推荐(1) 编辑
摘要: 本文简要描述线性回归算法在Spark MLLib中的具体实现,涉及线性回归算法本身及线性回归并行处理的理论基础,然后对代码实现部分进行走读。 阅读全文
posted @ 2014-08-15 20:04 徽沪一郎 阅读(4846) 评论(3) 推荐(0) 编辑
摘要: 通过一个简明的Demo程序来说明如何使用scala中的PackratParsers 阅读全文
posted @ 2014-08-11 13:40 徽沪一郎 阅读(2278) 评论(0) 推荐(0) 编辑
摘要: WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现。 阅读全文
posted @ 2014-08-05 10:12 徽沪一郎 阅读(4318) 评论(0) 推荐(0) 编辑
摘要: Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。 本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说越仔细越好。 阅读全文
posted @ 2014-08-02 21:57 徽沪一郎 阅读(9933) 评论(3) 推荐(2) 编辑
摘要: ShuffleMapTask的计算结果保存在哪,随后Stage中的task又是如何知道从哪里去读取的呢,reduceByKey(_ + _)中的combine计算发生在什么地方,本文将为你一一揭晓。 阅读全文
posted @ 2014-07-24 12:58 徽沪一郎 阅读(4211) 评论(0) 推荐(1) 编辑
摘要: 本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。 阅读全文
posted @ 2014-07-21 23:36 徽沪一郎 阅读(3039) 评论(0) 推荐(1) 编辑
摘要: 上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。 阅读全文
posted @ 2014-07-17 13:47 徽沪一郎 阅读(10692) 评论(4) 推荐(3) 编辑
摘要: 今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢? 阅读全文
posted @ 2014-07-05 20:15 徽沪一郎 阅读(4620) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页