摘要:
本文讲述如何使用datastax提供的spark-cassandra-connector来连接cassandra进行数据读取和更新。 阅读全文
摘要:
本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读。 阅读全文
摘要:
本文简要描述线性回归算法在Spark MLLib中的具体实现,涉及线性回归算法本身及线性回归并行处理的理论基础,然后对代码实现部分进行走读。 阅读全文
摘要:
通过一个简明的Demo程序来说明如何使用scala中的PackratParsers 阅读全文
摘要:
WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现。 阅读全文
摘要:
Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。
本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说越仔细越好。 阅读全文
摘要:
ShuffleMapTask的计算结果保存在哪,随后Stage中的task又是如何知道从哪里去读取的呢,reduceByKey(_ + _)中的combine计算发生在什么地方,本文将为你一一揭晓。 阅读全文
摘要:
本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。 阅读全文
摘要:
上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。 阅读全文
摘要:
今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢? 阅读全文